banner

Nachricht

Jul 11, 2023

WELCHE

Scientific Reports Band 13, Artikelnummer: 12894 (2023) Diesen Artikel zitieren

Details zu den Metriken

Beim Fotografieren im echten Leben kommt es häufig zu ungleichmäßigen Lichtverhältnissen, beispielsweise bei Nachtaufnahmen, die sowohl dunkle Bereiche mit wenig Licht als auch überbelichtete Bereiche mit starkem Licht aufweisen können. Herkömmliche Algorithmen zur Verbesserung von Bereichen mit wenig Licht erhöhen auch die Helligkeit überbelichteter Bereiche, was sich auf den visuellen Gesamteffekt des Bildes auswirkt. Daher ist es wichtig, eine differenzierte Hervorhebung von Schwachlicht- und Hochlichtbereichen zu erreichen. In diesem Artikel schlagen wir ein Netzwerk namens Correcting Ungleichmäßige Beleuchtungsnetzwerk (CUI-Net) mit Sparse-Attention-Transformator und Faltungs-Neuronales Netzwerk (CNN) vor, um Merkmale bei schwachem Licht besser zu extrahieren, indem Merkmale bei starkem Licht eingeschränkt werden. Konkret besteht CUI-Net aus zwei Hauptmodulen: einem Low-Light-Enhancement-Modul und einem Hilfsmodul. Das Erweiterungsmodul ist ein Hybridnetzwerk, das die Vorteile von CNN und Transformer-Netzwerk kombiniert, wodurch Probleme mit ungleichmäßiger Beleuchtung gemildert und lokale Details besser hervorgehoben werden können. Das Hilfsmodul wird verwendet, um die Verbesserungsergebnisse mehrerer Erweiterungsmodule während der Trainingsphase zu konvergieren, sodass während der Testphase nur ein Erweiterungsmodul benötigt wird, um die Inferenz zu beschleunigen. Darüber hinaus wird in diesem Artikel Zero-Shot-Learning verwendet, um sich an komplexe ungleichmäßige Beleuchtungsumgebungen anzupassen, ohne dass gepaarte oder ungepaarte Trainingsdaten erforderlich sind. Um die Wirksamkeit des Algorithmus zu validieren, haben wir ihn schließlich an mehreren Datensätzen unterschiedlichen Typs getestet. Der Algorithmus zeigte eine stabile Leistung und demonstrierte seine gute Robustheit. Darüber hinaus haben wir durch die Anwendung dieses Algorithmus auf praktische visuelle Aufgaben wie Objekterkennung, Gesichtserkennung und semantische Segmentierung und den Vergleich mit anderen hochmodernen Bildverbesserungsalgorithmen bei schlechten Lichtverhältnissen seine Praktikabilität und Vorteile demonstriert.

Die Bildverbesserung bei schlechten Lichtverhältnissen wird seit vielen Jahren untersucht und hat wichtige Anwendungen in Bereichen wie der nächtlichen Videoüberwachung und autonomen Fahrzeugen. Daher bietet die Verwendung von Bildverbesserungsalgorithmen bei schlechten Lichtverhältnissen zur Wiederherstellung von Bildern bei schlechten Lichtverhältnissen in Bilder bei normalem Licht eine solide Grundlage für nachfolgende Sehaufgaben auf hoher Ebene, wie z. B. Objekterkennung, Objektverfolgung und semantische Segmentierung. Gleichzeitig ist die Bildverbesserungstechnologie bei schlechten Lichtverhältnissen auch in Bereichen wie der militärischen Sicherheit und der Tiefseeforschung unverzichtbar1.

Herkömmliche Methoden2,3,4,5,6,7 zur Bildverbesserung bei schlechten Lichtverhältnissen basieren typischerweise auf Histogrammausgleich und Retinex-basierten Ansätzen. Diese Methoden erhöhen in gewisser Weise die Helligkeit von Bildern bei schlechten Lichtverhältnissen, leiden jedoch häufig unter übermäßiger Verstärkung und Detailverlust sowie übermäßigem Rauschen und Farbverzerrungen aufgrund der Reduzierung der Graustufen, der Komplexität der Szene und instabilem Vorwissen Extraktion1.

Mit der Verbesserung der Computerhardwaretechnologie wurde die Geschwindigkeit der Datenverarbeitung erheblich erhöht. Viele Deep-Learning-basierte Methoden8,9,10,11,12,13 haben eine gute Leistung im Bereich der Bildverbesserung bei schlechten Lichtverhältnissen gezeigt. Derzeit basieren die meisten Bildverbesserungsmethoden bei schlechten Lichtverhältnissen auf Faltungs-Neuronalen Netzen (CNNs), die die Zuordnungsbeziehung von Bildern bei schlechten Lichtverhältnissen zu Bildern bei normalem Licht aus einer großen Datenmenge durch sorgfältig entworfene CNN-Strukturen lernen. Das begrenzte Empfangsfeld während der Faltungsoperation in CNNs kann jedoch die Pixelbeziehungen über große Entfernungen im Eingabebild nicht vollständig berücksichtigen, was sich auf den Bildverbesserungseffekt auswirkt14. Der Selbstaufmerksamkeitsmechanismus15,16 in Transformers17,18,19,20,21 kann dieses Problem lösen. Der Selbstaufmerksamkeitsmechanismus modelliert weitreichende Abhängigkeiten, wodurch Bilddetails besser erhalten und die Auswirkungen von Rauschen reduziert werden können, wodurch die Bildqualität verbessert wird22. Transformatorbasierte Methoden haben bei Sehaufgaben auf niedriger Ebene wie der Bild-Superauflösung23,24, der Bildentrauschung25 und der Bildenttrübung26 wichtige Fortschritte gemacht. Derzeit werden verwandte Transformer-Methoden27,28 auch auf die Bildverbesserung bei schlechten Lichtverhältnissen angewendet und haben eine gute Leistung erzielt, da sie nicht-lokale Informationen besser modellieren können, um eine qualitativ hochwertige Bildrekonstruktion zu erreichen. Allerdings verbessern diese Methoden die lokalen Merkmale des Bildes nicht gut, was CNNs auszeichnen. Daher haben neuere Forscher29,30,31 versucht, CNN- und Transformer-Netzwerke zu kombinieren, um ihre Vorteile zu kombinieren und die Leistung der entsprechenden Aufgaben zu verbessern. Für Aufgaben zur Verbesserung bei schlechten Lichtverhältnissen muss das Design der Netzwerkarchitektur an die Eigenschaften von Bildern bei schlechten Lichtverhältnissen angepasst werden, die mehr Merkmale bei schlechten Lichtverhältnissen als bei hohen Lichtverhältnissen aufweisen. Gleichzeitig sind für Aufgaben zur Verbesserung bei schlechten Lichtverhältnissen in realen Szenen Zero-Shot-Learning32-Methoden erforderlich, um anspruchsvolle Sehaufgaben in realen Szenen, in denen gepaarte Datensätze fehlen, besser zu lösen. Insbesondere bedeutet Zero-Shot-Lernen, dass während des Trainings keine gepaarten oder ungepaarten Daten benötigt werden.

Die wesentlichen Beiträge dieser Studie sind sorgfältig darauf ausgerichtet, das Problem der ungleichmäßigen Beleuchtung zu bekämpfen. Transformatoren können mit ihrem globalen Aufmerksamkeitsmechanismus weitreichende Pixelbeziehungen in einem Eingabebild umfassend verarbeiten. Allerdings erfordert der traditionelle Selbstaufmerksamkeitsmechanismus eine hohe Menge an Rechenressourcen und seine Vielzahl an Parametern könnte zu einer Überanpassung führen. Andererseits werden CNN-Netzwerke dafür geschätzt, lokale Funktionen zu verbessern und ihre Robustheit aufrechtzuerhalten. Dennoch haben sie Schwierigkeiten, globale Kontextinformationen zu erfassen. Die Integration dieser beiden Netzwerke könnte ohne durchdachtes Design des CNN-Netzwerks zu einem ineffektiven Lernen globaler Informationsmerkmale führen, die vom Transformer-Netzwerk generiert werden.

Mit dem Ziel, die Vorteile der lokalen Merkmalsextraktion von CNN und der globalen Modellierung von Transformer zu vereinen, weist das in dieser Studie vorgestellte Netzwerk spezifische Verbesserungen auf. Die Komplexität des Transformer-Moduls nimmt mit steigender Bildauflösung linear und nicht quadratisch zu, was eine effiziente Erfassung kontextbezogener Informationen erleichtert. Die Transformer-Klassenstruktur des CNN-Moduls ist so konzipiert, dass sie sich besser auf die vom Transformer extrahierten Merkmale konzentriert, wodurch die Schwierigkeiten bei der globalen Informationsbeschaffung ausgeglichen und somit die Effizienz des Modells verbessert wird33. Während des Entwicklungsprozesses wurden Ablationsexperimente durchgeführt und mehrere Kombinationen getestet, bevor die in diesem Dokument vorgestellte Netzwerkarchitektur fertiggestellt wurde.

Insbesondere der Kanalaufmerksamkeitsmechanismus des Hilfsmoduls und des Multi-Dconv-Head-Sparse-Attention-Moduls (MDSA), die in dieser Forschung entwickelt wurden, adressieren in gewissem Maße das Problem der hohen zeitlichen und räumlichen Komplexität, die herkömmlichen Transformatoren innewohnt. Die Einführung des Sparse-Attention-Mechanismus ermöglicht ein tieferes Verständnis und eine bessere Handhabung der lokalen Merkmale im Bild. Bei Verbesserungsaufgaben bei schlechten Lichtverhältnissen können übermäßig helle lokale Merkmale die Fähigkeit des Modells beeinträchtigen, andere kritische Merkmale bei schlechten Lichtverhältnissen zu erfassen. Um dieses Problem zu mildern, wird das MDSA-Modul für eine präzisere Darstellung lokaler Merkmale und zur Steigerung ihrer Verbesserungsfähigkeit eingesetzt. Dies markiert die erste Anwendung des verbesserten Sparse-Attention-Mechanismus bei Verbesserungsaufgaben bei schlechten Lichtverhältnissen.

Abbildung 1 zeigt, dass in ungleichmäßig beleuchteten Umgebungen mit wenig Licht herkömmliche Selbstaufmerksamkeitsmechanismen oder gewöhnliche Mechanismen mit geringer Selbstaufmerksamkeit dazu neigen, den primären Fokus und das Gewicht auf die Highlight-Funktionen zu legen, was für Verbesserungsaufgaben bei schlechten Lichtverhältnissen nicht ideal ist. Der in dieser Studie angewandte Mechanismus der spärlichen Selbstaufmerksamkeit verlagert das Hauptgewicht ordnungsgemäß auf Merkmale bei schlechten Lichtverhältnissen und reduziert gleichzeitig effektiv das Gewicht von Hervorhebungsmerkmalen, wodurch die Leistung des Modells bei Verbesserungsaufgaben bei schlechten Lichtverhältnissen erheblich verbessert wird. Diese in den ursprünglichen Methoden unerforschte Methode steht für innovatives Denken.

Es zeigt die Handhabungsstrategien verschiedener Aufmerksamkeitsmechanismen unter den Bedingungen ungleichmäßig beleuchteter Umgebungen mit wenig Licht. Der traditionelle Selbstaufmerksamkeitsmechanismus legt seinen Schwerpunkt im Allgemeinen lieber auf Highlight-Features. Darüber hinaus tendiert der herkömmliche Mechanismus der spärlichen Selbstaufmerksamkeit dazu, einen erheblichen Teil der Gewichte auf die Highlight-Features zu konzentrieren. Ein solcher Ansatz ist für Verbesserungsaufgaben bei schlechten Lichtverhältnissen nicht ideal, da er zu einer Tendenz zur Überbelichtung in hellen Bereichen führt und gleichzeitig eine ausreichende Verbesserung von Details in Bereichen mit schlechten Lichtverhältnissen verhindert. Unser vorgeschlagener Mechanismus der spärlichen Selbstaufmerksamkeit weicht jedoch von dieser Norm ab. Es ist in der Lage, den Großteil der Gewichtungen angemessen auf Features mit wenig Licht zu verlagern und gleichzeitig die Gewichte von Highlight-Features effektiv zu reduzieren. Dies ermöglicht eine ausgewogenere Extraktion und Verarbeitung von Merkmalen.

Von den beiden Eingängen im Cross Gating Feedforward Network (CGFN)-Modul wird einer über das MDSA-Modul verarbeitet und der andere umgeht es. Das MDSA-Modul implementiert den Sparse-Attention-Mechanismus für die Kanaldimension. Daher berechnet das vorgeschlagene CGFN Gewichte in der räumlichen Dimension und behebt so den Mangel an räumlichen Informationen, nachdem das Feature das MDSA-Modul durchlaufen hat. Darüber hinaus kann das Vorhandensein des Gating-Mechanismus die weitere Ausbreitung von Informationsmerkmalen, die für die Modellkonvergenz ungünstig sind, besser unterdrücken. Bei Verbesserungsaufgaben bei schlechten Lichtverhältnissen können die Funktionsinformationen im Highlight-Bereich die Verbesserungsqualität erheblich beeinträchtigen. Das CGFN-Modul kann dieses Problem weiter lindern, indem es eine Methode einführt, die es bisher in anderen Methoden nicht gab.

Unter Berücksichtigung der Eigenschaften von Bildern bei schlechten Lichtverhältnissen bei ungleichmäßiger Beleuchtung schlägt dieser Artikel daher eine effektivere Zero-Shot-Learning-Netzwerkstruktur zur Verbesserung bei schlechten Lichtverhältnissen vor. Die Hauptbeiträge sind wie folgt zusammengefasst:

Es wurde ein Zero-Shot-Learning-Low-Light-Enhancement-Netzwerk namens CUI-Net entwickelt. Das gesamte Netzwerk besteht aus Erweiterungsmodulen und Hilfsmodulen. Das Erweiterungsmodul vereint den globalen Aufmerksamkeitsmechanismus des Transformers und die Fähigkeit des CNN-Netzwerks, lokale Merkmale zu verarbeiten. Es verfügt über eine effiziente Recheneffizienz und leistungsstarke Modellierungsfunktionen. Diese einzigartige Struktur ermöglicht eine bessere Bewältigung des Problems ungleichmäßiger Beleuchtung, eine umfassendere Extraktion von Merkmalsinformationen und eine Bildverbesserung in Umgebungen mit wenig Licht. Das CNN-Netzwerk im Zusatzmodul erhöht die Konvergenzfähigkeit des Erweiterungsmoduls und korrigiert indirekt den Einfluss der Beleuchtung.

Es wurde ein MDSA-Modul (Multi-Dconv Head Sparse Attention) entwickelt. Das MDSA-Modul schränkt Hervorhebungsfunktionen auf Kanalebene ein und erhöht das Gewicht wichtiger lokaler Funktionen. Dieses Design trägt dazu bei, die Interferenz übermäßig heller Merkmale zu unterdrücken, sodass sich das Modell besser auf Merkmale bei schlechten Lichtverhältnissen konzentrieren und diese extrahieren kann, wodurch die Leistung des Modells bei Verbesserungsaufgaben bei schlechten Lichtverhältnissen verbessert wird.

Es wurde ein neuartiges Cross Gating Feedforward Network (CGFN) vorgeschlagen. CGFN kann nicht nur die weitere Ausbreitung von Informationsmerkmalen, die der Modellkonvergenz nicht förderlich sind, wirksam unterdrücken, sondern auch den Informationsverlust in der räumlichen Dimension durch Informationsaustausch ergänzen und so die Effizienz und Wirkung des Modells weiter steigern. Bei Verbesserungsaufgaben bei schlechten Lichtverhältnissen können die Funktionsinformationen im Hervorhebungsbereich die Verbesserungsqualität von Verbesserungsaufgaben bei schlechten Lichtverhältnissen erheblich beeinträchtigen. Die Existenz des CGFN-Moduls kann dieses Problem weiter entschärfen.

An neun anspruchsvollen Datensätzen wurde eine Vielzahl von Experimenten durchgeführt. Die meisten experimentellen Ergebnisse deuten darauf hin, dass CUI-Net den aktuellen Stand der Technik in Bezug auf Bildqualitätsverbesserungseffekte und verschiedene Bewertungsindikatoren übertrifft. Noch wichtiger ist, dass die überlegene Leistung von CUI-Net bei visuellen Aufgaben auf hohem Niveau (wie Objekterkennung, Gesichtserkennung und semantische Segmentierung) in realen Szenarien bei schlechten Lichtverhältnissen seinen praktischen Wert und seine Wirksamkeit weiter bestätigt.

Herkömmliche Methoden zur Verbesserung bei schlechten Lichtverhältnissen können hauptsächlich in zwei Typen unterteilt werden: die Methoden, die auf der Histogrammausgleichung (HE) basieren, und die Methoden, die auf dem Retinex-Modell basieren. Auf HE2,3 basierende Methoden verteilen Pixelwerte basierend auf der kumulativen Verteilungsfunktion des Eingabebilds neu, um den Dynamikbereich zu erweitern. Allerdings sind diese Methoden auch anfällig für einen Verlust der Farbtreue und die Erzeugung von Rauschen, was zu Bildverzerrungen führt4. Die Retinex-Theorie5 zerlegt Bilder bei schlechten Lichtverhältnissen auf der Grundlage von Vorkenntnissen oder Regularisierung in Reflexionsanteile und Beleuchtungsanteile, wie zum Beispiel das Single Scale Retinex-Modell (SSR)6 und das Multi-Scale Retinex-Modell (MSR)7. MSR wird als gewichtete Summe mehrerer verschiedener SSR-Ausgaben betrachtet. Die Ausgabe dieser Methoden kann zu Änderungen führen. Die relativen Proportionen der erweiterten drei Farbkanäle können beeinflusst werden. Dies kann im Vergleich zum Originalbild zu Farbverzerrungen führen4. Fu et al.34 schlugen eine Fusionsmethode vor, die die Vorteile der Sigmoidfunktion und des Histogrammausgleichs kombiniert und im Vergleich zu 2,3 ​​eine verbesserte Leistung aufweist. Guo et al.35 initialisierten die Beleuchtungskarte des Bildes, indem sie den Maximalwert in den RGB-Kanälen ermittelten, und optimierten dann die anfängliche Beleuchtungskarte, indem sie eine Struktur vorab hinzufügten, um eine Bildverbesserung zu erreichen. Diese Methoden haben einen gewissen Einfluss auf die Erhöhung der Helligkeit von Bildern bei schlechten Lichtverhältnissen. Einige Algorithmen ignorieren jedoch die Korrelation zwischen den hellen und dunklen Teilen, was zu Farbverzerrungen in Bildern mit erheblichen Helligkeitsunterschieden führt.

Die meisten netzwerkbasierten Bildverbesserungsalgorithmen bei schlechten Lichtverhältnissen basieren auf CNN-Methoden. Bei CNN-basierten Methoden verbessern auf Retinex basierende Methoden normalerweise die Beleuchtungs- und Reflexionskomponenten separat über dedizierte Subnetzwerke32. Wei et al.36 führten das Retinex-Net-Modell ein, das darauf abzielt, Bilder bei schlechten Lichtverhältnissen zu verbessern. Das Modell besteht aus zwei Teilen: einem Decom-Net zum Zerlegen von Bildern in Beleuchtungs- und Reflexionskomponenten und einem Enhance-Net zum Anpassen der Beleuchtung. Trotz seines Zwecks führt Retinex-Net leider zu erheblichen Farbverzerrungen, was zu weniger natürlich aussehenden, verbesserten Bildern führt8. EnlightenGAN9 verwendet ein Generative Adversarial Network (GAN), das U-Net10 basierend auf Aufmerksamkeitsmechanismen als Generator und einen global-lokalen Diskriminator verwendet, um die Verbesserungsergebnisse zu erhalten. ZeroDCE11 trainiert ein leichtgewichtiges Netzwerk (DCE-NET), um es an die Helligkeitszuordnungskurve anzupassen, und wird dann verwendet, um die Helligkeitsverteilung des Bildes anzupassen. Das von Retinex inspirierte Unrolling with Architecture Search (RUAS)12 nutzt eine sich entfaltende Architektursuche, um die Bildverbesserung bei schlechten Lichtverhältnissen zu bewältigen. Self-Calibrated Illumination (SCI)13 schlägt ein vereinfachtes Netzwerk vor, das physikalische Prinzipien anpasst, um eine Verbesserung bei schwachem Licht zu erreichen, und einen Kalibrierungsprozess in der Trainingsphase einführt, um die Fähigkeit des Modells zur Verbesserung bei schwachem Licht zu verbessern und dadurch den Verbesserungseffekt weiter zu verbessern.

CNN-Operationen bieten Effizienz und Universalität, ihre Empfangsfelder sind jedoch begrenzt und können weitreichende Pixelbeziehungen in Eingabebildern nicht vollständig berücksichtigen, was die Bildverbesserungsleistung beeinträchtigen kann. Im Gegensatz dazu konzentriert sich der Selbstaufmerksamkeitsmechanismus in Transformers auf die Modellierung langfristiger Abhängigkeiten, wodurch globale Informationen gut erfasst werden können. Es mangelt jedoch an Aufmerksamkeit für die relevantesten Informationen37 und ihre Komplexität wächst exponentiell mit der räumlichen Auflösung14, was bei einigen Aufgaben zu einer schlechten Leistung führt. Daher liegt der Schwerpunkt dieses Artikels auf der effektiven Kombination beider Methoden zur Verbesserung der Bildverbesserungsqualität. Conformer29 verwendet einen CNN-Zweig und einen Transformer-Zweig und kombiniert diese über Feature Coupling Units, um lokale Faltungsblöcke, Selbstaufmerksamkeitsmodule und MLP-Einheiten zu verschmelzen, um die Feature-Auflösung und Kanalnummern anzupassen und gleichzeitig semantische Unterschiede zwischen den CNN- und Transformer-Zweigen kontinuierlich zu beseitigen. HNCT30 integriert CNN und Transformer und nutzt dabei lokale und nicht-lokale Prioritäten, um Merkmale zu extrahieren, die für die Superauflösung von Vorteil sind, und ein erweitertes räumliches Aufmerksamkeitsmodul, um die Leistung weiter zu verbessern. ECFAN31 schlägt eine neue hybride Superauflösungsmethode namens ACT vor, die CNN und Vision Transformer19 kombiniert, um lokale und nicht-lokale Merkmale effektiv zu aggregieren, und skalenübergreifende Token-Aufmerksamkeitsmodule einführt, um mehrskalige Token-Darstellungen effektiv zu nutzen.

Durch sorgfältige Überlegungen und experimentelle Vergleiche haben wir herausgefunden, dass unsere Methode drei TransformerBlocks als Encoder verwendet, um die nützlichsten Selbstaufmerksamkeitswerte beizubehalten, die weitere Ausbreitung aggregierter Hervorhebungsfunktionen zu vermeiden, die vollständige Nutzung nützlicher globaler Funktionen zu ermöglichen und nützliche Übertragungen vorzunehmen lokale Merkmale, um sicherzustellen, dass die verbesserten Bilder bei schlechten Lichtverhältnissen ausreichende Details aufweisen. Zwei CNN-Blöcke dienen als Decoder, um die von den Transformer-Blöcken erhaltenen Merkmalsinformationen weiter zu nutzen, um die Details und Texturinformationen von Bildern bei schlechten Lichtverhältnissen besser zu verbessern und so die Vorteile von CNN-Netzwerken zu nutzen.

In realen Szenarien aufgenommene Bilder leiden häufig unter ungleichmäßiger Beleuchtung32. Nachts aufgenommene Bilder können beispielsweise sowohl dunkle als auch helle Bereiche oder überbelichtete Bereiche, beispielsweise Bereiche um Lichtquellen, enthalten. Bestehende Methoden verstärken oft gleichzeitig die dunklen und hellen Bereiche des Bildes, was sich auf die visuelle Qualität der Verbesserungsergebnisse auswirken kann. Aktuelle Methoden zur Bildverbesserung bei schlechten Lichtverhältnissen haben dieses offene Problem jedoch nicht vollständig gelöst. Zhao et al.38 schlugen einen Sparse-Transformer vor, um den Aufmerksamkeitsgrad des Modells auszuwählen. Fu et al.37 schlugen ein Zielfokusnetzwerk und eine Sparse-Transformer-Technik für die visuelle Objektverfolgung vor. Das Zielfokusnetzwerk konzentriert sich auf das interessierende Ziel in der Suchregion und hebt die Merkmale der relevantesten Informationen hervor, um den Zustand des Ziels besser einschätzen zu können. Inspiriert von SparseTT37 passen wir den Sparse Transformer an die Verbesserungsaufgabe bei schlechten Lichtverhältnissen an. Bei Bildern mit wenig Licht und ungleichmäßiger Beleuchtung ist der Transformer bei der Berechnung der Selbstaufmerksamkeit anfällig für den Einfluss von Hochlichtfunktionen, was zu höheren Aufmerksamkeitswerten führt. Dies führt natürlich dazu, dass bei der Modellierung globaler Feature-Abhängigkeiten eher Highlight-Features als Low-Light-Features mit niedrigen Aufmerksamkeitswerten verbessert werden. Daher schlagen wir eine Operation mit geringer Aufmerksamkeit vor, die sich von der üblichen unterscheidet und sich dafür entscheidet, Highlight-Funktionen auf niedrigere Werte zu setzen, um Highlight-Informationen effektiv zu unterdrücken und sich bei Aufgaben zur Verbesserung von Low-Light-Verbesserungen auf die relevantesten Informationen zu konzentrieren.

In diesem Abschnitt werden das CUI-Net-Framework und die beiden Hauptmodule vorgestellt: das Erweiterungsmodul und das Hilfsmodul. Abschließend erklären wir die unbeaufsichtigten Trainingsverluste, die in unserem neuronalen Netzwerkmodell verwendet werden.

Das vorgeschlagene CUI-Net ist ein kaskadiertes zweistufiges Bildverbesserungsnetzwerk (Abb. 2). In der ersten Stufe wird ein Transformer-Netzwerk eingeführt, um globale Informationen zu erhalten, mit denen die Details von Bildern bei schlechten Lichtverhältnissen besser verbessert werden können. In der zweiten Stufe wird ein Hilfsnetzwerk basierend auf mehreren Faltungsnetzwerkblöcken erstellt und das ursprüngliche Eingabebild als Einschränkung zur Steuerung der Ausgabedetailmerkmale der ersten Stufe verwendet. Im Gegensatz zu herkömmlichen Methoden erfordert der Trainingsteil von CUI-Net mehrere Erweiterungsmodule und Hilfsmodule, während der Testteil nur Erweiterungsmodule enthält.

Gesamtrahmen des CUI-Net. Während der Testphase wird nur ein Erweiterungsmodul verwendet, um Ergebnisse zu erhalten.

Nehmen wir hier an, dass das Eingabebild bei schwachem Licht \(I\in {\mathbb {R}}^{H\times W\times C}\). Dabei ist die Höhe H, die Breite W und die Anzahl der Kanäle C. Für RGB-Bilder ist C gleich 3. Gemäß der Retinex-Theorie kann das Bild I bei schlechten Lichtverhältnissen durch Ausführen der folgenden Operation erhalten werden das klare Bild R und das Beleuchtungsbild L5:

Daher kann das verbesserte Bild R durch das Eingabebild I und die Beleuchtungskarte L erhalten werden.

Während des Trainingsprozesses kann das gesamte Framework in zwei Teile unterteilt werden, nämlich das Enhancement Module (EM) und das Auxiliary Module (AM):

wobei \(EM_{t}\) das \(t\)-te Bildverbesserungsmodulnetzwerk mit lernbaren Parametern \(\vartheta\) ist und \(AM_t\) das \(t\)-te Hilfsmodulnetzwerk ist mit lernbaren Parametern \(\mu\). Wenn \(t=1\), also in \(EM_1\), wird nur das ursprüngliche Low-Light-Bild I als Eingabe verwendet, also \(EM_1 (I;\vartheta)\) und das ursprüngliche Low-Light-Bild Bild I wird nicht als Eingabe hinzugefügt.

Im Gegensatz zum Trainingsteil ist im Testteil kein Hilfsmodul erforderlich, und es wird nur ein Erweiterungsmodul verwendet, um ein klares Bild zu erhalten.

Das Bildverbesserungsmodul besteht aus einem effizienten Transformer-Block und einem CNN-Block, die jeweils als Encoder und Decoder dienen. Das Transformer-Modell verbessert Bilder bei schlechten Lichtverhältnissen, indem es Informationen aus ungleichmäßigen Beleuchtungskanälen und lokalen Details herausfiltert und die nützlichen Funktionen dann auf den nächsten Teil des Netzwerks überträgt. Der Kern des Transformer-Blocks liegt im Multi-Dimensional Sparse Attention (MDSA)-Mechanismus und dem Cross-Gated Feed-Forward Network (CGFN). MDSA kann redundante Funktionen wirksam reduzieren und die Gewichtung wichtiger Funktionen verbessern, wodurch die Robustheit und Generalisierungsfähigkeit des Netzwerks verbessert wird. Der Cross-Gated-Mechanismus kann den Mangel an Informationen in der räumlichen Dimension ausgleichen, sodass sich nützliche Informationen weiter ausbreiten und die Integrität der gesamten Merkmalsdarstellung verbessern können. Der CNN-Block ersetzt den Aufmerksamkeitsblock im traditionellen Transformer-Netzwerk durch tiefe Faltungen und die Feed-Forward-Schicht durch eine vereinfachte CNN-Struktur, um Leichtigkeit zu gewährleisten. Mittlerweile kann eine dem Transformer-Netzwerk ähnliche Struktur Merkmalsinformationen weiter verarbeiten und verfügt über die Allgemeingültigkeits- und Effizienzvorteile eines Faltungs-Neuronalen Netzwerks.

Zusammenfassend lässt sich sagen, dass der kanalweise spärliche Aufmerksamkeits- und Cross-Gated-Transformer als Encoder im Bildverbesserungsmodul verwendet wird. Mit zunehmender Anzahl der Ebenen werden die extrahierten Merkmale immer abstrakter und semantischer. Der CNN-Block wird als Decoder verwendet, um Funktionen auf einer höheren Ebene zu extrahieren und zu verbessern, wodurch er besser für Bildverbesserungsaufgaben bei ungleichmäßigen Lichtverhältnissen geeignet ist. Die Realisierung der Informationsübertragung und Kontextzuordnung auf Pixelebene durch Faltungsberechnung kann die Leistung und Effizienz des Modells weiter verbessern.

Der spezifische Prozess des Bildverbesserungsmoduls ist in Abb. 3 dargestellt. Die Netzwerkstrukturdiagramme der Transformer- und CNN-Module im Verbesserungsmodul sind in Abb. 4 dargestellt. Zuerst wird das eingegebene Low-Light-Bild I einem \(3) unterzogen \times 3\) Faltungsoperation zum Extrahieren von Merkmalen auf niedriger Ebene und Erhöhen der Anzahl der Kanäle. Anschließend durchläuft es drei Transformer-Encoder und zwei CNN-Decoder. Die verbleibenden Verbindungen sowie Upsampling- und Downsampling-Vorgänge werden verwendet, um ausreichende Detailmerkmale zu extrahieren. Schließlich wird eine \(3\times 3\)-Faltungsoperation verwendet, um die ursprüngliche Anzahl von Kanälen wiederherzustellen, und das resultierende Bild wird dem Eingabebild bei schwachem Licht I hinzugefügt, um das endgültige Ausgabebild zu erzeugen. C steht für Verkettungsoperation.

Netzwerkarchitektur des Erweiterungsmoduls.

Die Netzwerkstrukturdiagramme des Transformer-Moduls, das im Erweiterungsmodul verwendet wird, und des CNN-Moduls, das sowohl im Erweiterungs- als auch im Hilfsmodul verwendet wird.

In herkömmlichen Transformer-Modulen berechnen Mehrkopf-Selbstaufmerksamkeitsmechanismen globale Informationen durch Selbstaufmerksamkeitsmechanismen in der räumlichen Dimension, was zu einem quadratischen Wachstum der Komplexität mit zunehmender Auflösung führt. Der Hauptzweck von Sparse-Attention-Mechanismen besteht darin, die zeitliche und räumliche Komplexität herkömmlicher Transformer39 zu reduzieren. In diesem Artikel reduziert der im MDSA-Modul verwendete Kanalaufmerksamkeitsmechanismus nicht nur die Komplexität des Modells und verbessert die Effizienz, sondern hilft dem Modell auch, lokale Merkmale im Bild besser zu verstehen. Bei Verbesserungsaufgaben bei schlechten Lichtverhältnissen kann das Auftreten zu vieler lokaler Merkmale mit hoher Helligkeit die Fähigkeit des Modells beeinträchtigen, andere Merkmale bei schlechten Lichtverhältnissen zu erfassen. Daher verwendet dieser Artikel Sparse-Attention-Mechanismen, um das Modell dabei zu unterstützen, lokale Merkmale besser darzustellen und seine Verbesserungsfähigkeit zu verbessern.

Die spezifische Struktur von MDSA ist in Abb. 5 dargestellt. Der Eingabetensor wird als \(I\in {\mathbb {R}}^{{\hat{H}}\times {\hat{W}}\times bezeichnet 3}\). Q, K und V stehen für Abfrage, Schlüssel und Wert. Die punktweise \(1\times 1\)-Faltung wird auf den aggregierten kanalübergreifenden Kontext auf Pixelebene angewendet, gefolgt von einer tiefenweisen \(3\times 3\)-Faltung, um den räumlichen Kontext auf Kanalebene zu kodieren. Die Operation \(\circledR\) in der Abbildung steht für Umformen. \(I\!s\!I\!n\!M\!ap\) wird verwendet, um die Gewichte in der Aufmerksamkeitskartenmatrix herauszufiltern, die mit den Gewichten in der TopK-Matrix übereinstimmen, und die entsprechenden Gewichte festzulegen die Aufmerksamkeitskarte auf 0,01.

Netzwerkstrukturdiagramm des MDSA-Moduls.

Anders als das Vision Transformer-Modell19 verwendet MDSA einen Selbstaufmerksamkeitsmechanismus, um die Ähnlichkeit zwischen den einzelnen Kanälen zu berechnen, dh die Aufmerksamkeitsberechnung erfolgt auf der Kanaldimension und nicht auf der räumlichen Dimension. Dadurch kann MDSA die Beziehungen zwischen Feature-Kanälen besser erfassen und dadurch die Darstellungsfähigkeit und Robustheit des Modells verbessern.

Konkret wird die TopK-Operation auf der Aufmerksamkeitskarte ausgeführt, um die Top-K-Aufmerksamkeitswerte auszuwählen, gefolgt von weiteren Operationen. Es ist zu beachten, dass im Gegensatz zur allgemeinen Berechnung geringer Aufmerksamkeit bei der Aufgabe mit wenig Licht und ungleichmäßiger Beleuchtung die Kanalinformationen des Bereichs mit hellem Licht in der Aufmerksamkeitskarte mit größerer Wahrscheinlichkeit höhere Aufmerksamkeitswerte erhalten. Diese K-Aufmerksamkeiten müssen auf 0,01 gesetzt werden, damit die Low-Light-Kanalfunktionen an CGFN gesendet werden können, um die erforderlichen lokalen Informationen zu erhalten.

Hier ist \({\hat{Q}}\in {\mathbb {R}}^{{\hat{H}}{\hat{W}}\times {\hat{C}}},{\hat {K}}\in {\mathbb {R}} ^{{\hat{C}} \times {\hat{H}}{\hat{W}}},{\hat{V}}\in { \mathbb {R}} ^{{\hat{H}}{\hat{W}}\times {\hat{C}}}\) werden durch Umformen der ursprünglichen Skala \({\mathbb {R}} ^{{\hat{H}}\times {\hat{W}}\times {\hat{C}}}\). Die Bedeutung von SpAttention ist spärliche Aufmerksamkeit. \(W_p\) repräsentiert eine \(1\times 1\) punktweise Faltung. \(\lambda\) ist ein lernbarer Skalierungsparameter, der zur Steuerung der Größe des Skalarprodukts von \({\hat{K}}\) und \({\hat{Q}}\) verwendet wird.

Die beiden Eingaben des Cross-Gated-Feed-Forward-Netzwerks (CGFN) sind die über MDSA erhaltenen Eingaben und Ausgaben. Der Cross-Gating-Teil entspricht der Berechnung der Gewichtung der räumlichen Dimension und der Gewichtung spezifischer Positionen, um den Mangel an Informationen zur räumlichen Dimension im Bild zu kompensieren, das MDSA nicht durchlaufen hat.

Die spezifische Struktur des CGFN ist in Abb. 6 dargestellt. Jeder einzelne Pfad des CGFN-Moduls hat zwei Zweige. Ein Zweig ist eine Gating-Einheit, mit der der Aktivierungszustand jedes Pixels ermittelt wird. Die \(1\times 1\)-Faltungsschicht wird verwendet, um die Kanalnummer zu erweitern, gefolgt von einer \(3\times 3\)-Tiefenfaltungsschicht und StarReLU, um die Gate-Map zu generieren. Der andere Zweig muss nicht die StarReLU-Aktivierungsfunktion durchlaufen. Anschließend werden die beiden Zweige punktmultipliziert. Das Cross-Gating wird auf den beiden Pfaden kreuzweise berechnet, um den Mangel an räumlichen Informationen auszugleichen. Wenn die Eingabe von CGFN aus MDSA \(X\in {\mathbb {R}}^{{\hat{H}}\times {\hat{W}}\times {\hat{C}}}\) ist , \(Y\in {\mathbb {R}}^{{\hat{H}}\times {\hat{W}}\times {\hat{C}}}\) ist die Eingabe aus dem vorherigen Modul Ohne MSDA kann das CGFN wie folgt dargestellt werden:

Netzwerkstrukturdiagramm des CGFN-Moduls.

Dabei bezeichnet \(\odot\) die elementweise Multiplikation, \(\phi\) die nichtlineare StarReLU-Aktivierungsfunktion und LN steht für Layer Normalization. \(W_m\) führt eine Softmax-Operation aus. \(W_o\) führt einen Dropout-Vorgang durch. \({\hat{Z}}\) dient als Eingabe für das nächste Modul.

Das Hilfsmodul ist für unbeaufsichtigte Bildverbesserungsmethoden erforderlich, da diese möglicherweise Einschränkungen wie Überverstärkung und Farbverzerrung aufweisen8. Daher wird das CNN-Netzwerk mit hoher Effizienz und Generalisierungsfähigkeit als Hilfsmodul ausgewählt, um die Ausgaben mehrerer Erweiterungsmodule zu einem Erweiterungseffekt zusammenzuführen, wodurch die Verwendung eines Erweiterungsmoduls während der Testphase ermöglicht wird, um denselben Erweiterungseffekt wie mehrere zu erzielen Erweiterungsmodule während des Schulungsteils.

Wie in Abb. 2, Formeln (2) und (3) dargestellt, besteht der Zweck des Hilfsmoduls darin, die Eingabe des Erweiterungsmoduls zu korrigieren und so indirekt die Ausgabe des Erweiterungsmoduls zu beeinflussen. Die Eingabe des Hilfsmoduls kann durch elementweise Addition der Ausgabe des vorherigen Erweiterungsmoduls und der Ausgabe des Hilfsmoduls und anschließende Division mit dem ursprünglichen Schwachlichtbild erhalten werden. Somit kann das Hilfsmodul die Funktionen des Erweiterungsmoduls erhalten und die ungleichmäßige Beleuchtung durch das ursprüngliche Bild bei schlechten Lichtverhältnissen korrigieren.

Das Hilfsmodul verwendet die Tiefenfaltung mehrmals, wodurch die Anzahl der Parameter und die Rechenkosten effektiv reduziert werden können, wie in Abb. 7 dargestellt. Zunächst wird das Eingabebild durch eine \(3\times 3\)-Faltungsschicht geleitet Erhöhen Sie die Kanalnummer und dann durch drei CNN-Blöcke. Schließlich wird eine \(3\times 3\)-Faltungsschicht verwendet, um die Kanaldimension zu reduzieren. Wie in Abb. 4 gezeigt, verbessert der CNN-Block die lokalen Details, indem er die Eingabemerkmale durch Tiefenfaltungen von \(3\times 3\) und \(5\times 5\) leitet, gefolgt von einer StarReLU-Aktivierungsfunktion und mehreren \(1\times 1\) Faltungen, um die Anzahl der Parameter zu minimieren. Die korrigierten Beleuchtungsinformationen werden dann in das Erweiterungsmodul eingegeben, wodurch der Verbesserungseffekt des Erweiterungsmoduls verbessert wird.

Gesamtarchitekturdiagramm des Zusatzmoduls.

Um Farberhaltung, Artefaktentfernung und Gradienten-Backpropagation zu berücksichtigen, muss die Verlustfunktion optimiert werden. Die von CUI-Net verwendete Verlustfunktion lautet wie folgt:

Dabei stellt L den Gesamtverlust dar, \({\mathscr {L}}_c\) und \({\mathscr {L}}_c\) den Korrekturverlust bzw. den Glätteverlust und \(\alpha\) und \(\beta\) sind zwei positive Ausgleichsparameter. In den Experimenten werden die Bilanzierungsparameter auf \(\alpha =1,5\) und \(\beta =1\) eingestellt. Der Korrekturverlust \({\mathscr {L}}_c\) soll die Konsistenz zwischen der geschätzten Beleuchtung und dem angepassten Ergebnis sicherstellen, das heißt:

Dabei ist \(EM_x\) das x-te Erweiterungsmodul und \(AM_x\) das x-te Hilfsmodul. \(AM_0\) ist die ursprüngliche Eingabe I. Als unbeaufsichtigter Verlust schränkt diese Verlustfunktion nur die Ausgabe über das Hilfsmodul ein.

Dann wird der Glätteverlust verwendet40, das heißt:

Hier ist N die Gesamtzahl der Pixel. i ist das i-te Pixel. \({\mathscr {N}}(i)\) repräsentiert die benachbarten Pixel in seinem 5 × 5-Fenster. \(Gewicht_{i,j}\) stellt das Gewicht dar, das als Gleichung 14 angegeben wird, wobei c den Bildkanal im YUV-Farbraum darstellt und \(\sigma =0,1\) die Standardabweichung des Gaußschen Kernels ist .

Um die Wirksamkeit des Algorithmus zu testen, wird er in diesem Artikel anhand mehrerer Datensätze und Aufgaben überprüft. Zunächst werden die experimentellen Einstellungen angegeben und Tests an öffentlichen Datensätzen durchgeführt, um die Wirksamkeit des Algorithmus durch quantitativen Vergleich und qualitative Analyse mit vorhandenen Methoden zu demonstrieren. Anschließend werden anspruchsvolle Aufgaben, darunter Objekterkennung bei schlechten Lichtverhältnissen, Erkennung dunkler Gesichter und semantische Segmentierung bei Nacht, getestet und mit vorhandenen Algorithmen verglichen, um die Wirksamkeit des Algorithmus weiter zu validieren. Abschließend werden Ablationsexperimente durchgeführt, um die Wirksamkeit jedes Moduls zu überprüfen.

Das Experiment basiert auf PyTorch und wird auf einem Computer mit einer Intel i9-10940X-CPU, zwei RTX 3090-GPUs und 32 GB Arbeitsspeicher für Training und Tests durchgeführt. Die Hauptparameter sind eine Stapelgröße von 1, eine anfängliche Lernrate von \(10^{-4}\), ein Gewichtsabfall von \(\epsilon =10^{-8}\) und eine Trainingsepoche von 500. In der Erweiterung Modul ist die Anzahl der Transformer-Blöcke von der ersten bis zur vierten Schicht auf 4, 6, 6 und 8 eingestellt, die Anzahl der Aufmerksamkeitsköpfe in MDTA ist auf 2, 4 und 8 eingestellt und die Anzahl der Kanäle ist auf 48, 96 und 192 eingestellt. StarReLU41- und Adan42-Optimierer werden in CUI-Net eingeführt. StarReLU ist eine Variante von Squared ReLU, die darauf ausgelegt ist, Verteilungsverschiebungen zu vermeiden. StarReLU schneidet sowohl hinsichtlich der Algorithmusleistung als auch der Recheneffizienz gut ab, da der Rechenaufwand der Aktivierungsfunktion reduziert wird43. Adan kann das Training von ViT19 mit nur der Hälfte des Rechenaufwands abschließen. Im Vergleich zum beliebten Optimierer Adam44 verfügt Adan über einen zusätzlichen Hyperparameter \(\beta _2\) zur Anpassung. \(\beta _2\) wird in den Experimenten auf 0,08 gesetzt42.

Dabei repräsentiert \(EM_x\) das x-te Erweiterungsmodul und \(AM_x\) das x-te Hilfsmodul. \(AM_0\) stellt die ursprüngliche Eingabe I dar. Als unbeaufsichtigter Verlust schränkt die Verlustfunktion L nur die Ausgabe über das Hilfsmodul ein.

Um die Wirksamkeit und Überlegenheit des vorgeschlagenen Algorithmus zu überprüfen, wird CUI-Net mit modernsten (SOTA) Methoden verglichen, darunter EnlightenGAN9, KinD45, ZeroDCE11, ZeroDCE++46, RUAS12, SCI13 und Uretinex-Net47. Darüber hinaus werden Vergleiche bei hochrangigen Sehaufgaben wie Gesichtserkennung, Objekterkennung und semantischer Segmentierung durchgeführt.

Für die Bildverbesserungstests werden 100 Zufallsbilder aus dem MIT-Datensatz48 und 50 Zufallsbilder aus dem LSRW-Datensatz49 zum Testen verwendet. Um die Leistung des Algorithmus quantitativ zu messen, werden drei Metriken mit vollständiger Referenz, darunter PSNR, SSIM und LPIPS50, und vier Metriken ohne Referenz, darunter NIQE51, ILNIQE52, NIMA53 und MUSIQ54, als Bewertungsmetriken verwendet.

Für Aufgaben zur Erkennung dunkler Gesichter wird der DARK FACE-Datensatz55 verwendet, der aus 1000 anspruchsvollen Testbildern besteht. Als Trainingssatz werden 500 zufällige Bilder ausgewählt und 50 Bilder werden zum Testen verwendet, wobei die durchschnittliche Präzision (AP) als Bewertungsmaßstab verwendet wird.

Für Aufgaben zur Objekterkennung bei schlechten Lichtverhältnissen wird der ExDark-Datensatz56 verwendet, der speziell für die Objekterkennung bei schlechten Lichtverhältnissen entwickelt wurde. 1051 Bilder werden als Trainingssatz ausgewählt und 406 Bilder werden zum Testen verwendet, mit Bewertungsmetriken einschließlich \(mAP_{0,5:0,95}\) und \(mAP_{0,5}\).

Für nächtliche semantische Segmentierungsaufgaben wird der ACDC-Datensatz57 verwendet. Der ACDC-Datensatz ist ein selbstfahrender Datensatz, der in ICCV 2021 veröffentlicht wurde. 400 Bilder im Dunkelzustand werden für das Training verwendet, und die restlichen 106 Bilder werden als Testsatz verwendet. Die Bewertungsmetriken umfassen IoU und mIoU.

Die quantitativen Ergebnisse des MIT-Datensatzes sind in Tabelle 1 aufgeführt. CUI-Net erzielte unter den sieben Bewertungsmetriken die beste Leistung in SSIM, PSNR, LPIPS und ILNIQE. Insbesondere erreichte CUI-Net einen PSNR von 193,328 dB, was 1,0259 dB höher ist als der beste existierende beste Algorithmus-Score von 18,3201 dB, und eine ILNIQE-Bewertungsmetrik hat einen Score von 31,9151, was 1,5756 niedriger ist als der Score des besten existierenden Algorithmus Algorithmus.

Die Verbesserungsergebnisse für den MIT-Datensatz sind in Abb. 8 dargestellt. Verglichen mit der Grundwahrheit (Abb. 8GT) für das eingegebene Originalbild bei schlechten Lichtverhältnissen (Abb. 8LL), EnlightenGAN (Abb. 8a), KinD (Abb. 8b). Die Methoden ZeroDCE (Abb. 8d), SCI (Abb. 8f) und Uretinex (Abb. 8g) zeigen eine unzureichende Verstärkung, während ZeroDCE++ (Abb. 8e) eine übermäßige Verstärkung zeigt. RUAS (Abb. 8c) verstärkt die weißen Blütenblätter im oberen Teil des Bildes in eine rosafarbene Farbe, aber die Gesamtsättigung ist zu hoch. Im Gegensatz dazu zeigt CUI-Net (Abb. 8h) eine bessere Farbwiederherstellung bei gleichzeitig realistischen Lichtverhältnissen.

Verbesserungsergebnisse für den MIT-Datensatz: (a) EnlightenGAN; (b) Art; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net; (LL) ist das eingegebene Originalbild bei schlechten Lichtverhältnissen; (GT) ist die Grundwahrheit mit der Sequenznummer E.

Die quantitativen Ergebnisse des LSRW-Datensatzes sind in Tabelle 2 dargestellt. Unter den sieben Bewertungsmetriken erzielte CUI-Net das beste Ergebnis im NIMA und die drittbesten Ergebnisse im PSNR, NIQE und MUSIQ. Uretinex erzielte gute Ergebnisse beim LSRW-Datensatz, was möglicherweise daran liegt, dass die Datenerweiterungsmethode des LSRW-Datensatzes der des LOL-Datensatzes ähnelt, der beim überwachten Training von Uretinex verwendet wird. Allerdings ist unsere unbeaufsichtigte Methode möglicherweise weniger empfindlich gegenüber künstlich erweiterten Datensätzen.

Die Verbesserungsergebnisse für den LSRW-Datensatz sind in Abb. 9 dargestellt. Mit Ausnahme von ZeroDCE++ (Abb. 9e), das eine Überverstärkung zeigt, ist der Gesamtverstärkungseffekt von EnlightenGAN (Abb. 9a), KinD (Abb. 9b) und RUAS (Abb. 9c), ZeroDCE (Abb. 9d), ZeroDCE++ (Abb. 9e), SCI (Abb. 9f), Uretinex (Abb. 9g) und CUI-Net (Abb. 9h) sind ähnlich. Durch die Vergrößerung der ausgewählten lokalen Bereiche für einen detaillierten Vergleich haben wir zwei Teile der Szene beobachtet: Die Außen- und Innenszenen werden getrennt beobachtet. RUAS (Abb. 10c), ZeroDCE++ (Abb. 10e) und SCI (Abb. 10f) zeigten in den Außenaufnahmen eine Überbelichtung. Auch Uretinex (Abb. 10g), das bessere quantitative Ergebnisse erzielte, zeigte eine Überbelichtung. Es ist erwähnenswert, dass selbst die Grundwahrheit (Abb. 10GT) eine übermäßige Verstärkung der Außenszenen im Vergleich zum Originalbild bei schlechten Lichtverhältnissen (Abb. 10LL) zeigt. Da CUI-Net (Abb. 10h) helle Bereiche bei ungleichmäßigen Lichtverhältnissen unterdrücken kann, trägt eine bessere Verbesserung von Außenszenen möglicherweise nicht immer zu einigen Bewertungsmetriken bei. Bei Innenszenen führten EnlightenGAN (Abb. 10a), KinD (Abb. 10b) und ZeroDCE (Abb. 10d) zu unscharfem Text und weniger realistischen Oberflächenreflexionen, während CUI-Net nicht nur die Details und Konturen von Low-Cost-Szenen verbessern kann. Lichtbereiche, sondern stellen auch die realistischen Lichtverhältnisse der Szene wieder her. Darüber hinaus kann CUI-Net den Text auf dem weißen Papier und in der Papierbox auf dem Schreibtisch deutlicher hervorheben, was praktische Anwendungen bei der Textextraktion in Bildern bei schlechten Lichtverhältnissen haben kann.

Verbesserte Bilder im LSRW-Datensatz: (a) EnlightenGAN; (b) Art; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net; (LL) das eingegebene Low-Light-Bild; (GT) die Grundwahrheit.

Details zu den entsprechenden vergrößerten Bereichen in Abb. 9 des LSRW-Datensatzes: (a) EnlightenGAN; (b) Art; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net; (LL) das eingegebene Low-Light-Bild; (GT) die Grundwahrheit.

Obwohl CUI-Net einige Mängel bei den quantitativen Metriken im LSRW-Datensatz aufweist, zeigt die qualitative Analyse der Verbesserungsergebnisse einige Diskrepanzen zwischen den relevanten Metriken und subjektiven Beobachtungen in praktischen Anwendungen.

Wir führten Schulungen und Tests mit den ungepaarten Low-Light-Enhancement-Datensätzen MEF58, VV, DICM59 und LIME35 durch. Die qualitativen Ergebnisse sind in den Abbildungen dargestellt. 11, 12, 13 bzw. 14. Wie zu beobachten ist, verhindert unsere Methode wirksam eine Überbelichtung in allen vier Datensätzen, erzielt eine zufriedenstellende Verbesserung der Details und stellt realistische Schatten und Beleuchtungen wieder her. Dies lässt sich beispielsweise an den Details der Tischplatte, den Gesichtszügen, der Blumentraube und den Türnummern sowie an der Klippe und den Gebäuden beobachten.

Anzeige der Testergebnisse im MEF-Datensatz: (a) EnlightenGAN; (b) Art; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net.

Anzeige der Testergebnisse im VV-Datensatz: (a) EnlightenGAN; (b) Art; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net.

Anzeige der Testergebnisse im DICM-Datensatz: (a) EnlightenGAN; (b) Art; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net.

Anzeige der Testergebnisse im DICM-Datensatz: (a) EnlightenGAN; (b) Art; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net.

Die quantitativen Ergebnisse sind in den Tabellen 3, 4, 5 und 6 dargestellt.

Aus den Tabellen ist ersichtlich, dass unsere Methode andere hinsichtlich der quantitativen Ergebnisse bei ungepaarten Low-Light-Datensätzen übertrifft, was die Robustheit unseres Ansatzes weiter unterstreicht.

Für das Experiment wurde das DSFD60-Gesichtserkennungs-Framework verwendet, das die SSD61-Netzwerkstruktur übernimmt und auf dem WIDER FACE62-Datensatz trainiert wurde. Im Gesichtserkennungsexperiment wurden Ergebnisse verschiedener Methoden zur Verbesserung bei schlechten Lichtverhältnissen als Eingaben für DSFD verwendet. Schließlich haben wir den AP (durchschnittliche Präzision) bei verschiedenen IoU-Schwellenwerten verglichen. Die Testergebnisse sind in Tabelle 7 aufgeführt, wobei CUI-Net die höchsten AP-Werte bei IoU-Schwellenwerten von 0,5 und 0,6 und den zweithöchsten AP-Wert bei einem IoU-Schwellenwert von 0,7 erreichte.

Abbildung 15 zeigt die Erkennungsergebnisse verschiedener Methoden und fügt zum Vergleich das Eingabebild bei schwachem Licht (Abb. 15LL) und das Ergebnis der Gesichtserkennung (Abb. 15LD) hinzu. Die untere rechte Ecke des Ergebnisbilds jeder Methode ist das entsprechende vergrößerte Detailbild. Es ist ersichtlich, dass bei einem IoU-Schwellenwert von 0,5 nur RUAS (Abb. 15c) und CUI-Net (Abb. 15h) das Gesicht in dem durch den Pfeil angezeigten Bereich erkennen können. EnlightenGAN (Abb. 15a), KinD (Abb. 15b), ZeroDCE (Abb. 15d), ZeroDCE++ (Abb. 15e), SCI (Abb. 15f) und Uretinex (Abb. 15g) konnten das Gesicht in dem Bereich nicht erkennen durch den Pfeil angezeigt. Allerdings ist RUAS stark überbelichtet und die Details am Boden sind nicht klar zu erkennen. CUI-Net kann nicht nur mehr Gesichter erkennen, sondern erzeugt auch realistische Verbesserungseffekte mit besseren quantitativen Indikatoren als andere SOTA-Methoden.

Ergebnisse der Erkennung dunkler Gesichter: (a) EnlightenGAN; (b) Art; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net; (LL) Unverbessertes Low-Light-Bild als Eingabe; (LD) Ergebnis der Gesichtserkennung direkt auf dem nicht verbesserten Eingabebild bei schlechten Lichtverhältnissen.

Wir haben das YOLOv363-Modell auf dem ExDark-Objekterkennungsdatensatz trainiert und es auf dem ExDark-Validierungsdatensatz getestet. YOLOv3 ist eine Reihe von Objekterkennungs-Frameworks und -Modellen, die auf dem COCO-Datensatz64 vorab trainiert wurden. Im Gegensatz zu Gesichtserkennungsexperimenten haben wir das vorab trainierte YOLOv3-Modell für die Objekterkennung optimiert, dh wir haben das Objekterkennungsmodell neu trainiert, um die Verbesserungseffekte aller Methoden zu bewerten. Tabelle 8 zeigt die quantitativen Ergebnisse verschiedener Methoden. CUI-Net erzielte sowohl in \(mAP_{0.5:0.95}\) als auch in \(mAP_{0.5}\) die besten mAP-Werte.

Die experimentellen Ergebnisse wurden durch die Objekterkennung auf Bildern bei schlechten Lichtverhältnissen erzielt, nachdem sie durch verschiedene SOTA-Algorithmen verbessert wurden. Die Grundlage ist die Objekterkennung direkt auf den nicht verbesserten Bildern bei schlechten Lichtverhältnissen. Die spezifischen Erkennungsergebnisse der Objekterkennung auf dem Bild bei schwachem Licht (Abb. 16LL) sind in Abb. 16 dargestellt, nur RUAS (Abb. 16c), ZeroDCE++ (Abb. 16e), Uretinex (Abb. 16g) und CUI-Net (Abb. 16h) kann die meisten Ziele erkennen. EnlightenGAN (Abb. 16a), KinD (Abb. 16b), ZeroDCE (Abb. 16d), SCI (Abb. 16f) und Baseline (Abb. 16LD) konnten die Ziele nicht vollständig erkennen. Die gesamten durchschnittlichen Konfidenzwerte von RUAS, ZeroDCE++ und Uretinex sind niedriger als bei CUI-Net. Darüber hinaus ist der Hauptgrund, warum RUAS und ZeroDCE++ in Tabelle 8 niedrigere mAP-Werte aufweisen, das Problem der Überbelichtung. CUI-Net fand jedoch eine gute Balance und konnte die durch Überbelichtung verursachten insgesamt niedrigeren mAP-Werte vermeiden.

Experimentelle Ergebnisse der Objekterkennung im ExDark-Datensatz: (a) EnlightenGAN; (b) Kind; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net; (LL) Unverbessertes Low-Light-Bild als Eingabe; (LD) Ergebnis der Objekterkennung direkt auf dem nicht verbesserten Schwachlicht-Eingabebild.

Wir haben die Leistung aller Segmentierungsmethoden für den semantischen Segmentierungsdatensatz von ACDC bei schwachem Licht mithilfe des DeepLab-V3+65-Modells mit Vortrainings- und Feinabstimmungsmodus bewertet. Das vorab trainierte Modell wurde anhand des Cityscape-Datensatzes trainiert66. Tabelle 9 zeigt die mIoU-Werte für mehrere Kategorien und den Gesamtdurchschnitt zwischen verschiedenen Methoden zur Verbesserung bei schlechten Lichtverhältnissen. CUI-Net erzielte den besten mIoU-Score unter den sechs Segmentierungszielen und war die zweitbeste Methode unter den sieben Segmentierungszielen. Es übertraf die zweitbeste Methode um 4,5 in der Kategorie „Wand“, 1,9 in der Kategorie „Ampel“ und 6,6 in der Kategorie „Motorräder“. Der durchschnittliche mIoU-Gesamtwert war 2,8 höher als bei der zweitbesten Methode.

Tabelle 10 zeigt die mAcc-Werte für mehrere Kategorien im Durchschnitt verschiedener Methoden zur Verbesserung bei schlechten Lichtverhältnissen. CUI-Net erreichte die höchsten mAcc-Werte für fünf Segmentierungsziele, mit 12,7 mehr als die zweitbeste Methode in der Motorkategorie und 22,9 mehr in der Fahrerkategorie. CUI-Net erzielte außerdem den zweithöchsten mAcc-Wert für vier Segmentierungsziele, wobei der Gesamt-MAcc-Wert um 5 höher war als bei der zweitbesten Methode.

Abbildung 17 zeigt die überlagerten Ergebnisse semantischer Segmentierungsmasken und verbesserter Bilder im ACDC-Datensatz. Insgesamt wiesen RUAS (Abb. 17c) und SCI (Abb. 17f) eine Überbelichtung auf. Die Methoden EnlightenGAN (Abb. 17a), KinD (Abb. 17b), ZeroDCE (Abb. 17d), ZeroDCE++ (Abb. 17e), Uretinex (Abb. 17g) und CUI-Net (Abb. 17h) zeigten keine signifikanten Unterschiede. Bei semantischen Segmentierungsanwendungen in der Nacht ist jedoch die Liebe zum Detail besonders wichtig, beispielsweise die rechtzeitige Segmentierung von Verkehrszeichen für Fußgänger auf der Straße, um schwere Unfälle beim autonomen Fahren in der Nacht zu vermeiden.

Segmentierungsergebnisse für den ACDC-Datensatz: (a) EnlightenGAN; (b) Art; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net.

Die lokalen detaillierten semantischen Segmentierungsergebnisse für jede Methode, die dem roten Kasten in Abb. 17 entspricht, sind in Abb. 18 dargestellt. Im Vergleich zur Grundwahrheit in Abb. 19 gilt für den ersten roten Kastenbereich, der zwei Verkehrszeichen enthält, EnlightenGAN ( Abb. 18a), KinD (Abb. 18b), RUAS (Abb. 18c), ZeroDCE++ (Abb. 18e) und Uretinex (Abb. 18g) konnten beide Verkehrszeichen nicht segmentieren, während ZeroDCE (Abb. 18d) und SCI ( Abb. 18f) erkannte nur das linke Verkehrszeichen. CUI-Net (Abb. 18h) konnte jedoch beide Verkehrszeichen erkennen. Für den mittleren roten Kastenbereich, der zwei Fußgänger und zwei Verkehrszeichen enthält, erkannten nur ZeroDCE++ (Abb. 18e) und Uretinex (Abb. 18g) beide Verkehrszeichen, während unser CUI-Net (Abb. 18h) einen zusätzlichen Fußgänger erkannte. Für den rechten Red-Box-Bereich, der zwei Fußgänger enthält, konnten nur KinD (Abb. 18b), SCI (Abb. 18f) und CUI-Net (Abb. 18h) beide Fußgänger gut segmentieren. Darüber hinaus ist für die Fußgängerüberwegkategorie, die im ACDC-Datensatz nicht vorhanden ist, aus Abb. 17 ersichtlich, dass CUI-Net den offensichtlichsten Verbesserungseffekt hat, der bei autonomen Fahraufgaben für die Nachtsicherheit eine Rolle spielen kann. Offensichtlich hat CUI-Net ein gewisses Potenzial für nächtliche semantische Segmentierungsaufgaben.

Vergrößerte Details der roten Kästchen in Abb. 17: (a) EnlightenGAN; (b) Kind; (c) RUAS; (d) ZeroDCE; (e) ZeroDCE++; (f) SCI; (g) Uretinex; (h) CUI-Net;

Links: Grundwahrheit; Rechts: Bild der vergrößerten Details, die dem roten Bereich im Ground-Truth-Bild entsprechen.

Um zu überprüfen, ob die Netzwerkstruktur des Erweiterungsmoduls in CUI-Net die Verbesserungsfähigkeit des Modells verbessern kann, haben wir zum Training und Testen vier Ablationsexperimente mit dem LSRW-Datensatz durchgeführt und die Qualität der verbesserten Bilder mithilfe von SSIM, PSNR und LPIPS bewertet .

Um zunächst zu überprüfen, ob Adan und StarReLu die Konvergenz des Modells beschleunigen können, entscheiden wir uns für ein Training für 50 Epochen. Die erhaltenen Ergebnisse sind in Tabelle 11 aufgeführt. Darin lässt sich beobachten, dass das Ersetzen von GeLu durch StarReLu und Adam durch Adan in einer geringeren Anzahl von Epochen zu besseren Ergebnissen führen kann.

Zweitens, um zu überprüfen, ob das Netzwerkstrukturdesign des Erweiterungsmoduls effektiv ist, haben wir die fünf Module im Gesamtnetzwerk durch ein vollständiges CNN-Modul, ein vollständiges Transformer-Modul und die drei Transformer-Module und zwei CNN-Module von CUI-Net ersetzt experimentelle Analyse. Die erzielten Ergebnisse sind in Tabelle 12 aufgeführt. Die Netzwerkstruktur von CUI-Net kann eine bessere Leistung erzielen.

Drittens haben wir MDTA und GDFN in Restormer für die Ablationsstudie ausgewählt, um zu überprüfen, ob MDSA und CGFN die Verbesserungsfähigkeit des Modells verbessern können. Die Ergebnisse sind in Tabelle 13 aufgeführt. Sowohl MDSA als auch CGFN können die Leistung des Modells verbessern.

Abschließend wurde eine Ablationsstudie zur Sparse-Attention-Operation auf Kanälen im MDSA-Modul von CUI-Net durchgeführt. Die Ergebnisse sind in Tabelle 14 aufgeführt. Die Operation \(Topk\_normal\) ist die übliche Operation mit geringer Aufmerksamkeit, bei der alle Aufmerksamkeitsgewichte außer TopK auf Null gesetzt werden. Im Gegensatz dazu reduziert die in CUI-Net verwendete \(Top\_CUI\)-Operation die Aufmerksamkeitsgewichte der von TopK erhaltenen Kanäle auf einen sehr niedrigen Wert. Die Ergebnisse der Ablationsstudie zeigen, dass die geringe Aufmerksamkeit auf die in CUI-Net verwendeten Kanäle dazu beiträgt, bessere Verbesserungsergebnisse zu erzielen.

In diesem Artikel schlagen wir ein CUI-Net-Framework vor, das aus einem Verbesserungsmodul und einem Hilfsmodul besteht und eine differenzielle Verbesserung von Schwachlicht- und Hervorhebungsbereichen in Umgebungen mit wenig Licht erreichen kann. Im Erweiterungsmodul werden ein effizienter Low-Light-Enhancement-Transformer und ein CNN-Netzwerk eingeführt, um Low-Light-Bilder durch die Erfassung globaler Pixelinformationen zu verbessern. Im Hilfsmodul ist ein leichtes CNN-Netzwerk konzipiert, das das Erweiterungsmodul dabei unterstützt, bessere und korrekte Lichteffekte zu konvergieren. Eine quantitative Analyse und ein qualitativer Vergleich von CUI-Net mit anderen hochmodernen Methoden zur Bildverbesserung bei schlechten Lichtverhältnissen wurden an zwei öffentlichen Datensätzen bei schlechten Lichtverhältnissen durchgeführt und zeigten die Wirksamkeit der vorgeschlagenen Methode. Darüber hinaus wurde die Praktikabilität der Methode durch hochrangige Sehaufgaben weiter verifiziert, nämlich Objekterkennung bei schwachem Licht, Erkennung dunkler Gesichter und semantische Segmentierung bei Nacht.

Der während der aktuellen Studie verwendete MIT-Datensatz ist unter https://data.csail.mit.edu/graphics/fünfk/ verfügbar. Der während der aktuellen Studie verwendete LSRW-Datensatz ist unter https://github.com/JianghaiSCU/R2RNet verfügbar. Der während der aktuellen Studie verwendete DarkFace-Datensatz ist unter https://flyywh.github.io/CVPRW2019LowLight/ verfügbar. Der während der aktuellen Studie verwendete ExDark-Datensatz ist unter https://github.com/cs-chan/Exclusively-Dark-Image-Dataset verfügbar. Der während der aktuellen Studie verwendete ACDC-Datensatz ist unter https://acdc.vision.ee.ethz.ch/ verfügbar. Die in der aktuellen Studie verwendeten MEF-, VV-, DICM- und LIME-Datensätze sind unter https://github.com/Li-Chongyi/Lighting-the-Darkness-in-the-Deep-Learning-Era-Open/ verfügbar.

Cui, H., Li, J., Hua, Z. & Fan, L. Progressives Dual-Branch-Netzwerk zur Bildverbesserung bei schlechten Lichtverhältnissen. IEEE Trans. Instrument. Mess. 71, 1–18 (2022).

Google Scholar

Stark, JA Adaptive Bildkontrastverbesserung durch Verallgemeinerungen des Histogrammausgleichs. IEEE Trans. Bildprozess. 9, 889–896 (2000).

Artikel ADS CAS PubMed Google Scholar

Abdullah-Al-Wadud, M., Kabir, MH, Dewan, MAA & Chae, O. Ein dynamischer Histogrammausgleich zur Verbesserung des Bildkontrasts. IEEE Trans. Konsum. Elektron. 53, 593–600 (2007).

Artikel Google Scholar

Wang, W., Wu, X., Yuan, X. & Gao, Z. Eine experimentelle Übersicht über Bildverbesserungsmethoden bei schlechten Lichtverhältnissen. IEEE Access 8, 87884–87917 (2020).

Artikel Google Scholar

Land, EH Eine alternative Technik zur Berechnung des Bezeichners in der Retinex-Theorie des Farbsehens. Proz. Natl. Acad. Wissenschaft. 83, 3078–3080 (1986).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Kimmel, R., Elad, M., Shaked, D., Keshet, R. & Sobel, I. Ein Variationsrahmen für Retinex. Int. J. Comput. Vis. 52, 7–23 (2003).

Artikel MATH Google Scholar

Tao, L. & Asari, V. Modifizierter luminanzbasierter MSR für schnelle und effiziente Bildverbesserung. Im 32. Workshop zur angewandten Bildmustererkennung, 2003. Proceedings 174–179 (IEEE, 2003).

Kuang, B. & Zhang, Z. Zweistufiges Netzwerk zur Bildverbesserung bei schlechten Lichtverhältnissen mit Aufmerksamkeitsmechanismus und stufenübergreifender Verbindung. J. Electron. Bildgebung 31, 053001 (2022).

Artikel ADS Google Scholar

Jiang, Y. et al. Enlightengan: Tiefenlichtverstärkung ohne paarweise Aufsicht. IEEE Trans. Bildprozess. 30, 2340–2349 (2021).

Artikel ADS PubMed Google Scholar

Ronneberger, O., Fischer, P. & Brox, T. U-net: Faltungsnetzwerke für die biomedizinische Bildsegmentierung. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18. Internationale Konferenz, München, Deutschland, 5.–9. Oktober 2015, Proceedings, Teil III 234–241 (Springer, 2015).

Guo, C. et al. Null-Referenz-Tiefenkurvenschätzung zur Bildverbesserung bei schlechten Lichtverhältnissen. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 1780–1789 (2020).

Liu, R., Ma, L., Zhang, J., Fan, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 10561–10570 (2021).

Ma, L., Ma, T., Liu, R., Fan, X. & Luo, Z. Auf dem Weg zu einer schnellen, flexiblen und robusten Bildverbesserung bei schlechten Lichtverhältnissen. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 5637–5646 (2022).

Zamir, SW et al. Restomer: Effizienter Transformator für die Wiederherstellung hochauflösender Bilder. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 5728–5739 (2022).

Li, W., Liu, K., Zhang, L. & Cheng, F. Objekterkennung basierend auf einem adaptiven Aufmerksamkeitsmechanismus. Wissenschaft. Rep. 10, 11307 (2020).

Artikel PubMed PubMed Central Google Scholar

Yin, M., Wang, P., Ni, C. & Hao, W. Wolken- und Schneeerkennung von Fernerkundungsbildern basierend auf verbessertem unet3+. Wissenschaft. Rep. 12, 14415 (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. Adv. Neuronale Inf. Verfahren. Syst.30 (2017).

Lin, Z. et al. Eine strukturierte selbstaufmerksame Satzeinbettung. arXiv-Vorabdruck arXiv:1703.03130 (2017).

Dosovitskiy, A. et al. Ein Bild sagt mehr als 16x16 Worte: Transformatoren für die Bilderkennung im Maßstab. arXiv-Vorabdruck arXiv:2010.11929 (2020).

Shaw, P., Uszkoreit, J. & Vaswani, A. Selbstaufmerksamkeit mit relativen Positionsdarstellungen. arXiv-VordruckarXiv:1803.02155 (2018).

Guo, J., Jia, N. & Bai, J. Transformator basierend auf kanalräumlicher Aufmerksamkeit für eine genaue Klassifizierung von Szenen in Fernerkundungsbildern. Wissenschaft. Rep. 12, 15473 (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Ma, J. et al. Swinfusion: Domänenübergreifendes Fernlernen für die allgemeine Bildfusion mittels Swin-Transformator. IEEE CAA J. Autom. Sünde. 9, 1200–1217 (2022).

Artikel Google Scholar

Yang, F., Yang, H., Fu, J., Lu, H. & Guo, B. Lernendes Texturtransformatornetzwerk für Bild-Superauflösung. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 5791–5800 (2020).

Liang, J. et al. Swinir: Bildwiederherstellung mit Swin-Transformator. In Proceedings of the IEEE/CVF International Conference on Computer Vision 1833–1844 (2021).

Luthra, A., Sulakhe, H., Mittal, T., Iyer, A. & Yadav, S. Eformer: Kantenverstärkungsbasierter Transformator zur Rauschunterdrückung medizinischer Bilder. arXiv-Vorabdruck arXiv:2109.08044 (2021).

Song, Y., He, Z., Qian, H. & Du, X. Vision-Transformatoren für die Enttrübung einzelner Bilder. IEEE Trans. Bildprozess. 32, 1927–1941 (2023).

Artikel ADS Google Scholar

Tu, Z. et al. Maxim: Mehrachsiges MLP für die Bildverarbeitung. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 5769–5780 (2022).

Cui, Z. et al. Sie benötigen nur 90.000 Parameter, um das Licht anzupassen: einen leichten Transformator zur Bildverbesserung und Belichtungskorrektur. Auf der 33. British Machine Vision Conference 2022, BMVC 2022, London, Großbritannien, 21.–24. November 2022 (BMVA Press, Durham, 2022).

Peng, Z. et al. Konformer: Lokale Merkmale, die globale Darstellungen zur visuellen Erkennung koppeln. In Proceedings of the IEEE/CVF International Conference on Computer Vision 367–376 (2021).

Fang, J., Lin, H., Chen, X. & Zeng, K. Ein hybrides Netzwerk aus CNN und Transformator für leichte Bild-Superauflösung. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops 1103–1112 (2022).

Yoo, J. et al. Erweiterte CNN-Transformer-Feature-Aggregationsnetzwerke für Superauflösung. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV) (2023).

Li, C. et al. Bild- und Videoverbesserung bei schlechten Lichtverhältnissen durch Deep Learning: Eine Umfrage. IEEE Trans. Muster Anal. Mach. Intel. 44, 9396–9416 (2021).

Artikel Google Scholar

Li, X. et al. Transformerbasierte visuelle Segmentierung: Eine Umfrage. arXiv-Vorabdruck arXiv:2304.09854 (2023).

Fu, X. et al. Eine fusionsbasierte Verbesserungsmethode für schwach beleuchtete Bilder. Signalprozess. 129, 82–96 (2016).

Artikel Google Scholar

Guo, X., Li, Y. & Ling, H. Lime: Bildverbesserung bei schwachem Licht durch Schätzung der Beleuchtungskarte. IEEE Trans. Bildprozess. 26, 982–993 (2016).

Artikel ADS MathSciNet MATH Google Scholar

Wei, C., Wang, W., Yang, W. & Liu, J. Tiefgreifende Retinexzersetzung zur Verbesserung bei schlechten Lichtverhältnissen. Auf der British Machine Vision Conference (British Machine Vision Association, 2018).

Fu, Z., Fu, Z., Liu, Q., Cai, W. & Wang, Y. Sparsett: Visuelles Tracking mit spärlichen Transformatoren. arXiv-Vorabdruck arXiv:2205.03776 (2022).

Zhao, G. et al. Expliziter Sparse-Transformator: Konzentrierte Aufmerksamkeit durch explizite Auswahl. arXiv-Vorabdruck arXiv:1912.11637 (2019).

Child, R., Gray, S., Radford, A. & Sutskever, I. Generieren langer Sequenzen mit spärlichen Transformatoren. https://openai.com/blog/sparse-transformers (2019).

Fan, Q., Yang, J., Wipf, D., Chen, B. & Tong, X. Bildglättung durch unbeaufsichtigtes Lernen. ACM Trans. Graph. (TOG) 37, 1–14 (2018).

Artikel Google Scholar

Yu, W. et al. Metaformer ist eigentlich das, was Sie zum Sehen brauchen. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 10819–10829 (2022).

Xie, X., Zhou, P., Li, H., Lin, Z. & Yan, S. Adan: Adaptiver Nesterov-Momentum-Algorithmus zur schnelleren Optimierung tiefer Modelle. arXiv-Vorabdruck arXiv:2208.06677 (2022).

Hendrycks, D. & Gimpel, K. Gaußsche Fehlerlineareinheiten (Gelus). arXiv-Vorabdruck arXiv:1606.08415 (2016).

Kingma, DP & Ba, J. Adam: Eine Methode zur stochastischen Optimierung. arXiv-Vorabdruck arXiv:1412.6980 (2014).

Zhang, Y., Guo, X., Ma, J., Liu, W. & Zhang, J. Mehr als nur das Aufhellen von Bildern bei schlechten Lichtverhältnissen. Int. J. Comput. Vis. 129, 1013–1037 (2021).

Artikel Google Scholar

Li, C., Guo, C. & Loy, CC Lernen, Bilder bei schlechten Lichtverhältnissen durch Tiefenkurvenschätzung ohne Referenz zu verbessern. IEEE Trans. Muster Anal. Mach. Intel. 44, 4225–4238 (2021).

Google Scholar

Wu, W. et al. Uretinex-net: Retinex-basiertes Tiefenentfaltungsnetzwerk zur Bildverbesserung bei schlechten Lichtverhältnissen. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 5901–5910 (2022).

Bychkovsky, V., Paris, S., Chan, E. & Durand, F. Erlernen der fotografischen globalen Tonwertanpassung mit einer Datenbank von Eingabe-/Ausgabebildpaaren. In CVPR 2011 97–104 (IEEE, 2011).

Hai, J. et al. R2rnet: Bildverbesserung bei schwachem Licht über ein Real-Low- bis Real-Normal-Netzwerk. J. Vis. Komm. Bild darstellen. 90, 103712 (2023).

Artikel Google Scholar

Zhang, R., Isola, P., Efros, AA, Shechtman, E. & Wang, O. Die unangemessene Wirksamkeit tiefer Merkmale als Wahrnehmungsmetrik. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 586–595 (2018).

Mittal, A., Soundararajan, R. & Bovik, AC Herstellung eines „völlig blinden“ Bildqualitätsanalysators. IEEE-Signalprozess. Lette. 20, 209–212 (2012).

Artikel ADS Google Scholar

Zhang, L., Zhang, L. & Bovik, AC Ein funktionsreicher, völlig blinder Bildqualitätsbewerter. IEEE Trans. Bildprozess. 24, 2579–2591 (2015).

Artikel ADS MathSciNet MATH Google Scholar

Talebi, H. & Milanfar, P. Nima: Beurteilung neuronaler Bilder. IEEE Trans. Bildprozess. 27, 3998–4011 (2018).

Artikel ADS MathSciNet MATH Google Scholar

Ke, J., Wang, Q., Wang, Y., Milanfar, P. & Yang, F. Musiq: Multiskalen-Bildqualitätstransformator. In Proceedings of the IEEE/CVF International Conference on Computer Vision 5148–5157 ​​(2021).

Yang, W. et al. Verbesserung des Bildverständnisses in Umgebungen mit schlechter Sicht: Eine kollektive Benchmark-Studie. IEEE Trans. Bildprozess. 29, 5737–5752 (2020).

Artikel ADS Google Scholar

Loh, YP & Chan, CS Lernen Sie Low-Light-Bilder mit dem ausschließlich dunklen Datensatz kennen. Berechnen. Vis. Bildverstand. 178, 30–42 (2019).

Artikel Google Scholar

Sakaridis, C., Dai, D. & Van Gool, L. Acdc: Der Datensatz zu widrigen Bedingungen mit Korrespondenzen für das semantische Verständnis von Fahrszenen. In Proceedings of the IEEE/CVF International Conference on Computer Vision 10765–10775 (2021).

Ma, K., Zeng, K. & Wang, Z. Wahrnehmungsqualitätsbewertung für die Bildfusion mit mehreren Belichtungen. IEEE Trans. Bildprozess. 24, 3345–3356 (2015).

Artikel ADS MathSciNet PubMed MATH Google Scholar

Lee, C., Lee, C. & Kim, C.-S. Kontrastverstärkung durch geschichtete Differenzdarstellung. Im Jahr 2012 19. IEEE International Conference on Image Processing 965–968 (IEEE, 2012).

Li, J. et al. Dsfd: Dual-Shot-Gesichtsdetektor. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 5060–5069 (2019).

Liu, W. et al. SSD: Single-Shot-Multibox-Detektor. In Computer Vision–ECCV 2016: 14. Europäische Konferenz, Amsterdam, Niederlande, 11.–14. Okt. 2016, Proceedings, Teil I 21–37 (Springer, 2016).

Yang, S., Luo, P., Loy, C.-C. & Tang, X. Breiteres Gesicht: Ein Benchmark für die Gesichtserkennung. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 5525–5533 (2016).

Redmon, J. & Farhadi, A. Yolov3: Eine schrittweise Verbesserung. arXiv-Vorabdruck arXiv:1804.02767 (2018).

Lin, T.-Y. et al. Microsoft Coco: Gemeinsame Objekte im Kontext. In Computer Vision–ECCV 2014: 13. Europäische Konferenz, Zürich, Schweiz, 6.–12. September 2014, Proceedings, Teil V 740–755 (Springer, 2014).

Chen, L.-C., Zhu, Y., Papandreou, G., Schroff, F. & Adam, H. Encoder-Decoder mit atrous trennbarer Faltung für semantische Bildsegmentierung. In Proceedings of the European Conference on Computer Vision (ECCV) 801–818 (2018).

Cordts, M. et al. Der Stadtlandschaftsdatensatz für das semantische Verständnis städtischer Szenen. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 3213–3223 (2016).

Referenzen herunterladen

Diese Arbeit wurde teilweise durch das National Science Foundation Project der VR China unter der Fördernummer 52071349 und der Nr. U1906234 unterstützt, teilweise unterstützt durch das Open Project Program des Key Laboratory of Marine Environmental Survey Technology and Application, Ministry of Natural Resource MESTA-2020- B001, Young and Middle-aged Talents Project der State Ethnic Affairs Commission, das interdisziplinäre Forschungsprojekt der Minzu University of China (2020MDJC08) und die Graduate Research and Practice Projects der Minzu University of China (SJCX2022037, SJCX2022038, SZKY2022001).

School of Information Engineering, Minzu University of China, Peking, 100081, China

Ke Chao, Wei Song, Sen Shao, Dan Liu, Xiangchun Liu und XiaoBing Zhao

Schlüssellabor für Technologie und Anwendung von Meeresumweltuntersuchungen, Ministerium für natürliche Ressourcen, Guangzhou, 510300, China

Wei-Lied

Forschungszentrum für Sprachinformationssicherheit, Institut für nationale Sicherheit MUC, Minzu-Universität China, Peking, 100081, China

Wei Song & XiaoBing Zhao

National Language Resource Monitoring and Research Center of Minority Languages, Minzu University of China, Peking, 100081, China

Wei Song & XiaoBing Zhao

Schlüssellabor für intelligente Analyse ethnischer Sprachen und Sicherheitsgovernance des MOE, Minzu University of China, Peking, China

Wei Song & XiaoBing Zhao

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Alle Autoren haben zur Konzeption und Gestaltung der Studie beigetragen. Die Materialvorbereitung, Datenerfassung und Analyse wurden von KC und WS durchgeführt; Der erste Entwurf des Manuskripts wurde von KC verfasst; SS und DL erstellten die Abbildungen und Tabellen; XL und XZ haben diesen Artikel überprüft und empfohlen. Alle Autoren haben das endgültige Manuskript gelesen und genehmigt.

Korrespondenz mit Wei Song.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Chao, K., Song, W., Shao, S. et al. CUI-Net: ein Netz zur Korrektur ungleichmäßiger Beleuchtung zur Bildverbesserung bei schlechten Lichtverhältnissen. Sci Rep 13, 12894 (2023). https://doi.org/10.1038/s41598-023-39524-5

Zitat herunterladen

Eingegangen: 27. April 2023

Angenommen: 26. Juli 2023

Veröffentlicht: 09. August 2023

DOI: https://doi.org/10.1038/s41598-023-39524-5

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE