Verwendung von ISU

Wissenschaftliche Berichte Band 12, Artikelnummer: 11604 (2022) Diesen Artikel zitieren

1991 Zugriffe

2 Zitate

Details zu den Metriken

Die Erkennung von Oberflächenfehlern ist ein wichtiger Prozess in der industriellen Produktion und eine wichtige Forschungsrichtung in der Computer Vision. Obwohl die heutigen Deep-Learning-Methoden zur Fehlererkennung auf Basis von Computer Vision eine hohe Erkennungsgenauigkeit erreichen können, basieren sie hauptsächlich auf überwachtem Lernen. Sie erfordern viele Fehlerproben, um das Modell zu trainieren, was nicht mit der aktuellen Situation vereinbar ist, dass industrielle Fehlerproben schwer zu erhalten und kostspielig zu kennzeichnen sind. Daher schlagen wir ein neues unbeaufsichtigtes Fehlererkennungsmodell für kleine Stichproben vor – ISU-GAN, das auf der CycleGAN-Architektur basiert. Dem Generator werden eine Skip-Verbindung, ein SE-Modul und ein Involution-Modul hinzugefügt, wodurch die Merkmalsextraktionsfähigkeit des Modells erheblich verbessert werden kann. Darüber hinaus schlagen wir eine SSIM-basierte Fehlersegmentierungsmethode vor, die auf die GAN-basierte Fehlererkennung anwendbar ist und Fehlerkonturen präzise extrahieren kann, ohne dass eine redundante Nachbearbeitung zur Rauschreduzierung erforderlich ist. Experimente mit dem DAGM2007-Datensatz zeigen, dass das unbeaufsichtigte ISU-GAN mit weniger als einem Drittel der unbeschrifteten Trainingsdaten eine höhere Erkennungsgenauigkeit und feinere Fehlerprofile erreichen kann als das überwachte Modell mit dem vollständigen Trainingssatz. Im Vergleich zu den überwachten Segmentierungsmodellen UNet und ResUNet++ mit mehr Trainingsbeispielen verbessert unser Modell die Erkennungsgenauigkeit um 2,84 % bzw. 0,41 % und den F1-Score um 0,025 bzw. 0,0012. Darüber hinaus liegt das mit unserer Methode erhaltene vorhergesagte Profil näher am realen Profil als andere zum Vergleich verwendete Modelle.

Produkte können im tatsächlichen industriellen Produktionsprozess aufgrund von Maschinenfehlern, Arbeiterfehlern und Problemen im Produktionsprozess Oberflächenfehler aufweisen. Oberflächenfehler beeinträchtigen nicht nur die Ästhetik und Leistung des Produkts und führen zu einer geringeren Benutzerzufriedenheit, sondern können auch ein Sicherheitsrisiko darstellen und eine Gefahr für Leben und Eigentum des Benutzers darstellen. Daher ist die Erkennung von Oberflächenfehlern ein wesentlicher Bestandteil der industriellen Produktion.

Der Prozess der industriellen Oberflächendefekte beruhte lange Zeit auf manueller Arbeit, die nicht nur zeitaufwändig und mühsam, sondern auch sehr subjektiv ist und den Anforderungen der industriellen Produktion nicht mit hoher Effizienz und Präzision gerecht werden kann. Daher ist die auf Computer Vision basierende automatisierte Fehlererkennungstechnologie eine beliebtere Forschungsrichtung. Derzeit umfassen automatisierte Fehlererkennungsmethoden, die auf maschinellem Sehen basieren, hauptsächlich traditionelle Methoden und Deep-Learning-Methoden.

Herkömmliche Methoden stützen sich auf die Strukturinformationen des Bildes, um Fehler zu erkennen. Normalerweise erfordert es menschliche Anstrengungen, den entsprechenden Erkennungsalgorithmus basierend auf den Merkmalen des Defekts und dem tatsächlichen Anwendungsszenario zu entwerfen. Zu den aktuellen traditionellen Fehlererkennungsmethoden, die auf maschinellem Sehen basieren, gehören hauptsächlich die Gabor-Filterung1, der verbesserte lokale binäre Musteralgorithmus (MB-LBP)2, der verbesserte Sobel-Algorithmus3 usw. Die meisten herkömmlichen Bildverarbeitungsmethoden basieren stark auf spezifischen Fehlermerkmalen und sind schwer durchgängig zu erreichen -Enderkennung. Der Zeitaufwand und die wirtschaftlichen Kosten für die manuelle Entwicklung verschiedener Prüfalgorithmen für unterschiedliche Fehler sind sehr hoch und erfordern eine große Anzahl von Personen mit ausgeprägtem Fachwissen, was eine Herausforderung darstellt, um die Effizienz- und Kostenanforderungen der industriellen Produktion zu erfüllen. Darüber hinaus sind in der Praxis Erkennungsalgorithmen, die auf den Eigenschaften von Defekten basieren, die das menschliche Auge erkennt, anfällig für Störungen durch Änderungen in der äußeren Umgebung, was es schwierig macht, eine zufriedenstellende Robustheit zu erreichen.

Mit dem Aufkommen von Deep Learning haben verschiedene Algorithmen, die auf Convolutional Neural Networks (CNNs) basieren, in vielen Teilbereichen der maschinellen Bildverarbeitung überraschende Ergebnisse erzielt. Im Vergleich zu herkömmlichen Fehlererkennungsmethoden machen Deep-Learning-Methoden die manuelle Modellierung von Fehlermerkmalen größtenteils überflüssig und ermöglichen eine durchgängige Erkennung. Sie bieten außerdem die Vorteile einer hohen Erkennungsgenauigkeit, einer schnellen Konvergenz und Robustheit.

Zu den standardmäßigen Deep-Learning-Methoden zur Fehlererkennung gehören insbesondere Zielerkennungsmethoden, semantische Segmentierungsmethoden und neuartige generative kontradiktorische netzwerkbasierte Erkennungsmethoden.

Die Objekterkennung ist eine grundlegende Aufgabe im Bereich der maschinellen Bildverarbeitung. Ziel ist es, die Position oder Kategorie eines bestimmten Objekts in einem bestimmten Bild zu erkennen. Insbesondere bei der Anwendung der Fehlererkennung wird der Bereich, in dem sich der Fehler befindet, als zu erkennendes Objekt verwendet. Standarderkennungsnetzwerke im Bereich der Fehlererkennung sind SSD4, YOLO5, Faster R-CNN6 usw. Im Bereich der Fehlererkennung weisen Objekterkennungsmodelle normalerweise eine gute Geschwindigkeit und Genauigkeit auf. Allerdings ist die Unfähigkeit, Fehlerprofile zu extrahieren, immer noch ein großer Nachteil, da feine Profile dabei helfen können, die Ursachen von Fehlern in der Industrie zu erforschen.

Im Gegensatz zur Klassifizierung auf Objektebene zur Objekterkennung verfolgt die semantische Segmentierung eine Klassifizierung auf Pixelebene. Im Gegensatz zur Objekterkennung, die nur Vorhersagerahmen auf Objektebene liefern muss, erfordert die semantische Segmentierung eine Klassifizierungsvorhersage für jedes Pixel des Bildes. Somit lokalisiert die Verwendung semantischer Segmentierungsnetzwerke zur Fehlererkennung den Fehler und segmentiert die tatsächliche Kontur des Fehlers. Die derzeit gängigen Segmentierungsnetzwerke bei der Fehlererkennung sind Mask R-CNN7, UNet8, SegNet9 usw. Semantische Segmentierungsmodelle können die Konturen von Fehlern extrahieren, aber da sie auf Pixelbasis klassifizieren, sind eine große Anzahl von Trainingsbeispielen und erforderlich Pixelweise Annotation.

Viele auf maschineller Bildverarbeitung basierende Fehlererkennungstechniken stehen für praktische industrielle Anwendungen immer noch vor zwei großen Herausforderungen. Erstens ist es schwierig, Trainingsmuster mit Fehlern zu erhalten. Zweitens ist die manuelle Kennzeichnung von Trainingsbeispielen kostspielig. In diesem Fall bietet das Generative Adversarial Networks (GAN)10 mit seinen leistungsstarken Datengenerierungsfunktionen eine neue Denkweise bei der Fehlererkennung. Es stellt zwei funktional unterschiedliche Netzwerke (Generator G und Diskriminator D) kreativ gegeneinander an. Sie werden gegeneinander trainiert, um ihre jeweilige Leistung zu verbessern. Das Ergebnis ist ein Generator, der gefälschte Daten generieren kann. Das in diesem Artikel verwendete Fehlererkennungsnetzwerk basiert auf einer der Varianten von GAN-CycleGAN11. Bei CycleGAN handelt es sich im Wesentlichen um zwei spiegelsymmetrische GANs, die zwei unterschiedliche Verteilungen von Stichproben zwischen Zuordnungsbeziehungen lernen können und häufig in Computer-Vision-Bereichen wie Bildübersetzung und Stilmigration eingesetzt werden.

Da das Training von GAN-Netzwerken normalerweise unbeaufsichtigt erfolgt, werden die mit der Annotation von Datensätzen verbundenen Kosten erheblich eingespart, was einen erheblichen Vorteil in der praktischen Anwendung darstellt.

In den letzten Jahren kam es zu einer starken Verbreitung von Deep-Learning-Methoden zur Fehlererkennung, wobei viele neuartige Modelle bei bestimmten Datensätzen gute Erkennungsergebnisse erzielen. Beispielsweise schlugen Lee et al.12 eine Echtzeit-Entscheidungsmethode zur Erkennung von Stahloberflächenfehlern auf der Grundlage von CNN und Klassenaktivierungskarten vor. Mei et al.13 verwendeten Denoising Autoencoder Networks mit Gaußschen Pyramiden zur Rekonstruktion von Defekten und kombinierten sie mit Multiskalenfusion, um Oberflächendefekte in Stoffen mit guten Ergebnissen zu erkennen. Zhong et al.14 schlugen PVANET++ basierend auf Faster R-CNN vor, das die Low-Level-Feature-Map mit der High-Level-Feature-Map verknüpft, um eine neue Superexpression-Map für die Vorschlagsextraktion zu bilden, die bei der Erkennung von Defekten in Eisenbahn-Splinten eingesetzt wird. Tabernik et al.15 entwarfen ein zweistufiges Erkennungsmodell basierend auf dem Segmentierungsnetzwerk und dem Unterscheidungsnetzwerk. Es extrahierte feine Defektprofile aus dem KolektorSDD-Datensatz. Huang et al.16 schlugen ein verbessertes MCue-Modul mit UNet vor, um herausragende Bilder zur Erkennung magnetischer Fliesenoberflächenfehler zu erzeugen. Li et al.17 schlugen ein verbessertes UNet mit Dense-Block-Modul und Summation-Skip-Verbindung zur Erkennung von Betonoberflächenrissen vor. Die Methode erreichte eine durchschnittliche Pixelgenauigkeit von 91,59 % und einen durchschnittlichen IoU von 84,53 % im Betondefektdatensatz. Inspiriert von UNET und DenseNet verwendet das von Roberts et al.18 vorgeschlagene DefectSegNet eine Sprungverbindung innerhalb und zwischen Blöcken, was eine hohe Pixelgenauigkeit in hochwertigen Stahldefektdatensätzen zeigt.

Aktuelle Modelle zur Erkennung von Oberflächenfehlern, die auf allgemeinem Deep Learning basieren, können eine hohe Erkennungsgenauigkeit und Echtzeitanforderungen erreichen, erfordern jedoch meist eine große Anzahl negativer Proben und Etiketten für das Training, was kostspielig und in industriellen Anwendungen schwer umzusetzen ist.

Die Verwendung von GAN zur Erkennung von Oberflächendefekten ist ein relativ neuer Ansatz, der erstmals in AnoGAN19 von Schlegl et al. im Jahr 2017. AnoGAN lernt während der Trainingsphase eine Streaming-Verteilung positiver Proben im potenziellen Raum, während die Testphase iterativ den nächstgelegenen Vektor in diesem Raum findet und dann die Generatorausgabe mit der Originalkarte vergleicht, um den anomalen Bereich zu finden. Da die iterative Optimierung in der Trainingsphase zu zeitaufwändig war, schlugen die Autoren 2019 eine verbesserte Version von f-AnoGAN mit Encoderstruktur20 vor. f-AnoGAN entschärft das Problem des enormen Zeitaufwands in gewissem Maße. Andere ähnlich verbesserte Versionen umfassen Zenati et al.21 und Akcay et al.22. Niu et al.23 verwendeten das ursprüngliche CycleGAN, um Fehler zu beheben und zu erkennen. Sie verwendeten viel mehr Proben, um das Netzwerk zu trainieren, und es ist schwierig, bei komplexen Fehlerhintergründen eine stabile Erkennungsleistung zu erzielen.

Als Reaktion auf die Schwierigkeit, Fehlerproben in industriellen Anwendungen zu erhalten, kombinierten Di et al.24 einen Faltungsselbstkodierer (CAE) und ein halbüberwachtes generatives gegnerisches Netzwerk (SGAN), um ein halbüberwachtes CAE-SGAN vorzuschlagen, um bessere Erkennungsergebnisse zu erzielen mit weniger Ausbildung von warmgewalzten Blechbildern. He et al.25 schlugen einen auf cDCGAN und ResNet basierenden Fusionsalgorithmus vor, um Pseudomarkierungen für nicht markierte Proben zu generieren, und nutzten ihn zum Trainieren eines Defekterkennungsmodells, das gute Ergebnisse im NEU-CLS-Datensatz erzielte. Zhao et al.26 schlugen eine auf positiven Proben basierende Erkennungsmethode vor, die ein Defekterzeugungsmodul nutzte, um Defekte für die positiven Proben zu erzeugen, und dann ein DCGAN trainierte, um die Defekte zu reparieren. Schwieriger ist es jedoch, Fehler zu erzeugen, die der wahren Verteilung nahe kommen.

Obwohl aktuelle GAN-basierte Fehlererkennungsmethoden halbüberwacht oder unüberwacht sein können, funktionieren sie immer noch nur auf einfachen, gleichmäßig strukturierten Oberflächen gut. GAN-Netzwerke, die auf komplexe industrielle Inspektionsumgebungen angewendet werden können, bedürfen weiterer Forschung.

Um die häufigen Probleme hoher Annotationskosten und Schwierigkeiten bei der Beschaffung von Trainingsdaten für die Erkennung von Deep-Learning-Fehlern anzugehen, haben wir ein unbeaufsichtigtes ISU-GAN-Modell und eine SSIM-basierte Methode zur Fehlerextraktion entwickelt. ISU ist eine Abkürzung für Involution-SE-U, was ein U-förmig strukturiertes Netzwerk bedeutet, das den Involution-Operator und den SE-Operator verwendet. ISU-GAN ist im Wesentlichen eine verbesserte Version von CycleGAN. Zu den Unterschieden zur ursprünglichen CycleGAN-Netzwerkstruktur gehören: 1. Der Generator verwendet eine UNet-ähnliche Struktur, um den möglichen Verlust fehlerhafter Merkmale während des Codierungs-Decodierungsprozesses des Eingabebilds zu reduzieren. 2. Der SE-Operator wird für die Feature-Maps der kritischen Schichten verwendet, um die weniger wichtigen Kanäle zu unterdrücken; 3. Der Involution-Operator wird für die durch Downsampling erhaltenen Merkmalskarten verwendet, um den Bedarf an unterschiedlichen visuellen Fähigkeiten defekter und nicht defekter Regionen zu erfüllen.

In der Trainingsphase wollen wir lernen, Generatoren zu erhalten, die positive Proben (fehlerfreie Proben) und negative Proben (fehlerfreie Proben) einander zuordnen. Das Fehlerreparaturnetzwerk ordnet negative Proben positiven Proben zu und das Fehlerherstellungsnetzwerk ordnet positive Proben negativen Proben zu. In der Testphase. In der Testphase geben wir das Testbild in das Defektreparaturnetzwerk ein. Anschließend verwenden wir den Structural Similarity Algorithm (SSIM)27, um das Originalbild und das Reparaturbild zu vergleichen und eine SSIM-Score-Map mit derselben Auflösung wie das Originalbild zu erhalten. Schließlich verwenden wir den OTSU-Algorithmus28, um die Konturen der Defekte adaptiv zu extrahieren.

Unsere Methode erreicht eine durchschnittliche Genauigkeit von 98,43 % und einen F1-Score von 0,9792 im DAGM2007-Datensatz mit nur einer kleinen Anzahl von Trainingsbeispielen. Es kann sehr genaue Fehlerprofile segmentieren. Wir validieren auch die Überlegenheit unserer ISU-GAN-Netzwerkstruktur gegenüber anderen häufig verwendeten Defekterkennungsmodellen und die Wirksamkeit seiner Hauptmodule durch Vergleichs- und Ablationsexperimente.

Generell umfasst die Innovation unserer Arbeit vor allem die folgenden zwei Aspekte.

Wir schlagen ein neues GAN-Fehlererkennungsnetzwerk, ISU-GAN, vor, das schnell konvergiert und mit einem kleinen Trainingsdatensatz eine hervorragende Erkennungsgenauigkeit erreicht.

Wir schlagen eine SSIM-basierte Fehlersegmentierungsmethode vor, die auf die GAN-basierte Fehlererkennung anwendbar ist. Ohne dass Etiketten erforderlich sind, kann unsere Methode fehlerhafte Konturen präzise extrahieren, ohne dass eine redundante Nachbearbeitung zur Rauschunterdrückung erforderlich ist.

Prinzip unserer Nachweismethode. (a) Trainingsphase. (b) Testphase. \(G_{n2p}\) und \(G_{p2n}\) sind positive bzw. negative Sample-Generatoren, \(D_p\) und \(D_n\) sind positive bzw. negative Sample-Diskriminatoren. SSIM ist der Structural Similarity Algorithm und OTSU ist der OTSU Adaptive Threshold Segmentation Algorithm.

In diesem Abschnitt beschreiben wir das Prinzip der in diesem Artikel vorgeschlagenen Fehlererkennungsmethode und die Modellstruktur von ISU-GAN. In der Trainingsphase trainieren wir ISU-GAN, um die Zuordnungsbeziehung zwischen negativen und positiven Proben zu lernen. ISU-GAN basiert auf der CycleGAN-Architektur und besteht aus zwei kooperierenden GANs, wie in Abb. 1 dargestellt. Die durchgezogene orange Linie zeigt \(GAN_P\) und die durchgezogene blaue Linie zeigt \(GAN_N\), die die GANs für sind Mängel beheben bzw. Mängel erzeugen.

Das erste gegnerische Netzwerk \(GAN_P\) besteht aus einem Generator \(G_{n2p}\) und einem Diskriminator \(D_p\). Die Eingabe für \(G_{n2p}\) ist der negative Stichprobensatz N im Trainingsdatensatz, der die fehlerhaften Bildbereiche in N repariert und pseudopositive Stichproben \(\widetilde{P}\) generiert, die keine Fehler enthalten . Die Eingabe in den Diskriminator \(D_p\) ist die wahre Stichprobe P und die pseudopositive Stichprobe \(\widetilde{P}\), deren Aufgabe es ist, P von \(\widetilde{P}\) zu unterscheiden. Entsprechend besteht ein weiteres gegnerisches Netzwerk \(GAN_N\) aus einem Generator \(G_{p2n}\) und einem Diskriminator \(D_n\). Die Eingabe für \(G_{p2n}\) ist der positive Stichprobensatz P im Trainingsdatensatz, der dazu dient, Defekte zu den Bildern in P hinzuzufügen und pseudonegative Stichproben \(\widetilde{N}\) zu erzeugen, die Defekte enthalten . Die Eingabe in den Diskriminator \(D_n\) ist die echte negative Stichprobe N und die pseudonegative Stichprobe \(\widetilde{N}\), deren Aufgabe es ist, N von \(\widetilde{N}\) zu unterscheiden.

Basierend auf dem Zykluskonsistenzkriterium von CycleGAN ist es notwendig, \(\widetilde{P}\) in \(G_{p2n}\) einzugeben, um quadratische pseudonegative Stichproben \(\overline{N}\) zu erzeugen. Wir erwarten, dass \(\overline{N}\) und N möglichst ähnlich sind, also \(n\ approx G_{p2n}(G_{n2p}(n)), n\in N\). Dementsprechend wird \(\widetilde{N}\) in \(G_{n2p}\) eingegeben, um eine quadratische pseudopositive Stichprobe \(\overline{P}\) zu erzeugen, \(p\ approx G_{n2p}( G_{p2n}(p)), p\in P\).

In der Testphase wird der Testdatensatz X (der positive und negative Proben enthält) in den aus dem Training erhaltenen Defektreparaturgenerator \(G_{n2p}\) eingespeist. Für jede Stichprobe \(x\in je höher die Ähnlichkeit der Region). Anschließend wird der adaptive Schwellenwertsegmentierungsalgorithmus von OTSU verwendet, um die SSIM-Score-Map zu segmentieren, um zu bestimmen, ob Fehler in x vorhanden sind, und um die möglichen Fehlerkonturen zu extrahieren.

Der Generator basiert auf den Encoder-Decoder-Designrichtlinien und hat eine allgemeine Struktur ähnlich zu UNet, wie in Abb. 2 dargestellt. Nachdem das Bild in den Generator eingegeben wurde, wird es zunächst um drei \(3 \times 3\) heruntergesampelt. Faltungsschichten, um eine 256-Kanal-Feature-Map zu erhalten, die dann durch das SE-Modul geleitet wird, um die Kanäle der Feature-Map nach Wichtigkeit zu filtern. Sein Zweck besteht darin, die kanalunabhängigen Eigenschaften des nächsten Involution-Moduls voll auszunutzen, um sich auf die kritischeren Kanäle zu konzentrieren. Neun aufeinanderfolgende Restblöcke folgen der Involutionsschicht, um die Konvergenz des Modells zu verbessern. Darüber hinaus gibt es die symmetrisch gestalteten Involution- und SE-Module sowie eine Upsampling-Schicht, die durch drei \(4 \times 4\) transponierte Faltungen implementiert wird. Um insbesondere den Feature-Verlust durch den Downsampling-Upsampling-Vorgang zu reduzieren, verwenden wir eine Skip-Verbindung, um Informationen aus den flachen und tiefen Feature-Maps zu aggregieren. Daher filtern wir die 64-Kanal- und 256-Kanal-Feature-Maps aus der Downsampling-Operation durch das SE-Modul, verketten sie dann mit den Feature-Maps, die der gleichen Anzahl von Kanälen aus der Upsampling-Operation entsprechen, und verwenden ein \(3 \times 3 \) Faltungsschicht, um die Kanalanzahl auf ihren ursprünglichen Zustand zurückzusetzen.

In der Generatorstruktur tragen alle Faltungsschichten außer bei \(\bigstar \) Instanznorm und ReLU.

Mit einer UNet-ähnlichen Architektur enthält die Generator-Netzwerkstruktur drei Faltungs-Downsampling-Schichten und drei transponierte Faltungs-Upsampling-Schichten. Das Netzwerk aggregiert Informationen aus den unteren Feature-Maps über Skip-Verbindungen, wobei eine Zwischenschicht ein Squeeze Excitation (SE)-Modul und ein Involution-Modul enthält, um die Feature-Extraktion zu verbessern. *Inspiriert von StyleGANv229 entfernen wir die IN-Ebene \(\bigstar \), um Artefakte zu beseitigen, die im generierten Bild auftreten können.

Der Diskriminator verwendet die PatchGAN-Struktur30, die nur vier oberflächliche \(4 \times 4\) Faltungsschichten enthält. Das Eingabebild wird zunächst in eine 512-Kanal-Feature-Map umgewandelt, indem es drei Faltungsschichten mit einer multiplikativen Anzahl von Filtern durchläuft, und dann durch die Wirkung einer Faltungsschicht mit einer Filternummer von 1 auf eine Einkanal-Feature-Map X herunterskaliert . Jedes Pixel auf X stellt die Diskriminatorbewertung des entsprechenden Standortbereichs des Eingabebilds dar. Im Vergleich zu herkömmlichen Diskriminatoren kann der Diskriminator der PatchGAN-Struktur jeden Patch des Eingabebildes unterschiedlich unterscheiden und so die Extraktion lokaler Bildmerkmale ermöglichen, was zur Verbesserung der Detailqualität des generierten Bildes beiträgt.

In der Diskriminator-Struktur verfügen alle Faltungsschichten über Instanznorm und LeakyReLU mit einer Steigung von 0,2. LeakyReLU wird anstelle von ReLU verwendet, um das Problem des Verschwindens des Gradienten während des Trainings zu lindern.

Um den Verlust von Bilddetailmerkmalen aufgrund des Downsampling-Upsampling-Prozesses zu reduzieren, haben wir eine Sprungverbindung zwischen den 64-Kanal- und 128-Kanal-Zwischenmerkmalskarten durchgeführt, siehe Abb. 2. Die Sprungverbindung in ISU-GAN dient zum Verbinden der Flache Feature-Map zur Deep-Feature-Map in der Kanaldimension (mithilfe eines Reflexionspads zur Anpassung an die genaue Auflösung, wenn die beiden Feature-Maps unterschiedliche Auflösungen haben). Dann wird eine Faltung von 3 \(\times \) 3 verwendet, um die Feature-Map mit der doppelten Anzahl von Kanälen auf die ursprüngliche Anzahl von Kanälen wiederherzustellen. Im Gegensatz zur herkömmlichen Sprungverbindung wird die flache Feature-Map mithilfe des SE-Blocks vor der Kanalverbindung hinsichtlich der Kanalbedeutung neu skaliert. Der Vorteil des Hinzufügens des SE-Moduls zur Skip-Verbindung besteht darin, dass es eine bessere Aggregation der wesentlichen Merkmale der flachen Feature-Maps ermöglicht, sodass das Modell Fehlerprofile mit erhöhter Leistung extrahieren kann.

Der Squeeze-and-Excitation-Block ist ein in Ref.31 vorgeschlagenes Modul, das die Beziehung zwischen einzelnen Merkmalskanälen lernt, um das Gewicht jedes Kanals zu erhalten und so die Bedeutung aller Kanäle neu zu skalieren. Dadurch kann sich das Modell stärker auf Kanäle mit wichtigen Informationen konzentrieren und unwichtige unterdrücken. Das Flussdiagramm des SE-Blocks ist in Abb. 3 dargestellt.

Die Squeeze-Operation führt eine Feature-Squeezing für jeden Kanal der Feature-Map durch und wandelt die zweidimensionale Karte in eine reelle Zahl um, die alle Features auf dem Kanal aggregiert. In diesem Fall wird das globale Durchschnittspooling verwendet, um die Squeeze-Operation zu implementieren, wie in Gl. (1).

Struktur des SE-Moduls. \(\alpha \) ist das Kanal-Downsampling-Verhältnis und \(\otimes \) bezeichnet die Tensormultiplikationsoperation.

Die Excitation-Operation zielt darauf ab, die Zusammenhänge zwischen den verschiedenen Kanälen der Feature-Map zu lernen und die Bedeutung jedes Kanals zu bewerten. Zwei aufeinanderfolgende \(1 \times 1\)-Faltungen mit einer Filterzahl von \(\frac{c}{\alpha }\) und c, wobei \(\alpha \) der Kanalverkleinerungsfaktor zur Reduzierung der Netzwerkparameter ist. Nach zwei Faltungen und der ReLU-Aktivierung wird der Vektor \(c \times 1 \times 1\), der die Wichtigkeit jedes Kanals darstellt, mithilfe der Sigmoid-Funktion zwischen 0 und 1 abgebildet. Der Prozess ist wie in Gl. (2).

Schließlich wird der aus dem Lernen erhaltene Kanalwichtigkeitsvektor z mit der ursprünglichen Feature-Map x multipliziert, um die neu skalierte Feature-Map \(\widetilde{x}\) zu erhalten, dh \(\widetilde{x} = z\cdot x\). Der SE-Block verfügt über vier Anwendungen in unserem Generatornetzwerk (wie im roten Teil von Abb. 1 dargestellt), zwei vor der Skip-Verbindung und zwei in der mittleren Schicht von 256 Kanälen.

Der traditionelle Faltungsoperator hat zwei Haupteigenschaften: Raumunabhängigkeit und Kanalspezifität. Während seine Raumunabhängigkeit die Effizienz der Faltung garantiert, nimmt es dem Faltungskern die Fähigkeit, sich an unterschiedliche Muster in verschiedenen Regionen anzupassen. Das Problem der Kanalredundanz innerhalb der Faltung ist selbst in vielen bekannten CNN-Netzwerken nicht gelöst.

Beim jüngsten CVPR2021 wurde das Involution-Modul32 vorgeschlagen, um dieses Problem anzugehen. Der Involutionsoperator, der im Gegensatz zur Faltung raumspezifisch und kanalunabhängig ist, verwendet die Kernel-Generierungsfunktion \(\phi \), um unterschiedliche Faltungskerne für verschiedene Ortsbereiche eines Bildes zu erzeugen. Der Involution-Operator verleiht dem Netzwerk unterschiedliche visuelle Muster basierend auf unterschiedlichen räumlichen Standorten.

Die Form des Involution-Kernels H hängt von der Größe der Eingabe-Feature-Map x ab, und die Kernel-Generierungsfunktion generiert H basierend auf bestimmten Pixeln.

wobei \(W_1\) und \(W_2\) lineare Transformationen darstellen und \(\sigma \) BN und ReLU bezeichnet. \(W_1\) reduziert die Darstellung ortsspezifischer Pixel von \(c \times 1 \times 1\) auf \(\frac{c}{r} \times 1 \times 1\) (r stellt das Reduktionsverhältnis dar ), was \(W_2\) dann zu \(G \times k \times k\) ändert. G ist die Anzahl der Kanäle in jeder Gruppe, und alle Kanäle in der Gruppe teilen sich die Parameter des Kernels H, der typischerweise auf 16 eingestellt ist. Schließlich führt der generierte Kernel H eine einstufige Faltungsoperation für einen bestimmten Pixelbereich durch.

Für die Erkennung von Oberflächenfehlern erfüllt die Verwendung des Involution-Moduls den Bedarf an unterschiedlichen visuellen Fähigkeiten in verschiedenen Bereichen des Bildes (fehlerhafte und nicht fehlerhafte Bereiche), wodurch das Modell realistischere Fehlerkonturen extrahieren kann.

Strukturelle Ähnlichkeit (SSIM) ist ein Algorithmus, der die Ähnlichkeit zweier Bilder misst und dabei die Helligkeit, den Kontrast und die strukturellen Eigenschaften des Bildes berücksichtigt. SSIM misst diese Unterschiede durch die Luminanzvergleichsfunktion l(x, y), die Kontrastvergleichsfunktion c(x, y) bzw. die Strukturvergleichsfunktion s(x, y).

wobei \(\mu _x\), \(\sigma _x\) und \(\sigma _{xy}\) den Mittelwert von x, die Varianz von x bzw. die Kovarianz von x und y bezeichnen. Um die Form zu vereinfachen, sei \(C_3=C_2/2\). Die SSIM-Exponentialfunktion wird als Gleichung ausgedrückt. 7.

Bei der Beurteilung der Bildqualität ist es besser, den SSIM-Index lokal als global zu ermitteln. Somit werden Mittelwert, Varianz und Kovarianz in den obigen Gleichungen im lokalen Bereich innerhalb des Schiebefensters berechnet. Der endgültige globale SSIM-Score ist der Durchschnitt der Scores aller lokalen Regionen innerhalb des Schiebefensters. Die Größe des SSIM-Fensters ist ein Hyperparameter. Durch experimentellen Vergleich haben wir ihn auf 9 gesetzt. Der SSIM-Algorithmus kann nicht nur zum Messen der Ähnlichkeit zweier Bilder verwendet werden, sondern auch als Verlustmaß beim Modelltraining, dem sogenannten SSIM-Verlust. Der SSIM-Verlust hat den Vorteil einer schnellen Trainingskonvergenz. Daher wird in diesem Artikel der SSIM-Verlust in der Phase vor dem Training verwendet, um die erforderliche Trainingszeit zu reduzieren.

In ISU-GAN verwenden wir drei Verlustfunktionstypen: Adversarial Loss \(L_{GAN}\), Cycle Consistency Loss \(L_{cycle}\) und Identity Loss \(L_{identity}\).

\(L_{GAN}\) wird in \(L_{GAN\_G}\) und \(L_{GAN\_D}\) hinsichtlich spezifischer Implementierungen unterteilt, die die Optimierungsziele des Generators G und des Diskriminators darstellen D bzw. Der gegnerische Verlust wird mithilfe des L2-Verlusts gemessen, wie in den Gleichungen dargestellt. (1) und (2), wobei 0 und 1 den vollständigen 0-Tensor bzw. den vollständigen 1-Tensor darstellen. G möchte, dass die erzeugten Fake-Samples D täuschen, dh die Fake-Input-Samples bringen den Diskriminator-Output so nah wie möglich an 1. Im Gegenteil, D möchte so weit wie möglich zwischen echten und gefälschten Proben unterscheiden. Wenn es sich bei der Eingabe also um eine reale Stichprobe handelt, möchte D, dass seine Ausgabe so nahe wie möglich bei 1 liegt. Bei einer gefälschten Probe hingegen liegt die Ausgabe so nahe wie möglich bei 0.

Wir möchten, dass die aus den realen Stichproben erhaltenen Stichproben nach dem sequentiellen Durchlaufen einer Vorwärtsabbildung und einer Rückwärtsabbildung so konsistent wie möglich mit den ursprünglichen Stichproben sind, um die Stabilität des generierten Modells zu verbessern, d. h. \(G_{n2p}(G_{p2n }(p)) \ approx p\) und \(G_{p2n}(G_{n2p}(n)) \ approx n\). Wir verwenden den Zykluskonsistenzverlust \(L_{Zyklus}\), um diese Ähnlichkeit zu messen. Um insbesondere die Vorteile der schnellen Konvergenz des SSIM-Verlusts und der hohen Detailtreue des L1-Verlusts zu kombinieren, verwenden wir eine Verlustfunktionsersatzstrategie für \(L_{Zyklus}\). Wir trainieren zunächst k Epochen mit SSIM-Verlust, um eine beschleunigte Konvergenz zu ermöglichen, und ersetzen ihn dann durch L1-Verlust, um die Details der generierten Bilder zu optimieren, wie in Gleichung (1) gezeigt. (10), wobei wir k empirisch auf 10 setzen.

Um die Wahrscheinlichkeit zu verringern, dass eine positive Stichprobe als negative Stichprobe vorhergesagt wird, möchten wir, dass der Defektreparaturgenerator \(G_{n2p}\) die positive Stichprobe nicht zu stark verändert. Um unnötiges Interferenzrauschen zu vermeiden, erwarten wir, dass p möglichst ähnlich zu \(G_{n2p}(p)\) ist. Wir verwenden den Identitätsverlust \(L_{identity}\), um diesen Grad der Unähnlichkeit zu messen. \(L_{identity}\) verwendet die gleiche Strategie zum Ersetzen der Verlustfunktion wie \(L_{cycle}\), wie in Gleichung gezeigt. (7).

DAGM200733 ist ein bekannter Datensatz zur industriellen schwach überwachten Fehlererkennung, der zehn künstlich erzeugte Texturfehler enthält. Dieser Datensatz kann von https://hci.iwr.uni-heidelberg.de/node/3616 heruntergeladen werden. Jede Klasse ist in einen Trainingssatz und einen Testsatz unterteilt. Alle Bilder in DAGM sind Graustufenbilder von 512 \(\times \) 512, wobei die Defektbilder mit schwacher Überwachung gekennzeichnet sind. Wir haben drei dieser repräsentativen Klassen (wie in Tabelle 1) für unsere Experimente ausgewählt. Klasse 1 hat eine vielfältigere Oberflächentextur. Klasse 6 hat eine unordentlichere Oberflächenstruktur. Klasse 7 weist Splitterfehler auf. Wir haben diese drei Klassen ausgewählt, um die Robustheit von ISU-GAN für verschiedene Texturen, unordentliche Texturen bzw. Splitterdefekte zu testen. Die Fehlerbilder für die drei verwendeten Klassen sind in Abb. 4 dargestellt.

Die drei ausgewählten Kategorien fehlerhafter Proben und ihre Etiketten. (a–c) Sind Klasse 1, Klasse 6 bzw. Klasse 7 und (d–f) sind die entsprechenden Bezeichnungen.

In den Vergleichsexperimenten in diesem Artikel verwenden wir Genauigkeit (Acc) und F1-Score, um die Wirksamkeit der Fehlererkennung der verschiedenen Modelle zu vergleichen. In den Ablationsstudien verwenden wir F1-Score und MSE, um die Auswirkungen verschiedener Module auf die Netzwerkleistung zu untersuchen.

Hier definieren wir TN: vorhergesagte fehlerhafte Probe und tatsächlich fehlerhafte Probe; FN: vorhergesagte fehlerhafte Probe, aber tatsächlich nicht fehlerhafte Probe; TP: vorhergesagte fehlerfreie Probe und tatsächlich fehlerfreie Probe; FP: vorhergesagte nicht fehlerhafte Probe, aber tatsächlich fehlerhafte Probe.

Die Genauigkeit ist definiert als der Anteil aller korrekt vorhergesagten Stichproben, wie in Gl. (2).

Der F1-Score ist ein statistisch signifikantes Maß für die Genauigkeit eines dichotomen Modells, definiert als der summierte Durchschnitt von Präzision und Rückruf:

In unseren Ablationsstudien verwenden wir den mittleren quadratischen Fehler (MSE), um die Ähnlichkeit zwischen den vom Defektreparaturgenerator wiederhergestellten pseudopositiven Proben und den ursprünglichen positiven Proben zu messen. Sein niedrigerer Wert zeigt an, dass das rekonstruierte Bild im Detail näher am Original ist. Bei der Berechnung des MSE verwenden wir keine negativen Stichproben, da der MSE umso höher ausfällt, je besser die Reparatur für die defekte Region ist. Für diese Arbeit wird der MSE als Durchschnitt aller positiven Proben berechnet.

Die in diesem Dokument verwendete experimentelle Umgebung ist wie folgt: CPU: Intel(R) 1.

Um die Konvergenz des Modells zu verbessern, ändern wir die Größe des Eingabebildes von 512 \(\times \) 512 auf 256 \(\times \) 256, und die verwendete Interpolationsmethode ist bicubic34. Um die Robustheit des Modells zu verbessern, wird die Stapelgröße auf 1 gesetzt und alle Eingabebilder werden mit gleicher Wahrscheinlichkeit in einer der folgenden drei Operationen ausgeführt: (1) Konstanthalten, (2) horizontales Spiegeln und (3) Spiegeln vertikal. Unser Netzwerk wurde von Anfang an für alle Experimente mit dem Optimierer Adam35 trainiert, mit einer anfänglichen Lernrate von 0,0002 und einer Trainingsepoche von 100. Im Abschnitt Vergleichsexperimente vergleichen wir die Leistung von ISU-GAN mit der häufig verwendeten Fehlererkennung Segmentierungsmodelle (UNet, ResUNet++) und die klassischen GAN-Netzwerke (original CycleGAN, DCGAN) zur Fehlererkennung und Segmentierung. Im Abschnitt zur Untersuchung der Ablation werden wir die Auswirkungen jedes ISU-GAN-Moduls auf die Netzwerkleistung vergleichen.

In diesem Abschnitt vergleichen wir die Fehlererkennungs- und Segmentierungsleistung unseres ISU-GAN mit einigen Modellen. Zu den zum Vergleich verwendeten Modellen gehören die klassischen GAN-Netzwerke CycleGAN und DCGAN, die häufig verwendeten semantischen Segmentierungsmodelle UNet und seine verbesserte Version ResUNet++. UNet ist eines der klassischen Modelle der semantischen Segmentierung, das häufig als Benchmark-Modell für verschiedene Segmentierungsaufgaben verwendet wird und auch im Bereich der Fehlererkennung weit verbreitet ist17,18. ResUNet++ ist ein relativ neues Mitglied der UNet-Familie, das die Vorteile von ResNet und UNet vereint und SE-Blöcke einführt, um leistungsfähigere Bildsegmentierungsfunktionen zu bieten. In abschnittsbezogenen Arbeiten haben wir erwähnt, dass CycleGAN23 und DCGAN26 mit guten Ergebnissen für den DAGM-Datensatz implementiert wurden, daher haben wir diese GAN zum Vergleich ausgewählt. Die Versuchsergebnisse im Teststadium sind in Abb. 5 und Tabelle 2 dargestellt.

Aus den experimentellen Ergebnissen ist ersichtlich, dass ISU-GAN trotz der Verwendung von weniger als einem Drittel der Trainingsdaten der anderen Modelle und ohne Labels immer noch eine Verbesserung von mehr als 2,5 % in den durchschnittlichen beiden Metriken im Vergleich zu UNet aufweist. ResUNet++, eine verbesserte Version von UNet, schneidet in allen Kategorien deutlich besser ab als UNet, aber Acc und F1 liegen um etwa 0,4 % bzw. 0,1 % unter denen von ISU-GAN. Im Gegensatz dazu hat sich ISU-GAN beim Vergleich der Erkennungsergebnisse von CycleGAN und DCGAN in allen Datenkategorien deutlich verbessert, mit einer durchschnittlichen Verbesserung von über 1,5 % und 3,0 %. Durch den Vergleich der Testdaten jedes Modells kann überprüft werden, ob unsere Methode effektiv ist.

Es ist erwähnenswert, dass ISU-GAN in Klasse 1 deutlich schlechter abschneidet als ResUNet++ und sich auf der niedrigeren Ebene aller Klassen befindet. Der mögliche Grund dafür ist, dass die große Vielfalt an Hintergrundtexturen in Klasse 1 es für unser Modell schwieriger macht, die von uns erwarteten positiven und negativen Musterzuordnungsbeziehungen zu finden.

Vergleich der Ergebnisse der Fehlerextraktion. (a) Originalbild, (b) Label, (c) UNet, (d) ResUNet++, (e) DCGAN, (f) ISU-GAN.

Wie aus Abb. 5 ersichtlich ist, ist unser Modell auch ohne die Verwendung von Etiketten während des Trainings feiner und genauer nach Fehlern segmentiert als UNet und ResUNet++, die auf überwachtem Lernen basieren, was Arbeitern in der Fertigungsindustrie bei der Bestimmung der Art von Fehlern zugute kommt. Bei demselben unbeaufsichtigten Training muss die DCGAN-Methode manuell Fehler für die Bilder erstellen, was mühsamer ist. Während unsere Methode dieses Verfahren weglässt und deutlich bessere Ergebnisse liefert. Wir vergleichen auch die Defektreparaturergebnisse von ISU-GAN und CycleGAN, siehe Abb. 6. Es ist zu beobachten, dass die von ISU-GAN generierte Reparaturkarte im Detail näher am Originalbild liegt, insbesondere die Textur an den Rändern glatter ist realistischer.

Vergleich der Ergebnisse der Defektreparatur. (a) Originalbild, (b) Etikett, (c) CycleGAN, (d) ISU-GAN.

Ablationsstudien wurden durchgeführt, um den Einfluss von drei entscheidenden Modulen (Skip Connection, Involution, SE) in der Generatorstruktur von ISU-GAN auf die Wirksamkeit der Fehlererkennung zu untersuchen. Die im Ablationsexperiment verglichenen Generatormodelle sind: 1. das ursprüngliche CycleGAN (Standard); 2. Verwendung nur eines der drei Module; 3. Nutzung aller drei Module (ISU-GAN).

Der für die Ablationsexperimente verwendete Datensatz und die Hyperparameter sind die gleichen wie für Abschnittsvergleichsexperimente, und alle Untermodelle verwenden die im Abschnitt „Methodik“ vorgeschlagene Methode zur Erkennung von Defekten. Die Ergebnisse der Experimente sind in Tabelle 3 dargestellt.

Im Durchschnitt liegt die Verbesserung der Skip-Verbindung für das Modell hauptsächlich in der deutlichen Reduzierung von MSE, eine Verbesserung des F1-Scores ist jedoch nicht erkennbar. Im Gegensatz dazu verbessert der Involution Block den F1-Score deutlich, erhöht aber auch den MSE spürbar, während der SE Block beide Werte in geringerem Maße optimiert. Für das ISU-GAN mit allen drei Modulen können wir sehen, dass es in beiden Durchschnittswerten die besten Ergebnisse erzielt, und die Verbesserung ist im Vergleich zum ursprünglichen CycleGAN erheblich. Dies zeigt, dass die Struktur des ISU-GAN-Modells vernünftig und praktisch ist.

Aus den Ergebnissen dieses Artikels geht hervor, dass unser vorgeschlagenes Fehlererkennungsmodell ISU-GAN und die zugehörige Fehlerextraktionsmethode unter unbeaufsichtigten Bedingungen mit einer kleinen Anzahl von Trainingsbeispielen eine gute Leistung erbringen können. ISU-GAN nutzt auf innovative Weise Skip-Verbindung, SE-Block und Involution-Block im Generator, um eine bessere Charakterisierung von Defektmerkmalen zu erreichen. Darüber hinaus können mit der SSIM-basierten Fehlerextraktionsmethode genauere Fehlerprofile extrahiert werden.

Durch Vergleichsexperimente zeigen wir, dass ISU-GAN einen besseren Fehlererkennungseffekt erzielen kann, selbst wenn die Trainingsbedingungen viel schwächer sind als UNet und ResUNet++. Durch Ablationsstudien zeigen wir den Einfluss der drei Hauptmodule von ISU-GAN auf die Netzwerkleistung und überprüfen die Wirksamkeit der ISU-GAN-Struktur.

In Abschnittsvergleichsexperimenten haben wir erwähnt, dass ISU-GAN aufgrund der Schwierigkeit, positive und negative Proben in Datensätzen mit reichhaltigeren Texturtypen abzubilden, deutlich schlechter abschneidet als andere Klassen. Entsprechend diesem Problem werden wir die Netzwerkstruktur weiter optimieren, um in der nachfolgenden Arbeit eine robustere Leistung zu erzielen.

Die in dieser Studie verwendeten Datensätze können unter folgender Adresse heruntergeladen werden: Die in dieser Studie verwendeten Datensätze können unter folgender Adresse heruntergeladen werden: https://hci.iwr.uni-heidelberg.de/node/3616.

Liu, YB, Xiao, ZT, Zhang, F. & Wu, J. Methode zur Erkennung von Stofffehlern basierend auf Gabor-Filtern. Adv. Mater. Res. 301, 229–234 (2011).

Artikel ADS Google Scholar

Liu, Y., Xu, K. & Xu, J. Ein verbesserter mb-lbp-Fehlererkennungsansatz für die Oberfläche von Stahlplatten. Appl. Wissenschaft. 9, 4222 (2019).

Artikel Google Scholar

Shi, T., Kong, J.-Y., Wang, X.-D., Liu, Z. & Zheng, G. Verbesserter Sobel-Algorithmus zur Fehlererkennung von Schienenoberflächen mit erhöhter Effizienz und Genauigkeit. J. Central South Univ. 23, 2867–2875 (2016).

Artikel Google Scholar

Liu, W. et al. SSD: Single-Shot-Multibox-Detektor. In Europäische Konferenz über Computer Vision, 21–37 (Springer, 2016).

Redmon, J., Divvala, S., Girshick, R. & Farhadi, A. Sie schauen nur einmal hin: Einheitliche Objekterkennung in Echtzeit. In Proc. IEEE-Konferenz zu Computer Vision und Mustererkennung, 779–788 (2016).

Ren, S., He, K., Girshick, R. & Sun, J. Faster r-cnn: Auf dem Weg zur Echtzeit-Objekterkennung mit Regionsvorschlagsnetzwerken. Adv. Neuronal. Inf. Verfahren. Syst. 28, 91–99 (2015).

Google Scholar

He, K., Gkioxari, G., Dollár, P. & Girshick, R. Mask r-cnn. In Proc. IEEE International Conference on Computer Vision, 2961–2969 (2017).

Ronneberger, O., Fischer, P. & Brox, T. U-net: Faltungsnetzwerke für die biomedizinische Bildsegmentierung. In International Conference on Medical Image Computing and Computer-Assisted Intervention, 234–241 (Springer, 2015).

Badrinarayanan, V., Kendall, A. & Cipolla, R. Segnet: Eine tiefe Faltungs-Encoder-Decoder-Architektur für die Bildsegmentierung. IEEE Trans. Muster Anal. Mach. Intel. 39, 2481–2495 (2017).

Artikel Google Scholar

Goodfellow, I. et al. Generative gegnerische Netze. Adv. Neuronale Inf. Verfahren. Syst. 27 (2014).

Zhu, J.-Y., Park, T., Isola, P. & Efros, AA Ungepaarte Bild-zu-Bild-Übersetzung unter Verwendung zykluskonsistenter gegnerischer Netzwerke. In Proc. IEEE International Conference on Computer Vision, 2223–2232 (2017).

Lee, SY, Tama, BA, Moon, SJ & Lee, S. Diagnose von Stahloberflächenfehlern mithilfe eines tiefen Faltungs-Neuronalen Netzwerks und einer Klassenaktivierungskarte. Appl. Wissenschaft. 9, 5449 (2019).

Artikel Google Scholar

Mei, S., Wang, Y. & Wen, G. Automatische Stofffehlererkennung mit einem mehrskaligen Faltungs-Rauschunterdrückungs-Autoencoder-Netzwerkmodell. Sensoren 18, 1064 (2018).

Artikel ADS Google Scholar

Zhong, J., Liu, Z., Han, Z., Han, Y. & Zhang, W. Eine CNN-basierte Methode zur Fehlerprüfung für Oberleitungssplinte in Hochgeschwindigkeitsbahnen. IEEE Trans. Instrument. Mess. 68, 2849–2860 (2018).

Artikel Google Scholar

Tabernik, D., Šela, S., Skvarč, J. & Skočaj, D. Segmentierungsbasierter Deep-Learning-Ansatz zur Erkennung von Oberflächenfehlern. J. Intell. Hersteller 31, 759–776 (2020).

Artikel Google Scholar

Huang, Y., Qiu, C. & Yuan, K. Oberflächendefektausprägung von Magnetfliesen. Vis. Berechnen. 36, 85–96 (2020).

Artikel CAS Google Scholar

Li, S., Zhao, X. & Zhou, G. Automatische Mehrfachschadenerkennung auf Pixelebene an Betonstrukturen mithilfe eines vollständig Faltungsnetzwerks. Computergestützte zivile Infrastruktur. Ing. 34, 616–634 (2019).

Artikel Google Scholar

Roberts, G. et al. Deep Learning zur semantischen Segmentierung von Defekten in fortgeschrittenen Stammbildern von Stählen. Wissenschaft. Rep. 9, 1–12 (2019).

Artikel Google Scholar

Schlegl, T., Seeböck, P., Waldstein, SM, Schmidt-Erfurth, U. & Langs, G. Unüberwachte Anomalieerkennung mit generativen gegnerischen Netzwerken als Leitfaden für die Markererkennung. In International Conference on Information Processing in Medical Imaging, 146–157 (Springer, 2017).

Schlegl, T., Seeböck, P., Waldstein, SM, Langs, G. & Schmidt-Erfurth, U. f-anogan: Schnelle unüberwachte Anomalieerkennung mit generativen gegnerischen Netzwerken. Med. Bild Anal. 54, 30–44 (2019).

Artikel Google Scholar

Zenati, H., Foo, CS, Lecouat, B., Manek, G. & Chandrasekhar, VR Effiziente Gan-basierte Anomalieerkennung. Vorabdruck unter http://arxiv.org/abs/1802.06222 (2018).

Akcay, S., Atapour-Abarghouei, A. & Breckon, TP Ganomaly: Halbüberwachte Anomalieerkennung durch gegnerisches Training. In Asian Conference on Computer Vision, 622–637 (Springer, 2018).

Niu, S., Lin, H., Niu, T., Li, B. & Wang, X. Defectgan: Schwach überwachte Fehlererkennung mithilfe eines generativen kontradiktorischen Netzwerks. Im Jahr 2019 IEEE 15th International Conference on Automation Science and Engineering (CASE), 127–132 (IEEE, 2019).

Di, H., Ke, X., Peng, Z. & Dongdong, Z. Oberflächenfehlerklassifizierung von Stählen mit einer neuen halbüberwachten Lernmethode. Opt. Laser-Ing. 117, 40–48 (2019).

Artikel Google Scholar

He, Y., Song, K., Dong, H. & Yan, Y. Halbüberwachte Defektklassifizierung von Stahloberflächen basierend auf Multi-Training und generativem gegnerischen Netzwerk. Opt. Laser-Ing. 122, 294–302 (2019).

Artikel Google Scholar

Zhao, Z., Li, B., Dong, R. & Zhao, P. Eine Methode zur Erkennung von Oberflächenfehlern basierend auf positiven Proben. In Pacific Rim International Conference on Artificial Intelligence, 473–481 (Springer, 2018).

Wang, Z., Bovik, AC, Sheikh, HR & Simoncelli, EP Bildqualitätsbewertung: Von der Fehlersichtbarkeit zur strukturellen Ähnlichkeit. IEEE Trans. Bildprozess. 13, 600–612 (2004).

Artikel ADS Google Scholar

Otsu, N. Eine Schwellenwertauswahlmethode aus Graustufenhistogrammen. IEEE Trans. Syst. Mann Cybern. 9, 62–66 (1979).

Artikel Google Scholar

Karras, T. et al. Analyse und Verbesserung der Bildqualität von Stylegan. In Proc. IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, 8110–8119 (2020).

Isola, P., Zhu, J.-Y., Zhou, T. & Efros, AA Bild-zu-Bild-Übersetzung mit bedingten gegnerischen Netzwerken. In Proc. IEEE-Konferenz zu Computer Vision und Mustererkennung, 1125–1134 (2017).

Hu, J., Shen, L. & Sun, G. Squeeze-and-Excitation-Netzwerke. In Proc. IEEE-Konferenz zu Computer Vision und Mustererkennung, 7132–7141 (2018).

Li, D. et al. Involution: Umkehrung der Faltungsinhärenz für die visuelle Erkennung. In Proc. IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, 12321–12330 (2021).

Wieler, M. & Hahn, T. DAGM-Symposium zum schwach überwachten Lernen für die industrielle optische Inspektion (2007).

Keys, R. Kubische Faltungsinterpolation für die digitale Bildverarbeitung. IEEE Trans. Akustisch. Sprachsignalprozess. 29, 1153–1160 (1981).

Artikel ADS MathSciNet Google Scholar

Kingma, DP & Ba, J. Adam: Eine Methode zur stochastischen Optimierung. In International Conference on Learning Representations (2015).

Jha, D. et al. Resunet++: Eine fortschrittliche Architektur für die Segmentierung medizinischer Bilder. Im International Symposium on Multimedia (2019).

Referenzen herunterladen

Diese Forschung wurde vom National Science Foundation of China Project, Grant-Nummer 61703355, dem Natural Science Foundation Project of Zhangzhou 2019, Grant-Nummer ZZ2019J34 und dem Program for Young Excellent Talents in University of Fujian Province, Grant-Nummer 201847, finanziert.

Diese Autoren trugen gleichermaßen bei: Yijing Guo und Linwei Zhong.

School of Information Science and Technology, Xiamen University Tan Kah Kee College, Zhangzhou, 363105, China

Yijing Guo, Yi Qiu, Huawei Wang und Choujun Zhan

Fakultät für Informatik, Universität Xiamen, Xiamen, 361005, China

Linwei Zhong & Zongheng Wen

Fakultät für Luft- und Raumfahrttechnik, Universität Xiamen, Xiamen, 361005, China

Fengqiang Gao

Sie können diesen Autor auch in PubMed Google Scholar suchen

Konzeptualisierung, YG und LZ; Methodik, YG; Software, LZ; Validierung, LZ, FG und WZ; formale Analyse, YQ und HW; Untersuchung, YG und CZ; Ressourcen, YG; Datenkuration, YG und LZ; Vorbereitung des schriftlichen Originalentwurfs, YG und LZ; Schreiben, Überprüfen und Bearbeiten, YG und HW; Visualisierung, YQ, FG und WZ; Aufsicht, YG; Projektverwaltung, YG; Finanzierungseinwerbung, YG, FG und CZ Alle Autoren haben die veröffentlichte Version des Manuskripts gelesen und ihr zugestimmt.

Korrespondenz mit Yijing Guo.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Guo, Y., Zhong, L., Qiu, Y. et al. Verwendung von ISU-GAN zur unbeaufsichtigten Fehlererkennung bei kleinen Stichproben. Sci Rep 12, 11604 (2022). https://doi.org/10.1038/s41598-022-15855-7

Zitat herunterladen

Eingegangen: 07. April 2022

Angenommen: 30. Juni 2022

Veröffentlicht: 08. Juli 2022

DOI: https://doi.org/10.1038/s41598-022-15855-7

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

Nachricht