Stell dir vor, du hast zwei Figuren: einen Künstler und einen Kritiker. Der Künstler versucht, die Werke berühmter Künstler wie Picasso oder Vincent van Gogh nachzuahmen, während der Kritiker überprüft, ob es sich um echte Werke oder um Fälschungen handelt. Beide stehen in einem ständigen Wettstreit: Der Künstler will den Kritiker täuschen, während der Kritiker immer besser darin wird, Fälschungen zu entlarven.
Der Kritiker erhält in zufälliger Reihenfolge Bilder vorgelegt, die entweder echte Werke oder Fälschungen des Künstlers sind. Er muss jedes Mal entscheiden, ob ein Bild echt oder gefälscht ist. Nach seiner Entscheidung bekommt er ein Feedback, ob sein Urteil richtig oder falsch war. Dieses Feedback hilft ihm, seine Fähigkeiten zu verbessern und in Zukunft genauer zu urteilen.
Der Künstler wiederum malt Bilder und erhält später die Rückmeldung, ob der Kritiker seine Werke als echt oder gefälscht eingestuft hat. Wird sein Werk als Fälschung erkannt, versucht er, seine Technik zu verbessern und den Kritiker beim nächsten Mal zu täuschen – sei es durch eine feinere Anpassung des Stils, die Wahl anderer Farben oder neue Maltechniken. Zusätzlich ist der Künstler ambitioniert genug, nicht immer das gleiche Motiv zu kopieren. Mal malt er eine Sonnenblume, ein anderes Mal ein Café oder einen Stier. Durch diesen ständigen Lernprozess wird auch der Künstler immer geschickter.
Dieser gegenseitige Wettstreit beschreibt das Grundprinzip eines GANs (Generative Adversarial Network): Zwei neuronale Netzwerke treten gegeneinander an. Eines generiert Daten (der Künstler), das andere bewertet sie (der Kritiker). Durch das fortwährende Feedback lernen beide Netzwerke, ihre Aufgaben immer besser zu meistern. Natürlich ist das in der Praxis weitaus komplexer – aber dieses Beispiel verdeutlicht das Grundprinzip sehr gut.
Wie ist ein GAN aufgebaut?
Ein GAN besteht aus zwei Teilen:
- Generator: Der «Künstler», der neue Daten erstellt, z. B. ein Bild basierend auf einer Vorlage oder zufälligen Eingaben.
- Diskriminator: Der «Kritiker», der beurteilt, ob die Daten echt (aus einer echten Datenbank) oder künstlich (vom Generator erzeugt) sind.
Der Trainingsprozess
- Der Generator versucht, das Original so gut wie möglich nachzuahmen – anfangs sind die Ergebnisse schlecht und leicht als Fälschung zu erkennen.
- Der Diskriminator prüft diese Werke und liefert Feedback: «Das sieht nicht echt aus, weil die Augen asymmetrisch sind» oder «Die Schatten stimmen nicht.»
- Mit diesem Feedback verbessert sich der Generator Schritt für Schritt, und der Diskriminator wird ebenfalls besser darin, echte von gefälschten Bildern zu unterscheiden.
Wie verstehen GANs Eingaben (Prompts)?
Um GANs gezielt Bilder erzeugen zu lassen, gibt man ihnen Eingabeprompts, also eine Art Beschreibung oder Vorgabe dessen, was sie erstellen sollen. Zum Beispiel: «Ein Sonnenuntergang über den Alpen.» Zum selber ausprobieren siehe den Blogbeitrag zu Bildgenerierung oder probiere z.B. die GAN Leonardo.Ai * aus.
- Eingabe in den Generator: Ein GAN versteht keine Sprache wie wir, aber es kann lernen, eine numerische Darstellung (z. B. aus einem Textprompt) in Bilddetails zu übersetzen. Dafür werden sogenannte Text-zu-Bild-Modelle genutzt. Diese Modelle bringen bei, wie Textbeschreibungen mit bestimmten Bildinhalten zusammenhängen.
- Training auf Assoziationen:
GANs werden mit riesigen Datenmengen trainiert, die sowohl Bilder als auch ihre Beschreibungen enthalten. Der Generator lernt dabei: «Wenn der Prompt ‹Sonnenuntergang› sagt, sollen warme Farben und eine untergehende Sonne im Bild sein.» - Ergebnis:
Nach dem Training kann das GAN Bilder erzeugen, die den Textbeschreibungen entsprechen, ohne dass es direkt kopiert. Die Bilder sind völlig neu, aber basieren auf den gelernten Konzepten.
Wofür werden GANs genutzt?
GANs sind vielseitig einsetzbar:
- Kunst: Erzeugung kreativer Werke basierend auf Texten oder Stilen.
- Bildbearbeitung: Generieren von Details in unscharfen Fotos oder Vergrößerung von Bildern.
- Wissenschaft: Simulation medizinischer Daten oder Naturphänomene.
- Gaming: Automatische Erstellung realistischer Welten oder Charaktere.
Fazit
Ein GAN ist wie ein lernender Fälscher, der dank seines Kritikers immer besser darin wird, Originale nachzuahmen oder völlig neue Inhalte zu erstellen. Mit der Fähigkeit, Prompts zu verstehen, eröffnet diese Technologie beeindruckende Möglichkeiten – von der Kunst bis zur Wissenschaft.
Wenn du selber einmal mit einem GAN herumexperimentieren möchtest, kannst du z.B. Leonardo.Ai * zur Generierung von Bildern ausprobieren. Die hier im Beitrag gezeigten Bilder wurden mit diesem KI-Tool erzeugt.