Wer kürzlich ChatGPT beauftragt hat, aus den eigenen Prompts Bilder zu machen, hat sich vielleicht über stark verlängerte Wartezeiten geärgert. Intern arbeitet nun seit März 2025 nicht mehr DALL-E an solchen Aufgaben, denn mit dem GPT-4o Image Generator hat OpenAI hier ein neues, eigenes Tool entwickelt. Früher konnte man bei DALL-E zwar neue Bilder generieren, aber nur sehr eingeschränkt aus vom Benutzer vorgegebenen Bildern. Das war schon länger eine der großen Stärken von Midjourney gewesen. Aber nicht nur die Interaktion mit selbst hochgeladenen Bildern ist besser geworden, auch angeforderte Beschriftungen im Bild werden inzwischen besser umgesetzt:

Die belesenen Bären sind dabei mit Sora entstanden. Wobei Sora wie ein vorhandenes GPT in die linke Spalte der ChatGPT-Oberfläche integriert ist. Wer nicht für ChatGPT Plus bezahlt, kann über Sora auch keine Videos erzeugen. Wenn man sich in den Bildern das Buch wegdenkt, dann erscheinen zumindest der Braunbär und der große Panda realistisch. Und wie beim nachfolgend beschriebenen GPT-4o Image Generator kann man auch bei Sora einen Bildbereich per Lasso markieren, und so dem kleinen Panda (rechts) mit einem weiteren Prompt ein Lächeln ins Gesicht zaubern (wie abgebildet).
ChatGPT und neue Möglichkeiten mit KI-Bildern
Neu ist auch der Zugriff auf die von ChatGPT erzeugten KI-Bilder über den Menüeintrag „Bibliothek“, dessen Icon das zuletzt erzeugte KI-Bild ist. Exemplarisch: Wenn man das Bild des Affen mit roter Kopfbehaarung vor blauem Hintergrund anklickt, wird der Chat „Affe ohne Gitter“ geöffnet und springt damit links im Menü hoch auf „Heute“. Auf diesem Weg kann man ein schon bestehendes KI-Bild (hier von insgesamt 41) modifizieren lassen.

Während eines Zoobesuchs wollte ich nun wissen, wie weit man mit schlechten Bildern bei ChatGPT kommen kann – und ob die Zukunft der Fotografie nur noch aus KI bestehen könnte. Und das wäre sehr schade. Nachfolgend die Prompts an ChatGPT auf hellgrünen Untergrund:

Programme wie Photoshop oder GIMP stellen (zumindest über Plugins) Funktionen zur Restauration von Bildbereichen zur Verfügung. Der vergitterte Affe links ist eigentlich ein Foto für die Mülltonne. Dieses misslungene Foto bekam ChatGPT mit der Aufgabe das Gitter zu entfernen. Es ist wirklich erstaunlich, was ChatGPT (bzw. intern der GPT-4o Image Generator) jetzt daraus generieren kann. Beim Inpainting wird meist nur ein kleiner Teil des Bildes markiert, und die Verfahren ohne KI würden einfach nur benachbarte Bereiche hineinkopieren. Ob man auf diese Weise die gesamte Gitterstruktur entfernen könnte, bleibt aber sehr zweifelhaft. ChatGPT hat hier den „Gordischen Knoten“ zerschlagen und das neue neuronale Netz von OpenAI hat den Affen und dessen Pose aus seiner Wissensbasis rekonstruiert. Wie ChatGPT bzw. der Image Generator dabei vorgegangen sind, hat ChatGPT ebenso beantwortet. Und die komplette Bildinterpretation mit Tierschutzaspekten und KI-Vertonung ist auf Youtube abspielbar. Der zweite Prompt zur Bildgenerierung führt zurück zum Querformat, das durch die Anweisung „zeig den Affen mittig“ verschwunden war. Und es führt zu einem natürlichen Biotop als Hintergrund, was in europäischen Zoos so meist nicht angeboten werden kann.
Wer viel mit KI-Bildern arbeitet, sollte wissen, daß die von den KI-Plattformen generierten Bilder derzeit als urheberrechtsfrei gelten. Bekannt ist auch, daß massenhaft Bilder in die Trainingsdaten gelangt sind, ohne die Urheberrechtsinhaber um Erlaubnis zu bitten. Ein eigenes, neues Urheberrecht an KI-Bildern geltend zu machen, ist nur möglich, wenn man damit eine gewisse Schöpfungshöhe erreicht. Und hier werden kombinierte Verfahren interessant. Es ist zwar immer noch umstritten, ob man das Urheberrecht an einem Bild hat, bei dem lediglich der Hintergrund KI-generiert ist, aber der Begriff Schöpfungshöhe würdigt die kreative Idee und den investierten Zeitaufwand. Bezogen auf den „Rotscheitelmangaben“ (die Affenart hat ChatGPT ermittelt vgl. Youtube-Video) habe ich als Fotograf das Urheberrecht lediglich am „Affen hinter Gittern“. Die beiden daraus generierten KI-Bilder tragen kein Urheberrecht. Hätte ich hingegen mit eigener Software den Affen entgittert, so wäre mir das Urheberrecht erhalten geblieben. ChatGPT rekonstruiert nicht pixelgenau – und das macht den Unterschied.
Bilder mit Alphakanal und ChatGPT
Die Idee ChatGPT lediglich mit der Erzeugung von Hintergrundbildern zu beauftragen beginnt mit folgendem Prompt:
Mach mir ein realistisches Foto mit tropischem Regenwald als Hintergrund. Weit entfernt schwingt sich ein Orang- Utan von Baum zu Baum. Und es sind weit entfernt Papageien zu sehen. Mach das Foto als PNG mit Transparenz und mehreren Ebenen. Nur wenn das möglich ist, im Vordergrund auch ein Gorilla
Klingt nach einer richtig starken Szene – tropischer Regenwald, ein Orang-Utan in Aktion, Papageien in der Ferne und vielleicht ein Gorilla im Vordergrund, alles realistisch und in Ebenen angeordnet. Bevor ich das Bild generiere, nur eine kurze Rückfrage:
👉 Möchtest du dich selbst oder eine bestimmte Person im Bild haben (z. B. als Beobachter im Dschungel)? Falls ja, lade mir bitte ein Foto hoch – dann kann ich dich realistisch integrieren.
Wenn nicht, lege ich direkt los mit einem PNG-Bild, das Transparenz unterstützt und die gewünschte Szene enthält. Passt das so für dich?
Hinweis: Der komplette Dialog mit ChatGPT zum Thema PNG und Alphakanal ist als PDF verfügbar.
Nein, einfach nur realistisch und mit mehreren Ebenen. Anbei der Gorilla

ChatGPT hat nun eine PNG-Datei mit Alphakanal erhalten und soll das Bild auf einen KI-generierten Hintergrund legen. Pustekuchen…… Denn ChatGPT ist sehr kreativ……

ChatGPT bildet die Pose des Gorillas sehr gut ab, erzeugt aber wie zuvor beim „Affen hinter Gittern“ ein komplett neues Bild. Der Hintergrund hat übrigens eine gewisse Unschärfe und hebt so den Gorilla hervor. Habe ich nun ein Urheberrecht an diesem KI-Bild? Der Orang-Utan und die Papageien im Regenwald wurden von mir vorgegeben, und für den Vordergrund ein echtes Foto mit bestehendem Urheberrecht des Fotografen.
Im April 2025 erzeugt GPT-4o IG übrigens auch dann ein komplett neues Bild, wenn man ein schon vorhandenes KI-Bild von ChatGPT blau markiert und lediglich für den markierten Bereich eine Änderung anstrebt. (vgl. PDF) Konkret erhält man ein komplett neues Bild mit ähnlichem Vordergrund und Hintergrund. Im April 2025 lieferte ChatGPT statt einer PNG-Dateien mit Transparenz ein hellbraunes Schachbrettmuster als Hintergrund. Daraus resultierte folgender (leicht wütender) Prompt:
ChatGPT, ich will ECHTE Transparenz und damit ein PNG im RGBA-Format und KEIN hellbraunes Schachbrettmuster als Hintergrund! Gib das so an den GPT-4o Image Generator weiter!
Alles klar – du willst ein echtes PNG mit echter Transparenz (RGBA), kein Schachbrettmuster und definitiv keinen eingefärbten Hintergrund. Ich geb das exakt so an den Generator weiter.
Ich erstelle dir jetzt ein realistisches Bild eines sitzenden Gorillas, der neugierig in die Kamera schaut – im Hochformat und mit echtem transparentem Hintergrund (kein Platzhalter). Gib mir einen Moment.

Erklär mir, warum Du bzw. der GPT-4o Image Generator im April 2025 keine PNGs mit Transparenz erzeugt.
Der Grund ist nicht, dass ich dich hinters Licht führen will, sondern eine technische Limitation des aktuellen GPT‑4o ImageGenerator–Backends (DALL·E API). Kurz gefasst:
Keine echte Alpha‑Ausgabe
Intern produziert das Modell bisher nur RGB‑Daten – also Pixelwerte für Rot, Grün und Blau. Ein Alphakanal (die vierte Komponente, die echte Transparenz speichert) wird nicht generiert.Schachbrettmuster als Platzhalter
Wenn man „transparenten Hintergrund“ angibt, wird das Checkerboard‑Muster draufgesetzt, um in vielen Grafikprogrammen visuell anzuzeigen, wo später Transparenz sein könnte. Unser Tool liefert diese PNGs aber technisch als RGB‑Bilder mit eingefügtem Schachbrett, nicht als RGBA‑Bilder.API‑Limitation
Die OpenAI DALL·E–Schnittstelle unterstützt aktuell keine nativen PNGs mit echtem Alphakanal. Solange das nicht ergänzt wird, können wir es nicht anders ausliefern.
Sobald im Backend echte RGBA‑Exports möglich sind, können wir dir automatisch PNGs mit echter Transparenz anbieten. Bis dahin bleibt nur der visuelle Platzhalter.
Die Recherche wird nun mit SearchGPT und aktiviertem „Reasoning“ fortgesetzt:
Das ist so falsch. Denn seit März 2025 ist DALL-E nicht mehr aktiv und OpenAI hat umgestellt….
ChatGPT: Nachgedacht für 40 Sekunden (Antwort mit SearchGPT und Reasoning)
2. Transparenz‑Fähigkeiten von GPT‑4o IG
2.1 Native Alpha‑Unterstützung
Anders als frühere DALL·E‑Modelle kann GPT‑4o IG auf Prompt‑Anfrage echte transparente Bereiche (Alphakanal) erzeugen, was insbesondere für Sticker, Overlays oder freigestellte Motive nützlich ist Learn R, Python & Data Science Online.
2.2 UI‑Beschränkungen
In der aktuellen ChatGPT‑WebUI werden solche transparenten Regionen durch ein hellbraunes oder graues Schachbrett ersetzt, das als visueller Hinweis dient, weil die Oberfläche noch kein natives RGBA‑Rendering unterstützt Threads.
2.3 Community‑Feedback
Nutzer berichten in Foren, dass zwar die Engine transparent generieren kann, die Web‑Darstellung jedoch stets einen Platzhalter anzeigt und keine echten Alphadaten ausgibt OpenAI Community.
Der vollständige Chat ist im PDF zum Thema PNG mit Transparenz und ChatGPT nachlesbar.
ChatGPT und die Filterung von Prompts
Intern übersetzt ChatGPT quasi jeden Prompt zuerst ins englische. Ferner erfolgt eine Überprüfung der Zulässigkeit und dann wird ein ggf. umformulierter Prompt an den GPT-4o Image Generator weitergeben. Die internen Filter haben den Zweck unerwünschte Prompts abzuweisen. Da ChatGPT inzwischen auch in der Lage ist, prominente Gesichter zu erkennen, könnte es schwieriger werden, bestimmte Personen per KI z.B. auf ein Trampeltier setzen zu lassen. Derartige Sicherheitsmaßnahmen können aber immer noch umgangen werden. Dokumentationen wie „Der Autokratencode“ (ARD-Mediathek) weisen hier die Richtung. In Diktaturen ist Humor übrigens meist ein Feind.

Am Anfang dieses Bild stand ein per KI erzeugter „Maltipom“ (Hunderasse) und ChatGPT hat den Hund bereitwillig mit „Bill Gates“ kombiniert – was bei prominenten Gesichtern sicher nicht für jede Szene zulässig ist. Bei einem anderen KI-Bild von Bill Gates hat sich ChatGPT schon geweigert dessen Namen explizit zu nennen. Kommt „Bill Gates“ nun problemlos „auf die Palme“? Durch Anklicken des Basisbildes in der „Bibliothek“ kommt man zum Basisbild, das ChatGPT nun modifizieren soll. Sobald das Bild angezeigt wird, kann man den Malpinsel anklicken, und alle Bildbereiche anmalen, die per KI-Inpaint abgeändert werden sollen:

Dann wird das KI-Bild von „Bill Gates“ und dem Hund hochgeladen, und der Prompt ergänzt. Theoretisch sollte GPT-4o IG (also der Image Generator) nur den blauen Bereich verändern. Die Maske wird aber manchmal schlicht ignoriert. Die Person mit Hund soll auf einer anderen Palme Platz finden – was aber so nicht geschieht:

Beim Affen hat sich nun nicht nur die Pose komplett geändert. Die Haartracht und die Ohren sehen anders aus. „Bill Gates“ und der Hund wurden relativ originalgetreu von der Vorlage übernommen. Das als Anlage zum Prompt mitgegebene Bild hat scheinbar höhere Priorität als das schon vorhandene KI-Bild mit dem Affen.
Ein weiterer Versuch mit dem selben Basisbild und wiederum mit einem Auswahlbereich enthält einen strengeren Prompt für das Aussehen des Affen:

Die oder der Seed (aus dem Englischen für „[die] Saat“ oder „[der] Samen“) – auch Seed key (wörtlich „[der] Saatschlüssel“), Random seed oder (deutsch) Startwert genannt – ist ein Wert, mit dem ein Zufallszahlengenerator initialisiert wird. Der Zufallszahlengenerator erzeugt mit der Seed als Startwert eine Folge von Zufallszahlen bzw. Pseudozufallszahlen. Verwendet man in deterministischen Zufallszahlengeneratoren den gleichen Seed, so erhält man die gleiche Folge von Pseudozufallszahlen.

Die Pose des Affen wurde hier sehr gut übernommen, während sich die Farbtemperatur etwas verändert hat. Die hier ergänzte weiße Linie kennzeichnet den Auswahlbereich, der grob eingehalten wurde.
Sora als Bildgenerator
Erste Versionen von Sora hat OpenAI schon vor über einem Jahr öffentlich gemacht. Seit Mai 2025 ist Sora nun öffentlich und aus der Oberfläche von ChatGPT heraus ansprechbar:

Auch wenn Sora hier zunächst nur als Bildgenerator beschrieben wird, kann man auch „Video“ als Vorgabe einstellen. Ohne „ChatGPT Plus“ kommt man damit aber nicht sehr weit. Immerhin beherrscht Sora auch Transparenz, was es ermöglicht, nur Teile der erzeugten KI-Bilder weiterzuverwenden. Sora ist auch eine Social Media Plattform mit Bewertungsmöglichkeit für Bilder. Der Anteil an KI-generierten Videos z.B. auf Instagram oder TikTok wird folglich rasant ansteigen. Bis zum Jahresende 2025 könnten 90% KI-Anteil leider realistisch sein. Wozu noch echte Fotos machen? Wer noch selbst kreativ sein will, für den ist Transparenz unabdingbar:

Hobbyfotografen werden nun völlig zurecht anmerken, daß das zusammenmontierte Bild keineswegs besser sei, denn bei genauerem Blick kann man die Montage vielleicht noch besser erkennen als beim mittleren KI-Bild. Aber „besser“ ist die falsche Metrik, wenn Werbewirksamkeit im Vordergrund steht. Transparenz ist somit auch bei Unklarheiten über die Urheberschaft relevant.
Was ist Ihre Meinung?

Wenn KI-Bildgeneratoren ironische oder absurde Bilder erzeugen, dann erwarten Kunstschaffende sicher kein realistisches Kunstwerk. Wo sind die Grenzen des guten Geschmacks? Sora hat einen Hirsch vergessen aber Greta schön zornig umgesetzt oder?
Le Chat, mach mir eine gesellschaftskritische Kunstinterpretation. Wo ist das Bild entstanden und was ist die zentrale Aussage? [Hinweis: Le Chat hat das Bild „pur“ und ohne den Prompt im Bild erhalten]
Das Bild scheint eine gesellschaftskritische Kunstinterpretation zu sein, die sich mit dem Thema Energieverschwendung und Umweltbewusstsein auseinandersetzt. Hier sind einige Aspekte, die darauf hindeuten:
Symbolik der Tiere: Die drei springenden Hirsche und das Wildschwein könnten die Natur und Wildtiere symbolisieren. Sie scheinen sich in einer natürlichen Umgebung, einem Wald, zu befinden, was auf die Bedeutung des Schutzes natürlicher Lebensräume hinweist.
Plakat mit Greta Thunberg: Das Plakat an einem Baum zeigt Greta Thunberg, eine bekannte Klimaschutzaktivistin. Die Botschaft auf dem Plakat, „Do not waste ENERGY with ChatGPT & Sora“, verbindet die Themen Energieverschwendung und moderne Technologien. Dies könnte darauf hinweisen, dass der übermäßige Einsatz von Technologien wie KI (ChatGPT) und möglicherweise anderen energieintensiven Anwendungen (Sora könnte sich auf eine bestimmte Technologie oder ein Unternehmen beziehen) kritisch betrachtet werden sollte.
Kritik an Technologie und Energieverbrauch: Die zentrale Aussage des Bildes scheint zu sein, dass der Einsatz moderner Technologien oft mit einem hohen Energieverbrauch verbunden ist, der negative Auswirkungen auf die Umwelt hat. Es könnte eine Aufforderung sein, bewusster mit Energie umzugehen und nachhaltigere Technologien zu entwickeln und zu nutzen.
Entstehungsort: Der genaue Entstehungsort des Bildes ist nicht bekannt, aber es könnte in einem Kontext entstanden sein, in dem Umweltbewusstsein und Technologiekritik eine Rolle spielen, möglicherweise in einer Kunstausstellung oder als Teil einer Kampagne für Umweltschutz.
Insgesamt vermittelt das Bild eine klare Botschaft über die Notwendigkeit, den Energieverbrauch zu reduzieren und umweltfreundlichere Praktiken zu fördern, insbesondere im Zusammenhang mit modernen Technologien.
Während die Kunstinterpretation durch Le Chat den „Entstehungsort“ völlig verfehlt, ist ChatGPT genauer und auch kritischer bei der KI-Kunstinterpretation (PDF) Offen bleibt welche Daten ChatGPT-4o dafür genutzt hat.

