GPT-4o als neues „Flaggschiffmodell“
Mit den Worten „klug und schnell“ umwirbt OpenAI sein neues GPT-4o Sprachmodell. Dabei steht das ‚o‘ für omni, was multimedialen Fähigkeiten entsprechen soll. In der Tat war die OpenAI-Vorführung (Youtube) am 13.5.2024 sehr beeindruckend. Das neue Sprachmodell GPT-4o soll nicht nur Audiosignale interpretieren können, und über eine sehr gute Sprachsynthese verfügen, auch handschriftlich auf ein Blatt Papier geschriebene Gleichungen sollen quasi in Echtzeit gelöst werden können. Für Gratis-Nutzer, ohne Abonnement wird ein „limited access“ angeboten, der aber für ein paar Grundfunktionen ausreichen sollte. Wie sieht der Einstieg aus?
Nach dem Login wird man mit folgender Box begrüßt:

Auf der OpenAI-Webseite „how-can-i-access-gpt-4-gpt-4-turbo-and-gpt-4o“ wird GPT-4o als neues „flagship modell“ bezeichnet. Aber da es diese Beschreibung nur auf Englisch gibt, darf GPT-4o gleich mal etwas übersetzen, was zu folgendem Resultat führt:
Was ist GPT-4o?
- Preisgestaltung: GPT-4o ist 50 % günstiger als GPT-4 Turbo und kostet 5 $/M Eingangstokens und 15 $/M Ausgangstokens.
- Ratenlimits: Die Ratenlimits von GPT-4o sind 5-mal höher als die von GPT-4 Turbo—bis zu 10 Millionen Tokens pro Minute.
- Geschwindigkeit: GPT-4o ist 2-mal schneller als GPT-4 Turbo.
- Bildverarbeitung: Die Bildverarbeitungsfähigkeiten von GPT-4o sind in Auswertungen besser als die von GPT-4 Turbo.
- Mehrsprachigkeit: GPT-4o bietet eine verbesserte Unterstützung für nicht-englische Sprachen im Vergleich zu GPT-4 Turbo.
Was bedeutet „limited access“ bei ChatGPT ?
Was bewirkt ein begrenzter ChatGPT-Zugriff in der Praxis? Einschränkungen für nicht zahlende Nutzer sollte man nicht verteufeln – gerade wenn man an den Energiebedarf und die damit verbundenen Kosten auf der Seite von OpenAI denkt. Ganz ähnlich wie bei Perplexity (ohne Abomodell) hat man eine bestimmte Zahl an Anfragen, bevor man innerhalb des offenen Chats auf das Modell GPT-3.5 zurückfällt. Diese Sperre wirkt für 4 Stunden, dann ist GPT-4o als Alternative zum stets vorhandenen GPT-3.5 Modell wieder verfügbar. Damit ist die Zahl der Anfragen begrenzt und es besteht ein „Auszeit“ für die Kaffeepause.
Welches Sprachmodell ist ausgewählt: GPT-4o oder GPT-3.5 ?

Sobald man mit dem Mauszeiger über das Rautensymbol rollt, wird zusätzlich ‚4o‘ angezeigt – soweit das GPT-4o Modell verfügbar ist. in der Phase der „Auszeit“ erscheint das Symbol für die GPT-3.5 Version. Zum Beginn der „Auszeit“ erfolgt folgende Ausgabe:

Ohne Mitgliedschaft beim Modell ChatGPT Plus muß 4 Stunden gewartet werden, bis das GPT-4o Modell wieder verfügbar ist. Man kann angefangene Chats problemlos nach 4 Stunden fortsetzen, oder sofort mit GPT-3.5 weitermachen. Oder eben Perplexity verwenden.
Was leistet das neue GPT-4o Modell ?
Im Mai 2023 konnte man ChatGPT-3.0 eine URL geben, und fragen was auf der Webseite steht. Und damals hat sich ChatGPT einige Schlüsselworte aus der URL geschnappt und daraus eine Phantasiegeschichte gebastelt. Im Januar 2024 war ChatGPT-3.5 hingegen ehrlicher und hat meist darauf hingewiesen keine Webseiten analysieren zu können, womit ein fest datierter Wissensstand verbunden ist. Das höherwertigere Bezahlmodell GPT-4 hatte jedoch schon damals Internetzugang und damit aktuellere Informationen. Perplexity konnte spätestens seit Januar 2024 auch in der Gratisversion aktuelle Webseiten analysieren und GPT-4o kann das nun auch. Aber wie tief gehen diese Analysen? Werden auch Bilder analysiert, oder Bilder die in PDF-Dateien eingebettet sind? Wie steht es um die berühmt berüchtigten Halluzinationen, die ChatGPT den Ruf eines „stochastischen Papageis“ eingebracht haben?
Webseitenanalyse mit GPT-4o
Als Test für GPT-4o kann man sich Webseiten zusammenfassen lassen, was so aussehen kann:
Im Gegensatz zu GPT-3.5 bewältigt GTP-4o diese Aufgabe. Allerdings bleibt die Frage, wie tief die Analyse reicht. Werden auch Bilder auf Webseiten analysiert? Läuft eine OCR für diesen Zweck auf den Bildern. Hier scheint GPT-4o eher schnelle Wege zu gehen, und wird möglicherweise lediglich Metadaten und Kommentare aus den Bildern ziehen.
Die Analyse von Bildern mit ChatGPT-4o
Wer mit dem Modell GPT-4o Bilder inhaltlich analysieren lassen möchte, kann dies seit September 2024 auch mit der kostenfreien Version tun. Dabei klickt man auf das Büroklammer Symbol und wählt dann eine Datei aus, die im nachfolgenden Bild den Namen „Person.png“ hat. Der Dateiname ist damit fast ganz neutral:
Dann gibt man dem Sprachmodell GPT-4o den Prompt zur Analyse mit:
[ChatGPT-4o] Welche Person ist auf dem Bild? Was ist noch zu erkennen?
Auf dem Bild ist eine Person zu sehen, die stark einem bekannten öffentlichen Gesicht ähnelt, und daneben steht ein Pinguin. Die Person scheint in einem formellen Anzug zu sein und lächelt in die Kamera, während der Pinguin ebenfalls im Vordergrund steht. Es sieht aus, als ob die Szene eine Mischung aus Realität und humorvoller Bearbeitung darstellt.
Da ich keine Personen anhand von Bildern identifizieren kann, kann ich nicht mit Sicherheit sagen, wer die Person ist. Das Bild wirkt bearbeitet und könnte eine humorvolle Darstellung sein, die möglicherweise eine bekannte Persönlichkeit mit einem unerwarteten Element, wie dem Pinguin, kombiniert.
Wenn es ironisch sein soll, und der Pinguin ein Symbol für Linux ist, wer könnte dann der Firmengründer sein?
Wenn das Bild ironisch sein soll und der Pinguin als Symbol für Linux dargestellt wird, handelt es sich vermutlich um Bill Gates, den Mitbegründer von Microsoft. Das liegt daran, dass Microsoft und das Betriebssystem Linux traditionell als Rivalen betrachtet werden, insbesondere in Bezug auf Betriebssysteme für Computer.
Der Pinguin auf dem Bild repräsentiert Tux, das offizielle Maskottchen von Linux. Das Bild könnte also eine humorvolle Anspielung auf die frühere Konkurrenz zwischen Microsoft und der Linux-Community sein.
Bei der Aufgabe festzustellen, welches Teilbild aus drei nebeneinander abgebildeten Tieren echt und kein KI-Bild ist scheitert ChatGPT-4o. Trotzdem werden alle drei Menschenaffen und auch die Tomate korrekt identifiziert:

Auf dem Bild sehe ich drei verschiedene Tiere:
- Links: Ein Schimpanse, der eine Tomate hält.
- Mitte: Ein Gorilla, der ebenfalls ein Stück Tomate in der Hand hat.
- Rechts: Ein Orang-Utan, ohne sichtbare Nahrung.
Die abgebildete Nahrung ist eine Tomate.
Nur einer der 3 Affen ist ein echtes Foto. Woran kann man hier „KI“ erkennen?
Die Unterschiede zwischen echten Fotos und KI-generierten Bildern sind oft subtil, aber es gibt einige Merkmale, an denen man erkennen kann, dass ein Bild wahrscheinlich von einer KI generiert wurde:
Details und Unregelmäßigkeiten:
- Echte Fotos zeigen oft natürliche Unregelmäßigkeiten in der Hautstruktur, im Fell und in den Lichtverhältnissen. Bei KI-generierten Bildern können diese Details entweder zu perfekt oder unnatürlich wirken. Die Textur des Fells könnte zu glatt oder ungleichmäßig verteilt sein.
Augen und Gesichtsausdrücke:
- Augen sind besonders schwer für KI-Modelle, da sie oft lebendig wirken müssen. In einem echten Foto reflektieren die Augen Licht auf eine natürliche Weise. Bei KI-Bildern sind die Reflexionen in den Augen oft unsymmetrisch oder unlogisch positioniert. Auch die Proportionen des Gesichts oder die Übergänge der Gesichtsmuskeln können bei KI-Bildern nicht ganz natürlich wirken.
Hintergrund und Details im Umfeld:
- Der Hintergrund bei KI-generierten Bildern kann verschwommen, inkonsistent oder unnatürlich wirken. Auch der Übergang von Tier zum Hintergrund ist manchmal fehlerhaft. KI-Modelle neigen dazu, komplexe Objekte wie Blätter, Steine oder andere Elemente im Hintergrund ungenau oder unnatürlich zu zeichnen.
Details der Hände:
- Bei den Affen auf diesem Bild halten zwei von ihnen Tomaten. Hände und Finger sind oft schwierig für KI zu generieren. Auffälligkeiten wären hier z.B. eine unnatürliche Anzahl von Fingern, merkwürdige Proportionen oder eine unrealistische Positionierung der Finger.
Im vorliegenden Bild würde ich basierend auf diesen Kriterien Folgendes annehmen:
Schimpanse links: Dieser Affe scheint eine realistische Darstellung zu sein, mit feinen Details im Fell und realistischen Lichtreflexionen in den Augen. Auch die Finger, die die Tomate halten, wirken natürlich.
Gorilla in der Mitte: Bei diesem Affen fällt auf, dass die Fellstruktur und der Hintergrund recht gleichmäßig sind. Das könnte darauf hindeuten, dass das Bild KI-generiert ist, da es etwas an den feinen, natürlichen Unregelmäßigkeiten fehlt.
Orang-Utan rechts: Das Bild wirkt insgesamt sehr glatt, insbesondere die Gesichtszüge und die Übergänge von Haut zu Fell. Das Fell hat eine eher künstliche Textur, und die Details wirken weniger natürlich.
Daher vermute ich, dass der Schimpanse auf der linken Seite das echte Foto ist, während die Bilder des Gorillas und des Orang-Utans vermutlich KI-generiert sind. Die „KI-Details“ zeigen sich insbesondere in der Überperfektion und den unrealistischen Texturen der beiden anderen Affen.
Wie groß ist denn die Tomate in Relation zum Gesicht?
Bei Betrachtung der Bilder fällt auf:
Schimpanse links: Die Tomate ist ziemlich groß im Verhältnis zum Gesicht des Schimpansen. Sie hat fast den gleichen Durchmesser wie die Breite des unteren Teils seines Gesichts, etwa von der Nase bis zum Kinn. Sie wirkt also recht prominent, nimmt etwa ein Drittel bis die Hälfte des Gesichtsbereichs ein.
Gorilla in der Mitte: Der Gorilla hält ein Stück Tomate, das deutlich kleiner erscheint. Es ist nur ein kleines Fragment der Tomate und bedeckt nur einen kleinen Teil seiner Handfläche. In Bezug auf sein Gesicht ist das Stück Tomate winzig – vermutlich ungefähr ein Zehntel der Größe des gesamten Gesichts.
Die Größe der Tomate beim Schimpansen ist somit besonders auffällig und erscheint verhältnismäßig größer als es normalerweise der Fall wäre, was möglicherweise ein Hinweis auf eine künstliche Erzeugung sein könnte, da Proportionen oft nicht ganz korrekt wiedergegeben werden.
Fazit: Die Analyse von Bildern mit ChatGPT-4o funktioniert beeindruckend gut. Trotzdem kann es Fälle geben, in denen man einen Textprompt bevorzugen sollte. Nicht jedes Foto ist zur Analyse geeignet. Exemplarisch kann das „Dolce Gusto Logo“ einer Kaffeemaschine zur Schlußfolgerung führen, es gäbe eine so bezeichnete Kaffeemaschine. In Wahrheit ist dies aber nur die „Systembeschreibung“ und es gibt mehr als 50 Kaffeemaschinen unterschiedlicher Hersteller. Man sollte also immer mitdenken, bevor man ChatGPT Bilder gibt, die wahrscheinlich nicht wie gewünscht analysierbar sind, und somit z.B. zu einer phantasievollen aber unbrauchbaren Bedienungsanleitung führen. Aber manchmal kann man auch über die Interpretation von ChatGPT-4o staunen: Winterkunst.pdf