Wenn die KI plötzlich gelb sieht
Mit einem einzigen weiteren Befehl verwandelt sich die fotorealistische Szene in eine Folge der Simpsons: gelbe Haut, dicke Umrisslinien, kantige Mimik. Die Leichtigkeit, mit der sich solche Stilwechsel vollziehen lassen, ist das eigentliche Spektakel dieser neuen Funktion. Es ist nicht nur Bildbearbeitung – es ist stilistische Teleportation.
Technisch basiert das neue System nicht mehr auf Diffusionsverfahren wie DALL-E 3, sondern auf einem autoregressiven Ansatz. Dabei wird das Bild zeilenweise erzeugt – von oben nach unten, von links nach rechts. Das dauert etwas länger, liefert aber klarere Strukturen, bessere Textdarstellung und insgesamt realistischere Ergebnisse.
Natürlich ist nicht alles perfekt. OpenAI selbst räumt ein, dass GPT-4o gelegentlich Bildteile abschneidet, Details halluziniert oder mit nicht-lateinischen Schriften hadert. Um Missbrauch vorzubeugen, werden alle generierten Bilder mit C2PA-Metadaten versehen, die ihre KI-Herkunft dokumentieren.
Mehr Freiheit, aber nicht grenzenlos
Trotzdem verfolgt OpenAI mit GPT-4o einen liberaleren Kurs als zuvor. CEO Sam Altman erklärte auf X, es sei „richtig, diese intellektuelle Freiheit und Kontrolle in die Hände der Nutzer zu legen“. Der neue Bildgenerator bewegt sich damit näher an Elon Musks Grok-Modell, das schon länger mit weniger Einschränkungen arbeitet. Ganz frei ist GPT-4o aber nicht: Deepfakes, Gewaltfantasien mit realen Personen oder das Entfernen von Wasserzeichen bleiben weiterhin blockiert.
Die neue Funktion ist bereits für Plus-, Pro-, Team- und sogar Gratis-Nutzer verfügbar (mit gewissen Einschränkungen). Enterprise- und Bildungskonten folgen demnächst. Entwickelt wurde das neue System über ein Jahr lang, mit der Hilfe von mehr als 100 menschlichen Trainern, die Fehler kennzeichneten – von schiefen Händen über absurde Gesichter bis zu unsinnigen Texten.
Was bleibt, wenn jeder gestalten kann?
GPT-4o reagiert damit nicht nur auf Googles Gemini-Bildfunktionen, sondern markiert einen Schritt, der weit über Technik hinausgeht. Wenn jeder in Sekunden Bilder erschaffen kann, die wie aus einem Werbestudio wirken – oder aus einer Folge der Simpsons –, wird Kreativität nicht nur demokratischer, sondern auch flüchtiger. Die Grenze zwischen Vorstellung und Visualisierung verschwimmt.
In einer Welt, in der sich sogar Politiker auf Hoverboards durch Fantasien bewegen, stellt sich vor allem eine Frage: Wer steuert hier eigentlich noch – und wer schaut nur noch zu?