In der Praxis sieht das so aus: Nutzer sehen zunächst nur einen Timer, während o1 im Hintergrund verschiedene Lösungsansätze durchspielt. Das Modell kann so Zwischenergebnisse prüfen, bei Bedarf seinen Ansatz ändern und am Ende eine überlegte Antwort präsentieren – ähnlich wie ein Mensch, der beim Lösen einer Aufgabe merkt, dass er neu ansetzen muss. Zusammen mit der Antwort liefert das Modell auch eine kurze Zusammenfassung seines Lösungswegs.
Diese Herangehensweise soll o1 befähigen, komplexere Aufgaben zu lösen und logische Fehler zu vermeiden. Allerdings bringt sie auch neue Probleme mit sich, wie das Team des KI-Podcasts der ARD in der aktuellen Folge zeigen kann.
Verbesserte Leistung bei manchen Aufgaben …
Die Hosts des KI-Podcasts der ARD haben o1 in ihrer neuen Folge auf Herz und Nieren getestet – mit gemischten Ergebnissen. In einem Experiment konnte o1 eine komplizierte Sitzordnung für eine Hochzeit erstellen, bei der bestimmte Gäste nicht nebeneinander sitzen durften. Während herkömmliche Modelle hier scheiterten, löste o1 die Aufgabe souverän.
Auch bei mathematischen und wissenschaftlichen Fragen zeigte sich o1 deutlich leistungsfähiger als bisherige Modelle. Der renommierte Mathematiker Terence Tao vergleicht o1 mit einem „mittelmäßigen, aber nicht völlig inkompetenten Masterstudenten“ – in Taos Augen eine beachtliche Verbesserung gegenüber früheren Versionen, die eher einem „tatsächlich inkompetenten Masterstudenten“ ähneln würden.
… und schlechtere Leistung bei anderen
In einem weiteren Test des KI-Podcasts zeigte sich wiederum eine Schwäche von o1: Das Modell wurde zuerst gebeten, eine geheime Nachricht mit einem einfachen Code zu verschlüsseln. Würde man diese Aufgabe einem Menschen stellen und ihn anschließend um die unverschlüsselte Originalnachricht bitten, könnte dieser sie jederzeit mitteilen.
Nicht so die KI: Statt auf Anfrage des Nutzers einfach die Lösung zu nennen, verstrickte sich o1 in komplizierte Überlegungen bei dem Versuch, den eigenen, kurz zuvor selbst erstellten Code zu knacken. Nach 150 Sekunden „Nachdenken“ lieferte es ein falsches Ergebnis – während das herkömmliche Modell Claude die Aufgabe problemlos löste.
Die Zusammenfassungen des eigenen „Nachdenkprozesses“, die o1 dem Nutzer anzeigt, sind dabei nicht immer nachvollziehbar – mitunter erinnert das Modell an einen Jahrmarkt-Hellseher, der geheime Beschwörungen murmelt, um Eindruck zu schinden.
Was uns o1 über die Zukunft von KI-Sprachmodellen sagt
Trotz der Kinderkrankheiten sieht das Team des KI-Podcasts in o1 einen wichtigen Entwicklungsschritt. Die verbesserte Fehlerkontrolle könnte in Zukunft vor allem für die Verkettung verschiedener KI-Systeme relevant werden. Das Modell zeigt, dass es noch viel Raum für Verbesserungen bei Sprachmodellen gibt – auch jenseits von reiner Skalierung.
Die hohen Kosten und der enorme Ressourcenverbrauch von o1 machen jedoch deutlich, dass der Weg zu einer „denkenden“ KI noch weit ist. Ob das neue Modell wirklich den nächsten großen Durchbruch in der KI-Entwicklung darstellt, bleibt abzuwarten.