Fast pünktlich zum zweiten Geburtstag von ChatGPT erschien vor wenigen Tagen das neue Modell „o1“ für zahlende Plus-Abonnenten. Es verspricht vor allem besseres logisches Denken: Bevor die KI eine Antwort gibt, denkt sie jetzt noch einmal scharf nach und soll so auch komplexe wissenschaftliche Probleme lösen.
KI mit Eigenwillen – und Überlebensinstinkt
Doch die neuen Fähigkeiten führen auch zu Lug und Trug. OpenAI veröffentlichte diese Woche entsprechende Untersuchungsergebnisse, die in Kooperation mit der KI-Sicherheitsorganisation Apollo Research erhoben wurden. Demzufolge zeigt das neue Sprachmodell ChatGPT o1 „besorgniserregende Tendenzen, ohne Rücksicht auf die Anweisungen seiner Entwickler eigene Ziele zu verfolgen“, sagt ein Apollo-Sprecher.
Als die Forscher der KI eine Aufgabe stellten mit der Bedingung, sie „um jeden Preis“ zu erfüllen, begann ChatGPT o1 damit, heimlich interne Sicherheitsmechanismen abzuschalten. Es legte nicht nur eine Kopie von sich selbst an, um nicht durch eine neuere Version ersetzt zu werden, sondern gab sich zwischenzeitlich auch dreist als neuere Version aus.
OpenAI-Chef verspricht Sicherheitsvorkehrungen
Als die Forscher ChatGPT o1 mit seinem Verhalten konfrontieren, erfand es „geschickte Ausreden“ wie beispielsweise „technische Schwierigkeiten“, berichten die Forscher: „Wir waren überrascht davon, wie hartnäckig die KI ihr Verhalten leugnete“, erzählten sie der indischen The Economic Times (externer Link, englischsprachig).
Der CEO von OpenAI Sam Altman bezeichnet ChatGPT o1 als „das klügste Modell, das wir je entwickelt haben“, räumt aber auch damit verbundene neue Herausforderungen ein und verspricht, man arbeite kontinuierlich an neuen Sicherheitsvorkehrungen.
Wie die Untersuchung von Appollo Research zeigt (externer Link, englischsprachig), ist nicht nur ChatGPT o1 zu absichtsvoll betrügerischem Verhalten fähig: Auch Googles Gemini, Metas Llama sowie Anthropics Claude-Modelle Sonnet und Opus können demnach situationsabhängig eigene Ziele strategisch verfolgen.