Die KI sitzt vor dem gleichen Bildschirm wie ein Mensch, bewegt den Cursor und klickt sich durch Programme. Das ist „Computer Use“ – ein neues experimentelles KI-Programm des amerikanischen KI-Startups Anthropic.
Computer Use ist eine Form eines „Agenten“, eines der Trendthemen im Bereich der Künstlichen Intelligenz. Dahinter stecken ähnliche Technologien wie hinter ChatGPT & Co. Aber mit einem entscheidenden Unterschied: Sie sind nicht mehr auf Texteingaben beschränkt, sondern können selbst Programme bedienen und Aufgaben ausführen.
Allerdings kommt die viel gehypte Technologie noch mit einigen Kinderkrankheiten daher. Im Test von „Der KI-Podcast“, dem wöchentlichen Podcast von BR24 und SWR, stößt Computer Use selbst bei einfachen Aufgaben an seine Grenzen und versucht beispielsweise, eine Web-Adresse in einem Excel-Feld zu öffnen.
Auch Google arbeitet an der Entwicklung eines ähnlichen KI-Agenten namens „Jarvis“. Das verriet der Konzern quasi versehentlich selbst: Eine interne Vorschau des Tools tauchte diese Woche kurzzeitig im Chrome Web Store auf. Der Agent soll als „hilfreicher Begleiter“ mit den Nutzern im Internet surfen. Zu den geplanten Funktionen gehört das selbstständige Durchführen von Aufgaben wie Produktkäufe oder Flugbuchungen. Google plant offenbar, Jarvis im Dezember zusammen mit der neuesten Version seines Gemini-Sprachmodells der Öffentlichkeit vorzustellen.
Vom Textfeld in die echte Welt
Tatsächlich funktionieren viele KI-Agenten deshalb auch anders als Computer Use. Anstatt auf ein ganzes Computer-System zuzugreifen, interagieren sie innerhalb geschlossener Systeme – und dort können sie spezifischere und komplexere Aufgaben ausführen.
Die Tech-Giganten wittern bereits das große Geschäft. Microsoft hat kürzlich KI-Agenten vorgestellt, die im kompletten Microsoft-365-Ökosystem arbeiten sollen: von Outlook über Teams bis hin zu SharePoint. Die Agenten sollen Aufgaben in den Bereichen Vertrieb, Kundenservice, Finanzen und Lieferkette übernehmen. Microsoft verspricht dabei enorme Einsparungen: Die Agenten könnten Unternehmen bis zu 50 Millionen Dollar pro Jahr sparen – das entspräche der Arbeitskraft von 187 Vollzeitmitarbeitern. Ob das realistisch ist, lässt sich aktuell noch nicht prüfen.
Auch Salesforce ist mit „Agentforce“ auf den Zug aufgesprungen. Beim Restaurant-Buchungsdienst „OpenTable“ können KI-Agenten von Salesforce bereits Reservierungen ändern, Treuepunkte verwalten und Kundenfragen beantworten. Und sogar „LinkedIn“ hat mit seinem „Hiring Assistant“ ebenfalls einen Agenten vorgestellt. Dieser ist speziell für Recruiter konzipiert. Der Agent kann eine Vielzahl von Rekrutierungsaufgaben übernehmen – von der Erstellung von Stellenbeschreibungen bis hin zur Kandidatensuche und deren Ansprache. Bereits jetzt wird der Hiring Assistant von großen Unternehmen wie AMD, Canva und Siemens getestet, eine breitere Einführung ist für die kommenden Monate geplant.
Das Lichterketten-Problem
Doch in der Praxis funktioniert das noch nicht immer. Denn anders als ChatGPT & Co arbeitet ein KI-Agent nicht unter ständiger Beobachtung durch einen Menschen. Das bedeutet: schon ein einziger Fehler in einer Reihe von Aufgaben kann den gesamten Workflow nutzlos machen. Ähnlich wie bei einer Lichterkette, bei der eine kaputte Birne genügt, um die ganze Kette lahmzulegen.
Forscher aus Singapur haben dieses Problem kürzlich untersucht: Wie zuverlässig arbeiten KI-Agenten bei gleichen oder ähnlichen Aufgaben? Das Ergebnis ist ernüchternd: selbst GPT-4, das beste getestete Modell, erreichte bei Einzelversuchen nur eine Erfolgsquote von 61 Prozent. Bei acht aufeinanderfolgenden Versuchen sank die Quote auf unter 25 Prozent.
Ein weiteres Problem: nicht immer versteht eine KI ihre Aufgabe so, wie ihr menschlicher Anwender sie gemeint hat. Ein berüchtigter Fall dieser Art ereignete sich 2016, als ein OpenAI-Algorithmus im Rennspiel „CoastRunners“ eine höhere Punktzahl erreichte, indem er endlos durch drei Zielpunkte fuhr, anstatt das Rennen zu beenden.
Zwei Szenarien für die Zukunft
Für die Zukunft der KI-Agenten zeichnen sich zwei mögliche Szenarien ab. Im ersten Szenario könnten Microsoft und andere große Tech-Unternehmen durch ihre Agenten noch unverzichtbarer werden. Warum noch mit einer anderen Dokumenten-Software arbeiten, wenn der KI-Agent nicht darauf zugreifen kann? Die Folge wäre eine noch stärkere Monopolstellung der Tech-Giganten.
Im zweiten Szenario entwickeln sich universelle Agenten wie „Claude“ weiter und können verschiedene Programme miteinander verbinden – teilweise über Schnittstellen in der Software, teilweise durch direkte Computernutzung. Dies könnte die drohende Monopolstellung der großen Tech-Unternehmen aufbrechen. Es sei denn, die Anbieter der KI entwickeln sich selbst zu den nächsten Monopolisten.