Falsche Texte auf Wikipedia
Tatsächlich landen auch immer mehr KI-generierte Inhalte in der Wikipedia – und diese stecken möglicherweise voller Fehler. Der spektakulärste Fall war die „Amberlihisar-Festung“. Fast ein volles Jahr lang, von Januar bis Dezember 2023, existierte ein Wikipedia-Artikel über eine angebliche osmanische Festung. Der KI-generierte Text war so überzeugend formuliert, dass selbst Experten den Schwindel nicht sofort erkannten.
Andere Fälle sind offensichtlicher. Manche Artikel enthalten Phrasen wie „Stand meines letzten Wissensupdates im Januar 2022“ – ein klarer Chatbot-Fingerabdruck, der direkt aus ChatGPT kopiert wurde. Oder sie beginnen mit „Hier ist dein Wikipedia-Artikel über …“ – als hätte der Autor vergessen, die Anrede des Chatbots zu löschen.
Nina Leseberg arbeitet bei Wikimedia Deutschland im Bereich Communitys und Engagement. Sie beobachtet das Problem täglich: „Im Moment macht KI eher mehr Arbeit, weil viele Menschen sich ganz unbedarft denken: Da kann ich doch leicht mal einen Artikel mit einer der bekannten Chat-Anwendungen schreiben. Das führt aber dazu, dass diese Artikel oft fehlerbehaftet sind. Häufig passiert es, dass Large Language Models Quellen halluzinieren – sie erfinden also einfach eine Quelle, die es de facto gar nicht gibt.“
Eine Studie der Princeton University vom Oktober 2024 zeigt das Ausmaß des Problems: Etwa 4,36 bis 5 Prozent der neu erstellten englischsprachigen Wikipedia-Artikel im August 2024 enthielten signifikanten KI-generierten Inhalt. Diese Artikel zeichneten sich typischerweise durch niedrigere Qualität, weniger Quellenangaben oder werblichen Charakter aus.
Projekt „saubere Wikipedia“
Die Wikipedia-Community hat deshalb zurückgeschlagen. Im Dezember 2023 gründeten Freiwillige das WikiProject „AI Cleanup“ – eine Initiative, die sich dem Problem unsachgemäß eingesetzter KI-generierter Inhalte widmet. Über 500 Artikel wurden bereits als potenziell KI-generiert markiert und überprüft.
Die Erkennungsmethoden basieren dabei primär auf menschlichem Urteilsvermögen, nicht auf automatischen Detektoren. Wikipedia betont ausdrücklich, dass automatische KI-Detektoren unzuverlässig seien. Stattdessen verlässt sich die Community auf ihr kollektives Expertenwissen.
KI-Teufelskreis?
Nina Leseberg von Wikimedia Deutschland sieht in der KI langfristigen Risiken: „Im Moment lernen Large Language Models von der Wikipedia und nicht umgekehrt, und wir gehen auch nicht davon aus, dass sich das ändert. Wenn man sich das technisch genau anschaut, dann durchsucht die KI das Internet nach Informationen und schaut nach Wahrscheinlichkeiten, was das Ergebnis ist. Es ist also nicht dasselbe, wie wenn ein Mensch Literatur liest, um anschließend einen Artikel zu schreiben. Und das bedeutet auch: Wenn die Quelle der KI später nur noch aus KI-generierten Inhalten besteht, dann gibt es nichts mehr, wovon wirklich gelernt werden kann.“
Das ist der Teufelskreis: KI wird mit Wikipedia-Inhalten trainiert, zieht Nutzer von Wikipedia weg, was zu weniger Beiträgen führt, die Wikipedia-Qualität erodieren lässt, wodurch künftige KI-Trainingsdaten schlechter werden. Ein Kreislauf, der das Wissen selbst bedroht.