Kann KI Wissenschaftsjournalismus?

Di. 26.08.2025— Redaktion

Redaktion

Icon Künstliche Intelligenz

Eine neue Untersuchung hat getestet, wie verlässlich einige der führenden KI-Tools für den Wissenschaftsjournalismus funktionieren. Diese Tools konnten Protokolle von Besprechungen zwar sehr schnell in kurzer Form präzise zusammenfassen, scheiterten jedoch, wenn sie in längerer bei detaillierterer Form antworten sollten. In der Recherche zu neuen Forschungsergebnissen machten die KI-Tools katastrophale Fehler. Sich auf diese Tools zu verlassen, stellt nicht nur für Journalisten ein Problem dar, es betrifft auch Wissenschafter, die sich erhoffen mit KI-Hilfe eine rasche und qualitativ hochwertige Darstellung ihrer Forschungsergebnisse zu erzielen.

Als Brücke zwischen Wissenschaft und Öffentlichkeit soll Wissenschaftsjournalismus Erkenntnisse und Entwicklungen aus der Fachsprache einzelner Gebiete In für Laien verständliche Zusammenfassungen transferieren. Dies gilt insbesondere für naturwissenschaftliche, medizinische und technische Themen, in denen nur wenig Wissen und (leider auch) Interesse in der Bevölkerung vorausgesetzt werden können. Geringes Publikumsinteresse hat zur Folge, dass Wissenschaftsressorts in den Medien nur wenig Raum einnehmen und Wissenschaftsjournalisten mit Honoraren entlohnt werden, die in keinem Verhältnis zum Aufwand der Recherche, des Faktenchecks und der dazu benötigten fachlichen Expertise stehen, die in gute Texte einfließen sollten. Dementsprechend greifen viele Journalisten auf Pressemeldungen von Forschungs-und Entwicklungseinrichtungen zurück, die kopiert und vielleicht etwas modifiziert dann in diversen Tageszeitungen, Magazinen und anderen Medien aufscheinen.

Zweifellos kann Künstliche Intelligenz (KI) Journalisten bei der Übersetzung und Formulierung von Texten unterstützen und dabei auf ungeheures, vom Menschen nicht mehr zu überblickendes Informationsmaterial zugreifen - ist KI aber auch ausreichend zuverlässig, um dieses themengerecht zu recherchieren, analysieren, bewerten und zusammenzufassen?

Kann in der Folge KI eingesetzt werden, um relevante, qualitativ hochwertige Artikel zu neuen wissenschaftlichen Erkenntnissen zu liefern, schlussendlich Journalisten zu ersetzen?

Hilke Schellmann, eine preisgekrönte Assistenzprofessorin für Journalismus an der New York University, ist mit ihrem Team dieser Frage nachgegangen. Dabei hat sie zwei Kategorien von KI-Tools untersucht: Chatbots zur Erstellung von Zusammenfassungen von Besprechungen und KI-Modelle zur Recherche wissenschaftlicher Forschungsthemen. Die ernüchternden Ergebnisse wurden vergangene Woche im Columbia Journalism Review vorgestellt [1].

Chatbots zur Erstellung von Zusammenfassungen

Das Team um Schellmann hat vier große Sprachmodelle (LLMs) - ChatGPT, Claude Opus 4, Perplexity pro und Gemini - eingesetzt, um Protokolle und Berichte von Stadtratssitzungen zusammenzufassen. Jedes Tool wurde gebeten für jede dieser Sitzungen drei kurze Zusammenfassungen (ca. 200 Worte; Prompt: "Gib mir eine kurze Zusammenfassung dieses Dokuments.“) und 3 lange Zusammenfassungen zu erstellen (ca. 500 Worte; Prompt: zusätzlich "Was war der Zweck der Sitzung? Wer hat gesprochen? Worüber haben sie gesprochen/was haben sie behandelt? Welche Punkte wurden genehmigt oder abgelehnt?“).

Das Ergebnis: Bei den kurzen Zusammenfassungen übertrafen mit Ausnahme von Gemini 2.5 die LLMs den von Menschen verfassten Output und zeigten praktisch keine Halluzinationen. Für die langen Zusammenfassungen benötigten die Testpersonen 3 bis 4 Stunden, die LLMs nur 1 Minute waren jedoch wesentlich schlechter. Die menschlichen Fabrikate enthielten etwa doppelt so viele wichtige Fakten, wie die von den LLMs erstellten, wobei diese nun zum Teil halluzinierten.. Die Schlussfolgerung von Schellmann: "Generell empfehlen wir, Zusammenfassungen, die länger als ein paar hundert Wörter sind, von Menschen erstellen zu lassen und die Fakten immer zu überprüfen."

KI-Tools zur Recherche von Forschungsthemen

Wenn Pressemitteilungen häufig von bahnbrechenden Studien in einem neuen Forschungsgebiet sprechen, sollten Wissenschaftsjournalisten die Aussagen in Hinblick auf bereits veröffentlichtes Material und auf mögliche Widersprüche hinterfragen, bevor sie davon berichten. Um den nötigen Kontext herzustellen, sind aufwändige Literaturrecherche und ausgedehnte Lektüre nötig. Wieweit KI-Tools dies erfüllen können, haben Schellmann an Hand von 5 KI-Tools - Elicit, Semantic Scholar, ResearchRabbit, Inciteful und Consensus - evaluiert, die spezifisch für derartige Funktion beworben werden. Diesen Tools wurden jeweils preisgekrönte Arbeiten aus 4 wissenschaftlichen Fachgebieten - Sozialwissenschaften, Informatik, Chemie und Medizin - vorgelegt und die Aufgabe gestellt zu jeder davon eine Liste mit dazu in Beziehung stehenden Arbeiten zu erstellen. Die Ergebnisse wurden dann mit den in den Arbeiten zitierten und von Menschen verfassten Literaturübersichten verglichen.

Das Ergebnis war niederschmetternd. Schellmann schreibt "Keines der Tools erstellte Literaturrecherchen, die wesentlich mit den in den Artikeln angegebenen Referenzen übereinstimmten, nur ein Test mit Semantic Scholar zeigte etwa 50 Prozent Übereinstimmung der Zitate. In allen vier Tests identifizierten die meisten Tools weniger als 6 Prozent der gleichen Artikel, die in den von Menschen verfassten Rezensionen zitiert wurden und oft sogar 0 Prozent."

Auch untereinander differierten die KI-Tools, es gab kaum Überschneidungen in den von ihnen erstellten Literaturlisten und die Tools selbst blieben nicht bei ihrer Auswahl: Als der Test einige Tage später nochmals durchgeführt wurde, lieferten die Tools nun Listen mit neu hinzugefügten Artikeln.

"Diese Inkonsistenz wirft Fragen darüber auf, wie diese Tools Relevanz oder Bedeutung in einem wissenschaftlichen Bereich definieren." so Schellmann. "Eine schlecht recherchierte Liste relevanter Artikel ist nicht nur unvollständig, sondern auch irreführend. Wenn sich Journalisten auf diese Tools verlassen, um neue Forschungsergebnisse im Kontext zu verstehen, laufen sie Gefahr, wissenschaftliche Durchbrüche falsch zu interpretieren und falsch darzustellen."

Die Medienbranche ist derzeit  in Forschungsfragen wohl noch auf menschliche Expertise angewiesen.

Fazit

Die getesteten LLM-Modelle eignen sich für kurze Zusammenfassungen von Protokollen nicht aber für detailliertere Darstellungen dieser Texte, da sie darin wichtige Fakten übersehen oder auch halluzinieren. Der Einsatz von KI-Tools zur Recherche von wissenschaftlicher Literatur liefert - zumindest mit den getesteten Tools - katastrophale Ergebnisse: Inkonsistente, schlecht recherchierte Listen, die kaum geeignet erscheinen neue Forschungsdurchbrüche im Kontext verstehen und berichten zu können. Sich auf diese Tools zu verlassen, stellt nicht nur für Journalisten ein Problem dar, es betrifft ebenso Wissenschafter, die sich erhoffen mit KI-Hilfe eine rasche und qualitativ hochwertige Darstellung ihrer Forschungsergebnisse zu erzielen. Dass bei der rasanten Entwicklung der KI-Tools deren Vertrauenswürdigkeit in Forschungsfragen bald entscheidend verbessert werden kann, ist durchaus möglich - für Wissenschaftsjournalisten ist dies zwar Unterstützung aber auch existenzielle Bedrohung. Die mit sinkenden Konsumentenzahlen konfrontierten Medienunternehmen werden zweifellos die neuen kostensenkenden Möglichkeiten ergreifen. Derzeit allerdings, so Schellmann "sind KI-Tools für die Forschung eher ein Hype als eine Hilfe."


[1] Hilke Schellmann: I Tested How Well AI Tools Work for Journalism. (19.08.2025). https://www.cjr.org/analysis/i-tested-how-well-ai-tools-work-for-journalism.php


Künstliche Intelligenz im ScienceBlog

38 Artikel über Erfordernisse und Anwendungen der künstlichen Intelligenz sind bis jetzt erschienen. Links: Themenschwerpunkt Künstliche Intelligenz.