KI-Tools versprechen eine schnellere und kostengünstigere Manuskriptbearbeitung für globale Forscher, aber neue Erkenntnisse zeigen, dass sie möglicherweise versteckte Risiken mit sich bringen, die die Gerechtigkeit im wissenschaftlichen Publizieren verändern könnten.

Studie: Verbessert ChatGPT die Chancengleichheit für globale Gesundheitspublikationen? Lektorat durch ChatGPT im Vergleich zu Grammarly und einem menschlichen Redakteur. Bildnachweis: Maxx-Studio/Shutterstock.com

Ein aktueller PLUS EINS Die auf einem kleinen, vorläufigen Fallvergleich basierende Studie bewertete die Lektoratsqualität von UM GPT, Grammarly und einem menschlichen Lektor an zwei Forschungsentwürfen. ChatGPT nahm dreimal so viele Korrekturen vor wie ein menschlicher Redakteur, war jedoch weniger präzise, ​​was die Frage aufwirft, ob künstliche Intelligenz (KI) die Gerechtigkeit im wissenschaftlichen Publizieren wirklich verbessern kann und unter welchen Bedingungen sie Forschern helfen oder behindern kann.

Sprachbarriere im wissenschaftlichen Publizieren

Englisch dominiert das wissenschaftliche Publizieren, doch die meisten Forscher weltweit sprechen es als Zweitsprache. Nicht-Muttersprachler des Englischen verbringen bis zu 51 % mehr Zeit mit dem Schreiben von Arbeiten als Muttersprachler und werden dennoch aufgrund von Grammatikproblemen abgelehnt. Eine professionelle Bearbeitung könnte helfen, ist aber unerschwinglich teuer.

In Ländern wie Kolumbien können professionelle Redaktionsdienste oft fast die Hälfte des Jahresgehalts eines Nachwuchsforschers kosten. Dies könnte der Grund sein, warum Forscher aus nicht englischsprachigen Ländern in der akademischen Literatur weiterhin stark unterrepräsentiert sind und warum Sprache als strukturelle Quelle des Machtungleichgewichts in der globalen Wissenschaft beschrieben wird.

Man geht davon aus, dass KI-Tools diese Ungleichheit überbrücken können. Obwohl grundlegende Grammatikprüfprogramme, darunter Microsoft Word, Google Docs und Grammarly, schon seit Jahren verfügbar sind, bieten große Sprachmodelle (LLMs) wie ChatGPT neue Möglichkeiten für eine anspruchsvollere Bearbeitungsunterstützung. Es ist jedoch unbedingt erforderlich, die Wirksamkeit und Genauigkeit dieser Modelle sowie die neuen Hindernisse, die sie mit sich bringen können, zu bewerten, einschließlich technischer Qualifikationsanforderungen und ethischer Bedenken.

Frühe Untersuchungen ergaben gemischte Ergebnisse: Eine Studie ergab, dass ChatGPT hilfreiche Grammatikkorrekturen für nicht-muttersprachliche englische Autoren bereitstellte, während eine andere dem widersprach, wobei einige Autoren berichteten, dass KI-Bearbeitungen das Schreiben manchmal „überpolieren“, ohne die Klarheit zu verbessern.

Redaktionspotenzial von LLMs im Vergleich zu Grammatik und einem menschlichen Redakteur

Die aktuelle Studie definiert Lektorat als Korrektur von Grammatik, Rechtschreibung, Syntax und Zeichensetzung; Gewährleistung der richtigen Terminologie und Konventionen; Überprüfung von Struktur, Organisation und Klarheit; und Verbesserung der Lesbarkeit, des Flusses und des Stils. Es verglich Korrekturen, die von UM GPT, einem sicheren, von der University of Michigan gehosteten generativen KI-Tool, vorgenommen wurden, mit denen von Grammarly und einem menschlichen Lektor an Manuskriptentwürfen, die von ugandischen Forschern im Bereich der sexuellen und reproduktiven Gesundheit verfasst wurden.

Zwei ugandische Forscher erteilten eine schriftliche Genehmigung zur Verwendung ihrer Manuskriptentwürfe zum Thema reproduktive Gesundheit. Beide Artikel wurden später in Fachzeitschriften veröffentlicht. Das Hauptziel des Lektorats bestand darin, ugandischen Forschern dabei zu helfen, für die Begutachtung durch Fachkollegen zugelassen zu werden.

Die Autoren bewerteten die Einleitung, Methoden, Ergebnisse und Diskussionsabschnitte beider Aufsätze sowie ausgewählte Tabellen. Insgesamt wurden nur acht Absätze und zwei Tabellen analysiert und eine einzige umfassende Eingabeaufforderung verwendet, um die reale Machbarkeit zu testen. Eine Sensitivitätsanalyse wurde durchgeführt, um mögliche Einschränkungen dieses Ansatzes zu identifizieren.

Es wurde die kostenlose webbasierte Version von Grammarly verwendet, die keine Benutzerdaten verkauft und den Zugriff auf hochgeladene Texte nur auf Benutzer beschränkt. Grammatikkorrekturen wurden für ein Expertenpublikum, einen formalen Ton und einen allgemeinen Schreibbereich erstellt. Die Texte wurden absatz- oder tabellenweise an UM GPT übermittelt und die erzeugten Korrekturen analysiert. Ein professioneller Lektor aus dem CIRHT/PREPSS-Schulungsprogramm ermöglichte menschlichen Korrekturen den Zugriff auf die vollständigen Manuskripte, im Gegensatz zu den KI-Tools, die isolierte Auszüge auswerteten.

Die Forscher klassifizierten die Korrekturen der drei Herausgeber und verwendeten dabei weniger Kategorien auf Satzebene als in früheren Studien. Sie stellten fest, dass UM GPT manchmal wichtige Informationen wie Referenzen entfernte, die sie separat verfolgten, da diese Löschungen ein Risiko für Bedeutung und Genauigkeit darstellten. Die Autoren räumten außerdem ein, dass die Klassifizierung der Bearbeitungen von einem internen Forschungsteam durchgeführt wurde, was möglicherweise unbeabsichtigt zu einer Verzerrung bei der Bewertung der Bearbeitungsqualität geführt hat.

KI-Tools waren schnell, aber es mangelte ihnen an menschlicher Bearbeitungseffizienz

Der menschliche Lektor benötigte 3,75 bzw. 4 Stunden, um die Aufsätze 1 und 2 zu bearbeiten. Im Gegensatz dazu generierte UM GPT Korrekturen nahezu augenblicklich. Das Erstellen eines Änderungsverfolgungsdokuments für jede Arbeit mit UM GPT dauerte jedoch etwa 30 Minuten. Grammarly generierte außerdem Korrekturen innerhalb von Sekunden und forderte Benutzer auf, Änderungen einzeln zu akzeptieren oder abzulehnen, ein Vorgang, der etwa 5 Minuten dauerte.

Nur der menschliche Lektor konnte Text und Tabellen korrigieren. UM GPT schlug vor, Tabelleninhalte in den Chat einzufügen, aber die Forscher fanden dies schwierig und unpraktisch. Grammarly erlaubt keine Tabellen-Uploads.

Es ist zu beachten, dass UM GPT etwa dreimal so viele Korrekturen verursachte wie der menschliche Editor und etwa zehnmal so viele wie Grammarly. Der Umfang der Korrekturen variierte je nach Herausgeber. Beispielsweise korrigierte Grammarly nur Rechtschreibung und Grammatik, während UM GPT Fehler in Rechtschreibung, Grammatik, Interpunktion, Leerzeichen und Großschreibung meldete. Im Gegensatz dazu korrigierte der menschliche Redakteur Grammatik, Zeichensetzung, Abstände und Großschreibung und markierte unklaren Text, anstatt zu versuchen, Passagen neu zu schreiben, deren Bedeutung mehrdeutig war, sodass die Autoren die Absicht selbst klären konnten.

Aus Gründen der Lesbarkeit ergab UM GPT die meisten Änderungen, zeigte jedoch die schlechteste Beurteilung. Von den 83 Überarbeitungen verbesserten nur 61 % den Text tatsächlich, während 14 % ihn verschlechterten und 24 % keine Auswirkungen hatten. Grammarly nahm nur fünf Lesbarkeitskorrekturen vor, zwei führten zu Verbesserungen und drei hatten keine wirklichen Auswirkungen. Der menschliche Redakteur nahm 21 Korrekturen vor: 90 % verbesserten den Text, eine war neutral und eine verschlechterte ihn.

UM GPT löschte außerdem wichtige Inhalte aus einem Artikel, darunter Zitate und einen Tabellenverweis, was Bedenken aufkommen ließ, dass Autoren, insbesondere diejenigen, die sich mit der englischen Sprache weniger auskennen, schädliche Änderungen unkritisch akzeptieren könnten.

Schlussfolgerungen

Die aktuelle Studie verdeutlichte eine grundlegende Schwierigkeit beim Einsatz von KI für die wissenschaftliche Bearbeitung, insbesondere im Hinblick auf die Qualität. Während UM GPT dreimal mehr Korrekturen generierte als ein menschlicher Redakteur, verbesserten nur 61 % den Text tatsächlich. Auch wenn diese Technologie schnell und kostengünstig ist, birgt sie das Risiko, dass wichtige Informationen gelöscht, fragwürdige Änderungen vorgenommen und möglicherweise Inhalte blockiert werden.

Das Versprechen einer durch KI verbesserten Gerechtigkeit im wissenschaftlichen Publizieren bleibt ungewiss. Neben Qualitätsbedenken betonte die Studie auch Fragen des Datenschutzes, der Umweltkosten großer Sprachmodelle und der Notwendigkeit von Fähigkeiten zur schnellen Entwicklung, also der Fähigkeit, KI-Anweisungen sorgfältig zu entwerfen, die selbst neue Ungleichheiten schaffen können.

Da sich diese Tools weiterentwickeln, benötigen Forscher umfangreichere Studien über verschiedene Manuskripttypen, um zu verstehen, wann die KI-Bearbeitung hilfreich ist und wann sie hinderlich ist. Vorerst sollten Autoren, die KI-Bearbeitungstools verwenden, mit Vorsicht vorgehen, denn das Ziel ist nicht eine schnelle Bearbeitung, sondern ein Zugang zu einer Bearbeitung, die die Forschungskommunikation wirklich verbessert und gleichzeitig die Stimme, Bedeutung und wissenschaftliche Unabhängigkeit des Autors bewahrt.

Laden Sie jetzt Ihr PDF-Exemplar herunter!


Quellen:

Journal reference:
  • August, E., Gray, R., Griffin, Z., Klein, M., Buser, J. M., Morris, K., Endale, T., Teklu, H., Pebolo, P. F., Anderson, E., Laubepin, F., & Smith, Y. R. (2026). Does ChatGPT enhance equity for global health publications? Copyediting by ChatGPT compared to Grammarly and a human editor. PLOS ONE, 21(2), e0342170. DOI: https://doi.org/10.1371/journal.pone.0342170. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0342170