Die Leistung des DNA-Sprachmodells hängt von der Datenauswahl vor dem Training ab
Forscher am MD Anderson Cancer Center der University of Texas haben eine umfassende Bewertung von fünf Modellen der künstlichen Intelligenz (KI) durchgeführt, die auf Genomsequenzen trainiert wurden und als DNA-Foundation-Language-Modelle bekannt sind. Diese Vergleiche liefern wertvolle Einblicke in ihre Stärken und Schwächen und bieten einen Rahmen für die Auswahl geeigneter Modelle auf der Grundlage spezifischer …
Die Leistung des DNA-Sprachmodells hängt von der Datenauswahl vor dem Training ab
Forscher am MD Anderson Cancer Center der University of Texas haben eine umfassende Bewertung von fünf Modellen der künstlichen Intelligenz (KI) durchgeführt, die auf Genomsequenzen trainiert wurden und als DNA-Foundation-Language-Modelle bekannt sind. Diese Vergleiche liefern wertvolle Einblicke in ihre Stärken und Schwächen und bieten einen Rahmen für die Auswahl geeigneter Modelle auf der Grundlage spezifischer genomischer Aufgaben.
Die Studie, veröffentlicht in Naturkommunikationwurde von Chong Wu, Ph.D., Assistenzprofessor für Biostatistik und Mitglied des Institute for Data Science in Oncology, geleitet; und Peng Wei, Ph.D., Professor für Biostatistik.
„Unsere Benchmarking-Studie zeigt, dass Entscheidungen wie Pre-Training-Daten, Sequenzlänge und die Art und Weise, wie wir Modelleinbettungen zusammenfassen, die Leistung ebenso stark verändern können wie die Änderung des DNA-Sprachmodells selbst. Diese Art von strengem Benchmarking ist entscheidend, um sicherzustellen, dass DNA-Sprachmodelle auf transparente und reproduzierbare Weise verwendet werden, während sie der Unterstützung der klinischen Entscheidungsfindung näher kommen“, sagte Wu.
Was sind DNA-Sprachmodelle und wofür werden sie verwendet?
DNA-Sprachmodelle sind KI-Tools, die speziell auf große Mengen genomischer Daten trainiert werden, um Muster in DNA-Sequenzen zu identifizieren und vorherzusagen. Die Forscher konzentrierten sich insbesondere auf die Fähigkeit der Modelle, Vorhersagen für Abfragen zu treffen, auf die sie nicht speziell geschult waren, was Einblicke in ihre Problemlösungsfähigkeiten liefern kann.
Im Idealfall können diese Modelle Genfunktionen und -interaktionen sowie die Proteinfaltung vorhersagen, um Vorhersagen für personalisierte Tests und Behandlungen anzuwenden.
Was haben die Forscher in dieser Studie ausgewertet?
Die Forscher verglichen, wie gut fünf verschiedene DNA-Foundation-Sprachmodelle in 57 verschiedenen Datensätzen funktionieren könnten. Sie haben die Fähigkeit dieser Modelle gemessen, wichtige genomische Komponenten zu identifizieren, vorherzusagen, wie stark ein Gen exprimiert wird, und festzustellen, ob Gene schädliche Mutationen enthalten, die zu Krankheiten führen könnten.
Die Forscher untersuchten auch, wie sich verschiedene Variablen vor dem Training, beispielsweise die Verwendung von Daten mehrerer Arten oder nur von Menschen, auf die Ergebnisse auswirken können.
Was haben die Forscher aus ihrer Auswertung gelernt?
Jedes Modell hatte je nach Aufgabenstellung Stärken und Schwächen. Einige Modelle waren beispielsweise effizienter bei der Identifizierung genomischer Komponenten, waren jedoch im Vergleich zu anderen, spezialisierteren Modellen weniger effektiv bei der Vorhersage der Genexpression.
Die Studie hebt hervor, dass diese Modelle lange DNA-Abschnitte lesen können und in der Lage sind, potenziell schädliche Mutationen zu identifizieren, auch wenn sie nicht direkt dafür geschult wurden. Die Forscher stellten fest, dass die Modelle auch bei Daten zu mehreren Arten gut abschnitten, obwohl sie je nachdem, welche Arten sie während des Trainings am häufigsten sahen, besser abschnitten.
Wie lassen sich diese Ergebnisse auf die Präzisionsmedizin übertragen?
Die Studie bietet eine umfassende Bewertung der fünf DNA-Grundlagenmodelle, bietet wertvolle Einblicke in ihre Stärken und zeigt potenzielle Verbesserungsbereiche auf. Diese Erkenntnisse können Forschern und Klinikern bei der Auswahl geeigneter Modelle für Aufgaben helfen, die genetische Tests und Behandlungen personalisieren können.
Quellen:
Wu, J., & Lin, L. (2025). Benchmarking DNA foundation models for genomic and genetic tasks. Nature Communications. DOI:10.1038/s41467-025-65823-8. https://www.nature.com/articles/s41467-025-65823-8.