Technologie

Die MIT -Technik zeigt, wie KI -Modelle Proteinfunktionen vorhersagen

In den letzten Jahren wurden Modelle, die die Struktur oder Funktion von Proteinen vorhersagen können, für eine Vielzahl biologischer Anwendungen häufig verwendet, z.

Diese Modelle, die auf großen Sprachmodellen (LLMs) basieren, können sehr genaue Vorhersagen für die Eignung eines Proteins für eine bestimmte Anwendung machen. Es gibt jedoch keine Möglichkeit zu bestimmen, wie diese Modelle ihre Vorhersagen treffen oder welche Proteinmerkmale bei diesen Entscheidungen die wichtigste Rolle spielen.

In einer neuen Studie haben MIT -Forscher eine neuartige Technik verwendet, um diese „Black Box“ zu öffnen und ihnen zu bestimmen, welche Funktionen ein Proteinsprachenmodell bei Vorhersagen berücksichtigt. Wenn Sie verstehen, was in diesem Black Box passiert, können Forscher bessere Modelle für eine bestimmte Aufgabe auswählen, um den Prozess der Identifizierung neuer Arzneimittel oder Impfstoffziele zu optimieren.

Unsere Arbeiten haben breite Auswirkungen auf eine verbesserte Erklärung bei nachgeschalteten Aufgaben, die auf diesen Darstellungen beruhen. Darüber hinaus kann die Identifizierung von Merkmalen, die Proteinsprachmodelle verfolgen, neuartige biologische Erkenntnisse aus diesen Darstellungen aufdecken. „

Bonnie Berger, Senior Autorin und Simons -Professorin für Mathematik, Massachusetts Institute of Technology

Berger ist auch Leiter der Rechen- und Biologiegruppe im Labor für Informatik und künstliche Intelligenz des MIT.

Onkar Gujral, ein MIT -Doktorand, ist der Hauptautor der Studie, die diese Woche in der erscheint Verfahren der Nationalen Akademie der Wissenschaften. Mihir Bafna, ein MIT -Doktorand, und Eric Alm, ein MIT -Professor für biologische Ingenieurwesen, sind auch Autoren des Papiers.

Öffnen Sie die Black Box

Im Jahr 2018 führten Berger und ehemalige MIT -Doktorandin Tristan Bepler PhD ’20 das erste Proteinsprachmodell vor. Ihr Modell basierte wie nachfolgende Proteinmodelle, die die Entwicklung von Alphafold wie ESM2 und Omegafold beschleunigten, auf LLMs. Diese Modelle, die ChatGPT enthalten, können große Mengen an Text analysieren und herausfinden, welche Wörter am wahrscheinlichsten zusammen erscheinen.

Proteinsprachmodelle verwenden einen ähnlichen Ansatz, aber anstatt Wörter zu analysieren, analysieren sie Aminosäuresequenzen. Forscher haben diese Modelle verwendet, um die Struktur und Funktion von Proteinen vorherzusagen, und für Anwendungen wie die Identifizierung von Proteinen, die an bestimmte Arzneimittel binden könnten.

In einer 2021 -Studie verwendeten Berger und Kollegen ein Proteinsprachenmodell, um vorherzusagen, welche Abschnitte von viralen Oberflächenproteinen weniger wahrscheinlich auf eine Weise mutieren, die eine virale Flucht ermöglicht. Dies ermöglichte es ihnen, mögliche Ziele für Impfstoffe gegen Influenza, HIV und SARS-CoV-2 zu identifizieren.

In all diesen Studien war es jedoch unmöglich zu wissen, wie die Modelle ihre Vorhersagen machten.

„Wir würden am Ende eine Vorhersage herausholen, aber wir hatten absolut keine Ahnung, was in den einzelnen Komponenten dieser Black Box geschah“, erklärte Berger.

In der neuen Studie wollten die Forscher darüber nachlassen, wie Proteinsprachmodelle ihre Vorhersagen machen. Genau wie LLMs codieren Proteinsprachmodelle Informationen als Darstellungen, die aus einem Aktivierungsmuster verschiedener „Knoten“ innerhalb eines neuronalen Netzwerks bestehen. Diese Knoten sind analog zu den Netzwerken von Neuronen, die Erinnerungen und andere Informationen im Gehirn speichern.

Die inneren Funktionen von LLMs sind nicht leicht zu interpretieren, aber in den letzten Jahren haben die Forscher begonnen, eine Art Algorithmus zu verwenden, das als spärlicher Autoencoder bekannt ist, um etwas Licht darauf zu bringen, wie diese Modelle ihre Vorhersagen treffen. Die neue Studie aus Bergers Labor ist die erste, die diesen Algorithmus für Proteinsprachenmodelle verwendet.

Spärliche Autoencoder arbeiten, indem sie anpassen, wie ein Protein in einem neuronalen Netzwerk dargestellt wird. Typischerweise wird ein bestimmtes Protein durch ein Aktivierungsmuster einer eingeschränkten Anzahl von Neuronen dargestellt, beispielsweise 480. Ein spärlicher Autoencoder erweitert diese Darstellung in eine viel größere Anzahl von Knoten, z. B. 20.000.

Wenn Informationen über ein Protein von nur 480 Neuronen codiert werden, leuchtet jeder Knoten für mehrere Merkmale auf, sodass es sehr schwierig ist, zu wissen, welche Merkmale jeder Knoten codiert. Wenn das neuronale Netzwerk jedoch auf 20.000 Knoten erweitert wird, gibt dieser zusätzliche Raum zusammen mit einer Sparsity -Einschränkung dem Informationsraum „Ausbreitung“. Ein Merkmal des Proteins, das zuvor von mehreren Knoten codiert wurde, kann einen einzelnen Knoten einnehmen.

„In einer spärlichen Darstellung tun die Neuronen dies auf sinnvollere Weise“, sagt Gujral. „Bevor die spärlichen Darstellungen erstellt werden, packen die Netzwerke Informationen so eng zusammen, dass es schwierig ist, die Neuronen zu interpretieren.“

Interpretierbare Modelle

Sobald die Forscher spärliche Darstellungen vieler Proteine ​​erhielten, verwendeten sie einen AI -Assistenten namens Claude (im Zusammenhang mit dem gleichnamigen populären anthropischen Chatbot), um die Darstellungen zu analysieren. In diesem Fall baten sie Claude, die spärlichen Darstellungen mit den bekannten Merkmalen jedes Proteins wie molekulare Funktion, Proteinfamilie oder Ort innerhalb einer Zelle zu vergleichen.

Durch die Analyse von Tausenden von Darstellungen kann Claude bestimmen, welche Knoten bestimmten Proteinmerkmalen entsprechen, und beschreiben sie dann in einfachem Englisch. Zum Beispiel könnte der Algorithmus sagen: „Dieses Neuron scheint Proteine ​​nachzuweisen, die am Transmembrantransport von Ionen oder Aminosäuren beteiligt sind, insbesondere solche, die sich in der Plasmamembran befinden.“

Dieser Prozess macht die Knoten weitaus „interpretierbar“, was bedeutet, dass die Forscher erkennen können, was jeder Knoten codiert. Sie fanden heraus, dass die Merkmale, die am wahrscheinlichsten von diesen Knoten kodiert werden, Proteinfamilie und bestimmte Funktionen waren, einschließlich mehrerer verschiedener Stoffwechsel- und Biosyntheseprozesse.

„Wenn Sie einen spärlichen Autoencoder trainieren, trainieren Sie nicht, um interpretierbar zu sein, aber es stellt sich heraus, dass durch Anreiz der Darstellung als sehr spärlicher Anreize zu Interpretierbarkeit führt“, sagt Gujral.

Das Verständnis, welche Funktionen ein bestimmtes Proteinmodell codieren, kann den Forschern helfen, das richtige Modell für eine bestimmte Aufgabe zu wählen, oder die Art der Eingabe, die sie dem Modell angeben, zu optimieren, um die besten Ergebnisse zu erzielen. Darüber hinaus könnte die Analyse der Merkmale, die ein Modell kodiert, einem Tag Biologen helfen, mehr über die Proteine ​​zu erfahren, die es studiert.

„Irgendwann, wenn die Modelle viel leistungsfähiger werden, können Sie mehr Biologie lernen, als Sie bereits wissen, wenn Sie die Modelle öffnen“, sagt Gujral.


Quellen:

Journal reference:

Gujral, O., et al. (2025). Sparse autoencoders uncover biologically interpretable features in protein language model representations. Proceedings of the National Academy of Sciencesdoi.org/10.1073/pnas.2506316122

Daniel Wom

Daniel Wom ist ein renommierter Webentwickler und SEO-Experte, der in der digitalen Welt eine beeindruckende Karriere aufgebaut hat. Als Betreiber mehrerer Blogs und Online-Magazine erreicht er jeden Monat mehr als 1 Million begeisterte Leser. Sein unermüdlicher Einsatz für Qualität im Web und seine Fähigkeit, die neuesten Trends und Entwicklungen im Webdesign und in der digitalen Kommunikation vorherzusehen und sich daran anzupassen, haben ihn zu einer angesehenen Persönlichkeit in der Branche gemacht. In unserem Portal ist er der führende Kopf hinter dem Import und der Analyse der neuesten Studien.

Ähnliche Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert