Nutzung von KI zur Optimierung der Entwicklung neuer Proteinherstellungsprozesse

Industrielle Hefen sind ein Kraftwerk der Proteinproduktion und werden zur Herstellung von Impfstoffen, Biopharmazeutika und anderen nützlichen Verbindungen verwendet. In einer neuen Studie haben Chemieingenieure des MIT künstliche Intelligenz genutzt, um die Entwicklung neuer Proteinherstellungsprozesse zu optimieren, was die Gesamtkosten für die Entwicklung und Herstellung dieser Medikamente senken könnte.

Mithilfe eines großen Sprachmodells (LLM) analysierte das MIT-Team den genetischen Code der Industriehefe Komagataella phaffii – insbesondere die Codons, die es verwendet. Es gibt mehrere mögliche Codons oder aus drei Buchstaben bestehende DNA-Sequenzen, die zur Kodierung einer bestimmten Aminosäure verwendet werden können, und die Muster der Codon-Nutzung sind für jeden Organismus unterschiedlich.

Das neue MIT-Modell hat diese Muster gelernt K. phaffii und nutzte sie dann, um vorherzusagen, welche Codons für die Herstellung eines bestimmten Proteins am besten geeignet wären. Dies ermöglichte es den Forschern, die Effizienz der Hefeproduktion von sechs verschiedenen Proteinen zu steigern, darunter menschliches Wachstumshormon und ein monoklonaler Antikörper zur Behandlung von Krebs.

Es ist wirklich wichtig, über Vorhersagetools zu verfügen, die stets gut funktionieren, um die Zeit von der Idee bis zur Umsetzung in die Produktion zu verkürzen. Die Beseitigung der Unsicherheit spart letztlich Zeit und Geld.“

J. Christopher Love, Raymond A. und Helen E. St. Laurent Professor für Chemieingenieurwesen am MIT, Mitglied des Koch Institute for Integrative Cancer Research und Fakultätskodirektor der MIT Initiative for New Manufacturing (MIT INM)

Love ist der leitende Autor der neuen Studie, die diese Woche im erscheint Verfahren der Nationalen Akademie der Wissenschaften. Der ehemalige MIT-Postdoc Harini Narayanan ist der Hauptautor des Artikels.

Hier könnte Ihr Advertorial stehen

Ein Advertorial bietet Unternehmen die Möglichkeit, ihre Botschaft direkt im redaktionellen Umfeld zu platzieren

Codon-Optimierung

Hefe wie z K. phaffii Und Saccharomyces cerevisiae (Bäckerhefe) sind die Arbeitspferde der biopharmazeutischen Industrie und produzieren jedes Jahr proteinhaltige Arzneimittel und Impfstoffe im Wert von mehreren Milliarden Dollar.

Um Hefe für die industrielle Proteinproduktion zu manipulieren, nehmen Forscher ein Gen aus einem anderen Organismus, beispielsweise das Insulin-Gen, und modifizieren es so, dass der Mikroorganismus es in großen Mengen produziert. Dies erfordert die Entwicklung einer optimalen DNA-Sequenz für die Hefezellen, deren Integration in das Hefegenom, die Entwicklung günstiger Wachstumsbedingungen für die Hefezellen und schließlich die Reinigung des Endprodukts.

Bei neuen biologischen Arzneimitteln – großen, komplexen Arzneimitteln, die von lebenden Organismen hergestellt werden – könnte dieser Entwicklungsprozess 15 bis 20 Prozent der Gesamtkosten für die Kommerzialisierung des Arzneimittels ausmachen.

„Heute werden diese Schritte alle durch sehr mühsame experimentelle Aufgaben erledigt“, sagt Love. „Wir haben uns mit der Frage beschäftigt, wie wir einige der Konzepte, die beim maschinellen Lernen aufkommen, nutzen und anwenden können, um verschiedene Aspekte des Prozesses zuverlässiger und einfacher vorherzusagen.“

In dieser Studie wollten die Forscher versuchen, die Sequenz der DNA-Codons zu optimieren, aus denen das Gen für ein Protein von Interesse besteht. Es gibt 20 natürlich vorkommende Aminosäuren, aber 64 mögliche Codonsequenzen, sodass die meisten dieser Aminosäuren von mehr als einem Codon kodiert werden können. Jedes Codon entspricht einem einzigartigen Transfer-RNA-Molekül (tRNA), das die richtige Aminosäure zum Ribosom transportiert, wo Aminosäuren zu Proteinen aneinandergereiht werden.

Verschiedene Organismen nutzen jedes dieser Codons unterschiedlich schnell, und Designer von manipulierten Proteinen optimieren oft die Produktion ihrer Proteine, indem sie die Codons auswählen, die im Wirtsorganismus am häufigsten vorkommen. Dies führt jedoch nicht unbedingt zu den besten Ergebnissen. Wenn beispielsweise immer dasselbe Codon für die Codierung von Arginin verwendet wird, kann es sein, dass der Zelle die tRNA-Moleküle ausgehen, die diesem Codon entsprechen.

Um einen differenzierteren Ansatz zu verfolgen, setzte das MIT-Team eine Art großes Sprachmodell ein, das als Encoder-Decoder bekannt ist. Anstatt Text zu analysieren, analysierten die Forscher damit DNA-Sequenzen und lernten die Beziehungen zwischen Codons kennen, die in bestimmten Genen verwendet werden.

Ihre Trainingsdaten, die aus einem öffentlich zugänglichen Datensatz des National Center for Biotechnology Information stammten, bestanden aus den Aminosäuresequenzen und den entsprechenden DNA-Sequenzen für alle etwa 5.000 natürlich produzierten Proteine K. phaffii.

„Das Modell lernt die Syntax oder die Sprache, wie diese Codons verwendet werden“, sagt Love. „Es berücksichtigt, wie Codons nebeneinander platziert sind, und auch die Fernbeziehungen zwischen ihnen.“

Nachdem das Modell trainiert war, forderten die Forscher es auf, die Codonsequenzen von sechs verschiedenen Proteinen zu optimieren, darunter menschliches Wachstumshormon, menschliches Serumalbumin und Trastuzumab, ein monoklonaler Antikörper zur Behandlung von Krebs.

Sie generierten außerdem optimierte Sequenzen dieser Proteine mithilfe von vier kommerziell erhältlichen Codon-Optimierungstools. Die Forscher fügten jede dieser Sequenzen ein K. phaffii Zellen und maß, wie viel Zielprotein jede Sequenz erzeugte. Bei fünf der sechs Proteine funktionierten die Sequenzen aus dem neuen MIT-Modell am besten, beim sechsten am zweitbesten.

„Wir haben darauf geachtet, eine Vielzahl verschiedener Philosophien der Codon-Optimierung abzudecken und sie mit unserem Ansatz zu vergleichen“, sagt Narayanan. „Wir haben diese Ansätze experimentell verglichen und gezeigt, dass unser Ansatz die anderen übertrifft.“

Die Sprache der Proteine lernen

K. phaffii, früher bekannt als Pichia pastoris, wird zur Herstellung Dutzender kommerzieller Produkte verwendet, darunter Insulin, Hepatitis-B-Impfstoffe und ein monoklonaler Antikörper zur Behandlung chronischer Migräne. Es wird auch bei der Herstellung von Nährstoffen verwendet, die Lebensmitteln zugesetzt werden, beispielsweise Hämoglobin.

Forscher in Loves Labor haben damit begonnen, das neue Modell zur Optimierung interessanter Proteine zu nutzen K. phaffiiund sie haben den Code anderen Forschern zur Verfügung gestellt, die ihn verwenden möchten K. phaffii oder andere Organismen.

Die Forscher testeten diesen Ansatz auch an Datensätzen verschiedener Organismen, darunter Menschen und Kühe. Jedes der resultierenden Modelle generierte unterschiedliche Vorhersagen, was darauf hindeutet, dass artspezifische Modelle erforderlich sind, um die Codons der Zielproteine zu optimieren.

Bei der Untersuchung des Innenlebens des Modells stellten die Forscher fest, dass es anscheinend einige der biologischen Prinzipien der Funktionsweise des Genoms erlernt, darunter auch Dinge, die ihm die Forscher nicht beigebracht hatten. Beispielsweise wurde gelernt, keine negativen Wiederholungselemente einzubeziehen – DNA-Sequenzen, die die Expression benachbarter Gene hemmen können. Das Modell lernte auch, Aminosäuren anhand von Merkmalen wie Hydrophobie und Hydrophilie zu kategorisieren.

„Es ging nicht nur darum, diese Sprache zu lernen, sondern sie auch durch Aspekte biophysikalischer und biochemischer Merkmale zu kontextualisieren, was uns zusätzliche Gewissheit gibt, dass es sich um etwas wirklich Sinnvolles handelt und nicht nur um eine Optimierung der Aufgabe, die wir ihm gestellt haben“, sagt Love.

Die Forschung wurde vom Daniel IC Wang Faculty Research Innovation Fund am MIT, dem MIT AltHost Research Consortium, dem Mazumdar-Shaw International Oncology Fellowship und dem Koch Institute finanziert.

Quellen:

Massachusetts Institute of Technology Department of Biology

Journal references:

Narayanan, H., & Christopher Love, J. (2026) Pichia-CLM: A language model-based codon optimization pipeline for Komagataella phaffii. PNAS. DOI: 10.1073/pnas.2522052123. https://www.pnas.org/doi/10.1073/pnas.2522052123

Codon-Optimierung

Die Sprache der Proteine ​​lernen

Ähnliche Artikel

Die Sprache der Proteine lernen