
Escala evolutiva, PBC AI Guiados por un modelo de lenguaje generativo multimodal llamado ESM3, Thomas Hayes y sus equipo de investigadores de EvolutionaryScale (una entidad de Estados Unidos especializada en inteligencia artificial) generaron y sintetizaron una proteína fluorescente brillante previamente desconocida, con una secuencia genética tan diferente de las proteínas fluorescentes conocidas que los investigadores dicen que su creación es equivalente a que ESM3 simule 500 millones de años de evolución biológica.
Tal y como se publica en 'Science', el modelo podría proporcionar una nueva forma de "buscar" el espacio de posibilidades proteínicas con miras a comprender mejor cómo funcionan las proteínas evolucionadas naturalmente, así como desarrollar nuevas proteínas para usos en medicina, remediación ambiental y una serie de otras aplicaciones.
ESM3 puede razonar sobre la secuencia, la estructura y la función de las proteínas, al representar cada una de ellas a través de alfabetos de tokens discretos que se pueden combinar en un modelo de lenguaje generativo. Esta estrategia difiere de los usos anteriores de los modelos de lenguaje que solo se escalaban para secuencias de proteínas.
Los datos de entrenamiento para ESM3 consisten en 771 mil millones de tokens únicos creados a partir de 3.15 mil millones de secuencias de proteínas, 236 millones de estructuras de proteínas y 539 millones de proteínas con anotaciones de función. ESM3 puede entrenar hasta 98 ??mil millones de parámetros.
ESM3 ya está disponible en versión beta pública a través de una API, lo que permite a los científicos diseñar proteínas mediante programación o a través de aplicaciones interactivas basadas en navegador. Los investigadores pueden utilizar la API EvolutionaryScale Forge a través del nivel de acceso académico gratuito o utilizar el código y los pesos del modelo abierto.