La próxima ola de IA
Ben Gyori, investigador del HMS, sobre el futuro de la colaboración hombre-máquina en la investigación científica
Por KEVIN JIANG 22 de octubre de 2020 Investigación
Solo en 2019, se agregaron más de 1.3 millones de nuevas citas a los 30 millones de resúmenes y artículos existentes catalogados por PubMed, la base de datos del NIH de revistas y literatura biomédica y de ciencias de la vida.
Cada nueva entrada, en su mayor parte, contribuye a la suma total del conocimiento producido y validado por la comunidad mundial de ciencias de la vida.
Cada entrada, sin embargo, también sirve como un recordatorio de cuánto queda por comprender sobre la asombrosamente compleja ciencia de la biología, desde las intrincadas redes de biomoléculas y máquinas moleculares que subyacen a todos los procesos de la vida hasta cómo sus innumerables interacciones dan forma a los comportamientos de todo
Desde células y tejidos hasta organismos y ecosistemas
La ingeniería inversa de estos procesos brinda a los científicos la mejor oportunidad de comprender la salud humana e intervenir en las enfermedades, pero el cerebro humano simplemente no puede mantenerse al día con este abrumador volumen de información.
En esta era de big data, no es de extrañar que el aprendizaje automático y otros métodos de inteligencia artificial (IA), con una capacidad más allá de la humana para identificar los patrones y conexiones más sutiles en los datos a escala, se hayan convertido en herramientas esenciales en la búsqueda de desenreda el nudo gordiano que es la biología.
Pero, ¿qué pasa con la próxima era? Para un grupo de investigadores del Laboratorio de Farmacología de Sistemas (LSP) de la Facultad de Medicina de Harvard , un esfuerzo multidisciplinario e interinstitucional para reinventar la ciencia que subyace al desarrollo de nuevos medicamentos, la utilidad futura de la IA puede no ser solo una herramienta.
En cambio, están trabajando para permitir una colaboración significativa entre humanos y máquinas, utilizando un sistema de inteligencia artificial que lee esencialmente todo en PubMed y automatiza el descubrimiento científico.
la próxima ola de iaDesarrollado por un equipo dirigido por Benjamin Gyori y John Bachman , ambos investigadores asociados en ciencia terapéutica en el LSP, y Peter Sorger , el profesor Otto Krayer de farmacología de sistemas en el HMS y director del LSP, el sistema extrae enormes volúmenes de información científica. literatura. Luego extrae información sobre los mecanismos causales, crea modelos y genera predicciones sobre interacciones biológicas que los científicos humanos pueden probar.
A principios de este otoño, Gyori recibió un premio para jóvenes docentes de la Agencia de Proyectos de Investigación Avanzada de Defensa de los Estados Unidos (DARPA) para avanzar en sus ambiciosos esfuerzos. Avanzando hacia lo que la agencia denomina la tercera ola de IA, Gyori y sus colegas apuntan a que su método de IA pronto sea capaz de aprender y crear explicaciones basadas en el razonamiento contextual, similar a cómo funcionan los cerebros humanos.
Harvard Medicine News habló con Gyori sobre su visión del futuro de la IA en la investigación científica.
Preguntas y respuestas con Benjamin Gyori
HM News: ¿Podría describir en qué trabajan usted y sus colegas?
Gyori: Hoy en día, todo el mundo se enfrenta a una avalancha de información. Es imposible procesarlo todo, pero todavía tenemos que tomar decisiones racionales de alguna manera.
Lo mismo ocurre con los científicos. Cada día aparecen unas 4.000 nuevas publicaciones en PubMed, y tenemos que averiguar qué hacer a continuación. Las máquinas y la inteligencia artificial en general pueden ayudarnos a dar sentido a esta avalancha de datos.
la próxima ola de ia
El objetivo principal de mi proyecto es construir una máquina que monitoree la literatura científica y extraiga nuevos hallazgos que podrían cambiar significativamente nuestra forma de pensar sobre una pregunta de investigación específica. Podemos usar este conocimiento para proponer nuevas ideas, hipótesis y experimentos.
También estoy específicamente interesado en la colaboración hombre-máquina: sistemas e interfaces que permiten que un humano y una máquina tengan una conversación sobre un problema de investigación.
HM News: ¿Cuál sería el impacto de este tipo de IA en la investigación científica?
Gyori: Creemos que sería una especie de asistente de investigación definitivo.
Nos ayudaría a comprender problemas específicos en biología y a hacer nuevas preguntas de una manera que esté informada y basada en la extensa y, a veces, intratable literatura científica subyacente.
Podemos imaginar, por ejemplo, un diálogo rápido entre humanos y máquinas con un modelo de inteligencia artificial integrado con datos científicos y de pacientes completos sobre COVID-19 para generar una hipótesis para un fármaco candidato que podríamos probar en el laboratorio.
Un socio de la máquina podría proporcionar ideas clave para ayudar a los científicos a interpretar los resultados y diseñar su próximo experimento de manera racional. En algunos escenarios, podría ayudar a la toma de decisiones clínicas al revelar cómo una vía complicada de señalización celular interactúa y se conecta a los datos del paciente.
Creo que incluso podría ayudar a resolver algunos de los problemas importantes de reproducibilidad y controversia en la ciencia al monitorear y medir el efecto de los nuevos descubrimientos en nuestro cuerpo colectivo de conocimiento.
HM News: Esto suena súper futurista. ¿Se puede realmente lograr algo como esto?
Gyori: De hecho, ya hemos construido la maquinaria subyacente, llamada INDRA (Ensamblador de razonamiento dinámico y red integrada) . Es una canalización que toma texto de artículos científicos y resúmenes y crea representaciones de modelos computacionales.
Usamos sistemas de procesamiento del lenguaje natural, construidos por colaboradores que se especializan en minería de textos, para leer oraciones y extraer mecanismos causales, por ejemplo, qué moléculas activan qué otras moléculas en una vía de señalización determinada.
Pero los hallazgos científicos provienen de muchas fuentes diferentes, por lo que esto crea una gran bolsa de hechos desconectados que a menudo pueden ser contradictorios o superpuestos y tener información faltante o errores aleatorios.
El sistema INDRA toma estos fragmentos de información y los alinea de una manera racional para identificar distintas piezas de evidencia que apuntan al mismo mecanismo subyacente. También es capaz de reconocer generalizaciones de los mismos hechos.
Después de muchos procesos de corrección de errores, produce una base de conocimiento de los mecanismos causales que resuelve la mayoría de los problemas de superposición, redundancia y contradicción.
También califica las distintas piezas de información que extrae y estima si algo es un error de lectura o un hallazgo de alta confianza que probablemente sea correcto.
Por último, convierte este conocimiento en algo que un ser humano puede utilizar, como modelos de redes de interacciones bioquímicas que le permiten encontrar caminos mecánicos entre un fármaco y una lectura, por ejemplo.
HM News: ¿Qué está leyendo exactamente este sistema?
Gyori: Creamos una infraestructura para recopilar toda la literatura científica que se publica todos los días, ejecutar los sistemas de lectura y almacenar las extracciones a escala: decenas de millones de publicaciones en total, con miles de artículos nuevos que aparecen en PubMed todos los días. Hemos obtenido alrededor de 10 millones de mecanismos únicos de estas fuentes.
Estamos enfocados en publicaciones científicas en este momento. Esto incluye resúmenes de PubMed y textos completos cuando estén disponibles, contenido con licencia y preimpresiones en la medida de lo posible. En principio, este marco sería fácil de extender a otras cosas como Wikipedia, pero aún no lo hemos implementado.
HM News: ¿Será importante leer otros tipos de literatura?
Gyori: Sí, esta es una de las nuevas ideas clave en mi reciente premio DARPA. Creo que para que una máquina realmente pueda utilizar modelos para razonar sobre biología y ciencia, debe ser capaz de comprender el contexto científico en el que operan los modelos.
la próxima ola de ia
La mayoría de los modelos de sistemas biológicos u otros sistemas complejos se centran mucho en los mecanismos causales que vinculan las cosas entre sí, principalmente las interacciones entre un conjunto de proteínas o moléculas específicas.
Pero no necesariamente conectamos estos modelos con el conocimiento científico más amplio que los rodea, por ejemplo, la tasa de mutación de un gen en una enfermedad o datos de ensayos clínicos que intentan una combinación de medicamentos que se dirigen a una de las proteínas.
Hay un mundo de información científica que no es causal sino que rodea a un modelo
HM News: ¿Qué significa para una máquina comprender el contexto científico?
Gyori: Esta es una de las brechas clave entre un científico humano y una máquina.
La máquina puede simular felizmente un sistema de ecuaciones diferenciales que representan la evolución de 1,000 especies bioquímicas, pero tiene una brecha en la comprensión del contexto científico real de lo que representan estas especies. Este contexto no proviene necesariamente de la literatura científica directamente, sino de una amplia gama de bases de datos y conjuntos de datos.
Hay muchos ejemplos, como el Atlas del genoma del cáncer, que es una enorme colección de datos sobre docenas de diferentes tipos de cáncer que es esencialmente un atlas completo de perfiles genómicos de cáncer.
Hay DrugBank para obtener datos detallados sobre miles de fármacos y objetivos de fármacos experimentales y aprobados diferentes. Otro buen ejemplo es ChEMBL, que tiene datos de bioactividad de más de un millón de compuestos.
Si un sistema de IA puede conectar este tipo de datos con información causal que extrae de la literatura, puede integrar sus modelos en un contexto científico mucho más amplio.
HM News: Esto todavía parece una cantidad increíble de información para que la maneje un humano. ¿Cómo funcionaría la colaboración hombre-máquina?
Gyori: Para interactuar con tanto conocimiento, no puedes simplemente abrirlo y explorarlo. Pero ya existen muchas aplicaciones y sitios web que le permiten interactuar con grandes recursos biomédicos. Vas a un sitio web, ingresas algunos parámetros en un formulario de búsqueda y obtienes algunos resultados. Así es como los científicos acceden actualmente a la información, ya sea en PubMed, cBioPortal for Cancer Genomics o cualquier otra cosa.
Lo que le falta a esto es la capacidad de hacer un seguimiento, de tomar una respuesta y seguirla con los siguientes pasos. Aquí es realmente donde el diálogo hombre-máquina puede ayudar.
Básicamente, estamos desarrollando sistemas sobre INDRA para que los usuarios puedan hacer una pregunta a la máquina, obtener un resultado y hacer preguntas de seguimiento en relación con resultados anteriores. De esta manera, puede interrogar secuencialmente el conocimiento y los modelos subyacentes de la máquina.
Creo que esta interacción hombre-máquina de ida y vuelta es una forma mucho más productiva y eficaz de explorar esa información.
Ben Gyori demuestra cómo funcionaría un diálogo hombre-máquina basado en el sistema INDRA.