Mientras avanzaba en sus estudios, tomó una clase del lenguaje informático Python y aprendió por sí misma algo de codificación. Pero cuando consiguió una pasantía en el Laboratorio Lincoln del MIT, sus supervisores le pidieron que asumiera una tarea que no había previsto. Le pidieron que identificara tipos de estrellas entrenando una red neuronal, un tipo de aprendizaje automático que enseña a las computadoras a procesar datos como el cerebro procesa información.
Mastandrea tuvo que aprender sobre la marcha. Buscó tutoriales en línea y pasó horas investigando problemas con su código. El trabajo fue frustrante y difícil.
Al final del proyecto, se sintió aliviada de volver a aprender sobre el universo a través de libros de texto y ecuaciones. Pensó que nunca más querría utilizar el aprendizaje automático.
“Eso estuvo muy mal”, dice Mastandrea. “Ahora uso el aprendizaje automático todos los días”.
Como estudiante de doctorado en la Universidad de California, Berkeley, Mastandrea ahora está escribiendo algoritmos que pueden buscar firmas de nueva física desconocida en datos del Gran Colisionador de Hadrones. Ella dice que sin el aprendizaje automático, este tipo de búsqueda, llamada detección de anomalías, sería casi imposible.
A medida que Mastandrea pasó de ser un escéptico del aprendizaje automático a un usuario habitual, también lo hizo gran parte del resto de la física. Eso significó un flujo constante de nuevos e interesantes desafíos. “Es mucho más fácil entusiasmarse cuando todos están trabajando en ello”, dice.
El cambio se produjo en los últimos cinco a diez años, dice Kazuhiro Terao, científico del Laboratorio Nacional del Acelerador SLAC del Departamento de Energía de Estados Unidos. El mayor uso del aprendizaje automático (un subconjunto de la inteligencia artificial) está cambiando lo que los estudiantes actuales necesitan aprender, qué tipo de oportunidades tendrán cuando se gradúen y cómo, a su vez, necesitarán educar a los físicos del futuro.
“El nivel de madurez aún está en sus inicios”, afirma Terao. “Tenemos que elevar los estándares del aprendizaje automático y las estadísticas mucho más alto que donde estamos ahora”.
La necesidad de la ciencia de datos
Hasta cierto punto, los estudiantes de física siempre han necesitado ser en parte científicos de datos. A diferencia de los científicos de muchos otros campos, los físicos de partículas y los astrofísicos a menudo pueden ver lo que estudian sólo como puntos de datos en un gráfico o en la pantalla de una computadora. A medida que las tareas involucradas en el análisis de esos datos continúan volviéndose más complejas, también lo hacen las herramientas que los científicos necesitan utilizar. Una de esas herramientas es el aprendizaje automático.
A diferencia de los algoritmos tradicionales, los algoritmos de aprendizaje automático pueden mejorar con el tiempo a medida que diseñan sus propias reglas basadas en los datos que reciben. Esta mejora podría acelerar los procesos de análisis que actualmente toman varios años, ampliando las posibilidades de lo que los estudiantes de física pueden lograr durante su tiempo limitado en la escuela, dice Terao.
Cuando el experimento de neutrinos MicroBooNE comenzó a funcionar en 2015, por ejemplo, los científicos inicialmente esperaban obtener sus primeros resultados de inmediato, dice Terao. Pero aunque el experimento recopiló con éxito los datos que los científicos necesitaban, analizarlos fue tan difícil que la colaboración no publicó ningún resultado hasta 2021.
Para Terao, que ya era un físico consagrado, el retraso significó dedicar más tiempo a trabajar en técnicas de análisis. Pero para los estudiantes de posgrado cuyos pocos años de investigación coincidieron con ese tiempo de inactividad, el retraso significó perder la oportunidad de contribuir a nuevos hallazgos.
Esos largos plazos “limitan seriamente la forma en que pensamos” sobre la estructura de la educación física, dice Terao. Podría ser útil realizar análisis más rápidos, impulsados por el aprendizaje automático. “Quiero acelerar lo que podemos hacer para que los estudiantes puedan experimentar más cosas”.
De la física a la industria
Incluso cuando el progreso es lento, adquirir experiencia en aprendizaje automático puede abrir nuevas oportunidades para los estudiantes fuera de las ciencias.
Kylie YingComo estudiante universitaria, Kylie Ying se especializó en informática y física. Después de graduarse, aceptó un trabajo de desarrollo web que le permitió centrarse en su pasión: el patinaje artístico. Pero una vez que llegó la pandemia, decidió volver a la física completando una maestría de un año.
Se unió a un laboratorio que colisionaba iones pesados para recrear el ambiente increíblemente caliente y denso que existió inmediatamente después del Big Bang, conocido como plasma de quarks y gluones. Para aprender más sobre las características del QGP, los científicos rastrean los chorros de partículas a medida que se mueven a través de él. A pesar de tener poca experiencia en aprendizaje automático, Ying se lanzó a un proyecto que desarrollaba un algoritmo para descifrar qué tipos de partículas iniciaban los chorros.
Amaba la ciencia, pero estaba frustrada por lo lejos que parecía su trabajo de un resultado significativo. “La física es realmente genial y realmente inspiradora”, dice. “Pero para mí, sentí que el impacto de mi trabajo realmente duro fue mínimo”.
Ella todavía encontró una manera de utilizar la experiencia. Llevó las habilidades de computación que había aprendido a Wing, una empresa de entrega de drones autónomos propiedad de la empresa matriz de Google, Alphabet, donde ahora trabaja en la visión por computadora de los drones.
El físico Lucas Borgna también encontró la manera de aplicar su experiencia en investigación fuera del laboratorio.
Como estudiante de ingeniería física, pasó un año en el experimento ATLAS en el LHC a través de un programa de experiencia laboral. Más tarde, como estudiante de posgrado en el University College de Londres, ayudó a desarrollar redes neuronales que podían distinguir los bosones de los chorros de quarks en los datos de ATLAS.
Después de cambiar al experimento CMS para su posdoctorado, Borgna realizó una pasantía de seis semanas en una startup llamada Faculty, que une a estudiantes de ciencias e ingeniería con empresas que necesitan experiencia en inteligencia artificial. Borgna se puso en contacto con una empresa inmobiliaria de Londres.
Utilizando el procesamiento del lenguaje natural, Borgna ayudó a la empresa a analizar datos sobre el uso de sus edificios para mejorar el nivel de vida de los inquilinos. La experiencia le abrió los ojos a las posibilidades del aprendizaje automático más allá de la física.
“Me encanta la física y la encuentro divertida, y creo que todas las cosas que están por venir son realmente interesantes”, dice Borgna. “Pero al mismo tiempo, hay muchas otras industrias que utilizan técnicas y herramientas muy similares que también son desafiantes y tienen muchos resultados interesantes”.
Repensar la formación en física
Al igual que Ying y Borgna, Andrew Hard se encontró por primera vez con el aprendizaje automático en el trabajo. Como estudiante de posgrado, Hard trabajó con un equipo que estaba creando herramientas para buscar signos del bosón de Higgs en datos de ATLAS mediante la identificación de una desintegración específica de la partícula en dos fotones.
A partir de 2011, el equipo desarrolló redes neuronales para la identificación de fotones y la clasificación de eventos. De repente, el análisis de Hard se volvió mucho más sensible a las desintegraciones de Higgs. “Era simplemente un algoritmo increíblemente poderoso”, dice Hard. “Eso es lo que me dio la idea de que había algo en toda esta charla sobre redes neuronales”.
Como la mayoría de los estudiantes de física en ese momento, Hard no tenía educación formal en aprendizaje automático, ni siquiera en codificación; había aprendido por sí mismo los lenguajes informáticos Python y C++. “Fue emocionante pero realmente desafiante”, dice Hard. “Probablemente fue la mayor brecha en mi educación física”.
Como parte de su doctorado, Borgna finalmente tomó cursos de aprendizaje automático y ciencia de datos, lo que le resultó beneficioso. Tener requisitos formales para el curso “es realmente útil, dada la prevalencia de estos algoritmos y la frecuencia con la que se utilizan”, afirma Borgna.
Para garantizar que los estudiantes obtengan la capacitación que necesitan, Terao en SLAC aboga por que todos los programas de física adopten enfoques más estructurados para la educación mediante aprendizaje automático.
Los estudiantes sólo pueden llegar a aprender hasta cierto punto mediante la experimentación y la práctica. Para utilizar realmente el aprendizaje automático con éxito, afirma Terao, también es necesario desarrollar una sólida comprensión de las estadísticas y las matemáticas detrás de los algoritmos. “Nosotros, como campo, tenemos que ofrecer estos cursos”, afirma. “Se están convirtiendo en requisitos esenciales para la investigación de doctorado”.
En el verano de 2023, Terao coorganizó el Instituto de Escuela de Verano SLAC anual, que ese año se centró en el tema “Inteligencia artificial en física fundamental”. A diferencia de años organizados en torno a diferentes temas, dice Terao, muchos de los oradores estaban al principio de sus carreras, en gran parte porque los últimos avances en el aprendizaje automático son muy novedosos, incluso para los científicos de alto nivel.
El taller fue un buen comienzo para brindar a los estudiantes oportunidades organizadas para aprender sobre física y aprendizaje automático, dice Terao. Pero el campo necesita hacer más.
“Lo importante para nosotros es brindarles más oportunidades para que lo intenten”, dice Terao. “Necesitamos brindar acceso a muchos desafíos de investigación, compartir muchos conjuntos de datos y preparar el escenario para nuevas personas”.
Otras organizaciones importantes de física también están empezando a ofrecer formación. En 2022, el Grupo de Ciencia de Datos de la Sociedad Estadounidense de Física comenzó a contratar estudiantes de doctorado en física para escribir tutoriales introductorios de aprendizaje automático basados en Google Golab, una plataforma de software de código abierto que se puede compartir. Los científicos están creando recursos similares en el CERN, afirma Mastandrea.
“La gente realmente quiere que los estudiantes se ensucien las manos con estas herramientas”, dice Mastandrea. “Cuanto antes empieces a utilizarlos, más fluidez los utilizarás”.
Una variedad de oportunidades
Cuando era estudiante de doctorado y trabajaba en un análisis de física para ATLAS, Sean Gasiorowski utilizó el aprendizaje automático para caracterizar mejor el desorden de fondo en la búsqueda de pares de bosones de Higgs, preparando el terreno para mejores análisis tradicionales de señales.
No tenía la intención de centrarse en el aprendizaje automático. Pero cuanto más lo usaba, más lo atraía. “Es bastante satisfactorio cuando todo se completa y puedes comenzar a ver los resultados que deseas”, dice.
Las habilidades de aprendizaje automático pueden ayudar a un estudiante a conseguir un puesto en un laboratorio de física, especialmente ahora que las agencias de financiación ofrecen becas a los físicos para fomentar el trabajo en el aprendizaje automático. Pero los laboratorios de física no son los únicos que contratan.
Gasiorowski es ahora un postdoctorado en el grupo de aprendizaje automático de SLAC, que trabaja con proyectos en todo el laboratorio nacional de programas múltiples. Parte de su investigación consiste en trabajar con Terao en herramientas de análisis para el Experimento de neutrinos subterráneos profundos, pero también apoya a investigadores en campos como la ciencia de materiales.
Ya sea que permanezcan en el mundo académico o no, los estudiantes obtienen una experiencia única al desarrollar habilidades de aprendizaje automático en el contexto de la física de partículas o la astrofísica.
Parte de eso es la gran cantidad de datos que tienen que utilizar. En algunas áreas de investigación, un científico de datos puede tener sólo cientos o miles de puntos de datos sobre los cuales entrenar su modelo. En un telescopio que toma cientos de imágenes del cielo en alta resolución cada noche, o en un experimento con un acelerador que observa cientos de millones de colisiones por segundo, un científico puede tener acceso a mucho más. “La calidad de tu modelo suele estar directamente relacionada con la cantidad de datos con los que tienes que entrenar”, afirma Gasiorowski.
Muchas de las habilidades que los físicos necesitan aprender se transfieren fácilmente a otras industrias, dice Ying. Por ejemplo, los físicos deben aprender a identificar información de calidad. Deben aprender a formular con precisión sus preguntas de investigación y asegurarse de que los datos disponibles puedan responderlas. Y, dice Hard, los físicos deben aprender a comprender las matemáticas detrás de sus análisis, lo que les ayuda a comprender los principios detrás de las redes neuronales.
Mastandrea, por su parte, está considerando un nuevo tipo de carrera profesional: espera convertirse en profesora conjunta de física e informática, un puesto poco común que las universidades comenzaron a anunciar apenas en los últimos años.
A finales de 2023, Mastandrea asistió a un taller relativamente nuevo llamado Hammers and Nails, que explora cómo los problemas actuales de la física (los “clavos”) pueden abordarse con arquitecturas de aprendizaje automático (los “martillos”). El programa se fundó en 2017 y hasta ahora solo se ha celebrado cuatro veces.
“Es un momento realmente emocionante para estar en el campo”, dice Mastandrea. “Tenemos más herramientas de las que sabemos qué hacer”.