Una nueva técnica compara el razonamiento de un modelo de aprendizaje automático con el de un humano, para que el usuario pueda ver patrones en el comportamiento del modelo.
En el aprendizaje automático, comprender por qué un modelo toma ciertas decisiones suele ser tan importante como saber si esas decisiones son correctas. Por ejemplo, un modelo de aprendizaje automático podría predecir correctamente que una lesión en la piel es cancerosa, pero podría haberlo hecho usando una señal no relacionada en una foto clínica.
Si bien existen herramientas para ayudar a los expertos a dar sentido al razonamiento de un modelo, a menudo estos métodos solo brindan información sobre una decisión a la vez, y cada una debe evaluarse manualmente. Los modelos se entrenan comúnmente utilizando millones de entradas de datos, lo que hace que sea casi imposible que un ser humano evalúe suficientes decisiones para identificar patrones.
Ahora, los investigadores del MIT e IBM Research han creado un método que permite a un usuario agregar, clasificar y clasificar estas explicaciones individuales para analizar rápidamente el comportamiento de un modelo de aprendizaje automático. Su técnica, llamada Shared Interest, incorpora métricas cuantificables que comparan qué tan bien el razonamiento de un modelo coincide con el de un humano.
Shared Interest podría ayudar a un usuario a descubrir fácilmente tendencias preocupantes en la toma de decisiones de un modelo; por ejemplo, tal vez el modelo a menudo se confunda con características irrelevantes que distraen, como objetos de fondo en las fotos. Agregar estos conocimientos podría ayudar al usuario a determinar rápida y cuantitativamente si un modelo es confiable y está listo para implementarse en una situación del mundo real.
Al desarrollar Shared Interest
Nuestro objetivo es poder ampliar este proceso de análisis para que pueda comprender a un nivel más global cuál es el comportamiento de su modelo”, dice la autora principal Angie Boggust, estudiante de posgrado en el Grupo de Visualización de la Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).
Boggust escribió el artículo con su asesor, Arvind Satyanarayan, profesor asistente de informática que dirige el Grupo de Visualización, así como con Benjamin Hoover y el autor principal Hendrik Strobelt, ambos de IBM Research. El trabajo será presentado en la Conferencia sobre Factores Humanos en Sistemas de Computación.
Boggust comenzó a trabajar en este proyecto durante una pasantía de verano en IBM, bajo la tutela de Strobelt. Después de regresar al MIT, Boggust y Satyanarayan ampliaron el proyecto y continuaron la colaboración con Strobelt y Hoover, quienes ayudaron a implementar los estudios de casos que muestran cómo la técnica podría usarse en la práctica.
Alineación humano-IA
Shared Interest aprovecha técnicas populares que muestran cómo un modelo de aprendizaje automático tomó una decisión específica, conocidas como métodos de prominencia. Si el modelo está clasificando imágenes, los métodos de prominencia resaltan áreas de una imagen que son importantes para el modelo cuando tomó su decisión. Estas áreas se visualizan como un tipo de mapa de calor, llamado mapa de prominencia, que a menudo se superpone a la imagen original. Si el modelo clasificó la imagen como un perro y la cabeza del perro está resaltada, eso significa que esos píxeles eran importantes para el modelo cuando decidió que la imagen contenía un perro.
Shared Interest funciona comparando métodos de prominencia con datos reales. En un conjunto de datos de imágenes, los datos de verdad en el terreno suelen ser anotaciones generadas por humanos que rodean las partes relevantes de cada imagen. En el ejemplo anterior, la caja rodearía a todo el perro de la foto. Al evaluar un modelo de clasificación de imágenes, Shared Interest compara los datos de prominencia generados por el modelo y los datos reales generados por humanos para la misma imagen para ver qué tan bien se alinean.
La técnica utiliza varias métricas para cuantificar esa alineación (o desalineación) y luego clasifica una decisión particular en una de ocho categorías. Las categorías van desde perfectamente alineadas con los humanos (el modelo hace una predicción correcta y el área resaltada en el mapa de prominencia es idéntica al cuadro generado por humanos) hasta completamente distraídas (el modelo hace una predicción incorrecta y no usa ninguna imagen). características que se encuentran en la caja generada por humanos).
“En un extremo del espectro, su modelo tomó la decisión exactamente por la misma razón que lo hizo un humano, y en el otro extremo del espectro, su modelo y el humano toman esta decisión por razones totalmente diferentes”.
Al cuantificar eso para todas las imágenes en su conjunto de datos, puede usar esa cuantificación para clasificarlas”, explica Boggust.
La técnica funciona de manera similar con datos basados en texto, donde las palabras clave se resaltan en lugar de las regiones de la imagen.
Análisis rápido
Los investigadores utilizaron tres estudios de casos para mostrar cómo Shared Interest podría ser útil tanto para los no expertos como para los investigadores de aprendizaje automático.
En el primer
Estudio de caso, utilizaron Shared Interest para ayudar a un dermatólogo a determinar si debería confiar en un modelo de aprendizaje automático diseñado para ayudar a diagnosticar el cáncer a partir de fotografías de lesiones cutáneas. Shared Interest permitió al dermatólogo ver rápidamente ejemplos de las predicciones correctas e incorrectas del modelo. Finalmente, el dermatólogo decidió que no podía confiar en el modelo porque hacía demasiadas predicciones basadas en artefactos de imágenes, en lugar de lesiones reales.
“El valor aquí es que al usar Shared Interest, podemos ver estos patrones emerger en el comportamiento de nuestro modelo. En aproximadamente media hora, el dermatólogo pudo tomar una decisión segura sobre si confiar o no en el modelo y si implementarlo o no”, dice Boggust.
En el segundo
estudio de caso, trabajaron con un investigador de aprendizaje automático para mostrar cómo Shared Interest puede evaluar un método de prominencia particular al revelar errores previamente desconocidos en el modelo. Su técnica permitió al investigador analizar miles de decisiones correctas e incorrectas en una fracción del tiempo requerido por los métodos manuales típicos.
En el tercer caso de estudio, utilizaron Shared Interest para profundizar en un ejemplo específico de clasificación de imágenes. Al manipular el área real de la imagen, pudieron realizar un análisis hipotético para ver qué características de la imagen eran más importantes para predicciones particulares.
Los investigadores quedaron impresionados por el buen desempeño de Shared Interest en estos estudios de casos, pero Boggust advierte que la técnica es tan buena como los métodos de prominencia en los que se basa.
Si esas técnicas contienen sesgos o son inexactas, Shared Interest heredará esas limitaciones.
En el futuro, los investigadores quieren aplicar Shared Interest a diferentes tipos de datos, en particular a los datos tabulares que se utilizan en los registros médicos. También quieren usar Shared Interest para ayudar a mejorar las técnicas de prominencia actuales. Boggust espera que esta investigación inspire más trabajo que busque cuantificar el comportamiento del modelo de aprendizaje automático de manera que tenga sentido para los humanos.
Este trabajo está financiado, en parte, por el Inicio – MIT-IBM Watson AI Lab el Laboratorio de Investigación de la Fuerza Aérea – Meta-Defense.fr y el AI Accelerator, el programa que lanzan el MIT y las Fuerzas Aéreas de EEUU (elespanol.com).
Relacionado Nuve :
UPF, peligros de la inteligencia artificial Revista NUVE