La IA podría ayudar creer lo que dicen los pacientes
La IA podría hacer que la atención médica sea más justa, ayudándonos a creer lo que dicen los pacientes
Un nuevo estudio muestra cómo el entrenamiento de modelos de aprendizaje profundo sobre los resultados de los pacientes podría ayudar a revelar lagunas en el conocimiento médico existente.
Escala de dolor sesgada
En los últimos años, la investigación ha demostrado que el aprendizaje profundo puede igualar el desempeño de nivel experto en tareas de imágenes médicas como la detección temprana del cáncer y el diagnóstico de enfermedades oculares . Pero también hay motivos para ser cautelosos.
Otra investigación ha demostrado que el aprendizaje profundo tiende a perpetuar la discriminación . Con un sistema de salud ya plagado de disparidades, las aplicaciones descuidadas del aprendizaje profundo podrían empeorar las cosas.
Ahora, un nuevo artículo publicado en Nature Medicine propone una forma de desarrollar algoritmos médicos que podrían ayudar a revertir, en lugar de exacerbar, la desigualdad existente. La clave, dice Ziad Obermeyer, profesor asociado de UC Berkeley que supervisó la investigación, es dejar de entrenar algoritmos para igualar el desempeño de los expertos humanos.
Osteoartritis de rodilla
El artículo analiza un ejemplo clínico específico de las disparidades que existen en el tratamiento de la osteoartritis de rodilla, una enfermedad que causa dolor crónico. Evaluar la gravedad de ese dolor ayuda a los médicos a prescribir el tratamiento adecuado, que incluye fisioterapia, medicamentos o cirugía. Esto lo hace tradicionalmente un radiólogo que revisa una radiografía de la rodilla del paciente y califica su dolor en el grado de Kellgren-Lawrence (KLG), que calcula los niveles de dolor en función de la presencia de diferentes características radiográficas, como el grado de falta de cartílago o daño estructural.
Datos INS
Pero los datos recopilados por el Instituto Nacional de Salud encontraron que los médicos que utilizan este método puntúan sistemáticamente a los pacientes de raza negra muy por debajo de la gravedad del dolor que dicen estar experimentando. Los pacientes auto informan sus niveles de dolor mediante una encuesta que les pregunta sobre el dolor durante diversas actividades, como estirar completamente la rodilla. Pero estos niveles de dolor autoinformados se ignoran en lugar de la puntuación KLG del radiólogo cuando se prescribe el tratamiento. En otras palabras, los pacientes de raza negra que muestran la misma cantidad de cartílago faltante que los pacientes de raza blanca manifiestan niveles más altos de dolor.
Esto ha molestado constantemente a los expertos médicos. Una hipótesis es que los pacientes negros podrían estar informando niveles más altos de dolor para que los médicos los traten más en serio. Pero hay una explicación alternativa.
La propia metodología KLG podría estar sesgada
Fue desarrollado hace varias décadas basándose en poblaciones británicas blancas. Algunos expertos médicos argumentan que la lista de marcadores radiográficos que les dice a los médicos que busquen puede no incluir todas las posibles fuentes físicas de dolor dentro de una población más diversa. Dicho de otra manera, puede haber indicadores radiográficos de dolor que aparecen con mayor frecuencia en personas de raza negra y que simplemente no forman parte de la rúbrica de KLG.
Para probar esta posibilidad, los investigadores entrenaron un modelo de aprendizaje profundo para predecir el nivel de dolor autoinformado del paciente a partir de su radiografía de rodilla. Si el modelo resultante tuviera una precisión terrible, esto sugeriría que el dolor autoinformado es bastante arbitrario. Pero si el modelo tuviera una precisión realmente buena, esto proporcionaría evidencia de que el dolor autoinformado está de hecho correlacionado con marcadores radiográficos en la radiografía.
Después de realizar varios experimentos, incluso para descartar cualquier factor de confusión, los investigadores encontraron que el modelo era mucho más preciso que el KLG para predecir los niveles de dolor autoinformados para pacientes blancos y negros, pero especialmente para pacientes negros. Redujo la disparidad racial en cada nivel de dolor a casi la mitad.
El objetivo no es necesariamente comenzar a utilizar este algoritmo en un entorno clínico. Pero al superar la metodología KLG, reveló que la forma estándar de medir el dolor es defectuosa, a un costo mucho mayor para los negros. Esto debería alertar a la comunidad médica para investigar qué marcadores radiográficos podría estar viendo el algoritmo y actualizar su metodología de puntuación.
“En realidad, destaca una parte realmente emocionante de dónde pueden encajar este tipo de algoritmos en el proceso de descubrimiento médico”
Dice Obermeyer. “Nos dice si hay algo aquí que vale la pena mirar y que no entendemos. Establece el escenario para que los humanos intervengan y, utilizando estos algoritmos como herramientas, intenten averiguar qué está pasando “.
“Lo bueno de este artículo es que piensa en las cosas desde una perspectiva completamente diferente”, dice Irene Chen, investigadora del MIT que estudia cómo reducir las inequidades en la atención médica en el aprendizaje automático y no participó en el artículo. En lugar de entrenar el algoritmo basándose en un conocimiento experto bien establecido, dice, los investigadores optaron por tratar la autoevaluación del paciente como una verdad. A través de eso, descubrió importantes lagunas en lo que el campo médico suele considerar como la medida del dolor más “objetiva”.
“Ese era exactamente el secreto”, coincide Obermeyer. Si los algoritmos solo se entrenan para igualar el desempeño de los expertos, dice, simplemente perpetuarán las brechas e inequidades existentes. “Este estudio es un vistazo de un proceso más general que podemos utilizar cada vez más en medicina para generar nuevos conocimientos”.