
Recientemente, el uso de la IA en medicina se ha discutido cada vez más. Y, por supuesto, el campo de la medicina que pide directamente una aplicación de este tipo es el campo del diagnóstico.
Parece que antes era posible aplicar sistemas expertos y algoritmos de clasificación a los problemas de diagnóstico. Sin embargo, hay un área de IA que ha tenido más éxito en los últimos años, a saber, el área de reconocimiento de imágenes y redes neuronales convolucionales. En algunas pruebas, los algoritmos de IA en el reconocimiento de imágenes han superado a los humanos. Aquí hay dos ejemplos: el
desafío de reconocimiento visual a gran escala y
el punto de referencia alemán de reconocimiento de señales de tráfico .
En consecuencia, surgió la idea de aplicar la IA al campo del reconocimiento de imágenes donde los médicos se dedican al reconocimiento de imágenes, es decir, al análisis de imágenes y, para empezar, a las radiografías.
La radioscopia se usa para diagnosticar una amplia gama de enfermedades y lesiones: daño pulmonar (neumonía, cáncer), fracturas y otras lesiones óseas, parte del diagnóstico del sistema digestivo y mucho más.
Es importante que en el diagnóstico de algunas de estas enfermedades, la imagen de rayos X y su interpretación sea la herramienta predominante en el diagnóstico.
La interpretación de la imagen, a su vez, la realiza un radiólogo a partir del análisis de la imagen visual. Surge la pregunta: ¿qué pasa si aplicamos el progreso en el análisis de imágenes usando IA para el análisis e interpretación de rayos X? Que va a pasar
¿Seremos capaces de lograr una calidad comparable a la de los médicos? ¿O tal vez la precisión de la clasificación superará la precisión de los médicos, como se superó en el reconocimiento de imágenes en el
Desafío de reconocimiento visual a gran escala ?
Existen varios concursos de análisis de rayos X en Kaggle para el diagnóstico de neumonía. Por ejemplo,
uno de ellos.
Aquí, 5,863 imágenes fueron marcadas por médicos, cada una de las imágenes fue marcada por dos médicos, y solo si coincidían en el diagnóstico, la imagen se agregaba al conjunto de datos. Los pacientes para las imágenes no se seleccionaron especialmente (todas las imágenes se tomaron como parte del trabajo habitual con los pacientes). El conjunto de clases está equilibrado en la dirección de la neumonía, que probablemente esté cerca de la vida real, ya que los pacientes ya están tomando fotografías con sospecha de neumonía.
La mejor de las soluciones logra precisión = 0.84 y recuperación = 0.96. Entonces surge la pregunta: es mucho o poco ... Esta es una buena pregunta.
Por si acaso, recordamos que la precisión es qué porcentaje de esos pacientes que el modelo definió como pacientes con neumonía están realmente enfermos de neumonía (y, en consecuencia, qué porcentaje de médicos no tratan esta enfermedad por error). Recordemos qué porcentaje de todos los pacientes con neumonía detectará el modelo (lo inverso de este porcentaje es cuántos pacientes con neumonía el modelo marcará como saludables).
Entonces, ¿es mucho o poco? Bueno, puedes ver esta pregunta así: ¿qué pasa con los médicos? Tienen qué precisión y recuerdo.
Para hacer esto, sería necesario plantar un grupo de médicos, darles imágenes para marcar y luego comparar la calidad de sus marcas con la calidad de las marcas usando un algoritmo similar al
Punto de referencia de reconocimiento de señales de
tráfico alemán , que comparó la calidad del reconocimiento de las señales de tráfico. Hasta donde yo sé, nadie ha hecho esto con los médicos todavía.
Pero supongamos que hicimos esto y resultó que la calidad del marcado usando el algoritmo es comparable a la calidad del marcado por el médico. Si ahora este todavía no es el caso (lo cual no es un hecho), entonces estoy seguro de que sucederá en el futuro cercano. Que sigue
¿Reemplazar radiólogos con inteligencia artificial? Este ha sido un sueño durante mucho tiempo en los Estados Unidos, donde los radiólogos están muy bien pagados, y probablemente merecidamente, dada su importancia para hacer un cierto tipo de diagnóstico.
Veamos cómo debería ser el proceso de uso del algoritmo en este caso en la práctica.
- En primer lugar, sería necesario estandarizar el formato y la calidad de la salida de imágenes en varios equipos de rayos X. Quizás ahora esté estandarizado (no soy un experto), pero por alguna razón me parece que no. Si esta estandarización no existe, entonces no será posible garantizar la estabilidad del modelo durante la transición de una instalación a otra.
- En segundo lugar, será necesario agregar un control de calidad regular del modelo. Es decir, el modelo debe alimentarse regularmente a la entrada de la muestra de prueba marcada por los médicos y la calidad de su trabajo debe validarse constantemente. En todos los modelos utilizados en todas las clínicas. Esto significa que debe haber un modelo centralizado (o un número muy pequeño de ellos), ya que de lo contrario se necesitan demasiados recursos para que todos los modelos validen. Lógicamente, los fabricantes de equipos de rayos X probablemente llegarán a la conclusión de que el modelo se entregará junto con la unidad de rayos X.
- En tercer lugar, los umbrales de confianza deben integrarse en el modelo, más allá del cual la imagen aún se pasa al médico para su clasificación.
Como comprenderá, incluso si los modelos ahora son comparables o superiores a los médicos en términos de calidad de clasificación, se requiere un conjunto de pasos del proceso para que ellos (médicos) reemplacen o, más precisamente, reduzcan el personal. Sin mencionar el conjunto de pasos regulatorios y de certificación que generalmente son necesarios para poner en práctica dicha solución.
En general, todavía estamos lejos del escenario anterior, me parece.
¿Es posible un escenario diferente? Yo creo que si. Recordemos el
teorema del jurado de Condorcet , que dice que la probabilidad de que un grupo de personas tome la decisión correcta es mayor que cada uno de ellos individualmente. Por lo tanto, la calidad de la clasificación del médico y el modelo juntos es mayor que la calidad de la clasificación de cualquiera de ellos.
Por lo tanto, el médico puede usar el modelo como asesor. Por qué Porque el médico mismo tiene su propia precisión y memoria. Supongamos que los médicos no lo llaman así, pero hay errores. Algunos errores conducen al hecho de que se pasan por alto algunas enfermedades. Tales errores, creo, son menores, ya que los médicos solo están tratando de minimizar el error del primer tipo. Otros errores conducen al hecho de que las personas son tratadas por neumonía, que no tienen, y algunos lugares en los hospitales son trasladados innecesariamente. Cuántos errores totales se desconocen, pero lo son.
En consecuencia, imagine que estamos utilizando dos modelos diferentes y la opinión del médico con respecto a una fotografía. La ventaja del teorema de Condorcet es que no solo afirma que dos cabezas son mejores que una, sino que también te permite calcular cuánto.
Deje que cada uno de ellos (para cada uno de los modelos y el médico) tenga una precisión de 0.84 (por supuesto, no conocemos la precisión del médico, pero supongamos que no es inferior a la precisión de los modelos). Luego, según el teorema de Condorcet, la precisión total es igual a 0.84 ^ 3 + 3 * 0.84 ^ 2 * (1 - 0.84) = 0.93, lo que da un claro aumento en comparación con la precisión inicial de 0.84. Por lo tanto, al aplicar el modelo, el médico se vuelve claramente más preciso en sus predicciones.
Tenga en cuenta que en este paradigma, salvamos el lugar santísimo, dejamos la decisión final al médico, sin trasladarla a la máquina. Esto, me parece, facilitará la introducción de tales soluciones y abrirá el camino para los asesores de IA en medicina.
Que piensas
Como de costumbre, si desea dominar la aplicación de las redes neuronales convolucionales y la visión por computadora en la práctica, venga a nuestro
curso para analistas a partir del 28 de enero. También hay un
curso introductorio si necesita ajustar los conceptos básicos.