Babylon Health, cuya capitalización se estima en $ 2 mil millones, ofrece un servicio de chatbot que brinda asesoramiento médico basado en los síntomas descritos. Se ha usado 1,7 millones de veces. Sin embargo, los expertos están preocupados de que no funcione exactamente como se prometió en publicidad.
Hamish Fraser se encontró por primera vez con Babylon Health en 2017, cuando él y un colega de un
artículo en Wired ayudaron a verificar la precisión de los diagnósticos de varios sistemas de IA basados en síntomas diseñados para dar consejos a cualquier persona con un teléfono inteligente. Entre los competidores con reconocimiento de enfermedades comunes, como el asma y el herpes zóster, el Babylon Health Symptom Checker fue el peor. Fraser, quien luego trabajó como inspector de informática de salud en la Universidad de Leeds en Inglaterra, concluyó que las compañías necesitan mejorar seriamente sus servicios para no abandonar el mercado.
"En ese momento, no tenía prejuicios para ninguno de ellos, y simplemente no conocía ninguno, así que no tenía ningún propósito de desquitarme con alguien, y pensé: Nda, este no es un muy buen resultado, - dice Fraser, que ahora trabaja en la Universidad de Brown. "Pensé que iban a desaparecer". Pero qué equivocado estaba.
Desde el lanzamiento de ese artículo, mucho ha cambiado. Desde principios de 2018, Babylon Health, con sede en Londres, ha crecido de 300 empleados a casi 1,500. La compañía está valorada en $ 2 mil millones y afirma que "proporciona servicios médicos asequibles a todas las personas del planeta". En Inglaterra, Babylon Health lleva a cabo la quinta práctica médica más grande bajo la supervisión de un sistema nacional de salud, financiado principalmente por el gobierno, que permite a los pacientes que viven cerca de Londres y Birmingham chatear por video con los médicos o acudir a la clínica según sea necesario. La compañía afirma haber procesado más de 700,000 consultas digitales de pacientes con médicos, y planea proporcionar servicios similares en
otras ciudades británicas en el futuro.
Babylon Health promete ahorrar dinero en servicios médicos cada vez más caros, utilizando AI para filtrar pacientes, de modo que el tiempo y los recursos se brinden solo a las personas que realmente necesitan ayuda médica. Babylon Health, tanto en Inglaterra como en el extranjero, dice que su programa de detección de síntomas se ha utilizado más de 1,7 millones de veces en lugares como Inglaterra, la Unión Europea, Canadá, el sudeste asiático y Arabia Saudita. Pronto, Babylon Health planea expandirse aún más e ingresar a los Estados Unidos y China.
La rápida expansión puede ser un problema porque "dicha tecnología, y no solo los programas de prueba de síntomas, sino también otras intervenciones digitales, se pueden promover y cambiar rápidamente", dice David Vaughn, quien da conferencias sobre el uso de IA en la atención médica en la Universidad de Manchester en Inglaterra, y trabajé con Fraser para probar dichos sistemas para un artículo. "Sin embargo, potencialmente pueden hacer una gran diferencia", dice Vaughn, y en particular, Babylon Health es "un ejemplo de una compañía que ha logrado lograr mucho muy rápidamente".
Un desarrollo de eventos tan rápido plantea ciertas preguntas de expertos que afirman que Babylon Health se apresuró a ingresar al mercado sin evidencia adecuada de la salud de sus productos. Hasta ahora, no ha habido evaluaciones de sus servicios por parte de expertos, con pruebas aleatorias y grupos de control, métodos que son el estándar de oro en la ciencia médica, que mostrarían qué tan bien la IA hace frente a pacientes reales en condiciones reales. Sin embargo, el programa de pruebas de síntomas de Babylon Health ya está afectando a miles de personas todos los días, recibiendo la aprobación de los reguladores gubernamentales en los países donde ofrece servicios.
"Lograron obtener la aprobación del sistema nacional de salud sin siquiera probar el producto en pacientes reales, sin pasar por pruebas de terceros, y eso no detiene a los reguladores", dijo Margaret McCartney, médico general de Glasgow, Escocia, y
crítica de Babylon Health . "Me parece increíble".
Babylon Health afirma cumplir con los requisitos del sistema nacional de atención médica, y en todos los países donde opera el servicio, cumple con todos los requisitos reglamentarios. La compañía también afirma estar reclutando investigadores universitarios para organizar ensayos de control aleatorio. "Hemos tomado medidas importantes para probar y validar la seguridad y la eficacia de esta tecnología", dijo Keith Grimes, Director de Innovación Clínica, Babylon Health. "Simplemente no es en forma de ensayos clínicos".
Llamar a un doctor Chatbot
El verificador de síntomas de Babylon Health se parece a un chatbot con el que los usuarios chatean a través de una aplicación o sitio web. Cuando un usuario ingresa sus síntomas principales en forma de una oración o frase corta, el verificador de síntomas hace preguntas relacionadas con la posible presencia de síntomas relacionados. Como resultado, el programa de verificación de síntomas identifica posibles causas y recomienda acciones adicionales: una reserva para consultas en video con un terapeuta o una visita al hospital.

La tecnología subyacente al programa de prueba de síntomas se conoce como el gráfico de conocimiento y funciona como una enciclopedia digital de medicina, en la que se marca la relación de varias enfermedades, síntomas y afecciones. La relación está representada por millones de puntos de referencia de cientos de fuentes médicas, y se actualiza constantemente. Un programa de verificación de síntomas también puede administrar registros de registros médicos, incluidos los datos recopilados mientras los usuarios trabajan con el programa, para identificar posibles asociaciones entre enfermedades de diferentes usuarios.
El gráfico de conocimiento se puede ajustar agregando datos para ayudar a evaluar la probabilidad de diversas enfermedades en ciertas poblaciones y áreas geográficas.
Babylon Health está creando "un modelo de medicina que es aplicable no solo en el Reino Unido y los EE. UU., Sino a nivel mundial", dice Saurabh Johri, científico senior de Babylon Health. Él dice que el modelo debería ser personalizable para "reflejar las especificidades locales de la enfermedad, de modo que si un paciente se queja de vómitos, fiebre y diarrea en Londres, entonces es menos probable que tenga malaria que si viviera en Ruanda".
Muchas otras compañías médicas usan la tecnología de aprendizaje automático, que es popular en el campo de la inteligencia artificial, y su opción, como el aprendizaje profundo, para entrenar software para analizar datos de pacientes para determinar síntomas y hacer diagnósticos. Al examinar grandes cantidades de datos médicos sin procesar, tales sistemas a veces pueden entrenar software para encontrar patrones y relaciones ocultos entre los puntos de referencia en los datos que las personas y nuestro conocimiento médico a veces pierden. El enfoque de Babylon Health no es así: sus estimaciones de IA reflejan directamente el conocimiento médico actual de las personas y la comprensión humana de la relación entre los síntomas y sus causas, sin depender de un rendimiento de la máquina prometedor, pero a
veces inexplicable .
Hasta ahora, Babylon Health ha estado utilizando el aprendizaje profundo para interpretar mensajes de chat de pacientes con un chatbot. AI también utiliza el aprendizaje profundo para acelerar la búsqueda de datos computacionalmente exigentes en la columna de conocimiento, donde debe verificar todas las combinaciones posibles de síntomas, enfermedades y factores de riesgo que sean apropiados para el caso particular. Pero en general, Babylon Health AI funciona principalmente a través del conocimiento médico acumulado por las personas, no confiando en la máquina para trabajar en la construcción de relaciones lógicas.

Puede haber ventajas en este enfoque. Uno de los inconvenientes de la máquina y el aprendizaje profundo es que requieren grandes cantidades de datos de capacitación relevantes y poder de procesamiento para aprender patrones. Dependiendo del país y del sistema de salud, no siempre es fácil acceder a todos los datos médicos relevantes necesarios para aprender software de computadora. Otro inconveniente de este enfoque es la opacidad. Las tecnologías de aprendizaje automático a menudo no permiten que los expertos humanos entiendan exactamente cómo el software conectó los diferentes puntos de referencia en los datos.
El enfoque de Babylon Health con transparencia es mejor. La compañía utiliza modelos que permiten a los médicos y programadores a tiempo completo "mirar debajo del capó", dice Johri, y comprender cómo el programa de prueba de síntomas llegó a una conclusión.
Los resultados están en duda
A pesar de todos los beneficios, Babylon Health aún no ha demostrado ser un modelo con un comportamiento responsable. La compañía
trató de callar a los críticos con
litigios y fue
reprendida por los reguladores británicos por publicidad "engañosa". En una entrevista con Wired UK y Forbes, los ex empleados de la compañía describieron una situación en la que la cultura corporativa entra en conflicto con la necesidad de realizar pruebas rigurosas de la seguridad y la eficacia de la IA en la atención médica. Forbes escribió: "Las entrevistas con empleados actuales y anteriores de Babylon Health y médicos independientes muestran la preocupación generalizada de que la compañía se apresuró a implementar un software que no se probó a fondo, y luego exageró su efectividad" (la compañía expresa
una protesta activa por estas declaraciones).
Babylon Health también se involucró en debates públicos, haciendo declaraciones que algunos críticos posteriormente llamaron engañosas. El 27 de junio de 2018, la compañía llamó la atención de los medios y dijo durante una
transmisión en
vivo en el Royal College of Medicine de Londres que su IA puede diagnosticar enfermedades comunes no peores que los terapeutas humanos. Esta declaración se basó en un
estudio de la compañía que compara la IA con los diagnósticos realizados por siete médicos. También en el estudio, el programa de prueba de síntomas se probó en partes de preguntas de un examen realizado para obtener un médico de cabecera en Gran Bretaña, un examen de membresía del Royal College of General Practitioners y registros históricos de un
estudio independiente de 2015 que evalúa varios programas de verificación de síntomas.
Pronto, sin embargo, los científicos y las organizaciones médicas comenzaron a mostrar preocupación.
El Royal College of General Practitioners , la
Asociación Británica de Médicos y el
Royal College of Physicians han emitido declaraciones que cuestionan las acusaciones de Babylon Health, mientras que el Royal College of Physicians ha organizado una presentación de la compañía y ayudó a realizar el estudio. Para comenzar, en este estudio, la IA solo se probó en una parte de las preguntas para el examen, y el programa no se probó en personas reales en un entorno clínico.
Fraser y Vaughn, los investigadores que ayudaron a Wired UK a probar el programa de detección de síntomas en 2017, también tenían preguntas para este estudio porque involucraba a un pequeño número de médicos y no fue examinado por expertos independientes. La pareja decidió estudiar este estudio más de cerca. En un
informe publicado en la revista The Lancet en 2018, concluyeron que el estudio de Babylon Health no proporcionó evidencia concluyente de que su programa de detección de síntomas "puede hacerlo mejor que los médicos en cualquier situación realista, y es más probable que va a hacer mucho peor ".
Estos hallazgos afectan directamente a pacientes reales. "Si su programa de detección de síntomas le recomienda quedarse en casa y no ir al médico, tal decisión tiene consecuencias en los casos en que la ayuda necesaria se retrasa o no se brinda", dice Enrico Coeira, director del Centro de Informática Médica de la Universidad McUyra en Sydney, Australia. , y el autor de un trabajo de 2018 publicado en la revista Lancet.
Incluso antes de una ola de críticas, Babylon Health comenzó negociaciones preliminares con la Universidad de Stanford para llevar a cabo una investigación piloto adicional, dice Meghan Mahoney, investigadora clínica de Stanford, coautora de Babylon Health 2018.
"Aparentemente, la IA puede tener un cierto potencial", dice Mahoney, y explica que "tenemos una responsabilidad real de alcanzar un nuevo nivel de rigor en la evaluación de este potencial, ya que la IA puede ser realmente útil para apoyar y complementar los servicios médicos" .
Mahoney describió Babylon Health de 2018 como "excelente para la investigación interna". A pesar de su optimismo, advirtió que nunca se habría atrevido a integrar esta IA en servicios de salud reales o prácticas médicas, basándose únicamente en los resultados de este estudio.
Cuando la revista Undark preguntó sobre disputas sobre este trabajo, Babylon Health respondió con una declaración que decía, entre otras cosas, "Algunos medios pueden haber malinterpretado nuestras declaraciones, pero nos quedamos con nuestros resultados iniciales y evidencia científica". También se afirmó allí que el trabajo de 2018 es "preliminar" y comparó la IA de la empresa con una "pequeña muestra de médicos". Babylon Health también se refirió a la conclusión del estudio: "Se necesitará más investigación utilizando grupos más grandes de personas reales para comparar la efectividad de estos sistemas con los médicos humanos".
Cálculos: medicina del siglo XXI
Incluso Babylon Health admite que la investigación preliminar no cumple con los estándares de oro de la investigación médica. Sin embargo, esto no impidió que la compañía, o los reguladores, dieran a los pacientes acceso a un programa de prueba de síntomas.
Este enfoque es comparable a los ensayos en humanos de un nuevo fármaco sin pruebas rigurosas, dice Isaac Cohan, investigador biomédico de informática en la Facultad de Medicina de Harvard. Y agrega que los cálculos "pueden considerarse una medicina del siglo XXI, así que tratémoslos con la misma responsabilidad".
Si Babylon Health organiza pruebas de control aleatorias, entonces, según Fraser, hará mucho para establecer la confianza en su expansión en los mercados estadounidense y asiático. La compañía planea enviar un protocolo de prueba a una revista con una revisión preliminar de los artículos en los próximos meses, dice Johri, y agrega: "Realizaremos estas pruebas en Gran Bretaña, y también estamos discutiendo este tema con socios en China y Estados Unidos".
Las
regulaciones actuales de la Administración de Drogas y Alimentos de los Estados Unidos recomiendan clemencia en los programas de detección de síntomas basados en la IA porque los riesgos asociados con ellos son más bajos que otros servicios de salud. La gerencia "decidió liberar los programas de prueba de síntomas, y servicios similares, de la supervisión para alentar la innovación", dice Fraser. "Sin embargo, parecen tener la oportunidad de regular esta área mucho más si lo desean".
Hasta ahora, algunos expertos independientes siguen preocupados por la versión actual del programa de detección de síntomas de Babylon Health. A principios de septiembre, un consultor independiente del sistema de salud nacional británico, a menudo criticaba a Babylon Health en Twitter bajo el seudónimo de
Dr. Murphy ,
demostró la presencia de un posible
sesgo sexual en el programa de detección de síntomas de Babylon Health.
Una mujer fumadora de 59 años que se quejó de dolor repentino en el pecho y mareos, el programa de prueba de síntomas diagnosticó depresión o un ataque de pánico como un diagnóstico probable. Para el mismo paciente, cuyo perfil indicaba sexo masculino, el programa de síntomas también indicaba posibles problemas cardíacos graves, recomendando una visita al hospital o llamando a una ambulancia.
En lugar de discutir con estas acusaciones, como era antes, Babylon Health eligió un tono de comunicación conciliador para una
respuesta en Twitter . En una
publicación de blog posterior, Babylon Health reconoció el sesgo en la atención médica, al tiempo que abogó por la efectividad de un programa de verificación de síntomas.
Esto no convenció al Dr. Murphy quiere que la compañía trabaje en posibles problemas con su IA: "El más peligroso de todos los médicos es alguien que no ve sus errores o no aprende de ellos".