Reconnaissance aux rayons X: précision = 0,84, rappel = 0,96. Avons-nous besoin de plus de médecins?



Récemment, l'utilisation de l'IA en médecine a été de plus en plus discutée. Et, bien sûr, le domaine de la médecine qui demande directement une telle application est le domaine du diagnostic.

Il semble qu'auparavant, il était possible d'appliquer des systèmes experts et des algorithmes de classification aux problèmes de diagnostic. Cependant, il existe un domaine de l'IA qui a connu le plus de succès ces dernières années, à savoir le domaine de la reconnaissance d'image et des réseaux de neurones convolutifs. Sur certains tests, les algorithmes d'IA dans la reconnaissance d'image ont dépassé les humains. Voici deux exemples: défi de reconnaissance visuelle à grande échelle et repère de reconnaissance des panneaux de signalisation allemands .

En conséquence, l'idée est venue d'appliquer l'IA au domaine de la reconnaissance d'images où les médecins sont engagés dans la reconnaissance d'images, à savoir l'analyse d'images et, pour commencer, les rayons X.

La radioscopie est utilisée pour diagnostiquer un large éventail de maladies et de blessures: lésions pulmonaires (pneumonie, cancer), fractures et autres lésions osseuses, une partie du diagnostic du système digestif, et bien plus encore.

Il est important que dans le diagnostic de certaines de ces maladies, l'image radiographique et son interprétation soient l'outil dominant dans le diagnostic.

L'interprétation de l'image, à son tour, est effectuée par un radiologue sur la base d'une analyse visuelle de l'image. La question se pose: que se passe-t-il si nous appliquons les progrès de l'analyse d'images utilisant l'IA à l'analyse et à l'interprétation des rayons X. Que va-t-il arriver?

Pourrons-nous atteindre une qualité comparable à celle des médecins? Ou peut-être que la précision de la classification dépassera la précision des médecins, telle qu'elle est dépassée dans la reconnaissance des images dans le défi de reconnaissance visuelle à grande échelle ?

Il existe plusieurs concours d'analyse aux rayons X à Kaggle pour le diagnostic de la pneumonie. Par exemple, l' un d'eux.

Ici, 5 863 images ont été marquées par des médecins, chacune des images a été marquée par deux médecins, et seulement si elles coïncidaient dans le diagnostic, l'image a été ajoutée à l'ensemble de données. Les patients pour les images n'ont pas été spécialement sélectionnés (toutes les images ont été prises dans le cadre du travail habituel avec les patients). L'ensemble des classes est équilibré dans le sens de la pneumonie, qui est probablement proche de la vie réelle, car les patients prennent déjà des photos avec une pneumonie suspectée.

La meilleure des solutions atteint une précision = 0,84 et un rappel = 0,96. Puis la question se pose: est-ce beaucoup ou un peu ... C'est une bonne question.

Juste au cas où, nous rappelons que la précision est quel pourcentage de ces patients que le modèle défini comme patients atteints de pneumonie sont vraiment malades de pneumonie (et, par conséquent, quel pourcentage de médecins ne traitent pas cette maladie par erreur). Le rappel est le pourcentage de tous les patients atteints de pneumonie que le modèle détectera (l'inverse de ce pourcentage est le nombre de patients atteints de pneumonie que le modèle marquera comme sains).

Est-ce donc beaucoup ou un peu? Eh bien, vous pouvez regarder cette question comme ceci: qu'en est-il des médecins? Ils ont quelle précision et quel souvenir.

Pour ce faire, il serait nécessaire de planter un groupe de médecins, de leur donner des images pour le marquage, puis de comparer la qualité de leurs marquages ​​avec la qualité des marquages ​​en utilisant un algorithme similaire au Benchmark allemand de reconnaissance des panneaux de signalisation, qui comparait la qualité de reconnaissance des panneaux de signalisation. Pour autant que je sache, personne n'a encore fait cela avec des médecins.

Mais supposons que nous ayons fait cela et il s'est avéré que la qualité du balisage utilisant l'algorithme est comparable à la qualité du balisage par le médecin. Si maintenant ce n'est toujours pas le cas (ce qui n'est pas un fait), je suis sûr que cela se produira dans un proche avenir. Et ensuite?

Remplacer les radiologues par une intelligence artificielle? Cela fait longtemps rêver aux États-Unis, où les radiologues sont très bien payés et probablement à juste titre compte tenu de leur importance pour poser un certain type de diagnostic.

Voyons à quoi le processus d'utilisation de l'algorithme devrait ressembler dans ce cas dans la pratique?

  • Premièrement, il serait nécessaire de normaliser le format et la qualité de la sortie des images sur divers équipements à rayons X. Il est peut-être désormais normalisé (je ne suis pas un expert), mais pour une raison quelconque, il me semble que non. Si cette standardisation n'existe pas, il ne sera pas possible de garantir la stabilité du modèle lors du passage d'une installation à une autre.
  • Deuxièmement, un contrôle qualité régulier du modèle devra être ajouté. Autrement dit, le modèle doit être alimenté régulièrement à l'entrée de l'échantillon de test marqué par les médecins et la qualité de son travail doit être constamment validée. Sur tous les modèles utilisés dans toutes les cliniques. Cela signifie qu'il doit y avoir un modèle centralisé (ou un très petit nombre d'entre eux), car sinon, trop de ressources sont nécessaires pour que tous les modèles soient validés. Logiquement, les fabricants d'équipements à rayons X arriveront probablement à la conclusion que le modèle sera livré avec l'unité à rayons X.
  • Troisièmement, des seuils de confiance devraient être intégrés dans le modèle, au-delà desquels l'image est toujours transmise au médecin pour classification.

Comme vous le comprenez, même si les modèles sont désormais comparables ou supérieurs aux médecins en termes de qualité de classification, un ensemble d'étapes de processus est nécessaire pour leur remplacement (ou plus précisément) pour les médecins. Sans oublier l'ensemble des étapes réglementaires et de certification qui sont généralement nécessaires pour mettre en œuvre une telle solution.

D'une manière générale, nous sommes encore loin du scénario ci-dessus, il me semble.

Un scénario différent est-il possible? Je pense que oui. Rappelons le théorème du jury Condorcet , qui dit que la probabilité de prendre la bonne décision par un groupe de personnes est plus élevée que chacune d'elles individuellement. Ainsi, la qualité de la classification du médecin et du modèle ensemble est supérieure à la qualité de la classification de l'un d'entre eux.

Ainsi, le médecin peut utiliser le modèle comme conseiller. Pourquoi? Parce que le médecin lui-même a sa propre précision et son souvenir. Supposons que les médecins n'appellent pas cela ainsi, mais il y a des erreurs. Certaines erreurs conduisent au fait que certaines maladies sont manquées. De telles erreurs, je pense, sont moindres, car les médecins essaient simplement de minimiser l'erreur du premier type. D'autres erreurs conduisent au fait que les personnes sont traitées pour une pneumonie, qu'elles n'ont pas, et que certaines places dans les hôpitaux sont prises inutilement. Combien d'erreurs totales sont inconnues, mais elles le sont.

En conséquence, imaginez que nous utilisons deux modèles différents et l'avis du médecin concernant une photographie. Le plus du théorème de Condorcet est qu'il prétend non seulement que deux têtes valent mieux qu'une, mais vous permet également de calculer combien.

Laissez chacun d'eux (chaque modèle et chaque médecin) avoir une précision de 0,84 (bien sûr, nous ne connaissons pas la précision du médecin, mais supposons qu'elle n'est pas inférieure à la précision des modèles). Ensuite, par le théorème de Condorcet, la précision totale est égale à 0,84 ^ 3 + 3 * 0,84 ^ 2 * (1 - 0,84) = 0,93, ce qui donne une nette augmentation par rapport à la précision initiale de 0,84. Ainsi, en appliquant le modèle, le médecin devient nettement plus précis dans ses prédictions.

Notez que dans ce paradigme, nous sauvons le saint des saints, nous laissons la décision finale au médecin, sans la déplacer vers la machine. Il me semble que cela facilitera l'introduction de telles solutions et ouvrira la voie aux conseillers en IA en médecine.

Qu'en penses-tu?

Comme d'habitude, si vous voulez maîtriser l'application des réseaux de neurones convolutifs et la vision par ordinateur dans la pratique - venez à notre cours pour analystes , à partir du 28 janvier. Il y a aussi un cours d'introduction si vous avez besoin de resserrer les bases.

Source: https://habr.com/ru/post/fr436946/


All Articles