Les chatbots IA sont encore pires pour donner des conseils médicaux que nous le pensions

Il est tentant de penser qu’un chatbot LLM peut répondre à toutes les questions que vous lui posez, y compris celles concernant votre santé. Après tout, les chatbots ont été formés sur de nombreuses informations médicales et peuvent les régurgiter s’ils reçoivent les bonnes instructions. Mais cela ne veut pas dire qu’ils vous donneront précis un avis médical, et une nouvelle étude montre avec quelle facilité l’expertise supposée de l’IA s’effondre. Bref, ils sont encore pires que je ne le pensais.

Dans l’étude, les chercheurs ont d’abord interrogé plusieurs chatbots sur des informations médicales. Dans ces tests soigneusement menés, ChatGPT-4o, Llama 3 et Command R+ ont correctement diagnostiqué des scénarios médicaux dans 94 % des cas, bien qu’ils aient été en mesure de recommander le bon traitement dans 56 % des cas.

Mais il ne s’agissait pas d’un test réel pour l’utilité médicale des chatbots.

Les chercheurs ont ensuite présenté des scénarios médicaux à 1 298 personnes et leur ont demandé d’utiliser un LLM pour déterminer ce qui pourrait se passer dans ce scénario, ainsi que ce qu’elles devraient faire à ce sujet (par exemple, s’ils devaient appeler une ambulance, faire un suivi avec leur médecin lorsque cela leur convenait ou s’occuper du problème par eux-mêmes).

Les participants ont été recrutés via une plateforme en ligne qui a vérifié que les sujets de recherche sont de vrais humains et non des robots eux-mêmes. Certains participants faisaient partie d’un groupe témoin à qui on avait demandé de rechercher le scénario par eux-mêmes, et pas en utilisant n’importe quel outil d’IA. En fin de compte, le groupe témoin sans IA a fait bien mieux que le groupe utilisant le LLM pour identifier correctement les problèmes de santé, y compris les scénarios de « drapeau rouge » les plus graves.

Comment un chatbot avec des informations « correctes » peut induire les gens en erreur

Comme l’écrivent les chercheurs, « les performances solides des LLM fonctionnant seuls ne suffisent pas pour obtenir de bonnes performances auprès des utilisateurs ». De nombreuses recherches antérieures ont montré que les résultats des chatbots sont sensibles à la formulation exacte que les gens utilisent lorsqu’ils posent des questions, et que les chatbots semblent donner la priorité à plaire à un utilisateur plutôt qu’à lui donner des informations correctes.

Même si un robot LLM peut répondre correctement à une question formulée objectivement, cela ne signifie pas qu’il vous donnera de bons conseils lorsque vous en aurez besoin. C’est pourquoi il n’est pas vraiment important que ChatGPT puisse « réussir » un examen de licence médicale modifié : réussir à répondre à des questions à choix multiples formulées n’est pas la même chose que de vous dire quand vous devez vous rendre à l’hôpital.

Les chercheurs ont analysé les journaux de discussion pour déterminer où les choses ont échoué. Voici quelques-uns des problèmes qu’ils ont identifiés :

  • Les utilisateurs n’ont pas toujours fourni au bot toutes les informations pertinentes. En tant que non-experts, les utilisateurs ne savaient certainement pas ce qu’il était le plus important d’inclure. Si vous avez consulté un médecin pour quelque chose de potentiellement grave, vous savez qu’il vous posera de nombreuses questions pour être sûr que vous n’oubliez pas quelque chose d’important. Les robots ne font pas nécessairement cela.

  •  Les robots « ont généré plusieurs types d’informations trompeuses et incorrectes ». Parfois, ils ignoraient des détails importants pour se concentrer sur autre chose ; parfois, ils recommandaient d’appeler un numéro d’urgence mais donnaient le mauvais numéro (comme un numéro d’urgence australien pour les utilisateurs britanniques).

  • Les réponses pourraient être radicalement différentes pour des invites similaires. Dans un exemple, deux utilisateurs ont donné des messages presque identiques concernant une hémorragie sous-arachnoïdienne. Une réponse a demandé à l’utilisateur de rechercher des soins d’urgence ; l’autre a dit de s’allonger dans une pièce sombre.

  • Les gens variaient dans la façon dont ils conversaient avec le chatbot. Par exemple, certains posaient des questions spécifiques pour limiter les réponses du robot, mais d’autres laissaient le robot prendre les devants. L’une ou l’autre méthode pourrait introduire un manque de fiabilité dans les résultats du LLM.

  • Les réponses correctes étaient souvent regroupées avec des réponses incorrectes. En moyenne, chaque LLM a donné 2,21 réponses parmi lesquelles l’utilisateur pouvait choisir. Naturellement, les gens n’ont pas toujours choisi correctement parmi ces options.

Dans l’ensemble, les gens qui n’a pas utiliser les LLM étaient 1,76 fois plus susceptibles d’obtenir le bon diagnostic. (Les deux groupes étaient tout aussi susceptibles de trouver la bonne marche à suivre, mais cela ne veut pas dire grand-chose : en moyenne, ils n’ont réussi qu’environ 43 % du temps.) Les chercheurs ont décrit le groupe témoin comme faisant « nettement mieux » dans cette tâche. Et cela peut représenter le meilleur des cas : les chercheurs soulignent qu’ils ont fourni des exemples clairs de conditions courantes, et que les LLM auraient probablement de pires résultats avec des conditions rares ou des scénarios médicaux plus complexes. Ils concluent : « Malgré les solides performances des seuls LLM, à la fois sur les critères existants et sur nos scénarios, l’expertise médicale était insuffisante pour des soins efficaces aux patients. »

Les chatbots représentent également un risque pour les médecins

Les patients ne savent peut-être pas comment parler à un LLM, ni comment contrôler ses résultats, mais les médecins s’en sortiraient sûrement mieux, n’est-ce pas ? Malheureusement, les gens du domaine médical sont aussi utiliser des chatbots IA pour obtenir des informations médicales d’une manière qui crée des risques pour les soins aux patients.

L’ECRI, une organisation à but non lucratif spécialisée dans la sécurité médicale, a placé l’utilisation abusive des chatbots IA au premier rang de sa liste des risques liés aux technologies de santé pour 2026. Alors que la machine à battage médiatique de l’IA tente de vous convaincre de donner à ChatGPT vos informations médicales, l’ECRI souligne à juste titre qu’il est faux de considérer ces chatbots comme ayant une personnalité ou une cognition humaine : « Bien que ces modèles produisent des réponses semblables à celles des humains, ils le font en prédisant le mot suivant sur la base de grands ensembles de données, et non par de véritables compréhension des informations. »

L’ECRI rapporte que les médecins utilisent en fait des outils d’IA générative pour soigner leurs patients, et que des recherches ont déjà montré les graves risques encourus. L’utilisation des LLM n’améliore pas le raisonnement clinique des médecins. Les LLM développeront en toute confiance les détails incorrects inclus dans les invites. Le modèle Med-Gemini de Google, créé à des fins médicales, constituait une partie du corps inexistante dont le nom était un mélange de deux parties du corps réelles sans rapport ; Google a déclaré à un journaliste de Verge que l’erreur était une « faute de frappe ». L’ECRI fait valoir que « parce que les réponses LLM semblent souvent faire autorité, il existe un risque que les cliniciens prennent inconsciemment en compte les suggestions générées par l’IA dans leurs jugements sans examen critique ».

Même dans des situations qui ne semblent pas être des cas de vie ou de mort, consulter un chatbot peut causer des dommages. L’ECRI a demandé à quatre LLM de recommander des marques de gel pouvant être utilisées avec un certain appareil à ultrasons sur un patient porteur d’un cathéter à demeure à proximité de la zone à scanner. Il est important d’utiliser un gel stérile dans cette situation, en raison du risque d’infection. Un seul des quatre chatbots a identifié ce problème et fait des suggestions appropriées ; les autres ont simplement recommandé des gels échographiques réguliers. Dans d’autres cas, les tests de l’ECRI ont conduit des chatbots à donner des conseils dangereux sur le placement des électrodes et les blouses d’isolation.

De toute évidence, on ne peut pas faire confiance aux chatbots LLM pour assurer la sécurité des personnes qui recherchent des soins médicaux, que vous soyez la personne qui a besoin de soins, le médecin qui la soigne ou même le membre du personnel qui commande des fournitures. Mais les services existent déjà, largement utilisés et promus de manière agressive. (Leurs créateurs se battent même dans les publicités du Super Bowl.) Il n’existe aucun moyen efficace de s’assurer que ces chatbots ne sont pas impliqués dans vos soins, mais au moins nous pouvons nous en tenir au bon vieux Dr Google : assurez-vous simplement de désactiver les résultats de recherche basés sur l’IA.