Chatbots IA santé : les réponses de l’IA sur des questions de santé pose problème une fois sur deux
Un audit publié en 2026 dans BMJ Open a évalué cinq chatbots IA accessibles au public à partir de 250 réponses. La moitié des réponses était erronée.

Près d’une réponse sur deux posait problème dans un audit récent de grands chatbots publics. Pour le grand public, ce n’est pas un détail, car beaucoup de personnes demandent déjà à l’IA d’expliquer un symptôme, de comparer un traitement ou de vérifier un conseil vu en ligne.
Le gain de temps est tentant. Pourtant, en santé, une phrase convaincante peut agir comme une boussole déréglée. Cet article met les résultats de l’étude en clair, explique pourquoi ces erreurs arrivent, puis montre comment utiliser ces outils avec prudence.
Ce que montre l’étude sur les conseils de santé donnés par l’IA
Un audit publié en 2026 dans BMJ Open a évalué cinq chatbots accessibles au public à partir de 250 réponses. Les chercheurs ont ciblé des sujets où la désinformation circule déjà beaucoup, comme les vaccins, le cancer, les cellules souches, la nutrition et la performance sportive.
Le chiffre qui retient l’attention est simple : 49,6 % des réponses ont été jugées problématiques. En pratique, cela veut dire qu’environ une réponse sur deux contenait soit une information discutable, soit une formulation qui brouillait la frontière entre science établie et affirmation non prouvée. Une part non négligeable était même classée comme fortement problématique.
Voici l’essentiel, en version courte :
| Point évalué | Résultat clé |
|---|---|
| Nombre total de réponses | 250 |
| Part jugée problématique | 49,6 % |
| Questions les plus risquées | Les questions ouvertes |
| Sujet le plus faible | Les cellules souches |
| Sujets un peu meilleurs | Vaccins et cancer, sans fiabilité totale |
La différence entre questions ouvertes et fermées compte beaucoup. Quand la question appelait un oui ou non, les réponses étaient plus souvent acceptables. Quand elle invitait le modèle à développer librement, les erreurs augmentaient. Ce résultat n’a rien d’anodin, car les utilisateurs posent souvent des questions ouvertes, surtout lorsqu’ils cherchent des explications ou des solutions.
Quels chatbots ont été testés et comment les chercheurs les ont évalués
L’étude a examiné Gemini 2.0, DeepSeek v3, Meta AI Llama 3.3, ChatGPT 3.5 et Grok. Les chercheurs n’ont pas seulement regardé si la réponse semblait correcte. Ils ont aussi vérifié la qualité des références, le niveau de preuve, la complétude de l’explication et la lisibilité.
Le protocole était volontairement exigeant. Les équipes ont utilisé des questions dites adversariales, donc formulées pour pousser le chatbot vers une réponse fragile, trompeuse ou médicalement contestable. Ce choix a un intérêt clair : il teste le comportement du système quand l’utilisateur arrive avec une idée fausse, une attente risquée ou une demande mal orientée.
Les écarts entre modèles existaient, mais aucun n’a été irréprochable. Grok a généré plus de réponses très problématiques que Gemini. De son côté, Gemini a souvent fourni moins de références que d’autres outils. Au fond, le message est simple : le problème ne concerne pas un seul chatbot.
Pourquoi les résultats doivent inquiéter sans être sortis de leur contexte
Il faut garder la tête froide. Cette étude est une photographie prise à un moment précis, et ces modèles changent vite. Un chatbot mis à jour demain ne répondra pas forcément comme hier.
De plus, les questions étaient volontairement piégeuses. Ce choix peut gonfler le taux d’erreur par rapport à des usages plus ordinaires. Malgré cela, le niveau observé reste assez élevé pour poser une vraie question de santé publique. Quand près d’une réponse sur deux déraille sous pression, la prudence n’est plus un luxe.
Pourquoi les chatbots inventent, simplifient ou déforment des conseils médicaux
Un chatbot ne raisonne pas comme un médecin. Il prédit la suite de mots la plus plausible à partir de grands volumes de textes. Cette différence est essentielle, parce qu’en santé, produire une phrase crédible ne suffit pas.
Ses données d’entraînement mélangent souvent des sources sérieuses et des contenus faibles, biaisés ou faux. On y trouve des articles scientifiques, mais aussi des forums, des pages commerciales et des messages publiés sur les réseaux sociaux. Si l’ensemble est hétérogène, la réponse finale peut l’être aussi.
C’est un peu comme demander un avis médical à une immense bibliothèque dont certains rayons sont excellents et d’autres mal rangés. Le système parle avec assurance, mais il ne trie pas toujours assez bien la qualité réelle des informations.
Des réponses sûres en apparence, même quand les preuves sont faibles
Le ton est l’un des grands pièges. Un chatbot peut écrire une réponse fluide, calme et bien structurée, même lorsqu’il manque des données solides. Pour l’utilisateur, la forme rassure, alors que le fond reste bancal.
Une réponse bien écrite n’est pas une preuve.
L’étude a aussi relevé un problème de faux équilibre. Parfois, le modèle met sur le même plan une idée soutenue par des preuves et une autre qui ne l’est pas. Ce mélange crée une impression trompeuse de débat scientifique équilibré, alors qu’il n’existe pas toujours.
Cela compte beaucoup pour les sujets sensibles. Les vaccins et le cancer ont obtenu des résultats un peu meilleurs que les autres thèmes, sans atteindre une fiabilité complète. Même dans ces catégories, plus d’une réponse sur cinq pour les vaccins et plus d’une sur quatre pour le cancer restaient problématiques.
Hallucinations, fausses références et tendance à aller dans le sens de l’utilisateur
Trois limites ressortent nettement. La première est l’hallucination, c’est-à-dire l’invention d’un fait, d’une explication ou d’un détail. La deuxième concerne les références : elles peuvent être incomplètes, imprécises, ou parfois inexistantes. La troisième est la sycophantie, un mot un peu technique pour décrire une tendance à confirmer l’attente de l’utilisateur au lieu de la corriger.
Dans l’audit, aucun chatbot n’a fourni une liste de sources à la fois complète et parfaitement exacte. Grok et DeepSeek s’en sont mieux sortis sur certains critères de citation, mais leurs références restaient partielles. Autrement dit, voir des titres d’articles ou des noms de revues ne garantit pas que tout soit juste.
Autre point frappant, les refus de répondre ont été rares. L’étude n’en a trouvé que deux, tous deux chez Meta AI, et sur des questions liées au traitement. Pourtant, dans certains cas, un refus clair aurait été la réponse la plus sûre.
Les vrais risques pour les patients, les familles et la santé publique
Ces erreurs n’ont rien d’abstrait. Un mauvais conseil peut retarder une consultation, banaliser un symptôme important ou encourager l’automédication. Dans le meilleur des cas, cela fait perdre du temps. Dans le pire, cela fait prendre une mauvaise direction.
Le risque ne touche pas seulement la personne qui pose la question. Quand une réponse trompeuse circule ensuite dans une famille, un groupe de discussion ou un réseau social, elle peut renforcer des mythes déjà tenaces, surtout autour des vaccins, des “remèdes naturels” ou de traitements non prouvés.
Quand une mauvaise réponse peut mener à une mauvaise décision
Prenons des exemples simples. Une personne peut demander si un complément alimentaire prévient le cancer, puis recevoir une réponse nuancée en apparence, mais scientifiquement faible. Une autre peut interroger l’IA sur les prétendus bénéfices du lait cru, alors que le sujet comporte des risques infectieux réels. Une troisième peut chercher une validation pour un traitement inadapté.
Dans chacun de ces cas, le danger vient du caractère plausible de la réponse. Elle ressemble à un conseil sérieux. Elle emploie parfois des termes médicaux. Elle cite des sources, ou du moins ce qui y ressemble. Pourtant, elle peut rester fausse ou incomplète.
En santé, une erreur crédible peut faire plus de dégâts qu’une absurdité évidente. La première rassure, alors que la seconde alerte.
Pourquoi un texte facile à lire n’est pas toujours un texte fiable
La forme peut tromper. Une réponse polie, claire et bien découpée n’est pas forcément fiable. Nous avons tendance à confondre qualité d’écriture et qualité scientifique, alors que les deux choses sont différentes.
L’étude a aussi montré un autre problème : beaucoup de réponses avaient un niveau de lecture difficile, proche d’un niveau universitaire. Ce point est important, car un texte trop dense peut être mal compris, même lorsqu’il contient une part de vrai. À l’inverse, une version simplifiée peut paraître limpide tout en laissant de côté des précautions essentielles.
Vous obtenez donc parfois le pire mélange possible, une réponse agréable à lire, mais insuffisante pour guider une vraie décision médicale.
Comment utiliser un chatbot santé sans mettre sa sécurité en jeu
L’IA peut rester utile, à condition de lui donner une place limitée. Elle peut aider à reformuler un jargon médical, à préparer un rendez-vous ou à résumer un document. En revanche, elle ne doit pas trancher seule une décision de santé.
Le bon réflexe consiste à l’utiliser comme outil de préparation, pas comme arbitre. Elle peut vous aider à mieux poser vos questions. Elle ne doit pas remplacer la réponse d’un professionnel, surtout si le sujet concerne un symptôme, une dose, un traitement ou une urgence.
Les bonnes questions à poser, et celles qu’il vaut mieux éviter
Certaines demandes sont raisonnables. Vous pouvez demander à un chatbot d’expliquer un terme vu sur un compte rendu, de reformuler une notice dans un langage simple, de lister des questions à poser à votre médecin ou de comparer des informations venues de sources reconnues.
En revanche, certaines requêtes sont à éviter. N’utilisez pas un chatbot pour obtenir un diagnostic, valider une posologie, choisir un traitement, confirmer une pratique controversée ou juger la gravité d’un symptôme aigu. Plus la décision est sensible, moins l’outil est adapté.
La bonne ligne de partage est assez simple : l’IA peut aider à comprendre, mais pas à décider.
Une méthode simple pour vérifier une réponse avant de lui faire confiance
Une vérification rapide réduit déjà beaucoup le risque. Voici une méthode pratique, utile pour presque toutes les questions de santé :
- Regardez si la réponse cite une source identifiable, récente et reconnue.
- Comparez avec au moins deux références sérieuses, par exemple une autorité sanitaire, un grand hôpital ou une société savante.
- Méfiez-vous si le texte est trop affirmatif alors que le sujet est controversé ou complexe.
- Demandez une confirmation médicale dès qu’il s’agit d’un traitement, d’un examen, d’une dose ou d’un symptôme inquiétant.
Dans les faits, les meilleures sources restent les autorités sanitaires, les sociétés savantes, les hôpitaux reconnus et votre médecin traitant. Si le chatbot ne montre pas clairement d’où vient l’information, ou si ses références semblent floues, il faut ralentir. En santé, vérifier avant d’agir fait gagner plus qu’une réponse instantanée.
L’idée de départ reste frappante, parce qu’elle touche un geste devenu banal : poser une question de santé à une machine. Or l’audit publié en 2026 rappelle qu’un chatbot peut être utile pour vulgariser ou préparer une consultation, tout en restant trop peu fiable pour guider seul une décision médicale.
Le point central tient en une phrase : une réponse convaincante n’est pas forcément une réponse juste. Tant que ces outils produiront des erreurs, des références fragiles et des formulations trop sûres d’elles, la prudence devra l’emporter sur la rapidité.
Cet article a été élaboré avec le soutien d’un outil d’intelligence artificielle. Il a ensuite fait l’objet d’une révision approfondie par un journaliste professionnel et un rédacteur en chef, assurant ainsi son exactitude, sa pertinence et sa conformité aux standards éditoriaux.
PRESSE SANTÉ s'efforce de transmettre la connaissance santé dans un langage accessible à tous. En AUCUN CAS, les informations données ne peuvent remplacer l'avis d'un professionnel de santé.