Médecin ou intelligence artificielle : qui raisonne le mieux pour poser un diagnostic ?
Une grande étude publiée dans Science montre qu’un modèle d’intelligence artificielle dépasse les médecins pour le raisonnement clinique sur des cas réels, tout en soulevant des questions éthiques et de sécurité.

Depuis quelques années, l’intelligence artificielle a fait irruption en médecine, en radiologie, en dermatologie ou en cardiologie. On savait déjà que certains algorithmes pouvaient reconnaître une lésion sur une image avec une précision proche de celle des spécialistes.
Une nouvelle étude menée par des chercheurs de la Harvard Medical School et du Beth Israel Deaconess Medical Center franchit une étape supplémentaire. Publiée dans la revue Science, elle montre qu’un grand modèle de langage, un système d’IA entraîné sur d’énormes volumes de textes et de données médicales, surpasse un large groupe de médecins pour plusieurs tâches de raisonnement clinique, à partir de véritables dossiers de patients passés par un service d’urgences. Les médecins devaient, comme en situation réelle, examiner un dossier parfois incomplet, formuler un diagnostic probable et proposer la conduite à tenir, tandis que le modèle d’IA recevait les mêmes informations structurées.
Selon les auteurs, l’IA a en moyenne obtenu de meilleurs scores que les praticiens pour identifier les diagnostics les plus probables et choisir les prochains examens ou traitements, franchissant un seuil symbolique fixé dès 1959 par un article fondateur sur l’aide à la décision.
L’IA meilleure que les médecins… sur des tests bien précis
Les résultats de cette étude sont impressionnants, mais ils doivent être compris avec précision. Les chercheurs décrivent un modèle d’IA qui, sur des centaines de vignettes cliniques issues de données d’urgence, dépasse la performance moyenne des médecins pour plusieurs tâches : établir une liste de diagnostics différentiels, estimer le diagnostic principal, proposer les examens complémentaires prioritaires et les premières décisions thérapeutiques.
Un autre article de synthèse, publié sur News-Medical, souligne que l’IA a globalement dépassé les « baselines » de performance des cliniciens dans ces tests, suggérant que certains modèles ont désormais franchi plusieurs référentiels classiques du raisonnement clinique. Des études antérieures allaient déjà dans ce sens. Un essai mené par Google Health, par exemple, montrait qu’un système d’IA nommé AMIE obtenait une précision diagnostique comparable ou supérieure à celles de médecins généralistes, tout en étant jugé plus clair et plus empathique dans ses réponses par des patients standardisés.
D’autres travaux, publiés dans des revues comme npj Digital Medicine ou Nature Scientific Reports, ont comparé les performances de modèles de langage à celles de cardiologues ou de cliniciens sur des questions à choix multiples, avec là encore une supériorité ou au moins une équivalence de l’IA sur certaines dimensions. Une méta-analyse récente conclut toutefois que, en moyenne, la précision globale des systèmes d’IA générative reste proche de celle des médecins, avec de fortes variations selon les modèles, les spécialités et les types de cas.
Pourquoi les médecins restent indispensables
Face à ces résultats, certains titres peuvent laisser croire que l’IA est prête à remplacer le médecin. Les auteurs de l’étude publiée dans Science prennent soin de dire le contraire. Ils rappellent que ces tests se déroulent dans un cadre contrôlé, avec des données déjà structurées, des diagnostics à choisir dans une liste limitée et sans interaction directe avec un patient réel, ses émotions, ses contraintes sociales ou ses préférences.
Les modèles de langage restent susceptibles de produire des erreurs graves ou des « hallucinations », c’est‑à‑dire des réponses fausses mais exprimées avec une grande assurance. De plus, ces systèmes s’appuient sur des données passées. Ils peuvent reproduire des biais présents dans la littérature ou dans les pratiques cliniques, en sous-estimant par exemple certains symptômes chez les femmes ou les minorités. Une étude publiée dans PNAS en 2025 montre que les collectifs humains–IA font mieux que les médecins seuls ou l’IA seule pour diagnostiquer des cas cliniques : en combinant les propositions de l’IA avec l’expertise de plusieurs cliniciens, on corrige une partie des erreurs de chaque camp.
Cette approche conforte l’idée que l’IA a davantage vocation à devenir un copilote qu’un pilote autonome du soin, en apportant une deuxième opinion systématique, une vérification de cohérence ou une aide pour ne pas oublier des diagnostics rares.
Vers un nouveau rôle pour le médecin face à l’IA
Si l’IA devient capable de dépasser les médecins sur certains indicateurs de raisonnement clinique, le rôle des soignants va se transformer. Plusieurs experts interrogés par la presse médicale évoquent un changement de posture : moins de temps passé à chercher l’information ou à revisiter mentalement la liste des diagnostics possibles, plus de temps consacré à l’explication, à l’accompagnement et à la décision partagée avec le patient.
Le médecin pourrait s’appuyer sur un modèle de langage pour générer rapidement une liste de diagnostics à vérifier, des examens complémentaires à envisager ou un résumé clair du dossier, tout en gardant la responsabilité finale de la décision. Dans cet esprit, un essai randomisé publié dans JAMA Network Open a testé l’impact de l’accès à un modèle de langage sur le raisonnement diagnostique de médecins de différentes spécialités. Les participants qui pouvaient interroger l’IA, en plus de leurs ressources habituelles, n’étaient pas moins bons, et dans certains cas amélioraient la pertinence de leurs hypothèses, même si l’étude souligne la nécessité de bien encadrer l’usage de ces outils.
D’autres recherches montrent que les patients jugent souvent les réponses des modèles d’IA plus complètes et plus empathiques que celles des médecins sur des forums publics, ce qui pose la question de la place de ces systèmes dans la relation soignant‑soigné. Dans ce contexte, les sociétés savantes appellent à former les futurs médecins à la lecture critique des suggestions de l’IA, à l’identification des situations à risque et à la communication transparente avec les patients sur le recours à ces technologies.
Sécurité, données et éthique : les grandes questions ouvertes
Cette avancée de l’IA dans le diagnostic et le raisonnement clinique soulève des questions majeures de sécurité et d’éthique. Une première inquiétude concerne la dépendance excessive au modèle : si un clinicien suit automatiquement la proposition d’une IA sans exercer son esprit critique, une erreur pourrait se propager plus facilement.
Les études disponibles montrent que l’IA peut nettement aider lorsque la bonne réponse figure dans sa liste de diagnostics, mais qu’elle peut aussi induire en erreur si la pathologie réelle ne fait pas partie de ses propositions initiales. La qualité des données d’entraînement est un autre enjeu. Des chercheurs rappellent que ces modèles peuvent intégrer des données issues de systèmes de santé très différents, parfois avec des lacunes ou des biais, ce qui peut limiter leur généralisabilité à d’autres contextes, notamment dans des pays à faibles ressources. La question de la confidentialité est également cruciale : utiliser des dossiers médicaux pour entraîner ou faire fonctionner des modèles impose des garanties strictes de protection des données.
Enfin, lorsque l’IA commence à rivaliser avec les médecins sur le terrain du raisonnement, se pose la question de la responsabilité en cas d’erreur : qui est responsable, le praticien qui a suivi la recommandation, l’éditeur du logiciel, l’hôpital qui l’a déployé ? Pour l’instant, la plupart des experts recommandent de considérer l’IA comme un outil d’aide à la décision, sans valeur contraignante, et de garder une traçabilité des échanges entre le clinicien et le système pour documenter les choix effectués.
En quelques mots
Les dernières études montrent qu’un modèle d’IA peut désormais dépasser des groupes de médecins sur des tests de raisonnement clinique standardisés, en particulier pour des cas d’urgences ou des vignettes complexes. Ces résultats ne signifient pas que l’IA est prête à remplacer les médecins, mais qu’elle devient suffisamment performante pour jouer le rôle de second avis systématique, de filet de sécurité ou de soutien dans les situations difficiles.
Les travaux sur les collectifs humains–IA montrent que la combinaison des deux offre souvent les meilleurs résultats, en profitant des forces de chacun et en limitant leurs faiblesses. Pour les patients, le message clé reste que ces outils devront être encadrés, évalués en conditions réelles et intégrés dans un cadre éthique solide, où le médecin reste responsable de la décision finale et de la relation de confiance
Cet article a été élaboré avec le soutien d'un outil d'intelligence artificielle. Il a ensuite fait l'objet d'une révision approfondie par un journaliste professionnel et un rédacteur en chef, assurant ainsi son exactitude, sa pertinence et sa conformité aux standards éditoriaux. PRESSE SANTÉ s'efforce de transmettre la connaissance santé dans un langage accessible à tous. En AUCUN CAS, les informations données ne peuvent remplacer l'avis d'un professionnel de santé.