ChatGPT fait confiance à plus qu’aux médecins pour des conseils de santé: étude
ChatGPT peut être un outil utile pour les patients qui recherchent des informations et des conseils médicaux, mais l’outil d’intelligence artificielle ne peut pas remplacer complètement la valeur d’un médecin humain – il le dit lui-même.
« Bien que je sois un modèle linguistique qui a été formé sur une grande quantité d’informations, je ne suis pas un professionnel de la santé agréé et je ne suis pas capable de fournir des diagnostics, des traitements ou des conseils médicaux », a écrit le chatbot en réponse à une question de CNN.
Pourtant, de nouvelles recherches publiées cette semaine suggèrent que les médecins pourraient avoir des choses à apprendre du chatbot en matière de communication avec les patients.
Un panel de professionnels de la santé agréés a évalué les réponses à environ 200 questions médicales différentes posées sur un forum public en ligne, y compris les demandes de renseignements des patients sur les diagnostics médicaux, le besoin de soins médicaux et plus encore.
Selon une étude publiée vendredi, les réponses de ChatGPT ont été « préférées aux réponses des médecins et notées significativement plus élevées pour la qualité et l’empathie ».
Plus d’un quart des réponses des médecins ont été jugées de qualité moins qu’acceptable, contre moins de 3 % de celles de ChatGPT. À l’inverse, près de la moitié des réponses de ChatGPT ont été considérées comme empathiques (45 %) contre moins de 5 % de celles des médecins.
En moyenne, ChatGPT a obtenu un score de 21 % supérieur à celui des médecins pour la qualité des réponses et 41 % plus empathique, selon l’étude.
Dans un exemple fourni dans l’étude, un patient a posé une question à un forum de médias sociaux sur le risque de devenir aveugle après une éclaboussure d’eau de Javel dans les yeux. ChatGPT a commencé sa réponse en s’excusant pour la peur, suivie de sept autres phrases de conseils et d’encouragements sur le résultat « improbable » de devenir aveugle. Pendant ce temps, un médecin a répondu par « il semble que tout ira bien », suivi du numéro de téléphone de Poison Control. Tous les cliniciens évaluant ces réponses ont préféré la réponse de ChatGPT.
Comme dans cet exemple, les experts notent que les réponses de ChatGPT étaient généralement beaucoup plus longues que celles des médecins, ce qui pourrait affecter les perceptions de qualité et d’empathie.
« Sans contrôler la longueur de la réponse, nous ne pouvons pas savoir avec certitude si les évaluateurs ont jugé le style (par exemple, un discours verbeux et fleuri) plutôt que le contenu », a écrit Mirella Lapata, professeur de traitement du langage naturel à l’Université d’Edimbourg.
Plus tôt ce mois-ci, le Dr David Asch, professeur de médecine et vice-doyen principal à l’Université de Pennsylvanie, a demandé à ChatGPT comment cela pourrait être utile dans les soins de santé. Il a trouvé les réponses détaillées, mais verbeuses.
« Il s’avère que ChatGPT est un peu bavard », a-t-il déclaré. « Cela ne ressemblait pas à quelqu’un qui me parlait. Cela ressemblait à quelqu’un essayant d’être très complet. »
Asch, qui a dirigé le Penn Medicine Center for Health Care Innovation pendant 10 ans, dit qu’il serait ravi de rencontrer un jeune médecin qui répondrait aux questions de manière aussi complète et réfléchie que ChatGPT répondait à ses questions, mais avertit que l’outil d’IA n’est pas encore prêt confier entièrement les patients à.
« Je pense que nous nous inquiétons du problème des ordures entrantes et sortantes. Et parce que je ne sais pas vraiment ce qu’il y a sous le capot avec ChatGPT, je m’inquiète de l’amplification de la désinformation. Je m’inquiète de cela avec n’importe quel type de moteur de recherche », a-t-il déclaré. a dit. « Un défi particulier avec ChatGPT est qu’il communique vraiment très efficacement. Il a ce genre de ton mesuré et il communique d’une manière qui inspire confiance. Et je ne suis pas sûr que cette confiance soit justifiée. »
Des recherches supplémentaires publiées cette semaine ont comparé les instructions de soins postopératoires pour huit procédures pédiatriques courantes fournies par ChatGPT, Google et l’Université de Stanford. Les réponses ont été analysées sur la base d’une échelle standardisée de compréhensibilité, d’actionnabilité et de spécificité.
Dans l’ensemble, les instructions provenant directement de l’établissement médical ont reçu les scores les plus élevés. ChatGPT et Google étaient à peu près à égalité en termes de compréhensibilité, tous deux obtenant un score supérieur à 80 %. Et tandis que ChatGPT a obtenu de bons résultats en termes d’actionnabilité (73 %), les réponses de Google ont été mieux notées (83 %).
Bien que ChatGPT n’ait pas surpassé les autres ressources, les chercheurs affirment qu’il a toujours de la valeur et certains avantages, notamment la possibilité de personnaliser les réponses à différents niveaux d’alphabétisation. Pour cette analyse, ChatGPT a été invité à fournir des instructions à un niveau de lecture de cinquième année.
« ChatGPT fournit des réponses directes souvent bien écrites, détaillées et au format si-alors, qui permettent aux patients d’accéder à des informations immédiates en attendant de joindre un clinicien », ont écrit les chercheurs.
Pourtant, Asch dit que ChatGPT est mieux considéré comme un support pour les médecins que comme un guide pour les patients. Il est préférable de l’utiliser « à une étape éloignée de la rencontre clinique », dans des situations à faible risque pour le patient, a-t-il déclaré.
« J’ai un sens très optimiste de cela, mais tout repose sur le fait de fonctionner dans les garde-fous de la vérité. Et pour le moment, je ne sais pas si des garde-fous de la vérité existent dans la manière dont ChatGPT construit ses réponses », a-t-il déclaré. .