یک چت بات در فرآیند استدلال بالینی در یک مطالعه از پزشکان عملکرد بهتری داشت
چت بات هوش مصنوعی پزشکی درمان
یک چت بات در فرآیند استدلال بالینی در یک مطالعه از پزشکان عملکرد بهتری داشت
ChatGPT-4 (یک برنامه هوش مصنوعی که برای درک و تولید متنی شبیه کلام انسان طراحی شده است) در پردازش داده های پزشکی و نشان دادن استدلال بالینی از دستیاران داخلی و استادان در دو مرکز پزشکی دانشگاهی بهتر عمل کرد. در یک نامه تحقیقاتی منتشر شده در JAMA Internal Medicine، پزشکان و دانشمندان مرکز پزشکی BIDMC توانایی های استدلال یک مدل زبان بزرگ (Large Language Model) را با استفاده از استانداردهای توسعه یافته برای ارزیابی پزشکان، مستقیماً با عملکرد انسان مقایسه کردند.
دکتر آدام رادمن، پزشک داخلی و محقق در دانشکده پزشکی در BIDMC، گفت: "خیلی زود مشخص شد که LLM ها می توانند بیماری ها را تشخیص دهند، اما هر کسی که طبابت می کند می داند که پزشکی چیزهای بیشتری از این دارد." "مرحله های متعددی پشت تشخیص وجود دارد، بنابراین ما می خواستیم ارزیابی کنیم که آیا LLM ها در انجام استدلال بالینی به خوبی پزشکان هستند یا خیر. این یک یافته شگفت انگیز است که چت بات ها می توانند استدلالی معادل یا بهتر از انسان ها در طول ارزیابی یک مورد بالینی نشان دهند.."
رادمن و همکارانش از ابزاری که قبلاً اعتبارسنجی شده بود (امتیاز تجدیدنظر شده- r-IDEA score) برای ارزیابی استدلال بالینی پزشکان استفاده کردند. محققان 21 استاد و 18 دستیار را انتخاب کردند که هر کدام از این پزشکان بر روی یکی از 20 مورد انتخابی بالینی شامل چهار مرحله متوالی استدلال تشخیصی کار کردند. محققان از پزشکان خواستند که تشخیص های افتراقی خود را در هر مرحله بنویسند و توجیه کنند. به چت بات GPT-4 دستورات یکسانی داده شد و همه 20 مورد بالینی را تجزیه و تحلیل کرد. سپس پاسخهای آنها برای استدلال بالینی (نمره r-IDEA) و چندین معیار دیگر استدلال نمرهگذاری شد.
استفانی کابرال، سرپرست تیم تحقیق، رزیدنت سال سوم طب داخلی در BIDMC، میگوید: «مرحله اول دادههای تریاژ است، زمانی كه بیمار به شما میگوید چه چیزی او را آزار میدهد و علائم حیاتی را ارزیابی می کنید . مرحله دوم بررسی سیستمی است که اطلاعات تکمیلی را از بیمار دریافت می کنید مرحله سوم معاینه فیزیکی و چهارم آزمایش تشخیصی و تصویربرداری است.
رادمن، کابرال و همکارانشان دریافتند که چت بات بالاترین امتیاز r-IDEA را به دست آورده است، با میانه امتیاز 10 از 10 برای LLM، 9 برای استادان و 8 برای رزیدنت ها. وقتی صحبت از دقت تشخیصی به میان می آید انسان ها و بات تقریبا با هم مساوی بودند. اما محققان دریافتند رباتها موردهای بیشتری از استدلال نادرست در پاسخهای خود داشتند. ( به میزان قابلتوجهی بیشتر از رزیدنت ها. این یافته بر این تصور تاکید می کند که هوش مصنوعی احتمالاً به عنوان ابزاری برای تقویت، نه جایگزینی، فرآیند استدلال انسان مفید خواهد بود.
کابرال گفت: "مطالعات بیشتری برای تعیین اینکه چگونه LLM ها می توانند به بهترین شکل در جریان معاینه و تشخیص بالینی ادغام شوند، مورد نیاز است، اما حتی در حال حاضر، آنها می توانند به عنوان یک ایست بازرسی مفید باشند و به ما کمک کنند مطمئن شویم چیزی را از دست نمی دهیم." «امید نهایی من این است که هوش مصنوعی با کاهش برخی از ناکارآمدیهایی که در حال حاضر داریم، تعامل بیمار و پزشک را بهبود بخشد و به ما اجازه دهد بیشتر روی ارتباطی که با بیماران خود داریم تمرکز کنیم.
رادمن گفت: "مطالعات اولیه نشان می دهد که اگر تمام اطلاعات در اختیار هوش مصنوعی قرار گیرد، آنگاه هوش مصنوعی می تواند بیماری ها را تشخیص دهد." "چیزی که مطالعه ما نشان می دهد این است که هوش مصنوعی توانایی واقعی اسندلال بالینی را بروز می دهد (شاید حتی استدلال بهتری نسبت به انسان ها در طی مراحل مختلف فرآیند تشخیص). این امر یک شانس منحصر به فرد برای بهبود کیفیت و تجربه مراقبت های بهداشتی در اختیار ما قرار می دهد."
D.E-03-01-20