تیمی از محققان پزشکی در دانشکده پزشکی و دندانپزشکی Schulich دانشگاه غربی دریافتند که علیرغم آموزش روی ترابایت داده، ( Large Language Model) LLM ChatGPT هنوز در تشخیص بیماری های انسانی خوب نیست. این گروه در مطالعه خود که در سایت دسترسی آزاد PLOS ONE منتشر شد ، LLM محبوب را بر روی 150 مطالعه موردی آموزش داد و آن را وادار کرد تا تشخیص دهد.

تحقیقات قبلی و شواهد حکایتی نشان داده‌اند که LLM‌هایی مانند ChatGPT می‌توانند نتایج چشمگیری را در برخی از درخواست‌ها، مانند نوشتن یک شعر عاشقانه برای یک دوست دختر، ارائه دهند، اما همچنین می‌تواند پاسخ‌های نادرست یا عجیب و غریب را نیز به همراه داشته باشد. بسیاری در این زمینه هنگام استفاده از نتایج تولید شده توسط LLM برای موضوعات مهمی مانند توصیه های بهداشتی احتیاط را توصیه کرده اند.

برای این مطالعه جدید، تیمی در کانادا ارزیابی کردند که ChatGPT در صورت داشتن علائم بیماران واقعی همانطور که در مطالعات موردی واقعی توضیح داده شده است، چقدر خوب بیماری های انسانی را تشخیص می دهد. آنها 150 مطالعه موردی را از Medscape، یک وب‌سایت آنلاین که توسط متخصصان پزشکی برای مقاصد اطلاعاتی و آموزشی ایجاد و استفاده می‌شود، انتخاب کردند که با تشخیص دقیق شناخته شده همراه بود . آنها ChatGPT 3.5 را با داده‌های مربوطه، مانند تاریخچه بیمار، نتایج آزمایشگاهی و یافته‌های معاینه مطب، آموزش دادند و سپس از آن برای تشخیص و/یا طرح درمان خواستند.

پس از اینکه LLM پاسخی را برگرداند، تیم تحقیقاتی نتایج خود را بر اساس میزان نزدیک بودن به تشخیص صحیح درجه بندی کردند. آنها همچنین آن را بر اساس میزان منطقی بودن آن در رسیدن به تشخیص خود، از جمله ارائه استنادها – بخش مهمی از تشخیص پزشکی – درجه بندی کردند. آنها سپس میانگین نمرات دریافتی را برای همه مطالعات موردی محاسبه کردند و دریافتند که LLM فقط در 49٪ مواقع تشخیص درست می دهد.

محققان خاطرنشان می‌کنند که اگرچه LLM امتیاز ضعیفی کسب کرد، اما عملکرد خوبی را در توصیف چگونگی رسیدن به تشخیص خود انجام داد. مشخصه‌ای که تیم پیشنهاد می‌کند ممکن است برای دانشجویان پزشکی مفید باشد. آنها همچنین خاطرنشان کردند که LLM در رد کردن بیماری های احتمالی به خوبی عمل می کند. آنها با پیشنهاد این که LLM ها هنوز برای استفاده در تنظیمات تشخیصی آماده نیستند نتیجه گیری می کنند.