فناوری

مطالعه جدید:‌ هوش مصنوعی در ۸۰ درصد مواقع در تشخیص اولیه بیماری‌ها شکست می‌خورد

دیجیاتو digiato نظرات: ۰ 3 ساعت پیش زمان تقریبی مطالعه: 2 دقیقه

مطالعه‌ای جدید نشان داده است که مدل‌های هوش مصنوعی هنوز برای استفاده پزشکی آماده نیستند. در این پژوهش مدل‌های زبانی نتوانسته در ۸۰ درصد مواقع تشخیص اولیه مناسبی برای بیماری‌ها داشته باشند. محققان می‌گویند هوش مصنوعی مولد فاقد قابلیت استدلال مناسب برای استفاده بالینی ایمن است.

محققان بیمارستان Mass General Brigham بوستون دریافتند که چت‌بات‌های هوش مصنوعی در مواجهه با اطلاعات بالینی جامع عملکرد خوبی در تشخیص بیماری‌ها پیدا کرده‌اند، اما همچنان در تشخیص افتراقی در بیش از ۸۰ درصد مواقع شکست می‌خورند.

عملکرد ناموفق مدل‌های هوش مصنوعی در تشخیص افتراقی بیماری‌ها

پژوهشگران در این مطالعه ۲۱ مدل زبانی بزرگ ازجمله جدیدترین نسخه‌های جمینای، GPT، گراک، Claude و دیپ‌سیک را آزمایش کردند. آن‌ها این مدل‌ها را از طریق ابزاری موسوم به PrIME-LLM در ۲۹ آزمون بالینی استاندارد تحت ارزیابی قرار دادند. این ابزار توانایی‌های مدل را در مراحل مختلف استدلال بالینی بررسی می‌کند: از تشخیص اولیه و مرتب‌سازی نتایج آزمایشات گرفته، تا رسیدن به تشخیص نهایی و برنامه‌ریزی برای درمان.

محققان می‌گویند مدل‌های زبانی در رسیدن به تشخیص نهایی دقت بالایی داشتند، اما در تشخیص افتراقی و عبور از تردیدها ضعیف عمل کردند. تشخیص افتراقی مرحله‌ای حیاتی در تشخیص‌های پزشکی است که طی آن متخصصان یک بیماری را شناسایی و آن را از سایر علائم متمایز می‌کنند.

همه مدل‌ها در بیش از ۸۰ درصد مواقع در تشخیص افتراقی ناموفق عمل می‌کردند، اما با دریافت اطلاعات جامع، در تشخیص نهایی نرخ موفقیت حدود ۶۰ تا ۹۰ درصدی داشتند. طبق این تحقیق، مدل‌های گراک ۴، جی‌پی‌تی ۵، جی‌پی‌تی ۴.۵، کلود ۴.۵ اوپوس، جمینای ۳ فلش و جمینای ۳ پرو از بقیه بهتر ظاهر شدند.

پژوهشگران یادآور شده‌اند که مدل‌های عمومی برای استدلال بالینی مهارت‌های کافی ندارند و برای این کاربردها باید به‌سراغ مدل‌های تخصصی‌تر رفت. بنابراین ضروری است که در صورت استفاده از هوش مصنوعی در امور پزشکی، همچنان انسان‌ها در این فرایند حضور داشته باشند تا نتیجه کار را بررسی کنند.

نتایج این تحقیق در ژورنال JAMA Network Open منتشر شده است.