فناوری

مدل Claude Opus 4.8 معرفی شد؛ بهتر از GPT-5.5 با صداقت بیشتر [تماشا کنید]

دیجیاتو digiato نظرات: ۰ 1 ساعت پیش زمان تقریبی مطالعه: 4 دقیقه

شرکت آنتروپیک از نسخه جدید و ارتقایافته هوش مصنوعی پرچمدار خود با نام Claude Opus 4.8 رونمایی کرد. این مدل که بر پایه نسخه قبلی یعنی Opus 4.7 توسعه یافته، در بنچمارک‌های مختلف عملکرد بهتری از خود نشان داده و همکاری موثرتری را با کاربران رقم می‌زند. براساس اعلام شرکت، این به‌روزرسانی با همان قیمت سابق در دسترس کاربران قرار گرفته است.

ویژگی‌ها و قابلیت‌های جدید Claude Opus 4.8

مدل جدید با چندین ویژگی کاربردی در وب‌سایت آنتروپیک معرفی شده است. کاربران در پلتفرم claude.ai اکنون می‌توانند میزان تلاش و تفکر مدل را برای انجام یک وظیفه کنترل کنند. پیش‌تر گوگل نیز چنین ویژگی را برای جمینای ارائه کرده بود. همچنین ابزار هوش مصنوعی توسعه‌دهندگان این شرکت یعنی Claude Code به قابلیت جدید «Dynamic Workflows» مجهز شده که به هوش مصنوعی اجازه می‌دهد صدها زیرعامل (Subagent) را به‌صورت موازی برای حل مشکلات بسیار بزرگ در سطح کدهای کلان مدیریت و بررسی کند. در این حالت خود هوش مصنوعی پیش از ارائه گزارش نهایی به کاربر، خروجی کار را بررسی و ارزیابی می‌کند.

علاوه‌بر‌این، حالت سریع (Fast mode) برای این مدل ارائه شده که می‌تواند با ۲.۵ برابر سرعت بیشتر کار کند و هزینه آن نیز ۳ برابر ارزان‌تر از مدل‌های قبلی است. ویدیو زیر که توسط آنتروپیک منتشر شده، نشان می‌دهد که چگونه ترکیب مدل Claude Opus 4.8 و ابزار Claude Code به برنامه‌نویسان اجازه می‌دهد تا وظایف طولانی و پیچیده را به هوش مصنوعی بسپارند.

اولین آزمایش‌کنندگان Claude Opus 4.8 گزارش داده‌اند که این مدل در انجام وظایف عامل‌محور (Agentic) بسیار قابل‌اعتمادتر و دقیق‌تر عمل می‌کند. طبق داده‌های رسمی منتشرشده، Claude Opus 4.8 در بیشتر بنچمارک‌های کلیدی هوش مصنوعی نسبت به نسخه قبلی خود (Opus 4.7) و رقبای سرسختی چون GPT-5.5 و Gemini 3.1 Pro دست بالا را دارد.

این مدل در آزمون کدنویسی عامل‌محورِ SWE-Bench Pro با کسب امتیاز ۶۹.۲ درصد و در بخش استفاده ایجنتی از کامپیوتر (OSWorld-Verified) با امتیاز ۸۳.۴ درصد، بالاترین کارایی را در میان تمام مدل‌ها به ثبت رسانده است. در آزمون استدلال چندرشته‌ای (Humanity’s Last Exam)، مدل جدید آنتروپیک چه در حالت بدون ابزار (۴۹.۸ درصد) و چه با استفاده از ابزارها (۵۷.۹ درصد) پیشتاز رقابت است و در حوزه‌های تخصصی مانند کار با دانش (GDPval-AA با امتیاز ۱۸۹۰ و تحلیل مالی عاملی با ۵۳.۹ درصد نیز برتری خود را حفظ کرده است.

تنها استثنا در این ارزیابی‌ها، بنچمارک کدنویسی عاملی در محیط ترمینال (Terminal-Bench 2.1) است که در آن GPT-5.5 با امتیاز ۷۸.۲ درصد رتبه اول را در اختیار دارد و Opus 4.8 با ثبت امتیاز ۷۴.۶ درصد در جایگاه دوم ایستاده است.

یکی از برجسته‌ترین بهبودهای صورت‌گرفته در این مدل، افزایش صداقت و خودآگاهی مدل است. مدل‌های هوش مصنوعی معمولاً تمایل دارند سریعاً به نتیجه‌گیری بپردازند و حتی بدون وجود شواهد کافی، ادعای پیشرفت در کار کنند. بااین‌حال، تست‌های اولیه نشان می‌دهند که Opus 4.8 با احتمال بیشتری عدم قطعیت‌های خود را اعلام می‌کند و ادعاهای بی‌اساس نمی‌سازد. ارزیابی‌ها حاکی از آن است که احتمال نادیده گرفتن خطاها در کدهای نوشته‌شده توسط این مدل، حدود ۴ برابر کمتر از نسخه قبلی است.

تیم همگام‌سازی آنتروپیک نیز تأیید کرده که رفتارهای نامناسب مدل (مانند فریب‌کاری یا همکاری در سوءاستفاده) به شکل چشمگیری نسبت به نسخه ۴.۷ کاهش یافته و به سطح ایمن‌ترین مدل این شرکت یعنی Claude Mythos Preview رسیده است.

مدل جدید به‌طور پیش‌فرض روی حالت «پرتلاش» (High Effort) تنظیم شده است که بهترین تعادل را میان کیفیت و تجربه کاربری ایجاد می‌کند. با‌این‌حال کاربران می‌توانند تنظیمات را روی حالت‌های بالاتر (Extra یا Max) قرار دهند تا مدل با صرف توکن بیشتر، عمیق‌تر فکر کند و نتایج بهتری برای کارهای پیچیده ارائه دهد. همچنین در بخش Messages API، توسعه‌دهندگان اکنون می‌توانند دستورالعمل‌های سیستم را در میان خروجی پیام‌ها به‌روزرسانی کنند، بدون اینکه حافظه پنهان پرامپت دچار مشکل شود.

قیمت‌گذاری و برنامه‌های آینده آنتروپیک

آنتروپیک اعلام کرده است که در قالب پروژه Glasswing، درحال‌حاضر مدل بسیار پیشرفته‌تری به نام Claude Mythos Preview را برای کارهای امنیت سایبری در اختیار تعداد محدودی از سازمان‌ها قرار داده است. این شرکت قصد دارد پس از اعمال تدابیر امنیتی شدیدتر، مدل‌های کلاس Mythos را که هوش بالاتری نسبت به Opus دارند، در هفته‌های آینده به صورت عمومی عرضه کند.

درحال‌حاضر هزینه استفاده معمولی از Claude Opus 4.8 تغییری نکرده و به ازای هر میلیون توکن ورودی ۵ دلار و هر میلیون توکن خروجی ۲۵ دلار است. قیمت حالت سریع نیز ۱۰ دلار برای هر میلیون توکن ورودی و ۵۰ دلار برای هر میلیون توکن خروجی تعیین شده است.