فناوری

گوگل با قابلیت جدیدی سرعت مدل‌های Gemma 4 را تا سه برابر افزایش می‌دهد

دیجیاتو digiato نظرات: ۰ 3 ساعت پیش زمان تقریبی مطالعه: 2 دقیقه

گوگل بهار امسال مدل‌های متن‌باز Gemma 4 را منتشر کرد که برای اجرای آفلاین روی گوشی و کامپیوتر بسیار مناسب هستند. اکنون گوگل با قابلیت جدید «پیش‌بینی چندتوکنی» (MTP) این مدل‌ها را سریع‌تر از قبل کرده است. گوگل می‌گوید این مدل‌های آزمایشی می‌توانند چند توکن آتی را پیش‌بینی کنند که در مقایسه با روش قدیمی‌تر مدل‌های عادی، سرعت تولید متن تا سه برابر بیشتر خواهد شد.

یکی از بزرگ‌ترین موانع در اجرای مدل‌های محلی، محدودیت پهنای باند حافظه در سیستم‌های معمولی است. اکثر سیستم‌های خانگی فاقد حافظه‌های HBM موجود در سرورها هستند و زمان زیادی از چرخه پردازنده صرف انتقال داده‌ها از حافظه گرافیکی به واحدهای محاسباتی می‌شود. مدل‌های زبانی به‌طور معمول به روش خودبازگشتی عمل می‌کنند و برای هر توکن، فارغ از میزان پیچیدگی آن، توان پردازشی یکسانی را مصرف می‌کنند. تکنولوژی MTP با یک مفسر سبک‌وزن (مانند نسخه E2B با ۷۴ میلیون پارامتر) از زمان‌های تلف‌شده پردازنده بهره می‌برد و توکن‌های آینده را پیش‌بینی می‌کند. درواقع این مفسرها با استفاده از حافظه KV Cache مشترک با مدل اصلی، از محاسبات تکراری جلوگیری می‌کند.

در این فرایند، توکن‌های پیش‌بینی‌شده توسط مفسر به‌صورت موازی با مدل اصلی تأیید می‌شوند. اگر پیش‌بینی‌ها درست باشد، کل توالی در یک عملیات واحد پذیرفته می‌شود که این امر منجر به افزایش چشمگیر کارایی می‌گردد.

افزایش سرعت مدل‌های Gemma 4 با ویژگی جدید

فناوری اصلی مدل‌های Gemma 4 مستقیماً از هوش مصنوعی پیشرفته جمینای الهام گرفته شده است، با این تفاوت که برخلاف جمینای که برای اجرا در خوشه‌های بزرگ دیتاسنتر و تراشه‌های اختصاصی TPU گوگل بهینه‌شده، Gemma برای اجرا روی دستگاه‌های کاربران تنظیم شده است.

درحالی‌که جمینای از پهنای باند فوق‌سریع و حافظه‌های اختصاصی بهره می‌برد، مدل‌های Gemma به گونه‌ای طراحی شده‌اند که حتی بزرگ‌ترین نسخه‌های آنها با دقت کامل روی یک شتاب‌دهنده هوش مصنوعی تکی اجرا شوند. همچنین با استفاده از فرایند کوانتایزکردن، امکان اجرای این مدل‌های قدرتمند روی پردازشگر‌های گرافیکی معمولی و خانگی فراهم شده است تا کاربران بتوانند بدون نیاز به ارسال داده‌های خصوصی خود به فضاهای ابری، از قدرت هوش مصنوعی روی سخت‌افزار شخصی‌شان استفاده کنند.

طبق داده‌های گوگل، این روش هیچ‌گونه افت کیفیتی در خروجی نهایی ایجاد نمی‌کند، زیرا تمامی نتایج توسط هسته اصلی مدل راستی‌آزمایی می‌شوند. این بهینه‌سازی در آزمایش‌های عملی خیره‌کننده بوده است؛ به‌طوری‌که سرعت اجرا در گوشی‌های پیکسل برای مدل‌های E2B و E4B به ترتیب ۲.۸ و ۳.۱ برابر افزایش یافته و مدل ۳۱ میلیاردی Gemma 4 روی تراشه‌های M4 اپل نیز بهبود سرعتی معادل ۲.۵ برابر را تجربه کرده است.

علاوه‌بر سرعت، استفاده از MTP منجر به بهبود طول عمر باتری در دستگاه‌های موبایل و سهولت اجرای مدل‌های سنگین‌تری مانند 26B MoE و 31B Dense روی سخت‌افزارهای مختلف شده است. گوگل همچنین با تغییر مجوز این مدل‌ها به Apache 2.0، دست توسعه‌دهندگان را برای استفاده گسترده‌تر و آزادانه‌تر باز گذاشته است. کاربران می‌توانند این مدل‌های ارتقایافته را در پلفترم‌هایی مانند SGLang و Ollama تست کنند.