گوگل بهار امسال مدلهای متنباز Gemma 4 را منتشر کرد که برای اجرای آفلاین روی گوشی و کامپیوتر بسیار مناسب هستند. اکنون گوگل با قابلیت جدید «پیشبینی چندتوکنی» (MTP) این مدلها را سریعتر از قبل کرده است. گوگل میگوید این مدلهای آزمایشی میتوانند چند توکن آتی را پیشبینی کنند که در مقایسه با روش قدیمیتر مدلهای عادی، سرعت تولید متن تا سه برابر بیشتر خواهد شد.
یکی از بزرگترین موانع در اجرای مدلهای محلی، محدودیت پهنای باند حافظه در سیستمهای معمولی است. اکثر سیستمهای خانگی فاقد حافظههای HBM موجود در سرورها هستند و زمان زیادی از چرخه پردازنده صرف انتقال دادهها از حافظه گرافیکی به واحدهای محاسباتی میشود. مدلهای زبانی بهطور معمول به روش خودبازگشتی عمل میکنند و برای هر توکن، فارغ از میزان پیچیدگی آن، توان پردازشی یکسانی را مصرف میکنند. تکنولوژی MTP با یک مفسر سبکوزن (مانند نسخه E2B با ۷۴ میلیون پارامتر) از زمانهای تلفشده پردازنده بهره میبرد و توکنهای آینده را پیشبینی میکند. درواقع این مفسرها با استفاده از حافظه KV Cache مشترک با مدل اصلی، از محاسبات تکراری جلوگیری میکند.
در این فرایند، توکنهای پیشبینیشده توسط مفسر بهصورت موازی با مدل اصلی تأیید میشوند. اگر پیشبینیها درست باشد، کل توالی در یک عملیات واحد پذیرفته میشود که این امر منجر به افزایش چشمگیر کارایی میگردد.
افزایش سرعت مدلهای Gemma 4 با ویژگی جدید
فناوری اصلی مدلهای Gemma 4 مستقیماً از هوش مصنوعی پیشرفته جمینای الهام گرفته شده است، با این تفاوت که برخلاف جمینای که برای اجرا در خوشههای بزرگ دیتاسنتر و تراشههای اختصاصی TPU گوگل بهینهشده، Gemma برای اجرا روی دستگاههای کاربران تنظیم شده است.
درحالیکه جمینای از پهنای باند فوقسریع و حافظههای اختصاصی بهره میبرد، مدلهای Gemma به گونهای طراحی شدهاند که حتی بزرگترین نسخههای آنها با دقت کامل روی یک شتابدهنده هوش مصنوعی تکی اجرا شوند. همچنین با استفاده از فرایند کوانتایزکردن، امکان اجرای این مدلهای قدرتمند روی پردازشگرهای گرافیکی معمولی و خانگی فراهم شده است تا کاربران بتوانند بدون نیاز به ارسال دادههای خصوصی خود به فضاهای ابری، از قدرت هوش مصنوعی روی سختافزار شخصیشان استفاده کنند.

طبق دادههای گوگل، این روش هیچگونه افت کیفیتی در خروجی نهایی ایجاد نمیکند، زیرا تمامی نتایج توسط هسته اصلی مدل راستیآزمایی میشوند. این بهینهسازی در آزمایشهای عملی خیرهکننده بوده است؛ بهطوریکه سرعت اجرا در گوشیهای پیکسل برای مدلهای E2B و E4B به ترتیب ۲.۸ و ۳.۱ برابر افزایش یافته و مدل ۳۱ میلیاردی Gemma 4 روی تراشههای M4 اپل نیز بهبود سرعتی معادل ۲.۵ برابر را تجربه کرده است.
علاوهبر سرعت، استفاده از MTP منجر به بهبود طول عمر باتری در دستگاههای موبایل و سهولت اجرای مدلهای سنگینتری مانند 26B MoE و 31B Dense روی سختافزارهای مختلف شده است. گوگل همچنین با تغییر مجوز این مدلها به Apache 2.0، دست توسعهدهندگان را برای استفاده گستردهتر و آزادانهتر باز گذاشته است. کاربران میتوانند این مدلهای ارتقایافته را در پلفترمهایی مانند SGLang و Ollama تست کنند.
