فناوری

مدل ChatGPT Images 2.0 معرفی شد؛ رقیب نانوبنانا با دقت خیره‌کننده در تولید متن

دیجیاتو digiato نظرات: ۰ 3 ساعت پیش زمان تقریبی مطالعه: 4 دقیقه

حدود یک سال پس از آنکه OpenAI به کاربران ChatGPT اجازه داد تا تصاویر و طراحی‌های مدنظر خود را مستقیماً داخل این چت‌بات خلق کنند، حالا این شرکت ChatGPT Images 2.0 را منتشر کرده تا با مدل نانو بنانا گوگل رقابت کند. این سیستم به‌عنوان گامی بزرگ برای مدل‌های تولید تصویر معرفی شده که می‌تواند دستورالعمل‌ها را دقیق دنبال کند، متن بسازد و اشیا را درون صحنه قرار دهد.

معرفی مدل هوش مصنوعی ChatGPT Images 2.0

مدل‌های هوش مصنوعی تصویرساز از دیرباز در تولید متن چالش داشته‌اند اما Images 2.0 در زمینه فهم متون غیرلاتین در زبان‌هایی مثل ژاپنی، کره‌ای، هندی و بنگالی عملکرد بسیار بهتری دارد. در بیانیه OpenAI آمده است:

«مدل Images 2.0 سطح بی‌بدیلی از تخصص و وفاداری را در زمینه تولید تصویر ارائه می‌کند. این مدل نه‌تنها می‌تواند تصاویر پیچیده‌تر بسازد، بلکه به بینش خود بهتر حیات می‌بخشد، می‌تواند دستورالعمل‌ها را دنبال کند، جزئیات خواسته‌شده را رعایت نماید، و عناصر دقیقی را رندر کند که معمولاً مدل‌های تصویرساز را دچار مشکل می‌کنند، عناصری مثل متون کوچک، نمادها، عناصر رابط کاربری، ترکیب‌های متراکم و محدودیت‌های سبک طراحی. همه این خروجی‌ها تا رزولوشن 2K قابل تولید هستند.»

اگر از Images 2.0 بخواهید منوی غذاهای یک رستوران مکزیکی را تولید کند، خروجی کار چیزی است که بلافاصله در یک رستوران واقعی قابل استفاده خواهد بود.

جهت مقایسه، دو سال پیش همین پرامپت به DALL-E 3 داده شده بود که خروجی زیر را تولید کرد:

مدل Images 2.0 به اندازه ChatGPT در تولید پاسخ سریع نیست، اما در عرض چند دقیقه می‌تواند طرح‌های پیچیده‌ای مثل کامیک‌های چند صفحه‌ای را خلق کند. این مدل اولین مدل تصویرساز با قابلیت استدلال است که اجازه می‌دهد هوش مصنوعی در وب جستجو و خروجی‌ها را بررسی کند. در نتیجه دقت مدل افزایش می‌یابد.

OpenAI می‌گوید مدل Images 2.0 به‌طور خاص در انجام کارهایی مثل تهیه پروتوتایپ بازی‌ها و استوری‌برد فیلم‌ها خوب عمل می‌کند. این مدل در بخش تنظیم نسبت تصویر هم انعطاف‌پذیری خوبی دارد و می‌تواند تصاویری با نسبت ۳:۱ و حتی ۱:۳ تولید کند.

تمام کاربران رایگان و پولی ChatGPT و Codex از امروز می‌توانند از مدل Images 2.0 استفاده کنند. کاربران اشتراک‌های پولی قادر به تولید خروجی‌های پیشرفته‌تر خواهند بود. OpenAI همچنین API مدل gpt-image-2 را در دسترس قرار می‌دهد و هزینه آن براساس کیفیت و رزولوشن خروجی تعیین خواهد شد.