شرکت OpenAI بهتازگی اعلام کرده با رونمایی از نسخه جدید هوش مصنوعی صوتی خود در API، حالا میتواند نقش پررنگتری را در توسعه اپلیکیشنهای مکالمهمحور ایفا کند. این API برای ساخت اپهایی طراحی شده که روی صحبت، مکالمه و ترجمه جملات کاربران متمرکز هستند. در واقع با چندین مدل هوش صوتی مواجهیم که ترکیب آنها، تجربهای تازه را بهارمغان میآورد.
هوش مصنوعی GPT-Realtime-2 از راه رسید؛ چه تغییرات جدیدی را شاهدیم؟
مدل صوتی جدید OpenAI برای شبیهسازی صوتی واقعگرایانه ساخته شده و میتواند تجربه مکالمه خوبی را برای کاربران فراهم کند. هوش صوتی GPT-Realtime-2 برخلاف نسل پیشین خود از قابلیت استدلال با هوش مصنوعی GPT-5 برخوردار شده که میتواند آن را برای پاسخگویی به درخواستهای پیچیده کاربران آماده کند.
سرویس GPT-Realtime-Translate نیز از راه رسیده و همانطور که از نامش پیداست، از امکان ترجمه زنده متون و جملات بهرهمند شده است. این هوش مصنوعی مترجم از بیشاز ۷۰ زبان ورودی و ۱۳ زبان خروجی (برای ترجمه نهایی) پشتیبانی میکند. درنهایت GPT-Realtime-Whisper نیز توسط OpenAI ارائه شده تا با تبدیل سریع صحبتهای کاربر به متن، شما را عملاً از یادداشتنویسی و تایپ بینیاز کند.
تمام این مدلهای هوش صوتی با برچسب «Realtime API» در اختیار توسعهدهندگان قرار خواهند گرفت. بنابراین توسعهدهندگان میتوانند با دردسر و مشقت کمتری قابلیتهای مرتبط با مکالمه را به اپلیکیشنهای خود اضافه کنند. هزینه استفاده از سرویسهای Translate و Whisper بهصورت دقیقهای خواهد بود؛ اما هزینه استفاده از سرویس GPT-Realtime-2 براساس میزان توکن مصرفی کاربر محاسبه خواهد شد.
OpenAI برای تأمین هرچه بیشتر امنیت، حفاظهای امنیتی خاصی را برای مدلهای جدیدش طراحی کرده تا از سوءاستفاده برخی کاربران برای اسپم، کلاهبرداری و سایر جرایم اینترنتی جلوگیری کند. بنابراین اگر گفتگوها با این مدلهای صوتی بهسمت محتوای مضر سوق پیدا کنند، بهطور خودکار متوقف میشوند.
