فناوری

هوش صوتی برای تعاملات بهتر؛ OpenAI از مدل جدید خود برای توسعه‌دهندگان رونمایی کرد

دیجیاتو digiato نظرات: ۰ 3 ساعت پیش زمان تقریبی مطالعه: 1 دقیقه

شرکت OpenAI به‌تازگی اعلام کرده با رونمایی از نسخه جدید هوش مصنوعی صوتی خود در API، حالا می‌تواند نقش پررنگ‌تری را در توسعه اپلیکیشن‌های مکالمه‌محور ایفا کند. این API برای ساخت اپ‌هایی طراحی شده که روی صحبت، مکالمه و ترجمه جملات کاربران متمرکز هستند. در واقع با چندین مدل هوش صوتی مواجهیم که ترکیب آن‌ها، تجربه‌ای تازه را به‌ارمغان می‌آورد.

هوش مصنوعی GPT-Realtime-2 از راه رسید؛ چه تغییرات جدیدی را شاهدیم؟

مدل صوتی جدید OpenAI برای شبیه‌سازی صوتی واقع‌گرایانه ساخته شده و می‌تواند تجربه مکالمه خوبی را برای کاربران فراهم کند. هوش صوتی GPT-Realtime-2 برخلاف نسل پیشین خود از قابلیت استدلال با هوش مصنوعی GPT-5 برخوردار شده که می‌تواند آن را برای پاسخگویی به درخواست‌های پیچیده کاربران آماده کند.

سرویس GPT-Realtime-Translate نیز از راه رسیده و همان‌طور که از نامش پیداست، از امکان ترجمه زنده متون و جملات بهره‌مند شده است. این هوش مصنوعی مترجم از بیش‌از ۷۰ زبان ورودی و ۱۳ زبان خروجی (برای ترجمه نهایی) پشتیبانی می‌کند. درنهایت GPT-Realtime-Whisper نیز توسط OpenAI ارائه شده تا با تبدیل سریع صحبت‌های کاربر به متن، شما را عملاً از یادداشت‌نویسی و تایپ بی‌نیاز کند.

تمام این مدل‌های هوش صوتی با برچسب «Realtime API» در اختیار توسعه‌دهندگان قرار خواهند گرفت. بنابراین توسعه‌دهندگان می‌توانند با دردسر و مشقت کم‌تری قابلیت‌های مرتبط با مکالمه را به اپلیکیشن‌های خود اضافه کنند. هزینه استفاده از سرویس‌های Translate و Whisper به‌صورت دقیقه‌ای خواهد بود؛ اما هزینه استفاده از سرویس GPT-Realtime-2 براساس میزان توکن مصرفی کاربر محاسبه خواهد شد.

OpenAI برای تأمین هرچه بیشتر امنیت، حفاظ‌های امنیتی خاصی را برای مدل‌های جدیدش طراحی کرده تا از سوءاستفاده برخی کاربران برای اسپم، کلاهبرداری و سایر جرایم اینترنتی جلوگیری کند. بنابراین اگر گفتگوها با این مدل‌های صوتی به‌سمت محتوای مضر سوق پیدا کنند، به‌طور خودکار متوقف می‌شوند.