صدای انسان‌گونه‌تر، ترجمه همزمان و تعامل واقعی‌تر؛ تحول تازه در نسخه صوتی ChatGPT

زمان انتشار: 13 ژوئن 2025 ساعت 18:20

دسته بندی: فناوری

شناسه خبر: 406872

زمان مطالعه: 8 دقیقه

صدای انسان‌گونه‌تر، ترجمه همزمان و تعامل واقعی‌تر؛ تحول تازه در نسخه صوتی ChatGPT

شرکت OpenAI در تازه‌ترین به‌روزرسانی خود، قابلیت‌های صوتی دستیار هوشمند ChatGPT را به‌طور چشمگیری ارتقاء داده است؛ ارتقایی که نه‌تنها به طبیعی‌تر شدن صدا کمک می‌کند، بلکه امکان ترجمه همزمان مکالمات را نیز در اختیار کاربران قرار می‌دهد.

به گزارش gsxr و به نقل از The Decoder، بر اساس اطلاعات رسمی منتشرشده از سوی OpenAI، نسخه جدید «حالت پیشرفته صوتی» (Advanced Voice Mode) اکنون توانایی بیشتری در بازتولید صداهایی با لحن طبیعی، حس همدلی، طعنه، مکث‌های انسانی و حتی بیان عاطفی دارد.

این یعنی ChatGPT می‌تواند مانند یک گوینده واقعی احساسات را در صدایش منعکس کند؛ چه در لحن دلسوزانه پاسخ دهد، چه با طعنه سخن بگوید.

ترجمه همزمان در لحظه، بدون توقف

یکی از مهم‌ترین ویژگی‌های افزوده‌شده در این نسخه، امکان «ترجمه همزمان گفت‌وگو» بین زبان‌های مختلف است. کاربران می‌توانند از ChatGPT بخواهند تا مکالمه‌ای میان دو زبان خاص را به‌صورت زنده ترجمه کند.

شرکتOpenAI پیشنهاد می‌کند که این ویژگی می‌تواند در موقعیت‌های عملی مانند سفارش غذا در رستورانی خارجی، جلسات کاری چندزبانه یا حتی مکالمه با یک گردشگر در خیابان، کارایی بالایی داشته باشد.

گفتنی است شرکت‌هایی مانند گوگل نیز اخیراً ویژگی‌های مشابهی را در اپلیکیشن Gemini ارائه داده‌اند، اما OpenAI در تلاش است با تمرکز بر کیفیت صوت، تطابق عاطفی و تعامل طبیعی، تجربه‌ای متفاوت و کاربرمحورتر خلق کند.

مشکلاتی که هنوز پابرجا هستند

با وجود این پیشرفت‌ها، OpenAI صراحتاً اذعان می‌کند که هنوز برخی نقص‌ها در عملکرد صوتی این سیستم باقی مانده‌اند. یکی از این ایرادات، «افت کیفیت صدا» به‌صورت مقطعی است که ممکن است با تغییر ناگهانی زیر و بمی (pitch) یا شدت صدا (volume) همراه باشد. این مشکل در برخی از صداهای انتخابی کاربران بیشتر به چشم می‌آید.

مشکل دیگر، پدیده‌ای موسوم به «توهم صوتی» (audio hallucination) است—حالتی که در آن ChatGPT صداهایی تولید می‌کند که اصلاً از آن خواسته نشده‌اند. این صداها گاه به شکل نویزهای بی‌معنا، گاه قطعه‌ای از موسیقی پس‌زمینه، و حتی گاهی شبیه به تبلیغات رادیویی ظاهر می‌شوند.

در یکی از موارد گزارش‌شده توسط کاربران، ChatGPT در میانه یک مکالمه ناگهان صدای تبلیغی پخش کرد؛ آن هم در شرایطی که OpenAI اصولاً هیچ تبلیغی در پلتفرم خود ارائه نمی‌دهد. این موضوع سؤالاتی درباره منشأ این صداها و نقش داده‌های آموزشی در ایجاد چنین رفتارهایی مطرح کرده است.

از گفت‌وگوی ماشینی تا همراهی انسانی

قابلیت صوتی پیشرفته ChatGPT نخستین‌بار در مه ۲۰۲۴ به‌صورت آزمایشی عرضه شد و از اکتبر همان سال، دامنه دسترسی آن به کاربران اتحادیه اروپا نیز گسترش یافت.

گفته می‌شود هدف اصلی OpenAI از توسعه این قابلیت، فراهم‌کردن بستر مکالمه‌ای روان، طبیعی و زنده میان انسان و ماشین بود؛ مکالمه‌ای که در آن کاربر بتواند مانند گفت‌وگوی تلفنی، حرف دستیار هوشمند را قطع کند، یا احساسات خود را منتقل کند و در عوض، پاسخ‌هایی با رنگ‌وبوی انسانی بشنود.

از دیگر امکانات این نسخه می‌توان به توانایی ChatGPT در تفسیر بصری اشاره کرد. اگر کاربر دوربین دستگاه را روشن کند، هوش مصنوعی می‌تواند به‌صورت زنده اشیای موجود در تصویر یا محیط اطراف را شناسایی کرده و درباره آن‌ها اظهار نظر کند؛ قابلیتی که کاربردهای متنوعی از آموزش گرفته تا راهنمایی مسافران را در برمی‌گیرد.

آینده‌ای نزدیک با مترجمان هوشمند و همراهان صوتی

به نظر می‌رسد با پیشرفت چنین قابلیت‌هایی، فاصله میان انسان و هوش مصنوعی به‌سرعت در حال کم شدن است. اگر تا دیروز ترجمه همزمان یا صدای طبیعی تنها در فیلم‌های علمی‌تخیلی قابل تصور بود، امروز این امکانات در گوشی هوشمند هر کاربری قابل دسترسی‌اند.

با این حال، کارشناسان هوش مصنوعی هشدار می‌دهند که نباید از یاد برد این ابزارها هنوز از درک واقعی زبان و احساسات انسانی بی‌بهره‌اند و بیشتر براساس الگوهای آماری کار می‌کنند. بنابراین استفاده آگاهانه، همراه با درک محدودیت‌ها، شرط اصلی بهره‌برداری مؤثر از چنین فناوری‌هایی است.

حتما بخوانید : IBM به دنبال ساخت قدرتمندترین رایانه کوانتومی جهان تا سال ۲۰۲۹