صدای انسانگونهتر، ترجمه همزمان و تعامل واقعیتر؛ تحول تازه در نسخه صوتی ChatGPT

صدای انسانگونهتر، ترجمه همزمان و تعامل واقعیتر؛ تحول تازه در نسخه صوتی ChatGPT
به گزارش دیتاسنتر من و به نقل از The Decoder، بر اساس اطلاعات رسمی منتشرشده از سوی OpenAI، نسخه جدید «حالت پیشرفته صوتی» (Advanced Voice Mode) اکنون توانایی بیشتری در بازتولید صداهایی با لحن طبیعی، حس همدلی، طعنه، مکثهای انسانی و حتی بیان عاطفی دارد.
این یعنی ChatGPT میتواند مانند یک گوینده واقعی احساسات را در صدایش منعکس کند؛ چه در لحن دلسوزانه پاسخ دهد، چه با طعنه سخن بگوید.
ترجمه همزمان در لحظه، بدون توقف
یکی از مهمترین ویژگیهای افزودهشده در این نسخه، امکان «ترجمه همزمان گفتوگو» بین زبانهای مختلف است. کاربران میتوانند از ChatGPT بخواهند تا مکالمهای میان دو زبان خاص را بهصورت زنده ترجمه کند.
شرکتOpenAI پیشنهاد میکند که این ویژگی میتواند در موقعیتهای عملی مانند سفارش غذا در رستورانی خارجی، جلسات کاری چندزبانه یا حتی مکالمه با یک گردشگر در خیابان، کارایی بالایی داشته باشد.
گفتنی است شرکتهایی مانند گوگل نیز اخیراً ویژگیهای مشابهی را در اپلیکیشن Gemini ارائه دادهاند، اما OpenAI در تلاش است با تمرکز بر کیفیت صوت، تطابق عاطفی و تعامل طبیعی، تجربهای متفاوت و کاربرمحورتر خلق کند.
مشکلاتی که هنوز پابرجا هستند
با وجود این پیشرفتها، OpenAI صراحتاً اذعان میکند که هنوز برخی نقصها در عملکرد صوتی این سیستم باقی ماندهاند. یکی از این ایرادات، «افت کیفیت صدا» بهصورت مقطعی است که ممکن است با تغییر ناگهانی زیر و بمی (pitch) یا شدت صدا (volume) همراه باشد. این مشکل در برخی از صداهای انتخابی کاربران بیشتر به چشم میآید.
مشکل دیگر، پدیدهای موسوم به «توهم صوتی» (audio hallucination) است—حالتی که در آن ChatGPT صداهایی تولید میکند که اصلاً از آن خواسته نشدهاند. این صداها گاه به شکل نویزهای بیمعنا، گاه قطعهای از موسیقی پسزمینه، و حتی گاهی شبیه به تبلیغات رادیویی ظاهر میشوند.
در یکی از موارد گزارششده توسط کاربران، ChatGPT در میانه یک مکالمه ناگهان صدای تبلیغی پخش کرد؛ آن هم در شرایطی که OpenAI اصولاً هیچ تبلیغی در پلتفرم خود ارائه نمیدهد. این موضوع سؤالاتی درباره منشأ این صداها و نقش دادههای آموزشی در ایجاد چنین رفتارهایی مطرح کرده است.
از گفتوگوی ماشینی تا همراهی انسانی
قابلیت صوتی پیشرفته ChatGPT نخستینبار در مه ۲۰۲۴ بهصورت آزمایشی عرضه شد و از اکتبر همان سال، دامنه دسترسی آن به کاربران اتحادیه اروپا نیز گسترش یافت.
گفته میشود هدف اصلی OpenAI از توسعه این قابلیت، فراهمکردن بستر مکالمهای روان، طبیعی و زنده میان انسان و ماشین بود؛ مکالمهای که در آن کاربر بتواند مانند گفتوگوی تلفنی، حرف دستیار هوشمند را قطع کند، یا احساسات خود را منتقل کند و در عوض، پاسخهایی با رنگوبوی انسانی بشنود.
از دیگر امکانات این نسخه میتوان به توانایی ChatGPT در تفسیر بصری اشاره کرد. اگر کاربر دوربین دستگاه را روشن کند، هوش مصنوعی میتواند بهصورت زنده اشیای موجود در تصویر یا محیط اطراف را شناسایی کرده و درباره آنها اظهار نظر کند؛ قابلیتی که کاربردهای متنوعی از آموزش گرفته تا راهنمایی مسافران را در برمیگیرد.
آیندهای نزدیک با مترجمان هوشمند و همراهان صوتی
به نظر میرسد با پیشرفت چنین قابلیتهایی، فاصله میان انسان و هوش مصنوعی بهسرعت در حال کم شدن است. اگر تا دیروز ترجمه همزمان یا صدای طبیعی تنها در فیلمهای علمیتخیلی قابل تصور بود، امروز این امکانات در گوشی هوشمند هر کاربری قابل دسترسیاند.
با این حال، کارشناسان هوش مصنوعی هشدار میدهند که نباید از یاد برد این ابزارها هنوز از درک واقعی زبان و احساسات انسانی بیبهرهاند و بیشتر براساس الگوهای آماری کار میکنند. بنابراین استفاده آگاهانه، همراه با درک محدودیتها، شرط اصلی بهرهبرداری مؤثر از چنین فناوریهایی است.
مجله خبری mydtc