تفسیر زبان‌های نانوشته به کمک مترجم هوش مصنوعی متا

30 مهر 1401

12 خواندن این مطلب 2 دقیقه زمان میبرد

درحال‌حاضر حدود ۷۰۰۰ زبان در جهان شناخته شده است که برخی از آن‌ها مؤلفه‌های نوشتاری ندارند. این نوع زبان‌ها که از آن‌ها به‌عنوان «زبان‌های نانوشته» یاد می‌شود، مشکل منحصربه‌فردی برای سیستم‌های ترجمه‌ی یادگیری ماشینی مدرن ایجاد می‌کنند؛ زیرا چنین سیستم‌هایی برای تبدیل یک متن از زبانی به زبان دیگر، به گفتاری نیاز دارند که بتوان آن را به نوشتار تبدیل کرد. به‌هرحال گزارش شده است که متا درحال‌حاضر سعی دارد با هوش مصنوعی، این مشکل را رفع کند.

متا اکنون مشغول توسعه‌ی سیستم ترجمه‌ی گفتار به گفتار لحظه‌ای است تا ساکنان متاورس بتوانند راحت‌تر با یکدیگر تعامل داشته باشند. محققان این شرکت اکنون به‌عنوان بخشی از این پروژه که مترجم متن گفتاری جهانی متا (UST) نام دارد، سعی دارند سیستمی برای ترجمه‌ی زبان Hokkien به انگلیسی ایجاد کنند. این زبان نانوشته در سرتاسر دیاسپورای آسیا مورداستفاده قرار می‌گیرد و یکی از زبان‌های رسمی تایوان است. دیاسپورا به افراد مهاجری اطلاق می‌شود که خارج از کشور محل تولد یا اصل و نسب خود، به‌صورت موقت یا دائم ساکن هستند، اما روابط عاطفی و مادی خود را با کشورهای مبدأ همچنان حفظ می‌کنند.

به‌ گزارش انگجت، آموزش اولیه‌ی سیستم‌های ترجمه‌ی مبتنی‌بر یادگیری ماشینی، معمولاً به نمونه‌های قابل‌ برچسب‌گذاری گسترده از زبان به‌صورت نوشتاری یا گفتاری نیاز دارد و این دقیقاً مؤلفه‌ای است که زبان‌های نانوشته مانند Hokkein از آن بی‌بهره هستند. مارک زاکربرگ، مدیرعامل متا در پستی وبلاگی توضیح داد:

ما برای رفع مشکل زبان‌های نانوشته، از ترجمه‌ی گفتار به واحد (S۲UT) برای تبدیل گفتار به دنباله‌ای از واحد‌های صوتی که متا قبلاً در آن پیشگام بوده است، استفاده کردیم. سپس شکل موج‌ها را براساس واحد‌ها ایجاد کردیم. علاوه‌براین از UnitY به‌عنوان مکانیزم رمزگشایی استفاده شد که اولین گذر متنی را به یک زبان مرتبط (مثل ماندارین) ایجاد می‌کند و رمزگشای گذر دوم نیز وظیفه‌ی ساخت واحد‌ها را برعهده دارد.

زاکربرگ در تکمیل توضیحات خود گفت:

ما از ماندارین به‌عنوان یک زبان میانی برای ساختن برچسب‌های کاذب استفاده کردیم، جایی‌که ابتدا گفتار انگلیسی (یا Hokkien) را به متن ماندارین و سپس به Hokkien (یا انگلیسی) ترجمه کردیم و داده‌های آموزشی نیز دراین مرحله به آن اضافه شد.

درحال‌حاضر سیستم مترجم متن هوش مصنوعی متا به افرادی که با زبان Hokkien صحبت می‌کند اجازه می‌دهد تا با کسی که انگلیسی حرف می‌زنند صحبت کنند. این مدل می‌تواند به‌طور لحظه‌ای فقط یک جمله‌ی کامل را درک و آن را ترجمه کند، اما زاکربرگ اطمینان دارد که تکنیک متا درنهایت می‌تواند برای ترجمه‌ی زبان‌های دیگر نیز مورد استفاده قرار گیرد و ترجمه‌ی بلادرنگ آن نیز بهبود یابد.

بنر تسک میران

متا علاوه‌بر ارائه‌ی مدل‌ها و داده‌های آموزشی به‌عنوان پروژه‌های منبع‌باز، اولین سیستم محک‌گذاری ترجمه‌ی گفتار به گفتار را براساس مجموعه گفتار Hokkien در سرتاسر تایوان منتشر می‌کند. زاکربرگ اعلام کرده است که ماتریس گفتار، مجموعه‌ی بزرگی از ترجمه‌های گفتار به گفتار است که با تکنیک داده‌کاوی مبتکرانه‌ی متا موسوم به لیزر استخراج شده است و به محققان اجازه می‌دهد تا با استفاده از آن، سیستم‌های ترجمه‌ی گفتار به گفتار (S۲ST) خود را ایجاد کنند.

دیتاسنتر من فضای مجازی دريچه فناوری

مجله خبری دیتاسنتر من

برچسب ها