گوگل دو مدل هوش مصنوعی برای تبدیل متن به ویدئو به‌نمایش گذاشت

9 اکتبر 2022

30 زمان تقریبی مطالعه 4 دقیقه

متا شرکت مادر فیسبوک هفته‌ی گذشته مدل هوش مصنوعی جدیدی به‌نمایش گذاشت که توضیحات متنی را به ویدئوهای کوتاه و بدون‌صدا تبدیل می‌کند. ظاهراً گوگل نیز روی چنین سیستمی کار می‌کند؛ چراکه دو مدل هوش مصنوعی جدید برای تبدیل متن به ویدئو به‌نمایش گذاشته که یکی از آن‌ها روی کیفیت تصاویر تمرکز دارد و دیگری برای تولید کلیپ‌های طولانی‌تر درنظر گرفته شده است.

ابتدا نگاهی به Imagen Video، مدل هوش مصنوعی گوگل برای ساخت ویدئوهای باکیفیت خواهیم داشت. این سیستم براساس تکنیک‌هایی در سیستم تصویربه‌تصویر قبلی گوگل کار می‌کند، اما دسته‌ای از اجزای جدید را به‌کار می‌گیرد تا فریم‌های ثابت را به حرکت روان تبدیل کند.

به‌نوشته‌ی ورج، نتایج به‌دست آمده از هوش مصنوعی گوگل مثل مدل Make-A-Video متا، باورنکردنی، عجیب‌وغریب و البته دربرخی موارد ناامیدکننده هستند. قانع‌کننده‌ترین نمونه‌ی آن، ویدئوهایی است که انیمیشن‌ها را تکرار می‌کنند که ازجمله می‌توان به جوانه‌های سبزی که کلمات Imagen را تشکیل می‌دهند یا مجسمه‌های چوبی که درفضا موج‌سواری می‌کند اشاره کرد. زیرا الزاماً انتظار نداریم چنین ویدیوهایی از قوانین سخت‌گیرانه ترکیب زمانی و مکانی پیروی کنند. درواقع این انیمیشن‌ها می‌توانند کمی آهسته‌تر اجرا شوند.

از ضعیف‌ترین نتایج به‌دست آمده از مدل تبدیل متن به ویدئوی گوگل، می‌توان به کلیپ‌هایی مثل پارو کردن برف اشاره کرد که حرکت انسان‌ها و حیوانات را تکرار می‌کنند. در این‌جا، هنگامی‌که چنین تصور روشنی از نحوه‌ی حرکت بدن و اندام داریم، تغییر شکل و زوال فیلم آشکارتر است. بااین‌حال، صرف‌نظر از این موضوع، همه‌ی ویدئوها بسیار چشم‌گیر هستند.

توضیح ارائه‌شده برای ساخت این ویدئو: یک مو کوتاه بریتانیایی که از روی کاناپه می‌پرد.

توضیح ارائه‌شده برای ساخت این ویدئو: جوانه‌هایی به شکل متن «Imagen» که از یک کتاب افسانه‌ای بیرون می‌آید.

توضیح ارائه‌شده برای ساخت این ویدئو: پارو کردن برف.

توضیح ارائه‌شده برای ساخت این ویدئو: مجسمه‌ی چوبی درحال موج‌سواری روی تخته‌ی موج سواری در فضا.

محققان گوگل خاطرنشان می‌کنند که مدل Imagen Video ویدئوهایی با ۱۶ فریم و سرعت ۳ فریم‌برثانیه را با وضوح ۲۴ در ۴۸ پیکسل ارائه می‌دهد. این محتوا درمرحله‌ی بعد با مدل‌های افزایش وضوح تصویر مبتنی‌بر هوش مصنوعی پردازش می‌شود و در این گام خروجی به ۱۲۸ فریم با سرعت ۲۴ فریم‌برثانیه و وضوح ۱۲۸۰ در ۷۶۸ پیکسل ارتقا پیدا می‌کند. این وضوح بالاتر از مدل Make-A-Video متا (۷۶۸ در ۷۶۸ پیکسل) است.

همان‌طور که درمورد اولین مدل متا برای تبدیل متن به ویدئو توضیح دادیم، ظهور این فناوری چالش‌های مختلفی به‌همراه دارد که ازجمله می‌توان به تعصبات نژادی و جنسیتی و پتانسیل سواستفاده از آن‌ها برای تبلیغات، هرزه‌نگاری و ارائه‌ی اطلاعات نادرست اشاره کرد. محققان گوگل در مقاله‌ی خود به‌طور خلاصه از این موضوع فرار می‌کنند. این تیم می‌گوید:

برای تأثیرگذاری مثبت مدل‌های تولید‌کننده‌ی ویدئو روی جامعه، این سیستم‌ها باید با تقویت و افزایش خلاقیت انسان، مورداستفاده قرار گیرند. بااین‌حال، امکان سواستفاده از این مدل‌ها برای ساخت محتوای جعلی، نفرت‌انگیز یا مضر نیز وجود دارد.

این تیم خاطرنشان می‌کند که فیلترهایی را آزمایش کرده است تا جلوی سواستفاده از مدل‌های تبدیل متن به ویدئو را بگیرد، اما هیچ توضیحی درمورد میزان تأثیر این فیلترها ارائه نکردند؛ البته از نظر محققان، مدل هوش مصنوعی آن‌ها در چندین مورد امنیتی و اخلاقی عملکرد خوبی ارائه داده است.

Imagen Video یک پروژه‌ی تحقیقاتی است و گوگل با عدم انتشار آن برای عموم کاربران، از آسیب‌های احتمالی آن روی جامعه جلوگیری می‌کند. شایان‌ذکر است که هوش مصنوعی Make-A-Video متا نیز دردسترس عموم قرار ندارد و به‌همین روش محدود شده است. این مدل‌ها مثل سیستم‌های تبدیل متن به تصویر به‌زودی قبل‌از انتشار عمومی به‌عنوان مدل‌های منبع‌باز دراختیار محققان دیگر قرار خواهند گرفت و در آن زمان، چالش‌های امنیتی و اخلاقی جدیدی درمورد استفاده از آن‌ها به‌وجود خواهد آمد.

توضیح ارائه‌شده برای ساخت این ویدئو: گربه‌ای در سمت چپ سگ.

توضیح ارائه‌شده برای ساخت این ویدئو: خرس عروسکی درحال شستن ظروف.

توضیح ارائه‌شده برای ساخت این ویدئو: دستی فنجان را بلند می‌کند.

مقاله‌ی مرتبط:

ساخت هوش مصنوعی با توانایی رمزگشایی دقیق گفتار از فعالیت مغز
هوش مصنوعی به‌زودی ویدئوهایمان را هم ویرایش خواهد کرد

گوگل علاوه‌بر Imagen Video، تیم جداگانه‌ای از محققان خود را برای توسعه‌ی مدل تبدیل متن به ویدئو دیگری به‌نام Phenaki به‌کار گرفته است. این مدل درمقایسه با Imagen Video، با تمرکز بر ایجاد ویدئوهای طولانی‌تر توسعه داده شده و دستورالعمل‌های دقیقی را دنبال می‌کند. به‌عنوان مثال متن زیر را درنظر بگیرید:

ترافیک زیاد در شهری آینده‌نگرانه. یک سفیه‌ی فضایی بیگانه به شهر آینده‌نگر می‌رسد. دوربین داخل سفینه‌ی فضایی بیگانه می‌شود. دوربین به‌جلو حرکت می‌کند و فضانوردی را در یک اتاق آبی، نشان می‌دهد. فضانورد درحال تایپ‌کردن روی صفحه‌کلید است. دوربین از فضانورد دور می‌شود. فضانورد کلید را ترک می‌کند و به‌سمت چپ می‌رود. فضانورد، کیبورد را رها می‌کند و می‌رود. دوربین فراتر از فضانورد حرکت می‌کند و صفحه را نشان می‌دهد. صفحه‌ی پشت فضانورد، ماهی‌هایی را درحال شناکردن در دریا نشان می‌دهد. بزرگ‌نمایی تصادفی به‌سمت ماهی آبی. ماهی آبی را درحالی‌که در اقیانوسی تاریک شنا می‌کند، دنبال می‌کنیم. دوربین از میان آب به آسمان اشاره می‌کند. اقیانوس و خط ساحلی یک شهر آینده‌نگر. بزرگ‌نمایی به‌سمت یک آسمان‌خراش آینده‌نگرانه. دوربین روی یکی از پنجره‌ها بزرگ‌نمایی می‌کند. ما در یک اتاق اداری با میزهای خالی حضور داریم. یک شیر، بالای میزهای اداری راه می‌رود. دوربین روی صورت شیر در داخل دفتر بزرگ‌نمایی می‌کند. بزرگ‌نمایی ادامه پیدا می‌کند تا نمایی از شیری که کت‌وشلوار تیره‌ به‌تن دارد در اتاق اداری نمایش داده شود. شیر کت‌شلواری به دوربین نگاه می‌کند و لبخند می‌زند. دوربین به‌آرامی به‌سمت نمای بیرونی آسمان‌خراش بزرگ‌نمایی می‌کند. تایم‌لپس غروب خورشید در شهر مدرن.

مدل هوش مصنوعی Phenaki با دریافت متن فوق، ویدئویی مثل نمونه‌ی زیر را تولید می‌کند.

تماشا در آپارات

واضح است که ویدئو فوق، انسجام و وضوح مناسبی ندارد و درواقع کیفیت آن نسبت به نمونه‌های تولید شده با Imagen Video کم‌تر است، اما مجموعه‌ی پایدار صحنه‌ها و تنظیمات آن واقعاً جذاب به‌نظر می‌رسد.

محققان در مقاله‌ی مربوط به توضیح مدل Phenaki می‌گویند روش آن‌ها می‌تواند ویدئوهایی با طول بسیار زیاد ایجاد کند و درواقع محدودیتی ازنظر طول ویدئو در آن وجود ندارد. آن‌ها همچنین اعلام کرده‌اند نسخه‌های آینده‌ی این مدل بخشی از ابزارهای گسترده برای هنرمندان و کاربران عادی خواهد بود که راه‌های جدید و هیجان‌انگیزی برای بیان خلاقیت‌ها ارائه می‌دهد. حال باید دید آینده‌ی این سیستم مبتنی‌بر هوش مصنوعی به‌چه سمتی پیش خواهد رفت و آیا گوگل می‌تواند چالش‌های اخلاقی و امنیتی آن را برطرف سازد یا خیر.

مجله خبری mydtc

برچسب ها