هوش مصنوعی تیم Brain گوگل میتواند وضوح تصاویر را ۱۶ برابر کند
فناوری جدید گوگل در زمینه ارتقای کیفیت تصاویر آنچنان جذاب عمل میکند که میتواند دستاوردی اساسی در حوزه بهینهسازی تصاویر باشد. در این روش از یک مدل یادگیری ماشینی برای تبدیل تصاویر کمکیفیت به تصاویر باکیفیت استفاده میشود و وضوح تصاویر را ۱۶ برابر میکند.
گوگل در پست جدیدی در وبلاگ واحد هوش مصنوعی خود اطلاعات جذابی را درباره پروژه جدید تیم Brain منتشر کرده که موجب ارتقای کیفیت تصاویر میشود. یادگیری ماشینی در فناوری جدید این تیم که از اعضای آن میتوان به «محمد نوروزی»، دانشمند ایرانی ساکن تورنتو اشاره کرد، در حوزههای مختلفی از بازیابی تصاویر خانوادگی قدیمی تا بهینهسازی تصویربرداریهای پزشکی استفاده خواهد شد.
گوگل از سال ۲۰۱۵ در حال آزمایش مفهومی به نام «مدلهای انتشار» (Diffusion Models) بود ولی تا همین چند وقت پیش در میان سایر روشهای یادگیری ماشینی موسوم به «مدلهای زایای عمیق» به این روش توجهی نمیکرد. این شرکت حالا دریافته که با کمک مدلهای انتشار میتواند نتیجه عملکردهای فنی خود را تا حد چشمگیری ارتقا ببخشد.
یکی از مدلهای این سیستم SR3 یا «ابر-رزولوشن از طریق بهینهسازی مکرر» نام دارد. این مدل یک تصویر کمکیفیت را دریافت کرده و میتواند حتی از روی نویز خالص تصویر باکیفیت بسازد. این مدل با فرآیند تخریب تصویر کار میکند که طی آن نویز آنقدر به تصاویر باکیفیت اضافه میشود تا چیزی جز نویز خالص دیده نشود. سپس همین فرآیند معکوس میشود و هوش مصنوعی یاد میگیرد که چگونه تصاویر نویزدار را به تصاویر باکیفیت تبدیل کند.
مدل SR3 به خوبی روی بهینهسازی تصاویر پرتره و طبیعی کار میکند. «نرخ درهمریختگی» این مدل نزدیک ۵۰ درصد است، در حالی که سایر روشهای موجود نهایتا به ۳۴ درصد میرسند. این نرخ بالا از واقعی بودن تصاویر خروجی حکایت میکند.
مدل دیگری که گوگل آن را توسعه داده CDM یا «مدل انتشار وابسته به کلاس» نام دارد. این مدل با اطلاعات ImageNet آموزش داده میشود تا تصاویر باکیفیت طبیعی بسازد. از آنجایی که اطلاعات ImageNet پیچیدگی و بینظمی بالایی دارد، گوگل CDM را به شکل آبشاری از چند مدل انتشار ساخته است.
این شرکت نمونههایی از ارتقای کیفیت تصاویر به روش آبشاری را منتشر کرده است. یک تصویر ۳۲ در ۳۲ را میتوان به ۶۴ در ۶۴ و بعد به ۲۵۶ در ۲۵۶ ارتقا داد. به همین صورت، تصاویر ۶۴ در ۶۴ میتوانند به ۲۵۶ در ۲۵۶ و بعد ۱۰۲۴ در ۱۰۲۴ ارتقا پیدا کنند.
همانطور که میبینید، نتایج استفاده از این سیستم فوقالعاده است و اگرچه مشکلات اندکی دارد، اما در نگاه اول میتواند رضایت اکثر کاربران عادی را جلب کند. محققان گوگل میگویند: «ما با SR3 و CDM قدرت مدلهای انتشار را در بنچمارکهای ابر-رزولوشن و وابسته به کلاس به سطح آثار هنری بردیم. حالا هیجانزدهایم تا محدودیت مدلهای انتشار را برای مشکلات متنوع مدلسازی زایا آزمایش کنیم.»