گوگل ربات‌های پینگ پنگ باز می‌سازد

23 اکتبر 2022

36 زمان تقریبی مطالعه 3 دقیقه

گوگل ریسرچ به تازگی از دو پروژه جدید خود با یک ربات تنیس روی میز رونمایی کرد. تیم رباتیک در گوگل به یک بازوی رباتی آموزش داد که بیش از ۳۰۰ شوت رالی با افراد دیگر بازی کند و سرویس‌ها را با دقت «انسان‌های آماتور» بازگرداند.ا

گرچه این ممکن است با توجه به اینکه برخی افراد در تنیس روی میز چقدر بد هستند، چندان چشمگیر به نظر نرسد، می‌توان از همین تکنیک‌ها برای آموزش ربات‌ها برای انجام سایر «وظایف پویا و با شتاب بالا» استفاده کرد که به تعامل نزدیک انسان و ربات نیاز دارند.

تنیس روی میز یک کار جالب برای یادگیری ربات‌ها به دلیل دو ویژگی مکمل است: این کار به حرکات سریع و دقیق در یک بازی ساختاریافته نیاز دارد که در یک محیط ثابت و قابل پیش بینی رخ می‌دهد. الگوریتم یادگیری که ربات برای تصمیم‌گیری به آن تکیه می‌کند، باید سخت کار کند تا به نتیجه برسد، بازی تنیس روی میز فعالیتی دو طرفه است: ربات می‌تواند با یک ربات دیگر (یا شبیه سازی) بازی کند یا با یک انسان واقعی برای آموزش. همه این‌ها آن را به مجموعه‌ای عالی برای بررسی تعامل انسان و ربات و تکنیک‌های یادگیری تقویتی تبدیل می‌کند.

مهندسان گوگل دو پروژه مجزا را با استفاده از یک ربات طراحی کردند. Iterative-Sim۲Real که اواخر امسال در CoRL ارائه خواهد شد و GoalsEye که هفته آینده در IROS ارائه خواهد شد. Iterative-Sim۲Real برنامه‌ای است که به ربات آموزش می‌دهد تا در مسابقات ۳۰۰ تیری با انسان‌ها بازی کند، در حالی که GoalsEye به آن اجازه می‌دهد تا سرویس‌ها را به نقطه هدف خاصی روی میز با دقتی شبیه به انسان آماتور بازگرداند.

Iterative-Sim۲Real تلاشی برای غلبه بر «مشکل مرغ و تخم مرغ» آموزش ماشین‌ها برای تقلید از رفتار‌های انسانی است. تیم تحقیقاتی توضیح می‌دهد اگر برای شروع یک خط مشی خوب برای ربات (مجموعه‌ای از قوانین برای ربات) نداشته باشید، نمی‌توانید داده‌های با کیفیت بالا در مورد نحوه تعامل مردم با آن جمع‌آوری کنید. اما بدون یک مدل رفتار انسانی برای شروع، نمی‌توانید در وهله اول سیاست ربات را ارائه کنید. یک راه حل جایگزین آموزش انحصاری ربات‌ها در دنیای واقعی است.

با این حال، این فرآیند اغلب آهسته، هزینه بر است و چالش‌های مرتبط با ایمنی را به همراه دارد که با مشارکت مردم تشدید می‌شود؛ به عبارت دیگر، زمان زیادی طول می‌کشد و مردم می‌توانند توسط بازو‌های رباتی که خفاش‌های تنیس روی میز را به اطراف می‌چرخانند، آسیب ببینند.

Iterative-Sim۲Real با استفاده از یک مدل بسیار ساده از رفتار انسان به عنوان نقطه شروع و سپس آموزش ربات هم با شبیه سازی و هم با یک انسان در دنیای واقعی، این مشکل را رفع کند. پس از هر تکرار، هم مدل رفتار انسان و هم خط مشی ربات اصلاح می‌شوند. با استفاده از پنج سوژه انسانی، ربات آموزش دیده با Iterative-Sim۲Real از یک رویکرد جایگزین به نام sim-to-real plus-tuning بهتر عمل کرد. این رالی به میزان قابل توجهی کمتر بود که با کمتر از پنج شلیک به پایان رسید که میانگین طول رالی آن ۹ درصد بیشتر بود.

از سوی دیگر، GoalsEye تصمیم گرفت تا با مجموعه‌ای از مشکلات تمرینی مقابله کرده و به ربات آموزش دهد که توپ را به یک مکان دلخواه مانند گوشه سمت چپ پشتی یا دقیقا بالای تور در سمت راست برگرداند. یادگیری تقلید جایی که یک ربات یک استراتژی بازی برگرفته از داده‌های عملکرد انسان را توسعه می‌دهد؛ در تنظیمات با سرعت بالا به سختی انجام می‌شود.

متغیر‌های زیادی وجود دارد که بر نحوه برخورد انسان با توپ پینگ پنگ تاثیر می‌گذارد که ردیابی همه چیز لازم برای یادگیری یک ربات را عملا غیرممکن می‌کند. یادگیری تقویتی معمولا برای این موقعیت‌ها خوب است، اما می‌تواند آهسته و ناکارآمد باشد، به‌ویژه در شروع، به عبارت دیگر، برای ایجاد یک استراتژی بازی نسبتا محدود به تکرار‌های زیادی نیاز است.

GoalsEye تلاش می‌کند با استفاده از مجموعه داده‌های کوچک، با ساختار ضعیف و غیرهدفمند اولیه که به ربات امکان می‌دهد اصول اولیه آنچه را که هنگام برخورد با توپ پینگ پنگ اتفاق می‌افتد، بیاموزد و سپس به او اجازه تمرین خود را بدهد، بر هر دو مجموعه مشکلات غلبه کند. به آن بیاموزد که توپ را دقیقا به نقاط خاصی بزند. ربات پس از آموزش در ۲۴۸۰ نمایش اولیه، تنها در ۹ درصد مواقع توانست توپ را به فاصله ۳۰ سانتی متری برگرداند، اما پس از خودتمرینی برای ۱۳۵۰۰ شات، در ۴۳ درصد مواقع دقیق بود.

در حالی که آموزش بازی به ربات‌ها ممکن است بی‌اهمیت به نظر برسد، تیم تحقیقاتی معتقد است حل این نوع مشکلات تمرینی با تنیس روی میز کاربرد‌های بالقوه‌ای در دنیای واقعی دارد. Iterative-Sim۲Real به ربات‌ها اجازه می‌دهد از تعامل با انسان‌ها بیاموزند، در حالی که GoalsEye نشان می‌دهد که چگونه ربات‌ها می‌توانند از داده‌های بدون ساختار یاد بگیرند و در یک «محیط دقیق و پویا» تمرین کنند. بدترین سناریو این است که اگر اهداف بزرگ گوگل محقق نشود، حداقل می‌توانند یک مربی ربات تنیس روی میز بسازند.

بیشتر بخوانید