سرور مجازی
zoomit

هوش مصنوعی خودآموخته شباهت‌های زیادی با مغز انسان دارد

یک دهه است که بسیاری از چشمگیرترین سیستم‌های هوش مصنوعی با استفاده از مجموعه بزرگی از داده‌های برچسب‌دار آموزش داده می‌شوند. برای مثال، یک تصویر ممکن است به‌عنوان گربه راه‌راه یا گربه پلنگی برچسب‌گذاری شود تا شبکه عصبی مصنوعی را آموزش دهد تا به درستی گربه پلنگی را از گربه راه‌راه تشخیص دهد. این استراتژی موفقیت‌آمیز و درعین‌حال ناقص بوده است.

چنین آموزش راهنمایی‌شده‌ای به داده‌هایی نیاز دارد که به زحمت توسط انسان‌ها برچسب‌گذاری می‌شود و شبکه‌های عصبی اغلب از راه میان‌بر استفاده می‌کنند و یاد می‌گیرند که برچسب‌ها را با حداقل اطلاعات گاها سطحی و بدون دقت ارتباط دهند. برای مثال، شبکه عصبی ممکن است از وجود علف‌ها برای تشخیص تصویر یک گاو استفاده کند؛ زیرا عکس گاوها معمولاً در مزرعه گرفته می‌شود.

الکسی افروس، دانشمند کامپیوتر در دانشگاه کالیفرنیا در برکلی گفت: «در حال پرورش نسلی از الگوریتم‌ها هستیم که مانند دانشجویانی هستند که کل ترم را به کلاس نیامده‌اند و شب قبل از امتحان نهایی به‌شدت درس می‌خوانند. آن‌ها واقعاً مطالب را یاد نمی‌گیرند؛ اما در امتحان قبول می‌شوند.»

علاوه‌بر‌این، برای پژوهشگرانِ علاقه‌مند به تشابه میان هوش ماشین و هوش حیوانات، یادگیری نظارت‌شده ممکن است محدود به چیزی باشد که این سیستم می‌تواند درباره مغزهای زیستی آشکار کند. حیوانات (ازجمله انسان‌ها) برای یادگیری از داده‌های برچسب‌گذاری‌شده استفاده نمی‌کنند. در بیشتر موارد، آن‌ها محیط را کاوش می‌کنند و با انجام این کار درکی غنی و قوی از جهان به دست می‌آورند.

اکنون برخی از دانشمندان علوم اعصاب محاسباتی شروع به کاوش شبکه‌های عصبی کرده‌اند که با داده‌های برچسب‌گذاری‌شده اندک یا بدون این نوع داده‌ها آموزش دیده‌اند. این الگوریتم‌های یادگیری خودنظارتی در مدل‌سازی زبان انسان و اخیراً در تشخیص تصاویر بسیار موفق ظاهر شده‌اند.

در پژوهش‌های اخیر، مدل‌های محاسباتی سیستم‌های بینایی و شنوایی پستانداران که با استفاده مدل‌های یادگیری خودنظارتی ساخته شده بودند، درمقایسه‌با همتایان آن‌ها که مبتنی‌بر یادگیری راهنمایی‌شده بودند، تشابه بیشتری با عملکرد مغز نشان دادند. به عقیده برخی از دانشمندان علوم اعصاب، به‌نظر می‌رسد که شبکه‌های مصنوعی به‌تازگی در حال آشکار‌کردن برخی از روش‌هایی هستند که مغز از آن‌ها برای یادگیری استفاده می‌کند.

نظارت ناقص

مدل‌های مغزی الهام‌گرفته از شبکه‌های عصبی مصنوعی حدود ۱۰ سال پیش ایجاد شدند. تقریباً در همان زمان بود که شبکه عصبی به نام AlexNet وظیفه طبقه‌بندی تصاویر ناشناخته را متحول کرد. آن شبکه همچون همه شبکه‌های عصبی از لایه‌هایی از نورون‌های مصنوعی ساخته شده بود. نورون‌ها واحدهای محاسباتی هستند که اتصالاتی را با یکدیگر ایجاد می‌کنند که می‌تواند ازنظر شدت یا «وزن» متفاوت باشد.

اگر شبکه عصبی نتواند تصویری را به‌درستی طبقه‌بندی کند، الگوریتم یادگیری وزن اتصالات بین نورون‌ها را به‌روزرسانی می‌کند تا احتمال طبقه‌بندی اشتباه در دور بعدی آموزش کمتر شود. الگوریتم این فرایند را بارها با تمام تصاویر آموزشی و تغییر وزن‌ها تکرار می‌کند تا اینکه نرخ خطای شبکه به حد قابل قبولی برسد.

تقریباً در همان زمان، عصب‌شناسان اولین مدل‌های محاسباتی از سیستم بینایی نخستی‌ها را با استفاده از شبکه‌های عصبی مانند الکس نت و جانشینان آن توسعه دادند. این اتحاد امیدوارکننده به‌نظر می‌رسید: برای مثال، وقتی به میمون‌ها و شبکه‌های عصبی مصنوعی تصاویر یکسانی نشان داده می‌شد، فعالیت نورون‌های واقعی و نورون‌های مصنوعی با هم مطابقت داشت. مدل‌های مصنوعی شنوایی و تشخیص بو نیز در پی مدل‌های بیناییی ایجاد شدند.

الکسی افروس دانشمند هوش مصنوعی / Alexei Efros

الکسی افروس، دانشمند کامپیوتر در دانشگاه کالیفرنیا در برکلی فکر می‌کند که بیشتر سیستم‌های هوش مصنوعی مدرن بیش از اندازه به برچسب‌های ساخته‌شده توسط انسان وابسته هستند. او می‌گوید: «آن‌ها درواقع مطالب را یاد نمی‌گیرند.»

با پیشرفت این زمینه، پژوهشگران متوجه محدودیت‌های آموزش تحت نظارت شدند. برای مثال در سال ۲۰۱۷، لئون گاتیس، دانشمند کامپیوتر که در آن زمان در دانشگاه توبینگن آلمان بود، با همکارانش تصویری از فورد مدل تی گرفتند، سپس الگوی پوست پلنگ را روی عکس قرار دادند و تصویری عجیب اما به‌راحتی قابل تشخیص را ایجاد کردند.

شبکه عصبی مصنوعی برجسته‌ای به درستی تصویر اصلی را به‌عنوان مدل تی طبقه‌بندی کرد؛ اما تصویر تغییریافته را به‌عنوان پلنگ درنظر گرفت. شبکه مذکور روی بافت تمرکز کرده بود و درک درستی از شکل ماشین (یا پلنگ) نداشت. استراتژی‌های یادگیری خودنظارتی برای اجتناب از چنین مشکلاتی طراحی شده‌اند. در این رویکرد، انسان‌ها داده‌ها را برچسب‌گذاری نمی‌کنند. فریدمان زنکه، عصب‌شناس محاسبانی در مؤسسه تحقیقات زیست‌پزشکی فریدریش میشر سوئیس گفت: «در این مدل‌ها، برچسب‌ها از خود داده‌ها می‌آید.»

الگوریتم‌های خودنظارتی اساسا شکاف‌هایی در داده‌ها ایجاد می‌کنند و از شبکه عصبی می‌خواهند تا جاهای خالی را پر کند. برای مثال، در مدلی که به مدل زبانی بزرگ معروف است، الگوریتم آموزشی به شبکه عصبی چند کلمه اول یک جمله را نشان می‌دهد و از او می‌خواهد کلمه بعدی را پیش‌بینی کند. وقتی این مدل با مجموعه بزرگی از متون جمع‌آوری‌شده از اینترنت آموزش داده می‌شود، به‌نظر می‌رسد که ساختار نحوی زبان را یاد می‌گیرد و توانایی زبانی چشمگیری را نشان می‌دهد و همه این کارها را بدون نظارت یا برچسب‌های خارجی انجام می‌دهد.

تلاش مشابهی در بینایی کامپیوتر نیز در حال انجام است. اواخر سال ۲۰۲۱، کیمینگ هه و همکارانش «خودرمزگذار پوشانده» را معرفی کردند که براساس تکنیکی ایجاد شده بود که تیم افروس در سال ۲۰۱۶ آن را ایجاد کرد.

الگوریتم یادگیری خودنظارتی به‌طور تصادفی تقریباً سه چهارم از هر کدام از تصاویر را می‌پوشاند. خودرمزگذار پوشانده بخش‌هایی را که پوشیده نشده است، به بازنمایی‌های پنهانی تبدیل می‌کند؛ یعنی توصیف‌های ریاضی فشرده‌ای که حاوی اطلاعات مهمی درباره یک شیء است (درباره یک تصویر، بازنمایی نهفته ممکن است توصیفی ریاضی باشد که مثلاً شکل تصویر را توضیح می‌دهد). سپس یک رمزگشا آن بازنمایی‌ها را به تصویر کامل تبدیل می‌کند.

الگوریتم یادگیری خودنظارتی ترکیب رمزگذار-رمزگشا را آموزش می‌دهد تا تصاویر پوشانده‌شده را به نسخه‌های کاملشان تبدیل کند. هرگونه تفاوتی بین تصاویر واقعی و تصاویر بازسازی‌شده به سیستم بازگردانده می‌شود تا به یادگیری آن کمک کند. این فرایند برای مجموعه‌‌ای از تصاویر آموزشی تکرار می‌شود تا زمانی که نرخ خطای سیستم در حد قابل قبولی کاهش پیدا کند. در یک نمونه، زمانی که به خودرمزگذار پوشانده آموزش داده‌شده تصویری از یک اتوبوس نشان داده شد که قبلا آن را ندیده بود و تقریباً ۸۰ درصد آن پوشانده شده بود، سیستم با موفقیت ساختار اتوبوس را بازسازی کرد.

به‌نظر می‌رسد که بازنمایی‌های پنهان ایجادشده در سیستمی مانند مورد فوق حاوی اطلاعات عمیق‌تری از استراتژی‌های گذشته باشد. این سیستم ممکن است برای مثال به جای اینکه فقط الگوی ظاهری آن‌ها را یاد بگیرد، شکل اتومبیل یا پلنگ را یاد بگیرد.

مغزهای خودنظارتگر

مقاله‌های مرتبط:

  • محققان چینی می‌گویند مدل هوش مصنوعی در مقیاس مغز ساخته اند
  • متا با بررسی نحوه عملکرد مغز انسان به‌دنبال بهبود تشخیص زبان توسط هوش مصنوعی است
  • ساخت هوش مصنوعی با توانایی رمزگشایی دقیق گفتار از فعالیت مغز

در سیستم‌هایی مانند نمونه توصیف‌شده، برخی از عصب‌شناسان تشابهاتی را با نحوه یادگیری ما مشاهده می‌کنند. بلیک ریچاردز، عصب‌شناس محاسباتی در دانشگاه مک‌گیل می‌گوید: «شکی وجود ندارد که ۹۹ درصد از کاری که مغز انجام می‌دهد، یادگیری خود نظارتی است.» تصور می‌شود که مغزهای زیستی نیز درست همان‌طور که الگوریتم یادگیری خودنظاراتی تلاش می‌کند تا شکاف تصویر یا بخشی از متن را پیش‌بینی کند، به‌طور مداوم مواردی مانند مکان آینده یک جسم را هنگام حرکت یا کلمه بعدی یک جمله را پیش‌بینی می‌کنند. علاوه‌بر‌این، مغزها نیز از اشتباهات خود یاد می‌گیرند و تنها بخش کوچکی از بازخورد مغز ما از منبع خارجی می‌آید. برای مثال، سیستم بینایی انسان و نخستی‌سان‌های دیگر را درنظر بگیرید.

این سیستم‌ها بهتر از تمام سیستم‌های حسی حیوانات مورد مطالعه قرار گرفته‌اند؛ اما دانشمندان علوم اعصاب در توضیح این مسئله به مشکل برخورده‌اند که چرا آن‌ها شامل دو مسیر جداگانه می‌شوند: جریان بصری شکمی که مسئول تشخیص اشیاء و چهره‌ها است و جریان بصری پشتی که حرکت را پردازش می‌کند (به‌ترتیب مسیرهای چه و کجا).

ریچاردز و تیمش یک مدل خودنظارتی را ایجاد کردند که به پاسخی اشاره دارد. آن‌ها هوش مصنوعی را آموزش دادند که دو شبکه عصبی مختلف را با هم ترکیب می‌کرد: اولین مورد به نام معماری ResNet برای پردازش تصاویر طراحی شد. دومی که به‌عنوان شبکه بازگشتی شناخته می‌شود، می‌تواند توالی از ورودی‌های پیشین را برای پیش‌بینی درباره ورودی مورد انتظار بعدی دنبال کند.

برای آموزش هوش مصنوعی ترکیبی، تیم کار خود را با دنباله‌ای از مثلاً ۱۰ فریم از یک ویدئو شروع کرد و به رزنت اجازه داد آن‌ها را یکی یکی پردازش کند. سپس شبکه بازگشتی بازنمایی نهفته فریم یازدهم را پیش‌بینی کرد؛ درحالی‌که خیلی با ۱۰ فریم اول مطابقت نداشت. الگوریتم یادگیری خودنظارتی پیش‌بینی را با مقدار واقعی مقایسه کرد و به شبکه‌های عصبی دستور داد تا وزن‌های خود را به‌روزرسانی کنند تا پیش‌بینی بهتر شود.

تیم ریچاردز دریافت که هوش مصنوعی آموزش‌دیده با یک رزنت واحد در تشخیص اشیاء خوب عمل می‌کند؛ اما در طبقه‌بندی حرکات خوب نیست؛ اما زمانی که آن‌ها رزنت را به دو قسمت تقسیم کردند و دو مسیر ایجاد کردند (بدون تغییر در تعداد کل نورون‌ها)، هوش مصنوعی بازنمایی‌هایی را برای اشیاء در یکی و بازنمایی‌هایی را برای حرکت در دیگر ایجاد کرد و درست مانند کاری که احتمالاً مغز ما انجام می‌دهد، امکان طبقه‌بندی پایین‌دست این ویژگی‌ها را ممکن ساخت.

برای آزمایش بیشتر هوش مصنوعی، تیم مجموعه از ویدئوها را به آن نشان داد که پژوهشگران مؤسسه علوم مغز آلن در سیاتل قبلا به موش‌ها نشان داده بودند. همچون نخستی‌سانان، موش‌ها نیز دارای نواحی مغزی ویژه برای تصاویر ثابت و برای حرکت هستند. پژوهشگران مؤسسه آلن فعالیت عصبی قشر بینایی موش‌ها را حین تماشای ویدئوها ثبت کرده بودند. در این جا نیز تیم ریچاردز شباهت‌هایی را در نحوه واکنش هوش مصنوعی و مغز زنده به ویدئوها پیدا کرد.

در طول تمرین، یکی از مسیرها در شبکه عصبی مصنوعی بیشتر شبیه نواحی شکمی تشخیص‌دهنده اشیاء در مغز موش‌ها شد و مسیر دیگر شبیه نواحی پشتی متمرکز بر حرکت شد. ریچاردز گفت نتایج نشان می‌دهد که سیستم بینایی ما دو مسیر تخصصی دارد و آن‌ها به پیش‌بینی آینده بصری کمک می‌کنند و یک مسیر واحد به اندازه کافی خوب نیست.

بلیک ریچاردز دانشمند هوش مصنوعی / blake richards

بلیک ریچاردز، عصب‌شناس محاسباتی، به ایجاد هوش مصنوعی کمک کرده است که شبیه شبکه‌های بینایی در مغزهای زنده عمل می‌کند.

مدل‌های سیستم شنوایی انسان نیز داستان مشابهی را روایت می‌کنند. در ماه ژوئن، تیمی به رهبری ژان رمی کینگ، پژوهشگر آزمایشگاه Meta AI، هوش مصنوعی به نام Wav2Vec 2.0 را آموزش داد که از شبکه عصبی برای تبدیل صدا به بازنمایی‌های پنهان استفاده می‌کند. پژوهشگران برخی از این بازنمایی‌ها را می‌پوشانند و این اطلاعات سپس وارد شبکه عصبی دیگری به نام ترانسفورمر می‌شود. در جریان آموزش، ترانسفورمر اطلاعات پوشانده‌شده را پیش‌بینی می‌کند.

طی این فرایند، هوش مصنوعی یاد می‌گیرد که صداها را به بازنمایی‌های پنهان تبدیل کند که بازهم به برچسب نیازی ندارد. تیم از حدود ۶۰۰ ساعت داده‌های گفتاری برای آموزش شبکه استفاده کرد که به‌گفته کینگ، تقریباً همان چیزی است که کودک طی دو سال اول زندگی خود تجربه می‌کند.

پس از آموزش این سیستم، پژوهشگران بخشی‌هایی از کتاب‌های صوتی را به زبان‌های انگلیسی، فرانسوی و ماندارین برای آن پخش کردند. پژوهشگران سپس عملکرد هوش مصنوعی را با داده‌های حاصل از ۴۱۲ نفر مقایسه کردند. شرکت‌کنندگان ترکیبی از افرادی بودند که یکی از این سه زبان، زبان مادری آن‌ها بود و وقتی آن‌ها به همان صداها گوش می‌کردند، دستگاه fMRI از مغزشان تصویربرداری می‌کرد.

کینگ گفت با وجود تصاویر پر از نویز و با وضوح پایین fMRI، شبکه عصبی او و مغز انسان، با هم همبستگی نظام‌مندی داشتند. فعالیت در لایه‌های اولیه هوش مصنوعی با فعالیت در فشر شنوایی اولیه هماهنگ است؛ درحالی‌که فعالیت لایه‌های عمیق‌تر هوش مصنوعی با فعالیت لایه‌های بالاتر مغز، در این مورد قشر پیش‌پیشانی، همسو است. ریچاردز گفت: «این داده‌ها واقعاً زیبا هستند. قطعی نیست؛ اما شواهد قانع‌کننده دیگری است که نشان می‌دهد نحوه یادگیری زبان در ما تا حد زیادی تلاش برای پیش‌بینی چیزهایی است که بعدا گفته می‌شود.»

ژان رمی کینگ / remi king

ژان رمی کینگ به آموزش دادن هوش مصنوعی کمک کرد که صدا را با تقلید از عملکرد مغز و تا حدی با پیش‌بینی آنچه بعداً می‌آید، پردازش می‌کند.

آسیب‌شناسی‌های درمان‌نشده

همه متقاعد نشده‌اند. جاش مک‌درموت، عصب‌شناس محاسباتی در مؤسسه فناوری ماساچوست روی مدل‌های بینایی و ادراک شنوایی با استفاده از یادگیری تحت نظارت و یادگیری خودنظارتی کار کرده است. آزمایشگاه او چیزی را طراحی کرده است که او آن را «متامر» می‌خواند: سیگنال‌های صوتی و بصری مصنوعی که برای انسان نویزهایی غیرقابل درک هستند؛ اما برای شبکه عصبی مصنوعی از سیگنال‌های واقعی قابل تشخیص نیستند. این امر نشان می‌دهد که بازنمایی‌هایی که در لایه‌های عمیق‌تر شبکه عصبی شکل می‌گیرند، حتی با یادگیری خودنظارتی، با بازنمایی‌های مغز ما مطابقت ندارند.

مک‌درموت گفت، رویکردهای یادگیری خودنظارتی در حال پیشرفت هستند؛ اما هنوز آسیب‌شناسی‌های مدل‌های تحت نظارت را دارند. خود الگوریتم‌های نیز به کار بیشتری نیاز دارند. برای مثال در Wav2Vec 2.0، هوش مصنوعی فقط بازنمایی‌های پنهان را فقط برای صدای چند صد میلی‌ثانیه‌ای پیش‌بینی می‌کنند که بسیار کوتاه است و فاصله زیادی با صدایی دارد که ازنظر ادراکی قابل تمایز باشد. کینگ گفت، کارهای زیادی باید انجام شود تا کاری مشابه کار مغز انجام شود.

درک واقعی عملکرد مغز به چیزی بیش از یادگیری خودنظارتی نیاز دارد. مغز مملو از اتصالات بازخوردی است؛ درحالی‌که مدل‌های کنونی اگر هم داشته باشند، تعداد اندکی از این نوع ارتباطات را دارند. یکی از گام‌های آشکار آینده استفاده از یادگیری خودنظارتی برای آموزش شبکه‌های به‌شدت بازگشتی (که فرایندی دشوار است) و مشاهده این مسئله است که فعالیت در چنین شبکه‌ای با فعالیت مغز واقعی چه شباهتی دارد.

گام مهم دیگر تطبیق فعالیت نورون‌های مصنوعی در مدل‌های یادگیری خودنظارتی با فعالیت نورون‌های زیستی انفرادی است. کینگ گفت: «امیدوارم که در آینده نتایج ما با نتایج مشاهده‌شده در سلول‌های واحد تأیید شود.» اگر شباهت‌های مشاهده‌شده بین مغز و مدل‌های یادگیری خودنظارتی در وظایف حسی دیگر نیز وجود داشته باشد، نشانه قوی‌تری خواهد بود که قابلیت‌های مغز به یادگیری خودنظارتی نیاز دارد.

کینگ افزود: «اگر شباهت‌های نظام‌مندی را بین سیستم‌های بسیار متفاوت پیدا کنیم، نشانگر آن خواهد بود که شاید راه‌های زیادی برای پردازش اطلاعات به شیوه‌ای هوشمندانه وجود نداشته باشد. حداقل، این فرضیه زیبایی است که دوست داریم روی آن کار کنیم.»

مجله خبری mydtc

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا