هوش مصنوعی خودآموخته شباهتهای زیادی با مغز انسان دارد
یک دهه است که بسیاری از چشمگیرترین سیستمهای هوش مصنوعی با استفاده از مجموعه بزرگی از دادههای برچسبدار آموزش داده میشوند. برای مثال، یک تصویر ممکن است بهعنوان گربه راهراه یا گربه پلنگی برچسبگذاری شود تا شبکه عصبی مصنوعی را آموزش دهد تا به درستی گربه پلنگی را از گربه راهراه تشخیص دهد. این استراتژی موفقیتآمیز و درعینحال ناقص بوده است.
چنین آموزش راهنماییشدهای به دادههایی نیاز دارد که به زحمت توسط انسانها برچسبگذاری میشود و شبکههای عصبی اغلب از راه میانبر استفاده میکنند و یاد میگیرند که برچسبها را با حداقل اطلاعات گاها سطحی و بدون دقت ارتباط دهند. برای مثال، شبکه عصبی ممکن است از وجود علفها برای تشخیص تصویر یک گاو استفاده کند؛ زیرا عکس گاوها معمولاً در مزرعه گرفته میشود.
الکسی افروس، دانشمند کامپیوتر در دانشگاه کالیفرنیا در برکلی گفت: «در حال پرورش نسلی از الگوریتمها هستیم که مانند دانشجویانی هستند که کل ترم را به کلاس نیامدهاند و شب قبل از امتحان نهایی بهشدت درس میخوانند. آنها واقعاً مطالب را یاد نمیگیرند؛ اما در امتحان قبول میشوند.»
علاوهبراین، برای پژوهشگرانِ علاقهمند به تشابه میان هوش ماشین و هوش حیوانات، یادگیری نظارتشده ممکن است محدود به چیزی باشد که این سیستم میتواند درباره مغزهای زیستی آشکار کند. حیوانات (ازجمله انسانها) برای یادگیری از دادههای برچسبگذاریشده استفاده نمیکنند. در بیشتر موارد، آنها محیط را کاوش میکنند و با انجام این کار درکی غنی و قوی از جهان به دست میآورند.
اکنون برخی از دانشمندان علوم اعصاب محاسباتی شروع به کاوش شبکههای عصبی کردهاند که با دادههای برچسبگذاریشده اندک یا بدون این نوع دادهها آموزش دیدهاند. این الگوریتمهای یادگیری خودنظارتی در مدلسازی زبان انسان و اخیراً در تشخیص تصاویر بسیار موفق ظاهر شدهاند.
در پژوهشهای اخیر، مدلهای محاسباتی سیستمهای بینایی و شنوایی پستانداران که با استفاده مدلهای یادگیری خودنظارتی ساخته شده بودند، درمقایسهبا همتایان آنها که مبتنیبر یادگیری راهنماییشده بودند، تشابه بیشتری با عملکرد مغز نشان دادند. به عقیده برخی از دانشمندان علوم اعصاب، بهنظر میرسد که شبکههای مصنوعی بهتازگی در حال آشکارکردن برخی از روشهایی هستند که مغز از آنها برای یادگیری استفاده میکند.
نظارت ناقص
مدلهای مغزی الهامگرفته از شبکههای عصبی مصنوعی حدود ۱۰ سال پیش ایجاد شدند. تقریباً در همان زمان بود که شبکه عصبی به نام AlexNet وظیفه طبقهبندی تصاویر ناشناخته را متحول کرد. آن شبکه همچون همه شبکههای عصبی از لایههایی از نورونهای مصنوعی ساخته شده بود. نورونها واحدهای محاسباتی هستند که اتصالاتی را با یکدیگر ایجاد میکنند که میتواند ازنظر شدت یا «وزن» متفاوت باشد.
اگر شبکه عصبی نتواند تصویری را بهدرستی طبقهبندی کند، الگوریتم یادگیری وزن اتصالات بین نورونها را بهروزرسانی میکند تا احتمال طبقهبندی اشتباه در دور بعدی آموزش کمتر شود. الگوریتم این فرایند را بارها با تمام تصاویر آموزشی و تغییر وزنها تکرار میکند تا اینکه نرخ خطای شبکه به حد قابل قبولی برسد.
تقریباً در همان زمان، عصبشناسان اولین مدلهای محاسباتی از سیستم بینایی نخستیها را با استفاده از شبکههای عصبی مانند الکس نت و جانشینان آن توسعه دادند. این اتحاد امیدوارکننده بهنظر میرسید: برای مثال، وقتی به میمونها و شبکههای عصبی مصنوعی تصاویر یکسانی نشان داده میشد، فعالیت نورونهای واقعی و نورونهای مصنوعی با هم مطابقت داشت. مدلهای مصنوعی شنوایی و تشخیص بو نیز در پی مدلهای بیناییی ایجاد شدند.
الکسی افروس، دانشمند کامپیوتر در دانشگاه کالیفرنیا در برکلی فکر میکند که بیشتر سیستمهای هوش مصنوعی مدرن بیش از اندازه به برچسبهای ساختهشده توسط انسان وابسته هستند. او میگوید: «آنها درواقع مطالب را یاد نمیگیرند.»
با پیشرفت این زمینه، پژوهشگران متوجه محدودیتهای آموزش تحت نظارت شدند. برای مثال در سال ۲۰۱۷، لئون گاتیس، دانشمند کامپیوتر که در آن زمان در دانشگاه توبینگن آلمان بود، با همکارانش تصویری از فورد مدل تی گرفتند، سپس الگوی پوست پلنگ را روی عکس قرار دادند و تصویری عجیب اما بهراحتی قابل تشخیص را ایجاد کردند.
شبکه عصبی مصنوعی برجستهای به درستی تصویر اصلی را بهعنوان مدل تی طبقهبندی کرد؛ اما تصویر تغییریافته را بهعنوان پلنگ درنظر گرفت. شبکه مذکور روی بافت تمرکز کرده بود و درک درستی از شکل ماشین (یا پلنگ) نداشت. استراتژیهای یادگیری خودنظارتی برای اجتناب از چنین مشکلاتی طراحی شدهاند. در این رویکرد، انسانها دادهها را برچسبگذاری نمیکنند. فریدمان زنکه، عصبشناس محاسبانی در مؤسسه تحقیقات زیستپزشکی فریدریش میشر سوئیس گفت: «در این مدلها، برچسبها از خود دادهها میآید.»
الگوریتمهای خودنظارتی اساسا شکافهایی در دادهها ایجاد میکنند و از شبکه عصبی میخواهند تا جاهای خالی را پر کند. برای مثال، در مدلی که به مدل زبانی بزرگ معروف است، الگوریتم آموزشی به شبکه عصبی چند کلمه اول یک جمله را نشان میدهد و از او میخواهد کلمه بعدی را پیشبینی کند. وقتی این مدل با مجموعه بزرگی از متون جمعآوریشده از اینترنت آموزش داده میشود، بهنظر میرسد که ساختار نحوی زبان را یاد میگیرد و توانایی زبانی چشمگیری را نشان میدهد و همه این کارها را بدون نظارت یا برچسبهای خارجی انجام میدهد.
تلاش مشابهی در بینایی کامپیوتر نیز در حال انجام است. اواخر سال ۲۰۲۱، کیمینگ هه و همکارانش «خودرمزگذار پوشانده» را معرفی کردند که براساس تکنیکی ایجاد شده بود که تیم افروس در سال ۲۰۱۶ آن را ایجاد کرد.
الگوریتم یادگیری خودنظارتی بهطور تصادفی تقریباً سه چهارم از هر کدام از تصاویر را میپوشاند. خودرمزگذار پوشانده بخشهایی را که پوشیده نشده است، به بازنماییهای پنهانی تبدیل میکند؛ یعنی توصیفهای ریاضی فشردهای که حاوی اطلاعات مهمی درباره یک شیء است (درباره یک تصویر، بازنمایی نهفته ممکن است توصیفی ریاضی باشد که مثلاً شکل تصویر را توضیح میدهد). سپس یک رمزگشا آن بازنماییها را به تصویر کامل تبدیل میکند.
الگوریتم یادگیری خودنظارتی ترکیب رمزگذار-رمزگشا را آموزش میدهد تا تصاویر پوشاندهشده را به نسخههای کاملشان تبدیل کند. هرگونه تفاوتی بین تصاویر واقعی و تصاویر بازسازیشده به سیستم بازگردانده میشود تا به یادگیری آن کمک کند. این فرایند برای مجموعهای از تصاویر آموزشی تکرار میشود تا زمانی که نرخ خطای سیستم در حد قابل قبولی کاهش پیدا کند. در یک نمونه، زمانی که به خودرمزگذار پوشانده آموزش دادهشده تصویری از یک اتوبوس نشان داده شد که قبلا آن را ندیده بود و تقریباً ۸۰ درصد آن پوشانده شده بود، سیستم با موفقیت ساختار اتوبوس را بازسازی کرد.
بهنظر میرسد که بازنماییهای پنهان ایجادشده در سیستمی مانند مورد فوق حاوی اطلاعات عمیقتری از استراتژیهای گذشته باشد. این سیستم ممکن است برای مثال به جای اینکه فقط الگوی ظاهری آنها را یاد بگیرد، شکل اتومبیل یا پلنگ را یاد بگیرد.
مغزهای خودنظارتگر
- محققان چینی میگویند مدل هوش مصنوعی در مقیاس مغز ساخته اند
- متا با بررسی نحوه عملکرد مغز انسان بهدنبال بهبود تشخیص زبان توسط هوش مصنوعی است
- ساخت هوش مصنوعی با توانایی رمزگشایی دقیق گفتار از فعالیت مغز
در سیستمهایی مانند نمونه توصیفشده، برخی از عصبشناسان تشابهاتی را با نحوه یادگیری ما مشاهده میکنند. بلیک ریچاردز، عصبشناس محاسباتی در دانشگاه مکگیل میگوید: «شکی وجود ندارد که ۹۹ درصد از کاری که مغز انجام میدهد، یادگیری خود نظارتی است.» تصور میشود که مغزهای زیستی نیز درست همانطور که الگوریتم یادگیری خودنظاراتی تلاش میکند تا شکاف تصویر یا بخشی از متن را پیشبینی کند، بهطور مداوم مواردی مانند مکان آینده یک جسم را هنگام حرکت یا کلمه بعدی یک جمله را پیشبینی میکنند. علاوهبراین، مغزها نیز از اشتباهات خود یاد میگیرند و تنها بخش کوچکی از بازخورد مغز ما از منبع خارجی میآید. برای مثال، سیستم بینایی انسان و نخستیسانهای دیگر را درنظر بگیرید.
این سیستمها بهتر از تمام سیستمهای حسی حیوانات مورد مطالعه قرار گرفتهاند؛ اما دانشمندان علوم اعصاب در توضیح این مسئله به مشکل برخوردهاند که چرا آنها شامل دو مسیر جداگانه میشوند: جریان بصری شکمی که مسئول تشخیص اشیاء و چهرهها است و جریان بصری پشتی که حرکت را پردازش میکند (بهترتیب مسیرهای چه و کجا).
ریچاردز و تیمش یک مدل خودنظارتی را ایجاد کردند که به پاسخی اشاره دارد. آنها هوش مصنوعی را آموزش دادند که دو شبکه عصبی مختلف را با هم ترکیب میکرد: اولین مورد به نام معماری ResNet برای پردازش تصاویر طراحی شد. دومی که بهعنوان شبکه بازگشتی شناخته میشود، میتواند توالی از ورودیهای پیشین را برای پیشبینی درباره ورودی مورد انتظار بعدی دنبال کند.
برای آموزش هوش مصنوعی ترکیبی، تیم کار خود را با دنبالهای از مثلاً ۱۰ فریم از یک ویدئو شروع کرد و به رزنت اجازه داد آنها را یکی یکی پردازش کند. سپس شبکه بازگشتی بازنمایی نهفته فریم یازدهم را پیشبینی کرد؛ درحالیکه خیلی با ۱۰ فریم اول مطابقت نداشت. الگوریتم یادگیری خودنظارتی پیشبینی را با مقدار واقعی مقایسه کرد و به شبکههای عصبی دستور داد تا وزنهای خود را بهروزرسانی کنند تا پیشبینی بهتر شود.
تیم ریچاردز دریافت که هوش مصنوعی آموزشدیده با یک رزنت واحد در تشخیص اشیاء خوب عمل میکند؛ اما در طبقهبندی حرکات خوب نیست؛ اما زمانی که آنها رزنت را به دو قسمت تقسیم کردند و دو مسیر ایجاد کردند (بدون تغییر در تعداد کل نورونها)، هوش مصنوعی بازنماییهایی را برای اشیاء در یکی و بازنماییهایی را برای حرکت در دیگر ایجاد کرد و درست مانند کاری که احتمالاً مغز ما انجام میدهد، امکان طبقهبندی پاییندست این ویژگیها را ممکن ساخت.
برای آزمایش بیشتر هوش مصنوعی، تیم مجموعه از ویدئوها را به آن نشان داد که پژوهشگران مؤسسه علوم مغز آلن در سیاتل قبلا به موشها نشان داده بودند. همچون نخستیسانان، موشها نیز دارای نواحی مغزی ویژه برای تصاویر ثابت و برای حرکت هستند. پژوهشگران مؤسسه آلن فعالیت عصبی قشر بینایی موشها را حین تماشای ویدئوها ثبت کرده بودند. در این جا نیز تیم ریچاردز شباهتهایی را در نحوه واکنش هوش مصنوعی و مغز زنده به ویدئوها پیدا کرد.
در طول تمرین، یکی از مسیرها در شبکه عصبی مصنوعی بیشتر شبیه نواحی شکمی تشخیصدهنده اشیاء در مغز موشها شد و مسیر دیگر شبیه نواحی پشتی متمرکز بر حرکت شد. ریچاردز گفت نتایج نشان میدهد که سیستم بینایی ما دو مسیر تخصصی دارد و آنها به پیشبینی آینده بصری کمک میکنند و یک مسیر واحد به اندازه کافی خوب نیست.
بلیک ریچاردز، عصبشناس محاسباتی، به ایجاد هوش مصنوعی کمک کرده است که شبیه شبکههای بینایی در مغزهای زنده عمل میکند.
مدلهای سیستم شنوایی انسان نیز داستان مشابهی را روایت میکنند. در ماه ژوئن، تیمی به رهبری ژان رمی کینگ، پژوهشگر آزمایشگاه Meta AI، هوش مصنوعی به نام Wav2Vec 2.0 را آموزش داد که از شبکه عصبی برای تبدیل صدا به بازنماییهای پنهان استفاده میکند. پژوهشگران برخی از این بازنماییها را میپوشانند و این اطلاعات سپس وارد شبکه عصبی دیگری به نام ترانسفورمر میشود. در جریان آموزش، ترانسفورمر اطلاعات پوشاندهشده را پیشبینی میکند.
طی این فرایند، هوش مصنوعی یاد میگیرد که صداها را به بازنماییهای پنهان تبدیل کند که بازهم به برچسب نیازی ندارد. تیم از حدود ۶۰۰ ساعت دادههای گفتاری برای آموزش شبکه استفاده کرد که بهگفته کینگ، تقریباً همان چیزی است که کودک طی دو سال اول زندگی خود تجربه میکند.
پس از آموزش این سیستم، پژوهشگران بخشیهایی از کتابهای صوتی را به زبانهای انگلیسی، فرانسوی و ماندارین برای آن پخش کردند. پژوهشگران سپس عملکرد هوش مصنوعی را با دادههای حاصل از ۴۱۲ نفر مقایسه کردند. شرکتکنندگان ترکیبی از افرادی بودند که یکی از این سه زبان، زبان مادری آنها بود و وقتی آنها به همان صداها گوش میکردند، دستگاه fMRI از مغزشان تصویربرداری میکرد.
کینگ گفت با وجود تصاویر پر از نویز و با وضوح پایین fMRI، شبکه عصبی او و مغز انسان، با هم همبستگی نظاممندی داشتند. فعالیت در لایههای اولیه هوش مصنوعی با فعالیت در فشر شنوایی اولیه هماهنگ است؛ درحالیکه فعالیت لایههای عمیقتر هوش مصنوعی با فعالیت لایههای بالاتر مغز، در این مورد قشر پیشپیشانی، همسو است. ریچاردز گفت: «این دادهها واقعاً زیبا هستند. قطعی نیست؛ اما شواهد قانعکننده دیگری است که نشان میدهد نحوه یادگیری زبان در ما تا حد زیادی تلاش برای پیشبینی چیزهایی است که بعدا گفته میشود.»
ژان رمی کینگ به آموزش دادن هوش مصنوعی کمک کرد که صدا را با تقلید از عملکرد مغز و تا حدی با پیشبینی آنچه بعداً میآید، پردازش میکند.
آسیبشناسیهای درماننشده
همه متقاعد نشدهاند. جاش مکدرموت، عصبشناس محاسباتی در مؤسسه فناوری ماساچوست روی مدلهای بینایی و ادراک شنوایی با استفاده از یادگیری تحت نظارت و یادگیری خودنظارتی کار کرده است. آزمایشگاه او چیزی را طراحی کرده است که او آن را «متامر» میخواند: سیگنالهای صوتی و بصری مصنوعی که برای انسان نویزهایی غیرقابل درک هستند؛ اما برای شبکه عصبی مصنوعی از سیگنالهای واقعی قابل تشخیص نیستند. این امر نشان میدهد که بازنماییهایی که در لایههای عمیقتر شبکه عصبی شکل میگیرند، حتی با یادگیری خودنظارتی، با بازنماییهای مغز ما مطابقت ندارند.
مکدرموت گفت، رویکردهای یادگیری خودنظارتی در حال پیشرفت هستند؛ اما هنوز آسیبشناسیهای مدلهای تحت نظارت را دارند. خود الگوریتمهای نیز به کار بیشتری نیاز دارند. برای مثال در Wav2Vec 2.0، هوش مصنوعی فقط بازنماییهای پنهان را فقط برای صدای چند صد میلیثانیهای پیشبینی میکنند که بسیار کوتاه است و فاصله زیادی با صدایی دارد که ازنظر ادراکی قابل تمایز باشد. کینگ گفت، کارهای زیادی باید انجام شود تا کاری مشابه کار مغز انجام شود.
درک واقعی عملکرد مغز به چیزی بیش از یادگیری خودنظارتی نیاز دارد. مغز مملو از اتصالات بازخوردی است؛ درحالیکه مدلهای کنونی اگر هم داشته باشند، تعداد اندکی از این نوع ارتباطات را دارند. یکی از گامهای آشکار آینده استفاده از یادگیری خودنظارتی برای آموزش شبکههای بهشدت بازگشتی (که فرایندی دشوار است) و مشاهده این مسئله است که فعالیت در چنین شبکهای با فعالیت مغز واقعی چه شباهتی دارد.
گام مهم دیگر تطبیق فعالیت نورونهای مصنوعی در مدلهای یادگیری خودنظارتی با فعالیت نورونهای زیستی انفرادی است. کینگ گفت: «امیدوارم که در آینده نتایج ما با نتایج مشاهدهشده در سلولهای واحد تأیید شود.» اگر شباهتهای مشاهدهشده بین مغز و مدلهای یادگیری خودنظارتی در وظایف حسی دیگر نیز وجود داشته باشد، نشانه قویتری خواهد بود که قابلیتهای مغز به یادگیری خودنظارتی نیاز دارد.
کینگ افزود: «اگر شباهتهای نظاممندی را بین سیستمهای بسیار متفاوت پیدا کنیم، نشانگر آن خواهد بود که شاید راههای زیادی برای پردازش اطلاعات به شیوهای هوشمندانه وجود نداشته باشد. حداقل، این فرضیه زیبایی است که دوست داریم روی آن کار کنیم.»