گذر از آزمون تورینگ؛ موفقیتی تاریخی برای GPT-4.5

گذر از آزمون تورینگ؛ موفقیتی تاریخی برای GPT-4.5
پژوهشگران در این آزمایش، چند مدل مختلف هوش مصنوعی را با یکدیگر مقایسه کردهاند.
به گزارش دیتاسنتر من و به نقل از لایوساینس، پیش از این نیز گروهی دیگر از پژوهشگران ادعا کرده بودند که GPT-4 در آزمون دوطرفهٔ تورینگ موفق شده است؛ اما این نخستینبار است که یک مدل زبانی بزرگ (LLM) در نسخهٔ اصلی و پیچیدهتر «بازی تقلید» که توسط آلن تورینگ طراحی شده بود، سربلند بیرون آمده است.
«آیا مدلهای زبانی بزرگ از آزمون تورینگ عبور میکنند؟ ما فکر میکنیم شواهد این مطالعه بسیار قوی است. انسانها در تشخیص تفاوت بین انسان واقعی و مدلهای GPT-4.5 و LLaMa (با استفاده از پرامپت شخصیتی) عملکردی بهتر از حد تصادف نداشتند. حتی جالبتر آنکه GPT-4.5 بیشتر از انسانهای واقعی بهعنوان انسان شناسایی شده بود!»
این سخنان را «کامرون جونز» (پژوهشگر آزمایشگاه زبان و شناخت دانشگاه سندیگو و از نویسندگان این تحقیق) در شبکهٔ اجتماعی X بیان کرده است.
گفتنی است در این مطالعه، مدل GPT-4.5 پیشتاز بوده، اما مدل LLaMa-3.1 متعلق به شرکت متا نیز در ۵۶ درصد مواقع توسط شرکتکنندگان بهعنوان انسان تشخیص داده شده که از پیشبینی کلاسیک تورینگ مبنی بر موفقیت کمتر از ۷۰ درصد در پنج دقیقه پرسشوپاسخ فراتر رفته است.
عبور از مرزهای تقلید
آزمون تورینگ صرفاً به دنبال اثبات توانایی تفکر ماشین نیست، بلکه هدف اصلی آن سنجش توانایی ماشین در تقلید رفتاری انسانگونه است؛ به همین دلیل است که آن را «بازی تقلید» نیز مینامند.
در طرح اصلی تورینگ، یک انسان بهعنوان بازجو، با دو موجود ناشناس وارد گفتوگو میشود: یکی انسان و دیگری ماشین. بازجو با طرح پرسشهایی تلاش میکند تشخیص دهد کدامیک انسان است. اگر ماشین بتواند بهگونهای پاسخ دهد که بازجو را فریب دهد، آزمون را با موفقیت پشت سر گذاشته است.
مدلهای زبانی در گذشته توانسته بودند در سناریوی دونفره، بازجو را فریب دهند؛ اما در حالت سهنفره که شامل یک انسان، یک مدل زبانی و یک بازجو است، موفقیت چشمگیری نداشتند — تا اینکه پژوهشگران دانشگاه سندیگو وارد میدان شدند.
آنها ۱۲۶ دانشجوی دورهٔ کارشناسی و ۱۵۸ فرد دیگر را از پلتفرم آنلاین Prolific انتخاب کردند و در قالب گفتوگوهای سهنفره پنجدقیقهای، مورد آزمایش قرار دادند. مدلها موظف بودند انسان بودن خود را القا کنند. پرامپت اولیه به مدل چنین بود: «در آستانهٔ شرکت در آزمون تورینگ هستی. هدف تو این است که بازجو را قانع کنی که انسان هستی.»
در گام دوم، پرامپت شخصیتی نیز به آنها داده شد: شخصی درونگرا، آشنا با فرهنگ اینترنت، و دارای سبک گفتاری همراه با اصطلاحات عامیانه. نتایج نشان داد مدلهایی که هر دو پرامپت را دریافت کرده بودند، موفقتر عمل کردند.
تحلیل بیش از ۱٬۰۲۳ بازی با میانگین هشت پیام و مدت زمان ۴.۲ دقیقه نشان داد که استفاده از شخصیتپردازی تأثیر بسزایی در موفقیت مدلها داشته است. در مقابل، مدلهایی که صرفاً پرامپت پایه را داشتند، عملکرد ضعیفتری داشتند؛ که بر اهمیت طراحی دقیق پرامپت برای بهرهگیری بهتر از مدلهای زبانی تأکید دارد.
پژوهشگران مینویسند: «در نسخهٔ سهنفرهٔ آزمون، هر داده یک مقایسهٔ مستقیم بین انسان و مدل است. مدل باید نهفقط انساننما باشد، بلکه بیش از انسانِ واقعی انسانی به نظر برسد.»
وقتی از شرکتکنندگان پرسیده شد چرا یک پاسخدهنده را انسان یا هوش مصنوعی تشخیص دادهاند، بسیاری به سبک زبانی، روانی گفتوگو و عوامل احساسی مانند شخصیت اشاره کردند — نه دانش یا استدلال منطقی. در واقع، تصمیمگیریها بیشتر براساس «حس» کلی از گفتوگو بوده تا تحلیل منطقی پاسخها.
مجله خبری mydtc