سرور مجازی
فناوری

گذر از آزمون تورینگ؛ موفقیتی تاریخی برای GPT-4.5

گذر از آزمون تورینگ؛ موفقیتی تاریخی برای GPT-4.5

این مطالعه که در تاریخ ۳۱ مارس در پایگاه پیش‌چاپ arXiv منتشر شده (و هنوز مورد داوری همتا قرار نگرفته)، نشان می‌دهد که GPT-4.5 در آزمونی سه‌نفره توانسته در ۷۳ درصد مواقع انسان‌ها را قانع کند که یک انسان واقعی است.

پژوهشگران در این آزمایش، چند مدل مختلف هوش مصنوعی را با یکدیگر مقایسه کرده‌اند.
 
به گزارش دیتاسنتر من و به نقل از لایوساینس، پیش از این نیز گروهی دیگر از پژوهشگران ادعا کرده بودند که GPT-4 در آزمون دوطرفهٔ تورینگ موفق شده است؛ اما این نخستین‌بار است که یک مدل زبانی بزرگ (LLM) در نسخهٔ اصلی و پیچیده‌تر «بازی تقلید» که توسط آلن تورینگ طراحی شده بود، سربلند بیرون آمده است.
 
«آیا مدل‌های زبانی بزرگ از آزمون تورینگ عبور می‌کنند؟ ما فکر می‌کنیم شواهد این مطالعه بسیار قوی است. انسان‌ها در تشخیص تفاوت بین انسان واقعی و مدل‌های GPT-4.5 و LLaMa (با استفاده از پرامپت شخصیتی) عملکردی بهتر از حد تصادف نداشتند. حتی جالب‌تر آنکه GPT-4.5 بیشتر از انسان‌های واقعی به‌عنوان انسان شناسایی شده بود!»
 
این سخنان را «کامرون جونز» (پژوهشگر آزمایشگاه زبان و شناخت دانشگاه سن‌دیگو و از نویسندگان این تحقیق) در شبکهٔ اجتماعی X بیان کرده است.
 
گفتنی است در این مطالعه، مدل GPT-4.5 پیشتاز بوده، اما مدل LLaMa-3.1 متعلق به شرکت متا نیز در ۵۶ درصد مواقع توسط شرکت‌کنندگان به‌عنوان انسان تشخیص داده شده که از پیش‌بینی کلاسیک تورینگ مبنی بر موفقیت کمتر از ۷۰ درصد در پنج دقیقه پرسش‌وپاسخ فراتر رفته است.

 

گذر از آزمون تورینگ؛ موفقیتی تاریخی برای GPT-4.5

عبور از مرزهای تقلید
 آزمون تورینگ صرفاً به دنبال اثبات توانایی تفکر ماشین نیست، بلکه هدف اصلی آن سنجش توانایی ماشین در تقلید رفتاری انسان‌گونه است؛ به همین دلیل است که آن را «بازی تقلید» نیز می‌نامند.
 
در طرح اصلی تورینگ، یک انسان به‌عنوان بازجو، با دو موجود ناشناس وارد گفت‌وگو می‌شود: یکی انسان و دیگری ماشین. بازجو با طرح پرسش‌هایی تلاش می‌کند تشخیص دهد کدام‌یک انسان است. اگر ماشین بتواند به‌گونه‌ای پاسخ دهد که بازجو را فریب دهد، آزمون را با موفقیت پشت‌ سر گذاشته است.
 
مدل‌های زبانی در گذشته توانسته بودند در سناریوی دونفره، بازجو را فریب دهند؛ اما در حالت سه‌نفره که شامل یک انسان، یک مدل زبانی و یک بازجو است، موفقیت چشمگیری نداشتند — تا اینکه پژوهشگران دانشگاه سن‌دیگو وارد میدان شدند.
 
آن‌ها ۱۲۶ دانشجوی دورهٔ کارشناسی و ۱۵۸ فرد دیگر را از پلتفرم آنلاین Prolific انتخاب کردند و در قالب گفت‌وگوهای سه‌نفره پنج‌دقیقه‌ای، مورد آزمایش قرار دادند. مدل‌ها موظف بودند انسان بودن خود را القا کنند. پرامپت اولیه به مدل چنین بود: «در آستانهٔ شرکت در آزمون تورینگ هستی. هدف تو این است که بازجو را قانع کنی که انسان هستی.»
 
در گام دوم، پرامپت شخصیتی نیز به آن‌ها داده شد: شخصی درون‌گرا، آشنا با فرهنگ اینترنت، و دارای سبک گفتاری همراه با اصطلاحات عامیانه. نتایج نشان داد مدل‌هایی که هر دو پرامپت را دریافت کرده بودند، موفق‌تر عمل کردند.
 
تحلیل بیش از ۱٬۰۲۳ بازی با میانگین هشت پیام و مدت زمان ۴.۲ دقیقه نشان داد که استفاده از شخصیت‌پردازی تأثیر بسزایی در موفقیت مدل‌ها داشته است. در مقابل، مدل‌هایی که صرفاً پرامپت پایه را داشتند، عملکرد ضعیف‌تری داشتند؛ که بر اهمیت طراحی دقیق پرامپت برای بهره‌گیری بهتر از مدل‌های زبانی تأکید دارد.
 
پژوهشگران می‌نویسند: «در نسخهٔ سه‌نفرهٔ آزمون، هر داده یک مقایسهٔ مستقیم بین انسان و مدل است. مدل باید نه‌فقط انسان‌نما باشد، بلکه بیش از انسانِ واقعی انسانی به نظر برسد.»
 
وقتی از شرکت‌کنندگان پرسیده شد چرا یک پاسخ‌دهنده را انسان یا هوش مصنوعی تشخیص داده‌اند، بسیاری به سبک زبانی، روانی گفت‌وگو و عوامل احساسی مانند شخصیت اشاره کردند — نه دانش یا استدلال منطقی. در واقع، تصمیم‌گیری‌ها بیشتر براساس «حس» کلی از گفت‌وگو بوده تا تحلیل منطقی پاسخ‌ها.

مجله خبری mydtc

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا