کیمی-کی۲: مدل زبان بزرگ چینی که رقبای جهانی را به چالش میکشد

کیمی-کی۲: مدل زبان بزرگ چینی که رقبای جهانی را به چالش میکشد
به گزارش دیتاسنتر من و به نقل از The Decoder، این مدل که به صورت اپن-وِیت منتشر شده، با یک تریلیون پارامتر و فعالسازی ۳۲ میلیارد پارامتر در هر استنتاج، قابلیت رقابت با مدلهای اختصاصی پیشرو مانند کلاد سونت ۴ و جیپیتی-۴٫۱ را دارد.
بر این اساس، نسخه «کیمی-کی۲-اینستراکت» که برای استفاده عملی بهینهسازی شده، در تستهای استاندارد عملکردی همرده با مدلهای بسته پیشرو نشان داده است. در آزمون SWE-bench که توانایی مدل در تشخیص و رفع خطاهای کد را میسنجد، این مدل با امتیاز ۶۵.۸ درصد در حالت عامل، عملکردی بهتر از جیپیتی-۴٫۱ (۵۴٫۶ درصد) و نزدیک به کلاد سونت ۴ داشته است.
گفتنی است کیمی-کی۲ بدون داشتن ماژول استدلال اختصاصی، در تستهای برنامهنویسی LiveCodeBench (۵۳٫۷ درصد) و OJBench (۲۷٫۱ درصد) نیز پیشتاز است. این مدل در حل مسائل ریاضی و علمی نیز عملکرد درخشانی دارد و در آزمونهایی مانند AIME، GPQA-Diamond و MATH-500 از رقبا پیشی گرفته است.
مونشات هوش مصنوعی، کیمی-کی۲ را بهطور ویژه برای کاربردهای عاملی طراحی کرده است. این مدل میتواند دستورات را اجرا کند، ابزارهای خارجی را فراخوانی کند، کد تولید و دیباگ نماید و وظایف پیچیده چندمرحلهای را بهصورت مستقل مدیریت کند.
در یک نمایش نمونه، این مدل توانست دادههای حقوقی مشاغل دورکار را تحلیل کند، ارزیابی آماری انجام دهد و یک صفحه HTML تعاملی با ابزار پیشنهاد سفارشیسازی شده ایجاد کند.
گفته میشود این مدل با الگوریتم آموزشی جدیدی به نام «میونکلیپ» روی ۱۵٫۵ تریلیون توکن آموزش دیده است. مونشات هوش مصنوعی ادعا میکند این الگوریتم جایگزین بهتری برای بهینهساز استاندارد AdamW است و نقش کلیدی در عملکرد قوی مدل داشته است.
مجله خبری mydtc