«تجارت‌نیوز» گزارش می‌دهد:

مدل جدید هوش مصنوعی متا در آزمون LM Arena/ متمایز از نسخه توسعه‌دهندگان

مدل هوش مصنوعی جدید متا به نام ماوریک در آزمون LM Arena دومین رتبه را کسب کرد، اما نسخه آن با نسخه عمومی متفاوت است.

به گزارش تجارت نیوز، مدل جدید هوش مصنوعی متا به نام ماوریک که روز شنبه معرفی شد، در آزمون LM Arena دومین رتبه را به خود اختصاص داد. این آزمون به‌ گونه‌ای طراحی شده است که ارزیابان انسانی خروجی‌های مدل‌ها را مقایسه و نسخه‌ای را که بیشتر می‌پسندند انتخاب کنند. اما به نظر می‌رسد نسخه‌ای که متا در LM Arena به کار گرفته با نسخه‌ای که برای توسعه‌دهندگان به‌طور گسترده در دسترس است، تفاوت دارد.

تفاوت‌های نسخه‌ها

چندین محقق حوزه هوش مصنوعی در شبکه اجتماعی X به این موضوع اشاره کرده‌اند که متا در اعلامیه‌اش به این نکته پرداخته است که ماوریک در LM Arena یک «نسخه آزمایشی چت» است. در عین حال، نموداری در وب‌سایت رسمی لاما نشان می‌دهد که آزمایش‌های LM Arena متا با استفاده از «لاما ۴ ماوریک بهینه‌سازی‌شده برای مکالمه» انجام شده است.

چالش‌های ارزیابی

به‌ طور کلی، LM Arena به دلایل مختلف هیچ‌گاه به‌ عنوان معیاری قابل‌ اعتماد برای سنجش عملکرد مدل‌های هوش مصنوعی شناخته نشده است. اما به‌ طور کلی، شرکت‌های هوش مصنوعی مدل‌های خود را به‌ گونه‌ای سفارشی‌سازی نکرده یا به‌گونه‌ای تنظیم نمی‌کنند که در LM Arena امتیاز بهتری کسب کنند، یا حداقل به این موضوع اعتراف نمی‌کنند. مشکل اصلی در تغییر یک مدل برای تطابق با یک معیار، نگهداری آن و سپس انتشار یک نسخه «خام» از همان مدل این است که پیش‌بینی عملکرد مدل در زمینه‌های خاص برای توسعه‌دهندگان دشوار می‌شود. همچنین این به‌نوعی گمراه‌کننده است. معیارها باید، هرچند به‌ طرز فاحشی ناکافی هستند، تصویری از نقاط قوت و ضعف یک مدل خاص در زمینه‌های مختلف ارائه دهند.

رفتار متفاوت مدل‌ها

تحقیقات صورت‌گرفته در X نشان‌دهنده تفاوت‌های زیادی در رفتار ماوریک قابل دانلود عمومی نسبت به مدلی است که در LM Arena میزبانش است. به‌ نظر می‌رسد نسخه LM Arena از تعداد زیادی ایموجی استفاده می‌کند و پاسخ‌های بسیار طولانی و بی‌پایانی ارائه می‌دهد. یکی از کاربران در این زمینه نوشت: «به‌ طور قطع لاما ۴ کمی پخته شده است، این چه شهری از حرف زدن است؟»

نظرات کاربران

کاربران در توییت‌های خود نیز به این تفاوت‌ها اشاره کرده و گفته‌اند که به‌ دلایلی، مدل لاما ۴ در Arena از ایموجی‌های بیشتری استفاده می‌کند و در پلتفرم دیگر بهتر عمل می‌کند. یکی دیگر از کاربران به این نکته اشاره کرده که رفتار ماوریک در Arena به‌شدت متفاوت است و به‌ نظر می‌رسد این نسخه به‌راحتی از تعداد بالایی از ایموجی‌ها استفاده می‌کند.

متا و سازمان Chatbot Arena که مسئول نگهداری از LM Arena است، برای ارائه نظر به ما مراجعه شده است.

در نهایت، این موضوع نشان می‌دهد که چطور می‌توان با استفاده از معیارها و نسخه‌های مختلف، تصویر دقیق‌تری از عملکرد مدل‌های هوش مصنوعی به‌ دست آورد. با توجه به پیشرفت‌های روزافزون در این زمینه، انتظار می‌رود شرکت‌ها با دقت بیشتری در ارائه عملکرد مدل‌های خود پایبند باشند و از شفافیت بیشتری در این زمینه استفاده کنند.