به گزارش تجارت نیوز، مدل جدید هوش مصنوعی متا به نام ماوریک که روز شنبه معرفی شد، در آزمون LM Arena دومین رتبه را به خود اختصاص داد. این آزمون به گونهای طراحی شده است که ارزیابان انسانی خروجیهای مدلها را مقایسه و نسخهای را که بیشتر میپسندند انتخاب کنند. اما به نظر میرسد نسخهای که متا در LM Arena به کار گرفته با نسخهای که برای توسعهدهندگان بهطور گسترده در دسترس است، تفاوت دارد.
تفاوتهای نسخهها
چندین محقق حوزه هوش مصنوعی در شبکه اجتماعی X به این موضوع اشاره کردهاند که متا در اعلامیهاش به این نکته پرداخته است که ماوریک در LM Arena یک «نسخه آزمایشی چت» است. در عین حال، نموداری در وبسایت رسمی لاما نشان میدهد که آزمایشهای LM Arena متا با استفاده از «لاما ۴ ماوریک بهینهسازیشده برای مکالمه» انجام شده است.
چالشهای ارزیابی
به طور کلی، LM Arena به دلایل مختلف هیچگاه به عنوان معیاری قابل اعتماد برای سنجش عملکرد مدلهای هوش مصنوعی شناخته نشده است. اما به طور کلی، شرکتهای هوش مصنوعی مدلهای خود را به گونهای سفارشیسازی نکرده یا بهگونهای تنظیم نمیکنند که در LM Arena امتیاز بهتری کسب کنند، یا حداقل به این موضوع اعتراف نمیکنند. مشکل اصلی در تغییر یک مدل برای تطابق با یک معیار، نگهداری آن و سپس انتشار یک نسخه «خام» از همان مدل این است که پیشبینی عملکرد مدل در زمینههای خاص برای توسعهدهندگان دشوار میشود. همچنین این بهنوعی گمراهکننده است. معیارها باید، هرچند به طرز فاحشی ناکافی هستند، تصویری از نقاط قوت و ضعف یک مدل خاص در زمینههای مختلف ارائه دهند.
رفتار متفاوت مدلها
تحقیقات صورتگرفته در X نشاندهنده تفاوتهای زیادی در رفتار ماوریک قابل دانلود عمومی نسبت به مدلی است که در LM Arena میزبانش است. به نظر میرسد نسخه LM Arena از تعداد زیادی ایموجی استفاده میکند و پاسخهای بسیار طولانی و بیپایانی ارائه میدهد. یکی از کاربران در این زمینه نوشت: «به طور قطع لاما ۴ کمی پخته شده است، این چه شهری از حرف زدن است؟»
نظرات کاربران
کاربران در توییتهای خود نیز به این تفاوتها اشاره کرده و گفتهاند که به دلایلی، مدل لاما ۴ در Arena از ایموجیهای بیشتری استفاده میکند و در پلتفرم دیگر بهتر عمل میکند. یکی دیگر از کاربران به این نکته اشاره کرده که رفتار ماوریک در Arena بهشدت متفاوت است و به نظر میرسد این نسخه بهراحتی از تعداد بالایی از ایموجیها استفاده میکند.
متا و سازمان Chatbot Arena که مسئول نگهداری از LM Arena است، برای ارائه نظر به ما مراجعه شده است.
در نهایت، این موضوع نشان میدهد که چطور میتوان با استفاده از معیارها و نسخههای مختلف، تصویر دقیقتری از عملکرد مدلهای هوش مصنوعی به دست آورد. با توجه به پیشرفتهای روزافزون در این زمینه، انتظار میرود شرکتها با دقت بیشتری در ارائه عملکرد مدلهای خود پایبند باشند و از شفافیت بیشتری در این زمینه استفاده کنند.