به گزارش تجارت نیوز، متا، غول فناوری، اوایل این هفته با استفاده از یک نسخه آزمایشی و منتشرنشده از مدل لاما ۴ Maverick خود برای کسب نمره بالا در یک معیار جمعسپاریشده به نام LM Arena، به دردسر افتاد. این اتفاق باعث شد تا مسئولان LM Arena عذرخواهی کرده و سیاستهای خود را تغییر دهند و نمره مدل غیر تغییر یافته و اصلی Maverick را محاسبه کنند. نتایج نشان میدهد که این مدل چندان رقابتی نیست.
نمرات پایین لاما ۴ Maverick
مدل غیر تغییر یافته Maverick، به نام «Llama-4-Maverick-17B-128E-Instruct»، در مقایسه با مدلهای دیگر مانند GPT-4o از OpenAI، Claude 3.5 Sonnet از Anthropic و Gemini 1.5 Pro از گوگل، در روز جمعه در جایگاه پایینتری قرار گرفت. بسیاری از این مدلها ماهها قبل منتشر شدهاند. نسخه نهایی لاما ۴ پس از افشای تقلب متا به LM Arena اضافه شده است، اما احتمالاً شما آن را ندیدهاید زیرا باید به جایگاه ۳۲ام اسکرول کنید تا آن را ببینید.
دلایل عملکرد ضعیف
عملکرد ضعیف لاما ۴ Maverick به این دلیل است که نسخه آزمایشی آن، Llama-4-Maverick-03-26-Experimental، به طور خاص برای مکالمه بهینهسازی شده بود. این بهینهسازیها به وضوح در LM Arena که ارزیابان انسانی خروجی مدلها را مقایسه میکنند و از بین آنها انتخاب میکنند، خوب عمل کرده است. همانطور که قبلاً اشاره کردهایم، LM Arena به دلایل مختلف هرگز به عنوان معتبرترین معیار اندازهگیری عملکرد مدلهای هوش مصنوعی شناخته نشده است.
چالشهای توسعهدهندگان
تعدیل یک مدل برای یک معیار خاص نه تنها گمراهکننده است، بلکه پیشبینی این که مدل در زمینههای مختلف چگونه عمل خواهد کرد را برای توسعهدهندگان دشوار میسازد. در یک بیانیه، یک سخنگوی متا به TechCrunch گفت که این شرکت با «همه نوع از نسخههای سفارشی» آزمایش میکند. این نشان میدهد که متا به دنبال بهبود مدلهای خود و ایجاد بهترین تجربه کاربری است.
نسخههای جدید و بازخوردها
سخنگوی متا ادامه داد: «Llama-4-Maverick-03-26-Experimental نسخهای بهینهشده برای چت است که ما بر روی آن آزمایش کردهایم و همچنین در LM Arena عملکرد خوبی داشته است.» این شرکت اکنون نسخه متنباز خود را منتشر کرده و امیدوار است که توسعهدهندگان بتوانند لاما ۴ را برای موارد استفاده خود سفارشیسازی کنند. متا ابراز امیدواری کرد که از آنها بازخورد مستمر دریافت کند و ببیند که آنها چه چیزهایی خواهند ساخت.
در نهایت، این ماجرا نشاندهنده چالشهای پیش روی شرکتها در عرصه هوش مصنوعی و نیاز به شفافیت و صداقت در ارزیابی مدلهای جدید است. با توجه به رقابت شدید در این حوزه، متا باید به دقت به بازخوردها گوش دهد و به بهبود محصولات خود ادامه دهد تا بتواند در این بازار پررقابت باقی بماند.