«تجارت‌نیوز» گزارش می دهد:

جنجال بنچمارک Grok 3: آیا xAI عملکرد مدل خود را اشتباه نشان داد؟

جنجال بنچمارک Grok 3: xAI به دلیل حذف داده‌های حیاتی در نمودار عملکرد مدل خود، مورد انتقاد قرار گرفت. OpenAI ادعا می‌کند نتایج گمراه‌کننده بوده‌اند.

به گزارش تجارت نیوز، جنجال بنچمارک Grok 3، این هفته از جمله بحث‌های داغ درباره دقت و شفافیت بنچمارک‌های هوش مصنوعی بوده است. یک کارمند OpenAI، شرکت xAI ایلان ماسک را متهم کرده که نتایج گمراه‌کننده‌ای از عملکرد آخرین مدل هوش مصنوعی خود، Grok 3، منتشر کرده است. این جنجال از یک نمودار در وبلاگ xAI آغاز شد که عملکرد Grok 3 را در مقایسه با مدل‌های OpenAI در یک بنچمارک ریاضی چالش‌برانگیز نشان می‌داد. اگرچه ایگور بابوشکین، هم‌بنیان‌گذار xAI، از روش شرکت دفاع کرد، کارشناسان و ناظران صنعت به ناسازگاری‌هایی در نحوه ارائه نتایج اشاره کرده‌اند که اعتبار ادعاهای xAI را زیر سوال می‌برد.

جنجال بنچمارک AIME 2025

این اختلاف حول استفاده xAI از بنچمارک AIME 2025 می‌چرخد، مجموعه‌ای از سوالات دشوار ریاضی که از یک آزمون معتبر ریاضی اخیر استخراج شده‌اند. اگرچه AIME و نسخه‌های قبلی آن معمولاً برای ارزیابی توانایی‌های استدلال ریاضی مدل‌های هوش مصنوعی استفاده می‌شوند، برخی کارشناسان در مورد مناسب‌ بودن آن به عنوان معیاری برای سنجش عملکرد هوش مصنوعی تردید دارند. با این حال، xAI نموداری منتشر کرد که نشان می‌داد دو نسخه از Grok 3—Grok 3 Reasoning Beta و Grok 3 mini Reasoning—از مدل o3-mini-high شرکت OpenAI در آزمون AIME 2025 پیشی گرفته‌اند.

اما کارمندان OpenAI به سرعت اشاره کردند که نمودار xAI یک جزئیات حیاتی را حذف کرده است: عملکرد o3-mini-high در حالت “cons@64”. این اصطلاح، که مخفف “consensus@64” است، به روشی اشاره دارد که در آن مدل ۶۴ بار برای پاسخ به هر سوال تلاش می‌کند و پاسخی که بیشترین تکرار را داشته باشد به عنوان نتیجه نهایی در نظر گرفته می‌شود. این روش اغلب به طرز چشمگیری نمرات بنچمارک را بهبود می‌بخشد. با حذف نتایج cons@64، نمودار xAI این تصور را ایجاد کرد که Grok 3 از مدل‌های OpenAI پیشی گرفته است، در حالی که برعکس این موضوع زمانی صادق بود که داده‌های کامل در نظر گرفته می‌شدند.

داده‌های حذف‌شده و پیامدهای آن

هنگامی که عملکرد Grok 3 Reasoning Beta و Grok 3 mini Reasoning در حالت “@1” (اولین تلاش بدون چندین بار تلاش) ارزیابی شد، نمرات آنها در AIME 2025 پایین‌تر از o3-mini-high OpenAI بود. علاوه بر این، Grok 3 Reasoning Beta کمی از مدل o1 OpenAI در حالت “medium” عقب‌تر بود. با وجود این، xAI مدل Grok 3 را به عنوان “هوشمندترین هوش مصنوعی جهان” معرفی کرده است، ادعایی که با توجه به داده‌های ناقص بنچمارک تردیدبرانگیز شده است.

بابوشکین با این انتقادات مقابله کرد و استدلال کرد که OpenAI نیز در گذشته نمودارهای گمراه‌کننده‌ای منتشر کرده است، اگرچه این نمودارها معمولاً عملکرد مدل‌های خودش را با یکدیگر مقایسه می‌کردند، نه مدل‌های رقبا. با این حال، این دفاع نتوانست نگرانی‌های خاص مطرح‌شده درباره نحوه ارائه نتایج AIME 2025 توسط xAI را برطرف کند. یک ناظر بی‌طرف سعی کرد تصویر واضح‌تری ارائه دهد و نموداری ایجاد کرد که تقریباً عملکرد تمام مدل‌ها در حالت cons@64 را شامل می‌شد و مقایسه جامع‌تری ارائه کرد.

بحث گسترده‌تر درباره بنچمارک‌های هوش مصنوعی

این جنجال مسائل گسترده‌تری درباره نحوه گزارش و تفسیر بنچمارک‌های هوش مصنوعی را برجسته می‌کند. همان‌طور که ناتان لامبرت، پژوهشگر هوش مصنوعی، اشاره کرد، یکی از مهم‌ترین معیارها، هزینه محاسباتی و مالی مورد نیاز برای دستیابی هر مدل به بهترین نمره، ناشناخته باقی مانده است. این حذف، محدودیت‌های روش‌های فعلی بنچمارک‌گذاری را نشان می‌دهد که اغلب تصویر کاملی از نقاط قوت و ضعف یک مدل ارائه نمی‌دهند. بنچمارک‌هایی مانند AIME 2025، اگرچه برای ارزیابی توانایی‌های خاص مفید هستند، عواملی مانند کارایی، هزینه یا کاربرد در دنیای واقعی را در نظر نمی‌گیرند.

این بحث همچنین سوالاتی درباره شفافیت و پاسخگویی شرکت‌های هوش مصنوعی در گزارش نتایج مطرح می‌کند. با افزایش رقابت در صنعت هوش مصنوعی، شرکت‌ها تحت فشار بیشتری قرار دارند تا برتری مدل‌های خود را نشان دهند. این موضوع می‌تواند به گزارش‌های انتخابی نتایج بنچمارک منجر شود، همان‌طور که در مورد نمودار xAI مشاهده شد. چنین روش‌هایی نه تنها عموم را گمراه می‌کنند، بلکه اعتبار جامعه هوش مصنوعی را نیز تضعیف می‌کنند.

اختلاف درباره بنچمارک‌گذاری Grok 3 از سوی xAI چالش‌های ارزیابی مدل‌های هوش مصنوعی و اهمیت شفافیت در گزارش نتایج را برجسته می‌کند. اگرچه نمودار xAI نشان می‌داد که Grok 3 از مدل‌های OpenAI پیشی گرفته است، حذف نمرات cons@64 تصویر ناقصی ارائه کرد. این جنجال نیاز به روش‌های بنچمارک‌گذاری دقیق‌تر و جامع‌تر را نشان می‌دهد که عواملی مانند هزینه محاسباتی و عملکرد در دنیای واقعی را در نظر بگیرند.

با ادامه پیشرفت صنعت هوش مصنوعی، اطمینان از دقت و صداقت در گزارش‌های بنچمارک برای ایجاد اعتماد و پیشرفت این حوزه ضروری است. جنجال بنچمارک Grok 3 یادآوری می‌کند که در رقابت برای توسعه “هوشمندترین هوش مصنوعی،” شفافیت و صداقت باید در اولویت باشد.