به گزارش تجارت نیوز، جنجال بنچمارک Grok 3، این هفته از جمله بحثهای داغ درباره دقت و شفافیت بنچمارکهای هوش مصنوعی بوده است. یک کارمند OpenAI، شرکت xAI ایلان ماسک را متهم کرده که نتایج گمراهکنندهای از عملکرد آخرین مدل هوش مصنوعی خود، Grok 3، منتشر کرده است. این جنجال از یک نمودار در وبلاگ xAI آغاز شد که عملکرد Grok 3 را در مقایسه با مدلهای OpenAI در یک بنچمارک ریاضی چالشبرانگیز نشان میداد. اگرچه ایگور بابوشکین، همبنیانگذار xAI، از روش شرکت دفاع کرد، کارشناسان و ناظران صنعت به ناسازگاریهایی در نحوه ارائه نتایج اشاره کردهاند که اعتبار ادعاهای xAI را زیر سوال میبرد.
جنجال بنچمارک AIME 2025
این اختلاف حول استفاده xAI از بنچمارک AIME 2025 میچرخد، مجموعهای از سوالات دشوار ریاضی که از یک آزمون معتبر ریاضی اخیر استخراج شدهاند. اگرچه AIME و نسخههای قبلی آن معمولاً برای ارزیابی تواناییهای استدلال ریاضی مدلهای هوش مصنوعی استفاده میشوند، برخی کارشناسان در مورد مناسب بودن آن به عنوان معیاری برای سنجش عملکرد هوش مصنوعی تردید دارند. با این حال، xAI نموداری منتشر کرد که نشان میداد دو نسخه از Grok 3—Grok 3 Reasoning Beta و Grok 3 mini Reasoning—از مدل o3-mini-high شرکت OpenAI در آزمون AIME 2025 پیشی گرفتهاند.
اما کارمندان OpenAI به سرعت اشاره کردند که نمودار xAI یک جزئیات حیاتی را حذف کرده است: عملکرد o3-mini-high در حالت “cons@64”. این اصطلاح، که مخفف “consensus@64” است، به روشی اشاره دارد که در آن مدل ۶۴ بار برای پاسخ به هر سوال تلاش میکند و پاسخی که بیشترین تکرار را داشته باشد به عنوان نتیجه نهایی در نظر گرفته میشود. این روش اغلب به طرز چشمگیری نمرات بنچمارک را بهبود میبخشد. با حذف نتایج cons@64، نمودار xAI این تصور را ایجاد کرد که Grok 3 از مدلهای OpenAI پیشی گرفته است، در حالی که برعکس این موضوع زمانی صادق بود که دادههای کامل در نظر گرفته میشدند.
دادههای حذفشده و پیامدهای آن
هنگامی که عملکرد Grok 3 Reasoning Beta و Grok 3 mini Reasoning در حالت “@1” (اولین تلاش بدون چندین بار تلاش) ارزیابی شد، نمرات آنها در AIME 2025 پایینتر از o3-mini-high OpenAI بود. علاوه بر این، Grok 3 Reasoning Beta کمی از مدل o1 OpenAI در حالت “medium” عقبتر بود. با وجود این، xAI مدل Grok 3 را به عنوان “هوشمندترین هوش مصنوعی جهان” معرفی کرده است، ادعایی که با توجه به دادههای ناقص بنچمارک تردیدبرانگیز شده است.
بابوشکین با این انتقادات مقابله کرد و استدلال کرد که OpenAI نیز در گذشته نمودارهای گمراهکنندهای منتشر کرده است، اگرچه این نمودارها معمولاً عملکرد مدلهای خودش را با یکدیگر مقایسه میکردند، نه مدلهای رقبا. با این حال، این دفاع نتوانست نگرانیهای خاص مطرحشده درباره نحوه ارائه نتایج AIME 2025 توسط xAI را برطرف کند. یک ناظر بیطرف سعی کرد تصویر واضحتری ارائه دهد و نموداری ایجاد کرد که تقریباً عملکرد تمام مدلها در حالت cons@64 را شامل میشد و مقایسه جامعتری ارائه کرد.
بحث گستردهتر درباره بنچمارکهای هوش مصنوعی
این جنجال مسائل گستردهتری درباره نحوه گزارش و تفسیر بنچمارکهای هوش مصنوعی را برجسته میکند. همانطور که ناتان لامبرت، پژوهشگر هوش مصنوعی، اشاره کرد، یکی از مهمترین معیارها، هزینه محاسباتی و مالی مورد نیاز برای دستیابی هر مدل به بهترین نمره، ناشناخته باقی مانده است. این حذف، محدودیتهای روشهای فعلی بنچمارکگذاری را نشان میدهد که اغلب تصویر کاملی از نقاط قوت و ضعف یک مدل ارائه نمیدهند. بنچمارکهایی مانند AIME 2025، اگرچه برای ارزیابی تواناییهای خاص مفید هستند، عواملی مانند کارایی، هزینه یا کاربرد در دنیای واقعی را در نظر نمیگیرند.
این بحث همچنین سوالاتی درباره شفافیت و پاسخگویی شرکتهای هوش مصنوعی در گزارش نتایج مطرح میکند. با افزایش رقابت در صنعت هوش مصنوعی، شرکتها تحت فشار بیشتری قرار دارند تا برتری مدلهای خود را نشان دهند. این موضوع میتواند به گزارشهای انتخابی نتایج بنچمارک منجر شود، همانطور که در مورد نمودار xAI مشاهده شد. چنین روشهایی نه تنها عموم را گمراه میکنند، بلکه اعتبار جامعه هوش مصنوعی را نیز تضعیف میکنند.
اختلاف درباره بنچمارکگذاری Grok 3 از سوی xAI چالشهای ارزیابی مدلهای هوش مصنوعی و اهمیت شفافیت در گزارش نتایج را برجسته میکند. اگرچه نمودار xAI نشان میداد که Grok 3 از مدلهای OpenAI پیشی گرفته است، حذف نمرات cons@64 تصویر ناقصی ارائه کرد. این جنجال نیاز به روشهای بنچمارکگذاری دقیقتر و جامعتر را نشان میدهد که عواملی مانند هزینه محاسباتی و عملکرد در دنیای واقعی را در نظر بگیرند.
با ادامه پیشرفت صنعت هوش مصنوعی، اطمینان از دقت و صداقت در گزارشهای بنچمارک برای ایجاد اعتماد و پیشرفت این حوزه ضروری است. جنجال بنچمارک Grok 3 یادآوری میکند که در رقابت برای توسعه “هوشمندترین هوش مصنوعی،” شفافیت و صداقت باید در اولویت باشد.