به گزارش تجارت نیوز، اختلاف نتایج benchmark بین اول و سوم شخص برای مدل هوش مصنوعی o3 شرکت OpenAI، سوالاتی را درباره شفافیت و روشهای آزمایش این شرکت به وجود آورده است. زمانی که OpenAI در دسامبر سال گذشته مدل o3 را معرفی کرد، این شرکت ادعا کرد که این مدل میتواند بیش از یک چهارم سوالات موجود در مجموعه چالشبرانگیز FrontierMath را پاسخ دهد. این نتیجه عملکرد مدل را در مقایسه با رقبا به طرز قابل توجهی بهتر نشان میدهد، بهطوریکه بهترین مدل رقیب تنها حدود 2 درصد از سوالات FrontierMath را به درستی پاسخ داده بود. مارک چن، رئیس بخش تحقیقات OpenAI، در یک پخش زنده اعلام کرد: «امروز، تمامی پیشنهادات موجود کمتر از 2 درصد در FrontierMath دارند. ما [درون سازمان] با o3 در شرایط محاسباتی شدید، قادر به دستیابی به بیش از 25 درصد هستیم.»
ادعای OpenAI و واقعیت
با این حال، به نظر میرسد که این عدد یک حد بالایی بوده که به نسخهای از o3 با قدرت محاسباتی بیشتر نسبت به مدلی که OpenAI بهطور عمومی هفته گذشته معرفی کرد، مربوط میشود. مؤسسه تحقیقاتی Epoch AI که مسئول FrontierMath است، نتایج آزمایشهای مستقل benchmark از o3 را روز جمعه منتشر کرد. Epoch اعلام کرد که o3 حدود 10 درصد نمره کسب کرده که به مراتب پایینتر از بالاترین نمره ادعایی OpenAI است.
OpenAI همچنین o3، مدل استدلال بسیار مورد انتظار خود را به همراه o4-mini، یک مدل کوچکتر و ارزانتر که جانشین o3-mini است، منتشر کرد. Epoch در توییتی اعلام کرد که این مدلهای جدید را در مجموعهای از benchmarkهای ریاضی و علمی ارزیابی کردهاند.
تفاوت در نتایج
این به این معنا نیست که OpenAI بهطور صریح دروغ گفته است. نتایج benchmark که این شرکت در دسامبر منتشر کرده، نمرهای را نشان میدهد که با نمرهای که Epoch مشاهده کرده، مطابقت دارد. Epoch همچنین به این نکته اشاره کرد که تنظیمات آزمایشی آن احتمالاً با تنظیمات OpenAI متفاوت است و اینکه آنها از نسخه بهروز FrontierMath برای ارزیابیهای خود استفاده کردهاند. Epoch در گزارشی نوشت: «تفاوت بین نتایج ما و OpenAI ممکن است به دلیل ارزیابی OpenAI با یک زیرساخت داخلی قویتر، استفاده از محاسبات بیشتر در زمان آزمایش، یا به دلیل این باشد که نتایج در یک زیرمجموعه متفاوت از FrontierMath (180 سوال در frontiermath-2024-11-26 در مقابل 290 سوال در frontiermath-2025-02-28-private) اجرا شده است.»
مدلهای مختلف و بهینهسازیها
به گفته بنیاد جایزه ARC، سازمانی که نسخه پیشانتشار o3 را آزمایش کرده است، مدل عمومی o3 «مدل متفاوتی است که برای استفاده در چت و محصول تنظیم شده است»، که این موضوع گزارش Epoch را تأیید میکند. آنها همچنین نوشتند که «تمامی سطوح محاسباتی منتشر شده o3 کوچکتر از نسخهای هستند که ما آزمایش کردیم.» بهطور کلی، میتوان انتظار داشت که سطوح محاسباتی بزرگتر نمرات benchmark بهتری را به دست آورند.
Wenda Zhou، یکی از اعضای کادر فنی OpenAI، در یک پخش زنده هفته گذشته گفت که o3 در تولید «بیشتر بهینهسازی شده برای استفادههای واقعی» و سرعت است و ممکن است اختلافاتی در benchmarkها نشان دهد. او گفت: «[ما] بهینهسازیهایی انجام دادهایم تا مدل را از نظر هزینهای کارآمدتر و بهطور کلی مفیدتر کنیم.»
این واقعیت که انتشار عمومی o3 به وعدههای آزمایشی OpenAI نمیرسد، به نوعی موضوع بیموردی است، زیرا مدلهای o3-mini-high و o4-mini این شرکت در FrontierMath از o3 بهتر عمل میکنند و OpenAI قصد دارد به زودی یک نسخه قویتر از o3، یعنی o3-pro را معرفی کند. با این حال، این موضوع بهعنوان یادآوری دیگری است که benchmarkهای هوش مصنوعی بهتر است به صورت سطحی بررسی نشوند، بهخصوص زمانی که منبع یک شرکت با خدمات برای فروش باشد. اختلافات در benchmark به امری معمول در صنعت هوش مصنوعی تبدیل شده است، زیرا فروشندگان در تلاشند تا با مدلهای جدید، تیتر خبرها و توجهات را جلب کنند.