«تجارت‌نیوز» گزارش می‌دهد:

اختلاف نتایج بررسی مدل هوش مصنوعی OpenAI / سوالاتی درباره شفافیت این شرکت

اختلاف بین نتایج benchmark اول و سوم شخص برای مدل o3 OpenAI، سوالاتی درباره شفافیت و روش‌های آزمایش این شرکت ایجاد کرده است.

به گزارش تجارت نیوز، اختلاف نتایج benchmark بین اول و سوم شخص برای مدل هوش مصنوعی o3 شرکت OpenAI، سوالاتی را درباره شفافیت و روش‌های آزمایش این شرکت به وجود آورده است. زمانی که OpenAI در دسامبر سال گذشته مدل o3 را معرفی کرد، این شرکت ادعا کرد که این مدل می‌تواند بیش از یک چهارم سوالات موجود در مجموعه چالش‌برانگیز FrontierMath را پاسخ دهد. این نتیجه عملکرد مدل را در مقایسه با رقبا به طرز قابل توجهی بهتر نشان می‌دهد، به‌طوری‌که بهترین مدل رقیب تنها حدود 2 درصد از سوالات FrontierMath را به درستی پاسخ داده بود. مارک چن، رئیس بخش تحقیقات OpenAI، در یک پخش زنده اعلام کرد: «امروز، تمامی پیشنهادات موجود کمتر از 2 درصد در FrontierMath دارند. ما [درون سازمان] با o3 در شرایط محاسباتی شدید، قادر به دستیابی به بیش از 25 درصد هستیم.»

ادعای OpenAI و واقعیت

با این حال، به نظر می‌رسد که این عدد یک حد بالایی بوده که به نسخه‌ای از o3 با قدرت محاسباتی بیشتر نسبت به مدلی که OpenAI به‌طور عمومی هفته گذشته معرفی کرد، مربوط می‌شود. مؤسسه تحقیقاتی Epoch AI که مسئول FrontierMath است، نتایج آزمایش‌های مستقل benchmark از o3 را روز جمعه منتشر کرد. Epoch اعلام کرد که o3 حدود 10 درصد نمره کسب کرده که به مراتب پایین‌تر از بالاترین نمره ادعایی OpenAI است.

OpenAI همچنین o3، مدل استدلال بسیار مورد انتظار خود را به همراه o4-mini، یک مدل کوچک‌تر و ارزان‌تر که جانشین o3-mini است، منتشر کرد. Epoch در توییتی اعلام کرد که این مدل‌های جدید را در مجموعه‌ای از benchmark‌های ریاضی و علمی ارزیابی کرده‌اند.

تفاوت در نتایج

این به این معنا نیست که OpenAI به‌طور صریح دروغ گفته است. نتایج benchmark که این شرکت در دسامبر منتشر کرده، نمره‌ای را نشان می‌دهد که با نمره‌ای که Epoch مشاهده کرده، مطابقت دارد. Epoch همچنین به این نکته اشاره کرد که تنظیمات آزمایشی آن احتمالاً با تنظیمات OpenAI متفاوت است و اینکه آن‌ها از نسخه به‌روز FrontierMath برای ارزیابی‌های خود استفاده کرده‌اند. Epoch در گزارشی نوشت: «تفاوت بین نتایج ما و OpenAI ممکن است به دلیل ارزیابی OpenAI با یک زیرساخت داخلی قوی‌تر، استفاده از محاسبات بیشتر در زمان آزمایش، یا به دلیل این باشد که نتایج در یک زیرمجموعه متفاوت از FrontierMath (180 سوال در frontiermath-2024-11-26 در مقابل 290 سوال در frontiermath-2025-02-28-private) اجرا شده است.»

مدل‌های مختلف و بهینه‌سازی‌ها

به گفته بنیاد جایزه ARC، سازمانی که نسخه پیش‌انتشار o3 را آزمایش کرده است، مدل عمومی o3 «مدل متفاوتی است که برای استفاده در چت و محصول تنظیم شده است»، که این موضوع گزارش Epoch را تأیید می‌کند. آن‌ها همچنین نوشتند که «تمامی سطوح محاسباتی منتشر شده o3 کوچک‌تر از نسخه‌ای هستند که ما آزمایش کردیم.» به‌طور کلی، می‌توان انتظار داشت که سطوح محاسباتی بزرگ‌تر نمرات benchmark بهتری را به دست آورند.

Wenda Zhou، یکی از اعضای کادر فنی OpenAI، در یک پخش زنده هفته گذشته گفت که o3 در تولید «بیشتر بهینه‌سازی شده برای استفاده‌های واقعی» و سرعت است و ممکن است اختلافاتی در benchmark‌ها نشان دهد. او گفت: «[ما] بهینه‌سازی‌هایی انجام داده‌ایم تا مدل را از نظر هزینه‌ای کارآمدتر و به‌طور کلی مفیدتر کنیم.»

این واقعیت که انتشار عمومی o3 به وعده‌های آزمایشی OpenAI نمی‌رسد، به نوعی موضوع بی‌موردی است، زیرا مدل‌های o3-mini-high و o4-mini این شرکت در FrontierMath از o3 بهتر عمل می‌کنند و OpenAI قصد دارد به زودی یک نسخه قوی‌تر از o3، یعنی o3-pro را معرفی کند. با این حال، این موضوع به‌عنوان یادآوری دیگری است که benchmark‌های هوش مصنوعی بهتر است به صورت سطحی بررسی نشوند، به‌خصوص زمانی که منبع یک شرکت با خدمات برای فروش باشد. اختلافات در benchmark به امری معمول در صنعت هوش مصنوعی تبدیل شده است، زیرا فروشندگان در تلاشند تا با مدل‌های جدید، تیتر خبرها و توجهات را جلب کنند.