«تجارت نیوز» گزارش می دهد:

چالش بزرگ هوش مصنوعی با معیار ریاضی جدید FrontierMath

معیار جدید FrontierMath از سوی Epoch AI معرفی شد تا با مجموعه‌ای از مسائل پیچیده ریاضی، توانایی مدل‌های هوش مصنوعی در حل مسائل دشوار را ارزیابی کند.

به گزارش تجارت نیوز،

سازمان تحقیقاتی Epoch AI به‌تازگی از یک معیار ریاضی پیشرفته با نام FrontierMath رونمایی کرده که توجه زیادی به خود جلب کرده و سوالاتی درباره محدودیت‌های مدل‌های هوش مصنوعی به وجود آورده است. این معیار جدید که به منظور جلوگیری از دسترسی مستقیم شرکت‌های هوش مصنوعی و پیشگیری از آموزش مدل‌ها بر اساس آن به‌ صورت محرمانه نگهداری می‌شود، شامل صدها مساله در سطح کارشناسان است.

برخلاف معیارهای ساده‌تر ریاضی که مدل‌های هوش مصنوعی در آنها عملکرد بسیار خوبی دارند، نتایج FrontierMath نشان می‌دهد حتی مدل‌های پیشرفته‌ای همچون GPT-4o (مدل پشتChatGPT)، Claude 3.5 Sonnet، o1-preview و Gemini 1.5 Pro با دقت کمتر از ۲ درصد در این مسائل دشوار روبه‌رو شده‌اند.

این معیار به منظور ارزیابی واقعی توانایی مدل‌ها در استدلال ریاضی طراحی شده و محدودیت‌های جدی آنها را در حل مسائل پیچیده آشکار می‌سازد.

نتایج این پژوهش که در قالب مقاله‌ای پیش‌انتشار منتشر شده حاکی از آن است که مدل‌های هوش مصنوعی کنونی هنوز در حل مسائل سطح کارشناسی ریاضیات فاصله زیادی با توانایی واقعی دارند.

آزمایشی محرمانه برای سنجش استدلال هوش مصنوعی

FrontierMath به دلیل ماهیت خصوصی و انتشار‌نیافته خود از معیارهای قبلی هوش مصنوعی متمایز می‌شود. در حالی که اکثر مدل‌های هوش مصنوعی بر اساس داده‌های عمومی، شامل مجموعه‌های گسترده‌ای از مسائل ریاضی، آموزش می‌بینند، تیم سازنده FrontierMath تصمیم گرفته‌اند مسائل آن را محفوظ نگه دارند تا از «آلودگی داده‌ها» جلوگیری کنند.

در بسیاری از معیارهای موجود، مدل‌های هوش مصنوعی ممکن است برخی از انواع مسائل را به خاطر بسپارند و به طور مصنوعی امتیازشان افزایش یابد. ماهیت محدود و محرمانه FrontierMath این خطر را کاهش و سنجشی واقعی از توانایی مدل‌های هوش مصنوعی در حل مساله به دست می‌دهد.

این معیار با همکاری بیش از ۶۰ ریاضیدان از موسسات برجسته جهانی توسعه یافته و هر مساله به منظور دقت و وضوح از سوی متخصصان بازبینی شده است. حدود پنج درصد از مسائل نیاز به ویرایش داشتند که نرخی مشابهدیگر معیارهای بزرگ در حوزه یادگیری ماشین است. این فرایند بازبینی، تضمین می‌کند مسائل هم چالش‌برانگیز و هم بدون ابهام باشند و برای آزمایش‌های پیشرفته مناسب باشند.

ادغام چندین رشته با مسائل پیچیده

مسائل FrontierMath شامل رشته‌های مختلفی از ریاضیات، از نظریه اعداد محاسباتی گرفته تا هندسه جبری انتزاعی، است. به گفته تیم سازنده، این مسائل به دلیل نیاز به دانش عمیق و تخصص فراوان، به طور ویژه چالش‌برانگیز هستند. دو برنده مدال فیلدز، ترنس تائو و تیموتی گاورز، بخش‌هایی از مجموعه مسائل را بررسی کرده‌اند.

تائو معتقد است تنها کارشناسان یا دانشجویان دکتری پیشرفته قادر به حل این مسائل خواهند بود. او همچنین اشاره کرد حل این مسائل ممکن است به ترکیبی از تخصص انسانی، کمک هوش مصنوعی و ابزارهای محاسباتی کمکی نیاز داشته باشد.

طراحی سوالات FrontierMath نیز به گونه‌ای است که از دادن پاسخ‌های تصادفی درست جلوگیری کند. هر سوال دارای پاسخ‌های عددی یا ریاضی پیچیده‌ای است که احتمال درستی تصادفی را به کمتر از یک درصد می‌رساند.

تمایز از مسابقات ریاضی سنتی

ریاضیدان اوان چن در یک پست وبلاگی اشاره کرده FrontierMath تفاوت‌های چشمگیری با مسابقات سنتی ریاضی مانند المپیاد جهانی ریاضی (IMO) دارد. در حالی که مسائل IMO نیاز به خلاقیت و بینش دارند، پیچیدگی‌های زیاد و دانش تخصصی را دربر نمی‌گیرند، FrontierMath علاوه بر نیاز به تفکر خلاق، بر دانش تخصصی و محاسبات پیچیده نیز متکی است. به گفته چن، روش FrontierMath به هوش مصنوعی امکان می‌دهد از قدرت محاسباتی بالای خود بهره ببرد و ظرفیت مدل‌ها برای اجرای الگوریتم‌های پیچیده را ارزیابی کند.

به این ترتیب، رویکرد FrontierMath مشابه مسابقات برنامه‌نویسی مانند Project Euler است که در آن چالش‌های ریاضی همراه با وظایف الگوریتمی ارائه می‌شوند. به جای درخواست اثبات مفاهیم، FrontierMath به شرکت‌کنندگان اجازه می‌دهد الگوریتم‌ها را در کد پیاده‌سازی کنند.

این روش به نقاط قوت هوش مصنوعی می‌پردازد که می‌تواند وظایف محاسباتی گسترده را به‌سرعت انجام دهد، اما همچنین محدودیت‌های مدل‌ها را در استدلال‌های پیچیده ریاضی آشکار می‌کند.

آینده معیارهای هوش مصنوعی در ارزیابی توانایی‌های ریاضی

Epoch AI برنامه دارد تا FrontierMath را با مسائل جدید گسترش دهد و ارزیابی‌های دوره‌ای از مدل‌های هوش مصنوعی در برابر این معیار انجام دهد. این سازمان امیدوار است با ارائه این ارزیابی‌های مداوم، جامعه پژوهشی را در درک بهتر توانایی‌ها و محدودیت‌های هوش مصنوعی در مواجهه با مسائل چندرشته‌ای و پیچیده یاری کند.

در ماه‌های آینده، Epoch AI قصد دارد نمونه‌ای از مسائل FrontierMath را منتشر کند تا محققان بتوانند مدل‌های خود را آزمایش و تطبیق دهند.

این تلاش گامی به سوی ارزیابی دقیق‌تر توانایی‌های ریاضی هوش مصنوعی و همچنین دعوتی برای صنعت است تا محدودیت‌های موجود در توانایی‌های یادگیری عمومی مدل‌های هوش مصنوعی را به رسمیت بشناسد و بر آنها فائق آید.

FrontierMath با معیارهایی که با پیچیدگی‌های حل مساله ریاضی در دنیای واقعی همخوانی دارند، نمایانگر مرزی جدید در ارزیابی هوش مصنوعی است.