موضوعات داغ: # مذاکرات ایران و آمریکا # ایران و آمریکا # مذاکرات # پیش بینی بازارها # قیمت سکه # حمل و نقل ریلی # چین # بازار سهام
«تجارت‌نیوز» گزارش می‌دهد:

مدل‌های جدید OpenAI بیشتر از همیشه توهم می‌زنند!

هوش مصنوعی تازه‌تأسیس شده o3 و o4-mini شرکت OpenAI با وجود پیشرفت‌های جدید، نرخ بالاتری از توهمات را نسبت به مدل‌های قبلی دارند.

به گزارش تجارت نیوز، مدل‌های هوش مصنوعی تازه‌تأسیس شده o3 و o4-mini شرکت OpenAI در بسیاری از جنبه‌ها به‌روز و پیشرفته هستند. با این حال، این مدل‌های جدید همچنان دچار توهم می‌شوند و اطلاعات نادرست تولید می‌کنند. در واقع، نرخ توهمات در این مدل‌ها بیشتر از چندین مدل قدیمی‌تر OpenAI است. توهمات به‌عنوان یکی از بزرگ‌ترین و مشکل‌ترین چالش‌ها در زمینه هوش مصنوعی شناخته می‌شوند و حتی بر روی بهترین سیستم‌های موجود امروز نیز تأثیر می‌گذارند.

وضعیت توهمات در مدل‌های جدید

در تاریخچه توسعه مدل‌های هوش مصنوعی، هر مدل جدید به‌طور معمول در زمینه توهمات اندکی بهبود یافته و نسبت به مدل‌های قبلی کمتر دچار توهم می‌شود. اما به‌نظر می‌رسد که در مورد o3 و o4-mini این قضیه صدق نمی‌کند. طبق آزمایش‌های داخلی OpenAI، این دو مدل که به‌عنوان مدل‌های استدلالی شناخته می‌شوند، نسبت به مدل‌های قبلی استدلالی این شرکت، یعنی o1، o1-mini و o3-mini، و همچنین مدل‌های سنتی «غیراستدلالی» مانند GPT-4o، بیشتر دچار توهم می‌شوند.

دلیل افزایش توهمات

نگرانی بیشتری وجود دارد زیرا سازنده ChatGPT به‌طور دقیق نمی‌داند که چرا این افزایش در توهمات اتفاق می‌افتد. در گزارش فنی OpenAI برای o3 و o4-mini، اشاره شده است که «تحقیقات بیشتری لازم است» تا دلیل بدتر شدن توهمات در مقیاس‌گذاری مدل‌های استدلالی را درک کنند. هرچند o3 و o4-mini در برخی زمینه‌ها، از جمله وظایف مربوط به کدنویسی و ریاضیات، عملکرد بهتری دارند، اما به دلیل اینکه «ادعاهای بیشتری به‌طور کلی ایجاد می‌کنند»، در نتیجه به «ادعاهای دقیق‌تر و همچنین ادعاهای نادرست/توهمی بیشتری» می‌رسند.

نتایج آزمایش‌ها

OpenAI دریافت که o3 در پاسخ به 33 درصد از سؤالات در آزمون PersonQA، که معیاری داخلی برای اندازه‌گیری دقت اطلاعات مدل درباره افراد است، توهم تولید کرده است. این نرخ تقریباً دو برابر نرخ توهمات مدل‌های قبلی استدلالی OpenAI، یعنی o1 و o3-mini، که به ترتیب 16 درصد و 14.8 درصد بودند. o4-mini حتی در آزمون PersonQA بدتر عمل کرده و 48 درصد از زمان دچار توهم شده است.

شواهد از آزمایش‌های مستقل

آزمایش‌های مستقل توسط Transluce، یک آزمایشگاه تحقیقاتی غیرانتفاعی در زمینه هوش مصنوعی، همچنین شواهدی را نشان داد که o3 تمایل دارد اقداماتی که در فرآیند رسیدن به پاسخ‌ها انجام داده است را اختراع کند. به‌عنوان مثال، Transluce مشاهده کرد که o3 ادعا کرد که کدی را روی یک مک‌بوک پرو 2021 «خارج از ChatGPT» اجرا کرده و سپس اعداد را به پاسخ خود کپی کرده است. در حالی که o3 به برخی ابزارها دسترسی دارد، اما نمی‌تواند چنین کاری انجام دهد.

چالش‌های پیش روی دقت

نیل چودری، کارمند پیشین OpenAI، گفت: «فرضیه ما این است که نوعی یادگیری تقویتی که برای مدل‌های سری o استفاده می‌شود، ممکن است مشکلاتی را تشدید کند که معمولاً با استفاده از خطوط لوله استاندارد پس از آموزش کاهش می‌یابند.» سارا شوئتمن، یکی از بنیانگذاران Transluce، اضافه کرد که نرخ توهم o3 ممکن است آن را کمتر مفید از آنچه که باید، کند.

کیران کاتانفروش، استاد پاره‌وقت استنفورد و مدیرعامل استارتاپ کارآموزی Workera، گفته است که تیمش در حال حاضر در حال آزمایش o3 در جریان‌های کدنویسی خود هستند و آن را یک گام بالاتر از رقبای خود یافته‌اند. با این حال، کاتانفروش می‌گوید که o3 تمایل دارد لینک‌های وب‌سایت‌های خراب را توهم کند. این مدل لینکی را ارائه می‌دهد که وقتی روی آن کلیک می‌شود، کار نمی‌کند.

راه‌حل‌های بالقوه

توهمات ممکن است به مدل‌ها کمک کنند تا به ایده‌های جالبی برسند و در «تفکر» خود خلاق باشند، اما همچنین برخی مدل‌ها را برای کسب‌وکارها در بازارهایی که دقت از اهمیت بالایی برخوردار است، سخت می‌کنند. به‌عنوان مثال، یک شرکت حقوقی احتمالاً از مدلی که اشتباهات فاحشی را در قراردادهای مشتریان وارد می‌کند، راضی نخواهد بود. یکی از رویکردهای امیدوارکننده برای افزایش دقت مدل‌ها، دادن قابلیت جستجو در وب به آن‌ها است. GPT-4o OpenAI با جستجوی وب در آزمون SimpleQA به 90 درصد دقت دست می‌یابد، که یکی دیگر از معیارهای دقت OpenAI است.

اگر واقعاً مقیاس‌گذاری مدل‌های استدلالی به بدتر شدن توهمات ادامه دهد، این امر جستجوی راه‌حل را به‌طور جدی‌تری ضروری خواهد کرد. نیکو فلیکس، سخنگوی OpenAI گفت: «پرداختن به توهمات در تمام مدل‌های ما یک حوزه تحقیقاتی در حال انجام است و ما به‌طور مداوم در حال کار بر روی بهبود دقت و قابلیت اطمینان آن‌ها هستیم.»

در سال گذشته، صنعت گسترده هوش مصنوعی به تمرکز بر روی مدل‌های استدلالی تغییر جهت داده است، پس از آنکه تکنیک‌های بهبود مدل‌های سنتی هوش مصنوعی شروع به نشان دادن بازده‌های کاهشی کردند. استدلال عملکرد مدل را در مجموعه‌ای از وظایف بدون نیاز به مقادیر زیادی از محاسبات و داده‌ها در طول آموزش بهبود می‌بخشد. با این حال، به‌نظر می‌رسد که استدلال همچنین ممکن است به افزایش توهمات منجر شود و این یک چالش به شمار می‌رود.

نظرات
آخرین اخبار
پربازدیدترین اخبار

وب‌گردی