به گزارش تجارت نیوز، آنتروپیک نسخه Opus ۴.۵ را منتشر کرده است؛ پیشرفتهترین مدل در سری ۴.۵ که پس از عرضه سونت ۴.۵ در سپتامبر و هایکو ۴.۵ در اکتبر، این مجموعه را تکمیل میکند. به گفته شرکت، Opus ۴.۵ جهشی مهم در عملکرد، قابلیتها و کاربری ارائه میدهد؛ خصوصا در بخشهایی مانند برنامهنویسی، استفاده از ابزارها و حل مسائل پیچیده.
عملکرد در آزمونهای تخصصی
Opus ۴.۵ در طیف گستردهای از معیارهای صنعتی، عملکردی در سطح پیشرو ارائه میکند. این معیارها شامل آزمونهای برنامهنویسی مانند SWE-Bench و Terminal-bench، ارزیابی ابزارها مانند tau2-bench و MCP Atlas و همچنین آزمونهای استدلال عمومی مانند ARC-AGI 2 و GPQA Diamond است. آنتروپیک اعلام کرده Opus ۴.۵ نخستین مدلی است که از مرز ۸۰ درصد در نسخه تاییدشده SWE-Bench عبور میکند؛ معیاری بسیار معتبر برای سنجش توانایی مدلها در اجرای وظایف پیچیده نرمافزاری.
تمرکز بر استفاده از رایانه و مهارتهای صفحهگسترده
علاوه بر عملکرد فنی، آنتروپیک توجه ویژهای به تواناییهای Opus ۴.۵ در کار با رایانه و محیطهای صفحهگسترده داشته است. این ارتقا همراه با ادغامهای جدیدی عرضه میشود که پیشتر تنها در برنامههای آزمایشی محدود در دسترس بودند. از این پس کلود برای کروم و کلود برای اکسل با هدف نمایش توانایی مدل در نرمافزارهای واقعی عرضه میشوند.
کلود برای کروم برای کاربران سطح مکس فعال میشود و امکان تحقیق، نگارش و خودکارسازی وظایف را مستقیما در مرورگر فراهم میکند. کلود برای اکسل نیز برای کاربران مکس، تیم و سازمانی عرضه میشود و ابزارهایی برای تحلیل داده، تولید فرمول، مدیریت اطلاعات و ویرایش اسناد ارائه میدهد.
پیشرفت بزرگ در حافظه و پردازش متنهای طولانی
یکی از مهمترین ارتقاهای فنی Opus ۴.۵ در نحوه مدیریت حافظه بلندمدت است. آنتروپیک توضیح میدهد که تغییرات گستردهای در سیستم حافظه داخلی مدل ایجاد شده تا کیفیت و ثبات در کار با اسناد حجیم، مکالمات طولانی و استدلال چندمرحلهای ارتقا یابد.
دیان نا پن، مدیر محصول بخش پژوهش آنتروپیک، میگوید داشتن یک پنجره بزرگ برای پردازش متن تنها بخشی از چالش است؛ مدل باید بتواند تشخیص دهد کدام جزئیات ارزش نگهداری و یادآوری دارند. او تاکید کرد که جهش اصلی در Opus ۴.۵ مربوط به توانایی مدل در انتخاب هوشمندانه اطلاعات مهم است، نه فقط ذخیرهسازی بیشتر.
این ارتقا امکان ارائه یک قابلیت جدید و بسیار درخواستشده را فراهم کرده: گفتوگوی بیوقفه. از این پس کاربران پولی کلود میتوانند مکالمه را حتی پس از رسیدن مدل به سقف پنجره حافظه ادامه دهند. مدل بدون هشدار، به طور خودکار اطلاعات گذشته را فشرده میکند و مکالمه بدون توقف ادامه مییابد.
بخش زیادی از این بهبودها برای سناریوهایی طراحی شده که Opus نقش عامل اصلی را دارد و سایر عاملهای هوش مصنوعی را هدایت میکند. آنتروپیک بهویژه به حالتی اشاره میکند که در آن Opus ۴.۵ چندین عامل زیرمجموعه مبتنی بر هایکو را مدیریت میکند. در این نوع کارها، حافظه کاری قوی ضروری است.
پن میگوید سیستمهای عاملمحور نیازمند ثبات، آگاهی و توانایی مدیریت چندین لایه از اطلاعات هستند؛ موضوعی که حافظه را به یکی از محورهای اصلی طراحی Opus ۴.۵ تبدیل کرده است.
رقابت شدید میان مدلهای پیشرفته
Opus ۴.۵ در بازاری منتشر میشود که این روزها داغ و رقابتی است. تنها در هفتههای اخیر، OpenAI مدل جیپیتی ۵.۱ را منتشر کرد و گوگل نیز جمینی ۳ را معرفی کرد. این مدلها انتظارات از تواناییهای نسل جدید هوش مصنوعی را افزایش دادهاند و Opus ۴.۵ را در میان مدلهای پیشروی جهان قرار میدهند.
با انتشار Opus ۴.۵، آنتروپیک موقعیت خود را تقویت میکند و مدلی ارائه میدهد که با ارتقای حافظه، استفاده از ابزارها، توانمندیهای برنامهنویسی و ادغام در نرمافزارهای روزمره، یک گام پیشرفتهتر از نسخههای قبلی است. این مدل با ویژگیهای جدید و تمرکز بر کارهای طولانی و حوزه عاملمحور، نشاندهنده مسیر روبهرشد آنتروپیک در توسعه هوش مصنوعی قابل اعتماد و قدرتمند است.