«تجارت نیوز» گزارش می‌دهد:

محدودیت های یک تکنیک پرکاربرد در بهینه سازی هوش مصنوعی/ نقش کوانتیزه سازی در بهینه سازی مدل های هوش مصنوعی

محدودیت‌های کوانتیزاسیون در مدل‌های هوش مصنوعی آشکار شده است؛ روشی که با کاهش دقت بیت‌ها، هزینه‌ها را کاهش می‌دهد اما به عملکرد آسیب می‌زند.

به گزارش تجارت نیوز، کوانتیزه‌سازی، تکنیکی که به طور گسترده در صنعت هوش مصنوعی برای افزایش کارایی مدل‌ها استفاده می‌شود، اکنون به دلیل محدودیت‌های احتمالی آن تحت بررسی قرار گرفته است. این روش شامل کاهش تعداد بیت‌هایی است که برای نمایش داده‌ها استفاده می‌شوند.

به زبان ساده، این تکنیک مانند گفتن «ظهر» به جای «ساعت ۱۲:۰۰:۰۱ و چهار میلی‌ثانیه» است؛ هر دو بیان دقیق‌اند، اما یکی کمتر جزئیات دارد. در هوش مصنوعی، چنین ساده‌سازی‌هایی می‌تواند نیازهای محاسباتی را کاهش دهد و اجرای میلیون‌ها محاسبه را بهینه کند.

کوانتیزه‌سازی به ویژه برای پارامترها، که متغیرهای داخلی مدل‌های هوش مصنوعی برای پیش‌بینی هستند، اهمیت دارد. کاهش بیت‌های مورد استفاده برای نمایش این پارامترها می‌تواند عملیات ریاضی را ساده‌تر کرده و هزینه‌ها و منابع محاسباتی را کاهش دهد. اما یک مطالعه جدید نشان می‌دهد که این روش دارای معاوضه‌هایی است.

مطالعه‌ای جدید محدودیت‌های کوانتیزه‌سازی را آشکار می‌کند

یک پژوهش مشترک با همکاری محققانی از دانشگاه‌های هاروارد، استنفورد، MIT، Databricks و کارنگی ملون نشان داده است که مدل‌های کوانتیزه‌شده زمانی که مدل‌های اصلی و بدون کوانتیزه‌سازی بر روی داده‌های بسیار بزرگ آموزش دیده باشند، دچار افت عملکرد می‌شوند.

این یافته‌ها چالش‌هایی را برای روش مرسوم صنعت، یعنی ساخت مدل‌های بزرگ، بهینه‌سازی آن‌ها و سپس کوانتیزه‌سازی برای کاهش هزینه‌ها، ایجاد کرده است. بر اساس این پژوهش، ممکن است مؤثرتر باشد که از ابتدا مدل‌های کوچکتری آموزش داده شوند تا اینکه مدل‌های بزرگ را فشرده کنیم.

این چالش‌ها هم‌اکنون بر توسعه هوش مصنوعی تأثیر گذاشته است. به عنوان مثال، توسعه‌دهندگان متوجه شده‌اند که مدل Llama 3 متعلق به متا پس از کوانتیزه‌سازی افت عملکرد بیشتری نسبت به سایر مدل‌ها دارد. این مسئله ممکن است به دلیل آموزش گسترده Llama 3 باشد.

تانیش کومار، نویسنده اصلی این مطالعه و دانشجوی ریاضی در هاروارد، بیان کرد: «مطالعه ما نشان می‌دهد که یکی از روش‌های مهم برای کاهش هزینه‌های استنتاج نمی‌تواند به طور نامحدود مؤثر باشد.»

افزایش هزینه‌های استنتاج در هوش مصنوعی

بر خلاف تصور عمومی، هزینه استنتاج مدل‌های هوش مصنوعی یعنی اجرای مدل برای تولید خروجی اغلب بیشتر از هزینه آموزش آن است. به عنوان مثال، گوگل برای آموزش یکی از مدل‌های Gemini خود حدود ۱۹۱ میلیون دلار هزینه کرده است. اما استفاده از این مدل برای تولید پاسخ‌های کوتاه برای نیمی از جستجوهای گوگل می‌تواند سالانه حدود ۶ میلیارد دلار هزینه داشته باشد. این مسئله هزینه استنتاج را به یک چالش کلیدی برای شرکت‌های هوش مصنوعی تبدیل کرده است.

صنعت به طور گسترده‌ای مفهوم مقیاس‌بندی آموزش مدل‌ها بر روی داده‌های بسیار عظیم را پذیرفته است. به عنوان مثال، متا مدل Llama 3 را بر روی ۱۵ تریلیون توکن آموزش داده است، در حالی که پیشینیان آن، مانند Llama 2، بر روی ۲ تریلیون توکن آموزش دیده بودند. اگرچه مقیاس‌بندی معمولاً عملکرد مدل را بهبود می‌بخشد، اما در نهایت به نقطه‌ای از بازده کاهشی می‌رسد. هر دو شرکت Anthropic و گوگل محدودیت‌هایی را در این زمینه با مدل‌های بزرگ‌مقیاس اخیر خود تجربه کرده‌اند.

راه‌حلی برای مشکل؟

این مطالعه پیشنهاد می‌کند که آموزش مدل‌ها در "دقت پایین‌تر" می‌تواند برخی از مشکلات کوانتیزه‌سازی را کاهش دهد. دقت به تعداد ارقام قابل نمایش یک مقدار عددی اشاره دارد. به عنوان مثال، بیشتر مدل‌ها امروزه با دقت ۱۶ بیتی آموزش داده می‌شوند و سپس برای استنتاج به دقت ۸ بیتی کاهش می‌یابند. برخی از شرکت‌های سخت‌افزاری، مانند Nvidia، در حال بررسی فرمت‌هایی با دقت حتی پایین‌تر، مانند FP4 4 بیتی، برای افزایش کارایی در محیط‌هایی با محدودیت حافظه و توان هستند.

با این حال، این پژوهش هشدار می‌دهد که کاهش بیش از حد دقت نیز مشکل‌ساز است. مدل‌هایی با دقت کمتر از ۷ یا ۸ بیت ممکن است کاهش کیفیت محسوسی داشته باشند، مگر اینکه مدل اصلی به طور استثنایی بزرگ باشد. کومار توضیح می‌دهد: «محدودیت‌هایی وجود دارد که نمی‌توان به طور ساده از آن‌ها عبور کرد.»

آینده بهینه‌سازی هوش مصنوعی

کومار و همکارانش برنامه دارند که پژوهش خود را برای بررسی مدل‌های متنوع‌تر گسترش دهند. با این حال، یافته‌های آن‌ها نشان می‌دهد که کاهش هزینه‌های استنتاج به چیزی بیش از کاهش دقت نیاز دارد. در عوض، تلاش‌های آینده ممکن است بر انتخاب و فیلتر کردن داده‌های آموزشی با کیفیت بالا متمرکز شود تا مدل‌های کوچکتر بتوانند بدون نیاز به مقیاس‌بندی گسترده عملکرد قوی‌ای داشته باشند. علاوه بر این، معماری‌های جدید طراحی‌شده برای آموزش پایدار در دقت پایین می‌توانند نقشی کلیدی ایفا کنند.

در مجموع، اگرچه کوانتیزه‌سازی همچنان ابزاری ارزشمند برای بهبود کارایی هوش مصنوعی است اما محدودیت‌های آن نیاز به نوآوری در طراحی مدل و استراتژی‌های آموزشی را برجسته می‌کند. به گفته کومار، «دقت بیت اهمیت دارد و رایگان نیست. کلید موفقیت، انتخاب دقیق داده و معماری‌های نوآورانه است که پایداری در دقت پایین را تضمین کنند.»