«تجارت‌نیوز» گزارش می‌دهد:

مدل جدید گوگل نمرات ایمنی پایین‌تر از نسخه قبلی گرفت!

مدل جدید هوش مصنوعی گوگل، Gemini 2.5 Flash، در آزمون‌های ایمنی نسبت به نسخه قبلی خود، امتیاز کمتری کسب کرده است.

به گزارش تجارت نیوز، مدل جدید هوش مصنوعی گوگل، Gemini 2.5 Flash، در آزمون‌های ایمنی نسبت به نسخه قبلی، Gemini 2.0 Flash، عملکرد ضعیف‌تری از خود نشان داده است. طبق گزارش‌های داخلی این شرکت، مدل جدید بیشتر احتمال دارد متنی تولید کند که با خط‌مشی‌های ایمنی گوگل مغایرت داشته باشد. در دو معیار «ایمنی متن به متن» و «ایمنی تصویر به متن»، Gemini 2.5 Flash به ترتیب ۴.۱ درصد و ۹.۶ درصد کاهش نمره داشته است.

نمره‌دهی به ایمنی مدل‌ها به چه صورت است؟

ایمنی متن به متن میزان نقض خط‌مشی‌های گوگل را بر اساس متنی که به مدل داده می‌شود، اندازه‌گیری می‌کند. در حالی که ایمنی تصویر به متن ارزیابی می‌کند که مدل چقدر به این خط‌مشی‌ها پایبند است هنگامی که از یک تصویر درخواست می‌شود. هر دو آزمون به صورت خودکار و بدون نظارت انسانی انجام می‌شود. یک سخنگوی گوگل در بیانیه‌ای که به ایمیل فرستاده شده، تأیید کرد Gemini 2.5 Flash «در زمینه ایمنی متن به متن و تصویر به متن عملکرد ضعیف‌تری دارد».

تلاش‌های شرکت‌های هوش مصنوعی برای افزایش مجوزها

این نتایج غیرمنتظره در حالی منتشر می‌شود که شرکت‌های هوش مصنوعی در تلاش‌اند مدل‌های خود را مجازتر کنند، به عبارت دیگر، کمتر احتمال دارد که به موضوعات جنجالی یا حساس پاسخ ندهند. برای جدیدترین مدل‌های لاما، متا اعلام کرده مدل‌ها را به گونه‌ای تنظیم کرده است که «برخی نظرات را نسبت به دیگری تأیید نکنند» و به سؤالات سیاسی «بیشتر بحث‌برانگیز» پاسخ دهند. اوپن‌ای‌آی نیز در اوایل امسال اعلام کرد قصد دارد مدل‌های آینده خود را به گونه‌ای تنظیم کند که موضع تحریری نگیرد و دیدگاه‌های مختلفی را در مورد موضوعات جنجالی ارائه دهد.

عواقب تلاش‌های مجوزدهی

بعضی اوقات، این تلاش‌ها برای افزایش مجوزها به نتایج معکوس منجر می‌شود. به گزارش TechCrunch، مدل پیش‌فرض قدرت‌بخش ChatGPT اوپن‌ای‌آی به نوجوانان اجازه می‌دهد مکالمات اروتیک تولید کنند. اوپن‌ای‌آی این رفتار را به یک «باگ» نسبت داده است. طبق گزارش فنی گوگل، Gemini 2.5 Flash که هنوز در مرحله پیش‌نمایش است، به دستورالعمل‌ها وفادارانه‌تر از Gemini 2.0 Flash عمل می‌کند، شامل دستورالعمل‌هایی که از مرزهای مشکل‌ساز عبور می‌کنند. این شرکت ادعا می‌کند که کاهش نمرات را می‌توان تا حدودی به مثبت‌های کاذب نسبت داد، اما همچنین اذعان می‌کند که گاهی Gemini 2.5 Flash «محتوای نقض‌کننده» را هنگامی که به‌طور صریح درخواست می‌شود، تولید می‌کند.

در بخشی از گزارش آمده است: «طبیعتاً بین [دنبال کردن دستورالعمل‌ها] در موضوعات حساس و نقض خط‌مشی‌های ایمنی تنش وجود دارد که در ارزیابی‌های ما منعکس شده است.»

به گفته توماس وودساید، یکی از بنیان‌گذاران پروژه هوش مصنوعی ایمن، جزئیات محدودی که گوگل در گزارش فنی خود ارائه کرده، نیاز به شفافیت بیشتری در آزمایش مدل‌ها را نشان می‌دهد. او به TechCrunch گفت: «بین دنبال کردن دستورالعمل‌ها و پیروی از خط‌مشی‌ها، یک تعادل وجود دارد، زیرا برخی از کاربران ممکن است درخواست محتوایی کنند که با خط‌مشی‌ها مغایرت دارد. در این مورد، مدل جدید Flash گوگل بیشتر به دستورالعمل‌ها پایبند است در حالی که بیشتر نیز با خط‌مشی‌ها مغایرت دارد.»

گوگل به خاطر شیوه‌های گزارش‌گیری ایمنی مدل‌های خود مورد انتقاد قرار گرفته است. این شرکت چندین هفته طول کشید تا گزارشی فنی برای قدرتمندترین مدل خود، Gemini 2.5 Pro، منتشر کند. هنگامی که این گزارش در نهایت منتشر شد، در ابتدا جزئیات کلیدی آزمایش ایمنی را از دست داده بود. روز دوشنبه، گوگل گزارشی دقیق‌تر با اطلاعات اضافی ایمنی منتشر کرد.