به گزارش تجارت نیوز، مدل جدید هوش مصنوعی گوگل، Gemini 2.5 Flash، در آزمونهای ایمنی نسبت به نسخه قبلی، Gemini 2.0 Flash، عملکرد ضعیفتری از خود نشان داده است. طبق گزارشهای داخلی این شرکت، مدل جدید بیشتر احتمال دارد متنی تولید کند که با خطمشیهای ایمنی گوگل مغایرت داشته باشد. در دو معیار «ایمنی متن به متن» و «ایمنی تصویر به متن»، Gemini 2.5 Flash به ترتیب ۴.۱ درصد و ۹.۶ درصد کاهش نمره داشته است.
نمرهدهی به ایمنی مدلها به چه صورت است؟
ایمنی متن به متن میزان نقض خطمشیهای گوگل را بر اساس متنی که به مدل داده میشود، اندازهگیری میکند. در حالی که ایمنی تصویر به متن ارزیابی میکند که مدل چقدر به این خطمشیها پایبند است هنگامی که از یک تصویر درخواست میشود. هر دو آزمون به صورت خودکار و بدون نظارت انسانی انجام میشود. یک سخنگوی گوگل در بیانیهای که به ایمیل فرستاده شده، تأیید کرد Gemini 2.5 Flash «در زمینه ایمنی متن به متن و تصویر به متن عملکرد ضعیفتری دارد».
تلاشهای شرکتهای هوش مصنوعی برای افزایش مجوزها
این نتایج غیرمنتظره در حالی منتشر میشود که شرکتهای هوش مصنوعی در تلاشاند مدلهای خود را مجازتر کنند، به عبارت دیگر، کمتر احتمال دارد که به موضوعات جنجالی یا حساس پاسخ ندهند. برای جدیدترین مدلهای لاما، متا اعلام کرده مدلها را به گونهای تنظیم کرده است که «برخی نظرات را نسبت به دیگری تأیید نکنند» و به سؤالات سیاسی «بیشتر بحثبرانگیز» پاسخ دهند. اوپنایآی نیز در اوایل امسال اعلام کرد قصد دارد مدلهای آینده خود را به گونهای تنظیم کند که موضع تحریری نگیرد و دیدگاههای مختلفی را در مورد موضوعات جنجالی ارائه دهد.
عواقب تلاشهای مجوزدهی
بعضی اوقات، این تلاشها برای افزایش مجوزها به نتایج معکوس منجر میشود. به گزارش TechCrunch، مدل پیشفرض قدرتبخش ChatGPT اوپنایآی به نوجوانان اجازه میدهد مکالمات اروتیک تولید کنند. اوپنایآی این رفتار را به یک «باگ» نسبت داده است. طبق گزارش فنی گوگل، Gemini 2.5 Flash که هنوز در مرحله پیشنمایش است، به دستورالعملها وفادارانهتر از Gemini 2.0 Flash عمل میکند، شامل دستورالعملهایی که از مرزهای مشکلساز عبور میکنند. این شرکت ادعا میکند که کاهش نمرات را میتوان تا حدودی به مثبتهای کاذب نسبت داد، اما همچنین اذعان میکند که گاهی Gemini 2.5 Flash «محتوای نقضکننده» را هنگامی که بهطور صریح درخواست میشود، تولید میکند.
در بخشی از گزارش آمده است: «طبیعتاً بین [دنبال کردن دستورالعملها] در موضوعات حساس و نقض خطمشیهای ایمنی تنش وجود دارد که در ارزیابیهای ما منعکس شده است.»
به گفته توماس وودساید، یکی از بنیانگذاران پروژه هوش مصنوعی ایمن، جزئیات محدودی که گوگل در گزارش فنی خود ارائه کرده، نیاز به شفافیت بیشتری در آزمایش مدلها را نشان میدهد. او به TechCrunch گفت: «بین دنبال کردن دستورالعملها و پیروی از خطمشیها، یک تعادل وجود دارد، زیرا برخی از کاربران ممکن است درخواست محتوایی کنند که با خطمشیها مغایرت دارد. در این مورد، مدل جدید Flash گوگل بیشتر به دستورالعملها پایبند است در حالی که بیشتر نیز با خطمشیها مغایرت دارد.»
گوگل به خاطر شیوههای گزارشگیری ایمنی مدلهای خود مورد انتقاد قرار گرفته است. این شرکت چندین هفته طول کشید تا گزارشی فنی برای قدرتمندترین مدل خود، Gemini 2.5 Pro، منتشر کند. هنگامی که این گزارش در نهایت منتشر شد، در ابتدا جزئیات کلیدی آزمایش ایمنی را از دست داده بود. روز دوشنبه، گوگل گزارشی دقیقتر با اطلاعات اضافی ایمنی منتشر کرد.