به گزارش تجارت نیوز، گوگل مجموعهای چشمگیر از بهروزرسانیهای جدید را برای API جمینای معرفی کرده که برای پشتیبانی از مدل جمینای ۳ طراحی شده است. این نسخه جدید قدرتمندترین مدل گوگل تاکنون محسوب میشود و تغییرات ارائه شده با هدف افزایش کنترل توسعهدهندگان بر عمق استدلال، پردازش چندرسانهای و اجرای گردشکارهای ایجنتی ارائه شدهاند. به کمک این امکانات تازه، توسعهدهندگان میتوانند سیستمهایی بسازند که توانایی انجام وظایف پیچیده مانند کدنویسی خودکار، تحلیلهای پیشرفته و استخراج بلادرنگ داده از وب را داشته باشند.
کنترل جدید برای مدیریت عمق استدلال در مدل
یکی از مهمترین قابلیتهای افزوده شده، پارامتری با نام thinking_level است که برای اولین بار در جمینای ۳ ارائه شده است. این ویژگی به توسعهدهندگان امکان میدهد سطح استدلال درونی مدل را پیش از تولید خروجی تعیین کنند. به جای استفاده از حد و مرزهای خام توکن برای مدیریت استدلال، اکنون مدل سطوح مختلف را به عنوان راهنمایی انعطافپذیر برای میزان تفکر و حل مسئله تفسیر میکند.
برای مثال، در سناریوهای پیچیده مانند ارزیابیهای راهبردی کسبوکار یا بررسی آسیبپذیریهای امنیتی در کد، سطح بالا انتخاب میشود تا مدل زمان بیشتری صرف تحلیل کند. در مقابل، سطح پایین برای وظایفی مانند استخراج داده ساختاریافته یا تهیه خلاصههای سریع، هزینه و زمان پردازش را کاهش میدهد. این قابلیت کنترل مستقیمی بر نحوه تفکر مدل ایجاد میکند.
پردازش دقیقتر محتوای بصری با پارامتر رسانه
پارامتر جدید media_resolution نیز امکان مدیریت جزئیات بصری تصاویر، ویدئوها و اسناد را فراهم میکند. توسعهدهندگان میتوانند یکی از سه سطح پایین، متوسط یا بالا را جهانی یا برای هر رسانه به صورت جداگانه انتخاب کنند. این تنظیمات مقدار جزئیاتی را که مدل پردازش میکند تعیین میکند و به ایجاد تعادل بین دقت بصری، سرعت و مصرف توکن کمک مینماید.
رزولوشن بالا خوانایی متنهای کوچک یا تشخیص ویژگیهای ظریف را تقویت میکند، در حالی که رزولوشن پایین برای کاهش هزینه مناسب است. در صورت عدم انتخاب، سیستم به صورت خودکار بهترین رزولوشن را براساس نوع رسانه تعیین میکند.
استفاده از امضای تفکر برای حفظ تداوم زنجیره استدلال
جمینای ۳ از روش تازهای با نام امضای تفکر استفاده میکند که نسخه رمزگذاریشده استدلال درونی مدل است. توسعهدهندگان باید این امضا را در فراخوانیهای بعدی API ارسال کنند تا تداوم منطقی تصمیمات حفظ شود. این ویژگی برای ساخت ایجنتهایی که در چند مرحله تصمیمگیری میکنند ضروری است.
در فراخوانی تابع، وجود امضا الزامی است و نبود آن خطای سطح ۴۰۰ ایجاد میکند. در تولید متن، نبود امضا مانع پاسخدهی نمیشود اما کیفیت استدلال کاهش مییابد. در تولید یا ویرایش تصویر، امضا برای همه بخشهای مدل الزامی است.
ترکیب جستوجوی گوگل با خروجی ساختاریافته
جمینای ۳ اکنون قادر است با ترکیب قابلیت اتصال به جستوجوی گوگل و استخراج محتوای صفحههای وب، خروجیهای ساختاریافته مانند JSON تولید کند. این ویژگی به ویژه برای ایجنتهایی کاربرد دارد که باید از میان دادههای زنده وب، اطلاعات دقیق و استاندارد برای برنامههای بعدی تولید کنند.
گوگل سیستم قیمتگذاری جدیدی را برای اتصال به جستوجوی گوگل معرفی کرده است. هزینه ثابت ۳۵ دلار برای هر هزار درخواست کنار گذاشته شده و اکنون قیمتگذاری براساس میزان جستوجوی واقعی و به صورت ۱۴ دلار برای هر هزار کوئری انجام میشود. این شیوه برای ایجنتهایی که به جستوجوی مکرر نیاز دارند مناسبتر است.
بهترین شیوهها برای کار با جمینای ۳ پرو در API
گوگل مجموعهای از توصیهها را برای استفاده بهینه از جمینای ۳ پرو منتشر کرده است. این توصیهها شامل حفظ دمای تولید متن روی مقدار پیشفرض یک، ساختاردهی دقیق پرامپتها با برچسبهای استاندارد، و تعیین لحن دلخواه برای خروجیهای مکالمهای است. برای پرامپتهای چندرسانهای لازم است بهطور شفاف اشاره شود که هر بخش ورودی چه نقشی در پاسخ دارد.
در وظایف متنی بلند مانند پردازش اسناد یا کدهای حجیم، بهتر است دستورالعملها در انتهای پرامپت قرار گیرند تا پس از خواندن تمام محتوا اعمال شوند. همچنین جمینای ۳ پرو دارای قالب سیستم مخصوصی است که با همکاری تیمهای پژوهشی گوگل طراحی شده و عملکرد مدل را در سناریوهای پیچیده کدنویسی و محیطهای ایجنتی بهبود میدهد.
گوگل توسعهدهندگان را تشویق میکند برای بهرهبرداری کامل از این قابلیتها، اسناد مربوط به جمینای ۳ و راهنمای توسعهدهندگان را مطالعه کنند تا با جزئیات فنی و روشهای پیادهسازی آشنا شوند.