«تجارت‌نیوز» گزارش می‌دهد:

به‌روزرسانی گسترده گوگل برای API جمینای ۳

انتشار: 18 آذر 1404 - 11:46

بروزرسانی: 3 هفته پیش

به‌روزرسانی گسترده گوگل برای API جمینای ۳

به‌روزرسانی‌های تازه گوگل برای Gemini 3 کنترل‌های دقیق‌تر در استدلال، پردازش چندرسانه‌ای، گردش‌کار عامل‌محور و خروجی‌های ساخت‌یافته را برای توسعه‌دهندگان فراهم می‌کند.

به گزارش تجارت نیوز، گوگل مجموعه‌ای چشمگیر از به‌روزرسانی‌های جدید را برای API جمینای معرفی کرده که برای پشتیبانی از مدل جمینای ۳ طراحی شده است. این نسخه جدید قدرتمندترین مدل گوگل تاکنون محسوب می‌شود و تغییرات ارائه شده با هدف افزایش کنترل توسعه‌دهندگان بر عمق استدلال، پردازش چندرسانه‌ای و اجرای گردش‌کارهای ایجنتی ارائه شده‌اند. به کمک این امکانات تازه، توسعه‌دهندگان می‌توانند سیستم‌هایی بسازند که توانایی انجام وظایف پیچیده مانند کدنویسی خودکار، تحلیل‌های پیشرفته و استخراج بلادرنگ داده از وب را داشته باشند.

کنترل جدید برای مدیریت عمق استدلال در مدل

یکی از مهم‌ترین قابلیت‌های افزوده شده، پارامتری با نام thinking_level است که برای اولین بار در جمینای ۳ ارائه شده است. این ویژگی به توسعه‌دهندگان امکان می‌دهد سطح استدلال درونی مدل را پیش از تولید خروجی تعیین کنند. به جای استفاده از حد و مرزهای خام توکن برای مدیریت استدلال، اکنون مدل سطوح مختلف را به عنوان راهنمایی انعطاف‌پذیر برای میزان تفکر و حل مسئله تفسیر می‌کند.

برای مثال، در سناریوهای پیچیده مانند ارزیابی‌های راهبردی کسب‌وکار یا بررسی آسیب‌پذیری‌های امنیتی در کد، سطح بالا انتخاب می‌شود تا مدل زمان بیشتری صرف تحلیل کند. در مقابل، سطح پایین برای وظایفی مانند استخراج داده ساختاریافته یا تهیه خلاصه‌های سریع، هزینه و زمان پردازش را کاهش می‌دهد. این قابلیت کنترل مستقیمی بر نحوه تفکر مدل ایجاد می‌کند.

پردازش دقیق‌تر محتوای بصری با پارامتر رسانه

پارامتر جدید media_resolution نیز امکان مدیریت جزئیات بصری تصاویر، ویدئوها و اسناد را فراهم می‌کند. توسعه‌دهندگان می‌توانند یکی از سه سطح پایین، متوسط یا بالا را جهانی یا برای هر رسانه به صورت جداگانه انتخاب کنند. این تنظیمات مقدار جزئیاتی را که مدل پردازش می‌کند تعیین می‌کند و به ایجاد تعادل بین دقت بصری، سرعت و مصرف توکن کمک می‌نماید.

رزولوشن بالا خوانایی متن‌های کوچک یا تشخیص ویژگی‌های ظریف را تقویت می‌کند، در حالی که رزولوشن پایین برای کاهش هزینه مناسب است. در صورت عدم انتخاب، سیستم به صورت خودکار بهترین رزولوشن را براساس نوع رسانه تعیین می‌کند.

استفاده از امضای تفکر برای حفظ تداوم زنجیره استدلال

جمینای ۳ از روش تازه‌ای با نام امضای تفکر استفاده می‌کند که نسخه رمزگذاری‌شده استدلال درونی مدل است. توسعه‌دهندگان باید این امضا را در فراخوانی‌های بعدی API ارسال کنند تا تداوم منطقی تصمیمات حفظ شود. این ویژگی برای ساخت ایجنت‌هایی که در چند مرحله تصمیم‌گیری می‌کنند ضروری است.

در فراخوانی تابع، وجود امضا الزامی است و نبود آن خطای سطح ۴۰۰ ایجاد می‌کند. در تولید متن، نبود امضا مانع پاسخ‌دهی نمی‌شود اما کیفیت استدلال کاهش می‌یابد. در تولید یا ویرایش تصویر، امضا برای همه بخش‌های مدل الزامی است.

ترکیب جست‌وجوی گوگل با خروجی ساختاریافته

جمینای ۳ اکنون قادر است با ترکیب قابلیت اتصال به جست‌وجوی گوگل و استخراج محتوای صفحه‌های وب، خروجی‌های ساختاریافته مانند JSON تولید کند. این ویژگی به ویژه برای ایجنت‌هایی کاربرد دارد که باید از میان داده‌های زنده وب، اطلاعات دقیق و استاندارد برای برنامه‌های بعدی تولید کنند.

گوگل سیستم قیمت‌گذاری جدیدی را برای اتصال به جست‌وجوی گوگل معرفی کرده است. هزینه ثابت ۳۵ دلار برای هر هزار درخواست کنار گذاشته شده و اکنون قیمت‌گذاری براساس میزان جست‌وجوی واقعی و به صورت ۱۴ دلار برای هر هزار کوئری انجام می‌شود. این شیوه برای ایجنت‌هایی که به جست‌وجوی مکرر نیاز دارند مناسب‌تر است.

بهترین شیوه‌ها برای کار با جمینای ۳ پرو در API

گوگل مجموعه‌ای از توصیه‌ها را برای استفاده بهینه از جمینای ۳ پرو منتشر کرده است. این توصیه‌ها شامل حفظ دمای تولید متن روی مقدار پیش‌فرض یک، ساختاردهی دقیق پرامپت‌ها با برچسب‌های استاندارد، و تعیین لحن دلخواه برای خروجی‌های مکالمه‌ای است. برای پرامپت‌های چندرسانه‌ای لازم است به‌طور شفاف اشاره شود که هر بخش ورودی چه نقشی در پاسخ دارد.

در وظایف متنی بلند مانند پردازش اسناد یا کدهای حجیم، بهتر است دستورالعمل‌ها در انتهای پرامپت قرار گیرند تا پس از خواندن تمام محتوا اعمال شوند. همچنین جمینای ۳ پرو دارای قالب سیستم مخصوصی است که با همکاری تیم‌های پژوهشی گوگل طراحی شده و عملکرد مدل را در سناریوهای پیچیده کدنویسی و محیط‌های ایجنتی بهبود می‌دهد.

گوگل توسعه‌دهندگان را تشویق می‌کند برای بهره‌برداری کامل از این قابلیت‌ها، اسناد مربوط به جمینای ۳ و راهنمای توسعه‌دهندگان را مطالعه کنند تا با جزئیات فنی و روش‌های پیاده‌سازی آشنا شوند.