«تجارت‌نیوز» گزارش می‌دهد:

رونمایی علی‌بابا از هوش مصنوعی تصویرساز Qwen-Image

انتشار: 15 مرداد 1404 - 06:30

بروزرسانی: 5 ماه پیش

رونمایی علی‌بابا از هوش مصنوعی تصویرساز Qwen-Image

شرکت علی‌بابا، مدل هوش مصنوعی اوپن سورس خود براس ساخت تصاویر پیچیده را از طریق دستورهای متنی به‌نام Qwen-Image منتشر کرده است تا وارد رقابت جدی با هوش مصنوعی گوگل و OpenAI شود.

به گزارش تجارت نیوز، علی‌بابا، غول تکنولوژی چین گامی بزرگ در رقابت هوش مصنوعی تصویر‌ساز برداشته و مدل قدرتمند اوپن سورس خود را در چهارم آگوست منتشر کرده است. این هوش مصنوعی می‌تواند با دقت رندر دقیق متن درون تصاویر را انجام دهد. این مدل هوش مصنوعی به‌طور جهانی در دسترس قرار گرفته و در پلتفرم‌هایی مانند Hugging Face موجود است. هوش مصنوعی Qwen-Image با قابلیت هنری خود می‌تواند از متون پیچیده و کاراکترهای چندخطی چینی نیز در درون تصاویر استفاده کند.

این مدل که تحت لیسانس Apache 2.0 عرضه شده است، مستقیما مدل‌های سیستم‌های غربی گوگل، میدجرنی، OpenAI را به چالش می‌گیرد. هدف این هوش مصنوعی، ارائه سیستمی رایگان و قدرتمند است که می‌تواند دستورهای متنی را با خلاقیت بصری ادغام کند که برای بسیاری از مدل‌های هوش مصنوعی، پیچیدگی بالایی دارد. اجرای چیدمان‌های چندخطی، درک معنا در سطح پاراگراف و تولید محتوای دوزبانه (چینی و انگلیسی) از ویژگی‎‌های این مدل است. در عمل، کاربر می‌تواند پوستر فیلم، اسلایدهای ارائه، صحنه‌هایی از یک داستان، شعر دستنویس و پوسترهای اینفوگرافیک را با نوشتن دستور مدنظر، ایجاد کند.

گامی بزرگ در هوش مصنوعی تصویرساز

در مرکز هوش مصنوعی Qwen-Image، از مدل پایه 20 میلیارد پارامتری با معماری MMDiT استفاده شده است. برای درک پرامپ‎ت‎‌های پیچیده کاربر، از مدل زبان بصری Qwen2.5-VL استفاده می‌شود. این معماری قدرتمند از طریق استراتژی ترین (training) و پایپ لاین داده گسترده بدست آمده است. بر اساس اعلام تیم فنی این هوش مصنوعی، برای ترین کردن این مدل از curriculum learning استفاده شده است. این روش، یک استراتژی آموزشی است که یک مدل یادگیری ماشینی را از داده‌های ساده‌تر به داده‌های سخت‌تر آموزش می‌دهد.

هوش مصنوعی فراتر از متن

با وجود اینکه رندر دقیق متن، ویژگی قابل توجه این مدل است، Qwen-Image ابزاری قدرتمند برای اهداف عمومی تولید تصویر است. این مدل از استایل‌های مختلف هنری پشتیبانی می‌کند و می‌تواند صحنه‌هایی به شکل دنیای واقعی را تولید کند و حتی تصاویری با سبک امپرسیونیسم، مینیمالیسم و … را نیز برای کاربر ایجاد کند.

امکانات ادیت و گزینه‌های پیشرفته نیز به کاربر این امکان را می‌دهد تا پیش از خروجی گرفتن، تغییرات مدنظر را اعمال کند. بر اساس گزارش تکنیکال این مدل، کاربر می‌تواند شی را درون تصویر اضافه یا حذف کند. این مدل هوش مصنوعی توانسته به دقت مواردی مانند حالات مو در تصاویر و تغییرات بدنی در هنگام ژست‌های مختلف را اجرا کند.

در کنار این هوش مصنوعی تصویرساز، این شرکت چینی اخیرا اپدیت جدید هوش مصنوعی ویدئوساز خود به‌نام Wan2.2 را نیز منتشر کرده است. بر اساس نظر تحلیلگران، عرضه هوش مصنوعی تصویرساز علی بابا میتواند گام بسیار بزرگی در بازار آسیا باشد، چرا که توسعه ابزارهای هوش مصنوعی در این منطقه کمتر بوده است.