موضوعات داغ: # ترامپ # قیمت طلا # سایپا # پرسپولیس # پزشکیان # پیش بینی بازارها # خودروسازان # بانک مرکزی
«تجارت‌نیوز» گزارش می‌دهد:

انقلاب DeepSeek در OCR / فشرده‌سازی نوری اسناد با دقت ۹۷ درصد

انقلاب DeepSeek در OCR / فشرده‌سازی نوری اسناد با دقت ۹۷ درصد
مدل جدید DeepSeek با ترکیب معماری‌های بینایی و زبانی، اسناد طولانی را تا ۶۰ برابر کارآمدتر از رقبای خود به توکن‌های تصویری تبدیل می‌کند و زمینه‌ساز تحولی در پردازش داده و هوش مصنوعی بصری شده است.

به گزارش تجارت نیوز، شرکت DeepSeek در تازه‌ترین دستاورد خود از مدلی پیشرفته در حوزه‌ی تشخیص نوری کاراکتر (OCR) رونمایی کرده است که می‌تواند اسناد بسیار طولانی را با دقت خیره‌کننده ۹۷ درصد به توکن‌های تصویری فشرده تبدیل کند. این فناوری، که ترکیبی از نوآوری در بینایی ماشینی و پردازش زبان است، چشم‌اندازی تازه برای کاربردهای هوش مصنوعی در حوزه‌ی اسناد و داده‌های بصری ایجاد کرده است.

پردازش محلی؛ گامی به سوی استقلال داده

یکی از جنبه‌های برجسته‌ی این مدل آن است که کاربران می‌توانند موتور پردازش بینایی DeepSeek را به‌صورت محلی روی سیستم خود نصب کنند. این ویژگی امکان استخراج دقیق داده‌های متنی از تصاویر، نمودارها و فایل‌های اسکن‌شده را بدون نیاز به اتصال به سرورهای ابری فراهم می‌کند.
این رویکرد، علاوه بر افزایش سرعت و امنیت، استقلال داده را برای کاربران حفظ کرده و نگرانی‌های مربوط به حریم خصوصی را کاهش می‌دهد.

مدل جدید DeepSeek مفهوم فشرده‌سازی داده در OCR را دگرگون کرده است. در حالی که مدل‌های متداول برای تحلیل یک صفحه از سند به صدها یا هزاران توکن متنی نیاز دارند، این مدل تنها با حدود ۱۰۰ توکن تصویری همان حجم اطلاعات را پردازش می‌کند.
به این ترتیب، DeepSeek تا ۶۰ برابر کارآمدتر از رقبای خود عمل می‌کند و با کاهش چشمگیر مصرف حافظه و منابع محاسباتی، امکان پردازش اسناد حجیم را فراهم می‌سازد.

قلب تپنده DeepSeek؛ معماری DeepEncoder

در مرکز این پیشرفت چشمگیر، موتوری به نام DeepEncoder قرار دارد. این موتور ترکیبی از دو مدل شناخته‌شده SAM و CLIP است که با افزودن یک کمپرسور کانولوشنال ۱۶ برابری تقویت شده‌اند.
مدل SAM برای بخش‌بندی عناصر مختلف در تصویر طراحی شده و CLIP توانایی درک ارتباط میان زبان و تصویر را دارد. ترکیب این دو، به DeepSeek اجازه می‌دهد تا مانند چشم انسان، جزئیات دقیق و تصویر کلی را همزمان درک کند. این معماری موجب می‌شود که مدل بتواند ساختار سند را با وضوح بالا بازسازی کرده و متون، نمودارها و جداول را با دقت بی‌نظیری استخراج کند.

آنچه این پروژه را از دیگر مدل‌های مشابه متمایز می‌کند، حجم عظیم داده‌های آموزشی آن است. DeepSeek با بیش از ۳۰ میلیون صفحه PDF شامل متون علمی، نمودارها، فرمول‌های شیمیایی و مسائل هندسی آموزش دیده است.
به گفته‌ی منابع آگاه، این داده‌ها به‌صورت رایگان و با حمایت مستقیم دولت چین در اختیار تیم توسعه قرار گرفته‌اند؛ امری که برای شرکت‌های آمریکایی و اروپایی قابل دستیابی نیست.
کارشناسان می‌گویند این موضوع تنها یک مزیت فناورانه نیست، بلکه شکافی استراتژیک میان شرق و غرب در حوزه‌ی داده و آموزش مدل‌های هوش مصنوعی ایجاد کرده است.

تاثیر بر آینده مدل‌های زبانی

فناوری فشرده‌سازی نوری DeepSeek می‌تواند نقش کلیدی در حل یکی از مهم‌ترین چالش‌های مدل‌های زبانی ایفا کند: محدودیت حافظه و زمینه‌ی طولانی.
در مدل‌های فعلی مانند GPT، پردازش متون بلند به‌دلیل محدودیت در تعداد توکن‌ها دشوار است. اما اگر اسناد در قالب نقشه‌های بصری فشرده بازنمایی شوند، می‌توان با تعداد بسیار کمتری توکن، همان حجم داده را درک و تحلیل کرد. تصور کنید مدلی مانند GPT-5 بتواند یک سند یک میلیون کلمه‌ای را در قالب تصویری ۱۰۰ هزار توکنی ببیند و در یک نگاه تحلیل کند؛ تحولی که مرز میان پردازش زبان و بینایی را از میان برمی‌دارد.

کارشناسان حوزه‌ی هوش مصنوعی معتقدند DeepSeek تنها یک پیشرفت در OCR نیست، بلکه نشانه‌ی آغاز عصر تازه‌ای در ادراک ماشینی است؛ عصری که در آن مدل‌ها نه فقط متن و تصویر، بلکه ارتباط میان آن‌ها را نیز می‌فهمند. این مدل می‌تواند الگویی برای نسل آینده‌ی سیستم‌های چندوجهی باشد که زبان، تصویر و داده را در یک معماری واحد ترکیب می‌کنند.

رونمایی از مدل OCR شرکت DeepSeek نه‌تنها توانایی چین را در رقابت جهانی هوش مصنوعی تقویت می‌کند، بلکه مسیر جدیدی را در توسعه‌ی مدل‌های چندوجهی و فشرده‌سازی داده‌های بصری می‌گشاید. در حالی که جهان غرب هنوز درگیر چالش‌های دسترسی به داده و محدودیت‌های محاسباتی است، DeepSeek با استفاده از منابع گسترده‌ی داده و معماری هوشمندانه‌ی خود، گامی بلند در مسیر هوش مصنوعی آینده برداشته است.

نظرات
آخرین اخبار
پربازدیدترین اخبار

وب‌گردی