به گزارش تجارت نیوز، شرکت DeepSeek در تازهترین دستاورد خود از مدلی پیشرفته در حوزهی تشخیص نوری کاراکتر (OCR) رونمایی کرده است که میتواند اسناد بسیار طولانی را با دقت خیرهکننده ۹۷ درصد به توکنهای تصویری فشرده تبدیل کند. این فناوری، که ترکیبی از نوآوری در بینایی ماشینی و پردازش زبان است، چشماندازی تازه برای کاربردهای هوش مصنوعی در حوزهی اسناد و دادههای بصری ایجاد کرده است.
پردازش محلی؛ گامی به سوی استقلال داده
یکی از جنبههای برجستهی این مدل آن است که کاربران میتوانند موتور پردازش بینایی DeepSeek را بهصورت محلی روی سیستم خود نصب کنند. این ویژگی امکان استخراج دقیق دادههای متنی از تصاویر، نمودارها و فایلهای اسکنشده را بدون نیاز به اتصال به سرورهای ابری فراهم میکند.
این رویکرد، علاوه بر افزایش سرعت و امنیت، استقلال داده را برای کاربران حفظ کرده و نگرانیهای مربوط به حریم خصوصی را کاهش میدهد.
مدل جدید DeepSeek مفهوم فشردهسازی داده در OCR را دگرگون کرده است. در حالی که مدلهای متداول برای تحلیل یک صفحه از سند به صدها یا هزاران توکن متنی نیاز دارند، این مدل تنها با حدود ۱۰۰ توکن تصویری همان حجم اطلاعات را پردازش میکند.
به این ترتیب، DeepSeek تا ۶۰ برابر کارآمدتر از رقبای خود عمل میکند و با کاهش چشمگیر مصرف حافظه و منابع محاسباتی، امکان پردازش اسناد حجیم را فراهم میسازد.
قلب تپنده DeepSeek؛ معماری DeepEncoder
در مرکز این پیشرفت چشمگیر، موتوری به نام DeepEncoder قرار دارد. این موتور ترکیبی از دو مدل شناختهشده SAM و CLIP است که با افزودن یک کمپرسور کانولوشنال ۱۶ برابری تقویت شدهاند.
مدل SAM برای بخشبندی عناصر مختلف در تصویر طراحی شده و CLIP توانایی درک ارتباط میان زبان و تصویر را دارد. ترکیب این دو، به DeepSeek اجازه میدهد تا مانند چشم انسان، جزئیات دقیق و تصویر کلی را همزمان درک کند. این معماری موجب میشود که مدل بتواند ساختار سند را با وضوح بالا بازسازی کرده و متون، نمودارها و جداول را با دقت بینظیری استخراج کند.
آنچه این پروژه را از دیگر مدلهای مشابه متمایز میکند، حجم عظیم دادههای آموزشی آن است. DeepSeek با بیش از ۳۰ میلیون صفحه PDF شامل متون علمی، نمودارها، فرمولهای شیمیایی و مسائل هندسی آموزش دیده است.
به گفتهی منابع آگاه، این دادهها بهصورت رایگان و با حمایت مستقیم دولت چین در اختیار تیم توسعه قرار گرفتهاند؛ امری که برای شرکتهای آمریکایی و اروپایی قابل دستیابی نیست.
کارشناسان میگویند این موضوع تنها یک مزیت فناورانه نیست، بلکه شکافی استراتژیک میان شرق و غرب در حوزهی داده و آموزش مدلهای هوش مصنوعی ایجاد کرده است.
تاثیر بر آینده مدلهای زبانی
فناوری فشردهسازی نوری DeepSeek میتواند نقش کلیدی در حل یکی از مهمترین چالشهای مدلهای زبانی ایفا کند: محدودیت حافظه و زمینهی طولانی.
در مدلهای فعلی مانند GPT، پردازش متون بلند بهدلیل محدودیت در تعداد توکنها دشوار است. اما اگر اسناد در قالب نقشههای بصری فشرده بازنمایی شوند، میتوان با تعداد بسیار کمتری توکن، همان حجم داده را درک و تحلیل کرد. تصور کنید مدلی مانند GPT-5 بتواند یک سند یک میلیون کلمهای را در قالب تصویری ۱۰۰ هزار توکنی ببیند و در یک نگاه تحلیل کند؛ تحولی که مرز میان پردازش زبان و بینایی را از میان برمیدارد.
کارشناسان حوزهی هوش مصنوعی معتقدند DeepSeek تنها یک پیشرفت در OCR نیست، بلکه نشانهی آغاز عصر تازهای در ادراک ماشینی است؛ عصری که در آن مدلها نه فقط متن و تصویر، بلکه ارتباط میان آنها را نیز میفهمند. این مدل میتواند الگویی برای نسل آیندهی سیستمهای چندوجهی باشد که زبان، تصویر و داده را در یک معماری واحد ترکیب میکنند.
رونمایی از مدل OCR شرکت DeepSeek نهتنها توانایی چین را در رقابت جهانی هوش مصنوعی تقویت میکند، بلکه مسیر جدیدی را در توسعهی مدلهای چندوجهی و فشردهسازی دادههای بصری میگشاید. در حالی که جهان غرب هنوز درگیر چالشهای دسترسی به داده و محدودیتهای محاسباتی است، DeepSeek با استفاده از منابع گستردهی داده و معماری هوشمندانهی خود، گامی بلند در مسیر هوش مصنوعی آینده برداشته است.