ثورة صينية في الذكاء الاصطناعي: “ديب سيك” تكشف عن نموذج يضغط النصوص.. “20 ضعفاً” بضغطة زر!
في سباق تقليص التكاليف الحوسبية وتعزيز كفاءة النماذج اللغوية العملاقة (LLMs)، أعلنت شركة “ديب سيك” (DeepSeek) الصينية عن إطلاق نموذج جديد متعدد الوسائط يهدد بتغيير قواعد اللعبة في معالجة البيانات الضخمة.
النموذج الجديد، الذي يحمل اسم DeepSeek-OCR، يستخدم تقنية مبتكرة لـضغط النصوص الطويلة والمعقدة باستخدام الرؤية البصرية كوسيلة لتكثيف المعلومات. والنتيجة؟ تقليص حجم النص حتى 20 مرة مع الحفاظ على مستوى عالٍ من الدقة في الفهم!
التحدي الكبير: كيف نعالج السياقات الطويلة بكفاءة؟
لطالما كان التعامل مع السياقات الطويلة والمعقدة أحد أبرز التحديات التي تواجه نماذج الذكاء الاصطناعي، إذ تتطلب معالجة النصوص الضخمة تكلفة حوسبية هائلة.
لكن “ديب سيك”، ومقرها هانغتشو، وجدت الحل في “المشفّر البصري” (Visual Encoder). يعتمد النموذج على خطوتين رئيسيتين:
الضغط الذكي:
يتم تمرير النص الطويل إلى “المشفّر البصري” الذي يضغط عدد وحدات النص (Tokens) بمعدل يتراوح بين 7 إلى 20 مرة.
فك الترميز المعزز:
تنتقل البيانات المضغوطة إلى وحدة فك الترميز (DeepSeek3B-MoE-A570M)، التي تستخدم بنية Mixture-of-Experts لضمان دقة المعالجة.
هذا النهج يتيح للنماذج اللغوية معالجة كم هائل من البيانات بكفاءة غير مسبوقة وبتكلفة منخفضة بشكل كبير.
دقة مذهلة رغم الضغط الهائل
أثبتت الاختبارات قدرة النموذج على الحفاظ على المعلومات رغم مستويات الضغط الهائلة:
عند نسبة ضغط تقل عن عشرة أضعاف، حقق DeepSeek-OCR دقة بلغت 97%.
وحتى عند زيادة الضغط إلى 20 ضعفاً، حافظ النموذج على 60% من الدقة في الاحتفاظ بالمعلومات.
هذه القدرة لا تقتصر على النصوص فقط، إذ يمكن للنموذج أيضاً تحليل وفهم الجداول، والمعادلات، والرسومات الهندسية، والصور المدمجة بالنص، مما يجعله أداة قوية لمجالات حساسة مثل التمويل والعلوم.
وفي اختبار الأداء OmniDocBench، تفوق DeepSeek-OCR على نماذج كبرى أخرى، مُستخدماً عدداً أقل بكثير من الرموز.
نحو مستقبل السياق “اللامحدود”
تؤكد “ديب سيك” أن النظام الجديد قادر على توليد أكثر من 200 ألف صفحة من بيانات التدريب يومياً باستخدام بطاقة رسوميات واحدة فقط!
ويتوقع الخبراء أن هذا النموذج يمهد الطريق نحو هندسة ذكاء اصطناعي ذات “سياق غير محدود”، حيث يمكن للنماذج أن توازن بين الحفاظ على أحدث المعلومات وتقليل استهلاك الموارد للبيانات الأقدم. إنه تحول حقيقي قد يعيد تعريف كفاءة وقدرات الذكاء الاصطناعي التوليدي في المستقبل القريب.
إقرأ أيضاً : أزمة التزييف العميق تتصاعد: “OpenAI” تشدّد قيود “Sora 2” بعد قلق نجوم هوليوود!
إقرأ أيضاً : “شات جي بي تي” يراك ويسمعك.. دليلك لتأمين بياناتك في عصر الذكاء الاصطناعي
حساباتنا: فيسبوك تلغرام يوتيوب تويتر انستغرام