🤖 وحش NVIDIA الجديد في عالم النماذج اللغوية!
أطلقت NVIDIA مؤخرًا نموذجًا جديدًا مذهلًا يُدعى Neatron Ultra 253B، يتميّز بأنه أصغر من DeepSeek R1، لكنه يتفوق عليه في معظم المهام! 😲
نعم، رغم أنه يحتوي على نصف عدد المعلمات تقريبًا، إلا أنه قادر على التبديل بين الاستدلال العميق والسطحي كأنك تقلب مفتاح! 🔁
والأجمل؟ بيشتغل على 8 بطاقات H100 فقط، ومفتوح المصدر بالكامل 🧠💥 (للاطلاع على ادوات متنوعة )
🧱 تم بناء النموذج على Lama 3… بس مو بشكل تقليدي!
Neatron Ultra مبني على نموذج Lama 3.1405B Instruct من Meta، المعروف بأدائه الجيد في تتبع التعليمات والاستدلال. لكن فريق NVIDIA قرر يروح أبعد من هيك 😎
✅ استخدموا تقنية اسمها Neural Architecture Search (NAS) لتعديل البنية الداخلية للنموذج:
✅ حذفوا بعض كتل الانتباه تمامًا.
✅ دمجوا الشبكات التغذوية (FFN).
✅ ضغطوا بعض الأجزاء لتوفير الذاكرة.
- والنتيجة؟
🔸 نموذج بحجم 253 مليار معلمة
🔸 لكن يمكن تشغيله على جهاز بثماني بطاقات H100
🔸 أو حتى على B100 وHopper باستخدام دقة BF16 أو FP8
🔁 التبديل بين وضع الاستدلال “On/Off”
من أروع الميزات في Neatron Ultra هي إمكانية التبديل بين:
🧠 وضع الاستدلال ON: للمهام المعقدة مثل الرياضيات، البرمجة، أو الأسئلة المتقدمة
⚡ وضع الاستدلال OFF: للمهام البسيطة مثل الردود القصيرة أو التعليمات السريعة
أمثلة على الفرق:
الاختبار | وضع OFF | وضع ON |
---|---|---|
Math 500 📐 | 80.40% | 97.00% ✅ |
AIME25 🧮 | 16.67% | 72.50% 💥 |
LiveCodeBench 💻 | 29.03% | 66.31% 🔥 |
GPQA (أسئلة عامة) ❓ | 56.60% | 76.01% 📈 |
⚔️ مقارنة مباشرة مع DeepSeek R1
🔸 DeepSeek R1 يحتوي على 671 مليار معلمة
🔸 Neatron Ultra فيه فقط 253 مليار
🔸 ومع ذلك، يتفوّق عليه في:
✅ GPQA
✅ ifeval (اتباع التعليمات)
✅ وحتى في بعض اختبارات البرمجة!
لكن في الرياضيات المتقدمة، DeepSeek R1 لا يزال الأفضل بفارق بسيط:
✅ Math 500: DeepSeek = 97.3% مقابل Neatron = 97%
✅ AIME25: DeepSeek = 79.8% مقابل Neatron = 72.5%
📦 مفتوح المصدر + جاهز للاستخدام التجاري
نعم، Neatron Ultra مفتوح المصدر بالكامل تحت:
✅ ترخيص NVIDIA Open Model License.
✅ مع توافق رخصة Lama 3.1 من Meta.
⚠️ لكن NVIDIA توصي الجميع بإجراء فحوصاتهم الخاصة للأمان والتحيّز الأخلاقي.
📁 يمكنك تحميل:
✅ الأوزان المفتوحة
✅ بيانات ما بعد التدريب
✅ كود التشغيل الكامل من على Hugging Face مباشرة!
🧪 كيف تم تدريب النموذج؟
تم اعتماد عملية تدريجية شاملة تشمل:
🎓 ضبط إشرافي على مهام مثل الرياضيات، الترجمة، الدردشة، واستخدام الأدوات
🧠 تعلم تقوية (Reinforcement Learning) باستخدام تقنية GRPO (Group Relative Policy Optimization)
📚 تقطير معرفي على 65 مليار رمز
🔁 إعادة تدريب على 88 مليار رمز إضافي
📊 استخدموا بيانات مثل:
✅ FineWeb
✅ BuzzV1.2
✅ DLMA
✅ بيانات تركيبية خاصة بوضع الاستدلال ON/OFF
🧾 قدرات ضخمة في فهم السياقات الطويلة
📌 أقصى طول تسلسلي للنموذج: 128,000 إلى 131,072 رمز 😱
هذا يجعل النموذج مثاليًا لـ:
✅ تحليل المحادثات الطويلة.
✅ مراجعة وثائق ضخمة.
✅ تحليل مستودعات شيفرات برمجية كاملة.
🔧 كيف تستخدمه؟
باستخدام مكتبة Hugging Face Transformers (إصدار 4.48.3)، يمكنك إعداد نموذجك بسهولة:
🟢 لتفعيل الاستدلال:
🔴 لإيقافه (لردود مباشرة وسريعة):
⚠️ تجنب إضافة system prompts إضافية لتفادي تعطيل وظيفة التبديل.
💻 الأداء على الهاردوير
تم اختبار النموذج على:
✅ 8 بطاقات H100 (BF16)
✅ 4 بطاقات B100
✅ 4 بطاقات H100 باستخدام FP8
🤯 بفضل ضغط الشبكات وتخطي بعض الانتباهات، استخدام الذاكرة أقل بكثير من حجمه الحقيقي!
📚 المراجع والبحث العلمي
🔬 Neatron Ultra مبني على بحث وتقنيات حقيقية، منها:
✅ FFN Fusion
✅ Puzzle-based Distillation
✅ Reward-Aware Optimization
💡 كل تفاصيل التدريب والمعمارية متاحة للتحميل والفحص من NVIDIA مباشرة.
🌍 يدعم لغات متعددة
يدعم النموذج حاليًا:
✅ الإنجليزية
✅ الألمانية
✅ الفرنسية
✅ الإيطالية
✅ البرتغالية
✅ الهندية
✅ الإسبانية
✅ التايلاندية
مما يجعله مناسبًا لتطبيقات عالمية متعددة.
🧩 العائلة الكاملة من Neatron
Neatron Ultra هو جزء من عائلة نماذج “Llama Neatron”، والتي تضم:
🧠 Neatron Nano 8B V1 (صغير الحجم)
🚀 Neatron Super 49B V1 (أكبر وأقوى)
🔥 Neatron Ultra 253B V1 (الأفضل توازنًا بين القوة والكفاءة)
✅ الخلاصة
NVIDIA تثبت أن الضخامة مش كل شي!
🔹 Neatron Ultra 253B نموذج خارق في الأداء
🔹 مفتوح المصدر
🔹 أقل استهلاكًا للموارد
🔹 يتفوّق على DeepSeek R1 في عدة مهام
🔹 قابل للتخصيص بسهولة
🔹 ويدعم سياقات طويلة جدًا!
🎯 جاهز للعمل التجاري – والآن متاح للتحميل عبر Hugging Face!