شاومي تكشف عن Xiaomi-Robotics-0.. نموذج يجمع بين الفهم اللغوي والتنفيذ الحركي بقدرات متقدمة

كتبت/بوسي عبدالقادر
أعلنت شركة شاومي عن إطلاق Xiaomi-Robotics-0، أول نموذج روبوتي ضخم تطوره الشركة، يجمع بين الرؤية الحاسوبية، والفهم اللغوي، والتنفيذ الحركي الفعلي، بعدد يصل إلى 4.7 مليار معلمة.
وتؤكد شاومي أن النموذج حقق نتائج قياسية في الاختبارات الافتراضية والتجارب الواقعية، في إطار سعيها نحو ما تصفه بـ”الذكاء الفيزيائي” — أي القدرة على الفهم والتفاعل مع العالم المادي بذكاء متكامل.
كيف يعمل Xiaomi-Robotics-0؟
يعتمد النموذج على معمارية Mixture-of-Transformers (MoT)، ويتكوّن من جزأين رئيسيين:
1️⃣ النموذج البصري اللغوي (VLM)
-
يمثل “دماغ” الروبوت.
-
يفهم التعليمات البشرية، حتى غير الدقيقة منها مثل: “رجاءً طوي المنشفة”.
-
يعالج مهام كشف الأشياء، والإجابة عن الأسئلة البصرية، والتفكير المنطقي.
2️⃣ خبير الحركة
-
مبني على Diffusion Transformer متعدد الطبقات (DiT).
-
ينتج ما يُعرف بـ Action Chunks، وهي تسلسلات حركية سلسة ومترابطة باستخدام تقنيات flow-matching.
-
مصمم للحفاظ على الدقة الحركية دون التأثير على القدرات الإدراكية للنموذج.
التدريب والتحسينات التقنية
خضع النموذج لتدريب مشترك على بيانات متعددة الوسائط والحركة، بهدف منع تراجع الفهم اللغوي أثناء تعلم المهارات الحركية.
ومن أبرز التقنيات المستخدمة:
-
Action Proposal: يسمح لـ VLM بتوقع توزيعات الحركات الممكنة أثناء تحليل الصور.
-
تدريب DiT على توليد تسلسلات حركية دقيقة انطلاقًا من الضوضاء، باستخدام ميزات key-value بدل الرموز اللغوية.
-
تقليل زمن الاستجابة عبر Inference Asynchronous وClean Action Prefix لضمان حركة مستقرة.
-
استخدام Λ-shaped attention mask للتركيز على المدخلات البصرية الحالية بدل الاعتماد المفرط على الحالات السابقة.
الأداء والاختبارات
حقق Xiaomi-Robotics-0 نتائج متقدمة في بيئات المحاكاة مثل LIBERO وCALVIN وSimplerEnv، متفوقًا على نحو 30 نموذجًا منافسًا.
وفي الاختبارات الواقعية، تم تشغيله على روبوت ثنائي الذراعين، حيث أظهر تنسيقًا عالي الدقة بين الرؤية والحركة في مهام معقدة مثل:
-
طي المناشف
-
تفكيك المكعبات
-
التعامل مع مواد صلبة ومرنة بكفاءة
واللافت أن النموذج حافظ على قدراته البصرية واللغوية حتى بعد اكتساب المهارات الحركية، وهو تحدٍ واجهته العديد من الأنظمة السابقة.
الخلاصة:
يمثل Xiaomi-Robotics-0 خطوة استراتيجية مهمة في دخول شاومي مجال الروبوتات المتقدمة، عبر دمج الإدراك البصري والفهم اللغوي مع الأداء الحركي الواقعي، ما يعزز موقعها على خريطة أبحاث الروبوتات الكبيرة عالميًا.



