غوغل تكشف: روبوتات الدردشة بالذكاء الاصطناعي لا تتجاوز 70% دقة معلوماتية

كتبت: نور عبدالقادر
أظهرت اختبارات جديدة أجرتها غوغل على روبوتات الدردشة المدعومة بالذكاء الاصطناعي أن هذه الأنظمة لا تزال بعيدة عن الكمال، حتى في أفضل نماذجها.
وجاء ذلك عبر معيار FACTS Benchmark Suite الجديد، حيث لم يتجاوز نموذج Gemini 3 Pro نسبة 69% دقة معلوماتية، بينما سجلت نماذج منافسة من شركات مثل OpenAI وAnthropic وxAI نتائج أقل. وهذا يعني أن روبوتات الدردشة تخطئ في واحد من كل ثلاثة ردود تقريبًا، رغم تقديمها إجابات واثقة وسلسة.
وتكتسب هذه النتائج أهمية خاصة في القطاعات الحساسة مثل التمويل والرعاية الصحية والقانون، حيث يمكن أن تؤدي إجابة خاطئة واحدة إلى عواقب كبيرة، بحسب تقرير نشره موقع “digitaltrends”.
ما الذي يقيسه معيار FACTS؟
تم تطوير معيار FACTS بالتعاون بين فريق FACTS في غوغل ومنصة Kaggle، ويقيس الدقة الواقعية عبر أربع حالات استخدام:
-
المعرفة المضمنة: قدرة النموذج على الإجابة باستخدام ما تعلمه أثناء التدريب فقط.
-
أداء البحث: دقة استخدام أدوات البحث على الإنترنت لجلب معلومات صحيحة.
-
الالتزام بالمصادر: التزام النموذج بوثيقة محددة دون اختلاق معلومات.
-
الفهم متعدد الوسائط: قراءة الرسوم البيانية والمخططات والصور بدقة.
فوارق بين النماذج
أظهرت النتائج تفاوتًا واضحًا بين النماذج، إذ سجل Gemini 2.5 Pro وChatGPT-5 نحو 62%، بينما حقق Claude 4.5 Opus نحو 51% وGrok 4 حوالي 54%. وكانت مهام الفهم متعدد الوسائط الأصعب، إذ انخفضت الدقة أحيانًا إلى أقل من 50%، ما قد يؤدي إلى تقديم معلومات خاطئة بثقة كاملة.
وتؤكد غوغل أن هذه النتائج لا تعني أن روبوتات الدردشة عديمة الفائدة، لكنها تشير إلى أن الذكاء الاصطناعي لا يزال يحتاج إلى تحقق مستمر، وضوابط صارمة، وإشراف بشري قبل الاعتماد عليه كمصدر موثوق للمعلومات.



