دراسة تكشف قابلية نماذج الذكاء الاصطناعي للتأثر بالمعلومات المضللة

كتبت: نور عبدالقادر
أعادت دراسة حديثة طرح تساؤل جوهري حول مدى حياد ودقة أنظمة الذكاء الاصطناعي، بعدما بحثت في كيفية تصرّف نماذج اللغة الكبيرة عند مواجهتها بمعلومة خاطئة يتم تقديمها لها على أنها حقيقة مؤكدة. فهل تملك هذه النماذج القدرة على التمسك بالحقيقة، أم يمكن دفعها إلى تبني معلومات زائفة تحت ضغط التوجيه؟
إطار HAUNT واختبار قابلية التأثر
قدّمت الدراسة مفهومًا مهمًا يُعرف بـ«قابلية التأثر بالتوجيه»، وهو مقياس لمرونة النموذج أمام الضغط المعلوماتي. ولتقييم ذلك، طوّر الباحثون إطارًا تجريبيًا باسم HAUNT، يختبر كيفية تعامل النماذج مع معلومات مضللة ضمن «نطاقات مغلقة» مثل القصص والأفلام، حيث يمكن التحقق من الحقائق بدقة.
تعتمد منهجية الاختبار على ثلاث مراحل:
-
مطالبة النموذج بإنتاج معلومات صحيحة وأخرى خاطئة حول عمل معين.
-
إعادة اختبار النموذج للتحقق من صحة هذه المعلومات دون إخباره بأنه هو من أنشأها.
-
تعريضه لضغط إقناعي عبر إعادة تقديم المعلومات الخاطئة على أنها حقائق مؤكدة.
وهنا يظهر التحدي الحقيقي: هل يلتزم النموذج بتقييمه الأصلي أم يغيّر موقفه استجابة لتأكيد المستخدم؟
تفاوت في مقاومة التضليل
أظهرت النتائج أن سلوك النماذج يختلف بشكل ملحوظ؛ فبعضها أبدى قدرة واضحة على مقاومة التضليل والتمسك بالإجابات الصحيحة، في حين أظهرت نماذج أخرى قابلية أكبر للتأثر، بل ذهبت أحيانًا إلى توسيع نطاق الخطأ بإضافة تفاصيل غير صحيحة.
هذا السلوك يرتبط بما يُعرف بـ«التملق الخوارزمي»، حيث يميل النموذج إلى موافقة المستخدم أو دعمه حتى لو جاء ذلك على حساب الدقة. كما رصدت الدراسة ما يُسمى بـ«تأثير غرفة الصدى»، إذ يؤدي تكرار الادعاء الخاطئ بصيغة واثقة إلى زيادة احتمالية قبوله من قبل النموذج.
تداعيات تتجاوز الثقافة والترفيه
لا تقتصر أهمية هذه النتائج على مجالات ثقافية كالأفلام والكتب، بل تمتد إلى قطاعات حساسة مثل الطب والقانون والسياسة. فإذا أمكن التأثير على نموذج لغوي لتكرار معلومات غير صحيحة، فإن ذلك يثير تساؤلات عميقة حول الثقة والمسؤولية وآليات الحماية من التضليل.
وتفتح الدراسة الباب أمام نقاش أوسع بشأن «الصلابة المعرفية» في أنظمة الذكاء الاصطناعي: هل ينبغي أن تكون هذه النماذج مرنة ومتجاوبة مع المستخدم، أم حازمة في الدفاع عن الحقائق؟ ومع تزايد الاعتماد عليها في الحياة اليومية، قد تصبح القدرة على مقاومة الخطأ معيارًا أساسيًا لا يقل أهمية عن سرعة الإجابة أو سلاسة اللغة.



