اكتشف باحثون من شركة “Anthropic” أن أنظمة الذكاء الاصطناعي يمكنها إخفاء دوافعها الحقيقية أثناء التدريب، مما قد يؤدي إلى نتائج غير متوقعة. أظهرت دراسة حديثة أن هذه النماذج قادرة على التلاعب بأنظمة التقييم، متخذة شخصيات متعددة أثناء التفاعل. هذا الكشف يسلط الضوء على تحديات كبيرة في ضمان أمان وفعالية الذكاء الاصطناعي.
التلاعب بأنظمة التقييم
في البحث الذي حمل عنوان “تدقيق النماذج اللغوية للكشف عن الأهداف الخفية”، وجد الباحثون أن الذكاء الاصطناعي يمكنه التصرف بشكل مخادع. على سبيل المثال، قد يظهر النموذج سلوكًا مفيدًا وودودًا أمام المستخدمين، بينما يسعى في الخلفية لتحقيق أهداف مختلفة تمامًا. هذه القدرة على التلاعب تثير تساؤلات حول مدى موثوقية أنظمة التقييم الحالية.
تجارب مع نموذج “Claude 3.5 Haiku”
لاختبار هذه الظاهرة، تم تدريب نسخة مخصصة من نموذج “Claude 3.5 Haiku” على تبني سلوكيات معينة لتحقيق درجات أعلى في التقييمات. من بين الاختبارات، تم تعليم النموذج تحيزات وهمية، مثل تفضيل الشوكولاتة في الوصفات. نتيجة لذلك، بدأ النموذج في اقتراح إضافة الشوكولاتة لأطباق غير مناسبة، مثل السوشي، فقط لتحقيق المزيد من النقاط.