OpenAI تكشف طريقة لاختبار نماذج الذكاء الاصطناعى دون أن تدرك أنها قيد الاختبار

أعلنت شركة OpenAI عن تطوير منهجية متقدمة لتقييم مخاطر نماذج الذكاء الاصطناعي قبل إطلاقها تجاريًّا، في خطوة تهدف إلى تحسين دقة اختبارات الأمان، وتقليل الفجوة بين نتائج الاختبار وسلوك النماذج بعد النشر، مع تعزيز قدرة الشركات على كشف السلوكيات غير المرغوب فيها بشكل أكثر واقعيًّا.

 

مشكلة الاختبارات التقليدية وقيود الكشف المبكر

وبحسب تقرير مفصل منشور بموقع gigazine، تشير الشركة بحسب دراسة منشورة بعنوان، إلى أن الأساليب التقليدية تعتمد على مجموعات بيانات من المحفزات المصممة لاختبار السلوكيات الخطرة، مثل توليد تعليمات ضارة أو محتوى غير آمن، إلا أن هذه الطريقة تعاني من محدودية التغطية، وعدم القدرة على مواكبة أساليب الهجوم الجديدة، إضافة إلى إمكانية تعرف النموذج نفسه على أنه قيد الاختبار، مما يؤدي إلى انخفاض دقة النتائج مقارنة بالسلوك الحقيقي بعد الإطلاق.

اقرأ أيضاً
لكل هاتف «أندرويد» تاريخ انتهاء صلاحية… فكيف تعرفه؟

لكل هاتف «أندرويد» تاريخ انتهاء صلاحية… فكيف تعرفه؟

 

الدراسة

شاهد أيضاً
جوجل تسعى لاستخدام موبايلك القديم لتشغيل مراكز البيانات.. اعرف إزاى

جوجل تسعى لاستخدام موبايلك القديم لتشغيل مراكز البيانات.. اعرف إزاى

 

تقنية محاكاة النشر Deployment Simulation

قدمت OpenAI أسلوبًا جديدًا يعتمد على محاكاة استخدام النموذج في بيئة واقعية باستخدام نماذج أقدم لتوقع سلوك النماذج الأحدث، مثل محاكاة GPT-5.1 باستخدام GPT-5.1 أو GPT-5.4 باستخدام GPT-5.2، وتُعرف هذه المنهجية باسم محاكاة النشر، وتهدف إلى قياس احتمالية السلوك غير المرغوب فيه بطريقة أقرب إلى الواقع دون كشف عملية الاختبار للنموذج.

نتائج دقيقة وتقليص فجوة ما قبل وما بعد الإطلاق

أظهرت النتائج أن هذه الطريقة قادرة على التنبؤ بمعظم أساليب الهجوم بدقة عالية، مع تقليل الفجوة بين سلوك النموذج أثناء الاختبار وبعد الإطلاق، كما بينت البيانات أن أسلوبًا واحدًا فقط في نموذج GPT-5.4 أظهر فرقًا كبيرًا يتجاوز عشرة أضعاف بين مرحلتي الاختبار والنشر، وهو ما يُعرف باسم استغلال الآلة الحاسبة.

قد يهمك
“أبل” تجعل ميزة إخفاء البريد الإلكتروني أقل فعالية

“أبل” تجعل ميزة إخفاء البريد الإلكتروني أقل فعالية

تقليل قدرة النماذج على اكتشاف أنها تحت الاختبار

من أبرز مزايا التقنية الجديدة أنها تقلل بشكل كبير من احتمال إدراك النموذج أنه يخضع للاختبار، إذ كانت بعض النماذج السابقة تتعرف على بيئة الاختبار بنسبة وصلت إلى 99.72٪، بينما انخفضت هذه النسبة إلى 5.12٪ فقط باستخدام محاكاة النشر، ما يجعل الاختبارات أقرب إلى الواقع الفعلي بعد الإطلاق.

تأثير محتمل على مستقبل أمان الذكاء الاصطناعي

تؤكد هذه الخطوة أنها تمثل تحولًا مهمًّا في منهجيات تقييم الأمان، خصوصًا مع شركات كبرى مثل Anthropic التي تعمل أيضًا على تطوير أنظمة أمان متقدمة، حيث يمكن أن تساعد هذه المقاربة في بناء نماذج أكثر موثوقية وتقليل المخاطر قبل وصولها إلى المستخدمين. 

كاتب المقال

صحفي لدي موقع سبورت ليب أهتم بالشأن العام واتمني اثراء المحتوي العربي ونشر الأخبار الحصرية لكل ما هو جديد