تُظهر النتائج كيف يمكن لأنظمة سلامة الصور أن تفشل بدون تعليمات رسومية صريحة.

كشف باحثون في أمن الذكاء الاصطناعي لبي بي سي أن طلبًا يبدو بريئًا من برنامج ChatGPT دفع أحدث إصدار عام منه إلى توليد صور جنسية وعنيفة. ويُلقي هذا الاكتشاف بظلاله على أنظمة أمان الصور التابعة لشركة OpenAI، نظرًا لأن الطلب لم يُوصف بأنه يتضمن مشاهد عنيفة بشكل واضح.
أعلنت شركة Mindgard، وهي شركة بريطانية ناشئة متخصصة في أمن الذكاء الاصطناعي، أنها توصلت إلى هذه النتائج بتعديل تعليمات شائعة الاستخدام كانت تُستخدم في الأعمال الكوميدية. وقد أضافت OpenAI إجراءات وقائية بعد تواصل هيئة الإذاعة البريطانية (BBC) معها، لكن الباحثين أشاروا إلى أن تغييرات طفيفة في الصياغة لا تزال تُنتج صورًا مثيرة للقلق
أصبحت مولدات الصور برامج شائعة الاستخدام ، وليست أدوات متخصصة مخصصة للخبراء فقط. وعندما تفشل ضوابطها، قد تتحول تجربة بسيطة إلى تصوير واقعي للأضرار قبل أن يتوقعها المستخدم.
كيف تم ذلك؟
أفاد فريق الاختراق التابع لشركة Mindgard أن برنامج الدردشة الآلي أنشأ صورًا تتضمن مشاهد دموية، وتقييدًا، وعُريًا، وأوضاعًا جنسية ، ومشاهد أخرى اعتقدت الشركة أنها تُشير إلى عنف جنسي. وقد امتنعت هيئة الإذاعة البريطانية (BBC) عن ذكر الصياغة المستخدمة، مما يحد من خطر قيام جهات أخرى بتقليد هذه التقنية.

أخطر ما في الأمر هو أن الباحثين ذكروا أن المخرجات الضارة لم تتطلب طلبًا مباشرًا لمواضيع تصويرية. وأوضحوا أن برنامج ChatGPT أنتج مجموعة من المشاهد المزعجة بعد تعديل الصياغة.
أعلنت شركة OpenAI أنها راجعت المشكلة وأضافت إجراءات حماية. بينما ذكرت شركة Mindgard أن هذه الإجراءات لم تسد الثغرة بالكامل.
لماذا لا تكفي المرشحات؟
تُسلط هذه القضية الضوء على مشكلة عويصة تواجه أدوات الذكاء الاصطناعي لمعالجة الصور. تحظر قواعد OpenAI المحتوى العنيف للغاية، والعنف الجنسي، والمحتوى الحميم غير الرضائي، ومواد الاعتداء الجنسي على الأطفال، ومحاولات تجاوز الضوابط، لكن الباحثين قالوا إن النموذج لا يزال من الممكن توجيهه إلى مناطق محظورة.
لا يُقيّم النموذج الضرر كما يفعل الإنسان. فهو يُنتج مخرجات، ثم تحاول الأنظمة متعددة الطبقات رصد ما لا ينبغي أن يصل إلى الشاشة.

وصف خبراء خارجيون استشهدت بهم هيئة الإذاعة البريطانية (بي بي سي) سلامة الذكاء الاصطناعي بأنها صراع دائم بين مصممي النماذج ومخترقي الأنظمة . قد تساعد وسائل الحماية المحسّنة، لكن غالباً ما تظهر حلول بديلة جديدة.
ما الذي يجب أن يحدث بعد ذلك؟
تؤكد OpenAI أنها تستخدم طبقات حماية متعددة، تشمل أنظمة آلية ومراجعة بشرية، وأنها تواصل مراقبة أي ثغرات. ويكمن الضغط الآن في إثبات فعالية الإصلاحات بعد أن كشف الباحثون عن نقطة ضعف.
في الوقت الراهن، فإن الخلاصة العملية واضحة بما فيه الكفاية. أي أداة ذكاء اصطناعي لمعالجة الصور قادرة على إحداث ضرر واقعي تحتاج إلى فريق اختبار أحمر مستمر، ومعالجة أسرع للكشف عن الثغرات، وأدلة أوضح على أن الثغرات التي تم إصلاحها تبقى سليمة.