أستمع الى المقال

تتسابق شركات التكنولوجيا لتطوير خوارزميات ذكاء صنعي يمكنها إنتاج صور عالية الجودة من خلال النصوص، ويبدو أن هذه التقنية تتقدم بسرعة كبيرة لدرجة أن البعض قد بالغ في حماسه قليلاً وتوقع أن الرسامين البشريين والمصورين الفوتوغرافيين سيكونون عاطلين عن العمل قريبًا بسببها. لكن في الواقع، تعني القيود المفروضة على أنظمة الذكاء الصنعي هذه أنه من المحتمل أن يستغرق الأمر بعض الوقت قبل أن يتم استخدامها من قبل عامة الناس.

ما هي خوارزميات تحويل النص إلى صورة؟

تصور الآلة لشخصية “إكسڤار”

حققت مولّدات تحويل النص إلى صورة التي تستخدم الشبكات العصبية تقدمًا ملحوظًا في السنوات الأخيرة. وبلغت ذروة تطورها -حتى الآن- مع أحدث إصدار، من محرك “إماجن” (Imagen) من جوجل، الذي يأتي في أعقاب “دال-إي 2” (DALL-E 2)، الذي أعلنت عنه شركة OpenAI في أبريل/نيسان المنصرم.

يستخدم كلا النموذجين شبكة عصبية يتم تدريبها على عدد هائل من الأمثلة لتصنيف كيفية ارتباط الصور بأوصاف النصوص. وعند إعطائها وصفًا نصيًا جديدًا، تولّد الشبكة العصبية صورًا متعددة بشكلٍ متكرر، وتعدلها حتى تطابق النص إلى أقصى حد بناءً على ما تعلّمته.

وفي حين أن الصور التي قدمها مولّدي الصور لكلتا الشركتين مثيرة للإعجاب، تتمثل إحدى المشكلات في الحكم على إبداعات الذكاء الصنعي هذه في أن كلا الشركتين رفضت إصدار نسخ عامة من شأنها أن تسمح للباحثين والآخرين باختبارها بأنفسهم على نطاقٍ واسع. وجزءٌ من السبب في ذلك هو الخوف من إمكانية استخدام الذكاء الصنعي لإنشاء صور مضللة، أو ببساطة أنه يمكن أن يؤدي إلى نتائج ضارة.

إذ تعتمد النماذج على مجموعات بيانات مأخوذة من أجزاء كبيرة غير خاضعة للرقابة من الإنترنت، مثل قاعدة بيانات “LAION-400M”، والتي تقول جوجل إنها معروفة باحتوائها على “صور إباحية، وإهانات عنصرية، وصور نمطية اجتماعية ضارة”. ويقول الباحثون وراء “إماجن” إنهم لا يستطيعون نشره للجمهور لأنهم لا يستطيعون ضمان أنه لن يرث بعضًا من هذا المحتوى المثير للمشاكل.

على الجانب الآخر، تدّعي شركة OpenAI أنها تعمل على تحسين “نظام الأمان” في “DALL-E 2” من خلال “تحسين عوامل تصفية النص وضبط نظام الاكتشاف والاستجابة الآلي لانتهاكات سياسة المحتوى”. أما على الجانب الآخر، تسعى جوجل إلى مواجهة التحديات من خلال تطوير “مفردات للأضرار المحتملة”. ولم ترد أي من الشركتين على استفسارات إكسڤار قبل نشر هذا المقال.

مشاكل ناشئة لتكنولوجيا واعدة

تحتاج هذه النماذج إلى كميات هائلة من بيانات الصورة والتعليقات التوضيحية للصورة لتحويل النص إلى صورة. أي تتطلب صورًا مرفقة بتعليقات حتى يتمكن الذكاء الصنعي من معرفة كيفية معالجة طلبك. وتكمن المشكلة في أن كميات هائلة من بيانات الذكاء الصنعي الخاصة بتحويل النص إلى صورة تأتي من الويب.

وفي الواقع، فإن البحث على الويب عشوائيًا بعض الشيء؛ مما يعني أن النتائج لا تظهر دائمًا بالشكل الذي تريده. لذأ، قد تتعثر هذه النماذج ببعض أنواع المحتوى البغيض الذي يمكن العثور عليه عبر الإنترنت، وتتعلم منه، وتكرره.

يلخص باحثو جوجل هذه المشكلة في ورقة بحثية حديثة: “أدت حاجة نماذج تحويل النص إلى صورة الهائلة للبيانات إلى اعتماد الباحثين بشكلٍ كبير على مجموعة البيانات الكبيرة وغير المنقّحة المسحوبة من الويب. وكشفت عمليات تدقيق مجموعة البيانات هذه أنها تميل إلى عكس الصور النمطية الاجتماعية، ووجهات النظر القمعية أو المتطرفة لبعض فئات المجتمع.”

لذلك، هناك حاجة إلى عملية ترشيح أكثر إحكامًا لإزالة المحتوى المشكوك فيه، ومجموعات بيانات منظمة وشاملة بشكل أفضل.

على سبيل المثال، تقر جوجل “بوجود تحيز عام نحو إنتاج صور لأشخاص ذوي بشرة فاتحة وميل للصور التي تصور مهن مختلفة لتتماشى مع الصور النمطية للجنسين”. وبالتالي، غالبًا ما يكون الناتج عنصريًا أو متحيز جنسيًا أو سامًا بطريقةٍ ما.

إذ أدت الاستخدامات المبكرة لـ “Dall-E-2” إلى نتائج إشكالية. على سبيل المثال، في مقال نُشر على موقع “ذا ڤيرج” (The Verge)، لوحظ أنه إذا طلبت من “DALL-E” إنشاء صور لـ “مضيف طيران”، فإن جميع الأشخاص الظاهرين في الصور تقريبًا سيكونون من النساء. أما فيما لو سألته عن صور “رئيس تنفيذي” أو حتى “محام” سترى رجالًا بيض. وهذا يعود إلى نقص البيانات الكاملة. إنها ليست شاملة وتمثيلية، ونتيجةً لذلك يسود التحيز.

كل ذلك، ولم يتم التطرق إلى الاستخدامات المحتملة للذكاء الصنعي لتحويل النص إلى صورة. إذ يمكن بسهولة استخدام الصور لنشر أخبار مزيفة أو خدع أو مضايقات، على سبيل المثال لا الحصر.

لذا، وفي ظل وجود هذه المشكلات، يبدو من غير المرجح أن تصل هذه التقنية إلى إقصاء، أو منافسة، أو مزاحمة الفنانين من البشر كما يدّعي البعض. وإن تم التعامل مع هذه المشكلات مستقبلاً، يبقى الفنان البشري محافظًا على مكانته.

قد يهمّك أيضًا: أدوات التلخيص باستخدام الذكاء الصنعي: هل هي مساعدة حقًأ؟

الفنان لا يشعر بالقلق

في هذا الصدد، تحدث “إكسڤار” إلى الفنان السوري مجد كردية -الرجل الذي هوَ هوَ- لمناقشة الأمر من وجهة نظر الرسام، وكيف يمكن أن تكون هذه التقنيات في يومٍ من الأيام أدوات مساعدة للفنان بدلاً من مصادر تهديد.

وفي ظل تزايد الحديث عن مزاحمة هذه التقنيات للفنانين، يرى كردية أن الأمر أشبه ببزوغ عصر الكاميرا “عند ظهور الكاميرا لأول مرة، زادت الأقاويل عن انتهاء الفن بشكله حينها لكونها تنقل الواقع بدقةٍ أعلى وسرعةٍ أكبر، لكن ما حصل في الحقيقة أن الكاميرا أعطت الفن حرية الخروج من دائرة الواقع والانطلاق نحو مجالاتٍ أوسع ومدارس متنوعة.”

أما عن كيفية تسخير هذه التقنية من قبل الفنانين لتعزيز فنّهم، لا يستبعد الفنان ذلك، لكن الأمر، بحسب كردية، رهن التجارب، إذ أنه من غير الواضح حاليًا كيف يمكن أن يتم ذلك، لكنه يتوقع أن تصبح توجهًا سائدًا في وقتٍ من الأوقات، ومن ثم يحدث التوازن، حالها حال أي إضافة جديدة على الثقافة البشرية.

وبالنظر إلى أن هذه المحركات تعتمد على المعطيات المُدخلة، وأن الصورة الناتجة تتغير إذا أدخل مستخدمين مختلفين المعطيات ذاتها، يعتبر كردية أن الأعمال الناتجة لا يمكن اعتبارها من رسم المستخدم، فالآلة في هذه الحالة هي “الفنان”، والإنسان هو “الوحي” أو “مصدر الإلهام”، بحسب تعبيره.

كما شبه كردية الأمر بأن تطلب من رسّامَين مختلفين رسم بيت شعرٍ واحد، إذ أنه من المؤكد أنك ستحصل على لوحتين مختلفتين.

وعند سؤالنا عن ما لا تستطيع الآلة تقديمه في صورها مهما بلغت من تطور، أجاب كردية “حزن الفنان”. وأنه يمكن أن يتقارب الفن الآلي من البشري عند تطوير آلةٍ تشعر بالحزن.

هذه التقنيات وتطورها المتسارع سيلٌ لا أحد يستطيع رفضه او مجابهته، إما أن نرجع إلى العصر الحجري أو نتطور. وكما أثارت وسائل التواصل الاجتماعي استغرابنا في بداياتها، أصبحت غالبية المعارض اليوم افتراضية. فكلّ شيء غريب الآن هو أمرٌ اعتيادي بعد عشرة سنوات. ولا مانع بالطبع من تجربة هذه الأدوات والبحث عن طرقٍ لتسخيرها فنيًا، فلا يوجد فنانٌ عاقلٌ يضع قيودًا على الفكر.

الفنان مجد كردية – الرجل الذي هوَ هوَ
هل أعجبك المحتوى وتريد المزيد منه يصل إلى صندوق بريدك الإلكتروني بشكلٍ دوري؟
انضم إلى قائمة من يقدّرون محتوى إكسڤار واشترك بنشرتنا البريدية.