كيف تفوقت الآلة على البشر في التمييز بين الأخبار العربية الحقيقية والساخرة

كيف تفوقت الآلة على البشر في التمييز بين الأخبار العربية الحقيقية والساخرة
أستمع الى المقال

في سبتمبر/أيلول 2015  قصفت مروحيات أباتشي تابعة للجيش المصري قافلةً من السياح المكسيكيين في شبه جزيرة سيناء، مما أسفر عن مقتل 12 سائحًا عن طريق الخطأ بسبب اعتبارها أهدافًا إرهابية من قبل الرادارات وأجهزة الرصد. بعد أيام، أعلن اثنان من مذيعي البرامج الحوارية المصرية الشهيرة أن الرئيس المكسيكي صرح بأنه يتفهم تمامًا نية السلطات المصرية وراء مقتل السياح المكسيكيين، حيث إن مصر لها الحق في الدفاع عن أرضها ضد التهديدات الإرهابية المحتملة. وانتشر بعدها وسم “#Thankyou_Henrico_Iglassios” على تويتر من قبل حسابات تويتر الموالية للحكومة المصرية في محاولة لإظهار الامتنان للرئيس المكسيكي لتفهمه

لكن سُرعان ما تم اكتشاف أن الرئيس المكسيكي لم يكن اسمه “هينريكو إغلاسيوس” (كما في الوسم الذي انتشر) وأن هذا البيان لم يصدر أبدًا من قبل أي من السلطات المكسيكية التي كانت في الواقع غاضبة للغاية من الحادث. إذ أن مصدر كل هذه الضجة كان مقالاً نُشر على موقع إخباري على الإنترنت اسمه “الأهرام المكسيكية” (توقف منذ 6 سنوات)، وهو موقع إخباري ساخر ينشر كان ينشر تعليقاته على الأحداث الجارية بأسلوبٍ يقلد بدقة أسلوب ومحتوى وكالات الأنباء الحكومية المصرية.

الحادثة المصرية-المكسيكية ليست الأولى في مصر أو في أجزاء أخرى من العالم العربي. فهناك حوادثٌ مماثلة تم فيها نشر أخبار ساخرة عن طريق الخطأ من قبل المسؤولين أو الإعلاميين أو مستخدمي وسائل التواصل الاجتماعي لأنهم إما لم يستطيعوا تمييز الإيماءة الساخرة أو أنهم لم يتحققوا من مصادر الأخبار التي قرأوها على الإنترنت. مثالٌ آخر على ذلك عندما نشر موقع “الحدود”، الموقع الساخر العربي الأكثر شهرةً وانتشارًا، خبرًا عن اعتقال بابا نويل ومصادرة جميع هداياه، لتسارع الوسائل الإعلامية الأخرى وتعيد نشر الخبر دون التحقق منه كما فعل موقع “إرم نيوز” الإماراتي الذي نشر الخبر على موقعه، وصحيفة الوطن الأردنية التي نشرت الخبر في نسختها المطبوعة. الأمر الذي دفع الأمن الأردني إلى إصدار بيانٍ ينفي فيه اعتقاله بابا نويل في أي مكانٍ في الأردن.

ولادة حاجة

انخفضت وتيرة تكرار مثل هذه الحوادث بين المنصات الإعلامية في الفترة الأخيرة بسبب الحذر المتزايد في نقل الأخبار. لكن، وبجولةٍ على صفحات التواصل الاجتماعي الخاصة بـ “شبكة الحدود“، نرى عشرات التعليقات، ومئات في بعض الحالات، التي تتّهم الشبكة بنشر أخبارٍ كاذبة، رغم أن الموقع يصرّح أنه ساخرًا في كل زاويةٍ فيه. 

وهذا يكشف عن مشكلةٍ -أو عجز- في تمييز القراء العرب حتى يومنا هذا بين الأخبار الساخرة والأخبار الحقيقية، ويرجع ذلك إلى عاملين رئيسيين: محاكاة الأسلوب الصحفي الجاد في كتابة الأخبار الساخرة الذي يجعل من الصعب على الكثير من القراء تمييزه، وتواجد تلك الأخبار والأخبار الجادة في وسطٍ واحد على وسائل التواصل الاجتماعي. 

وعليه، قررت الباحثة هديل سعداني من جامعة “سَرري” (Surrey) البريطانية اللجوء إلى الذكاء الصنعي لمساعدة البشر في كشف هذه الأخبار من خلال بحثها بعنوان “زائف أم حقيقي؟ دراسة للأخبار الساخرة العربية” الذي قدمته وفريقها في مؤتمر “كولينج 2020” (Coling2020)، الذي يعد واحدًا من أشهر مؤتمرات معالجة اللغات الطبيعية والتعلم الآلي. وفيه، قدّم الفريق نموذجًا آليًا يستطيع التمييز بين الأخبار الحقيقية والساخرة بدقةٍ تصل إلى 98.6% حتى لو لم تتم الإشارة إلى المصدر.

تدريب النماذج

توضح الباحثة سعداني في حديثٍ خاص لـ “إكسڤار” أن البحث كان جزءاً من الدراسات العليا التي كانت تجريها في جامعة ولفرهامبتون البريطانية، قبل الانضمام إلى جامعة سَرري “إن التمييز الأوتوماتيكي للأخبار على وسائل التواصل الاجتماعي بين حقيقيةٍ وزائفة منتشرٌ وبكثرة في اللغة الإنجليزية. ويوجد الكثير من الأبحاث التي تدرس ذلك، يقابلها بعض الأبحاث الناشئة باللغة العربية”. وبيّنت أن الحاجة لمثل هذه الأبحاث ازدادت مؤخرًا مع انتشار الأخبار الكاذبة عبر الإنترنت.

لكنها أوضحت في حديثها أن إحدى المشاكل أمام انتشار هذا النوع من الأبحاث باللغة العربية هو وجود قواعد بياناتٍ -اللازمة لتدريب نماذج الذكاء الصنعي- تعلم أنها زائفة بشكلٍ قاطع. فمن أجل تدريب الخوارزمية على التمييز بين نوعي الأخبار، يجب أن تكون هناك مجموعتين من الأخبار المُدخلة، أولاهما حقيقية (بلغ عددها 3710 خبرًا)، والثانية زائفة -ساخرة- (بلغ عددها 3185 خبرًا). وهنا ساعدت المواقع الإخبارية الساخرة، مثل “شبكة الحدود” على توفير المجموعة الثانية، بحسب سعداني.

تشير سعداني إلى أن الهدف كذلك لم يكن وسم الأخبار الساخرة على أنها “كاذبة”، فالكاتب الساخر، بحسب وصفها، يصرح علانيةً أنه يسخر، فهو لا يحاول خداع القارئ. لذا، كان الهدف هو تمييز الخبر الساخر عندما يتم نقله عن مصدر الأساسي دون تبيان حقيقة أنه ساخر “هنا تحدث مشاكل، وكان يجب علينا التمييز من خلال أسلوب الكتابة بين نوعي الأخبار”.

تقول سعداني إنها وفريقها حاولت أن تتفادى الأخبار (الحقيقية) التي قد يشوبها شيءٌ من الزيف، مثل التقارير والمقالات الافتتاحية ومقالات الرأي، ولجأوا إلى الأخبار الموضوعية فقط التي تغطي الأحداث والتصريحات فقط ولا تتضمن آراء أو إضافات شخصية من قبل كتّابها، والتي من المفترض أنها صادقة على اعتبار أنها جُمعت من أعلى المنصات الإعلامية سمعةً مثل “بي بي سي عربي” و”سي إن إن العربية”.

قد يهمّك: الشركات في المنطقة العربية تتبنى العمل عن بعد.. لكن على حساب موظفيها

آلية الاختبار

تقول سعداني في حديثها لـ “إكسڤار” إنها اتبعت نهج “التحليل القائم على القاعدة” (Rule-Based Analysis Approach)، وهو نظام يطبق قواعد وضعها صاحب التجربة لتخزين البيانات وفرزها ومعالجتها بما يحاكي الذكاء البشري. وتتطلب الأنظمة المستندة إلى القواعد مجموعة من الحقائق أو مصدرًا للبيانات، ومجموعة من القواعد لمعالجة تلك البيانات. يشار إلى هذه القواعد أحيانًا باسم “عبارات If”، وفي هذه الحالة، كانت القاعدة هي إحدى أشهر قواعد الكتابة الساخرة، وهي أنها تحتوي بكثرة على المبالغات العاطفية، على عكس الأخبار.

لكن تشير سعداني إلى ما يثير اهتمامها هو ليس الاختلافات، بل نقاط التشابه. بمعنى أن النموذج وجد تشابهًا كبيرًا بين كلا النوعين من الأخبار في أسلوب الكتابة الصحفية، أو ما يسمى في الأوسط الأكاديمية بـ “The Journalistic Register”، الأمر الذي يدعم رسالة الكاتب الساخر في سخريته من نفاق السلطة أو الجهات الإعلامية التي يحاكيها.

أما القاعدة الثانية، فكانت تكرار ضمائر الجمع المتكلم مثل “نحن” أو “ـنا” الدالة على الفاعلين في الأخبار الساخرة، على عكس الأخبار الحقيقية التي يندر فيها ورودها في سبيل المحافظة على الحياد. وتُرجع سعداني ذلك إلى محاولات الكاتب الساخر في خلق رابطةٍ بينه وبين القارئ.

طرق مختلفة لوجهة واحدة

استخدمت الباحثة وفريقها نوعين من الخوارزميات  للتمييز بين نوعي الأخبار، الأولى هي “الخوارزميات الإحصائية”، والثانية تعتمد على التعلم العميق لا على قواعد مسبقة وهي خوارزمية “Naive Bayes Multinomial NB classifier” التي تحول الكلمات إلى أرقام، حيث تحوّل المقال كاملاً إلى عدد من الأرقام يدعى “فيكتور” (Vector)، وكل كلمة تأخذ مؤشرًا خاصًا بها، ومن ثم يتم حساب كل كلمة كم مرة وردت في كل مقال من خلال مقارنة تلك المؤشرات.

كما تم اعتماد المفهومُ الرّياضيّ لقياس تردّد الكلمة-تردّد المستند العكسيّ ويرمز له بـ “TF-IDF”، وفيه يتم احتساب كم مرة وردت كل كلمة ليس في المقال وحده، بل في مجموعة البيانات كاملةً. فكلما تواتر ذكر كلمة في مجموعة بيانات، كلما قلّت دلالتها. مثالٌ على ذلك تركيب “المتحدث باسم”، الذي ورد كثيرًا في مجموعة المقالات الحقيقية، فتكرار التركيب في هذه الحالة لم يكن يدلّ على “حقيقة” تلك الأخبار.

أما في نموذج التعلم العميق، فتمّ تمّ تحويل الكلمات داخل فضاء شعاعي متعدد الأبعاد (Multi-Dimensional Vector Space)؛ وهو مجموعة يمكن إضافة عناصرها، والتي غالبًا ما تسمى المتجهات، ومضاعفتها بأرقام تسمى “الحجميات”، وفيه تم تحديد كل كلمة حسب موقعها داخل الفضاء نفسه.

قد يهمّك: حوار حصري لـ”إكسڤار” مع صاحب أشهر صورة مولّدة بالذكاء الصنعي في العالم

الغرض من البحث

تقول سعداني إن الهدف الأساسي من بحثهم ليس الإضرار بتلك المؤسسات أو برسالتها الناقدة للواقع السياسي أو الاجتماعي، أو وسم أخبارها على أنها “زائفة”، فهي “لا تحاول خداع القارئ ولا تدّعي أنها تقدم أخبارًا حقيقية في المقام الأول”، بحسب تعبيرها.

لكن الهدف هو تمييز هذا الخبر الساخر إذا تم اجتزاؤه في تغريدة محدودة الكلمات على سبيل المثال، أو نقله كما هو دون الإشارة إلى مصدره (الساخر)، كما حدث مع مقال اعتقال بابا نويل أو الرئيس المكسيكي، الأمر الذي يجعل القارئ غير المطّلع عرضةً لتصديقه، كما يتعارض مع رسالة الكاتب الساخر نفسه الذي لا يحبذ نشر الشائعات بهدف التضليل.

وتتشارك سعداني تخوّف “إكسڤار” الجزئي من إضرار نموذجها بوصول تلك المنصات الإعلامية الساخرة إلى جمهورها إذا ما تمّ تبنّيه من قبل إدارات وسائل التواصل الاجتماعي للحدّ من انتشار الأخبار “الزائفة” (الساخرة ضمنها)، لكنها تشدد على فكرة أن انتشار شائعة مصدرها “شبكة الحدود” على سبيل المثال، سيقلل من شأنها أمام القارئ.

وتشير الباحثة إلى أنه، وبحسب “جوجل سكولار” (Google Scholar)، تم الاستشهاد ببحثها والاستعانة بنتائجه في تسعة أبحاث أخرى تعنى بمعالجة اللغات الطبيعية بالعربية، وتحديدًا للتفريق بين الأخبار الحقيقية والأخبار المضللة كالمعلومات التي انتشرت أيام الجائحة حول انتقال المرض عبر موجات شبكات الجيل الخامس وغيرها. وتقول إن تمييز هذا النوع من الأخبار أصعب من تمييز الأخبار الساخرة لعدم وجود مميزات وخصائص لغوية خاصة بها.

هل أعجبك المحتوى وتريد المزيد منه يصل إلى صندوق بريدك الإلكتروني بشكلٍ دوري؟
انضم إلى قائمة من يقدّرون محتوى إكسڤار واشترك بنشرتنا البريدية.