استمع إلى المقال

في هذه اللحظة، هناك العديد من العناكب الرقمية تتسلل عبر هذه الكلمات التي كتبتها هنا، وهذا أمر مخيف إلى حد ما.

غالبا ما يجهل معظم الناس، أن هناك عناكب رقمية تتسلل عبر جميع المواقع التي تقرأها وتنشئها، وأحد أكثر هذه العناكب نشاطا هو “جوجل بوت”، الذي يقوم تلقائيا بجمع معلومات الويب لكي يتمكن “جوجل” لاحقا من تصنيفها وتقديمها في نتائج البحث.

العناكب الرقمية هي برامج تستخدم خوارزميات معقدة لزيارة المواقع الإلكترونية وتحميل صفحاتها وروابطها وصورها وغيرها من المحتوى، ثم تقوم بتخزين هذه المعلومات في قواعد بيانات ضخمة، أو تقوم بتحليلها وإجراء عمليات مثل التصنيف أو التصفية أو التجزئة.

هذه العناكب تستخدم طرقا مختلفة لإيجاد المواقع الإلكترونية التي تزورها، بعضها تستخدم قائمة مسبقة من الروابط المهمة، أو تستخدم خدمات لإيجاد الموارد ذات الصلة، وبعضها تستخدم طريقة التجول العشوائي، حيث تزور رابطا عشوائيا من صفحة إلى أخرى دون خطة محددة، فيما تستخدم بعضها طريقة التجول المستهدف، حيث تزور رابطا محددا بناء على معطيات مثل الكلمات المفتاحية أو نسبة التشابه أو درجة الأهمية.

الذكاء الاصطناعي يهدد صفقة الويب

في الماضي، كان هناك نوع من الصفقات غير الرسمية بين مستخدمي الويب ومنتجي المحتوى، يمكن للمستخدمين الحصول على معلومات مجانية ومفيدة من مواقع مختلفة، مقابل السماح لهذه المواقع بجمع بعض البيانات عنهم وإظهار بعض الإعلانات لهم. كانت هذه الصفقات تعزز من تنوع وجودة المحتوى على الويب، وتشجع على التعلم والابتكار.

لكن الآن، أصبح انتشار الذكاء الاصطناعي التوليدي والنماذج اللغوية الكبيرة يهدد هذه الصفقة، اعترفت شركة “OpenAI” مؤخرا بأن لديها إحدى هذه العناكب التي تزحف في الويب، يسمى “GPTbot” ويستخدم لجرف وجمع المحتوى عبر الإنترنت لتدريب نماذج الذكاء الاصطناعي، من المحتمل أن يتم تدريب النموذج المرتقب التالي، “GPT-5″، على البيانات التي جمعها هذا الروبوت.

GPT-4″، “ChatGPT”، وغيرها من النماذج القوية تجيب عن الأسئلة بذكاء وسرعة، لذلك أصبح هناك حاجة أقل لإرسال المستخدمين إلى مصادر المعلومات الأصلية، وقد تكون هذه تجربة مستخدم رائعة، لكن حوافز مشاركة المعلومات المجانية ذات الجودة العالية عبر الإنترنت تبدأ في التفكك بسرعة.

لماذا سيسمح أي منتج للمحتوى المجاني على الإنترنت لـ “OpenAI” بجرف وجمع مادته عندما سيتم استخدام تلك البيانات لتدريب نماذج “LLM” المستقبلية التي ستتنافس مع ذلك المنشئ لاحقا بسحب المستخدمين بعيدا عن موقعه، يمكنك أن ترى هذا في العمل بالفعل حيث يقل عدد الأشخاص الذين يزورون مواقع البحث التقليدية للحصول على مساعدة في البحث عن موضوع ما.

التخريب الذاتي

السماح لروبوت “GPTbot” التابع لشركة “OpenAI” بجمع بيانات موقعك الإلكتروني هو نوع من التخريب والتدمير الذاتي. هذا الإدراك ينتشر بسرعة كبيرة بين المجتمعات الإلكترونية، لذا يبدو أن “The Verge”، وهي مؤسسة إعلامية رقمية، اتخذت خطوات لحجب “GPTbot” بالفعل.

غير واضح منذ متى كان روبوت “OpenAI” يتجول في الإنترنت، حيث أعلنت الشركة مؤخرا عن طريقة لحجب “GPTbot”، باستخدام بروتوكول شائع يسمى (robots.txt)، قام بعض المبدعين بتطبيق هذه الطريقة، على الرغم من أن بعضهم يتساءل عما إذا كان لدى “OpenAI” روبوت سري أخرى يجمع بيانات الجميع عبر الإنترنت لأشهر أو سنوات.

قد تكون هذه الخطوة من قبل شركة “OpenAI”، غير مجدية، فبعد أن جمعوا جميع محتوياتك المحفوظة حقوق الطبع والنشر لبناء منتجهم الحصري، أخيرا، قدمت لك الشركة طريقة لمنع استخدام محتواك لتحسين منتجهم بشكل أفضل.

الثقة تتلاشى

ما مدى سرعة تلاشي الثقة بين مبدعي المحتوى على الإنترنت وشركات الذكاء الاصطناعي. شركة “OpenAI” وغيرها من شركات الذكاء الاصطناعي، أظهرت مرارا وتكرارا أنهم لا يحترمون حقوق المؤلفين والفنانين وغيرهم من المحترفين الإبداعيين، منتجاتهم تعتمد إلى حد كبير على الأعمال المحمية بحقوق المؤلف للآخرين، التي تم أخذها دون إذن أو تعويض، وهم يدافعون باستمرار عن استخدام هذه الممارسات كما ذكرنا في الفقرة السابقة، ولم يتم ذكر روبوت “GPTbot” إلا مؤخرا، كما أنه ليس من الواضح تماما أنه بعد توضيح الشركة لطريقة حظر هذه الروبوتات، هل سيكون الأمر كافيا لتجنب استخلاص المحتوى من قبل “OpenAI”.

روبوت “CCBot” هو روبوت آخر رقمي يزحف على شبكة الإنترنت ويجمع المحتوى كله. تديره مؤسسة تسمى “Common Crawl” غير الربحية، وهي أحد الموردين الرئيسيين لبيانات التدريب لنماذج الذكاء الاصطناعي، المؤسسة تخزن كل هذه المعلومات بانتظام، لذلك حتى لو حظرت روبوتها الآن، فقد تم أخذ بياناتك بالفعل على الأرجح.

الموافقة المسبقة

العديد من الشخصيات حول العالم يطالبون الآن بأن تكون هذه العناكب الذكية حاصلة على موافقة مسبقة، وهذا الخيار هو أفضل من الانسحاب بالنسبة لشركات الذكاء الاصطناعي، فشركة مثل “OpenAI” تقوم بجمع بيانات على نحو افتراضي، ويجب على المبدعين اتخاذ خطوات للانسحاب وحجبها في حال عدم الرغبة بمشاركة البيانات، فيما لو تم تطبيق نهج “الموافقة المسبقة”، فهذا يفرض على شركة “OpenAI” وزملائها طلب الإذن أولا.

يجب أن تصبح طرق جمع البيانات لهذه النماذج موافقة مسبقة على نحو صارم، لذلك لن يكتشف الكثير من الناس كيفية حماية عملهم وإبداعاتهم، حتى يتم أخذه بالفعل، ومجددا

للأسف، الكل غير قادر حاليا على إزالة محتواه من النماذج ومجموعات البيانات التي تم جمعها، فعملية الانسحاب لا تكفي.

العناكب الرقمية

ما هي البيانات التدريبية للذكاء الاصطناعي؟

البيانات التدريبية للذكاء الاصطناعي هي المعلومات التي تستخدمها البرامج والنماذج الذكية لتعلم وتحسين قدراتها؛ على سبيل المثال، إذا كنت تريد تطوير برنامج يمكنه التعرف على الوجوه، فستحتاج إلى تزويده بالعديد من الصور التي تحتوي على وجوه مختلفة ومسماة بأسمائها، كلما زادت كمية ونوعية البيانات التدريبية، كلما زادت دقة وفعالية البرنامج.

ما مشكلة دفع ثمن البيانات التدريبية؟

البيانات التدريبية للذكاء الاصطناعي، غالبا ما تأتي من مصادر عامة مثل الإنترنت أو المواقع الإخبارية أو وسائل التواصل الاجتماعي. هذه المصادر تحتوي على محتوى متنوع وغني يمكن استخدامه لأغراض تعليمية وبحثية؛ ولكن، هذه المصادر قد تكون محمية بحقوق النشر أو قوانين الخصوصية أو شروط الاستخدام.

إذا أرادت شركة مثل “OpenAI” استخدام هذه المصادر كبيانات تدريبية، فقد تحتاج إلى دفع رسوم أو الحصول على إذن من أصحاب المحتوى، هذه المشكلة قد تزيد من تكاليف وصعوبات تطوير الذكاء الاصطناعي.

حل “OpenAI” للمشكلة؟

دعونا لا ننسى أن “OpenAI” هي شركة غير ربحية تهدف إلى خلق ونشر الذكاء الاصطناعي المفتوح والآمن للجميع؛ ولتحقيق هذه الغاية، تحتاج الشركة إلى بيانات تدريبية كثيرة ومتنوعة؛ لذلك، قامت “OpenAI” باتخاذ بعض الإجراءات لاحترام بعض البيانات عبر الإنترنت، فقد صممت “GPTbot”، وهو برنامج يستخدم نموذج الذكاء الاصطناعي GPT-3، لتصفية المصادر التي تتطلب الوصول إلى الدفع أو تجمع معلومات شخصية.

كما أعلنت الشركة مؤخرا، عن صفقة مع وكالة “أسوشيتد برس” (AP)، حيث ستدفع “OpenAI” للحصول على ترخيص لاستخدام محتوى الوكالة كبيانات تدريبية. هذه الخطوات تظهر بعض الالتزام من قبل “OpenAI” بالأخلاق والشفافية في استخدام البيانات التدريبية للذكاء الاصطناعي.

نصيحة كلارك

في ظل تطور التقنيات الذكية والاصطناعية، يواجه العديد من صناع المحتوى على الإنترنت تحديات جديدة في حماية حقوقهم الفكرية والمادية. واحدة من هذه التحديات هي استخدام برامج “ChatGPT” بالاعتماد على روبوتات مثل “GPTbot”، وهذه البرامج تستطيع إنشاء نصوص جديدة بالاعتماد على نصوص موجودة على الشبكة، وقد أثار هذا الأمر قلق بعض المؤلفين والناشرين الذين يرون أن هذه البرامج تنتهك حقوقهم، وتضر بجودة المحتوى.

أحد هؤلاء المؤلفين هو نيل كلارك، مؤسس ورئيس تحرير مجلة “Clarkes world” الأميركية، وهي مجلة إلكترونية متخصصة في أدب الخيال العلمي، قال كلارك في تصريح له إن شركة “OpenAI”، التي تقف وراء تطوير “GPTbot”، لم تتواصل معه لطلب ترخيص لاستخدام أعماله التي نشرها على موقعه، وأضاف أنه لا يوافق على ذلك أصلا، وأنه لا يستطيع تخيل أي شيء يمكن أن تقوله أو تفعله الشركة لإقناعه بخلاف ذلك.

بالتالي، فإن نصيحة كلارك لغيره من صناع المحتوى على الإنترنت هي أن يحجبوا “GPTbot” عن مواقعهم، وأن يتواصلوا مع صانعي القوانين للتعبير عن قلقهم بشأن طرق جمع البيانات الماضية والحالية والمستقبلية، ويرى كلارك أن هذه البرامج تشكل خطرا على التنوع والإبداع في المجال الأدبي، وأنها تخلق نسخا سطحية وغير أصيلة من الأعمال الأصلية.

هل أعجبك المحتوى وتريد المزيد منه يصل إلى صندوق بريدك الإلكتروني بشكلٍ دوري؟
انضم إلى قائمة من يقدّرون محتوى إكسڤار واشترك بنشرتنا البريدية.
0 0 أصوات
قيم المقال
Subscribe
نبّهني عن
0 تعليقات
Inline Feedbacks
مشاهدة كل التعليقات