المال مقابل بيانات الذكاء الاصطناعي.. معادلة لضمان تطور التقنية؟


|
استمع إلى المقال
|
لا شك في أن القصص الإخبارية الرقمية تمثل مورد حيوي هام في عصر الذكاء الاصطناعي التوليدي، لكن هل تمثل الصفقات الحاصلة بين الصحف الكبرى وشركات التكنولوجيا ضمانا لتطور التقنية الناشئة.
في الوقت الحالي، تمثل القصص الإخبارية الرقمية موردا حيويا في عصر الذكاء الاصطناعي التوليدي، لذا، تجري مجموعة من الصحف الكبرى محادثات مع شركات التكنولوجيا لضمان وصولها إلى ذلك المورد الحيوي.
لسنوات، استخدمت شركات التكنولوجيا القصص الإخبارية بحرية لبناء مجموعات البيانات التي تعلم أجهزتها كيفية التعرف على الاستفسارات البشرية حول العالم والرد عليها بطلاقة.
مع تزايد السعي إلى تطوير نماذج متطورة للذكاء الاصطناعي، يطالب ناشرو الصحف بحصة من السوق الضخمة المحتملة للذكاء الاصطناعي التوليدي، التي من المتوقع أن تصل إلى 1.3 تريليون دولار بحلول عام 2032.
منذ شهر آب/أغسطس، قامت ما لا يقل عن 535 مؤسسة إخبارية بتثبيت أداة حجب تمنع جمع المحتوى الخاص بها واستخدامه لتدريب “ChatGPT”.
الآن، تركز المناقشات على الدفع للناشرين حتى يتمكن روبوت الدردشة بالذكاء الاصطناعي من عرض روابط لقصص إخبارية فردية في ردوده، وهو تطور من شأنه أن يفيد الصحف من خلال توفير الدفع المباشر واحتمال زيادة حركة المرور إلى مواقعها عبر الويب.
في شهر تموز/يوليو، أبرمت “Open AI” صفقة لترخيص محتوى من وكالة “أسوشيتد برس” كبيانات تدريب لنماذج الذكاء الاصطناعي الخاصة بها.
المحادثات الحالية تناولت هذه الفكرة أيضا، لكنها ركزت أكثر على عرض القصص في ردود “ChatGPT”. في حين تبحث المصادر الأخرى للبيانات المفيدة عن تعزيز شروطها، حيث اجتمع موقع “ريديت”، وهو موقع رسائل اجتماعية شهير، مع كبرى شركات الذكاء الاصطناعي المنتجة حول الحصول على أموال مقابل بياناته.
إذا لم يكن من الممكن التوصل إلى اتفاق، فإن “ريديت” يفكر في منع زواحف البحث من “جوجل” و”مايكروسوفت”، مما يمنع من اكتشافه عبر عمليات البحث ويقلل عدد زواره. لكن الموقع يعتقد أن المفاضلة تستحق هذا العناء، حيث يمكنه الاستمرار بالعمل دون بحث.
في شهر نيسان/أبريل ، بدأ إيلون ماسك بفرض رسوم تصل إلى 42 ألف دولار مقابل الوصول الواسع إلى منشورات منصة “تويتر” التي كانت مجانية في السابق للباحثين، وجاء ذلك بعد أن ادعى أن شركات الذكاء الاصطناعي قد استخدمت البيانات بشكل غير قانوني لتدريب نماذجها.
هذه التحركات توضح إحساسا متزايدا بالإلحاح وعدم اليقين بشأن من يستفيد من المعلومات عبر الإنترنت.
مع استعداد الذكاء الاصطناعي التوليدي لتغيير كيفية تفاعل المستخدمين مع الإنترنت، يرى العديد من الناشرين والشركات الأخرى الدفع العادل لبياناتهم كمسألة وجودية.
على سبيل المثال ، بعد شهر من إطلاق شركة “OpenAI” لنموذج “GPT-4” في شهر آذار/مارس، انخفضت حركة المرور إلى مجتمع البرمجة “Stack Overflow” بنسبة 15 بالمئة، حيث تحول المبرمجون إلى الذكاء الاصطناعي للحصول على إجابات على أسئلة البرمجة.
مجتمع البرمجة يعتقد أن الشركات التقنية قد دربت الذكاء الاصطناعي على بيانات “Stack Overflow”، ونتيجة لذلك الانخفاض، اضطر مجتمع البرمجة هذا الشهر إلى تسريح 28 بالمئة من موظفيه.
بالإضافة إلى مطالب الدفع، تواجه شركات الذكاء الاصطناعي الرائدة عدد كبير من دعاوى حقوق التأليف من مؤلفي الكتب الفردية والفنانين ومبرمجي البرامج الذين يبحثون عن أضرار الانتهاك، بالإضافة إلى حصة من الأرباح.
في وقت سابق من هذا الشهر، انضم حاكم ولاية أركنساس السابق، مايك هاكابي، إلى المعركة كمدعي في دعوى جماعية ضد “ميتا” و”مايكروسوفت” و”بلومبرغ” لاستخدام أدوات الذكاء الاصطناعي مع كتب مقرصنة لتدريب أنظمة الذكاء الاصطناعي.
في هذه الأثناء، تدفع المجموعات التجارية المشرعين من أجل الحق في المساومة بشكل جماعي مع شركات التكنولوجيا.
قرار “OpenAI” بالتفاوض قد يعكس رغبتها في إبرام الصفقات قبل أن تتاح للمحاكم فرصة التحقيق فيما إذا كانت شركات التكنولوجيا لديها التزام قانوني واضح بترخيص المحتوى ودفع تكاليفه.
بدورها، أكدت “OpenAI” أنها تجري محادثات مع الصحف وأن المناقشات لم تركز على بيانات التدريب السابقة ، التي حصلت عليها قانونا دون أن تتسبب ممارساتها بحدوث أي انتهاك لقانون حقوق التأليف، بحيث أن الصفقات الحالية تضمن الوصول المستقبلي إلى المحتوى الذي يتعذر الوصول إليه أو الاستخدامات التي تتجاوز الاستخدام العادل.
في الأرباع الثلاثة الأولى من عام 2023، حصلت شركات الذكاء الاصطناعي على نحو 16 مليار دولار من رأس المال الاستثماري، مما يمثل طوفانا من النقد يعكس جزئيا مدى تكلفة التكنولوجيا، حيث أن كل مكون هو باهظ الثمن أو يصعب الحصول عليه، من الأجهزة إلى طاقة الحوسبة.
حتى الآن، كان الجزء الوحيد المجاني والسهل هو البيانات، حيث أن الخدمات المستخدمة على نطاق واسع مثل “Common Crawl” تطالب “جوجل” و”ميتا” و”OpenAI” بالدفع مقابل استخدام خدمتها، التي تزحف عبر الإنترنت بحثا عن نصوص الآخرين ومعلوماتهم وبياناتهم التي تجمعها.
لتجميع الكميات الهائلة من اللغة الطبيعية والمعلومات المتخصصة اللازمة لتدريب أنظمة الذكاء الاصطناعي الكبيرة، دمجت شركات التكنولوجيا هذه المعلومات مع مجموعاتها من البيانات، والمعلومات المتاحة لأغراض البحث، وكل ما هو متاح بوضوح في المواقع العامة.
حتى وقت قريب، كانت شركات التكنولوجيا تكره دفع ثمن هذه البيانات. في جلسة الاستماع حول الذكاء الاصطناعي المستضافة في شهر نيسان/أبريل من قبل مكتب حقوق التأليف في الولايات المتحدة، أقر محامي شركة رأس المال الاستثماري في وادي السيليكون “أندريسن هورويتز” أن الطريقة العملية الوحيدة لوجود هذه الأدوات هي إذا كان يمكن تدريبها على كميات هائلة من البيانات دون الحاجة إلى ترخيص تلك البيانات.
حتى قبل أن تصدر “جوجل” و”OpenAI” أدوات لحظر زواحف بيانات الذكاء الاصطناعي في شهري آب/أغسطس وأيلول/سبتمبر، بدأت المواقع الكبرى عبر الإنترنت، مثل “ريديت” و”ويكيبيديا” و”Stack Overflow”، باتخاذ تدابير دفاعية.
هذه المواقع قدمت منذ فترة طويلة كميات كبيرة من البيانات بشكل منتظم، مما جعل المحتوى متاحا بسهولة لتدريب الذكاء الاصطناعي. لكنها تتطور الآن وتطلق بوابات مدفوعة لشركات الذكاء الاصطناعي الباحثة عن بيانات تدريب، وتراقب عن كثب على عدد المرات التي يمكن فيها استخراج البيانات من موقعها.
بالرغم من أن “ريديت” و”Stack Overflow” والمنظمات الإخبارية تدخل ما يسمى بالحقبة الجديدة من إضراب البيانات، لكن يجب على الناشرين عدم السماح لشركات الذكاء الاصطناعي بالاستفراد بهم والاستقواء ببعضهم البعض.
في شهر أيار/مايو، ردد روبرت طومسون، الرئيس التنفيذي لشركة “NewsCorp”، هذا الطرح في مؤتمر وسائل الإعلام الإخبارية عندما سئل عما إذا كان يرغب في الإعلان عن صفقة مع اللاعبين الرقميين الكبار، حيث قال، “أتمنى ذلك، لكن لا يمكن أن نكون فقط نحن”.
منذ ذلك الحين، حاولت مجموعة وسائل الإعلام “IAC” بناء تحالف من الناشرين الذين يهدفون إلى كسب مليارات الدولارات من شركات الذكاء الاصطناعي من خلال دعوى قضائية أو إجراء تشريعي، وفقا لتقرير صدر في شهر تموز/يوليو.
هذا التحالف يضم بشكل حاسم ركائز الصناعة، “نيويورك تايمز” و”نيوز كورب”، بالإضافة إلى “أكسل سبرينغر”، حيث أن الناشرون مصممون على عدم تكرار ما يعتبره الكثيرون أخطاء عصر وسائل التواصل الاجتماعي، حيث تنازلوا عن محتواهم مجانا.
في شهر آب/أغسطس، ذكرت التقارير أن صحيفة “نيويورك تايمز” تدرس أيضا رفع دعوى قضائية ضد “OpenAI”. في المناخ الحالي، فإن أصحاب البيانات الذين هم في وضع أفضل لعقد صفقة لا يزالون شركات معتادة على التأكيد على حقوق الملكية الفكرية، وليس الفنانين والمؤلفين والمبرمجين الأفراد.
على سبيل المثال، لدى موقع الصور الفوتوغرافية “Shutterstock” شراكة لتوفير بيانات التدريب لشركة “OpenAI”.
في أواخر العام الماضي، أطلقت الشركة أيضًا صندوقا مساهما لتعويض الفنانين الذين تم استخدام أعمالهم لتدريب نماذج الذكاء الاصطناعي.
التحليل الذي أجراه المصور روبرت كنيشكي قدر أن الصندوق دفع أكثر من 4 ملايين دولار في شهر أيار/مايو، لكن متوسط الدفع كان 0.0069 دولارا فقط لكل صورة.
ختاما، أصبحت الخطوط العريضة للصفقات التي تدفع فيها شركات الذكاء الاصطناعي مقابل بيانات التدريب واضحة، مع وجود خلل كبير واحد، إذ تأمل شركات التكنولوجيا في أن تتمكن من استرضاء الناشرين بمدفوعات من ملايين الدولارات، لكن الناشرين يعتقدون أن الأرقام يجب أن تكون أكبر بكثير هذه المرة، ويجب أن تصل إلى مليارات الدولارات، مع التهديد بالتوجه إلى المحاكم.
هل أعجبك المحتوى وتريد المزيد منه يصل إلى صندوق بريدك الإلكتروني بشكلٍ دوري؟
انضم إلى قائمة من يقدّرون محتوى إكسڤار واشترك بنشرتنا البريدية.