خوارزميات نسخ الأصوات أصبحت قادرةً على خداع أجهزة التعرف على الصوت

خوارزميات نسخ الأصوات أصبحت قادرةً على خداع أجهزة التعرف على الصوت
أستمع الى المقال

وجد فريقٌ من الباحثين في جامعة شيكاغو أن خوارزميات نسخ الصوت قد تقدمت لدرجة أنها أصبحت الآن قادرةً على خداع أجهزة التعرف على الصوت، وفي كثيرٍ من الحالات، الأشخاص الذين يستمعون إليها كذلك. ونشر الفريق ورقةً بحثيةً على خادم ما قبل الطباعة arXiv تصف كيف تمكّنت خوارزميتين معروفتين لنسخ الصوت من فعل ذلك.

عصر التزييف

إن فيديوهات التزييف العميق Deepfake أصبحت معروفة وشائعة جدًا. إذ يمكن مشاهدة آلاف الأمثلة منها على منصة يوتيوب للعديد من الشخصيات السياسية والفنية والمشاهير. ولكن في حين أن مقاطع الفيديو هذه أصبحت نابضةً بالحياة ومُقنعة، فإن أحد المجالات التي تفشل فيها هو إعادة إنتاج صوت الشخص المُزيّف وجهه.

لكن في هذا البحث الجديد، وجد الفريق في جامعة شيكاغو دليلاً على أن التكنولوجيا قد تقدّمت بالفعل. حيث اختبروا اثنتين من أكثر خوارزميات نسخ الصوت شهرةً على كل من أجهزة التعرف على الصوت والبشر، ووجدوا أن الخوارزميات قد تحسّنت لدرجة أنها أصبحت الآن قادرة على خداع كليهما.

علو كعب الآلة

تم اختبار الخوارزميتين “SV2TTS” و “AutoVC” لإجراء هذا البحث، وذلك من خلال الحصول على عينات من التسجيلات الصوتية من قواعد البيانات المتاحة للجمهور. وتم تدريب كلا النظامين باستخدام 90 قصاصة صوتية مدة الواحدة منها خمس دقائق لأشخاصٍ يتحدثون.

كما طلب الباحثون المساعدة من 14 متطوعًا قدموا عيناتٍ صوتية ومنحوهم الوصول إلى أجهزة التعرف على الصوت الخاصة بهم. ثم اختبر الباحثون النظامين باستخدام برنامج مفتوح المصدر اسمه Resemblyzer؛ يستمع ويقارن التسجيلات الصوتية ثم يعطي تصنيفًا بناءً على عينتين متشابهتين. وقاموا أيضًا باختبار الخوارزميات عبر استخدامها لمحاولة الوصول إلى الخدمات على أجهزة التعرف على الصوت.

وعند فحص النتائج، وجد الباحثون أن الخوارزميات كانت قادرةً على خداع برنامج Resemblyzer ما يقرب من نصف الوقت. ووجدوا أيضًا أنها كانت قادرةً على خداع Azure (خدمة الحوسبة السحابية من مايكروسوفت) ما يقرب من 30% من الوقت. بينما كانت قادرةً على خداع نظام التعرف على الصوت الخاص بأليكسا من جوجل ما يقرب من 62% من الوقت.

ولم يقف الأمر عند هذا الحد، حيث استمع مائتا متطوع أيضًا إلى أزواجٍ من التسجيلات وحاولوا تحديد ما إذا كانت الأصوات تعود إلى نفس الشخص. وكانت النتائج مختلطة، ولكن بشكلٍ عام، كانت الخوارزميات قادرةً على خداع المتطوعين في كثير من الأحيان، وخاصةً عند أخذ عيناتٍ صوتية كانت تعود لمشاهير.

سلاح ذو حدين

نحن نتحرك نحو عالمٍ يحركه الصوت. إذ يتزايد استهلاك المحتوى الصوتي والخدمات الآلية القائمة على الصوت. وينتقل العديد من صنّاع المحتوى إلى منصات مثل SoundCloud وخدمات الكتب الصوتية مثل Audible. ويمكن إدراك ذلك أيضًا من حقيقة أن عمالقة التكنولوجيا مثل جوجل وأمازون وسامسونج وآبل وغيرها، يستثمرون بكثافة في خدماتهم القائمة على الصوت، وغالبًا ما تزعم كل شركةٍ أن منتجها أفضل من نظرائه.

ومع هذه التطورات، سنتمكن قريبًا من تخصيص صوت المساعدين الآليين كما نحب. تخيل أن ممثلك أو مغنيك المفضل يقرأ قائمة التسوق الخاصة بك أو يوجّه حركة قيادتك عبر سماعات سيارتك أثناء التنقل، أو، في سيناريو أكثر ظلامًا وشاعرية، استنساخ أصوات أحبائك المتوفين ليتحدث مساعدك الصوتي بها، أو دبلجة الأفلام إلى لغات عديدة بأصوات الممثلين نفسهم، والأمثلة كثيرة.

لكن في المقابل، سيصبح من الأسهل على المحتالين تنفيذ هجمات التصيد الاحتيالي والانتحال، والأشياء التي لم ينطق بها الأشخاص مطلقًا يمكن نشرها على الإنترنت بطريقة مخططة لتحقيق مكاسب سياسية، ويمكن أيضًا استخدام مقاطع صوتية مزيفة لإثارة الاضطرابات في المجتمع، و القائمة تطول كذلك.

لذا، فإن زيادة الوعي بوجود هذه التكنولوجيا ستكون الخطوة الأولى نحو حماية المستمعين. إذ يجب تطوير الخوارزميات التي يمكنها التمييز بين الأصوات الحقيقية والأصوات الاصطناعية جنبًا إلى جنب مع هذه الخوارزميات.

وبالنظر في الأخلاقيات المرتبطة بهذه التقنية، هناك الكثير من الشك فيما إذا كان على البشر محاولة إنشاء مثل هذه النماذج في المقام الأول. كما امتنع بعض الباحثين الآخرين عن مشاركة نماذجهم علنًا. ومع ذلك، يبدو أن المستقبل غير مؤكد فيما يتعلق بكيفية استخدام البشرية لهذه التقنية وما الذي سينتج عنها، ديستوبيا أم يوتوبيا؟

هل أعجبك المحتوى وتريد المزيد منه يصل إلى صندوق بريدك الإلكتروني بشكلٍ دوري؟
انضم إلى قائمة من يقدّرون محتوى إكسڤار واشترك بنشرتنا البريدية.