أستمع الى المقال

تقنية التعرف على الصوت أو التعرف على الكلام، هي عبارة عن برنامج كمبيوتر أو جهاز له القدرة على فك تشفير الصوت البشري. يتم استخدام هذه التقنية عادًة لتشغيل الأجهزة أو تنفيذ الأوامر أو الكتابة دون الحاجة إلى استخدام لوحة مفاتيح، وتعمل هذه التقنية بفضل أنظمة التعرف على الصوت، ومن أهمها برنامج التعرف التلقائي على الكلام “Automatic Speech Recognition” ASR التي تتطلب من مستخدميها تدريب البرنامج للتعرف على صوته حتى يتمكن -البرنامج- من تحويل الكلام إلى نص بشكل أكثر دقة. لكن برنامج ASR ليس النظام الوحيد للتعرف على الصوت، فهناك العديدَ غيره مثل أنظمة التعرف المستمر على الكلام التي يمكنها التعرف على الصوت بمعدل زمن التحدث الطبيعي، وهناك أنظمة اللغة الطبيعية التي ليس بإمكانها فقط التعرف على الصوت وفهم الكلام فحسب، بل يمكنها أيضًا إعطاء إجابات للأسئلة أو الاستفسارات الأخرى التي يتم طرحها عليها.

التعرف على الصوت واللغة العربية

تمتلك اللغة العربية العديد من الميزات مثل الأصوات اللغوية والنحو التي تجعلها لغة سهلة لتطوير أنظمة التعرف التلقائي على الصوت لها. يمكن تطبيق العديد من التقنيات القياسية للنمذجة الصوتية واللغوية مثل النماذج الصوتية التي تعتمد على السياق بسهولة على اللغة العربية. لكن هناك بعض التحديات التي تواجه تطوير أنظمة التعرف على الصوت للغة العربية مثل: هيمنة المواد النصية غير المشكّلة، ووجود العديد من اللهجات للغة وتعقيد التصريف في اللغة العربية.

هناك بعض الخطوات باتجاه النمذجة الصوتية واللغوية للغة العربية، وذلك من خلال تطوير مجموعة كبيرة من النصوص العربية متعددة اللهجات مرفقة بتسجيل صوتي كامل أو جزئي. وتم جمع مجموعة من مصادر متعددة مفتوحة المصدر بأبجديات عربية غير قياسية على شكل نصوص، والتي يتم طباعتها من خلال تحديد مجموعة أحرف ضمن هذه المجموعات.

وهناك خطوة أخرى حول تطوير شبكة خاصة بتدريب نموذج صوتي يحقق أداءً متطورًا يتم فيه استخراج سمات البيانات الصوتية في المخطط الطيفي الذي يوضح مجال التردد مقابل الوقت وثم دمج هذه السمات في الشبكة. ليتم بعدها تدريب النواتج من هذه الشبكة بشكل أكبر لتجعل سمات الصوت بمحاذاة السلاسل النصية المتكررة في النصوص المقابلة لها. والجدير بالذكر إن هذا النظام المقترح حقق معدل خطأ 14٪ متفوقاً على الأنظمة التي سبقته في النمذجة الصوتية واللغوية للغة العربية.

– كناري ” Kanari”

أطلقت شركة كناري الناشئة في كاليفورنيا، في عام 2020 حلولها لتقنية تحويل الكلام إلى نص باللغة العربية، مع ميزاتٍ تركز على التعرف التلقائي على الكلام بالإضافة إلى تحويل النص إلى كلام وبالعكس.

وتستعين الشركة بالذكاء الصنعي والتعلم الآلي في الكشف عن 19 لهجة عربية مختلفة، مع الاستفادة من مجموعة البيانات الموجودة مسبقًا، وذلك لزيادة دقة النتائج. كما أنها تتيح حلول السحابة المحلية والسحابة المختلطة التي تجعل ميزات تحويل الكلام إلى نص مرنة وسريعة.

للأسف لم تتسنى لنا فرصة تجربة الموقع، وذلك بسبب أن نظام التسجيل في الموقع يتطلب تقديم طلب لإدارة الموقع عن سبب استخدام الخدمة، ومن ثم يتم إرسال الدعوة على البريد الالكتروني في حال قبول الموقع للطلب.

 تجدر الإشارة إلى أن مؤسسة إكسڤار أرسلتْ طلبًا إلى الموقع موضحًا أن الغرض من الطلب هو تجربة خدماتهم في تحويل الكلام إلى نص وتقديم التجربة إلى القُرّاء، ولكن لم يصل أي رد من الموقع حتى لحظة كتابة هذا التقرير.

– كاتب ” Kateb “

تأسست منصة كاتب المصرية في عام 2020، وهي منصة مدعومة بالذكاء الصنعي والتعليم الآلي لتقديم خدمة استخراج النص من الفيديو والمقاطع الصوتية، وتساعد المستخدمين على تحرير وتحويل وترجمة وإدارة الكلام وكذلك الصوت.

بمجرد أن نقوم بالتسجيل في المنصة، يتم تقديم طريقتين لاستخراج النص، إما عن طريق إضافة رابط لمقطع الفيديو أو الملف الصوتي يوتيوب مثلًا أو إمكانية رفع الملف بشكل مباشر، وحينها تحدد عن طريق المنصة اللغة المطلوبة سواء العربية أو الإنكليزية أو اللهجة المصرية أو السعودية.

تحوّل المنصة الفيديو إلى نص بالوقت الفعلي، مع توضيحٍ لجودة التحويل عبر تلوين النصوص باللون الأخضر والبرتقالي والأحمر، كما يتم تحديد مواقع وجود موسيقى أو صمت، ويتم اخراج النص بتنسيقات مختلفة مثل TXT،XML،SRT قابلة للتعديل والتحرير.

بصورة عامة الخدمة جيدة، تحتاج إلى المزيد من الوقت من التعلم، والتي من المفترض أن يتم تلافي هذه الأخطاء مع مرور الوقت بسبب اعتماد المنصة على تقنية التعلم الآلي.

خصوصية الصوت وتقنيات تعزيزها

تقول ريبيكا كلاينبيرجر، الباحثة الصوتية في معهد الأبحاث MIT Media Lab، إن أكثر من مائة عضلة يتم تنشيطها عندما نتحدث إذ يتم إنتاج صوت الإنسان من خلال عملية معقدة تشمل الرئتين والحلق والأنف والفم والجيوب الأنفية. ولتعزيز خصوصية هذا صوت يقوم العديد من الباحثين بالبحث عن طرق لتحقيق ذلك، ورغم أنه لا تعتبر أي من الطرق مثالية ولكن يتم اعتبارها كطرق ممكنة لتعزيز الخصوصية في البنية التحتية لمعالجة البيانات الصوتية.

على سبيل المثال، تقنيات التشويش التي يتم فيها محاولة إخفاء هوية المتحدث تمامًا. يمكن تطبيق ذلك باستخدام أجهزة تغيير الصوت البسيطة التي يمكن لأي شخص من خلالها تغيير نبرة صوته بسرعة، وهناك أيضًا استخدام الأنظمة المتطورة المختصة في تحويل الكلام إلى نص وبالعكس، فتقوم بنسخ كلام شخص ما ثم عكس العملية وإخراج الكلام الذي تم نسخه بصوت شخص آخر.

خصوصية الصوت والقوانين الخاصة بها

تُصنّف تقنية التعرف على الصوت على أنها تقنية بيومترية تسمح بتحديد خاصية بشرية فريدة ونتيجة لذلك يتم اعتبار البيانات المتعلقة بالصوت الناتجة عن هذه التقنيات كمعلوماتٍ بيومترية أي يتم اعتبارها معلومات شخصية تخضع لقوانين الخصوصية والأمن، فمثلًا بالنسبة للشركات التي ترغب في تسخير تقنية التعرف على الصوت للاستخدام من قبل موظفيها للوصول إلى الأنظمة الخاصة بالشركة فعندها يوجد عدد من الالتزامات لامتثال للخصوصية والأمان التي يجب مراعاتها. ومن أهمها:

اللائحة العامة لحماية البيانات (GDPR) الخاصة بالاتحاد الأوروبي

يسري القانون العام لحماية البيانات (GDPR) اعتبارًا من مايو / أيار 2018، ويصنّف الصوت على أنه بيانات شخصية. وعلى الرغم أن المادة 4.1 من القانون العام لحماية البيانات التي تحدد البيانات الشخصية لا تشير على وجه التحديد إلى الصوت بل تشير إلى عدة خصائص فريدة للهوية الفيزيولوجية للإنسان، فقد اتخذ مجلس حماية البيانات الأوروبي موقفًا مفاده أن التعرف على الصوت هو مثال على تقنية تحديد الهوية الفيزيولوجية. وبالنسبة للشركات التي تعالج البيانات الشخصية للأشخاص المقيمين في الاتحاد الأوروبي فيتم منح هؤلاء الأشخاص مجموعة من الحقوق جنبًا إلى جنب مع التزامات الخصوصية والأمان الهامة على الذين يتحكمون ويعالجون تلك البيانات.

قانون خصوصية المستهلك الخاص بكاليفورنيا (CCPA)

قد ينطبق قانون خصوصية المستهلك الخاص بكاليفورنيا الذي تم سَنّه مؤخرًا على أي شركة تجمع البيانات الشخصية لأحد المقيمين في كاليفورنيا، بغض النظر عما إذا كانت المؤسسة تقع في كاليفورنيا أم لا. بموجب هذا القانون يجب على الشركة التي تنطبق عليها القانون أن تزود العميل بمعلومات حول ممارسات جمع البيانات الخاصة بها بما في ذلك المعلومات الشخصية التي تجمعها وتبيعها وتكشف عنها للعامة، بالإضافة إلى الحق في حذف هذه البيانات والاعتراض على بيعها. والجدير بالذكر أن القانون يحظر على الفرد التنازل عن هذه الحقوق. ويتضمن قانون خصوصية المستهلك الخاص بكاليفورنيا المعلومات البيومترية كفئة تم تعدادها من ضمن فئة المعلومات الشخصية.

قانون حماية خصوصية الأطفال على الإنترنت (COPPA)

بموجب قانون حماية خصوصية الأطفال على الإنترنت توجد متطلبات موافقة صارمة لجمع بيانات الأطفال دون سن 13 عامًا وتخزينها. ومع ذلك، أصدرت لجنة التجارة الفيدرالية في عام 2017 إرشادات بشأن هذا قانون في سياق التسجيلات الصوتية مما أدى إلى تخفيف صرامة القانون قليلًا حيث أقرّت اللجنة بقيمة استخدام الصوت كبديل للكلمات المكتوبة في إجراء البحث والوظائف الأخرى على الأجهزة المتصلة بالإنترنت. قد تكون الأوامر الصوتية ضرورة لبعض المستهلكين بما في ذلك الأطفال الذين لم يتعلموا الكتابة بعد أو من ذوي الإعاقة، وعلى هذا النحو عندما يتم تجميع ملف صوتي يحتوي على صوت طفل فقط كبديل للكلمات المكتوبة فعندها فقط يمكن الاحتفاظ بالملف لفترة وجيزة لهذا الغرض. لا تتخذ لجنة التجارة الفيدرالية أي إجراء تنفيذي ضد الجهة التي تقوم بجمع الملف الصوتي دون الحصول على موافقة الوالدين لكن يجب على هذه الجهة تقديم الإشعار المطلوب بموجب قاعدة COPPA، بما في ذلك وضع إشعار واضح بجمعها واستخدامها للملفات الصوتية وسياسة الحذف الخاصة بها في سياسة الخصوصية الخاصة بها.

قانون خصوصية المعلومات البيومترية (BIPA)

يحدد قانون خصوصية المعلومات البيومترية مجموعة شاملة من القواعد للشركات التي تمارس نشاطًا تجاريًا في ولاية إلينوي في الولايات المتحدة الأمريكية عند جمع المعرّفات أو المعلومات البيومترية لسكان الولاية. يحتوي قانون BIPA على العديد من الميزات الرئيسية مثل الحق المحدود في الكشف عن المعلومات البيومترية وحق حظر الاستفادة من البيانات البيومترية. يتضمن تعريف المعرّفات البيومترية بموجب قانون خصوصية المعلومات البيومترية البصمة الصوتية أي استخدام الصوت للتحقق من هوية الفرد.

مصير التعرف على الصوت

على ما يبدو أن مستقبل تقنيات التعرف على الصوت مشرقة. نظرًا لاستخداماتها حول العالم في كثير من المجالات بدأً من المنزل أو أثناء التنقل أو في العمل.

إن هذه التكنولوجيا ستزداد حجمًا خلال السنوات القليلة المقبلة، فقد بلغت قيمة سوق تقنية التعرف على الصوت 10.70 مليار دولار أمريكي في عام 2020 ومن المتوقع أن تصل إلى 27.155 مليار دولار أمريكي بحلول عام 2026، بمعدل نمو سنوي يبلغ 16.8٪ خلال الفترة المتوقعة 2021 – 2026. ويتوجه هذا النمو في الخدمات المصرفية والسيارات، فضلا عن الاستخدام المنزلي الشخصي.

هل أعجبك المحتوى وتريد المزيد منه يصل إلى صندوق بريدك الإلكتروني بشكلٍ دوري؟
انضم إلى قائمة من يقدّرون محتوى إكسڤار واشترك بنشرتنا البريدية.