الكشـف عـن نظـام عالـي الدقـة يستخدم الفيديو للتعرف الآلي إلــى الأصــوات

كشف فريق علمي، أخيراً، عن أول نظام رخيص الكلفة وعالي الدقة، يستخدم ملايين لقطات الفيديو المسجلة بكاميرات الهواتف المحمولة وكاميرات المراقبة وغيرها، في التعرف الآلي إلى الأصوات الطبيعية، وتحديد مصدرها وهوية أصحابها بالاعتماد على «الشبكات العصبية»، ومحاكاة عمل المخ البشري في كشف وتمييز الأصوات.

 

هدف التقنية الجديدة

قال الباحثون، الذين كشفوا عن أول نظام يستخدم لقطات الفيديو للتعرف الآلي إلى الأصوات، إن الهدف النهائي من هذه التقنية الجديدة، هو فتح المجال لإيجاد طريقة للاستفادة من مئات الملايين من الفيديوهات المنتشرة حالياً في كل مكان، من الهواتف المحمولة وكاميرات المراقبة، ومخزنة على مواقع الإنترنت وشبكات التواصل وغيرها، في بناء نظم وتطبيقات وخدمات مبنية على المعالجة الطبيعية للأصوات، والتعرف إليها، وتحديد مصدرها وهوية أصحابها.

وأضافوا أن ذلك يوفر خدمات هائلة ومتنوعة في مجالات كالبحث والإنقاذ، والمجالات الطبية والعلاجية، خصوصاً خدمة ذوي الإعاقة السمعية أو البصرية، فضلاً عن مجالات الأمن، ومكافحة الجريمة والسلامة الشخصية، إضافة إلى التكامل مع الخدمات المبنية على تحديد المواقع، وغيرها الكثير من التطبيقات التجارية والعامة.

وذكر الفريق أن هذا النظام مجرد بداية لمجال واسع من التطبيقات المستقبلية المتنوعة في مجالات شتى، لكونه يختلف جذرياً عن نظم المعلومات الحالية، التي تتعرف إلى ملايين الصور، وتحديد هويات أصحابها وطبيعتها، لكنها لا تتعامل مع الأصوات التي ترد في ملايين لقطات الفيديو المجمعة من هنا وهناك.

وكان فريق من الباحثين العاملين في معمل هندسة الحاسبات والذكاء الاصطناعي بمعهد «ماساشوستس للتقنية» (إم آي تي)، أعلن عن النظام الجديد خلال فعاليات المؤتمر الدولي لنظم المعالجة العصبية للمعلومات، الذي عقد في مدينة برشلونة الإسبانية الأسبوع الماضي.

الأصوات الطبيعية

وحسب التفاصيل التي نشرتها غرفة الأخبار في موقع «إم آي تي» news.mit.edu، فإن هذا النظام يستهدف بالأساس التعرف إلى الأصوات الطبيعية الصادرة في بيئة طبيعية، وجرى تسجيلها في سياق تسجيل لقطات فيديو، وتبدو غير واضحة أو معرفة جيداً أو مختلطة مع أصوات أخرى متداخلة معها، والتي من أبسط أشكالها هتافات الحشود وتحطم الأمواج، وتغريد العصافير، والأصوات الصادرة عن التجمعات والاجتماعات، كقاعات السينما والمؤتمرات، ومحطات المترو والقطارات والمطارات، وغيرها الكثير.

وأوضح الموقع أن الفكرة الرئيسة لهذه التقنية الجديدة تتمحور حول استخدام الصور الواردة بالفيديو، كوسيلة من وسائل تحديد طبيعة الصوت وهوية مصدره، أي الربط بين السياق الذي يمضى فيه «مشهد الصورة» وطبيعة وهوية الصوت الوارد في هذا المشهد، أو المقطع من الفيديو.

فكرة النظام

وشرح الفريق فكرة التقنية، التي يستند إليها النظام بالعديد من النماذج المبسطة، منها على سبيل المثال أنه بافتراض أن هناك شخصاً يجلس في قاعة سينما، والهاتف المحمول الخاص به يعمل بتطبيق يستند لهذه التقنية، ويشغل كاميرا المحمول، فإن التطبيق سيربط بين المشهد الذي تنقله إليه الكاميرا، عن المسرح وشاشة العرض وخلافه من جهة، وبين الأصوات الصادرة بالقاعة من جهة أخرى، وحينما يبدأ عرض الفيلم ويتزامن مع ذلك صدور الأصوات الخاصة به، يعرف التطبيق الأصوات الصادرة على أنها صوت فيلم سينمائي، وبالتالي يقوم مثلاً بوضع جرس الهاتف على وضع «صامت»، وتحويل كل المكالمات الواردة إلى صندوق البريد الصوتي، أو الرد برسائل نصية قصيرة على المتصلين، بأن صاحب الهاتف لن يتمكن من الرد في هذه اللحظة.

تقنيات جديدة

وأشار الفريق إلى أن هناك نموذجاً أكثر تعقيداً، بالنسبة لما يحمله المستقبل من تقنيات جديدة، وهو أننا لو تصورنا أن هناك سيارة ذاتية القيادة تمضي على الطريق، ووراءها سيارة إسعاف، تطلق منبهها لكي تفسح لها السيارات الأخرى المجال للمرور بسرعة، وكان الصوت متداخلاً مع أصوات أخرى، فيمكن للكاميرات الخلفية للسيارة ذاتية القيادة أن تربط على الفور بين صورة سيارة الإسعاف القادمة من بعيد، وصوت النفير المختلط بأصوات أخرى في المشهد، فتعلم مسبقاً وبوقت كافٍ، ربما دقائق أو ثوانٍ، أن عليها العمل على إفساح الطريق للإسعاف، قبل اقترابها منها بمسافة مناسبة.

وبين أن في هذين النموذجين تعمل الصور المتحركة كمصدر أولي للبيانات، التي يتم على أساسها تمييز وتحديد هوية الصوت، وليس فقط الاعتماد على مضاهاة الأصوات المسجلة لديه داخلياً، بالأصوات القادمة إليه من الخارج، كما يحدث في الأنظمة الحالية.

واستخدم الفريق مفهوم «الشبكات العصبية» في بناء هذه التقنية الجديدة، موضحاً أن الشبكات العصبية هي نوع من شبكات المعلومات، تستند إلى بنية معمارية تحاول محاكاة الطريقة التي يعمل بها المخ البشري، من حيث تجميع ومعالجة البيانات والمعلومات، كما تستند في الوقت نفسه إلى علم «تعلم الآلة»، الذي يعد أحد فروع الذكاء الاصطناعي، في بناء التطبيقات والبرمجيات التي تعمل عليها هذه الشبكة.

فهم الأصوات

وذكر فريق البحث أن أكبر مشكلة، عمل على حلها وابتكر نهجاً جديداً في التعامل معها، هي عملية تدريب النظام على فهم الأصوات والتعرف إليها وتحليلها، لافتاً إلى أن النظم الحالية تتعلم فهم الأصوات، بعد إنجاز عملية ترميز وتمييز أو شرح لعدد ضخم جداً من بيانات الصوت المدخلة إليها، لتكون مهيأة للتعرف إليها بعد ذلك.

وأضاف أن هذه العملية باهظة الكلفة، كما أنها تحتاج إلى وقت وجهد كبيرين، خصوصاً في البدايات، مشيراً إلى أن التقنية الجديدة لا تحتاج إلى الترميز أو شروحات يدوية، لتدريبها على فهم ومعرفة الأصوات، لأنها مصممة في الأصل للتعامل مع الأصوات المستقاة من الفيديوهات والمشاهد البصرية المصاحبة لها، ولا تحمل أي علامات أو تعريفات أو رموز.

دقة في النتائج

وفي الاختبارات التي جرت على النظام بعد بنائه، قام الباحثون بتدريب شبكة عصبية على مجموعتين كبيرتين من الصور المشروحة السابق تعريفها: الأولى تضم مجموعة بيانات لشبكة صور تحتوى على 1000 شيء مختلف، والثانية مجموعة بيانات لأماكن بناها الباحثون، وتحتوي على صور معرفة لـ401 مشهد مختلف الأنماط، مثل الملاعب وغرف النوم وغرف المؤتمرات، وغيرها.

وبعد ذلك، عمل الباحثون على تغذية النظام بمليوني فيديو، تم تحميلها من موقع «فليكر»، ثم دربوا شبكة عصبية ثانية على الأصوات المنبعثة من الفيديوهات نفسها. وأفاد الباحثون بأنه تم الحصول على شبكة معلومات عصبية، قادرة على تفسير الأصوات الطبيعية، استناداً إلى المشاهد البصرية الواردة في الصور والفيديوهات، مؤكدين أن النظام الجديد أثبت أنه أكثر دقة بنسبة تراوح بين 13 و15%، مقارنة بأفضل النظم الحالية الباهظة الكلفة، للتعرف إلى الأصوات.

وأوضحوا أنه في مجموعة من البيانات تضم 10 فئات مختلفة من الأصوات، استطاع النظام التعرف إلى الأصوات بنسبة دقة وصلت إلى 92%، في حين حقق دقة بلغت 74% في مجموعة بيانات تحوي 50 فئة من الأصوات.

الأكثر مشاركة