هنا لبنان شبكة عصبية ثورية تتعرف على وجوه الأشخاص عبر الاستماع إلى أصواتهم

تكنولوجيا 7 أيار, 2022

“سبيتش تو فيس” عبارة عن شبكة عصبية متقدمة طورها علماء معهد ماساتشوستس للتكنولوجيا وتم تدريبها على التعرف على سمات وجه معينة وإعادة بناء وجوه الأشخاص بمجرد الاستماع إلى أصواتهم.

ربما تكون قد سمعت بالفعل عن الكاميرات التي تعمل بالذكاء الاصطناعي والتي يمكنها التعرف على الأشخاص فقط من خلال تحليل ملامح وجوههم، ولكن ماذا لو كانت هناك طريقة للذكاء الاصطناعي لمعرفة الشكل الذي تبدو عليه عبر صوتك فقط؟

هذا هو بالضبط ما عمل عليه فريق من العلماء في معهد ماساتشوستس للتكنولوجيا، وكانت نتائج عملهم مثيرة للإعجاب نوعًا ما. في حين أن شبكتهم العصبية، المسماة “سبيتش تو فيس”، لا يمكنها حتى الآن اكتشاف ملامح الوجه الدقيقة للإنسان فقط من خلال صوته، إلا أنها تحصل على الكثير من التفاصيل بشكل صحيح.

تم تصميم النموذج للكشف عن الارتباطات الإحصائية الموجودة بين ميزات الوجه وأصوات المتحدثين في بيانات التدريب، وقال مبتكرو “سبيتش تو فيس”، إن بيانات التدريب التي يستخدمونها هي عبارة عن مجموعة من مقاطع الفيديو التعليمية من يوتيوب، ولا تمثل جميع سكان العالم بالتساوي. لذلك، يتأثر النموذج، كما هو الحال مع أي نموذج للتعلم الآلي، بهذا التوزيع غير المتكافئ للبيانات.

يمكنك أن تعلم الكثير عن الشخص من الطريقة التي يتحدث بها.على سبيل المثال، يمكنك معرفة ما إذا كان شخص ما ذكرًا أو أنثى، أو إذا كان صغيرًا أو كبيرًا، ولكن “سبيتش تو فيس” يتجاوز ذلك، إذ يمكنه تحديد شكل أنف أو عظام الوجنتين أو الفك بدقة إلى حد ما من خلال صوت الإنسان، لأن الطريقة التي يتم بها تنظيم الأنف والعظام الأخرى في وجوهنا تحدد الطريقة التي نتكلم بها.

العرق هو أيضًا أحد الأشياء التي يمكن لـ” سبيتش تو فيس” تحديدها بدقة من خلال الاستماع إلى صوت شخص ما لبضعة أجزاء من الثانية، حيث يميل الأشخاص الذين ينتمون إلى نفس المجموعات إلى امتلاك سمات متشابهة. يأخذ الذكاء الاصطناعي في الاعتبار مجموعة متنوعة من العوامل، وفي بعض الأحيان ينتج عنه نتائج مبهرة، لكنه لا يزال عملاً قيد التقدم.

في بعض الحالات، واجه الذكاء الاصطناعي صعوبة في تحديد الشكل الذي قد يبدو عليه المتحدث. تسببت عوامل مثل اللكنة واللغة المنطوقة ونبرة الصوت في عدم تطابق مع وجه المتحدث. على سبيل المثال، غالبًا ما يتم تحديد الرجال ذوي النغمة العالية بشكل خاص على أنهم أنثى، بينما تم تحديد الإناث ذوات الصوت العميق على أنهن ذكوراً.

وعلى الرغم من جميع أوجه النقص، يقدم “سبيتش تو فيس” نظرة على مستقبل تقنية الذكاء الاصطناعي التي تثير إعجاب معظم الناس، والتي يمكن أن تساعد في التعرف على المجرمين، وفي مجالات عديدة أخرى، وفق ما أورد موقع “أوديتي سنترال”

24.ae