واجهة قوقل البرمجية تدعم قراءة الشفاه بإحترافية الآن

واجهة قوقل البرمجية تدعم قراءة الشفاه بإحترافية الآن

يعد تطور تقنية الذكاء الاصطناعي لتصل إلى مستوى قراءة الشفاه للمتحدث، خطوة كبيرة سؤثر بالتأكيد في مساعدة ضعاف السمع، ولتطوير المساعد الرقمي، واليوم تكشف قوقل عن مستوى التطور الذي وصلت إليه الواجهة البرمجية مع تقنية الذكاء الاصطناعي.

استخدم باحثون في قوقل من قسم الذكاء الاصطناعي، وفريق من جامعة أكسفورد تقنية الذكاء الاصطناعي لإنشاء برمجيات دقيقة تدعم قراءة الشفاة، عن طريق استخدام آلاف الساعات من مشاهد أخبارية من BBC.

 

قام العلماء بتدريب الشبكة الخاصة بنظام الذكاء الاصطناعي لتعلم قراءة الشفاة من لقطات الفيديو بدقة تصل إلى نسبة 46.8 %، وهي نسبة قد لا تكون مبهرة في البداية، خاصة بالمقارنة بكل معدلات دقة القيام بالتدوين الصوتي، إلا أن اختبار الشريط ذاته مع محترفي قراءة الشفاه حقق نسبة 12.4% فقط في نفس وقت العرض.

في الأبحاث التي لحقت مع تجربة مماثلة لمجموعة منفصلة في جامعة اكسفورد في وقت سابق من هذا الشهر، باستخدام تقنيات ذات صلة بالذكاء الاصطناعي، تمكن هؤلاء العلماء من ابتكار برنامج لقراءة الشفاة يسمى LipNet، والذي حقق دقة قراءة بنسبة 93.4% خلال الاختبارات، مقارنة بنسبة الدقة البشرية التي وصلت إلى 52.3 % فقط.

كما تم اختبار LipNet مع لقطات مسجلة خصيصاً لمتطوعين يتحدثون بصيغ رسمية بالمقارنة مع باحثي قوقل الذين قاموا باختبار لقطات أكثر صعوبة بناء على المشاهدة، والاستماع، والحضور، والهجاء، وكذلك من خلال عروض إرتجالية من البرامج السياسية عبر BBC.

إلا أن برمجيات قوقل استخدمت تقنية الذكاء الاصطناعي في عملية تدريب شملت أكثر من خمسة آلاف ساعة من كليبات أخذت من برامج تلفزيونية بما في ذلك الإخبارية، إلى جانب برنامج العالم اليوم، بهدف تدريب عملية المشاهدة والاستماع والحضور والإملاء، حيث يضم الفيديو 118000 عبارة مختلفة، وحوالي 17500كلمة فريدة، وذلك بالمقارنة ببرنامج LipNet للفيديو الذي يضم فقط حوالي 51كلمة فريدة.

كما قد اقترح باحثي قسم DeepMind في قوقل أن يتم تطوير الواجهة البرمجية لمجموعة من التطبيقات لدعم مساعدة الأشخاص من ضعاف السمع لفهم المحادثات، ولإدراك الأفلام الصامتة، أو لمساعدة المستخدم في التحكم في المساعد الرقمي مثل Siri، وAlexa، من خلال تحريك الشفاة أمام الكاميرة، كما يقدم دعم جيد في حالة استخدام مثل هذه التطبيقات في مكان عام.

بالتأكيد أول ما سيتبادر للكثير من الأشخاص حول تطوير الواجهة البرمجية لقوقل بتقنية الذكاء الاصطناعي لتعلم قراءة الشفاة هو إمكانية استخدام هذه التقنية للمراقبة، إلا أن الأبحاث ذكرت أن التقنية تعمل من خلال شاشة مميزة بأعلى دقة وضوح، مع معدل إطارات سريع، وهو ما يختلف عن معدل الإطارات البطئ لكاميرات المراقبة.


الإبتساماتإخفاء