تُعدُّ الترجمة النصية المغلقة تقنيةً فعّالة لتحسين إمكانية الوصول والتفاعل وحفظ المعلومات أثناء العروض التقديمية والفعاليات المباشرة. وقد أدى هذا، إلى جانب تحوّل عادات مشاهدة الفيديو في عالم البث المباشر، إلى تسريع اعتماد الترجمة النصية المدعومة بالذكاء الاصطناعي في الفعاليات المباشرة واجتماعات الأعمال.
ولكن عندما يتعلق الأمر باختيار مزود الخدمة لاجتماعك أو حدثك الخاص، فإن السؤال الأكثر شيوعًا هو: ما مدى دقة التسميات التوضيحية المباشرة التلقائية؟
الإجابة السريعة هي أنه في ظل الظروف المثالية، يمكن للتسميات التوضيحية التلقائية في اللغات المنطوقة أن تحقق دقة تصل إلى 98% كما تم تقييمها بواسطة معدل خطأ الكلمات (WER).
نعم، هناك إجابة طويلة وأكثر تعقيدًا بعض الشيء. في هذه المقالة، نريد أن نقدم لكم لمحة عامة عن كيفية قياس الدقة، والعوامل المؤثرة عليها، وكيفية الارتقاء بها إلى مستويات جديدة.
قبل أن نتعمق في الأرقام، دعونا نتراجع خطوة إلى الوراء وننظر إلى كيفية عمل التسميات التوضيحية التلقائية.
تُحوّل التسميات التوضيحية التلقائية الكلام إلى نص يُعرض على الشاشة آنيًا بنفس لغة الكلام. يُعدّ التعرف الآلي على الكلام (ASR) نوعًا من الذكاء الاصطناعي يُستخدم لإنتاج هذه النصوص من الجمل المنطوقة.
تُعرف هذه التقنية غالبًا باسم "تحويل الكلام إلى نص"، وتُستخدم للتعرف تلقائيًا على الكلمات الصوتية وتحويل الصوت إلى نص.
تترجم محركات الترجمة المدعومة بالذكاء الاصطناعي تلقائيًا التعليقات التوضيحية الواردة بلغة مختلفة. تُعرف هذه أيضًا باسم الترجمة الآلية أو التعليقات التوضيحية المترجمة آليًا.
في هذه المقالة، سنتناول الترجمة التلقائية. إذا كنت ترغب في معرفة مدى دقة الترجمة المترجمة بالذكاء الاصطناعي، فراجع هذه المقالة .
حددت لجنة الاتصالات الفيدرالية (FCC) خصائص أساسية في عام 2014 لتحديد ما إذا كانت التعليقات التوضيحية "ممتازة":
لا تُعطي جميع محركات تحويل الكلام إلى نص نتائج متطابقة. بعضها أفضل عمومًا، بينما يُقدم بعضها الآخر نتائج أفضل في لغات مُحددة. وحتى عند استخدام نفس المحرك، قد تختلف النتائج اختلافًا كبيرًا تبعًا للهجات ومستويات الضوضاء والمواضيع، وما إلى ذلك.
لهذا السبب، في Interprefy، نجري دائمًا معايرةً لأفضل محركات البحث لتحديد أيها يُعطي أدق النتائج. ونتيجةً لذلك، تُمكّن Interprefy المستخدمين من الحصول على أفضل الحلول للغة مُحددة، مع مراعاة جوانب مثل زمن الوصول والتكلفة. وفي ظلّ الظروف المثالية، لاحظنا دقةً ثابتةً تصل إلى 98% لعدة لغات.
تتطلب تقنية التعرف الآلي على الكلام جودةً في المدخلات لإنتاج مخرجات عالية الجودة. الأمر بسيط: كلما زادت جودة ووضوح الصوت والصوت، كانت النتائج أفضل.
المقياس الأكثر شيوعًا لقياس دقة التعرف التلقائي على الكلام هو معدل خطأ الكلمات (WER)، والذي يقارن النص الفعلي للمتحدث بنتيجة إخراج التعرف التلقائي على الكلام.
على سبيل المثال، إذا كانت 4 من أصل 100 كلمة خاطئة، فإن الدقة ستكون 96%.
يقوم WER بتحديد أقصر مسافة بين نص منقول تم إنشاؤه بواسطة نظام التعرف على الصوت ونص مرجعي تم إنتاجه بواسطة إنسان (الحقيقة الأساسية).
يقوم مُعامل تصحيح الأخطاء (WER) بمحاذاة تسلسلات الكلمات المُحددة بشكل صحيح على مستوى الكلمة قبل حساب إجمالي عدد التصحيحات (الاستبدالات، الحذف، والإدراجات) اللازمة لمواءمة نصوص المراجع والنصوص المُنسوخة بالكامل. ثم يُحسب مُعامل تصحيح الأخطاء (WER) كنسبة عدد التعديلات اللازمة إلى إجمالي عدد الكلمات في النص المرجعي. يشير مُعامل تصحيح الأخطاء (WER) المنخفض عادةً إلى نظام أكثر دقة للتعرف على الصوت.
دعونا نأخذ مثالاً لمعدل خطأ في الكلمات بنسبة 8.3% - أو دقة 91.7% ونقارن الاختلافات بين النص الأصلي للخطاب والتسميات التوضيحية التي أنشأها التعرف التلقائي على الكلام:
| النص الأصلي: | إخراج ترجمات ASR: |
| على سبيل المثال، لا أرغب إلا في استخدام محدود للغاية للأساسيات شريطة أن أرغب في الخوض في نقطة معينة بمزيد من التفصيل. أخشى أن دعوتي لبرلمانات الدول الفردية إلى التصديق على الاتفاقية فقط بعد توضيح دور المحكمة الأوروبية للقانون قد يكون له آثار ضارة للغاية. | على سبيل المثال، أود أنا أيضاً أن يتم الاستفادة بشكل محدود للغاية من الإعفاءات شريطة أن أتناول نقطة معينة بمزيد من التفصيل. وأخشى أن الدعوة إلى برلمانات الدول الفردية للتصديق على الاتفاقية فقط بعد توضيح دور المحكمة الأوروبية للقانون قد يكون لها آثار ضارة للغاية. |
في هذا المثال، فقدت التعليقات التوضيحية كلمة واحدة واستبدلتها بأربع كلمات:
وبالتالي فإن حساب معدل خطأ الكلمات هو:
WER = (الحذف + الاستبدالات + الإدراجات) / (الحذف + الاستبدالات + التطابقات) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083
في المثال أعلاه، ليست كل الأخطاء ذات تأثير متساوٍ.
قد يكون قياس نسبة الخطأ في النص (WER) مُضلِّلاً لأنه لا يُخبرنا بمدى أهمية/صلة خطأ مُعيَّن. الأخطاء البسيطة، مثل التهجئة البديلة للكلمة نفسها (moveable/moveable)، لا يُعتَبَرها القارئ عادةً أخطاءً، بينما قد يكون الاستبدال (exceptions/essentials) أكثر تأثيرًا.
قد تكون أرقام WER، وخاصةً في أنظمة التعرف على الكلام عالية الدقة، مضللة ولا تتوافق دائمًا مع تصورات البشر عن الصحة. فغالبًا ما يصعب على البشر التمييز بين اختلافات في مستويات الدقة تتراوح بين 90% و99%.
طورت شركة Interprefy مقياسًا خاصًا بها لقياس أخطاء التعرف التلقائي على الكلام (ASR) يُسمى "معدل الخطأ المُدرَك". يحسب هذا المقياس الأخطاء التي تؤثر على فهم الإنسان للكلام فقط، وليس جميع الأخطاء. عادةً ما تكون الأخطاء المُدرَكة أقل من معدل الخطأ المُدرَك، وقد تصل أحيانًا إلى 50%. أما نسبة الخطأ المُدرَك التي تتراوح بين 5% و8%، فعادةً ما تكون غير ملحوظة للمستخدم.
يوضح الرسم البياني أدناه الفرق بين WER وWER المُدرَك لنظام التعرف التلقائي على الكلام (ASR) عالي الدقة. لاحظ الفرق في الأداء لمجموعات بيانات مختلفة (S0-S4) من نفس اللغة.
وكما هو موضح في الرسم البياني، فإن معدل الاستجابة المتوقعة الذي يدركه البشر يكون في أغلب الأحيان أفضل بكثير من معدل الاستجابة المتوقعة الإحصائي.
يوضح الرسم البياني أدناه الاختلافات في الدقة بين أنظمة التعرف على الكلام المختلفة التي تعمل على نفس مجموعة بيانات الكلام في لغة معينة باستخدام WER المتصور.
لقد حققنا دقةً بلغت 97% في ترجمة النصوص التلقائية لدينا بفضل الجمع بين حلنا التقني الفريد واهتمامنا بعملائنا. ألكسندر دافيدوف، رئيس قسم تقديم الذكاء الاصطناعي في Interprefy
إذا كنت ترغب في الحصول على ترجمات تلقائية عالية الدقة أثناء حدث ما، فهناك ثلاثة أشياء رئيسية يجب عليك مراعاتها:
استخدم الحل الأفضل في فئته
بدلاً من اختيار أي محرك جاهز لتغطية جميع اللغات، ابحث عن مزود يستخدم أفضل محرك متاح لكل لغة في الحدث الخاص بك.
هل ترغب في فهم ما يقدمه لك أفضل محرك بحث؟ اقرأ مقالنا: مستقبل الترجمة المباشرة: كيف يُعزز الذكاء الاصطناعي من Interprefy إمكانية الوصول
تحسين المحرك
اختر بائعًا يمكنه استكمال الذكاء الاصطناعي بقاموس مخصص لضمان التقاط أسماء العلامات التجارية والأسماء الغريبة والاختصارات بشكل مناسب.
ضمان جودة إدخال الصوت
إذا كان إدخال الصوت سيئًا، فلن يتمكن نظام التعرف التلقائي على الكلام (ASR) من تحقيق جودة الإخراج. تأكد من إمكانية التقاط الكلام بصوت عالٍ وواضح.