منطقة التعلم | Interprefy

فهم دقة ترجمات الذكاء الاصطناعي: دليل شامل

بقلم ماركوس أريغر | ١٣ أبريل ٢٠٢٣

تُعدُّ الترجمة النصية المغلقة تقنيةً فعّالة لتحسين إمكانية الوصول والتفاعل وحفظ المعلومات أثناء العروض التقديمية والفعاليات المباشرة. وقد أدى هذا، إلى جانب تحوّل عادات مشاهدة الفيديو في عالم البث المباشر، إلى تسريع اعتماد الترجمة النصية المدعومة بالذكاء الاصطناعي في الفعاليات المباشرة واجتماعات الأعمال.

ولكن عندما يتعلق الأمر باختيار مزود الخدمة لاجتماعك أو حدثك الخاص، فإن السؤال الأكثر شيوعًا هو: ما مدى دقة التسميات التوضيحية المباشرة التلقائية؟

الإجابة السريعة هي أنه في ظل الظروف المثالية، يمكن للتسميات التوضيحية التلقائية في اللغات المنطوقة أن تحقق دقة تصل إلى 98% كما تم تقييمها بواسطة معدل خطأ الكلمات (WER).

نعم، هناك إجابة طويلة وأكثر تعقيدًا بعض الشيء. في هذه المقالة، نريد أن نقدم لكم لمحة عامة عن كيفية قياس الدقة، والعوامل المؤثرة عليها، وكيفية الارتقاء بها إلى مستويات جديدة.

في هذه المقالة

  1. كيف تعمل الترجمة التلقائية
  2. ما هي جودة الترجمة التي تعتبر جيدة؟
  3. ما هي العوامل التي تؤثر على الدقة؟
  4. قياس دقة الترجمة التلقائية
  5. فهم معدل خطأ الكلمات (WER)
  6. الحصول على ترجمة مغلقة دقيقة بشكل لا يصدق لأحداثك المباشرة

قبل أن نتعمق في الأرقام، دعونا نتراجع خطوة إلى الوراء وننظر إلى كيفية عمل التسميات التوضيحية التلقائية.

كيف تعمل الترجمة التلقائية

التسميات التوضيحية التلقائية

تُحوّل التسميات التوضيحية التلقائية الكلام إلى نص يُعرض على الشاشة آنيًا بنفس لغة الكلام. يُعدّ التعرف الآلي على الكلام (ASR) نوعًا من الذكاء الاصطناعي يُستخدم لإنتاج هذه النصوص من الجمل المنطوقة.

تُعرف هذه التقنية غالبًا باسم "تحويل الكلام إلى نص"، وتُستخدم للتعرف تلقائيًا على الكلمات الصوتية وتحويل الصوت إلى نص.

ترجمات الذكاء الاصطناعي

تترجم محركات الترجمة المدعومة بالذكاء الاصطناعي تلقائيًا التعليقات التوضيحية الواردة بلغة مختلفة. تُعرف هذه أيضًا باسم الترجمة الآلية أو التعليقات التوضيحية المترجمة آليًا.

مقالة موصى بها

لماذا يجب عليك التفكير في إضافة ترجمات مباشرة إلى حدثك القادم

اقرأ المقال →

في هذه المقالة، سنتناول الترجمة التلقائية. إذا كنت ترغب في معرفة مدى دقة الترجمة المترجمة بالذكاء الاصطناعي، فراجع هذه المقالة .

ما هي جودة الترجمة التي تعتبر جيدة؟

حددت لجنة الاتصالات الفيدرالية (FCC) خصائص أساسية في عام 2014 لتحديد ما إذا كانت التعليقات التوضيحية "ممتازة":

  • الدقة - يجب أن تتطابق التعليقات التوضيحية مع الكلمات المنطوقة، إلى أقصى حد ممكن
  • الاكتمال - تمتد التسميات التوضيحية من البداية إلى نهاية البث، إلى أقصى حد ممكن.
  • التنسيب - لا تحجب التعليقات المحتوى المرئي المهم كما أنها سهلة القراءة.
  • المزامنة - تتوافق التعليقات التوضيحية مع المسار الصوتي وتظهر بسرعة قابلة للقراءة.

الصورة: ترجمة فورية باستخدام الذكاء الاصطناعي خلال ندوة عبر الإنترنت

ما هي العوامل التي تؤثر على الدقة؟

محرك الذكاء الاصطناعي المحدد

لا تُعطي جميع محركات تحويل الكلام إلى نص نتائج متطابقة. بعضها أفضل عمومًا، بينما يُقدم بعضها الآخر نتائج أفضل في لغات مُحددة. وحتى عند استخدام نفس المحرك، قد تختلف النتائج اختلافًا كبيرًا تبعًا للهجات ومستويات الضوضاء والمواضيع، وما إلى ذلك.

لهذا السبب، في Interprefy، نجري دائمًا معايرةً لأفضل محركات البحث لتحديد أيها يُعطي أدق النتائج. ونتيجةً لذلك، تُمكّن Interprefy المستخدمين من الحصول على أفضل الحلول للغة مُحددة، مع مراعاة جوانب مثل زمن الوصول والتكلفة. وفي ظلّ الظروف المثالية، لاحظنا دقةً ثابتةً تصل إلى 98% لعدة لغات.

جودة إدخال الصوت

تتطلب تقنية التعرف الآلي على الكلام جودةً في المدخلات لإنتاج مخرجات عالية الجودة. الأمر بسيط: كلما زادت جودة ووضوح الصوت والصوت، كانت النتائج أفضل.

  • جودة الصوت - تمامًا مثل الترجمة الفورية في المؤتمرات ، يمكن لأجهزة إدخال الصوت السيئة، مثل الميكروفونات المدمجة في الكمبيوتر، أن يكون لها تأثير سلبي.
  • الكلام والنطق الواضح - المقدمون الذين يتحدثون بصوت عالٍ وبسرعة جيدة وواضحة، عادةً ما يتم وضع ترجمة توضيحية لهم بدقة أعلى .
  • الضوضاء في الخلفية - يمكن أن يؤدي الضجيج الثقيل أو نباح الكلاب أو خلط الأوراق الذي يلتقطه الميكروفون إلى تدهور جودة إدخال الصوت بشكل كبير.
  • اللهجات - المتحدثون الذين لديهم لهجات غير عادية أو قوية بالإضافة إلى المتحدثين غير الأصليين يشكلون مشاكل للعديد من أنظمة التعرف على الصوت.
  • الكلام المتداخل - إذا تحدث شخصان فوق بعضهما البعض، فسيكون من الصعب للغاية على النظام تحديد المتحدث الصحيح.
مقالة موصى بها

ما مدى دقة التسميات التوضيحية في Zoom وTeams وInterprefy؟

اقرأ المقال →

كيفية قياس دقة التسميات التوضيحية التلقائية

المقياس الأكثر شيوعًا لقياس دقة التعرف التلقائي على الكلام هو معدل خطأ الكلمات (WER)، والذي يقارن النص الفعلي للمتحدث بنتيجة إخراج التعرف التلقائي على الكلام.

على سبيل المثال، إذا كانت 4 من أصل 100 كلمة خاطئة، فإن الدقة ستكون 96%.  

فهم معدل خطأ الكلمات (WER)

يقوم WER بتحديد أقصر مسافة بين نص منقول تم إنشاؤه بواسطة نظام التعرف على الصوت ونص مرجعي تم إنتاجه بواسطة إنسان (الحقيقة الأساسية).

يقوم مُعامل تصحيح الأخطاء (WER) بمحاذاة تسلسلات الكلمات المُحددة بشكل صحيح على مستوى الكلمة قبل حساب إجمالي عدد التصحيحات (الاستبدالات، الحذف، والإدراجات) اللازمة لمواءمة نصوص المراجع والنصوص المُنسوخة بالكامل. ثم يُحسب مُعامل تصحيح الأخطاء (WER) كنسبة عدد التعديلات اللازمة إلى إجمالي عدد الكلمات في النص المرجعي. يشير مُعامل تصحيح الأخطاء (WER) المنخفض عادةً إلى نظام أكثر دقة للتعرف على الصوت.

مثال على معدل خطأ الكلمات: دقة 91.7%

دعونا نأخذ مثالاً لمعدل خطأ في الكلمات بنسبة 8.3% - أو دقة 91.7% ونقارن الاختلافات بين النص الأصلي للخطاب والتسميات التوضيحية التي أنشأها التعرف التلقائي على الكلام:

النص الأصلي: إخراج ترجمات ASR:
على سبيل المثال، لا أرغب إلا في استخدام محدود للغاية للأساسيات شريطة أن أرغب في الخوض في نقطة معينة بمزيد من التفصيل. أخشى أن دعوتي لبرلمانات الدول الفردية إلى التصديق على الاتفاقية فقط بعد توضيح دور المحكمة الأوروبية للقانون قد يكون له آثار ضارة للغاية. على سبيل المثال، أود أنا أيضاً أن يتم الاستفادة بشكل محدود للغاية من الإعفاءات شريطة أن أتناول نقطة معينة بمزيد من التفصيل. وأخشى أن الدعوة إلى برلمانات الدول الفردية للتصديق على الاتفاقية فقط بعد توضيح دور المحكمة الأوروبية للقانون قد يكون لها آثار ضارة للغاية.

 

في هذا المثال، فقدت التعليقات التوضيحية كلمة واحدة واستبدلتها بأربع كلمات:

  • القياسات: {'المطابقات': 55، 'الحذف': 1، 'الإدراجات': 0، 'الاستبدالات': 4}
  • البدائل: [('too', 'do'), ('use', 'used'), ('exemptions', 'essentials'), ('the', 'i')]
  • الحذف: ['would']

وبالتالي فإن حساب معدل خطأ الكلمات هو:

WER = (الحذف + الاستبدالات + الإدراجات) / (الحذف + الاستبدالات + التطابقات) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083

يتجاهل WER طبيعة الأخطاء

في المثال أعلاه، ليست كل الأخطاء ذات تأثير متساوٍ.

قد يكون قياس نسبة الخطأ في النص (WER) مُضلِّلاً لأنه لا يُخبرنا بمدى أهمية/صلة خطأ مُعيَّن. الأخطاء البسيطة، مثل التهجئة البديلة للكلمة نفسها (moveable/moveable)، لا يُعتَبَرها القارئ عادةً أخطاءً، بينما قد يكون الاستبدال (exceptions/essentials) أكثر تأثيرًا.

قد تكون أرقام WER، وخاصةً في أنظمة التعرف على الكلام عالية الدقة، مضللة ولا تتوافق دائمًا مع تصورات البشر عن الصحة. فغالبًا ما يصعب على البشر التمييز بين اختلافات في مستويات الدقة تتراوح بين 90% و99%.

معدل خطأ الكلمات المدركة

طورت شركة Interprefy مقياسًا خاصًا بها لقياس أخطاء التعرف التلقائي على الكلام (ASR) يُسمى "معدل الخطأ المُدرَك". يحسب هذا المقياس الأخطاء التي تؤثر على فهم الإنسان للكلام فقط، وليس جميع الأخطاء. عادةً ما تكون الأخطاء المُدرَكة أقل من معدل الخطأ المُدرَك، وقد تصل أحيانًا إلى 50%. أما نسبة الخطأ المُدرَك التي تتراوح بين 5% و8%، فعادةً ما تكون غير ملحوظة للمستخدم.

يوضح الرسم البياني أدناه الفرق بين WER وWER المُدرَك لنظام التعرف التلقائي على الكلام (ASR) عالي الدقة. لاحظ الفرق في الأداء لمجموعات بيانات مختلفة (S0-S4) من نفس اللغة.

وكما هو موضح في الرسم البياني، فإن معدل الاستجابة المتوقعة الذي يدركه البشر يكون في أغلب الأحيان أفضل بكثير من معدل الاستجابة المتوقعة الإحصائي.

يوضح الرسم البياني أدناه الاختلافات في الدقة بين أنظمة التعرف على الكلام المختلفة التي تعمل على نفس مجموعة بيانات الكلام في لغة معينة باستخدام WER المتصور.  

الحصول على ترجمة مغلقة دقيقة بشكل لا يصدق لأحداثك المباشرة

لقد حققنا دقةً بلغت 97% في ترجمة النصوص التلقائية لدينا بفضل الجمع بين حلنا التقني الفريد واهتمامنا بعملائنا. ألكسندر دافيدوف، رئيس قسم تقديم الذكاء الاصطناعي في Interprefy

إذا كنت ترغب في الحصول على ترجمات تلقائية عالية الدقة أثناء حدث ما، فهناك ثلاثة أشياء رئيسية يجب عليك مراعاتها: 

استخدم الحل الأفضل في فئته

بدلاً من اختيار أي محرك جاهز لتغطية جميع اللغات، ابحث عن مزود يستخدم أفضل محرك متاح لكل لغة في الحدث الخاص بك.

هل ترغب في فهم ما يقدمه لك أفضل محرك بحث؟ اقرأ مقالنا: مستقبل الترجمة المباشرة: كيف يُعزز الذكاء الاصطناعي من Interprefy إمكانية الوصول

تحسين المحرك

اختر بائعًا يمكنه استكمال الذكاء الاصطناعي بقاموس مخصص لضمان التقاط أسماء العلامات التجارية والأسماء الغريبة والاختصارات بشكل مناسب.

ضمان جودة إدخال الصوت

إذا كان إدخال الصوت سيئًا، فلن يتمكن نظام التعرف التلقائي على الكلام (ASR) من تحقيق جودة الإخراج. تأكد من إمكانية التقاط الكلام بصوت عالٍ وواضح.