طريقة تسهم في تحسين وصقل قواميس اللغات المستخدمة حالياً وتصحيح محتواها

دراسة تنقل الترجمة من علم اللغات إلى الرياضيات

صورة

على الرغم من كل الشكاوى من الترجمة الآلية، والحديث الدائم عن حاجتها إلى كثير من التطوير، لتقترب من جودة الترجمة البشرية، إلا أنها تقوم بدور لا يُنكر، ولو على مستوى تفسير المعنى العام للنصوص، وهو ما يظهر في العدد الكبير من المستخدمين عبر الإنترنت لواحدة من نماذجها مثل «ترجمة غوغل» التي يستخدمها 200 مليون مستخدم، وتترجم ما يقترب من محتوى مليون كتاب كل يوم.

وتعتمد «ترجمة الآلة الإحصائية» عموماً، على المعاجم والقواميس التي يُؤلفها خبراء، ويتطلب إعدادها كثيراً من الوقت والجهد. وعلى سبيل المثال تعتمد «ترجمة غوغل» على مقارنة الكلمات المطلوب ترجمتها بنصوص مكتوبة بأكثر من لغة، مثل وثائق الأمم المتحدة التي تُكتب بست لغات هي: العربية، الإنجليزية، الصينية، الفرنسية، الروسية، والإسبانية، وكذلك وثائق الاتحاد الأوروبي.

وخلافاً لذلك، عرض فريق من مهندسي «غوغل» في دراسة جديدة، أسلوباً مختلفاً للترجمة، يقوم على تقنيات استخراج البيانات لتكوين بنية أو هيكل لإحدى اللغات، ومن ثم مقارنتها ببنية لغة أخرى، واعتبار الكلمات والعبارات التي تتشابه خصائصها الإحصائية مترادفة.

وترتكز الفكرة الأساسية على تمثيل العلاقة بين كلمات إحدى اللغات في رسم بياني، ويمكن النظر إليه على شكل مجموعة من المتجهات الرياضية التي تربط بين كلمة وأخرى.

واكتشف علماء اللغويات في السنوات الأخيرة، إمكانية معالجة هذه المتجهات بطريقة رياضية، ومثال ذلك كلمات مثل «ملك» - «رجل» مقابل «امرأة» في رسم واحد، تشير إلى كلمة «ملكة».

ويمكن استخدام هذه الطريقة في الترجمة من لغة إلى أخرى، على اعتبار أن اللغات كثيراً ما تصف مجموعات متماثلة من الأفكار، لذلك، فإن الكلمات التي تؤدي هذه المهمة ينبغي أن تكون متشابهة، فمثلاً تتضمن معظم اللغات كلمات تعبر عن الحيوانات الشائعة مثل القطة، والكلب، والبقرة، ولذلك، فإن من المحتمل أن تُستخدم هذه الكلمات بالطريقة ذاتها في جمل مثل «القطة هي حيوان أصغر حجماً من الكلب».

وتبين من الدراسة أن اللغات المختلفة تجمعها عناصر مشتركة تظهر في هذه الرسوم أو المتجهات، ما يعني أن الترجمة بهذه الطريقة تعتمد على إيجاد العلاقة أو «الدالة» بين بنية لغة وأخرى. وهو ما ينقل الترجمة من تخصص «اللسانيات» واللغات إلى المسائل الرياضية.

وأشار فريق البحث إلى اعتماد هذه الطريقة في الترجمة على خطوتين؛ الأولى هي بناء نماذج للغة واحدة استناداً إلى قدر كبير من النصوص المكتوبة بها، ثم الخطوة التالية استخدام قاموس صغير ثنائي اللغة لاكتشاف العلاقة بين اللغتين أو الإسقاط بين نموذجي اللغتين، وبعدها يمكن تطبيقه على نطاق أوسع ضمن اللغة.

وذكر الباحثون أنه على الرغم من بساطة الطريقة، فإنها أظهرت كفاءة مذهلة، ونجحت في تحقيق نسبة دقة تقترب من 90% لترجمة الكلمات بين الإنجليزية والإسبانية اللتين تنتميان إلى مجموعة اللغات الهندوأوروبية، وحتى مع غياب الأصل المشترك، نجحت الطريقة بين لغات أقل اتصالاً ببعضها مثل الإنجليزية والفيتنامية.

وترى الدراسة أنه يمكن لهذا الأسلوب أن يجعل من عملية تكوين القواميس وجداول العبارات المترادفة عملية آلية، ما يعني إمكانية ترجمة الكلمات التي لا تتضمنها المعاجم، كما يُسهِم في إثراء وصقل القواميس المستخدمة حالياً، وتصحيح محتواها وهو ما أثبته فريق البحث؛ إذ رصد أخطاءً في قاموس اللغة الإنجليزية ـ التشيكية.

واختتم الباحثون الدراسة التي جاءت بعنوان «استثمار أوجه التشابه بين اللغات في الترجمة الآلية»، بالإشارة إلى حاجة هذه الطريقة لمزيد من الأبحاث والتطوير، قائلين: «بوضوح، لايزال يوجد الكثير مما ينبغي استكشافه».

تويتر