جامعة بيرزيت تطلق مدوّنة محوسبة تشمل 6 لهجات عاميّة
أطلقت جامعة بيرزيت، أول من أمس، مدونة تشمل حوسبة لست لهجات عربية (1.3 مليون كلمة).
وقالت الجامعة، إن المدونة شملت اللهجات: الفلسطينية، واللبنانية، والعراقية، والليبية، والسودانية، واليمنية، وتهدف إلى إغناء الحاسوب وتقنيات الذكاء الاصطناعي في مساعدتها على فهم النصوص المكتوبة بالعاميات العربية، وأنها عملت على بعض منها مع الجامعة الأميركية والأمم المتحدة، وتم إطلاق هذه المدونة في مكتب الأمم المتحدة في نيويورك.
وأشارت إلى أن المدونة هي مجموعة من النصوص العامية التي تم جمعها من مواقع وشبكات تواصل اجتماعي عدة، مثل «تويتر، وفيس بوك، ويوتيوب»، ونصوص أخرى، وتم تصريف وتعريف خصائص كل كلمة في هذه النصوص، وتوسيم كل كلمة في النص، وتحليلها إلى سوابق ولواحق وجذر وقسم كلام، إضافة إلى مدخلة عامية وفصحى، ومعنى باللغة الإنجليزية.
وبينت أنه يمكن استخدام المدونة كمعجم ثلاثي، عامية - فصحى - إنجليزية، خصوصاً للأجانب والباحثين، ولبناء تطبيقات حاسوبية، يمكنها فهم ما يكتب على شبكات التواصل الاجتماعي، كي يتمكن الحاسوب من ترجمة وفهم المحتوى العربي المكتوب بالعامية، وبالتالي تحويل النص العامي آلياً إلى الفصحى، وتدقيق النصوص العامية وترجمتها آلياً.
وذكرت أن مدونة اللهجة العامية الفلسطينية (تسمى كراس) قد تم حوسبتها وإطلاقها سابقاً عام 2013 بدعم من وزارة التعليم العالي، وتمت إعادة العمل على هذه المدونة وتحسين محتواها، وإضافة مدونة العامية اللبنانية (تسمى بلدي) والتي تتكون من نحو 10 آلاف كلمة، بحيث تصبح المدونة الفلسطينية واللبنانية معاً ممثلاً للهجات الشامية.
وأوضحت أنه جرى بناء مدونة اللهجات الأربع الأخرى (الليبية والسودانية والعراقية واليمنية) اعتماداً على المنهجية التي استخدمت لبناء المدونة الفلسطينية.