فلسطين أون لاين

تقرير "كراسات" منصة بـ6 لهجات عربية تضم مليونًا و300 ألف كلمة

...
منصة كراسات
رام الله-غزة/ مريم الشوبكي:

إذا ما حاول مستخدمو تطبيقات الهواتف الذكية التي تدعم الأوامر الصوتية البحث عبر شبكة الإنترنت باللهجة المحكية، فإن التطبيق لن يستجيب لأن تلك اللهجات غير معرفة عليها، لكن قد يصبح الأمر سهلًا في السنوات المقبلة بفضل جهد تكنولوجي فلسطيني لبناني.

فضمن مشروع تشرف عليه جامعة بيرزيت في فلسطين والجامعة العربية الأميركية في لبنان، يعمل باحثون في الذكاء الاصطناعي على حل هذه المشكلة وإدراج اللهجات العربية المحكية ضمن اللغات المستخدمة تكنولوجيًا، وبخاصة أن اللغة العربية بمختلف لهجاتها تعد من اللغات العشر الأكثر استخدامًا في العالم، وعدم قدرة المستخدمين على استعمال لهجاتهم اليومية عبر الإنترنت، قد يحد من استخدام الناس لكثير من الخدمات بسبب عدم إتقانهم العربية الفصحى أو أي لغة عالمية أخرى.

تهدف المنصة التي تحمل اسم "كراسات" وتدعم مبدئيًا 6 لهجات عربية محكية إلى إغناء الحاسوب وتقنيات الذكاء الاصطناعي في مساعدتها على فهم النصوص المكتوبة بالعاميات العربية، وتفيد غير الناطقين باللغة العربية، وكذلك اللغويين، والباحثين العرب في إعداد دراسات وأبحاث حول اللهجات العامية.

نمو المحتوى العربي

ويبين أستاذ الذكاء الاصطناعي في جامعة بيرزيت البروفيسور مصطفى جرار أن منصة كراسات ليست فكرة وليدة، إذ أطلقت الجامعة العديد من المشاريع التي لها علاقة بحوسبة اللغة مثل حوسبة المعاجم العربية الذي تمت فيه حوسبة 150 معجمًا عربيًا في قاعدة بيانات واحدة وبناء أنطولوجيا للغة العربية.

ويوضح البروفيسور جرار لـ"فلسطين" أن الجامعة بدأت منذ عام 2011 العمل على حفظ اللهجات، بدءًا من العامية الفلسطينية ضمن مدونة اسمها كراس، ومن ثم اللهجة العامية اللبنانية ضمن مدونة اسمها بلدي، وفي ديسمبر من العام الماضي 2022م، أضيفت أربع لهجات أخرى وهي العراقية واليمنية والسودانية والليبية، لتكون متاحة للمستخدمين.

ويعتقد أن المحتوى العربي على شبكة الإنترنت يشهد نموًا خاصة على منصات التواصل الاجتماعي، "وصارت هناك حصيلة ضخمة من اللهجات العربية العامية، لذا وجدنا أن الوقت مناسب لحوسبتها ليتمكن الحاسوب من فهمها عبر الترجمة الآلية وتحويل النص إلى صوت".

ويبين أستاذ الذكاء الاصطناعي أن منصة "كراسات" تضم مليونًا وثلاثمائة ألف كلمة وصفة، جُمعت من منصات التواصل الاجتماعي، ووُفر تصريف لهذه الكلمات وحُدد إلى أي قسم تنتمي، كأن تكون اسمًا أو فعلًا أو صفة أو غيرها، ومن ثم ربط هذه الكلمات باللغة الفصحى واللغة الإنجليزية لتسهيل عملية البحث.

ويضرب جرار مثالًا بكلمة "شو؟" اللبنانية والتي تعني "ماذا؟"، وكلمة "زول" السودانية، و"زلمة" الفلسطينية، و"راجل" بتعطيش الجيم بالليبية فكلها مفردات لكلمة واحدة تعني "رجُل".

حاجات متعددة

وينبه إلى أن فكرة المنصة نبعت من الحاجة إلى تطبيقات ذكاء اصطناعي برمجية قادرة على التعامل مع اللهجات العامية، سواء باستخدام الصوت أو الترجمة، إذ بإمكان الشركات التي تطور تطبيقات المساعدة الناطقة أن تحصل على محتوى هذه المنصة مجانًا لاستخدامه.

وعن أهمية منصة كراسات، يذكر البروفيسور جرار أن أهميتها تكمن في تسهيل استخدام الصوت للتحكم بمجال الإنترنت العام عبر اللهجات العامية ولا سيما لكبار السن، وكذلك لدى من لا يتحدث الفصحى أو لا يجيد الحديث بها، إضافة إلى مساعدة غير الناطقين بالعربية على تعلم اللغة المحكية لتسهيل عملية التواصل.

ويؤكد أن المنصة تعمل على التوثيق الثقافي للهجات المستخدمة فيها، على اعتبار أن اللغات جزء من الهوية الثقافية لكل منطقة.

وظيفة بحثية وتوثيقية

الأمر المهم الآخر الذي يلفت إليه جرار هو عملية التوثيق الثقافي للهجات المستخدمة التي تقدمها "كراسات"، لكون اللغات جزء من الهوية الثقافية لكل منطقة.

كما أن المنصة ستمثل مرجعًا لغويًا للباحثين في علوم اللغة التي يرغب فيها الباحث العربي بمعرفة بعض الظواهر التصريفية للغة الموجودة في اللهجات العامية وإجراء إحصائيات عليها كالفعل المضارع، فعلى سبيل المثال يستبدل حرف الياء بالباء عند نطق الفعل المضارع في اللهجة الفلسطينية "بوكل، بشرب، بمشي".

ويضرب مثالًا آخر للظاهرة التصريفية لأدوات الاستقبال: "رح أوكل، راح أشرب باللغة الفلسطينية، وباليمنية عشرب، عوكل، عمشي"، أما من أدوات النفي إضافة حرف الشين في آخر الكلمة "بنفعش، بديش، بمشيش".

وبحسب جرار يمكن لأي شخص استخدام منصة "كراسات" بسهولة، وكل ما عليه فعله هو وضع الكلمة المراد إيجاد المعنى لها، ومن ثم تحديد لهجة معينة، للحصول على أصل الكلمة ومعناها في اللهجات المختارة ونوعها من الكلام، وبعض الأمثلة على استخدامها.

مشيرًا إلى أنه يجري العمل على زيادة محتوى المنصة، بإضافة لهجات عامية عربية أخرى من أجل ربطها بالمدخلات اللغوية وتوفيرها كمنصة بحثية علمية للغويين العرب.