كل المقالات
AI· ٧ دقائق قراءة· ٢٠ فبراير ٢٠٢٦

RAG عربي — ما الذي نتعلمه

بناء Retrieval Augmented Generation للعربية ليس نسخة من الإنجليزية مع تغيير نموذج التضمين. هذه الدروس كلّفتنا ثلاثة أشهر.

كنا نبني محرك بحث دلالي (RAG) لوثائق حكومية عربية — عقود، لوائح، محاضر اجتماعات. اعتقدنا أنها مهمة قياسية: تقطيع النصوص، تحويلها إلى متجهات، تخزينها في قاعدة بيانات متجهات، والبحث بالتشابه. أخذنا أسبوعًا لبناء النموذج الأولي — ثم ثلاثة أشهر لنفهم لماذا كان يُعطي إجابات سيئة.

المشكلة الأولى: نماذج التضمين

معظم نماذج التضمين المُتاحة دُرّبت أساسًا على الإنجليزية. حتى النماذج «متعددة اللغات» تُعطي العربية نتائج متوسطة. جرّبنا text-embedding-3-large من OpenAI — جيد. جرّبنا Cohere multilingual — جيد أيضًا. لكن أفضل النتائج جاءت من نموذج عربي متخصص، fine-tuned على نصوص عربية رسمية.

المشكلة الثانية: التقطيع

تقطيع النصوص العربية بطول ثابت (مثلًا ٥١٢ رمزًا) يُفسد المعنى. العربية تميل إلى جمل طويلة مع فكرة واحدة ممتدّة. تقطيعها في منتصف الجملة يُفقد السياق. الحل: تقطيع بناءً على الفقرات المنطقية، مع تداخل كبير (٣٠٪) بين القطع. وتقطيع العقود بناءً على المواد والبنود، لا بناءً على عدد الرموز.

النصوص العربية تحتاج قطعًا تحترم المعنى، لا عدّادًا للرموز.

المشكلة الثالثة: التشكيل

النصوص العربية الرسمية أحيانًا تحمل تشكيلًا، وأحيانًا لا. النموذج يُعامل «كَتَبَ» و «كتب» على أنهما مختلفان. الحل: مرحلة تطبيع (normalization) تُزيل التشكيل كله قبل التضمين. لكن احتفظ بالنص الأصلي للعرض. النموذج يرى نسخة «نظيفة»، المستخدم يرى النسخة الأصلية.

المشكلة الرابعة: إعادة الترتيب

البحث بالتشابه يُعيد أفضل ٢٠ نتيجة، لكنها ليست دائمًا الأفضل. أضفنا نموذج إعادة ترتيب (re-ranker) عربي بعد التشابه: يأخذ الـ ٢٠ الأولى، ويُعيد ترتيبها بناءً على صلتها الحقيقية بالسؤال. هذا قفز بدقة الإجابات من ٧٢٪ إلى ٨٩٪.

المشكلة الخامسة: التقييم

كيف تعرف أن نظام RAG يعمل جيدًا؟ بنينا مجموعة اختبار من ٢٠٠ سؤال حقيقي من المستخدمين، مع إجابات «ذهبية» كتبها خبراء بشر. كل تغيير في النموذج يُختبر على هذه المجموعة. بدون مجموعة اختبار مُخصصة، تحسينك أعمى.

خلاصة

RAG العربي ليس أصعب من الإنجليزي — هو فقط مختلف. التطبيع، التقطيع الذكي، إعادة الترتيب، نموذج تضمين عربي حقيقي. عند فعل هذه الأربعة بشكل صحيح، تحصل على نظام يفهم العربية الرسمية فعلًا، لا مجرد يبحث بكلمات مفتاحية مُحسّنة.

فريق شفرة