ذكاء اصطناعي·٧ دقائق·٢٠ فبراير ٢٠٢٦
RAG عربي — ما الذي نتعلمه
ملاحظات من بناء محرك بحث دلالي للوثائق العربية.
البحث الدلالي في الوثائق العربية مشكلةٌ أصعب مما تبدو. النماذج المتاحة دُرّبت أساسًا على الإنجليزية، والعربية بثرائها الصرفي تكشف حدودها بسرعة.
التقطيع يهمّ
تقطيع النص العربي إلى مقاطعَ ذات معنى ليس بديهيًا. الجملة العربية قد تطول، والمعنى يتوزّع عبر أدوات الربط. تقطيعٌ ساذجٌ يُمزّق السياق ويُفسد نتائج البحث.
التطبيع سلاحٌ ذو حدّين
إزالة التشكيل وتوحيد الألف والهمزة يُحسّن المطابقة، لكنه قد يمحو فروقًا مهمّة في المعنى. نُطبّع بحذر، ونحتفظ بالأصل حين يكون الفرق جوهريًا.
القياس بالعربية لا بالترجمة
لا يكفي أن يعمل النظام على أمثلةٍ مترجمة. نبني مجموعات تقييمٍ عربيةً أصيلة، بأسئلةٍ يطرحها مستخدمٌ حقيقي، ونقيس عليها — فالترجمة تُخفي العيوب.
العربية تستحق أدواتٍ بُنيت لها، لا أدواتٍ كُيّفت عليها. وهذا ما نحاول الوصول إليه، خطوةً خطوة.

