AIArabicEngineering

روبوتات محادثة بالذكاء الاصطناعي تفهم العربية فعلاً

ما الذي يحتاجه بناء مساعدات ذكاء اصطناعي عربية تتعامل مع اللهجات والاسترجاع والنبرة والسياق التجاري بشكل موثوق — لا في العروض فقط.

BahrTech Team

٢٧ يناير ٢٠٢٦ · 5 دقيقة قراءة

أطلق أحد العملاء روبوت دعم عملاء عربي لمنصة التجارة الإلكترونية الخاصة به. العرض التجريبي كان مبهراً: أجاب المساعد على أسئلة المنتجات بالعربية الفصحى الرسمية، وفهم الاستفسارات المعقدة بدقة، واستشهد بصفحات السياسة بشكل صحيح. بعد ثلاثة أسابيع في الإنتاج، كانت درجات CSAT أسوأ من نموذج البريد الإلكتروني القديم. المشكلة لم تكن النموذج. كانت أن المتسوقين المصريين الحقيقيين كانوا يكتبون باللهجة المصرية، يخلطون بين العربية والإنجليزية في منتصف الجملة، ويطرحون أسئلة لم يرها نصّ التدريب الرسمي قط.

الذكاء الاصطناعي العربي الذي يعمل في المختبر ليس نفسه الذي يعمل مع مستخدميك الفعليين.

العربية ليست لغة واحدة

العربية موجودة على طيف من الفصحى الحديثة — المستخدمة في الكتابة والأخبار والسياقات الرسمية — إلى اللهجات الإقليمية التي تختلف اختلافاً كبيراً في المفردات والقواعد. العربية المصرية والخليجية والشامية والمغربية ليست قابلة للتبادل. روبوت مدرَّب على نصوص الفصحى سيُنتج ردوداً رسمية تبدو آلية بعض الشيء وسيُسيء فهم مدخلات اللهجة غير الرسمية.

أضف إلى ذلك العادة الواسعة في الشرق الأوسط في كتابة العربية بحروف لاتينية وأرقام (Arabizi: "3ayez eh?" بدلاً من "عايز إيه؟") والاستخدام الكثيف للمصطلحات الإنجليزية التقنية حتى داخل الجمل العربية، وستجد توزيع مفردات لم تُدرَّب عليه معظم نماذج التضمين الجاهزة.

عملياً هذا يعني:

الاسترجاع سيفشل إذا كانت قاعدة معرفتك تستخدم نص الفصحى لكن المستخدمين يكتبون باللهجة. المسافة الدلالية بين الاستعلام والمقطع ذي الصلة قد تكون عالية بما يكفي لمنع ظهور المستند الصحيح.
التوليد سيبدو خاطئاً إذا تخلص النموذج للفصحى الرسمية بينما يتوقع المستخدمون نبرة محادثة إقليمية.
اكتشاف النية سيخطئ العامية وأسماء العلامات التجارية بالحروف العربية والطلبات متعددة اللغات.

الاسترجاع أهم من هندسة الـ Prompt للروبوتات التجارية

معظم روبوتات الأعمال تُجيب من جسم معرفة محدد: سياسات الإرجاع، كتالوج المنتجات، إجراءات الخدمة، بروتوكولات طبية. جودة الاسترجاع أهم بكثير من الـ system prompt.

const retriever = vectorStore.asRetriever({
  k: 5,
  filter: { locale: "ar", businessId, category: "policy" },
});

const relevantDocs = await retriever.invoke(userQuery);

const response = await model.invoke([
  {
    role: "system",
    content: `أجب بالعربية المناسبة لسياق المستخدم.
استخدم فقط المعلومات المقدمة في السياق.
إذا لم تجد الإجابة، اطرح سؤالاً توضيحياً مفيداً بدلاً من التخمين.`,
  },
  {
    role: "user",
    content: `السياق:\n${relevantDocs.map((d) => d.pageContent).join("\n\n")}\n\nالسؤال:\n${userQuery}`,
  },
]);

الاسترجاع الجيد يجعل المساعد محدداً ويقلل الهلوسة — لا يستطيع النموذج اختراع تفاصيل سياسة إذا قلت له أن يُجيب فقط من السياق المقدم.

خيارات نموذج التضمين للعربية

ليست كل نماذج التضمين تتعامل مع العربية بشكل جيد. درجات المقياس الإنجليزي لا تتنبأ بجودة الاسترجاع العربي. خيارات تستحق التقييم:

text-embedding-3-large من OpenAI — تغطية متعددة اللغات قوية تشمل الفصحى والعربية الإنجليزية المختلطة. الخيار الافتراضي في بيئة OpenAI.

multilingual-e5-large من Microsoft — مفتوح المصدر، أداء عربي قوي عبر اللهجات، يعمل محلياً. جيد عندما تهم إقامة البيانات أو تكون تكاليف API قيداً.

Cohere embed-multilingual-v3.0 — أداء مستمر وقوي في مهام الاسترجاع العربي عبر اللهجات.

ابنِ مجموعة تقييم من 50-100 سؤال/مستند متوقع تعكس استعلامات مستخدميك الفعلية — بما فيها اللهجة والـ Arabizi والأمثلة متعددة اللغات — وقس Recall@5 لكل نموذج قبل الالتزام.

استراتيجية التقطيع للنص العربي

جمل العربية أطول من الإنجليزية عند كثافة معلومات مماثلة، وثراؤها الصرفي يعني أن التقطيع في منتصف الجملة يفقد سياقاً مهماً.

قطّع حسب الفقرة لا حسب عدد الأحرف للوثائق النثرية. الفقرات تميل لأن تكون وحدات دلالية متماسكة.
تجنب التقطيع في منتصف الجملة. الجمل العربية تحمل معلومات نحوية أساسية طوال طولها؛ جزء من النهاية بدون البداية لا معنى له.
أضف تداخلاً بجملة أو جملتين عندما تكون الفقرات طويلة، للمساعدة عندما يمتد مفهوم عبر حد.
ضمّن عنوان القسم في كل مقطع. القراء العرب يتنقلون في الوثائق عبر العناوين؛ تضمين العنوان يساعد النموذج على الاستشهاد بالسياق بدقة.

اللهجة والنبرة قرارات منتج لا قرارات تقنية

تحديد كيف يتحدث مساعدك يهم أكثر من اختيار النموذج. مساعد متجر فاخر خليجي لا يجب أن يبدو كمركز اتصال مصري. مساعد رعاية صحية يجب أن يكون دافئاً لكن متزناً. مساعد B2B مؤسسي قد يحتاج فصحى رسمية مع مصطلحات إنجليزية.

حدد النبرة المستهدفة بثلاثة مدخلات:

السوق — أي دولة ولهجة أكثر تمثيلاً في مستخدميك؟
حالة الاستخدام — تحويل الدعم، مساعدة المبيعات، حجز المواعيد؟
صوت العلامة التجارية — كيف تتحدث الشركة في مراسلاتها البشرية؟

قيّم المخرجات مع متحدثين أصليين من ذلك السوق، لا بالمقاييس الآلية وحدها. درجات BLEU والتشابه الدلالي لا تخبرك بشيء عما إذا كان الرد يبدو صحيحاً لمستخدم حقيقي.

مسارات التصعيد متطلب أمان لا اختيار

روبوت الأعمال بدون مسارات تصعيد مسؤولية. حدد بوضوح:

متى يُحوّل للإنسان — الشكاوى، المواضيع الحساسة، المحاولات الفاشلة المتكررة.
متى يطلب توضيحاً بدلاً من التخمين.
ما لا يستطيع المساعد الإجابة عليه — تشخيص طبي، استنتاجات قانونية، التزامات مالية تتجاوز صلاحيته.

async function routeMessage(message: string, response: AssistantResponse) {
  const sensitiveTopics = ["complaint", "refund", "medical", "legal", "شكوى", "استرداد"];
  const isSensitive = sensitiveTopics.some((t) =>
    message.toLowerCase().includes(t),
  );
  if (response.confidence < 0.7 || isSensitive) {
    return { action: "escalate", reason: "low_confidence_or_sensitive_topic" };
  }
  return { action: "respond", content: response.text };
}

في المجالات ذات المخاطر العالية — الصحة والمالية والقانون — المساعد الموجَّه الذي يضيق الخيارات أأمن من آلة إجابات مفتوحة.

التقييم الذي يعكس المستخدمين الفعليين

جودة الذكاء الاصطناعي العربي تتدهور بطرق غير واضحة. ما يبدو جيداً في A/B testing إنجليزي قد يكون أسوأ ملحوظاً بالعربية. ابنِ مجموعة تقييم من محادثات الإنتاج الفعلية (مجهولة الهوية) تشمل:

تنويعات لهجية لنفس السؤال.
استعلامات مختلطة: "عايز اعرف الـ delivery fee بتاعت order رقم 5580".
أسئلة بها أخطاء إملائية وتهجئة غير رسمية.
أسئلة يجب أن يرفض الروبوت الإجابة عليها أو يُصعّدها.

شغّل هذا التقييم على كل نموذج وتغيير في الـ prompt قبل النشر للإنتاج. مراجعة الإنسان الناطق باللغة ليست اختيارية — المقاييس الآلية وحدها لن تكتشف إخفاقات النبرة واللهجة.

روبوتات المحادثة العربية تنجح عندما يكون الاسترجاع مبنياً على لغة المستخدم الفعلية، والنبرة مناسبة للسوق، والتصعيد مدمج من البداية، والتقييم يقوم به أشخاص يفهمون اللغة التي يستخدمها عملاؤك فعلاً.

للتحدي الأوسع في بناء واجهات ثنائية اللغة تحتضن هذه المساعدات، راجع بناء تطبيقات Next.js ثنائية اللغة.

الوسوم