لماذا RAG غير كافٍ

أن يبدو ذا صلة وأن يكون ذا صلة ليسا الشيء نفسه.

RAG هو المعيار الحالي

اعتباراً من عام 2024، يُعدّ RAG الطريقة الأكثر شيوعاً لتوظيف نماذج LLM في المؤسسات.

التوليد المعزّز بالاسترجاع. ابحث في وثائق خارجية، أدخلها في السياق، واطلب من النموذج الإجابة بناءً عليها.

RAG يعمل. يتيح لنماذج LLM الرجوع إلى وثائق داخلية لم تُدرَّب عليها قط. يتيح لها عكس معلومات محدّثة. يقلّل الهلوسة بشكل ملحوظ.

بدون RAG، لكان تبنّي المؤسسات لنماذج LLM أبطأ بكثير. RAG تقنية تستحق الاحترام.

لكن لدى RAG قيوداً جوهرية. هذه القيود لا تُحلّ ببناء RAG أفضل. إنها تنبع من الفرضية الأساسية لـ RAG نفسه.

كيف يعمل RAG

جوهر RAG ثلاث خطوات.

الخطوة 1: تقسيم الوثائق إلى أجزاء. ملفات PDF والويكي والوثائق الداخلية تُقسَّم إلى أحجام ثابتة (عادةً 200–500 رمز).

الخطوة 2: تحويل كل جزء إلى متجه تضمين. متجه ذو قيم حقيقية بمئات إلى آلاف الأبعاد. “معنى” النص مُسقَط على نقطة واحدة في فضاء المتجهات.

الخطوة 3: عند ورود استعلام، إيجاد المتجهات المشابهة. يُحوَّل الاستعلام أيضاً إلى متجه. تُختار أعلى 5–20 جزءاً بأعلى تشابه cosine وتُدرج في السياق.

بسيط وأنيق. وهنا تكمن ثلاث مشكلات جوهرية.

المشكلة 1: المشابه ليس ذا صلة

تشابه التضمين يقيس “ما إذا كان نصان يستخدمان كلمات متشابهة في سياقات متشابهة.”

هذا ليس صلة.

مثال.

الاستعلام: “ما كانت إيرادات Apple في الربع الثالث 2024؟”

الأجزاء التي قد يُرجعها بحث التضمين:

“إيرادات Apple في الربع الثالث 2024 كانت 94.9 مليار دولار.” – ذو صلة
“إيرادات Apple في الربع الثالث 2023 كانت 81.8 مليار دولار.” – مشابه لكن فترة زمنية مختلفة
“إيرادات Samsung Electronics في الربع الثالث 2024 كانت 79 تريليون وون.” – مشابه لكن شركة مختلفة
“فطيرة التفاح تحتوي على نحو 296 سعرة حرارية.” – تطابق كلمات مفتاحية

تشابه التضمين لا يستطيع التمييز بين هذه الأربعة. في فضاء المتجهات، “إيرادات Apple” تتجمّع حول منطقة واحدة. سواء كان 2023 أو 2024، Apple أو Samsung – المسافة المتجهية لا تفصلها بشكل موثوق.

إضافة معيد ترتيب يحسّن الأمور. لكن معيد الترتيب أيضاً يقرأ ويحكم على نص بلغة طبيعية، لذا مشكلة الغموض الجوهرية تبقى.

البحث القائم على البنية الدلالية مختلف. إذا كان لكيان “Apple” معرّف فريد، فلن يُخلَط أبداً مع “تفاح” الفاكهة. إذا كان “الربع الثالث 2024” حقلاً زمنياً، فإنه يُميَّز ميكانيكياً عن “الربع الثالث 2023.”

لا حاجة لحساب التشابه. هل يتطابق أم لا؟ نعم أو لا.

المشكلة 2: الأجزاء ليست وحدات معنى

انظر إلى الخطوة الأولى من RAG مرة أخرى. “تقسيم الوثائق إلى أجزاء.”

ذلك “التقسيم” هو المشكلة.

عندما تقسّم وثيقة إلى وحدات من 500 رمز، يُقطع المعنى في المنتصف. فقرة تمتد عبر جزأين. المقدمة والاستنتاج في حجة واحدة يُفصلان.

“يي سون-شين واجه 133 سفينة بـ 12 فقط في معركة ميونغنيانغ” في الجزء أ، و"يشكك العلماء في هذه الأرقام" في الجزء ب. إذا استُرجع الجزء أ فقط لاستعلام ما، فإن معلومات الثقة تدخل السياق وقد فُقدت بالفعل.

اجعل الأجزاء أكبر؟ تستهلك مزيداً من النافذة. اجعلها أصغر؟ يُقطع مزيد من السياق. أضف تداخلاً؟ تُهدر النافذة على التكرار.

مهما عدّلت، المشكلة الجوهرية واحدة. تقسيم نص اللغة الطبيعية بعدد الرموز هو نفسه تقسيم المعنى بعدد الرموز. للمعنى حجمه الطبيعي، وتقسيمه بوحدة لا علاقة لها به يسبب مشكلات.

في التمثيل المهيكل، وحدات المعنى صريحة. إسناد واحد يساوي حافة واحدة. الحافة لا تُقسَّم. البحث يعمل على مستوى الحافة. لا يوجد قطع في منتصف المعنى.

المشكلة 3: جودة نتائج الاسترجاع مجهولة

أرجع RAG 5 أجزاء. قبل وضع هذه الخمسة في السياق، هناك أسئلة يجب طرحها.

ما مصدر هذه المعلومات؟ ما تاريخ المرجع؟ ما مدى يقينها؟ هل تتناقض هذه الخمسة فيما بينها؟

في أجزاء اللغة الطبيعية، لا يمكنك معرفة هذه الأشياء.

قد يُذكر المصدر أو لا يُذكر في مكان ما داخل الجزء كلغة طبيعية. قد يكون المرجع الزمني في مكان ما من الوثيقة، أو قد يكون فُقد عند تقسيم الجزء. الثقة ليس لها خانة بنيوية في اللغة الطبيعية، لذا تكون غائبة في أغلب الأحيان. فحص التناقض يتطلب قراءة جميع الأجزاء الخمسة والتفكير فيها.

في النهاية، يجب تفويض حكم الجودة لنموذج LLM. تستخدم RAG لتقليل تكلفة استدعاءات LLM، لكنك تستدعي LLM للتحقق من نتائج RAG.

في التمثيل المهيكل، المصدر والوقت والثقة حقول. “استبعد العبارات التي لا مصدر لها” سطر استعلام واحد. “استبعد المعلومات قبل 2023” مقارنة حقل واحد. “استبعد الثقة الأقل من 0.5” مقارنة عددية واحدة. لا حاجة لاستدعاء LLM.

الفرضية الأساسية لـ RAG

جذر هذه المشكلات الثلاث شيء واحد.

RAG يبحث في اللغة الطبيعية باللغة الطبيعية.

الوثائق لغة طبيعية. الأجزاء لغة طبيعية. التضمينات تقريبات إحصائية للغة الطبيعية. نتائج البحث لغة طبيعية. ما يدخل السياق لغة طبيعية.

غموض اللغة الطبيعية يتخلل الأنبوب بأكمله.

البحث غير دقيق لأنك تبحث في محتوى غامض بشكله الغامض. السياق يضيع لأنك تقسّم محتوى غامضاً بحجم لا علاقة له بالمعنى. التحقق مستحيل لأنك لا تستطيع استخراج معلومات الجودة من محتوى غامض.

معظم محاولات تحسين RAG تعمل ضمن هذه الفرضية.

استخدم نموذج تضمين أفضل. – التقريب الإحصائي يصبح أكثر دقة، هذا كل شيء. استخدم استراتيجية تقسيم أفضل. – مواضع القطع تتحسن، هذا كل شيء. أضف معيد ترتيب. – تقرأ اللغة الطبيعية مرة أخرى، هذا كل شيء. استخدم بحثاً هجيناً. – تمزج الكلمات المفتاحية والتشابه، هذا كل شيء.

كلها تعمل. كلها تبقى ضمن إطار اللغة الطبيعية. لا شيء منها جوهري.

شروط البديل الجوهري

لتجاوز حدود RAG، يجب أن تتغير الفرضية. ليس البحث في اللغة الطبيعية باللغة الطبيعية، بل البحث في تمثيلات مهيكلة بنيوياً.

هذا البديل يجب أن يستوفي ثلاثة شروط.

البحث بالتطابق، لا بالتشابه. ليس إيجاد “أشياء تبدو متشابهة” بل إيجاد “أشياء تتطابق.” هل يتطابق المعرّف؟ هل هو ضمن النطاق الزمني؟ نعم أو لا. ليس احتمالاً.

وحدة المعنى هي وحدة البحث. ليس التقسيم بعدد الرموز بل التخزين بالإسناد والبحث بالإسناد. لا قطع في منتصف المعنى.

البيانات الوصفية مُضمَّنة في البنية. لا حاجة لاستدعاء LLM للحكم على جودة نتائج البحث. المصدر والوقت والثقة حقول، لذا التصفية الميكانيكية ممكنة.

عندما تتحقق هذه الشروط الثلاثة، ينتقل البحث من “تخمين مرشحين محتملين” إلى “تأكيد ما يتطابق.”

RAG تقنية انتقالية

هذا ليس انتقاصاً من RAG.

كان RAG أفضل إجابة في عالم لم يكن فيه سوى اللغة الطبيعية. عندما كانت الوثائق لغة طبيعية، والمعرفة مخزنة بلغة طبيعية، ونماذج LLM أدوات تعالج اللغة الطبيعية، كان البحث في اللغة الطبيعية باللغة الطبيعية الخيار البديهي.

و RAG يعمل فعلاً. نموذج LLM مع RAG أدق بكثير من نموذج بدونه. هذه حقيقة.

لكن إذا تغيرت فرضية “عالم لا يوجد فيه سوى اللغة الطبيعية”، يتغير موقع RAG أيضاً.

إذا وُجدت تمثيلات مهيكلة، يصبح RAG الواجهة الأمامية التي “تأخذ مُدخلات بلغة طبيعية وتبحث في مخزن مهيكل.” لغة طبيعية -> استعلام مهيكل -> بحث بنيوي -> نتائج مهيكلة -> سياق.

RAG لا يختفي. الواجهة الخلفية تتغير. من بحث تشابه التضمين إلى بحث قائم على البنية الدلالية.

ملخص

RAG هو المعيار الحالي لهندسة السياق. ولديه ثلاثة قيود جوهرية.

المشابه ≠ ذو صلة. تشابه التضمين لا يضمن الصلة. “يبدو متشابهاً” و"ذو صلة" أمران مختلفان.
الجزء ≠ المعنى. التقسيم بعدد الرموز يقطع في منتصف المعنى. المقدمات والاستنتاجات تُفصل. معلومات الثقة تضيع.
الحكم على الجودة مستحيل. المصدر والوقت والثقة للأجزاء المسترجعة لا يمكن تحديدها ميكانيكياً. الحكم عليها يتطلب استدعاء LLM.

جذر المشكلات الثلاث شيء واحد. البحث في اللغة الطبيعية باللغة الطبيعية.

البديل الجوهري هو تغيير الفرضية. التطابق، لا التشابه. الإسناد، لا أجزاء الرموز. بيانات وصفية مُضمَّنة، لا حكم خارجي.

RAG تقنية انتقالية. كان أفضل إجابة في عالم لم يكن فيه سوى اللغة الطبيعية. عندما تتغير تلك الفرضية، تتغير الواجهة الخلفية لـ RAG.