لماذا التصفية ضرورية

المعلومات الصالحة ليست دائماً المعلومات المطلوبة.

لديك 1,000 معلومة اجتازت التحقق

افترض أن التحقق الميكانيكي نجح.

الشكل صحيح، الحقول المطلوبة موجودة، المعرّفات صالحة، الأنواع مناسبة، وسلامة المراجع محفوظة – بقيت 1,000 عبارة.

كلها معلومات صالحة. تتوافق مع المواصفات. لا سبب لرفضها.

لكن نافذة السياق تتسع لـ 300 فقط.

أي 300 تُدخل؟

هذه مشكلة التصفية.

التحقق والتصفية يطرحان سؤالين مختلفين

ما يسأله التحقق: “هل هذه المعلومات صالحة؟” ما تسأله التصفية: “هل هذه المعلومات مطلوبة الآن؟”

التحقق ينظر إلى خصائص المعلومات ذاتها. هل الشكل صحيح؟ هل الحقول موجودة؟ هل المراجع صالحة؟ لا يهتم بموضوع المعلومات أو الغرض الذي ستخدمه.

التصفية تنظر إلى العلاقة بين المعلومات والموقف. هل هي ذات صلة بهذا الاستدلال بالذات الآن؟ هل يمكن الوثوق بهذه المعلومات؟ هل هي حديثة بما يكفي؟

التحقق ممكن بدون سياق. تحتاج فقط إلى المواصفات. التصفية مستحيلة بدون سياق. تحتاج أن تعرف “ما المطلوب الآن.”

التحقق حتمي. صالح أو غير صالح. التصفية حكم. الصلة لها درجات، والموثوقية لها عتبات، والحداثة لها سياق.

التحقق رخيص. التصفية أغلى نسبياً.

لهذا يأتي التحقق أولاً والتصفية بعده. إذا صفّى التحقق أولاً، فإن التصفية تحكم على مجموعة أصغر. تكلفة الحكم المكلف تنخفض.

ثلاثة أشياء تحكم عليها التصفية

التصفية تنظر في ثلاثة أشياء رئيسية.

الصلة: هل هذه المعلومات مطلوبة لهذا الاستدلال؟

المستخدم سأل عن “الربح التشغيلي لشركة Samsung Electronics في الربع الثالث 2024.”

من بين العبارات الصالحة التي اجتازت التحقق:

الربح التشغيلي لشركة Samsung Electronics في الربع الثالث 2024 كان 9.18 تريليون وون.
إيرادات Samsung Electronics في الربع الثالث 2024 كانت 79 تريليون وون.
الربح التشغيلي لشركة Samsung Electronics في الربع الثالث 2023 كان 2.43 تريليون وون.
خطة الإنفاق الرأسمالي لأشباه الموصلات في Samsung Electronics هي 53 تريليون وون اعتباراً من 2025.
مقر Samsung Electronics في سوون.

كلها صالحة. كلها عن Samsung Electronics. هل تُدخلها جميعاً في السياق؟

موقع المقر غير ذي صلة. خطة الإنفاق الرأسمالي ذات صلة منخفضة. الربح التشغيلي لعام 2023 قد يكون مفيداً للمقارنة. الإيرادات مرتبطة ارتباطاً وثيقاً بالربح التشغيلي.

في RAG باللغة الطبيعية، هذا الحكم يُفوَّض لتشابه التضمين. مُرتَّب بالمسافة المتجهية من “الربح التشغيلي لشركة Samsung Electronics.” لكن كما ناقشنا سابقاً، المشابه ليس ذا صلة.

في التمثيل المهيكل، حكم الصلة له مُدخلات مختلفة. إلى أي كيان تشير العبارة؟ Samsung Electronics. أي خاصية؟ الربح التشغيلي. أي وقت؟ الربع الثالث 2024.

إذا كان الكيان والخاصية والوقت موجودين كحقول، يمكنك إيجاد “نفس الكيان، نفس الخاصية، نفس الوقت” بدقة. ويمكنك تضمين أو استبعاد “نفس الكيان، نفس الخاصية، وقت مختلف” عمداً. مطابقة حقول، لا مسافة متجهية.

الصلة لا تزال حكماً. ليست حتمية. لكن ما إذا كان مُدخل ذلك الحكم مسافة متجهية أو حقولاً مهيكلة يُحدث فرقاً في الدقة.

الموثوقية: هل يمكن تصديق هذه المعلومات؟

توجد عبارتان عن نفس المحتوى.

المصدر: إفصاح علاقات المستثمرين لشركة Samsung Electronics. الثقة: 1.0. “الربح التشغيلي في الربع الثالث 2024: 9.18 تريليون وون.”
المصدر: مدوّنة مجهولة. الثقة: 0.3. “الربح التشغيلي في الربع الثالث 2024: نحو 10 تريليون وون.”

أيهما يدخل السياق؟

الأولى بالطبع.

لكن لكي يكون هذا الحكم “بديهياً”، يجب أن يكون المصدر والثقة موجودين بشكل قابل للقراءة.

في أجزاء اللغة الطبيعية، المصدر مدفون في مكان ما في النص أو غائب. الثقة لم تُعبَّر عنها قط. لمقارنة جزأين والحكم على أيهما أكثر موثوقية، يجب أن يقرأ LLM ويفكّر.

في التمثيل المهيكل، المصدر والثقة حقول. “استبعد الثقة الأقل من 0.5” مقارنة واحدة. “اشمل المصادر الأولية فقط” مطابقة حقول.

تكلفة تصفية الموثوقية تنتقل من استدلال LLM إلى مقارنة حقول.

الحداثة: هل هذه المعلومات حديثة بما يكفي؟

“من هو الرئيس التنفيذي لشركة Samsung Electronics؟”

الوقت: مارس 2024. “الرئيس التنفيذي لشركة Samsung Electronics: كيونغ كي-هيون.”
الوقت: ديسمبر 2022. “الرئيسان التنفيذيان المشتركان لشركة Samsung Electronics: هان جونغ-هي، كيونغ كي-هيون.”

كلاهما صالح. الشكل صحيح، المصادر موجودة. لكن الأحدث هو المطلوب.

في اللغة الطبيعية، قد يُذكر الوقت أو لا يُذكر في النص. إذا قال “العام الماضي”، يجب أيضاً حساب متى كان “العام الماضي.”

في التمثيل المهيكل، الوقت حقل. تاريخ بصيغة ISO 8601. “اشمل أحدث عبارة فقط” عملية فرز واحدة.

والأهم أن معيار الحداثة يعتمد على السياق. إذا سأل أحد عن الرئيس التنفيذي، نحتاج أحدث مُدخل. إذا سأل عن جميع الرؤساء التنفيذيين السابقين، كل مُدخل مطلوب. إذا سأل عن اتجاهات الإيرادات، نحتاج آخر 8 أرباع.

إذا كان الوقت موجوداً كحقل، يمكن التعبير عن هذه الشروط كاستعلام. إذا كان الوقت مدفوناً في اللغة الطبيعية، يجب استخراجه في كل مرة.

لماذا التصفية ليست تحققاً ميكانيكياً

هناك تمييز مهم هنا.

من معايير التصفية الثلاثة – الصلة، الموثوقية، الحداثة – يمكن معالجة الموثوقية والحداثة ميكانيكياً إلى حد كبير في التمثيل المهيكل. مقارنة حقول، فرز قيم، تصفية نطاق.

إذن لماذا نسمّي هذا “تصفية” وليس “تحققاً”؟

التحقق ينظر فقط إلى خصائص المعلومات ذاتها. “هل لهذه العبارة حقل وقت؟” موجود أو غائب. لا حاجة لسياق.

التصفية تنظر إلى العلاقة بين المعلومات والموقف. “هل وقت هذه العبارة مناسب لهذا السؤال؟” يجب أن تعرف ما السؤال لتجيب.

كلاهما يفحص نفس حقل الوقت، لكن التحقق يتحقق من “الوجود” والتصفية تحكم على “الملاءمة.”

الوجود لا يحتاج سياقاً. الملاءمة تحتاج سياقاً.

هذا الفرق هو سبب فصل الأنبوب للمرحلتين.

هيكل تكلفة التصفية

التصفية أغلى من التحقق. لكن مدى غلائها يعتمد على التمثيل.

التصفية في أنبوب اللغة الطبيعية: حكم الصلة – استدلال LLM أو حساب تشابه التضمين. حكم الموثوقية – LLM يستخرج معلومات المصدر من النص ويقيّمها. حكم الحداثة – LLM يستخرج معلومات الوقت من النص ويقارنها. كله تفكير. كله مكلف.

التصفية في التمثيل المهيكل: حكم الصلة – مطابقة حقول الكيان/الخاصية + حكم قائم على السياق. حكم الموثوقية – مقارنة حقل الثقة. مطابقة حقل المصدر. حكم الحداثة – فرز حقل الوقت. مقارنة نطاق. الموثوقية والحداثة عمليات على حقول. الصلة وحدها تتطلب حكماً.

بعبارة أخرى، الهيكلة تحوّل اثنين من ثلاثة معايير تصفية إلى عمليات ميكانيكية. ما يبقى هو الصلة وحدها. وحتى الصلة تضيق من “هل هذه الكتلة النصية مشابهة للسؤال” إلى “هل هذه الخاصية لهذا الكيان ذات صلة بالسؤال”، مما يجعل الحكم أوضح.

التكلفة الإجمالية للتصفية تنخفض بشكل ملحوظ.

ماذا يحدث بدون تصفية

إذا تحققت لكن أدخلت كل شيء في السياق بدون تصفية.

كل الـ 1,000 معلومة الصالحة تدخل. منها 30 فقط مطلوبة الآن.

LLM يقرأ الـ 1,000 كلها. القراءة تكلّف مالاً. 970 معلومة غير ضرورية تشتت الانتباه. الأبحاث تُظهر أن زيادة المعلومات غير ذات الصلة في السياق تزيد احتمال الهلوسة. جودة التفكير في الـ 30 المهمة فعلاً تتدهور.

النافذة أيضاً تُهدر. من المساحة التي تشغلها 1,000 عنصر، مساحة 970 منها هدر. تلك المساحة كان يمكن أن تحوي معلومات أخرى أكثر صلة.

التصفية تتعلق بإدارة نافذة محدودة بشكل محدود. إذا أكّد التحقق “هل تؤهَّل للدخول”، فالتصفية تحكم “هل لديها سبب للدخول.”

التأهيل مسألة شكل. السبب مسألة سياق. كلاهما ضروري.

التصفية سياسة

نقطة مهمة أخرى.

معايير التصفية ليست ثابتة. تتغير بحسب السياق.

تصفية لوكيل استشارات طبية: عتبة الموثوقية عالية. استبعد الثقة الأقل من 0.9. معيار الحداثة صارم. استبعد المعلومات الطبية الأقدم من 3 سنوات. استبعد المصادر غير المنشورة في مجلات محكّمة.

تصفية لوكيل محادثة عادية: عتبة الموثوقية منخفضة. المعلومات التقريبية مقبولة. معيار الحداثة مرن. المعلومات الأقدم قد تُشمل حسب السياق. قيود المصادر فضفاضة.

نفس المعلومات تمر في وكيل وتُرفض في آخر. المعلومات لم تتغير. السياسة مختلفة.

هذا يعني أن التصفية ليست مجرد مشكلة تقنية بل مشكلة تصميم. “ما الذي يدخل السياق” هو نفس السؤال “بأي معايير نريد لهذا الوكيل أن يعمل.”

في التمثيل المهيكل، هذه السياسة تُعبَّر عنها تصريحياً. “confidence >= 0.9, time >= 2022, source_type = peer-reviewed.” سطر استعلام واحد.

في اللغة الطبيعية، هذه السياسة تُكتب كلغة طبيعية في الموجّه. “يرجى الرجوع فقط إلى معلومات موثوقة وحديثة.” ما إذا كان LLM يتبع هذا باستمرار مسألة احتمال.

ملخص

ليست كل المعلومات التي تجتاز التحقق مطلوبة. نافذة السياق المحدودة يجب أن تحوي فقط ما هو مطلوب للاستدلال الحالي.

التصفية تحكم على ثلاثة أشياء. الصلة – هل هذه المعلومات مطلوبة للسؤال الحالي؟ الموثوقية – هل يمكن تصديق هذه المعلومات؟ الحداثة – هل هذه المعلومات حديثة بما يكفي؟

التحقق والتصفية يطرحان سؤالين مختلفين. التحقق يسأل “هل هي صالحة؟"؛ التصفية تسأل “هل هي مطلوبة؟” التحقق ممكن بدون سياق؛ التصفية تتطلب سياقاً. التحقق يأتي أولاً؛ التصفية تأتي بعده.

في التمثيل المهيكل، اثنان من ثلاثة معايير للتصفية – الموثوقية والحداثة – يتحولان إلى عمليات على حقول. ما يبقى هو الصلة وحدها، وحتى هي تصبح أوضح من خلال مطابقة الحقول البنيوية.

التصفية سياسة. نفس المعلومات تُشمل أو تُستبعد حسب السياق. في التمثيل المهيكل، هذه السياسة تُعلَن كاستعلام. في اللغة الطبيعية، هذه السياسة تُكتب في الموجّه كأمنية.