اللغة الطبيعية تطول حتماً لحل الغموض. في بنية واضحة، تختفي هذه التكلفة.


تكلفة الغموض

“He went to the bank.”

7 رموز. قصيرة. تبدو فعالة.

لكن هذه الجملة غير قابلة للاستخدام. لا يمكن وضعها في سياق تفكير الذكاء الاصطناعي. لأنها غامضة.

من هو “he”؟ هل “bank” مؤسسة مالية أم ضفة نهر؟ متى ذهب؟ لماذا ذهب؟

التفكير انطلاقاً من هذه الجملة ينتج أربع فروع من عدم اليقين. عدم اليقين ينتشر عبر كل خطوة لاحقة من التفكير. حين يُخرَج عدم يقين منتشر كأنه يقين، تلك هي الهلوسة.

لذلك تحاول اللغة الطبيعية حل الغموض. الطريقة الوحيدة لحله هي استخدام كلمات أكثر.


تكلفة الحل

لننظر إلى نسخة غير غامضة من الجملة.

“كيم تشولسو، رئيس قسم في فريق المالية بشركة Samsung Electronics، زار فرع كانغنام لبنك Shinhan يوم الاثنين 15 يناير 2024، لفتح حساب شركة.”

الآن لا يوجد غموض. الفاعل محدد. المكان محدد. الطابع الزمني مذكور. الغرض مذكور.

لكن 7 رموز أصبحت 40.

الـ 33 رمزاً الإضافية هي بالكامل تكلفة إزالة الغموض. ليست معلومات جديدة. تحديد “he” بـ “كيم تشولسو، رئيس قسم في فريق المالية بشركة Samsung Electronics” لم يضف معنى – بل أزال الغموض.

في اللغة الطبيعية، الوضوح ليس مجانياً. لتصبح واضحاً، يجب أن تصبح طويلاً. هذه خاصية بنيوية للغة الطبيعية.


لماذا تطول اللغة الطبيعية حتماً

تطورت اللغة الطبيعية للتواصل بين البشر. في التواصل البشري، الغموض ميزة.

“ذهب إلى البنك، سمعت.”

إذا كان المتحدث والمستمع يتشاركان نفس السياق، فهما يعرفان بالفعل من هو “هو” وأي “بنك”. 7 رموز كافية. الغموض آلية ضغط. يحذف بالاعتماد على السياق المشترك.

المشكلة تنشأ في جانب فك الضغط.

لنقل الرسالة لشخص لا يشارك السياق، يجب استعادة كل ما حُذف. الاستعادة تجعله أطول.

في اللغة الطبيعية، الوضوح والإيجاز مقايضة. واضح يعني طويل. قصير يعني غامض. لا يمكنك الحصول على كليهما في آنٍ واحد.

هذا القيد الأساسي للغة الطبيعية.


الذكاء الاصطناعي ليس لديه سياق مشترك

في المحادثة بين البشر، الغموض فعال. عقود من الخبرة المشتركة والخلفية الثقافية ومجرى المحادثة تحل الغموض تلقائياً.

الذكاء الاصطناعي لا يملك هذا.

النص داخل نافذة سياق الذكاء الاصطناعي هو كل ما يوجد. السياق خارج النص غير موجود.

ضع “He went to the bank” في السياق، ويبدأ الذكاء الاصطناعي التفكير بأربع فروع من عدم اليقين. يختار التفسير “الأكثر معقولية” ويقبل خطر الخطأ.

لهذا اللغة الطبيعية غير مناسبة لسياق الذكاء الاصطناعي.

اكتب بوضوح وعدد الرموز ينفجر، مهدراً مساحة النافذة. اكتب باختصار والغموض يصبح مادة خام للهلوسة.

طالما تستخدم اللغة الطبيعية، لا مفر من هذه المعضلة.


الوضوح البنيوي كحل

لحل هذه المعضلة، يجب كسر المقايضة بين الوضوح والإيجاز.

في اللغة الطبيعية، هذا مستحيل. حل الغموض يتطلب إضافة كلمات.

لكن في تمثيل واضح بنيوياً، هذا ممكن.

في اللغة الطبيعية، تحديد “كيم تشولسو” يتطلب كتابة “كيم تشولسو، رئيس قسم في فريق المالية بشركة Samsung Electronics”. في التمثيل المهيكل، معرّف فريد واحد يفي بالغرض. المعرّف فريد بطبيعته. المُعدِّل “فريق المالية بشركة Samsung Electronics” غير ضروري. المُعدِّلات أدوات إزالة غموض للبشر – غير ضرورية للآلات.

في اللغة الطبيعية، حل ما إذا كان “bank” يعني مؤسسة مالية أو ضفة نهر يتطلب كتابة “بنك Shinhan، فرع كانغنام”. في التمثيل المهيكل، معرّف الكيان يشير إلى المؤسسة المالية. الغموض يُحظر عند المصدر بواسطة البنية.

في اللغة الطبيعية، تحديد طابع زمني يتطلب كتابة “الاثنين 15 يناير 2024”. في التمثيل المهيكل، قيمة تدخل حقل الوقت. لأن الحقل موجود، الحذف مستحيل. لأن القيمة مُنمَّطة، لا يوجد غموض في التفسير.

في الوضوح البنيوي، تكلفة إزالة الغموض تتقارب نحو الصفر. المعرّفات غير غامضة، لذلك المُعدِّلات غير ضرورية. الحقول موجودة، لذلك الحذف مستحيل. القيم مُنمَّطة، لذلك التفسير حتمي.


الضغط هو منتج ثانوي للتوضيح

هنا يحدث شيء مثير للاهتمام.

جعله واضحاً يجعله أقصر.

في اللغة الطبيعية، الوضوح يجعل الأشياء أطول. في التمثيل المهيكل، الوضوح يجعل الأشياء أقصر.

لماذا؟

لأن معظم ما يجعل جمل اللغة الطبيعية طويلة هو تكلفة إزالة الغموض.

في “كيم تشولسو، رئيس قسم في فريق المالية بشركة Samsung Electronics”، “فريق المالية بشركة Samsung Electronics” و"رئيس قسم" ليسا معلومات – بل أدوات تعريف. مُعدِّلات لتضييق من هو “هو”. مع معرّف فريد، كل هذه المُعدِّلات تختفي.

في “الاثنين 15 يناير 2024”، كلمة “الاثنين” زائدة. 15 يناير يحدد بالفعل يوم الأسبوع. ومع ذلك في اللغة الطبيعية، تُضاف مثل هذه الزيادة تقليدياً للوضوح. في حقل وقت مُنمَّط، مثل هذه الزيادة مستحيلة بنيوياً.

نتيجة التوضيح البنيوي، يصبح التعبير أقصر من اللغة الطبيعية.

هذا ليس ضغطاً مقصوداً. إنه نتيجة اختفاء تكلفة إزالة الغموض.


مفارقة الجملة الواحدة

هناك شيء يجب الاعتراف به بصدق هنا.

لجملة واحدة، التمثيل المهيكل يمكن أن يكون أطول من اللغة الطبيعية.

“يي سون-شين كان عظيماً.”

باللغة الطبيعية، هذا يتم في 7 رموز. حوّلها إلى تمثيل مهيكل – عقدة كيان، عقدة سمة، حافة فعل، زمن، حقل ثقة – والتكاليف البنيوية الإضافية يمكن أن تكون أكبر من الجملة نفسها.

هذا صحيح. هناك تكلفة ثابتة لتضمين الوضوح في البنية.

لكن مع زيادة عدد العبارات، يحدث انعكاس.

إذا كان هناك 100 عبارة عن يي سون-شين، اللغة الطبيعية تكتب “يي سون-شين” 100 مرة. في التمثيل المهيكل، تُعرّف عقدة يي سون-شين مرة واحدة و100 حافة تشير إليها.

إذا كان 50 عبارة من نفس المصدر، اللغة الطبيعية تستشهد بالمصدر في كل مرة أو تحذفه وتصبح غامضة. في التمثيل المهيكل، البيانات الوصفية تُربط مرة واحدة.

مع تراكم العبارات، ترتفع معدلات مشاركة العقد. مع ارتفاع معدلات المشاركة، تنمو مكاسب الوضوح البنيوي.

عملياً، يبدأ الانعكاس عند نحو 20 عبارة. في هندسة السياق، نادراً ما تكون المعلومات الموضوعة في النافذة أقل من 20 عبارة.

عملياً، التمثيل المهيكل دائماً أوضح ودائماً أقصر.


التفاعل المتسلسل الذي يخلقه الوضوح

التوضيح لا ينتج الضغط فحسب.

الفهرسة تصبح ممكنة. حين توجد معرّفات غير غامضة، يصبح البحث الدقيق ممكناً. البحث عن “إيرادات Apple” لا يسحب “القيمة الغذائية للتفاح”. إذا كان المعرّف يُرمّز المعنى، قناع بتات واحد يضيّق المرشحين.

التحقق يصبح ممكناً. حين تكون البنية مُنمَّطة، “هل هذا تعبير صالح؟” يمكن الحكم عليه ميكانيكياً. في اللغة الطبيعية، مفهوم “جملة غير صالحة” غير موجود. في بنية واضحة، إذا كان حقل مطلوب فارغاً، فهو غير صالح.

فحص الاتساق يصبح ممكناً. حين تكون العبارات عن نفس الكيان غير غامضة، “هل هاتان العبارتان تتناقضان؟” يمكن الحكم عليه ميكانيكياً. في اللغة الطبيعية، تحديد ما إذا كان “المدير التنفيذي هو أ” و"المدير التنفيذي هو ب" متناقضين يتطلب من الذكاء الاصطناعي قراءة الجملتين والتفكير. في بنية واضحة – نفس الكيان، نفس العلاقة، قيم مختلفة – يُكتشف تلقائياً.

الوضوح هو الشرط المسبق لأنبوب هندسة السياق بأكمله. الفهرسة، التحقق، التصفية، فحص الاتساق – لا شيء من هذا يعمل إذا لم تكن المعلومات واضحة.

التوضيح ليس مرحلة في الأنبوب. إنه الشرط الذي يجعل الأنبوب ممكناً.


ملخص

في اللغة الطبيعية، الوضوح والإيجاز مقايضة. واضح يعني طويل. قصير يعني غامض.

الذكاء الاصطناعي ليس لديه سياق مشترك. غموض اللغة الطبيعية يصبح مادة خام للهلوسة. حل الغموض يُنفخ عدد الرموز ويُهدر النافذة.

تمثيل واضح بنيوياً يكسر هذه المقايضة. المعرّفات الفريدة تحظر الغموض عند المصدر. الحقول المُنمَّطة تجعل الحذف مستحيلاً. حين تختفي تكلفة إزالة الغموض، يتبع الضغط كمنتج ثانوي.

التوضيح هو الشرط المسبق لهندسة السياق. إذا لم تكن المعلومات واضحة، لا تعمل الفهرسة والتحقق وفحص الاتساق.

الضغط ليس الهدف. التوضيح هو الهدف. الضغط يتبع.