توجد تنسيقات مهيكلة بالفعل. فلماذا نحتاج لغة جديدة؟


الاعتراض الأكثر شيوعاً

حين يصادف أحدهم فكرة لغة تفكير للذكاء الاصطناعي لأول مرة، أول ما يقوله هو:

“ألا توجد تنسيقات مهيكلة بالفعل؟”

وهم محقون. موجودة. والكثير منها.

هناك Markdown. هناك JSON. هناك XML. YAML، TOML، Protocol Buffers، MessagePack، CSV…

العالم يفيض بتنسيقات البيانات. فلماذا لا يزال الذكاء الاصطناعي يفكر باللغة الطبيعية؟

للإجابة على هذا السؤال، يجب أن نحدد بدقة ما يجيده كل تنسيق وما لا يستطيع فعله.


Markdown: الذاكرة الحالية لوكلاء الذكاء الاصطناعي

اعتباراً من 2026، التنسيق الأكثر استخداماً من قبل وكلاء الذكاء الاصطناعي هو Markdown.

Claude Code يتذكر في ملفات .md. الوكلاء المبنيون على GPT يتركون أيضاً ملاحظات بصيغة Markdown. CLAUDE.md، memory.md، notes.md. الذاكرة طويلة المدى للذكاء الاصطناعي تقوم على Markdown في هذه اللحظة.

لماذا Markdown؟ السبب بسيط. LLM تقرأ وتكتب Markdown جيداً. Markdown متوفر بكثرة في بيانات التدريب، وبنيته بسيطة بما يكفي لسهولة التوليد والتحليل.

لكن Markdown هو تنسيق مستندات مصمم لقراءة البشر.

# حالة المشروع
## استراتيجية التخزين المؤقت
- اعتماد قناع بتات SIMD (تقرر 1/28)
- تسريع GPU قيد المراجعة
## غير محلول
- طريقة توليد الاستعلامات لم تُحدد بعد

كيف تفسر الآلة هذا؟

هناك عنوان قسم يسمى “استراتيجية التخزين المؤقت”. تحته، هناك عنصر “اعتماد قناع بتات SIMD”. هناك تاريخ “(1/28)” بين أقواس.

الآلة لا تستطيع فهم هذا بنيوياً. يمكنها أن تعرف من ## أن “استراتيجية التخزين المؤقت” عنوان قسم، لكن العلاقة الدلالية أنها “موضوع فرعي من الهندسة المعمارية” غير موجودة في Markdown. الإنسان يعرف أن “1/28” تاريخ، لكن الآلة يجب أن تخمّن. 28 يناير، أم واحد من ثمانية وعشرين؟

في النهاية، لكي “تفهم” Markdown، يجب على LLM إجراء تفسير بلغة طبيعية. Markdown هو لغة طبيعية مع طبقة مسافات بادئة فوقها — وليست بيانات مهيكلة.


JSON: بنية بلا معنى

JSON تتقدم خطوة عن Markdown.

{
  "entity": "Yi Sun-sin",
  "birth": "1545",
  "death": "1598",
  "occupation": "naval_commander"
}

هناك بنية. أزواج المفتاح-القيمة صريحة. يمكن للآلة تحليلها. الحقول قابلة للوصول.

لكن هناك مشكلة.

JSON لا تعرف ماذا يعني المفتاح “entity”.

الشخص الذي أنشأ هذا JSON يعرف أن “entity” تعني “كائن”. في JSON شخص آخر، نفس المفهوم قد يكون “name” أو “subject” أو “item”.

{"name": "Yi Sun-sin"}
{"subject": "Yi Sun-sin"}
{"item": "Yi Sun-sin"}
{"entity": "Yi Sun-sin"}

أربع ملفات JSON تعبر عن الشيء نفسه، لكن الآلة لا تستطيع معرفة أنها متماثلة.

JSON تفتقر إلى دلالات مشتركة. هناك بنية، لكن لا يوجد اتفاق على ما تعنيه تلك البنية.

كل مشروع ينشئ مخططه الخاص. كل API تستخدم أسماء حقولها الخاصة. ربط المخطط أ بالمخطط ب يتطلب طبقة تحويل إضافية.

هذا هو برج بابل. البنية موجودة، لكن لا أحد يفهم بنية الآخر.


XML: ضريبة الإسهاب

XML حاولت حل مشكلة JSON.

مساحات الأسماء، تعريفات المخططات (XSD)، تعريفات نوع المستند (DTD). توفر بنى فوقية تحدد معنى البنى.

<entity xmlns="http://example.org/schema">
  <name>Yi Sun-sin</name>
  <birth>
    <year>1545</year>
    <calendar>lunar</calendar>
  </birth>
  <death>
    <year>1598</year>
    <cause>killed_in_action</cause>
  </death>
</entity>

يمكن تحديد المعنى. يمكن فرض البنية بالمخططات. أكثر صرامة من JSON.

لكن XML لديها مشكلة قاتلة.

إنها مسهبة.

في XML أعلاه، المعلومات الفعلية هي “Yi Sun-sin، 1545، 1598، killed_in_action”. كل شيء آخر هو وسوم. وسوم الفتح والإغلاق تفوق عدد المعلومات.

لماذا هذه مشكلة للذكاء الاصطناعي؟

نافذة السياق لـ LLM محدودة. إذا كان نقل نفس المعلومات يتطلب 3 أضعاف الرموز، فإن كمية المعلومات التي تسعها النافذة تتقلص إلى الثلث.

XML مسهبة لكي يقرأها البشر بسهولة. لغة تفكير الذكاء الاصطناعي يجب ألا تحتوي هذا الهدر. بالنسبة لـ LLM، الوسم <name> هدر.

و XML تصميم من أوائل الألفية. صُممت في حقبة لم تكن فيها LLM موجودة، للبشر والبرمجيات التقليدية. لم تُصمم أبداً كلغة تفكير للذكاء الاصطناعي.


القيد المشترك

Markdown، JSON، XML. كل من التنسيقات الأربعة لها نقاط قوة، لكنها تشترك في قيود مشتركة.

إنها نصية. جميعها تتسلسل إلى نصوص. يجب على الآلة تحليلها لمعالجتها. التحليل تكلفة.

لغة التفكير المثالية هي تيار ثنائي. تسلسل من كلمات 16 بت. لا حاجة للتحليل. قابلة للتفسير لحظة قراءتها.

صُممت قبل عصر LLM. Markdown من 2004. JSON من 2001. XML من 1998. صُممت في حقبة لم يكن فيها مفهوم LLM موجوداً، للبشر أو البرمجيات التقليدية.

لغة تفكير الذكاء الاصطناعي يجب أن تُصمم في عصر LLM، من أجل LLM. مبدأ التصميم “كلمة واحدة = رمز واحد” يفترض مسبقاً وجود LLM.

نظامها الدلالي الموحد غائب أو ناقص. Markdown ليس لديها نظام دلالي إطلاقاً. JSON لديها بنية لكن بلا معنى. XML يمكنها تعريف مخططات لكنها ليست موحدة.

الفهرس المحاذي دلالياً هو معرّف معنى موحد عالمياً. أينما استُخدم، نفس SIDX يعني نفس الشيء. لا حاجة للتحويل. الإجماع مبني فيه.


ملخص

التنسيقبنيةمعنىصديق لـ LLMثنائيدعم الادعاءاتمُعدِّلات الفعل
Markdownضعيفةلا يوجدعالٍلالا يوجدلا يوجد
JSONنعملا يوجدمتوسطلالا يوجدلا يوجد
XMLنعمجزئيمنخفضلالا يوجدلا يوجد
لغة التفكير المثاليةنعمنعمعالٍنعمنعمنعم

تنسيق جديد مطلوب ليس لأن التنسيقات الموجودة سيئة. بل لأن التنسيقات الموجودة صُنعت في حقبة مختلفة، لغرض مختلف.

Markdown صُنعت للمستندات التي يقرأها البشر. JSON صُنعت لتبادل البيانات في واجهات برمجة الويب. XML صُنعت للتسلسل العام للمستندات والبيانات.

تنسيق لتسجيل وتراكم تفكير الذكاء الاصطناعي. هذا لم يوجد بعد.

حين يختلف الغرض، يجب أن تختلف الأداة.