لماذا نحتاج إلى لغة اصطناعية؟

اللغة الطبيعية أوصلت الإنسان إلى هنا. لكنها لم تعد كافية.

اللغة الطبيعية: الاختراع الأعظم

أعظم تقنية ابتكرها الإنسان هي اللغة الطبيعية.

ليس اكتشاف النار، ولا اختراع العجلة، ولا اختراع أشباه الموصلات. ما جعل كل ذلك ممكناً هو اللغة الطبيعية.

بفضل اللغة الطبيعية أمكن نقل المعرفة. بفضل اللغة الطبيعية أمكن التعاون. بفضل اللغة الطبيعية أمكن للأحياء أن يرثوا أفكار الأموات.

السبب في أن الإنسان العاقل سيطر على الأرض ليس عضلاته بل لغته. لعشرات الآلاف من السنين، كانت اللغة الطبيعية وسيط كل نشاط فكري بشري.

والآن، أصبحت اللغة الطبيعية عنق الزجاجة في عصر الذكاء الاصطناعي.

لماذا نشأت اللغة الطبيعية؟

لفهم هذه المشكلة، يجب العودة إلى الغرض الأصلي للغة الطبيعية.

تطورت اللغة الطبيعية من أجل الاتصال الآني بين إنسان وإنسان.

حين كان البشر الأوائل يصطادون في السافانا، لم يكن المطلوب لنقل “هناك أسد!” بنية منطقية دقيقة بل سرعة الإيصال.

هذا الضغط التطوري حدّد جميع خصائص اللغة الطبيعية.

الغموض ميزة. لا يهم أن “هناك” تعني كم متراً بالضبط. فحين يلتفت السامع سيرى الأسد. السياق يعوّض الغموض.

التكرار ميزة. يجب أن يصل المعنى حتى لو ابتلعت الرياح نصف الكلام. لذلك تعبّر اللغة الطبيعية عن المعنى نفسه بطرق متعددة.

التلميح ميزة. “كيف حالك؟” في العربية قد تكون تحية صباحية دون انتظار إجابة حرفية، لأن السياق الثقافي المشترك يفكّ شفرة التلميح.

كل هذه الخصائص مزايا في التواصل بين البشر. سريعة ومرنة وتتكيّف مع السياق.

المشكلة تظهر حين نحاول استخدامها مع الذكاء الاصطناعي.

ماذا تعني اللغة الطبيعية بالنسبة للذكاء الاصطناعي؟

نماذج LLM الحالية تستقبل لغة طبيعية، وتستدل بلغة طبيعية، وتُخرج لغة طبيعية.

هذا يشبه إجراء تجربة كيميائية مع تسجيل كل القياسات بعبارات مثل “كثير”، “قليلاً”، “تقريباً بهذا القدر”.

“صلاح الدين كان عظيماً.”

ماذا يحدث حين يعالج الذكاء الاصطناعي هذه الجملة؟

من قال إنه عظيم؟ المتحدث؟ المؤرخون؟ المجتمع العربي؟ بأي معيار عظيم؟ عسكرياً؟ أخلاقياً؟ من حيث التأثير التاريخي؟ بأي حقبة؟ في عصره؟ اليوم؟ بأي درجة يقين؟ حقيقة؟ رأي؟ تخمين؟

لا تحدد اللغة الطبيعية أياً من ذلك. كل شيء ملمّح إليه تحت عبارة “افهم من السياق”.

الإنسان يملك عتاداً تطورياً عمره عشرات آلاف السنين لفك هذه التلميحات. تعابير الوجه، نبرة الصوت، التجارب المشتركة، الخلفية الثقافية. الذكاء الاصطناعي لا يملك شيئاً من ذلك. ليس لديه سوى النص.

لذلك يخمّن. ثم يقول تخمينه وكأنه حقيقة مؤكدة. نسمي ذلك “الهلوسة (Hallucination)”.

الهلوسة ليست خللاً برمجياً. طالما تُستخدم اللغة الطبيعية كلغة استدلال للذكاء الاصطناعي، فهي نتيجة بنيوية حتمية.

الهلوسة تولد من غموض اللغة الطبيعية

لنكن أكثر دقة عند هذه النقطة.

حين يجيب LLM بأن “صلاح الدين انتصر في معركة حطين عام 1187”، ما مستند هذه الجملة؟

لأن أنماطاً مشابهة لهذه الجملة ظهرت بتواتر عالٍ في بيانات التدريب.

لكن من أي مصدر جاءت تلك الأنماط، ما مدى موثوقية ذلك المصدر، ما التاريخ المرجعي لهذه المعلومات، هل ثمة روايات متعارضة — كل ذلك لا يمكن احتواؤه بنيوياً في مخرجات اللغة الطبيعية.

لا مكان للبيانات الوصفية في اللغة الطبيعية.

“صلاح الدين انتصر في حطين” و “تذكر المصادر التاريخية أن صلاح الدين انتصر في حطين” هما في اللغة الطبيعية مجرد جملتين مختلفتي الطول.

لكن معرفياً هما نوعان مختلفان تماماً من الأقوال. الأولى ادّعاء بحقيقة، والثانية سرد محدد المصدر.

اللغة الطبيعية لا تميّز بينهما بنيوياً. لذلك لا يميّز الذكاء الاصطناعي أيضاً. ولذلك تحدث الهلوسة.

لغات البرمجة ليست الحل

“إذن لماذا لا نستخدم لغة برمجة؟”

لغات البرمجة غير غامضة. بنيوية. دقيقة. لكنها لغات لوصف الإجراءات وليست لغات لوصف العالم.

حاول التعبير عن “صلاح الدين كان عظيماً” بلغة Python:

is_great("صلاح الدين") == True

هذا ليس سرداً بل حكم منطقي (Boolean). من أصدر الحكم؟ بأي دليل؟ في أي سياق؟ بأي درجة يقين؟ لا تملك لغات البرمجة بنية لاحتواء ذلك.

صيغ البيانات مثل JSON وXML وRDF كذلك. فيها بنية، لكن لا يوجد نظام موحّد يحدد معنى تلك البنية. كل مشروع يصنع مخططه الخاص، وتلك المخططات لا تتوافق مع بعضها.

اللغة الطبيعية غنية بالمعنى لكن بلا بنية. لغات البرمجة فيها بنية لكن بلا معنى. صيغ البيانات فيها بنية ومعنى لكنهما غير موحّدين.

المطلوب نوع مختلف من اللغة.

الطريق الذي رسمه LLVM

هناك سابقة دقيقة في علم الحاسوب.

في التسعينيات، كانت هناك عشرات لغات البرمجة وعشرات بنى المعالجات. لدعم كل لغة لكل بنية كانت هناك حاجة إلى N × M مترجماً.

حل LLVM كان التمثيل الوسيط (IR, Intermediate Representation).

كل لغة تُترجم إلى LLVM IR. وLLVM IR يُترجم إلى كل بنية. يكفي N + M محوّلاً فقط.

المستخدم لا يرى LLVM IR. يكتب بلغة C++ ويحصل على ملف تنفيذي. LLVM IR يعمل في الخفاء.

GEUL هو LLVM IR للذكاء الاصطناعي.

كل لغة طبيعية تُترجم إلى GEUL. GEUL يُخزّن في WMS، ويُستخدم في الاستدلال، ثم يُترجم مرة أخرى إلى لغة طبيعية. المستخدم لا يرى GEUL. يسأل بلغة طبيعية، ويتلقى إجابة بلغة طبيعية. GEUL يعمل في الخفاء.

الشروط التي يجب أن تستوفيها اللغة الاصطناعية

لتجاوز حدود اللغة الطبيعية دون فقدان قوتها التعبيرية، يجب أن تستوفي اللغة الاصطناعية الشروط التالية في آن واحد:

1. إزالة الغموض

عند إدخال “صلاح الدين كان عظيماً”، يجب أن يتضح بنيوياً “من، في أي سياق، بأي دليل، بأي درجة يقين قال ذلك”. إن كان هناك حقل فارغ، يُعلَّم على أنه فارغ. لا اعتماد على التلميح.

2. بيانات وصفية مدمجة

كل سرد يجب أن يتضمن المصدر والزمن ودرجة الثقة ووجهة النظر (POV) ليس كحاشية منفصلة بل كجزء من بنية السرد نفسه. بدون ذلك، يستحيل بناء ذكاء اصطناعي شفاف (White-box).

3. ملاءمة لنماذج LLM

يجب أن يستطيع LLM “تعلّم” هذه اللغة. ليس ضرورياً أن يفهمها الإنسان بسهولة. المهم أن تكون قابلة للتجزئة إلى رموز (Tokenization)، ذات أنماط منتظمة، وتتبع بنية ثابتة.

4. القدرة على تمثيل الرسم البياني

العالم رسم بياني لا جدول بيانات. الكيانات عقد، والعلاقات حواف. يجب أن تستطيع اللغة الاصطناعية تسلسل الرسوم البيانية بشكل طبيعي.

5. فصل الحقيقة عن السرد

“صلاح الدين توفي عام 1193” ليست حقيقة بحد ذاتها. “سجّل ابن شداد أن صلاح الدين توفي عام 1193” هي البيانات الأولية. يجب أن تفرض اللغة الاصطناعية هذا التمييز بنيوياً.

6. قابلية التوسع المستقبلي

يجب أن يظل النظام المحدد اليوم قابلاً للتوسع مع الحفاظ على التوافق العكسي بعد 10 سنوات، و100 سنة، وفي مستقبل لا يمكن تخيّله.

لماذا المحاولات السابقة غير كافية؟

ليست هذه المحاولة الأولى من نوعها.

الإسبرانتو كانت لغة اصطناعية مصممة للبشر. منظمة بنيوياً، لكنها لم تُصمَّم لاحتواء استدلال الذكاء الاصطناعي. أعطت الأولوية لسهولة التعلم على الدقة الدلالية.

OWL/RDF كان نظام تمثيل دلالي للآلات. صارم منطقياً، لكنه صُمّم في عصر ما قبل LLM. صعب التحويل من وإلى اللغة الطبيعية، ومُطنَب في التعبير. والأسوأ أنه بطيء بشكل قاتل. الاستدلال على نطاق واسع غير واقعي.

الرسوم البيانية المعرفية (Wikidata, Freebase) مثّلت العالم كرسم بياني. لكنها تخزّن “حقائق” لا “سرديات”. تخزّن “صلاح الدين كان سلطاناً” كثلاثية، لكنها لا تحتوي على من ادّعى ذلك، وبأي درجة يقين.

Chain-of-Thought يسجّل عملية استدلال LLM بلغة طبيعية. اتجاه صحيح، لكن بما أن وسيط التسجيل هو اللغة الطبيعية فإنه لا يحل مشكلة الغموض جذرياً.

كل هذه المحاولات تستوفي شرطاً أو شرطين، لكن لا شيء يستوفي الشروط الستة في آن واحد.

GEUL: نقطة تقاطع الشروط الستة

GEUL تقف عند نقطة تقاطع هذه الشروط الستة.

تنسيق تدفقي قائم على كلمات 16 بت. كل سرد يتضمن بنيوياً السياق والمصدر ودرجة اليقين. يسلسل الرسوم البيانية عبر حزم عقد وحواف. يتبع أنماطاً ثابتة قابلة للمطابقة 1:1 مع رموز LLM. يعامل السرد (Claim) لا الحقيقة كبيانات أولية. يحجز 50% من فضاء العناوين الكلي للمستقبل.

GEUL غير مرئية للمستخدم. المستخدم يتحدث بلغة طبيعية ويتلقى إجابة بلغة طبيعية. وفي ما بينهما، تقوم GEUL بهيكلة الاستدلال وتسجيله وتراكمه وجعله قابلاً لإعادة الاستخدام.

عصر اللغة الطبيعية لن ينتهي

ثمة أمر يجب ألا نسيء فهمه.

GEUL لا تحلّ محلّ اللغة الطبيعية. سيواصل البشر الحديث والكتابة والتفكير باللغة الطبيعية. اللغة الطبيعية ستبقى حية إلى الأبد بوصفها لغة الإنسان.

ما تحلّ GEUL محلّه هو الدور الذي كانت اللغة الطبيعية تؤديه داخل الذكاء الاصطناعي.

وسيط الاستدلال. صيغة تخزين المعرفة. بروتوكول الاتصال بين الأنظمة.

في هذا الدور، بلغت اللغة الطبيعية حدودها بالفعل. تلك الحدود تتجلى في الهلوسة والصندوق الأسود وعدم الكفاءة.

اللغة الطبيعية أوصلت البشرية إلى هنا. هذا الفضل خالد. لكن للانتقال إلى المرحلة التالية، نحتاج إلى لغة جديدة.

هذا هو السبب في الحاجة إلى لغة اصطناعية.

ملخص

غموض اللغة الطبيعية ميزة في التواصل البشري، لكنه عيب في استدلال الذكاء الاصطناعي.

لا مكان بنيوياً للبيانات الوصفية في اللغة الطبيعية.
لذلك يستدل الذكاء الاصطناعي بلا مصدر ولا درجة يقين ولا سياق.
لذلك تحدث الهلوسة. هذا ليس خللاً بل حتمية بنيوية.
لغات البرمجة تصف الإجراءات ولا تصف العالم.
أنظمة التمثيل الدلالي الحالية تستوفي شرطاً أو شرطين فقط.
نحتاج إلى لغة اصطناعية جديدة تستوفي الشروط الستة في آن واحد.

كما أن LLVM IR جسر غير مرئي بين لغات البرمجة والعتاد، فإن GEUL جسر غير مرئي بين اللغة الطبيعية واستدلال الذكاء الاصطناعي.