GEUL لا ترفض ويكي بيانات. إنها تقف فوقها.


لا يمكن بناء لغة بدون قاموس

كل لغة تحتاج إلى مفردات.

الكورية لديها القاموس الكوري. الإنجليزية لديها القاموس الإنجليزي. لغات البرمجة لديها مكتبات معيارية.

الأمر نفسه ينطبق على اللغة الاصطناعية. قائمة كيانات، قائمة علاقات، قائمة خصائص. ما الرمز الذي يمثل “سامسونغ للإلكترونيات” في هذه اللغة؟ ما الرمز الذي يمثل علاقة “العاصمة”؟ تحتاج إلى مفردات قبل أن تتمكن من كتابة جملة.

كيف تُبنى هذه المفردات؟ هناك طريقتان.

بناؤها من الصفر. أو استخدام ما هو موجود بالفعل.


البناء من الصفر: درس CYC

بدأ مشروع CYC في عام 1984.

هدفه كان إضفاء الطابع الرسمي على المعرفة العامة بالحس السليم وتخزينها. صُممت الأنطولوجيا من الصفر. عُرّفت المفاهيم، وعُرّفت العلاقات، وعُرّفت القواعد. أدخلها الخبراء يدوياً.

مضت ثلاثون سنة. أُدخلت ملايين القواعد.

لكن ذلك كان بعيداً كل البعد عن تغطية معرفة العالم. كان يجب تصميم أنطولوجيا منفصلة لكل مجال. كان الحفاظ على الاتساق بين المجالات صعباً. كلما ظهر مفهوم جديد، كان يجب تعديل الأنطولوجيا. التعديلات كانت تتعارض مع القواعد القائمة بشكل متكرر.

ما أثبته CYC لم يكن الإمكانية بل الحدود. تصميم فريق صغير من الخبراء لأنطولوجيا العالم يصبح غير قابل للصيانة مع التوسع.


ما هو موجود بالفعل: ويكي بيانات

أُطلقت ويكي بيانات (Wikidata) في عام 2012.

قاعدة معرفة مهيكلة تديرها مؤسسة ويكيميديا. يمكن لأي شخص تحريرها. حتى عام 2024، تحتوي على أكثر من 100 مليون كيان. أكثر من 10,000 خاصية. مليارات التصريحات. تسميات بأكثر من 300 لغة.

الحجم الذي لم يستطع CYC تحقيقه في 30 عاماً بفريق خبراء، حققته ويكي بيانات في 10 سنوات بمجتمع.

لنرَ ما توفره ويكي بيانات.

معرّفات الكيانات. Q-ID. سامسونغ للإلكترونيات هي Q20718. سيول هي Q8684. يي سون-سين هو Q217300. معرّفات فريدة عالمياً. مستقلة عن اللغة.

معرّفات الخصائص. P-ID. “موقع المقر” هو P159. “تاريخ التأسيس” هو P571. “السكان” هو P1082. العلاقات والخصائص تُعرَّف بشكل فريد.

البنية الهرمية. P31 (instance of) وP279 (subclass of) يشكلان تسلسلاً هرمياً للأنواع. “سيول ← مدينة ← مستوطنة بشرية ← كيان جغرافي.” نظام تصنيف العالم يُعبَّر عنه من خلال هاتين الخاصيتين.

التسميات متعددة اللغات. التسمية الكورية لـ Q20718 هي “삼성전자”، والإنجليزية “Samsung Electronics”، واليابانية “サムスン電子”. معرّف واحد، أسماء مختلفة لكل لغة.

التحقق المجتمعي. ملايين المحررين. كشف التخريب. متطلبات المصادر. ليست مثالية، لكنها أكثر قابلية للتوسع من فريق صغير من الخبراء.

لا يوجد سبب لبناء هذا من الصفر.


مفردات GEUL تأتي من ويكي بيانات

SIDX (Semantic-aligned Index) في GEUL هو معرّف محاذٍ دلالياً بعرض 64 بت. المعنى مشفر في البتات نفسها. بمجرد فحص البتات العليا، يمكنك معرفة ما إذا كان الشيء شخصاً أو مكاناً أو منظمة.

دفتر شفرات SIDX — أي نمط بتات يقابل أي معنى — يُستخرج من ويكي بيانات.

العملية كالتالي.

الخطوة 1: استخراج الأنواع. تُستخرج جميع Q-ID المستخدمة كمفعول به لـ P31 (instance of) من ويكي بيانات. ينتج عن ذلك قائمة “الأنواع”. “إنسان (Q5)"، “مدينة (Q515)"، “دولة (Q6256)"، “شركة (Q4830453)”… يُحسب عدد مرات استخدام كل نوع — عدد النسخ.

الخطوة 2: بناء التسلسل الهرمي. تُستخرج علاقات P279 (subclass of) بين الأنواع. “مدينة ← مستوطنة بشرية ← كيان جغرافي ← كيان.” يشكل هذا البنية الشجرية للأنواع. تُحدَّد عقد الجذر، وعقد الأوراق، والعقد الوسيطة. يُكتشف ويُعالج التوارث المتعدد — الحالات التي ينتمي فيها نوع واحد إلى عدة أنواع أب.

الخطوة 3: تخصيص البتات. بنية الشجرة تحدد علاقات البادئة لأنماط البتات. الأنواع الفرعية تحت نفس الأب تتشارك نفس البادئة. “مدينة” و"بلدة” تتشاركان بادئة “مستوطنة بشرية”.

عدد النسخ يؤثر على طول البتات. الأنواع كثيرة الاستخدام تحصل على شفرات أكثر كفاءة. نفس مبدأ ترميز هوفمان: شفرات أقصر للترددات الأعلى.


ما توفره ويكي بيانات

في هذه العملية، توفر ويكي بيانات ثلاثة أشياء.

نظام تصنيف. إجابة على “ما أنواع الأشياء الموجودة في العالم؟” في CYC، صمم فريق خبراء هذا. GEUL تستخرجه من ويكي بيانات. نظام تصنيف بناه ملايين المحررين على مدار 10 سنوات، يُحوَّل إلى شجرة بتات.

إحصاءات التكرار. إجابة على “كم من كل نوع موجود في العالم؟” إذا كان هناك 9 ملايين كيان بشري ومليون كويكب، فإن نوع “إنسان” يجب أن يحصل على شفرة أكثر كفاءة من “كويكب”. تكرار الاستخدام الفعلي يحدد تصميم الشفرة.

ربط المعرّفات. ربط بين Q-ID في ويكي بيانات وSIDX في GEUL. أي نمط بتات في SIDX يقابل Q20718 (سامسونغ للإلكترونيات)؟ بهذا الربط، يمكن تحويل معرفة ويكي بيانات إلى GEUL، وتحويل تصريحات GEUL عكسياً إلى ويكي بيانات.


ما لا توفره ويكي بيانات

ويكي بيانات قاموس. والقاموس ليس لغة.

القاموس يوفر قائمة كلمات. اللغة توفر قواعد لتركيب جمل من الكلمات.

ما لا توفره ويكي بيانات هو ما تضيفه GEUL.

من الحقائق إلى الادعاءات. الوحدة الأساسية في ويكي بيانات هي الحقيقة (Fact). “عدد سكان سيول 9.74 مليون.” إما صحيحة أو خاطئة.

الوحدة الأساسية في GEUL هي الادعاء (Claim). “وفقاً لـ A، عدد سكان سيول حوالي 9.74 مليون. (ثقة 0.9، حسب 2023)” مَن يدّعي، وبأي درجة من اليقين، وحسب أي تاريخ — كل هذا مضمَّن في التصريح. يُناقش هذا الفرق بالتفصيل في لماذا ادعاءات وليس حقائق.

محددات الفعل. ويكي بيانات ليس لديها مكان للتعبير عن دقائق الأفعال. في “انتصر يي سون-سين في معركة ميونغنيانغ”، أين الزمن والجانب والشاهدية والصيغة والثقة؟ في ويكي بيانات، تُعبَّر عن هذه جزئياً من خلال المحددات، لكن لا يوجد نظام منهجي لتحديد الأفعال.

GEUL لديها نظام محددات أفعال بعرض 28 بت. ثلاثة عشر بُعداً — الزمن، الجانب، القطبية، الشاهدية، الصيغة، الإرادية، الثقة، وغيرها — مضمَّنة هيكلياً في كل تصريح.

ضغط 16 بت. تمثيل ويكي بيانات لم يُصمَّم لنوافذ السياق. JSON-LD، RDF، SPARQL. قابلة للقراءة آلياً، لكنها ليست فعالة من حيث الرموز.

GEUL مصممة بوحدات كلمات 16 بت. ربط واحد لواحد مع رموز نماذج اللغة الكبيرة. نظام تمثيل مبني على افتراض محدودية نوافذ السياق. نوقش هذا بالفعل في لماذا لا يكفي MD/JSON/XML.

خط أنابيب السياق. ويكي بيانات مستودع. GEUL جزء من خط أنابيب. التوضيح، التحقق، التصفية، فحص الاتساق، الاستكشاف — كل ما نوقش في هذه السلسلة يعمل فوق التمثيل المهيكل لـ GEUL. ويكي بيانات ليس لديها خط الأنابيب هذا. ولا تحتاج إليه. هدف ويكي بيانات مختلف.


العلاقة بين القاموس واللغة

خلاصة القول:

ويكي بيانات هي مفردات العالم. أي الكيانات موجودة، أي العلاقات موجودة، أي الأنواع موجودة وكيف تُصنَّف. بناها ملايين الأشخاص على مدار 10 سنوات.

GEUL تبني القواعد فوق هذه المفردات. نظام تصنيف المفردات ← شجرة بتات SIDX. إحصاءات تكرار المفردات ← أولويات تخصيص البتات. معرّفات المفردات ← الربط مع SIDX.

وتضيف ما تفتقر إليه المفردات. بنية الادعاءات. تحديد الأفعال. ضغط على مستوى الرموز. خط أنابيب السياق.

هل يمكن بناء GEUL بدون ويكي بيانات؟ نعم. بتصميم الأنطولوجيا من الصفر، كما فعل CYC. لكن ذلك جُرِّب قبل 30 عاماً، والنتائج تتحدث عن نفسها.

لأن ويكي بيانات موجودة، فإن GEUL لا تصمم أنطولوجيا. إنها تحوّل إجماعاً قائماً.


ملخص

اللغة الاصطناعية تحتاج إلى مفردات. بناء المفردات من الصفر هو ما حاوله CYC، و30 عاماً أثبتت حدود هذا النهج.

ويكي بيانات هي مفردات العالم، بأكثر من 100 مليون كيان، وأكثر من 10,000 خاصية، ومليارات التصريحات. بناها ملايين المحررين على مدار 10 سنوات.

دفتر شفرات SIDX في GEUL يُستخرج من ويكي بيانات. ترددات نسخ P31 تحدد تخصيص البتات، والتسلسل الهرمي لـ P279 يشكل هيكل شجرة البتات.

ويكي بيانات قاموس وGEUL لغة. القاموس يوفر الكلمات، واللغة توفر القواعد. GEUL تبني بنية الادعاءات، وتحديد الأفعال، وضغط 16 بت، وخط أنابيب السياق فوق مفردات ويكي بيانات.

GEUL لا ترفض ويكي بيانات. إنها تقف فوقها.