שפה טבעית הביאה אותנו עד הלום. אבל הלאה היא לא יכולה.
ההמצאה הגדולה של שפה טבעית
הטכנולוגיה הגדולה ביותר שהאנושות יצרה אי-פעם היא שפה טבעית.
לא גילוי האש, לא המצאת הגלגל, לא המצאת המוליך למחצה. מה שאיפשר את כל אלה הייתה שפה טבעית.
כי שפה טבעית הייתה קיימת, ידע יכול היה לעבור. כי שפה טבעית הייתה קיימת, שיתוף פעולה היה אפשרי. כי שפה טבעית הייתה קיימת, מחשבות המתים יכלו להיות מורשות לחיים.
הסיבה שהומו סאפיינס שולט בכדור הארץ אינה כוח שרירים — אלא שפה. במשך עשרות אלפי שנים, שפה טבעית הייתה המדיום של כל פעילות אינטלקטואלית אנושית.
ועכשיו, שפה טבעית הפכה לצוואר הבקבוק של עידן ה-AI.
למה שפה טבעית נולדה?
כדי להבין את הבעיה הזו, צריך לחזור למטרה המקורית של שפה טבעית.
שפה טבעית התפתחה לתקשורת בזמן אמת בין בני אדם.
כשבני האדם הקדמונים צדו בסוואנה, מה שנדרש כדי להעביר “יש אריה שם!” לא היה מבנה לוגי מדויק, אלא העברה מהירה.
הלחץ האבולוציוני הזה קבע את כל המאפיינים של שפה טבעית.
עמימות היא תכונה. לא משנה אם “שם” הוא בדיוק כמה מטרים. השומע מפנה את ראשו ורואה את האריה. הקשר מפצה על העמימות.
יתירות היא תכונה. גם אם מחצית מההודעה נבלעת ברעש הרוח, המשמעות חייבת לעבור. לכן שפה טבעית מבטאת את אותו רעיון בדרכים מרובות.
רמיזה היא תכונה. הסיבה ש"מה שלומך?" יכולה לשמש כברכה במקום שאלה אמיתית היא שההקשר התרבותי המשותף מפענח את הרמיזה.
כל המאפיינים האלה הם יתרונות בתקשורת בין בני אדם. מהיר, גמיש, ומתאים להקשר.
הבעיה מתעוררת כשמנסים ליישם את זה על AI.
מהי שפה טבעית עבור AI?
LLM-ים של היום מקבלים שפה טבעית כקלט, מסיקים בשפה טבעית, ומפיקים שפה טבעית כפלט.
זה כמו לערוך ניסוי כימי ולרשום את כל המדידות כ"די הרבה," “קצת,” “בערך ככה.”
“דוד בן-גוריון היה גדול.”
מה קורה כש-AI מעבד את המשפט הזה?
מי אומר שהוא היה גדול? הדובר? ההיסטוריונים? החברה הישראלית? לפי אילו קריטריונים גדול? מדיני? מוסרי? השפעה היסטורית? מתי? בתקופתו? היום? כמה בטוח? עובדה? דעה? השערה?
שום דבר מזה לא מפורט בשפה טבעית. הכול רק רמוז: “תבינו מההקשר.”
לבני אדם יש עשרות אלפי שנים של חומרה אבולוציונית לפענוח הרמיזות האלה. הבעות פנים, טון דיבור, חוויות משותפות, רקע תרבותי. ל-AI אין את זה. יש לו רק טקסט.
לכן AI מנחש. והוא מציג את הניחושים שלו כוודאיות. אנחנו קוראים לזה “Hallucination” (הזיה).
הזיה אינה באג. כל עוד שפה טבעית משמשת כשפת ההסקה של AI, זו תוצאה מבנית בלתי נמנעת.
הזיה נולדת מעמימות השפה הטבעית
נדייק בנקודה הזו.
כש-LLM עונה “דוד בן-גוריון הכריז על הקמת מדינת ישראל ב-14 במאי 1948,” מהו הבסיס של המשפט הזה?
כי דפוסים דומים למשפט הזה הופיעו בהסתברות גבוהה בנתוני האימון.
אבל מאיזה מקור הגיע הדפוס הזה, כמה אמין המקור הזה, מתי נכתב המידע הזה, האם יש תיאורים סותרים אחרים — כל אלה לא ניתנים לביטוי מבני בפלט של שפה טבעית.
לשפה טבעית אין מקום למטא-נתונים.
“דוד בן-גוריון הכריז על הקמת המדינה” ו- “לפי הפרוטוקולים של מועצת העם, דוד בן-גוריון הכריז על הקמת המדינה” הם בשפה טבעית רק שני משפטים באורכים שונים.
אבל מבחינה אפיסטמולוגית הם סוגים שונים לחלוטין של אמירות. אחד הוא טענת עובדה, והשני הוא תיאור עם מקור מפורש.
שפה טבעית אינה יכולה להבחין מבנית בהבדל הזה. לכן גם AI לא יכול להבחין. לכן מתרחשת הזיה.
שפות תכנות אינן התשובה
“אז למה לא להשתמש בשפת תכנות?”
שפות תכנות אינן עמומות. הן מבניות. הן מדויקות. אבל שפות תכנות הן שפות לתיאור נהלים, לא שפות לתיאור העולם.
נסו לבטא “דוד בן-גוריון היה גדול” ב-Python.
is_great("David Ben-Gurion") == True
זה לא תיאור — זה שיפוט בוליאני. מי שפט? על סמך מה? באיזה הקשר? בכמה ביטחון? לשפות תכנות אין מבנה שיכיל את אלה.
פורמטים של נתונים כמו JSON, XML, RDF הם אותו דבר. יש להם מבנה, אבל אין מערכת אחידה המגדירה את הסמנטיקה של המבנה. כל פרויקט יוצר סכמה משלו, והסכמות האלה אינן תואמות זו לזו.
שפה טבעית עשירה במשמעות אבל חסרת מבנה. שפות תכנות מובנות אבל חסרות משמעות. פורמטים של נתונים מובנים ומשמעותיים אבל אינם מאוחדים.
מה שצריך הוא סוג אחר של שפה.
הדרך שהראה LLVM
במדעי המחשב יש תקדים מדויק.
בשנות ה-90, היו עשרות שפות תכנות ועשרות ארכיטקטורות מעבדים. כדי שכל שפה תתמוך בכל ארכיטקטורה, נדרשו N x M מהדרים.
הפתרון של LLVM היה ייצוג ביניים (IR, Intermediate Representation).
כל השפות מתורגמות ל-LLVM IR. LLVM IR מתורגם לכל הארכיטקטורות. מספיקים N + M ממירים.
משתמשים לא רואים LLVM IR. הם כותבים C++ ומקבלים קובץ הפעלה. LLVM IR עובד מאחורי הקלעים.
GEUL הוא ה-LLVM IR עבור AI.
כל השפות הטבעיות מתורגמות ל-GEUL. GEUL נשמר ב-WMS, משמש להסקה, ומתורגם חזרה לשפה טבעית. משתמשים לא רואים GEUL. הם שואלים בשפה טבעית ומקבלים תשובות בשפה טבעית. GEUL עובד מאחורי הקלעים.
תנאים ששפה מלאכותית חייבת לעמוד בהם
כדי לחרוג ממגבלות השפה הטבעית בלי לאבד את כוח הביטוי שלה, שפה מלאכותית חייבת לעמוד בו-זמנית בתנאים הבאים.
1. הסרת עמימות
כש"דוד בן-גוריון היה גדול" מוזן, “מי, באיזה הקשר, על סמך מה, באיזו רמת ביטחון תיאר כך” חייב להיות מפורט מבנית. אם שדה ריק, הוא חייב להיות מסומן כריק. ללא תלות ברמיזה.
2. מטא-נתונים מוטמעים
לכל תיאור, המקור, נקודת הזמן, רמת האמון ונקודת המבט (POV) חייבים להיות כלולים לא כהערות נפרדות אלא כחלק ממבנה התיאור עצמו. בלי זה, AI שקוף (whitebox) בלתי אפשרי.
3. תאימות LLM
ה-LLM חייב להיות מסוגל “ללמוד” את השפה. היא לא חייבת להיות קלה להבנה לבני אדם. מה שחשוב הוא שניתן לטוקניזציה, שדפוסים סדירים, ושהיא עוקבת אחר מבנה קבוע.
4. כוח ביטוי גרפי
העולם הוא גרף, לא טבלה. ישויות הן צמתים, ויחסים הם קשתות. השפה המלאכותית חייבת להיות מסוגלת לסדרר גרפים באופן טבעי.
5. הפרדה בין עובדות לתיאורים
“דוד בן-גוריון נפטר ב-1973” הוא לא עובדה. “לפי הרישומים הרשמיים של מדינת ישראל, דוד בן-גוריון נפטר ב-1973” הוא הנתון הראשוני. השפה המלאכותית חייבת לכפות מבנית את ההבחנה הזו.
6. ניתנות להרחבה עתידית
המערכת שמוגדרת היום חייבת להיות ניתנת להרחבה עם תאימות לאחור בעוד 10 שנים, 100 שנים, ובעתיד שלא ניתן לדמיין.
למה ניסיונות קיימים אינם מספיקים
זה לא הניסיון הראשון מסוג זה.
אספרנטו הייתה שפה מלאכותית לבני אדם. מובנית, אבל לא תוכננה להסקה של AI. קלות לימוד הועדפה על פני דיוק סמנטי.
OWL/RDF הייתה מערכת ייצוג סמנטי למכונות. מחמירה לוגית, אבל תוכננה לפני עידן LLM. ההמרה מ/אל שפה טבעית קשה, והביטוי מפורט מדי. ובאופן קטלני — איטית. הסקה בקנה מידה גדול אינה מציאותית.
גרפי ידע (Wikidata, Freebase) ייצגו את העולם כגרף. אבל הם שומרים “עובדות,” לא “תיאורים.” הם שומרים “דוד בן-גוריון היה ראש ממשלה” כשלישייה, אבל לא מי טען כך, ולא באיזו רמת ביטחון.
Chain-of-Thought רושם את תהליך ההסקה של LLM בשפה טבעית. כיוון טוב, אבל כיוון שמדיום הרישום הוא שפה טבעית, הוא לא פותר באופן יסודי את בעיית העמימות.
כל הניסיונות האלה עומדים כל אחד בתנאי אחד או שניים, אבל אף אחד לא עומד בשישה בו-זמנית.
GEUL: נקודת החיתוך של שישה תנאים
GEUL עומד בנקודת החיתוך של שישה התנאים האלה.
פורמט זרם מבוסס מילים של 16 ביט. בכל תיאור, הקשר, מקור ורמת ביטחון מוטמעים מבנית. גרפים מסודררים כחבילות של צמתים וקשתות. הוא עוקב אחר דפוס קבוע שניתן למפות 1:1 לטוקנים של LLM. הוא מתייחס לתיאורים (Claims) כנתונים ראשוניים, לא לעובדות. 50% ממרחב הכתובות הכולל שמור לעתיד.
GEUL אינו נראה למשתמש. המשתמש מדבר בשפה טבעית ומקבל תשובות בשפה טבעית. ביניהם, GEUL מבנה את ההסקה, רושם, צובר, והופך לשימוש חוזר.
עידן השפה הטבעית לא מסתיים
יש אי-הבנה שצריך להימנע ממנה.
GEUL לא מחליף שפה טבעית. בני אדם ימשיכו לדבר, לכתוב ולחשוב בשפה טבעית. שפה טבעית תישרוד לנצח כשפה של בני אדם.
מה ש-GEUL מחליף הוא התפקיד ששפה טבעית מילאה בתוך ה-AI.
מדיום ההסקה. פורמט אחסון הידע. פרוטוקול התקשורת בין מערכות.
בתפקיד הזה, שפה טבעית כבר הגיעה למגבלותיה. מגבלות אלה מתגלות כהזיה, כקופסה שחורה, כחוסר יעילות.
שפה טבעית הביאה את האנושות עד הלום. הזכות הזו נצחית. אבל כדי לעבור לשלב הבא, צריך שפה חדשה.
זו הסיבה שיש צורך בשפה מלאכותית.
סיכום
העמימות של שפה טבעית היא תכונה בתקשורת אנושית, אבל פגם בהסקת AI.
- לשפה טבעית אין מקום מבני למטא-נתונים.
- לכן AI מסיק ללא מקור, ללא רמת ביטחון, ללא הקשר.
- לכן מתרחשת הזיה. זה לא באג, אלא הכרח מבני.
- שפות תכנות מתארות נהלים, לא את העולם.
- מערכות ייצוג סמנטי קיימות עומדות כל אחת בתנאי אחד או שניים בלבד.
- יש צורך בשפה מלאכותית חדשה העומדת בשישה תנאים בו-זמנית.
כשם ש-LLVM IR הוא הגשר הבלתי נראה בין שפות תכנות לחומרה, GEUL הוא הגשר הבלתי נראה בין שפה טבעית להסקת AI.