למה שפה טבעית יוצרת הזיות?

הזיה אינה באג. היא הכרח מבני כל עוד משתמשים בשפה טבעית.

הנס של שפה טבעית

לפני 100,000 שנה, הופיעה השפה המדוברת. היחסים החברתיים שפרימטים יכלו לתחזק על ידי תיפוח היו מוגבלים לכ-150 פרטים. שפה שברה את התקרה הזו. ברגע שאדם אחד יכול היה לדבר לרבים בו-זמנית, קנה מידה חדש של חברה – השבט – הפך לאפשרי.

לפני 10,000 שנה, חקלאות יצרה עודפי מזון, ואנשים התקבצו במקום אחד ליצור ערים. לפני 5,000 שנה, מישהו במסופוטמיה לחץ סימנים בצורת טריז ללוח חימר רטוב. זה היה כדי לרשום מלאי תבואה. לידת הכתיבה. דיבור נעלם, אבל רשומות נמשכות. ברגע שרשומות נמשכו, ביורוקרטיה הפכה לאפשרית, חוק הפך לאפשרי, המדינה הפכה לאפשרית.

שפה מדוברת יצרה את השבט. כתיבה יצרה את המדינה.

שפה טבעית היא הטכנולוגיה הגדולה ביותר שהאנושות יצרה אי-פעם. לא גילוי האש, לא המצאת הגלגל, לא המצאת המוליך למחצה. מה שאיפשר את כל אלה הייתה שפה טבעית. כי שפה טבעית הייתה קיימת, ידע יכול היה לעבור, שיתוף פעולה יכול היה לקרות, ומחשבות המתים יכלו להיות מורשות לחיים. במשך עשרות אלפי שנים, שפה טבעית הייתה המדיום של כל הציוויליזציה האנושית.

ועכשיו, אותה שפה טבעית גדולה הפכה לצוואר הבקבוק של עידן ה-AI.

אי-ההבנה שנקראת הזיה

כש-AI אומר משהו שקרי, אנחנו קוראים לזה “הזיה.”

השם הזה נושא השלכות. ההשלכה שהזיה היא חריגה. ההשלכה שאפשר לתקן אותה. ההשלכה שמודל טוב יותר יפתור אותה.

זו אי-הבנה.

הזיה אינה באג של LLM-ים. הזיה היא הכרח מבני שלא ניתן להימנע ממנו כל עוד שפה טבעית משמשת כשפת ההסקה של AI.

לא משנה כמה תגדיל את המודל, לא משנה כמה תרחיב את הנתונים, לא משנה כמה תשכלל את ה-RLHF, כל עוד הקלט הוא שפה טבעית והפלט הוא שפה טבעית, הזיה לא תיעלם.

אסביר למה.

ארבעת הפגמים המבניים של שפה טבעית

שפה טבעית התפתחה לתקשורת בין בני אדם. ארבעת המאפיינים שהיא רכשה בתהליך הופכים לפגמים קטלניים בהסקת AI.

פגם 1: עמימות

“He went to the bank.”

האם “bank” היא מוסד פיננסי או גדת נהר? מי הוא “he”? מתי הוא הלך?

בני אדם פותרים את זה עם הקשר. זרימת השיחה, הבעת הפנים של הדובר, ידע רקע משותף.

ל-AI יש רק טקסט. טקסט לבדו לא יכול לפתור עמימות לחלוטין. אם זה לא ניתן לפתרון, AI מנחש. ניחושים לפעמים שגויים. כשניחוש שגוי מוצג בביטחון, זו הזיה.

פגם 2: היעדר מקור

“Yi Sun-sin הביס 133 ספינות עם רק 12.”

למשפט הזה אין מקור.

מי העלה את הטענה הזו? אילו רשומות היסטוריות תומכות בה? האם יש מחלוקת אקדמית על המספרים?

לשפה טבעית אין מקום מבני למטא-נתונים. כדי לכלול מקורות, צריך להאריך את המשפט, והארכה מטשטשת את הנקודה. אז ברוב משפטי שפה טבעית, מקורות מושמטים. בעיה זו נדונה לעומק בלמה טענות, לא עובדות?.

LLM-ים מאומנים על מיליארדי משפטים כאלה. טענות עם מקורות מושמטים מתערבבים לתוך מרק סטטיסטי אחד עצום.

לעקוב אחר הבסיס של המספר “12” בתוך המרק הזה בלתי אפשרי באופן עקרוני. כיוון שלא ניתן לעקוב אחר הבסיס, גם מספרים חסרי בסיס יכולים להיות מפוברקים. זו הזיה.

פגם 3: היעדר ודאות

“כדור הארץ עגול.” “אנרגיה אפלה מהווה 68% מהיקום.” “מחר ירד גשם.”

רמות הוודאות של שלושת המשפטים האלה שונות לחלוטין.

הראשון הוא הסכמה מוחצת. השני הוא ההערכה הטובה ביותר כיום, אבל התיאוריה עשויה להשתנות. השלישי הוא חיזוי הסתברותי.

ובכל זאת בשפה טבעית, לשלושתם מבנה דקדוקי זהה. נושא + נשוא. משפט הצהרתי. נקודה.

שפה טבעית אינה יכולה לבטא מבנית “כמה זה בטוח.” יש כלים תחביריים כמו “אולי,” “כמעט בוודאות,” “ייתכן,” אבל הם אופציונליים, לא מדויקים ובדרך כלל מושמטים.

LLM-ים לומדים את כל המשפטים ברמות ודאות זהות. אין דרך שהמודל יבחין פנימית בין ההבדל בוודאות בין “כדור הארץ עגול” ו"אנרגיה אפלה היא 68%."

אז הוא מציג הערכות כעובדות, מציג השערות כדעות מבוססות, ומציג דברים לא ודאיים בוודאות. זו הזיה.

פגם 4: היעדר הקשר זמני

“המנכ"ל של Tesla הוא Elon Musk.”

נכון לאיזה תאריך?

ב-2024, זה נכון. ב-2030, מי יודע. אם מועד הכתיבה לא מצוין, תקופת התוקף של המשפט הזה לא ניתנת לקביעה.

רוב משפטי שפה טבעית משמיטים הקשר זמני. “זמן הווה” יכול להיות “עכשיו ממש” או שהוא יכול להיות “באופן כללי.”

LLM-ים לומדים מאמרים מ-2020 ומאמרים מ-2024 כנתונים זהים. כיוון שמידע זמני לא נשמר מבנית, הם מציגים עובדות מהעבר כאילו הן נוכחיות, או מערבבים מידע מתקופות שונות. זו הזיה.

מפגש ארבעת הפגמים

הזיה מתעצמת בצורה מתפוצצת כשארבעת הפגמים מתלכדים.

ננתח פלט LLM אחד.

“Yi Sun-sin השמיד 330 ספינות יפניות עם 12 כלי שיט, ומאוחר יותר מת בקרב נוריאנג, והשאיר את המילים האחרונות ‘אל תודיעו על מותי.’”

במשפט הזה:

עמימות: מה “השמיד” אומר במדויק? טבע? הבריח? פגע חלקית?

היעדר מקור: מהו הבסיס למספרים 12 ו-330? רשומות היסטוריות שונות מציינות נתונים שונים — אחרי איזו הלכו?

היעדר ודאות: האם “אל תודיעו על מותי” הוא צוואה היסטורית מאומתת, או מסורת בעל-פה מאוחרת? רמות הוודאות של השניים שונות, ובכל זאת הם רשומים באותו משפט הצהרתי.

היעדר הקשר זמני: את הסכמה אקדמית מאיזה שלב בזמן המידע הזה משקף?

ה-LLM ממלא את כל העמימות הזו ב"רצף הטוקנים הסביר ביותר." סבירות אינה דיוק. הפער בין השניים הוא הזיה.

למה מודלים גדולים יותר לא יכולים לפתור את זה

“הזיה לא תפחת כש-GPT-5 ייצא?”

היא תפחת. אבל היא לא תיעלם.

מודלים גדולים יותר לומדים דפוסים מתוחכמים יותר מיותר נתונים. אז הדיוק של “סבירות” עולה.

אבל הבעיה היסודית לא משתנה.

כל עוד הקלט הוא שפה טבעית, עמימות נשארת. כל עוד נתוני אימון הם שפה טבעית, מקורות נותרים אבודים. כל עוד הפלט הוא שפה טבעית, ודאות לא מתבטאת. כל עוד מידע זמני נעדר מהמבנה, זמן נשאר מעורבב.

גם אם תגדיל את המודל פי 100, הפגמים המבניים של שפה טבעית לא גדלים פי 100 — אבל הם גם לא מגיעים לאפס.

זו לא בעיה של רזולוציה. זו בעיה של מדיום.

לא משנה כמה תגדיל את הרזולוציה של צילום שחור-לבן, צבע לא יופיע. לא משנה כמה תגדיל את הדיוק של שפה טבעית, מקור, ודאות והקשר זמני לא יופיעו במבנה.

אם אתה רוצה צבע, אתה צריך סרט צבע. אם אתה רוצה לחסל הזיה, אתה צריך שפה אחרת.

תנאים לפתרון מבני

כדי לפתור את ארבעת הפגמים, מבנה השפה עצמה חייב להיות שונה.

עמימות –> מבנון מפורש. כש-“He went to the bank” מומר לשפה מובנית, “he” מתפשר ל-SIDX ישות ספציפית, ו-“bank” מתפשר ל-SIDX של מוסד פיננסי או גדת נהר. אם לא ניתן לפתור, “לא פתור” נכתב במפורש. או פתור את העמימות, או רשום את העובדה שהיא עמומה.

היעדר מקור –> מקור מוטמע. כל סיפור כולל מבנית ישות מקור. “מי העלה את הטענה הזו” הוא חלק מהסיפור. זה לא אופציונלי. אם השדה ריק, הוא מסומן כריק.

היעדר ודאות –> ודאות מוטמעת. לכל קשת פועל יש שדה ודאות. “ודאי,” “מוערך,” “היפותטי” מצוינים מבנית כמשנים של הפועל.

היעדר הקשר זמני –> הקשר זמני מוטמע. כל סיפור כולל הקשר זמני. “נכון למתי הסיפור הזה” תמיד מצוין.

מה שמושמט בשפה טבעית קיים כחלק מהמבנה בשפה מובנית.

כשהשמטה בלתי אפשרית, המרחב להזיה מצטמצם. למה יש צורך בבהירות מסביר עיקרון זה. כשלא ניתן לדבר ללא בסיס, אמירות חסרות בסיס אינן מיוצרות.

סוף ההזיה טמון בהחלפת השפה

נבחן גישות נוכחיות להפחתת הזיה.

RAG (Retrieval-Augmented Generation): שולף מסמכים חיצוניים ומספק אותם כהקשר. יעיל, אבל המסמכים שנשלפים גם הם שפה טבעית, כך שבעיות העמימות, היעדר המקורות והיעדר הוודאות מלוות ללא שינוי. למה RAG לא מספיק בוחן את המגבלה הזו לעומק.

RLHF: מאמן את המודל לומר “אני לא יודע” כשאינו בטוח. מפחית את תדירות ההזיה, אבל לא פותר את הבעיה היסודית שלשפה טבעית חסר מבנה ודאות.

Chain-of-Thought: רושם את תהליך ההסקה בשפה טבעית. הכיוון נכון, אבל המדיום של הרישום הוא שפה טבעית, כך שהוא יורש את אותם פגמים.

כל הגישות האלה מנסות להפחית הזיה במסגרת שפה טבעית. הן עובדות. אבל הן לא יסודיות.

הפתרון היסודי הוא להסיר שפה טבעית מתוך ה-AI.

הממשק עם המשתמשים נשאר בשפה טבעית. בני אדם ממשיכים לדבר בשפה טבעית ולקבל תשובות בשפה טבעית.

אבל השפה שבה AI מסיק, רושם ומאמת פנימית חייבת להיות משהו אחר משפה טבעית.

שפה שבה מקור נמצא במבנה. שפה שבה ודאות נמצאת במבנה. שפה שבה הקשר זמני נמצא במבנה. שפה שבה עמימות מטופלת במפורש.

שפה מדוברת יצרה את השבט. כתיבה יצרה את המדינה. מה השפה השלישית תיצור?

סוף ההזיה טמון לא במודלים גדולים יותר אלא בשפה טובה יותר.

סיכום

הזיה נולדת מארבעת הפגמים המבניים של שפה טבעית.

עמימות: בלתי ניתנת לפתרון ללא הקשר. AI מנחש, וניחושים שגויים.
היעדר מקור: הבסיס של טענות אובד. שילובים חסרי בסיס מפוברקים.
היעדר ודאות: עובדות והערכות מתבטאות בדקדוק זהה. AI לא יכול להבחין ביניהן.
היעדר הקשר זמני: מידע מתקופות שונות מעורבב.

מודלים גדולים יותר מפחיתים הזיה אבל אינם יכולים לחסל אותה. בלי לשנות את המדיום, הפגמים המבניים נשארים.

לא משנה כמה תגדיל את הרזולוציה של סרט שחור-לבן, צבע לא יופיע. אם אתה רוצה צבע, חייבים לשנות את הסרט.