למה יש צורך בבהירות

שפה טבעית מתארכת בהכרח כדי לפתור עמימות. במבנה ברור, העלות הזו נעלמת.

העלות של עמימות

“He went to the bank.”

7 טוקנים. קצר. נראה יעיל.

אבל המשפט הזה בלתי שמיש. לא ניתן להכניס אותו להקשר ההסקה של AI. כי הוא עמום.

מי הוא “he”? האם “bank” היא מוסד פיננסי או גדת נהר? מתי הוא הלך? למה הוא הלך?

הסקה מהמשפט הזה מייצרת ארבעה ענפי אי-ודאות. אי-ודאות מתפשטת דרך כל שלב הסקה עוקב. כשאי-ודאות שהתפשטה מוצגת כאילו היא ודאות, זו הזיה.

לכן שפה טבעית מנסה לפתור עמימות. הדרך היחידה לפתור היא להשתמש ביותר מילים.

העלות של הפתרון

נבחן גרסה לא עמומה של המשפט.

“קים צ’ולסו, ראש מחלקה בצוות הפיננסים של Samsung Electronics, ביקר בסניף קנגנם של בנק Shinhan ביום שני, 15 בינואר 2024, כדי לפתוח חשבון חברה.”

עכשיו אין עמימות. הנושא מוגדר. המיקום מוגדר. חותמת הזמן מצוינת. המטרה מצוינת.

אבל 7 טוקנים הפכו ל-40.

33 הטוקנים הנוספים הם לחלוטין עלות הסרת עמימות. הם אינם מידע חדש. הגדרת “he” כ"קים צ’ולסו, ראש מחלקה בצוות הפיננסים של Samsung Electronics" לא הוסיפה משמעות – היא הסירה עמימות.

בשפה טבעית, בהירות אינה חינמית. כדי להפוך לברור, צריך להפוך לארוך. זו תכונה מבנית של שפה טבעית.

למה שפה טבעית מתארכת בהכרח

שפה טבעית התפתחה לתקשורת בין בני אדם. בתקשורת אנושית, עמימות היא תכונה.

“הוא הלך לבנק, שמעתי.”

אם הדובר והמאזין חולקים את אותו הקשר, הם כבר יודעים מי “הוא” ואיזה “בנק.” 7 טוקנים מספיקים. עמימות היא מנגנון דחיסה. היא משמיטה בהסתמך על הקשר משותף.

הבעיה נוצרת בצד הפריסה.

כדי להעביר את ההודעה למישהו שלא חולק את ההקשר, חייבים לשחזר את כל מה שהושמט. שחזור מאריך.

בשפה טבעית, בהירות וקיצור הם מקח-וממכר. ברור אומר ארוך. קצר אומר עמום. לא ניתן לקבל את שניהם בו-זמנית.

זהו האילוץ היסודי של שפה טבעית.

ל-AI אין הקשר משותף

בשיחה בין בני אדם, עמימות יעילה. עשרות שנים של ניסיון משותף, רקע תרבותי וזרימת שיחה פותרים עמימות אוטומטית.

ל-AI אין את זה.

הטקסט בתוך חלון ההקשר של AI הוא כל מה שיש. הקשר מחוץ לטקסט לא קיים.

הכנס “He went to the bank” להקשר, ו-AI מתחיל להסיק עם ארבעה ענפי אי-ודאות. הוא בוחר את הפרשנות “הסבירה ביותר” ומקבל את הסיכון לטעות.

לכן שפה טבעית אינה מתאימה להקשר AI.

כתוב בבהירות ומספר הטוקנים מתפוצץ, מבזבז מקום בחלון. כתוב בקיצור והעמימות הופכת לחומר גלם להזיה.

כל עוד משתמשים בשפה טבעית, אין מוצא מהדילמה הזו.

בהירות מבנית כפתרון

כדי לפתור את הדילמה הזו, חייבים לשבור את המקח-וממכר בין בהירות וקיצור.

בשפה טבעית, זה בלתי אפשרי. פתרון עמימות דורש הוספת מילים.

אבל בייצוג ברור מבנית, זה אפשרי.

בשפה טבעית, הגדרת “קים צ’ולסו” דורשת כתיבת “קים צ’ולסו, ראש מחלקה בצוות הפיננסים של Samsung Electronics.” בייצוג מובנה, מזהה ייחודי אחד מספיק. המזהה ייחודי מטבעו. המשנה “צוות הפיננסים של Samsung Electronics” מיותר. משנים הם כלי הסרת עמימות עבור בני אדם – הם מיותרים עבור מכונות.

בשפה טבעית, פתרון האם “bank” אומר מוסד פיננסי או גדת נהר דורש כתיבת “בנק Shinhan, סניף קנגנם.” בייצוג מובנה, מזהה הישות מצביע על המוסד הפיננסי. עמימות נחסמת במקור על ידי המבנה.

בשפה טבעית, ציון חותמת זמן דורש כתיבת “יום שני, 15 בינואר 2024.” בייצוג מובנה, ערך נכנס לשדה הזמן. כי השדה קיים, השמטה בלתי אפשרית. כי הערך מטופס, אין עמימות בפרשנות.

בבהירות מבנית, עלות הסרת העמימות שואפת לאפס. מזהים חד-משמעיים, אז משנים מיותרים. שדות קיימים, אז השמטה בלתי אפשרית. ערכים מטופסים, אז הפרשנות דטרמיניסטית.

דחיסה היא תוצר לוואי של בהירות

כאן קורה משהו מעניין.

להפוך לברור מפיק קיצור.

בשפה טבעית, בהירות מאריכה דברים. בייצוג מובנה, בהירות מקצרת דברים.

למה?

כי רוב מה שמאריך משפטי שפה טבעית הוא עלות הסרת עמימות.

ב"קים צ’ולסו, ראש מחלקה בצוות הפיננסים של Samsung Electronics," “צוות הפיננסים של Samsung Electronics” ו"ראש מחלקה" אינם מידע – הם כלי זיהוי. משנים שמצמצמים מי “הוא.” עם מזהה ייחודי, כל המשנים האלה נעלמים.

ב"יום שני, 15 בינואר 2024," המילה “יום שני” מיותרת. 15 בינואר כבר קובע את יום השבוע. ובכל זאת בשפה טבעית, יתירות כזו מתווספת באופן מסורתי לבהירות. בשדה זמן מטופס, יתירות כזו בלתי אפשרית מבנית.

כתוצאה מבהירות מבנית, הביטוי הופך קצר יותר משפה טבעית.

זו לא דחיסה מכוונת. זו תוצאה של היעלמות עלות הסרת העמימות.

הפרדוקס של משפט בודד

יש משהו שצריך להודות בו בכנות כאן.

למשפט בודד, ייצוג מובנה יכול להיות ארוך יותר משפה טבעית.

“Yi Sun-sin היה גדול.”

בשפה טבעית, זה נעשה ב-7 טוקנים. המר אותו לייצוג מובנה – צומת ישות, צומת מאפיין, קשת פועל, זמן, שדה ודאות – והעלויות המבניות הנוספות יכולות להיות גדולות מהמשפט עצמו.

זה נכון. יש עלות קבועה להטמעת בהירות במבנה.

אבל ככל שמספר ההצהרות גדל, מתרחש היפוך.

אם יש 100 הצהרות על Yi Sun-sin, שפה טבעית כותבת “Yi Sun-sin” 100 פעמים. בייצוג מובנה, מגדירים את צומת Yi Sun-sin פעם אחת ו-100 קשתות מפנות אליו.

אם 50 הצהרות מאותו מקור, שפה טבעית מצטטת את המקור בכל פעם או משמיטה אותו ונהפכת לעמומה. בייצוג מובנה, המטא-נתונים נקשרים פעם אחת.

ככל שהצהרות מצטברות, שיעורי שיתוף הצמתים עולים. ככל ששיעורי שיתוף עולים, הרווחים מבהירות מבנית גדלים.

באופן מעשי, ההיפוך מתחיל בערך ב-20 הצהרות. בהנדסת הקשר, נדיר שהמידע שמוכנס לחלון יהיה פחות מ-20 הצהרות.

באופן מעשי, ייצוג מובנה הוא תמיד ברור יותר ותמיד קצר יותר.

תגובת השרשרת שבהירות יוצרת

בהירות לא רק מייצרת דחיסה.

אינדוקס הופך לאפשרי. כשיש מזהים חד-משמעיים, חיפוש מדויק הופך לאפשרי. חיפוש “הכנסות Apple” לא שולף “ערך תזונתי של תפוח.” אם המזהה מקודד משמעות, מסכת ביטים אחת מצמצמת את המועמדים.

אימות הופך לאפשרי. כשהמבנה מטופס, “האם זהו ביטוי תקף?” ניתן לשפוט מכנית. בשפה טבעית, מושג “משפט לא תקף” אינו קיים. במבנה ברור, אם שדה נדרש ריק, הוא לא תקף.

בדיקת עקביות הופכת לאפשרית. כשהצהרות על אותה ישות חד-משמעיות, “האם שתי ההצהרות האלה סותרות?” ניתן לשפוט מכנית. בשפה טבעית, קביעה אם “המנכ"ל הוא א’” ו"המנכ"ל הוא ב’" סותרים דורשת מ-AI לקרוא את שני המשפטים ולהסיק. במבנה ברור – אותה ישות, אותו יחס, ערכים שונים – מזוהה אוטומטית.

בהירות היא התנאי המקדים לצינור הנדסת ההקשר כולו. אינדוקס, אימות, סינון, בדיקת עקביות – שום דבר מזה לא עובד אם המידע אינו ברור.

בהירות אינה שלב אחד בצינור. היא התנאי שמאפשר את הצינור.

סיכום

בשפה טבעית, בהירות וקיצור הם מקח-וממכר. ברור אומר ארוך. קצר אומר עמום.

ל-AI אין הקשר משותף. עמימות שפה טבעית הופכת לחומר גלם להזיה. פתרון עמימות מנפח מספר טוקנים ומבזבז את החלון.

ייצוג ברור מבנית שובר את המקח-וממכר הזה. מזהים ייחודיים חוסמים עמימות במקור. שדות מטופסים הופכים השמטה לבלתי אפשרית. כשעלות הסרת עמימות נעלמת, דחיסה עוקבת כתוצר לוואי.

בהירות היא התנאי המקדים להנדסת הקשר. אם המידע אינו ברור, אינדוקס, אימות ובדיקת עקביות לא עובדים.

דחיסה אינה המטרה. בהירות היא המטרה. דחיסה עוקבת.