SILK — אינדקס סמלי לידע של מודלי שפה גדולים
ארכיטקטורת חיפוש נוירו-סמלית שמחפשת באמצעות מספרים שלמים של 64 סיביות. מחפשת ב-100 מיליון ישויות של Wikidata בפחות משנייה בזיכרון של 1.3GB, ללא מסד נתונים וקטורי, גרף ANN או מודל הטמעה.
ארכיטקטורת חיפוש נוירו-סמלית שמחפשת באמצעות מספרים שלמים של 64 סיביות. מחפשת ב-100 מיליון ישויות של Wikidata בפחות משנייה בזיכרון של 1.3GB, ללא מסד נתונים וקטורי, גרף ANN או מודל הטמעה.
GEUL לא דוחה את ויקינתונים. היא ממירה את מערכת הסיווג ואת סטטיסטיקות התדירות של 100 מיליון ישויות לספרי קוד SIDX. דקדוק נבנה מעל מילון.
כשמשמעות חקוקה בביטים, חיפוש הופך להסקה
צומת באורך קבוע של 4 מילים (64 סיביות) לזיהוי ישויות כגון אנשים, מקומות, חפצים וארגונים. מבטא כימות ומספר ב-3 סיביות Mode, מסווג 64 סוגים עליונים ב-6 סיביות EntityType, ומקודד תכונות סמנטיות ב-48 סיביות Attributes.
מפרט פורמט זרימה בינארית המבוסס על מזהה סמנטי גלובלי SIDX בן 64 סיביות. מגדיר עקרונות עיצוב, סכמת Prefix, תשעה סוגי מנות וכללי קידוד.