<aside>
ℹ️ מידע על העמוד
- מקורות מידע - “קורס מתקדם בעיבוד שפה טבעית” של האוניברסיטה העברית
- עדכניות - אביב 2023
</aside>

למה כדאי לעבוד על NLP שלא באנגלית?
בבלוג פוסט של Sebastian Ruder מ-2020 הוא מדבר על כמה סיבות -
- הפרספקטיבה הבלשנית - האם אנחנו מתמקדים במאפיינים שיחודיים לאנגלית? אנגלית היא שפה הינודו-אירופית שמשתמשת באלפבית לטיני, יש לה תחביר מצורך נושא-פועל-נשוא, יש לה מורפולוגיה מצומצמת יחסית, סדר המילים יחסית קבוע וכו’.
- הפרפקטיבה של ML - באנגלית יש הרבה מאוד דאטא (supervised וגם unsupervised), מה שעוזר לאמן מודלים. ארכיטקטורות של מודלי שפה מוטות כלפי מאפיינים של השפה האנגלית (למשל בשלבים כמו טוקניזציה שלא לוקחת בחשבון אגלוטינציה / איחוד של מילים / שורשים וכו’). עולה גם השאלה האם אפשר להשיג ביצועים טובים על שפות שלא עומדות באותן מאפיינים או שיש פחות דאטא זמין עבורן. עולה שאלה גם האם אימון על דאטא באנגלית יכול לסייע בביצועים עבור שפות אחרות.
- הפרספקטיבה התרבותית / חברתית - אספקטים חברתיים קשורים מאוד לשפה שדבורה בתרבות, לכן טקסט באנגלית יעצי סט אמונות ו-common-sense שנפוצות במדינות דוברות אנגלית (למשל תפיסות מערביות, קפיטליסטיות, פטריארכיות וכו’) שלא בהכרח מייצגים את התרבות בשאר העולם. למשל ה-common-sense המערבי שאומר שכלה לובשת שמלה לבנה לא נכון בחלק מהתרבויות בהודו בהן נהוג שהיא לובשת שמלה אדומה.
- הפרספקטיבה הקוגניטיבית - הקונצנזוס הוא ששפה לא משפיעה על האופן שבו אנחנו חושבים (ההשערה של ספיר-וורף).
מצב הגיוון השפתי ב-NLP
גרף מעניין על ההבדל בין זמינות הדאטא לפי שפה מתוך מאמר מ-2020 - ציר ה-X הוא כמה דאטא לא מתויג יש בשפה, ציר ה-y הוא כמה דאטא מתויג יש:

הם חילקו את הגרף ל-6 קטגוריות. קטגוריה 5 היא “המנצחים” - הרבה דאטא זמין באינטרנט והרבה השקעה ממשלתית ובתעשייה בייצור דאטאסטים.

דאטאסטים וכלים ל-NLP בשפות שאינן אנגלית
כדי לבצע התקדמות במחקר NLP עבור שפות שאינן אנגלית, יש צורך בדאטאסטים מתויגים. יש בנצ’מארק מפורסם בשם XTREME (2020) שהוא “GLUE ל-multilingual” שמכיל איגוד של מספר דאטאסטים במגוון שפות (40 שפות) על מגוון משימות (9 משימות).

דאטאסטים בעברית -
- דאטאסט ParaShoot למשימת Hebrew QA - אמור להיות SQUAD בעברית, פורסם בTAU ב2021. עוד דאטאסטים בתחום בעברית - MKQA, Mintaka
- דאטאסט NER בעברית - NEMO של המעבדה של רעות צרפתי.
כלים מולטי-לינגואליים -
כדי לעשות NLP בכל שפה צריך כלים כמו פיצול משפטים ומילים, זיהוי POS, זיהוי תלויות, זיהוי קורפרנס וכו’. צריך כלים off-the-shelf (למשל spaCy) שנותנים פתרונות כאלו עבור מגוון דומיינים. בעברית יש את STANZA (של סטנפורד), YAP (של המעבדה של רעות צרפתי), את Trankit שהוא חדש יחסית (אומן על 56 שפות ועברית ביניהם, גבי אומר שזה הכי טוב שהוא ראה מבחינת ביצועים אבל שיש לו הרבה מקום לשיפור, ושיותר קשה טכנית להוריד ולעבוד אותו).
שיטת Cross-lingual transfer