<aside> ℹ️ מידע על העמוד

Untitled

למה כדאי לעבוד על NLP שלא באנגלית?

בבלוג פוסט של Sebastian Ruder מ-2020 הוא מדבר על כמה סיבות -

מצב הגיוון השפתי ב-NLP

גרף מעניין על ההבדל בין זמינות הדאטא לפי שפה מתוך מאמר מ-2020 - ציר ה-X הוא כמה דאטא לא מתויג יש בשפה, ציר ה-y הוא כמה דאטא מתויג יש:

Untitled

הם חילקו את הגרף ל-6 קטגוריות. קטגוריה 5 היא “המנצחים” - הרבה דאטא זמין באינטרנט והרבה השקעה ממשלתית ובתעשייה בייצור דאטאסטים.

Untitled

דאטאסטים וכלים ל-NLP בשפות שאינן אנגלית

כדי לבצע התקדמות במחקר NLP עבור שפות שאינן אנגלית, יש צורך בדאטאסטים מתויגים. יש בנצ’מארק מפורסם בשם XTREME (2020) שהוא “GLUE ל-multilingual” שמכיל איגוד של מספר דאטאסטים במגוון שפות (40 שפות) על מגוון משימות (9 משימות).

Untitled

דאטאסטים בעברית -

כלים מולטי-לינגואליים -

כדי לעשות NLP בכל שפה צריך כלים כמו פיצול משפטים ומילים, זיהוי POS, זיהוי תלויות, זיהוי קורפרנס וכו’. צריך כלים off-the-shelf (למשל spaCy) שנותנים פתרונות כאלו עבור מגוון דומיינים. בעברית יש את STANZA (של סטנפורד), YAP (של המעבדה של רעות צרפתי), את Trankit שהוא חדש יחסית (אומן על 56 שפות ועברית ביניהם, גבי אומר שזה הכי טוב שהוא ראה מבחינת ביצועים אבל שיש לו הרבה מקום לשיפור, ושיותר קשה טכנית להוריד ולעבוד אותו).

שיטת Cross-lingual transfer