<aside> ℹ️ מידע על העמוד
מודלי שפה מקודדים במשקולות שלהם באופן טבעי הטיות שמבוססות על הדאטא עליהם הם מאומנים. למשל, הטיות חברתיות (למשל מגדריות) עשויות ממש להשפיע על הפרדיקציה שהמודל מבצע. בדוגמא למטה ניתן לראות שמודלים מצליחים יותר בפרדיקציות עבור דוגמאות בהן יש מילים (למשל בדוגמא, מקצועות) סטראוטיפיות (למשל בדוגמא, מקצועות שסטראוטיפית משויכים רק לנשים או רק לגברים). כלומר, המודלים מתבססים על סטראוטיפים במקום על סיגנלים חזקים יותר מתוך הקלט.
הבנה שהתפתחה בעקבות מחקרים היא שהרבה פעמים מודלים מתבססים על ההטיות בדאטא כדי לבצע את הפרדיקציה. למשל, מודל coreference שנותן תוצאות טובות - היינו חושבים שהוא מתבסס על הבנה מורכבת של תחביר, אבל הוא עשוי פשוט להתבסס על סטראוטיפים שנפוצים בדאטא. למשל בדוגמא למטה - הרבה מודלים יחזירו את התשובה השניה (הסטראוטיפית והשגויה - כי ניכר שהמילה her אמורה להתייחס למילה doctor בדיוק כמו בדוגמא הראשונה) - למרות שההבדל היחיד בין שני המשפטים הוא ההחלפה של המילה him ב-her.
כלומר, הרעיון הוא ש-pronouns גורמים לקישורי coreference. אפשר לבחון את ה-counterfactuals באמצעות טמפלייטים בסגנון Winograd.
ההטיות האלו קיימות גם בבעיות כמו תרגום - למשל, כדי לתרגם את המשפט הבא לעברית:
צריך למעשה לפתור בעיית coreference עבור המילה it - האם היא מתייחסת ל-trophy (ואז תתורגם ל״הוא״) או ל-suitcase (ואז תתורגם ל״היא״)?
מתודולוגיה שהוצגה במחקר מהאוניברסיטה העברית מציעה לתרגם את ההטיות המגדריות בדאטאסטים של coreference (ספציפית עבור שפות בהן יש מגדר דקדוקי), ואז להתאים בין משפט המקור ומשפט המטרה. כלומר לחבר בין המילים בשפה המקורית למילים שתואמות להן במשפט המתורגם. ואז אפשר להסתכל על המגדר הדקדוקי שנוצר בתרגום ולראות אם הוא תואם למגדר במקור (למשל בדוגמא למטה המגדר תואם, כי במשפט המקורי המאזכר her רומז שהרופאה היא אישה).
הטענה במאמר היא שאם מזינים למודל תרגום דוגמאות זהות שההבדל ביניהן הוא מאזכר שבפעם אחת מראה שיוך מגדרי סטראוטיפי (לדוגמא המשפט הדוגמא למעלה שבו המאזכר הוא him שרומז שהרופא הוא גבר) ובפעם אחת מראה שיוך מגדרי לא סטראוטיפי (רופאה אישה), אז ההבדל בביצועים של המודל בין שני המקרים האלו יכול להיות משויך להשפעה של סטראוטיפים מגדריים (כי זה הפרמטר היחיד שהשתנה).
הרבה מחקרים מציעים דרכים לבצע debiasing לפלטים של מודלים כדי לודא שהם לא מיזוגנים, גזענים וכו׳. עולה התהיה באיזה שלב צריך לבצע את ההתערבות - הדאטא, הייצוגים או המודל? ביצוע debiasing הוא משימה קשה, בגלל שיכולות מאוד להיות קורלציות מסדר גבוה יותר שלא כתובות באופן מפורש אך עדיין משפיעות (למשל אם מדובר על parent that picks up the kids סביר שההורה הזה הוא האמא).
בד״כ מה שעושים זה להגדיר תכונות מוגנות guarded features (כמו מגדר או גזע) ומוודאים שהמודל לא יוכל לחזות אותן רק מהמילה (למשל לחזות שרופא הוא גבר רק על בסיס המילה doctor) - למשל ע״י לבצע הטלה ל-embedding למרחב ככה שלא אפשרי לחזות ממנו מגדר. למניפולציות כאלו יש בהכרח טריידאוף אינהרנטי עם הביצועים על משימות downstream.