Coreference Resolution

<aside> ℹ️ מידע על העמוד

מקורות מידע - קורס CS224n של סטנפורד
עדכניות - חורף 2021 </aside>

https://www.youtube.com/watch?v=FFRnDRcbQQU

במשימת coreference resolution, המטרה היא לזהות את כל האזכורים mentions בתוך טקסט שמתייחסים לאותה ישות entity בעולם. למשל, בטקסט הבא:

A couple of years later, Vanaja met Akhila at the local park. Akhila's son Prajwal was just two months younger than her son Akash, and they went to the same school. For the pre-school play, Prajwal was chosen for the lead role of the naughty child Lord Krishna. Akash was to be a tree. She resigned herself to make Akash the best tree that anybody had ever seen. She bought him a brown T-shirt and brown trousers to represent the tree trunk.

חשוב לשים לב פה שהביטוי "Akilah's son" בשורה הראשונה למעשה מכיל מבנה תחבירי מקונן nested syntactic structure – המילה Akilah's מתייחסת לישות של Akilah, אבל הצירוף Akilha's son מתייחס ל-Prajwal. מקומות בהם יש אזכורים כמו "They" הם גם מורכבים ומכונים "split antecedents", שזו תופעה בלשנית בשפות אנושיות בהן קיים מאזכר שמתייחס לשתי ישויות שונות – רוב אלגוריתמי ה-coreference resolution עושים הנחה מקלה שכל מאזכר מתייחס לישות אחת בלבד, ולכן אינם יכולים להתמודד עם המורכבות הזו.

למשימת coreference resolution יכולים להיות שימושים מגוונים עבור מספר משימות NLP אחרות, לדוגמא:

משימות Full text understanding
תרגום מכונה (זה חשוב במיוחד כיוון ששפות שונות זה מזו באופי בו הן משתמשות במגדר, מספרים, שמות תואר ועוד)
מערכות דיאלוג

Untitled

שלבי פתרון Coreference Resolution

משימת coreference resolution מבוצעת בשני שלבים:

שלב ראשון – זיהוי האזכורים (קל). לדוגמא:

"[I] voted for [Nader] because [he] was most aligned with [[my] values]," [she] said

שלב שני – קליסטור האזכורים (קשה). לדוגמא:

"[I] voted for [Nader] because [he] was most aligned with [[my] values]," [she] said

זיהוי אזכורים

בשלב זיהוי האזכורים צריך לזהות אזכורים mentions, כאשר אזכור הוא "רצף span של טקסט המתייחס לאותה ישות". באופן כללי, ישנם שלושה סוגים של אזכורים:

כינויי גוף pronouns (I, your, it, she, him..). כדי לזהות אותם אפשר להשתמש ב-POS tagger.
שמות ישויות named entities (למשל מקומות כמו Paris, אנשים כמו Joe Biden, חברות כמו Nike וכו'). כדי לזהות אותם אפשר להשתמש במודלי named entity recognition.