Writing good NLP papers

<aside> ℹ️ מידע על העמוד

מקורות מידע - קורס XCS224U של סטנפורד
עדכניות - אביב 2023 </aside>

טיפים לתכנון טוב של פרויקטים

Stanford XCS224U: NLU I Presenting Your Research, Part 1: Your Papers I Spring 2023

פרופ’ פוטס אומר שבקורס הזה הם בחרו להעריך את הפרויקטים לא על בסיס תוצאות אמפיריות טובות (לטענתו כנסים נוטים להעדיף תוצאות טובות, אבל שלדעתו יש חשיבות מדעית גדולה גם לתוצאות “גרועות”), אלא על בסיס בחירה נכונה של מטריקות, החוזק של השיטות שהסטודנטיות בחרו להשתמש בהן, וניסוח ברור ואיכותי של הניסויים, התוצאות והמסקנות. בנוסף, הסטודנטים בקורס התבקשו לציין במאמר גם מגבלות ידועות לשיטה - דמיינו לעצמכם שחוקר/ת NLP עם כוונות טובות רוצים להשתמש בדאטא/מודל/תוצאות של הניסוי שלכם לניסוי נוסף או למערכת שמשרתת יוזרים. מה כדאי שהם ידעו על העבודה שלכם? פרופ’ פוטס מדגיש שבכל פרויקט אפשר לעשות שימוש לרעה, והדגש הוא לא לחפש בכוח איך אפשר לעשות abuse לעבודה, אלא להציג את המגבלות לשימוש “טוב” בה. למשל, אפשר לכלול את היתרונות ואת הסיכונים בשימוש בעבדוה שלכם, את העלויות שהיא גבתה (למשתתפים בניסוי, לחברה, לכדור הארץ…), והנחיות לשימוש אחראי בדאטא/מודלים/תוצאות שפרסמתם. הוא ממליץ לבחון פורמטים כמו data sheets / model card / impact statements שהם גרסאות מפורמלות ונרחבות יחסית שמאפשרות לפרסם הרבה פרטים על העבודה שלכם בצורה שמנגישה את המידע שחשוב למי שמשתמש בו.

טיפים לכתיבת מאמרי NLP

Stanford XCS224U: NLU I Presenting Your Research, Part 2: Writing NLP Papers I Spring 2023

מבנה של מאמרי NLP

פרופ’ פוטס מציג את המבנה הכללי הבא עבור מאמר 8-pager אופייני בכנסי NLP (האורך של כל אחד מהפרקים משתנה ולא בהכרח יהיה עמוד). בד”כ כנסים ידרשו שמאמרים יהיו בגרסה קצרה (4 עמודים) או ארוכה (8 עמודים).

Untitled

פתיח intro - המטרה היא לספר את הסיפור המלא של המאמר ב-high-level. האבסטרקט יהיה הכי high-level, והאינטרו יהיה יותר מפורט ממנו אבל עדיין מאוד כללי, ככה שכשהקוראים יסיימו לקרוא את האינטרו הם יבינו היטב במה המאמר עוסק ורק ישאר להם לקרוא את הפרטים הספציפיים בהמשך המאמר.
עבודות קודמות related work - פרק שמטרתו להסביר את ההקשר המדעי-מחקרי שהעבודה שלכם ממשיכה. כלומר, בחלק הזה מפרטים נושאים רלוונטיים מתוך הספרות המדעית כולה - המטרה היא שכל מאמר או נושא שאתם מזכירים בפרק הזה ישמש אתכם כדי לבטא מה מיוחד בעבודה שלכם. כלומר, כל פסקה בפרק הזה מתייחסת לנושא מסוים או מעלה שאלה מסוימת שהעבודה שלנו נותנת לה מענה.
דאטא - הפרק הזה עשוי להיות מאוד מפורט אם המאמר שלכם מציג דאטא חדש או בנושא שעוד לא מוכר בקהילה, או אם דאטאסטים מוכרים מושמשים בעבודה שלכם בדרכים חדשות. בכל מקרה אחר זה יכול להיות פרק קצר מאוד.
מודל - הפרק הזה צריך להציג את המודל שלכם בפירוט. אפשר להדגיש בו חלקים / נושאים שעלו בפרק העבודות הקודמות (כדי להסביר למה בחרתם למדל בדרך שבחרתם).
שיטות - בפרק זה מציגים את הניסויים שעשיתם, כולל תיאור של המטריקות, מודלי בייסליין וכו’. פרטים על היפרפרמטרים ואופטימיזציה שלהם וכו’ עדיף לכלול בנספחים ולא בפרק הזה אלא אם כן הם דרושים להבנה.
תוצאות - תיאור קונקרטי של התוצאות שהתקבלו בניסויים.
ניתוח התוצאות - דיון לגבי מה המשמעות של התוצאות, מה אי אפשר להסיק מהן, איפה אפשר לשפר אותן וכו’. הפרק הזה נראה מאוד שונה כתלות באופי העבודה שלכם.

פרופ’ פוטס מציע שאם העבודה שלכם מציגה ניסויים על מספר דאטאסטים/גישות שונים מהותית שפחות מתאים לדבר עליהם ביחד, כדאי לחלק את המאמר שלכם לפי דאטאסטים, ועבור כל אחד מהם להציג את הרצף של שיטות+תוצאות+ניתוח התוצאות בנפרד, כדי שיהיה יותר קל לעקוב.
מסקנות - סיכום קצר של מה עשיתם בעבודה שהמאמר מציג, ותיאור קצר של עבודות המשך אפשריות.

טיפים לכתיבה מדעית

גישת rational reconstruction - פרופ’ סטיוארט שיבר מהארוורד מתאר 3 גישות לכתיבת מאמרים, ומציע לפתח מודעות ולהמנע מלכתוב בשני הסגנונות הראשונים, ולהשתדל לדבוק בשלישי:
טיפים לכתיבה מתמטית - “חוסו על הקוראים” - נסו לכתוב את הביטויים המתמטיים כך שיהיו נוחים לקריאה למישהו שנתקל בחומר הזה בפעם הראשונה ולא מחזיק במוח את המידע שיש לכם לגבי העבודה שלכם. חשבו איזה מידע נחוץ ואיזה לא, ומה יהיה הכי שימושי וברור לקורא חדש כדי לבטא את הרעיונות שלכם.