LM Evaluation | Notion

<aside> ℹ️ מידע על העמוד

בפרק זה נסקור 3 שיטות לביצוע אווליואציה למודלי יצירת שפה:

מטריקות Content overlap שיטת אוויואלציה "אוטומטית" בה בוחנים כמה שני רצפים של מילים הם דומים אחד לשני (כלומר, מכילים מילים דומות או ביטויים phrases דומים). מספקות נקודת התחלה טובה לאווליואציה של האיכות של הטקסט שיוצר, אבל הן לא מספיק טובות בפני עצמן.
מטריקות Model based יכולות להיות קורלטיביות עם שיפוט אנושי, אבל ההתנהגות שלהם היא לא אינטרפטבילית.
אווליואציה אנושית היא קריטית, זו המטריקה היחידה שמאפשרת לזהות factuality (האם המודל אומר דברים נכונים), אבל הבעיה עם שיטה זו היא שבני אדם הם לא עקביים.

מטריקות חפיפת תוכן Content Overlap