האם אנחנו באמת צריכים את כל 2048 המימדים? מוטיבציה תיאורטית לגיזום מרחב לטנטי
שמי ירון גנד, אני מהנדס AI וחוקר למידת מכונה. מדי פעם יוצא לי לחשוב עם עצמי על כל מיני תהליכים שנראים לא עובדים בעולם למידת המכונה ואז אני עושה לעצמי מיקרו מחקרים עצמאיים, לבדוק ולנסות דברים.
הרקע
בלמידה מדוגמאות מעטות (Few-shot learning), בדרך כלל אנחנו מזינים את כל הווקטור הלטנטי (512 או 2048 מימדים) לתוך מסווג זעיר עם רק 1-5 דוגמאות מתויגות לכל מחלקה. אינטואיטיבית, זה מרגיש מסוכן — והתיאוריה מסכימה.
מה מצאתי
- שינוי במגמת למידה מדוגמאות מעטות — מעבר ממטא-למידה מורכבת לקווי בסיס פשוטים: אימון מקודד, הקפאתו, ואימון מסווג ליניארי
- למה יותר מדי מימדים יכולים להזיק — תופעת אפקט יוז, Double Descent, ויכולת הרשתות העמוקות לשנן שער אקראי
- למה לא פשוט PCA? — שונות גבוהה לא תמיד פירושה סיגנל גבוה, במיוחד במרחבים לטנטיים עמוקים
- LPG כבקרת קיבולת — גיזום לטנטי כ"כפתור קיבולת" להתרחקות מרגימים מסוכנים
זהו פרויקט בתהליך (work-in-progress). המאמר המלא זמין ב-Medium.