גודל צעד לוגריתמי חדש לירידה בשיפוע סטוכסטי

עדכון: 24 באפריל, 2024
גודל צעד לוגריתמי חדש לירידה בשיפוע סטוכסטי
קרדיט: M. Soheil Shamaee, S. Fathi Hafshejani, Z. Saeidian

גודל הצעד, המכונה לעתים קרובות קצב הלמידה, ממלא תפקיד מרכזי באופטימיזציה של היעילות של אלגוריתם הירידה הסטוכסטית (SGD). בתקופה האחרונה, הופיעו אסטרטגיות גודל צעדים מרובות לשיפור ביצועי SGD. עם זאת, אתגר משמעותי הקשור לגדלי הצעדים הללו קשור להתפלגות ההסתברות שלהם, המסומנת כ-ηt/ΣTt = 1η t .


התפלגות זו נצפתה כדי להימנע מהקצאת ערכים קטנים במיוחד לאיטרציות הסופיות. לדוגמה, גודל צעד הקוסינוס בשימוש נרחב, למרות שהוא יעיל בפועל, נתקל בבעיה זו על ידי הקצאת ערכי התפלגות הסתברות נמוכים מאוד לאיטרציות האחרונות.

כדי להתמודד עם האתגר הזה, צוות מחקר בראשות M. Soheil Shamaee פרסם את המחקר שלהם ב גבולות מדעי המחשב.

הצוות מציג גודל צעד לוגריתמי חדש עבור גישת SGD. גודל הצעד החדש הזה הוכח כיעיל במיוחד במהלך האיטרציות האחרונות, שם הוא נהנה מהסתברות גבוהה יותר לבחירה בהשוואה לגודל צעד הקוסינוס המקובל.

כתוצאה מכך, שיטת גודל הצעד החדשה עולה על הביצועים של שיטת גודל הצעד הקוסינוס באיטרציות הסיום הקריטיות הללו, ונהנית מהסבירות המוגברת שלהן להיבחר כפתרון הנבחר. התוצאות המספריות שהתקבלו משמשות עדות ליעילות של גודל הצעד החדש שהוצע, במיוחד במערך הנתונים של FashionMinst, CIFAR10 ו-CIFAR100.

בנוסף, גודל הצעד הלוגריתמי החדש הראה שיפורים מדהימים בדיוק הבדיקה, והשיג עלייה של 0.9% עבור מערך הנתונים CIFAR100 כאשר נעשה בו שימוש במודל של רשת עצבית קונבולוציונית (CNN).