ปรับปรุงประสิทธิภาพการเรียนรู้ของเครื่องโดยการลดค่าศูนย์

อัปเดต: 6 สิงหาคม 2023
ปรับปรุงประสิทธิภาพการเรียนรู้ของเครื่องโดยการลดค่าศูนย์

นักวิจัยของ KAUST ได้ค้นพบวิธีที่จะเพิ่มความเร็วในการฝึกอบรมได้อย่างมาก โมเดลแมชชีนเลิร์นนิงขนาดใหญ่สามารถฝึกได้เร็วกว่ามาก โดยสังเกตความถี่ที่สร้างผลลัพธ์เป็นศูนย์ในแมชชีนเลิร์นนิงแบบกระจายที่ใช้ชุดข้อมูลการฝึกขนาดใหญ่

โมเดล AI พัฒนา "ความฉลาด" โดยได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่มีป้ายกำกับเพื่อบอกโมเดลว่าจะแยกความแตกต่างระหว่างอินพุตต่างๆ ได้อย่างไร จากนั้นจึงตอบสนองตามนั้น ยิ่งมีข้อมูลที่มีป้ายกำกับมากเท่าใด ตัวแบบก็จะยิ่งทำงานได้ดีขึ้นตามงานที่ได้รับมอบหมายให้ทำ สำหรับแอปพลิเคชันการเรียนรู้เชิงลึกที่ซับซ้อน เช่น ยานยนต์ที่ขับเคลื่อนด้วยตัวเอง ต้องใช้ชุดข้อมูลอินพุตจำนวนมากและเวลาฝึกอบรมที่ยาวนานมาก แม้จะใช้งานแพลตฟอร์มซูเปอร์คอมพิวเตอร์แบบขนานที่มีราคาแพงและทรงพลัง

ในระหว่างการฝึกอบรม งานการเรียนรู้เล็กๆ จะถูกมอบหมายให้กับโหนดการคำนวณหลายสิบหรือหลายร้อยโหนด ซึ่งจะแชร์ผลลัพธ์ผ่านเครือข่ายการสื่อสารก่อนที่จะทำงานต่อไป หนึ่งในแหล่งที่ใหญ่ที่สุดของค่าใช้จ่ายในการคำนวณในงานคำนวณแบบคู่ขนานนั้น แท้จริงแล้วการสื่อสารระหว่างโหนดการคำนวณในแต่ละขั้นตอนของโมเดล

“การสื่อสารเป็นปัญหาคอขวดด้านประสิทธิภาพที่สำคัญในการกระจายการเรียนรู้เชิงลึก” ทีมงาน KAUST อธิบาย “นอกจากขนาดโมเดลที่เพิ่มขึ้นอย่างรวดเร็วแล้ว เรายังเห็นสัดส่วนของค่าศูนย์ที่เพิ่มขึ้นซึ่งเกิดขึ้นระหว่างกระบวนการเรียนรู้ ซึ่งเราเรียกว่าความกระจัดกระจาย แนวคิดของเราคือใช้ประโยชน์จากพื้นที่ว่างนี้เพื่อเพิ่มการใช้แบนด์วิธให้มีประสิทธิภาพสูงสุดโดยส่งเฉพาะบล็อกข้อมูลที่ไม่เป็นศูนย์”

จากการพัฒนา KAUST ก่อนหน้านี้ที่เรียกว่า SwitchML ซึ่งเพิ่มประสิทธิภาพการสื่อสารปล้องโดยการเรียกใช้รหัสการรวมที่มีประสิทธิภาพบนสวิตช์เครือข่ายที่ประมวลผลการถ่ายโอนข้อมูล Fei, Marco Canini และเพื่อนร่วมงานของพวกเขาได้ก้าวไปอีกขั้นด้วยการระบุผลลัพธ์ที่เป็นศูนย์และพัฒนาวิธีการลดการส่งข้อมูลโดยไม่ต้อง ขัดจังหวะการซิงโครไนซ์ของกระบวนการคำนวณแบบขนาน

“วิธีการใช้ประโยชน์จากความกระจัดกระจายเพื่อเร่งการฝึกอบรมแบบกระจายเป็นปัญหาที่ท้าทาย” ทีมงานกล่าว “โหนดทั้งหมดจำเป็นต้องประมวลผลบล็อคข้อมูลที่ตำแหน่งเดียวกันในช่วงเวลาหนึ่ง ดังนั้นเราต้องประสานงานโหนดเพื่อให้แน่ใจว่าจะรวมเฉพาะบล็อคข้อมูลในตำแหน่งเดียวกันเท่านั้น ในการเอาชนะสิ่งนี้ เราได้สร้างกระบวนการรวบรวมเพื่อประสานงานกับคนงาน โดยสั่งให้พวกเขาส่งบล็อกใดต่อไป”

ทีมงานได้สาธิตโครงการ OmniReduce ของพวกเขาบน testbed ที่ประกอบด้วยอาร์เรย์ของหน่วยประมวลผลกราฟิก (GPU) และได้รับความเร็วเพิ่มขึ้นแปดเท่าโดยทั่วไป การเรียนรู้ลึก ๆ งาน

ELE ไทม์ส
+ โพสต์
  • BD Soft ร่วมมือกับ Data Resolve เสริมความแข็งแกร่งให้กับข้อเสนอใน Cyber ​​Security & Enterprise Intelligence
  • วิธีการแบบผสมผสานค้นหาวิถีทางตรงที่ดีที่สุดสำหรับการสร้างเส้นทางหุ่นยนต์
  • หนึ่งวัสดุที่มีสองฟังก์ชั่นสามารถนำไปสู่หน่วยความจำที่เร็วขึ้น
  • ใหม่ เทคโนโลยี สามารถนำ 5G เวอร์ชันที่เร็วที่สุดมาสู่บ้านและที่ทำงานของคุณได้