การเรียนรู้ทางอากาศ: สภาพแวดล้อมยิมเพื่อฝึกอัลกอริธึมการเสริมกำลังเชิงลึกสำหรับการนำทาง UAV บริษัท ชุนหลงเว่ย จำกัด

การเรียนรู้ทางอากาศ: สภาพแวดล้อมในโรงยิมเพื่อฝึกอัลกอริทึมการเสริมแรงเชิงลึกสำหรับการนำทาง UAV

นักวิทยาการหุ่นยนต์ทั่วโลกได้พยายามพัฒนาอากาศยานไร้คนขับอัตโนมัติ (UAV) ที่สามารถติดตั้งได้ในระหว่างภารกิจการค้นหาและกู้ภัย หรือเพื่อใช้ทำแผนที่พื้นที่ทางภูมิศาสตร์และสำหรับการค้นหาแหล่งที่มา อย่างไรก็ตาม ในการใช้งานแบบอัตโนมัติ โดรนควรสามารถเคลื่อนที่ได้อย่างปลอดภัยและมีประสิทธิภาพในสภาพแวดล้อมของพวกเขา

ในช่วงไม่กี่ปีที่ผ่านมา อัลกอริธึมการเรียนรู้แบบเสริมกำลัง (RL) ได้บรรลุผลลัพธ์ที่มีแนวโน้มสูงในการทำให้หุ่นยนต์มีอิสระมากขึ้น อย่างไรก็ตาม เทคนิค RL ที่มีอยู่ส่วนใหญ่จะเน้นที่การออกแบบของอัลกอริทึมเป็นหลักโดยไม่คำนึงถึงความหมายที่แท้จริง ด้วยเหตุนี้ เมื่ออัลกอริทึมถูกนำไปใช้กับ UAV จริง ประสิทธิภาพของมันอาจแตกต่างกันหรือน่าผิดหวัง

ตัวอย่างเช่น เนื่องจากโดรนจำนวนมากมีความสามารถในการประมวลผลบนเครื่องบินที่จำกัด อัลกอริธึม RL ที่ได้รับการฝึกฝนในการจำลองอาจใช้เวลานานกว่าในการคาดการณ์เมื่อนำไปใช้กับหุ่นยนต์จริง เวลาในการคำนวณที่นานขึ้นเหล่านี้อาจทำให้ UAV ช้าลงและตอบสนองน้อยลง ซึ่งอาจส่งผลต่อผลลัพธ์ของภารกิจหรือส่งผลให้เกิดอุบัติเหตุและการชนกัน

นักวิจัยจากมหาวิทยาลัยฮาร์วาร์ดและ Google Research ได้พัฒนา Air Learning ซึ่งเป็นโปรแกรมจำลองโอเพนซอร์สและสภาพแวดล้อมในยิม ซึ่งนักวิจัยสามารถฝึกอัลกอริทึม RL สำหรับการนำทาง UAV ได้ ซึ่งอาจช่วยปรับปรุงประสิทธิภาพของ UAV แบบอัตโนมัติในการตั้งค่าในโลกแห่งความเป็นจริง

Srivatsan Krishnan หนึ่งในนักวิจัยที่ทำการศึกษากล่าวว่า "เพื่อให้บรรลุความเป็นอิสระอย่างแท้จริงใน UAVs จำเป็นต้องพิจารณาแง่มุมระดับระบบ เช่น การเลือกคอมพิวเตอร์ออนบอร์ด" "ดังนั้น วัตถุประสงค์หลักของการศึกษาของเราคือการจัดหาบล็อกพื้นฐานที่จะช่วยให้นักวิจัยสามารถประเมินอัลกอริธึมอิสระเหล่านี้แบบองค์รวมได้"

ใน Air Learning ตัวแทน UAV สามารถสัมผัสและฝึกอบรมในสถานการณ์การนำทางที่ท้าทายได้ โดยเฉพาะอย่างยิ่ง พวกเขาสามารถได้รับการฝึกอบรมเกี่ยวกับงานการหลีกเลี่ยงสิ่งกีดขวางแบบจุดต่อจุดในสภาพแวดล้อมหลักสามแบบ โดยใช้เทคนิคการฝึกอบรมสองแบบที่เรียกว่าเครือข่าย Deep Q (DQN) และอัลกอริธึมการปรับนโยบายให้เหมาะสมที่สุด (PPO)

"Air Learning เป็นโครงสร้างพื้นฐานในการออกแบบและประเมินอัลกอริธึมอิสระในแบบองค์รวม" Krishnan กล่าว "มันให้เครื่องกำเนิดสภาพแวดล้อมที่เข้ากันได้กับยิม OpenAI ซึ่งจะช่วยให้นักวิจัยสามารถฝึกอบรมอัลกอริธึมการเรียนรู้แบบเสริมกำลังหลายตัวและนโยบายเครือข่ายประสาทเทียม"

บนแพลตฟอร์มที่พัฒนาโดย Krishnan และเพื่อนร่วมงานของเขา นักวิจัยสามารถประเมินประสิทธิภาพของอัลกอริธึมที่พวกเขาพัฒนาขึ้นภายใต้ตัวชี้วัดคุณภาพการบิน (QoF) ที่หลากหลาย ตัวอย่างเช่น พวกเขาสามารถประเมินพลังงานที่ใช้โดยโดรนเมื่อใช้อัลกอริธึม ตลอดจนความทนทานและความยาววิถีโดยเฉลี่ยเมื่อใช้ฮาร์ดแวร์ที่มีข้อจำกัดด้านทรัพยากร เช่น Raspberry Pi

"เมื่ออัลกอริทึมของพวกเขาได้รับการออกแบบ นักวิจัยสามารถใช้ฮาร์ดแวร์ในวงเพื่อเสียบคอมพิวเตอร์ฝังตัวและประเมินว่าอัลกอริธึมอิสระทำงานอย่างไรราวกับว่ากำลังทำงานบน UAV จริงกับคอมพิวเตอร์ออนบอร์ดนั้น" Krishnan กล่าว “การใช้เทคนิคเหล่านี้ สามารถระบุปัญหาคอขวดด้านประสิทธิภาพระดับระบบได้ตั้งแต่เนิ่นๆ ในกระบวนการออกแบบ”

เมื่อทำการทดสอบ Air Learning นักวิจัยพบว่ามักจะมีความคลาดเคลื่อนระหว่างประสิทธิภาพที่คาดการณ์ไว้กับการทำงานจริงของคอมพิวเตอร์ออนบอร์ด ความคลาดเคลื่อนนี้อาจส่งผลต่อประสิทธิภาพโดยรวมของ UAV ซึ่งอาจส่งผลต่อการใช้งาน ผลลัพธ์ของภารกิจ และความปลอดภัย

“แม้ว่าเราจะมุ่งเน้นที่ UAV โดยเฉพาะ แต่เราเชื่อว่าวิธีการที่เราใช้สามารถนำไปใช้กับระบบอัตโนมัติอื่น ๆ เช่นรถยนต์ที่ขับด้วยตนเองได้” Krishnan กล่าว “เนื่องจากคอมพิวเตอร์ออนบอร์ดเหล่านี้เป็นสมองของระบบอัตโนมัติ จึงขาดวิธีการที่เป็นระบบในการออกแบบ ในการออกแบบออนบอร์ดคอมพิวเตอร์อย่างมีประสิทธิภาพ เราต้องเข้าใจปัญหาคอขวดของประสิทธิภาพก่อน และ Air Learning ได้จัดเตรียมบล็อกพื้นฐานเพื่อทำความเข้าใจว่าคอขวดของประสิทธิภาพคืออะไร”

ในอนาคต Air Learning สามารถพิสูจน์ได้ว่าเป็นแพลตฟอร์มที่มีค่าสำหรับการประเมินอัลกอริธึม RL ที่ออกแบบมาเพื่อเปิดใช้งานการทำงานอัตโนมัติของ UAV และระบบหุ่นยนต์อื่นๆ Krishnan และเพื่อนร่วมงานของเขากำลังใช้แพลตฟอร์มที่พวกเขาสร้างขึ้นเพื่อจัดการกับปัญหาการวิจัยที่หลากหลาย ตั้งแต่การพัฒนาโดรนที่ออกแบบมาเพื่อทำภารกิจเฉพาะให้สำเร็จ ไปจนถึงการสร้างคอมพิวเตอร์ออนบอร์ดเฉพาะทาง

“การเรียนรู้การเสริมกำลังเป็นที่รู้กันดีว่าการฝึกอบรมช้ามาก” Krishnan กล่าว “โดยทั่วไปแล้ว ผู้คนจะเร่งความเร็วการฝึกอบรม RL โดยการทุ่มทรัพยากรการประมวลผลมากขึ้น ซึ่งอาจมีราคาแพงและอุปสรรคในการเข้าทำงานน้อยลงสำหรับนักวิจัยจำนวนมาก งานของเรา QuaRL (การเรียนรู้การเสริมแรงเชิงปริมาณ) ใช้ quantization เพื่อเร่งการฝึกอบรม RL และการอนุมาน เราใช้ Air Learning เพื่อแสดงแอปพลิเคชัน QuaRL ในโลกแห่งความเป็นจริงในการปรับใช้นโยบาย RL ที่ใหญ่ขึ้นบน UAV ที่จำกัดหน่วยความจำ”

คอมพิวเตอร์ออนบอร์ดทำหน้าที่เป็น "สมอง" ของระบบอัตโนมัติ ดังนั้นจึงควรสามารถรันอัลกอริธึมที่หลากหลายได้อย่างมีประสิทธิภาพ อย่างไรก็ตาม การออกแบบคอมพิวเตอร์เหล่านี้อาจมีราคาแพงมาก และไม่มีวิธีการออกแบบที่เป็นระบบ ในการศึกษาครั้งต่อไปของพวกเขา Krishnan และเพื่อนร่วมงานของเขายังวางแผนที่จะสำรวจว่าพวกเขาสามารถออกแบบคอมพิวเตอร์ออนบอร์ดสำหรับ UAV แบบอัตโนมัติได้อย่างไร เพื่อลดต้นทุนและเพิ่มประสิทธิภาพ UAV สูงสุด

"เราใช้ Air Learning เพื่อฝึกอบรมและทดสอบนโยบายการนำทางหลายแบบสำหรับสถานการณ์การใช้งานที่แตกต่างกัน" Krishnan กล่าว “นอกจากนี้ ในฐานะที่เป็นส่วนหนึ่งของการวิจัยของเราเกี่ยวกับการปกครองตนเอง การใช้งานเราได้สร้าง UAV ที่เป็นอิสระอย่างสมบูรณ์เพื่อค้นหาแหล่งกำเนิดแสง งานนี้ใช้ Air Learning เพื่อฝึกและปรับใช้นโยบายการค้นหาแสงเพื่อทำงานบน UAV ขนาดเล็กที่ขับเคลื่อนด้วยไมโครคอนโทรลเลอร์”

ELE ไทม์ส

+ โพสต์

ELE ไทม์ส

https://www.eletimes.com/author/eletimes-news

Bluetest และอันริตสึรองรับการวัด OTA บน IEEE 802.11ax 6 GHz-Band (Wi-Fi 6E) อุปกรณ์
ELE ไทม์ส

https://www.eletimes.com/author/eletimes-news

วิศวกรสร้างความก้าวหน้าที่สำคัญในการออกแบบคอมพิวเตอร์ควอนตัม
ELE ไทม์ส

https://www.eletimes.com/author/eletimes-news

Global Chip Crunch อาจคงอยู่จนถึงปี 2023 Infineon CEO
ELE ไทม์ส

https://www.eletimes.com/author/eletimes-news

การใช้อัลกอริธึมการเรียนรู้เชิงลึกเพื่อให้นักปั่นจักรยานได้รับ 'คลื่นสีเขียว' ที่สัญญาณไฟจราจร

การเรียนรู้ทางอากาศ: สภาพแวดล้อมในโรงยิมเพื่อฝึกอัลกอริทึมการเสริมแรงเชิงลึกสำหรับการนำทาง UAV

ELE ไทม์ส