Verbeter de prestaties van machine learning door de nullen te laten vallen

Update: 6 augustus 2023
Verbeter de prestaties van machine learning door de nullen te laten vallen

KAUST-onderzoekers hebben een manier gevonden om de trainingssnelheid aanzienlijk te verhogen. Grote machine learning-modellen kunnen aanzienlijk sneller worden getraind door te observeren hoe vaak nul resultaten worden geproduceerd in gedistribueerde machine learning die grote trainingsgegevenssets gebruikt.

AI-modellen ontwikkelen hun "intelligentie" door te worden getraind op datasets die zijn gelabeld om het model te vertellen hoe het onderscheid kan maken tussen verschillende inputs en dienovereenkomstig te reageren. Hoe meer gelabelde gegevens er binnenkomen, hoe beter het model wordt in het uitvoeren van de taak waarvoor het is toegewezen. Voor complexe deep learning-toepassingen, zoals zelfrijdende voertuigen, vereist dit enorme invoerdatasets en zeer lange trainingtijden, zelfs bij gebruik van krachtige en dure zeer parallelle supercomputingplatforms.

Tijdens de training worden kleine leertaken toegewezen aan tientallen of honderden computerknooppunten, die hun resultaten vervolgens delen via een communicatienetwerk voordat de volgende taak wordt uitgevoerd. Een van de grootste bronnen van computeroverhead bij dergelijke parallelle computertaken is eigenlijk deze communicatie tussen computerknooppunten bij elke modelstap.

"Communicatie is een belangrijk prestatieprobleem bij gedistribueerd diep leren", legt het KAUST-team uit. “Naast de snelle toename van de modelgrootte, zien we ook een toename van het aandeel nulwaarden dat tijdens het leerproces wordt geproduceerd, wat we sparsity noemen. Ons idee was om deze schaarste te benutten om het effectieve bandbreedtegebruik te maximaliseren door alleen niet-nul datablokken te verzenden.

Voortbouwend op een eerdere ontwikkeling van KAUST, SwitchML genaamd, die de communicatie tussen internodes optimaliseerde door efficiënte aggregatiecode uit te voeren op de netwerkswitches die gegevensoverdracht verwerken, gingen Fei, Marco Canini en hun collega's een stap verder door nulresultaten te identificeren en een manier te ontwikkelen om de transmissie zonder het onderbreken van de synchronisatie van het parallelle computerproces.

"Het is een uitdagend probleem om de schaarste precies te benutten om gedistribueerde training te versnellen, zegt het team. “Alle knooppunten moeten datablokken op dezelfde locatie in een tijdslot verwerken, dus we moeten de knooppunten coördineren om ervoor te zorgen dat alleen datablokken op dezelfde locatie worden geaggregeerd. Om dit te ondervangen, hebben we een aggregatorproces gecreëerd om de arbeiders te coördineren en hen te instrueren op welk blok ze het volgende moeten sturen.”

Het team demonstreerde hun OmniReduce-schema op een testbed bestaande uit een reeks grafische verwerkingseenheden (GPU) en bereikte een achtvoudige versnelling voor typische diepgaand leren taken.

ELE-tijden
+ berichten
  • BD Soft sluit aan bij Data Resolve en versterkt zijn aanbod op het gebied van cyberbeveiliging en bedrijfsinformatie
  • Gecombineerde aanpak vindt het beste directe traject voor het genereren van robotpaden
  • Eén materiaal met twee functies kan leiden tot sneller geheugen
  • New Technologie Kan de snelste versie van 5G naar uw huis en werkplek brengen