1 accélérer le rythme de l'apprentissage automatique 1

Les données sont lancées sur un modèle mathématique comme des grains de sable en sable à travers un paysage rocheux.Certains de ces grains naviguent simplement avec peu ou pas d'impact.Mais certains d'entre eux font leur marque: tester, durcir et finalement remodeler le paysage en fonction des modèles et des fluctuations inhérents qui émergent au fil du temps.

Efficace?Oui.Efficace?Pas tellement.

Rick Blum, le Robert W.Wieseman Professeur de génie électrique et informatique à l'Université de Lehigh, cherche à apporter de l'efficacité aux techniques d'apprentissage distribuées émergeant comme cruciales pour l'intelligence artificielle moderne (IA) et l'apprentissage automatique (ML).Essentiellement, son objectif est de lancer beaucoup moins de grains de données sans dégrader l'impact global.

In the paper "Distributed Learning With Sparsified Gradient Differences," published in a special ML-focused issue of the IEEE Journal of Selected Topics in Signal Processing, Blum and collaborators propose the use of "Gradient Descent method with Sparsification and Error Correction," or GD-SEC, to improve the communications efficiency of machine learning conducted in a "worker-server" wireless architecture.Le numéro a été publié le 17 mai 2022.

"Les problèmes d'optimisation distribuée apparaissent dans divers scénarios qui reposent généralement sur les communications sans fil", dit-il."La latence, l'évolutivité et la confidentialité sont des défis fondamentaux."

"Divers algorithmes d'optimisation distribués ont été développés pour résoudre ce problème", poursuit-il, "et une méthode principale est d'employer un GD classique dans une architecture de travailleur-serveur.Dans cet environnement, le serveur central met à jour les paramètres du modèle après l'agrégation des données reçues de tous les travailleurs, puis diffuse les paramètres mis à jour aux travailleurs. But the overall performance is limited by the fact that each worker must transmit all of its data all of the time.Lors de la formation d'un réseau neuronal profond, cela peut être de l'ordre de 200 Mo de chaque appareil de travailleur à chaque itération.Cette étape de communication peut facilement devenir un goulot d'étranglement important sur les performances globales, en particulier dans l'apprentissage fédéré et les systèmes d'IA Edge."

Grâce à l'utilisation de GD-SEC, explique Blum, les exigences de communication sont considérablement réduites.La technique utilise une approche de compression de données où chaque travailleur définit des composants de gradient de petite ampleur à zéro - l'équivalent de traitement du signal de ne pas transpirer les petites choses.Le travailleur transmet alors uniquement vers le serveur les composants non nuls restants.En d'autres termes, des données significatives et utilisables sont les seuls paquets lancés au modèle.

"Les méthodes actuelles créent une situation où chaque travailleur a un coût de calcul coûteux; GD-SEC est relativement bon marché où une seule étape GD est nécessaire à chaque tour", explique Blum.

Les collaborateurs du professeur Blum sur ce projet incluent son ancien étudiant Yicheng Chen '19G' 21phd, maintenant ingénieur logiciel avec LinkedIn;Martin Takác, professeur agrégé à l'Université de l'intelligence artificielle de Mohamed bin Zayed;et Brian M.Sadler, un boursier de la vie de l'IEEE, u.S.Scientifique senior de l'armée pour les systèmes intelligents et membre du Laboratoire de recherche de l'armée.