Recherche automatique d'architecture neuronaleLa recherche automatique d'architecture neuronale (Neural Architecture Search, NAS) est un ensemble de techniques visant à découvrir automatiquement de nouveaux modèles de réseaux de neurones artificiels. Les principales méthodes employées dans la littérature sont basées soit sur de l'apprentissage par renforcement, sur de la descente de gradient ou bien sur des algorithmes génétiques[1],[2]. Plusieurs méthodes NAS parviennent à obtenir des architectures qui atteignent ou surpassent les performances des modèles créés à la main[3],[4],[5]. La recherche automatique d'architecture neuronale se définit suivant trois axes :
Généralement, une métrique importante à prendre en compte lors de l'évaluation d'une méthode NAS est le coût en ressources induit par la recherche d'architecture (search cost)[1],[2]. Les procédés NAS peuvent être employés pour rechercher une variété de types de réseaux de neurones (réseaux convolutifs, réseaux récurrents ou bien autoencodeurs)[1],[2]. Types d'approchesApprentissage par renforcement![]() Les premières approches NAS ont tout d'abord fait appel à de l'apprentissage par renforcement[1],[2]. Elles appliquent le paradigme habituel de l'apprentissage par renforcement en considérant l'espace de recherche comme un environnement dans lequel un agent peut évoluer et en attribuant à ce dernier une récompense (reward) calculée en fonction de la méthode d'évaluation des performances de l'architecture découverte. Ces techniques présentent le désavantage d'être très consommatrices en ressources avec souvent des milliers d'heures-GPU nécessaires pour obtenir une architecture suffisamment performante[6],[7]. Descente de gradientCertaines méthodes effectuent une recherche d'architecture neuronale différentiable en optimisant un certain ensemble de paramètres via une descente de gradient stochastique[5],[3]. Ces paramètres (aussi appelés poids architecturaux et notés α) représentent les opérations effectuées par l'architecture candidate. Une fois la phase de recherche achevée, le modèle final est obtenu en échantillonnant les opérations constituant l'architecture à partir des poids α (qui sont des variables continues). Par exemple, une méthode d'échantillonnage peut-être de transformer α en une distribution de probabilités à l'aide d'une fonction softmax ou sigmoïde[3],[8]. De plus, pour économiser en ressources de calcul et en temps, plusieurs méthodes NAS différentiables choissisent d'implémenter des mécanismes de partage des paramètres (weight sharing)[8],[5],[3]. De cette façon, l'espace de recherche peut être partitionné en plusieurs cellules qui représentent des composantes élémentaires (building blocks) à partir desquelles il est possible de construire une architecture complète en les assemblant bout-à-bout[8],[3]. L'avantage principal procuré par un tel mécanisme est de n'avoir pas à rechercher l'intégralité de l'architecture mais seulement quelques parties. Ainsi, en comparaison des autres types de techniques NAS, les méthodes différentiables sont peu énergivores, avec seulement quelques dizaines d'heures-GPU nécessaires[9],[8],[3]. Algorithmes génétiques et méthodes évolutionnairesLe principe darwiniste des algorithmes génétiques peut être appliqué à la recherche automatique d'architecture neuronale[10],[11]. Dans ce cas-là, le plus souvent, on considère les architectures candidates comme un ensemble d'individus capables de se reproduire entre eux en mélangeant leurs « gènes » (c'est-à-dire, les opérations dont elles sont composées) de manière à produire de nouvelles architectures. Ainsi, une population de départ est progressivement affinée en faisant se reproduire entre eux les meilleurs individus, sélectionnés selon la méthode d'évaluation disponible. Tout comme les approches à base d'apprentissage par renforcement, ces méthodes NAS sont coûteuses en ressources de calcul (surtout en heures-GPU). ApplicationsLes procédés NAS peuvent être appliqués à une très grande variété de cas d'usage, tels que :
Il est également possible de rechercher des architectures qui vont être utilisées dans un contexte précis, tel que l'inférence sur des appareils mobiles et/ou peu performants (contraintes matérielles)[12]. Notes et références
|
Portal di Ensiklopedia Dunia