Project Brainwave: Microsoft s’attèle au traitement IA en temps réel

Microsoft est à pied d’oeuvre sur une plateforme d’intelligence artificielle en temps réel sous le nom de code Project Brainwave.

Dévoilée à l’occasion de la conférence Hot Chips 2017 (qui s’est déroulée du 20 au 22 août à Cupertino en Californie), cette architecture de système distribué à haute performance se compose d’un moteur matériel exploitant des puces personnalisables connues sous le nom de FPGA (Field-Programmable Gate Array) explorant le deep learning (réseaux neuronaux ou apprentissage en profondeur, une branche de l’intelligence artificielle).

Les FPGA haute performance sont intégrés directement dans les data centers de Microsoft avec une exploitation en mode DNN (Deep Neural Network)

Doug Burner, en qualité de Distinguished Engineer chez Microsoft, se félicite des progrès réalisés avec Project Brainwave : « Project Brainwave réalise un grand pas en avant dans la performance et la flexibilité pour le service basé sur le cloud des modèles d’apprentissage en profondeur. «

Tout en poursuivant : « Nous avons conçu le système pour l’IA en temps réel, ce qui signifie que le système traite les requêtes aussi rapidement qu’il les reçoit, avec une latence ultra-basse. »

« L’IA en temps réel prend de plus en plus d’importance, car les infrastructures cloud traitent les flux de données en direct, qu’il s’agisse de recherches, de vidéos, de flux de capteurs ou d’interactions avec les utilisateurs. »

D’où viennent les puces sophistiquées FPGA ? Il s’agit du modèle Stratix 10 d’Intel gravé avec une finesse de 14 nm (nanomètres). Plus exactement, c’est Altera, acquis par Intel en juin 2015, qui est à l’origine de cette puce.

Le FPGA apporte une certaine flexibilité si on le compare aux puces directement conçues pour une application IA donnée de type DPU (Deep Learning Processing Unit). La plateforme consiste également en un compilateur et un runtine destinés au déploiement de modèles qualifiés.

Project Brainwave a été conçu pour supporter un large éventail de frameworks destinés au traitement du deep learning tels que Microsoft Cognitive Toolkit et Google Tensorflow. Microsoft précise dans son billet de blog qu’il prévoit d’en prendre en charge d’autres.

Beanchmark à l’appui, Microsoft démontre que la solution permet de traiter les tâches à la volée.

Les performances atteignent ainsi 39,5 téraflops, avec un temps de latence d’une milliseconde pour chaque requête, le tout grâce à l’exécution de plus de 130 000 opérations de calcul par cycle.

Le traitement se fait sans batching, ce qui signifie que les tâches sont traitées au fur et à mesure qu’elles se présentent et qu’il n’y a donc pas de traitement par lots.

Microsoft n’est pas le seul acteur de la sphère IT à avoir recours à des puces spécialisées dans le traitement IA.

Google et Amazon occupent également le terrain, tandis qu’Apple a développé le Neural Engine. L’approche est différente : plutôt que de faire des requêtes dans le cloud ou de recourir au CPU ou au GPU d’un iPhone, il s’agit d’embarquer un puce dédiée pour le traitement local des tâches IA.

(Crédit photo : @Microsoft)