Dell World 2024 : Dell dévoile sa stratégie AI Factory

Dans le but de simplifier les déploiements d’IA sur site, Dell dévoile des PC Copilot+, un serveur XE9680L refroidi à l’eau, un switch réseau avec des ports 800 Gbit/s et une baie NAS totalisant 368 Po de capacité. Tout est intégré avec des logiciels.

par

Yann Serra, LeMagIT

Publié le: 22 mai 2024

Du sol au plafond, ou plutôt du simple PC pour les salariés au méga serveur pour datacenters, tel est l’étonnant grand écart que dessine la nouvelle stratégie commerciale AI Factory que le constructeur Dell a dévoilée cette semaine, lors de son événement Dell Technologies World 2024 qui se tient à Las Vegas.

Quatre gammes de produits sont estampillées « AI Factory ». Des PC portables « Copilot+ » sous Windows équipés de processeurs ARM Snapdragon X de Qualcomm. Le NAS élastique PowerScale F910 et une autre version, pas encore prête, mais qui porte l’appellation temporaire de « Project Lightning ». Le switch réseau PowerSwitch Z9864F-ON qui dispose d’une puce Tomahawk 5 de Broadcom pour accélérer le trafic des flux d’IA.

Et le serveur PowerEdge XE9680L, nouvelle version refroidie par liquide du PowerEdge XE9680 présenté l’année dernière. La nouvelle mouture, invisible sur le salon, devrait tenir dans un format 4U plutôt que 6U et accepter les futurs GPU B200 de Nvidia. L’actuelle version équipée de gros dissipateurs thermiques et bardée de ventilateurs sera limitée aux futurs B100.

Accessoirement, le PowerEdge XE9680 refroidi à l’air accepte désormais trois configurations : une avec huit GPU Nvidia (initialement des H100, mais des versions H200 devraient arriver sous peu), une avec huit GPU AMD MI300X et une avec huit GPUs Gaudi 3.

« Je vous l’accorde, il y aura des cas d’usage pour les utilisateurs finaux et d’autres pour les datacenters. Mais le fait de regrouper tous ces produits sous la marque AI Factory marque bel et bien notre volonté de les vendre ensemble. Il s’agit d’un effort de notre part de simplification de toutes ces technologies d’IA pour les clients. Les entreprises veulent monter une usine d’intelligence artificielle. Nous arrivons avec des solutions clés en main », argumente Matt Baker, le patron de la stratégie IA chez Dell.

À côté de ces équipements, Dell promet des piles de logiciels d’IA préinstallés. Et puis une mystérieuse solution de sauvegarde Dell AI Data Protection. A priori, il s’agira d’une solution du catalogue PowerProtect, c’est-à-dire une appliance de stockage DataDomain avec le logiciel de sauvegarde Storage Direct Protection, mais configurée au cas par cas par les consultants de Dell. Ceux-là mêmes qui auront conseillé les entreprises sur les piles logicielles à installer selon leurs cas d’usage.

« In fine, il coûte 75 % moins cher de faire de l’inférence sur site avec des grands modèles de langage comparativement à des services en cloud. »

Michael Dell PDG Dell TEchnologies

Sous le sceau Dell AI Factory se trouve aussi une nouvelle version de SONiC, le système d’exploitation Open source pour les équipements réseau que les hébergeurs de cloud ont manifestement hâte d’utiliser, plutôt qu’acheter des licences chez Cisco.

SONiC est historiquement un système très complexe à mettre en œuvre et Dell s’est manifestement lancé le défi d’accompagner les déploiements avec des services de conseil hors pair et un outil d’administration adapté, SmartFabric Manager for SONiC. Le lien technique entre SONiC et l’IA ne saute pas aux yeux, si ce n’est que SONiC doit être taillé pour router de très grandes quantités de flux de données.

« Ce que nous avons appris ces derniers mois de nos clients, c’est qu’ils ne veulent plus mettre toutes leurs données en cloud. Parce qu’elles y sont enfermées et que plus leur quantité augmente, plus il est compliqué et plus il devient cher de les faire travailler. In fine, il coûte 75 % moins cher de faire de l’inférence sur site avec des grands modèles de langage comparativement à des services en cloud. Donc nous proposons des solutions pour amener l’IA à vos données et pas l’inverse », a affirmé Michael Dell (en photo), le grand patron de Dell, sur scène.

Installer les LLMs sur les PC des utilisateurs

Le terme Copilot+ PC a été simultanément dévoilé par le marketing de Microsoft. Officiellement, un PC qui répond à cette appellation fonctionne sous un Windows agrémenté de nouveaux outils de productivité qui interrogent, selon le cas, soit les grands modèles de langage d’OpenAI hébergés sur Azure, soit de plus petits modèles directement exécutés depuis le PC.

Il n’y a pour l’instant que deux outils qui relèvent vraiment de l’IA générative. Cocreator, qui sert à embellir, transformer ou redécorer les images à la volée. Et Live Captions qui génère en temps réel des sous-titres dans la langue de l’utilisateur. L’utilisation professionnelle de Cocreator est de schématiser à la souris (ou sur l’écran tactile) quelque chose et de laisser le logiciel en générer une représentation photoréaliste qui sera du plus bel effet dans les PowerPoint. Celle de Live Captions est d’avoir une conversation sur Teams avec un interlocuteur qui s’exprime dans une autre langue.

Un troisième outil vient avec les PC Copilot+ : Recall. Il s’agit de l’équivalent sous Windows du Time Machine sur Mac. Mais en plus performant : il permet de rejouer ce qu’il se passait à l’écran. Selon un démonstrateur interrogé par LeMagIT sur un stand dédié au produit, Recall est très utile, par exemple pour revenir copier-coller un texte que l’on se souvient avoir saisi un jour dans une fenêtre, mais dont on a totalement perdu la trace.

La partie vaguement « IA » de Recall tient à son moteur de recherche : même en lui indiquant des termes peu précis, le logiciel comprend quelle séquence l’utilisateur recherche. Ce moteur de recherche n’existe pas dans Time Machine, dans l’historique duquel on ne peut naviguer qu’en faisant glisser un curseur sur une frise chronologique.

Ces trois fonctions devraient s’exécuter directement sur la machine si les travaux concernent des quantités de données à traiter relativement légères. Sinon, il y a aura un accès aux LLM d’OpenAI sur Azure, qui n’est pas gratuit. Il sera facturé dans la souscription Apex, qui remplace chez Dell l’achat de matériel par un abonnement à l’ensemble du catalogue. L’usage des services d’OpenAI sur Azure sera facturé dans la sous-rubrique commerciale « AI Dell for Microsoft Azure AI Services », qui fait elle-même partie de la rubrique commerciale « Dell APEX Cloud Platform for Microsoft Azure ».

SnapDragon X Elite, l’équivalent par Qualcomm des processeurs Silicon Mx d’Apple

Officieusement, les PC Copilot+ sont surtout des machines qui rivalisent enfin avec les Mac M1/M2/M3 d’Apple. Comme ces machines-là, les PC Copilot+ ont un processeur ARM qui intègre toute sa RAM, sous la forme d’un circuit LPDDR5 dont l’intégralité est accessible au GPU, également intégré au processeur. Contrairement aux PC basés sur des processeurs Intel ou AMD, mais comme les Mac d’Apple, ces PC sont donc capables d’exécuter eux-mêmes des tâches d’inférence sur des modèles de langage chargés en entier dans leur RAM.

Le processeur utilisé ici, l’ARM, SnapDragon X, en version Elite ou Plus, est une puce que Qualcomm a conçue sur exactement le même principe que les puces ARM Silicon d’Apple. On y retrouve même un circuit NPU (Neural Processing Unit) pour accélérer la reconnaissance de formes dans les images.

Selon des tests de performance menés par Qualcomm, un Snapdragon X Elite serait, à consommation électrique égale, 51 % plus performant qu’un Intel Core Ultra 9 185H, soit le plus puissant des processeurs Intel pour PC. Ou, dit autrement, 41 % moins énergivore sur le modèle qui a des performances similaires à la puce d’Intel. Toutefois, le processeur de Qualcom resterait 10 à 12 % moins performant qu’un M3 Pro d’Apple, selon un rapport détaillé de nos confrères de NotebookCheck.

En creux, cette partie de l’annonce qui ne concerne que les PC pourrait en dire long sur l’avenir des processeurs dans les serveurs. Apple serait ainsi en train de préparer une version de ses processeurs Silicon dotés de mémoire HBM à la place de la LPDDR5. Quoique bien plus cher, un circuit HBM présente l’avantage de communications qui ne sont pas ralenties par le goulet d’étranglement d’un bus mémoire et d’un fonctionnement à la même vitesse que les cœurs de calcul. Il se dit que Qualcomm suivrait le même modèle. La pérennité des puces x86 serait dès lors plus que jamais menacée, dans les PC, comme dans les serveurs.

Les processeurs Snapdragon X Elite ont 12 cœurs ARM 64 bits appelés Oryon ; 8 sont dits « Performant » (P) et 4 sont dits « Energy-efficient » (E). Ils intègrent 16 Go de RAM LPDDR5. Il en existe à date trois versions, les 84-100, 80-100 et 78-100, qui se différencient par leur fréquence maximale, soit 4,2, 4 et 3,4 GHz quand un seul cœur est utilisé, ou 3,8, 3,6 et 3 GHz quand plusieurs cœurs fonctionnent en même temps.

Un serveur de calcul clés en main

À l’autre extrémité du spectre, les serveurs PowerEdge XE9680, avec et sans L, seront vendus avec l’une ou l’autre pile de logiciels d’IA. Parmi elles, on retrouve toute la suite AI Enterprise de Nvidia, qui permet de bâtir des applications d’IA (chatbots…) à partir de fonctions livrées sous la forme de containers Kubernetes. On y trouve des LLM prêts à l’emploi, des kits de développements CUDA, des IA génératives qu’il ne reste plus qu’à personnaliser, ou encore tout le nécessaire pour injecter les derniers documents de l’entreprise dans l’intelligence au moment des prompts.

« L’idée est qu’il n’y a pas qu’un seul modèle. Nous nouons des partenariats avec tous les acteurs. »

Matt BakerSenior VP, stratégie IA, Dell

À cette configuration s’ajoutent, depuis novembre dernier, des kits pour utiliser les LLM Open source et les exemples pratiques diffusés au travers de la plateforme communautaire Hugging Face, ainsi que d’autres pour utiliser les LLMs et les outils de Meta (Llama 3...).

« L’idée est qu’il n’y a pas qu’un seul modèle. Nous nouons des partenariats avec tous les acteurs, avec Nvidia, avec Meta, avec Mistral, avec le TTI qui produit les modèles Falcon, etc. Quand nous avons préannoncé la première version du serveur PowerEdge XE9680 sous le nom Project Helix, le marché a pensé que nous allions produire notre propre pile logicielle pour développer des applications d’IA. Disons que cette stratégie a évolué en AI Factory, qui correspond à des designs de solutions matérielles + logiciels d’IA validés par Dell », commente Matt Baker.

Tout miser sur le réseau Ethernet

Une grande nouveauté des serveurs PowerEdge XE9680 est qu’ils fonctionneront enfin en cluster de manière optimale. Mettre les GPU en réseau est la fonction du nouveau switch PowerSwitch Z9864F-ON, qui n’offre pas moins de 64 ports Ethernet en 800 Gbit/s (gérés comme 256 ports 200 Gbit/s au niveau de la puce Tomahawk 5). Avec une topologie de type CLOS, ces switches font communiquer entre eux jusqu’à 8 000 GPUs.

Ce switch supporte le protocole RoCE v2 (RDMA over Converged Ethernet), soit une version accélérée du protocole Ethernet où les paquets de données partent et arrivent directement dans la mémoire des GPU. L’enjeu de ce type de réseau est d’incarner une alternative moins chère aux réseaux Infiniband que Nvidia recommande par défaut.

« Interconnecter des GPU correctement signifie prendre en compte les travaux sur lesquels ils sont en train de travailler. »

Matt BakerSenior VP, stratégie IA, Dell

« Ce n’est pas qu’un réseau avec des liens plus rapides que d’habitude. Interconnecter des GPU correctement signifie prendre en compte les travaux sur lesquels ils sont en train de travailler. Il faut déterminer quels résultats d’un GPU doivent être injectés dans les calculs de quel autre GPU. Et il faut aussi le faire différemment au cas par cas, selon que l’on entraîne un modèle ou qu’on le spécialise avec de nouvelles données, et selon la quantité de paramètres pris en compte dans le modèle. Aucun switch standard ne prend cela en compte », argumente Matt Baker.

Jusqu’à 368 Po de stockage par cluster

Ici, le réseau Ethernet se substitue à un réseau Infiniband hors de prix pour les communications entre GPU, mais également pour supporter le protocole GPUDirect qui consiste à permettre aux GPUs de lire directement leurs données sur des NAS sans passer par le goulet d’étranglement du processeur. Techniquement, il s’agit pour le les cartes réseau du PowerEdge XE9680, pour le PowerSwitch Z9864F-ON et pour les baies PowerScale de conjuguer RoCE avec NFS (protocole NAS), ce qui aboutit à un protocole hybride baptisé NFS-over-RDMA, ou NFS/RDMA.

Dell avait déjà fait la démonstration d’une telle technologie sur ses NAS superélastiques PowerScale F210 et F710 lors du dernier événement GTC 2024 de Nvidia. Ces machines, descendantes directes des NAS Isilon, fonctionnent en cluster sous le système OneFS qui supporte d’assembler jusqu’à 252 nœuds dans un cluster. La nouvelle déclinaison PowerScale F910 reprend le même principe, mais se différencie par une plus grande capacité de stockage : jusqu’à 1 464 To par nœud, soit jusqu’à 368 Po par cluster.

Un nœud PowerScale F910 intégrera en l’occurrence 24 SSD NVMe QLC de 61 To chacun dans un boîtier 2U, contre 10 SSD TLC de 30 To chacun (soit 307 To) dans un boîtier 1U pour un nœud F710. Les SSD de 61 To n’étant pas encore disponibles sur le marché, les PowerScale F910 sont pour l’instant vendues avec des SSD QLC de 30 To chacun. De la même manière, ces nouveaux nœuds sont censés offrir deux ports Ethernet 200 Gbit/s, mais seuls des ports 100 Gbit/s sont actuellement proposés.

Selon Matt Baker. L’avantage principal d’un nœud PowerScale F910 est sa densité, qui se lit surtout au regard de la consommation d’énergie des différents modèles. Ainsi un F910 consomme entre 877 et 913 Watts, contre 769 à 887 Watts pour un F710, alors que ce dernier a près de 2,5 fois moins de SSD et offre cinq fois moins de capacité.

Les PowerScale F710 et F910 disposent tous les deux de 512 Go de RAM.

Dell World 2024 : Dell dévoile sa stratégie AI Factory

Dans le but de simplifier les déploiements d’IA sur site, Dell dévoile des PC Copilot+, un serveur XE9680L refroidi à l’eau, un switch réseau avec des ports 800 Gbit/s et une baie NAS totalisant 368 Po de capacité. Tout est intégré avec des logiciels.

Installer les LLMs sur les PC des utilisateurs

SnapDragon X Elite, l’équivalent par Qualcomm des processeurs Silicon Mx d’Apple

Un serveur de calcul clés en main

Tout miser sur le réseau Ethernet

Jusqu’à 368 Po de stockage par cluster

Pour approfondir sur LAN, Wifi

Stockage : Dell évoque un mystérieux projet « Lightning »

Derrière Mad Max Furiosa, une infrastructure au service de l’IA

Intel dévoile Gaudi3, sa réponse aux GPU de Nvidia

GTC 2024 : Weka présente le stockage le plus rapide pour l’IA