Cet article fait partie de notre guide: IA générative : les grandes catégories de LLM

GPT-4o : le nouveau LLM multimodal d’OpenAI pour contrer Google Gemini

Le géant de la GenAI présente une version plus rapide et plus interactive de GPT-4. Ce LLM qui vient de sortir s’adresse aux entreprises. Mais ses nouvelles fonctionnalités seront également accessibles dans ChatGPT, y compris dans sa version gratuite.

par

Shaun Sutner
Philippe Ducellier, Rédacteur en chef adjoint

Publié le: 14 mai 2024

OpenAI vient de dévoiler GPT-4o, une version mise à jour de GPT-4, son grand modèle de langage (LLM) le plus puissant qui cible les entreprises. GPT-4o a été repensé pour offrir des réponses plus rapides (en temps réel). Que ce soit avec de l’audio, de la vidéo ou du texte.

Dévoilé lors d’une démonstration en direct sur YouTube, le LLM a conversé naturellement avec trois employés d’OpenAI. Il a écouté et aidé un homme à résoudre des équations mathématiques et a lu ses émotions à partir de ses expressions faciales. GPT-4o (« o » pour « omni ») a également chanté un conte de fées qu’il a inventé, avec une voix de synthèse. Puis il a traduit oralement une conversation entre un Italien et un Anglais.

OpenAI a également dévoilé une interface utilisateur rafraîchie pour la version de bureau qui est désormais son nouveau modèle phare. Certaines fonctionnalités de texte et d’image de GPT-4o sont à présent disponibles dans ChatGPT, sur la version gratuite et pour les utilisateurs de ChatGPT Plus, avec des limites de messages jusqu’à cinq fois plus élevées pour cette dernière.

L’éditeur a indiqué qu’il publierait également une nouvelle version du mode vocal GPT-4o en alpha pour ChatGPT Plus dans les semaines à venir et que le Read Teaming commencerait immédiatement.

Les développeurs peuvent désormais utiliser GPT-4o dans l’API LLM en tant que modèle de texte et de vision. Et les clients de Microsoft Azure OpenAI Services peuvent tester les capacités de GPT-4o dans un playground en mode preview dans Azure OpenAI Studio à partir d’aujourd’hui.

« GPT-4o offre une intelligence du niveau de celle de GPT-4, mais il est beaucoup plus rapide », résume Mira Murati, CTO d’OpenAI. « Nous faisons un grand pas en avant en matière d’ergonomie. Et c’est très important, car nous travaillons sur la manière dont, à l’avenir, nous interagirons avec les machines ».

Un secteur ultra-concurrentiel

La sortie de GPT-4o a eu lieu la veille d’une autre actualité très attendue : la conférence développeurs Google I/O.

Lors de cet évènement, les observateurs s’attendent à ce que Google annonce des nouveautés pour son offre Gemini.

Le secteur de la GenAI est déjà très concurrentiel avec OpenAI et Google, donc, mais aussi avec Microsoft, Meta, Amazon et des acteurs plus petits comme Anthropic, Cohere ou encore les Européens Mistral, Aleph Alpha ou LightOn.

« Franchement, j’ai été déçu. [...] Pour la première fois, c’est OpenAI qui commence à suivre le rythme de Google. »

Chirag DekateGartner

Google I/O devrait intensifier encore cette compétition acharnée. Dans ce contexte de rivalité entre OpenAI et Google, le nouveau LLM d’OpenAI GPT-4o, bien que techniquement impressionnant, ne ferait qu’égaler ce que Google a montré avec Gemini, en décembre, estime Chirag Dekate, analyste chez Gartner.

« Toute avancée dans l’innovation de l’IA générative est toujours inspirante. On voit des chercheurs à la pointe du développement de modèles et de l’ingénierie travailler très dur pour rendre possible ce qui semblait impossible », explique-t-il. « Mais en même temps, franchement, j’ai été déçu ».

« Pour la première fois, c’est OpenAI qui commence à suivre le rythme de Google », ajoute-t-il.

Forrester a un avis plus nuancé. « Je pense que la partie la plus impressionnante de la présentation d’OpenAI est qu’ils ont montré des modèles qui communiquent entre eux et qui réagissent presque en temps réel. Et ils l’ont montré en live », vante William McKeon-White, analyste chez Forrester.

OpenAI a certainement mobilisé d’énormes quantités de compute pour cette démo. « Mais c’était quand même assez cool […] par rapport à la démo de Google », continue l’expert de Forrester en faisant référence à la démo préenregistrée de Google.

OpenAI vs Google

Gemini et GPT-4o sont tous deux des modèles multimodaux, c’est-à-dire qu’ils génèrent du contenu à partir de textes, de sons, de vidéos et d’images.

En février, Google avait subi un sérieux revers pour son image et un retard à l’allumage. Son générateur d’images avait en effet sorti des images de personnes totalement incohérentes – comme des soldats nazis noirs. Google a rapidement fermé son outil.

Du côté d’OpenAI, Dall-E, ChatGPT et GPT-3.5 ont été les premiers LLMs à devenir un phénomène de masse, en 2021 et 2022. L’avantage semblait donc être du côté du protégé de Microsoft. Mais la technologie évolue vite. Très vite. Et si OpenAI est aujourd’hui évaluée à environ 80 milliards de dollars, Google peut se targuer d’avoir des LLM assez similaires.

Leurs approches restent cependant très différentes.

Google a intégré sa GenAI à ses solutions cloud : suite de productivité bureautique, analytique, et bases de données. Parallèlement, il permet à ses clients d’accéder à ses modèles et à de nombreux LLM et modèles de fondation tiers dans le « Model Garden » de sa plateforme Vertex AI.

De son côté, outre son accord avec Microsoft pour proposer ses technologies d’IA générative sur Azure, OpenAI commercialise ses modèles directement aux entreprises, à d’autres éditeurs et aux particuliers, compare Chirag Dekate.

« Les résultats obtenus par OpenAI sont impressionnants en soi », concède-t-il. « Mais il y a des limites à la manière dont ils les mettent sur le marché ». L’expert du Gartner constate cependant qu’OpenAI conserve l’avantage du « premier arrivé ». Même si, donc, Google regagnerait du terrain.