À l’occasion d’une conférence s’étant déroulée ce lundi 13 mai à 19 h, OpenAI a présenté une nouvelle version de son modèle de langage. Du nom de GPT-4o, ce LLM (Large Language Model) – réseau qui utilise d’énormes volumes de données pour comprendre le langage humain – semble surpasser les autres par sa puissance et sa rapidité. Notons que cette annonce survient la veille de la conférence annuelle de Google : la Google I/O. L’intelligence artificielle semble donc être devenu le nerf de la guerre des entreprises technologiques !
À quoi s’attendre avec GPT-4o ?
GPT-4 est un modèle de langage multimodal développé par OpenAI, sorti en mars 2023. Son successeur, GPT-4o, est quant à lui un modèle de langage omnicanal, le « o » faisant justement référence à ce terme. La différence ? « Multicanal » représente une diversification des canaux de contenu. Tandis qu’« omnicanal » les incluent tous dans leur ensemble et brise ainsi les frontières.
GPT-4o est une évolution du modèle de langage précédent d’OpenAI et se veut plus dynamique et complet. Celui-ci inclut le traitement de n’importe quelle combinaison de texte, d’image ou encore d’audio. De la même façon, il est capable de générer n’importe quelle combinaison de ce type de contenus. Dans le cas de GPT-4o, toutes les entrées et sorties sont traitées par le même réseau neuronal. Et il s’agit du premier modèle de langage à combiner l’ensemble de ces modalités ! Notons que ses capacités se rapprochent en tout point de celles de GPT-4 Turbo, à la différence que GPT-4o rend les interactions homme-ordinateur fluides, ce qui se rapproche du naturel.
Une interaction homme-ordinateur très réaliste
Dans son communiqué de presse publié ce lundi 13 mai, OpenAI présente ainsi diverses vidéos témoignant de la rapidité des échanges entre les humains et GPT-4o. Et les résultats sont bluffants ! L’intelligence artificielle est capable de générer un audio nous faisant penser qu’elle comprend réellement à qui ou à quoi elle est en train de s’adresser. Le plus surprenant ? Son temps de réponse. Celui-ci est quasiment identique au temps de réponse humain. Une véritable conversation s’instaure alors entre l’homme et le modèle.
OpenAI compte sur la communauté pour l’aider à identifier les différentes tâches pour lesquelles GPT-4 Turbo est toujours meilleur que GPT-4o. Tandis que les différents modèles de langage étaient jusqu’à présent uniquement accessibles aux abonnés ChatGPT Plus, GPT-4o sera de son côté gratuit pour tous les utilisateurs. Selon la Directrice de la technologie d’OpenAI, Mira Murati, le déploiement du nouveau modèle de langage devrait être effectif dans les prochaines semaines.