Movatterモバイル変換


[0]ホーム

URL:


Aller au contenu
Wikipédial'encyclopédie libre
Rechercher

GPT-4o

Un article de Wikipédia, l'encyclopédie libre.
GPT-4o

Informations
Développé parOpenAI
Première version[1]Voir et modifier les données sur Wikidata
LanguesMultilingue
TypeTransformateur pré-entraîné génératif (LLM)
LicenceLicence propriétaireVoir et modifier les données sur Wikidata
Site webopenai.com/gpt-4o

Chronologie des versions

GPT-4o1

modifier -modifier le code -voir Wikidata(aide)

GPT-4o (abréviation de « GPT-4 omni ») est untransformateur pré-entraîné génératif (grand modèle de langage, ou LLM) multilingue et multimodal conçu par l'entrepriseOpenAI et rendu public en mai 2024.

Il est ditmultimodal (OpenAI parle d'« omnimodèle »[2], d'où la lettre « O » ou l'appellation « omni ») c'est-à-dire qu'il peut à la fois, et en temps réel, traiter et générer : du texte, du son et des images[3]. Il peut converser avec un ou plusieurs interlocuteurs, en plusieurs langues, en utilisant la parole en temps réel. Utilisé via unsmartphone, il peut même adapter ses réponses après avoir analysé l'environnement visuel et les signaux émotionnels de ses interlocuteurs.

À sa sortie, GPT-4o était disponible gratuitement mais avec une limite d'utilisation plus élevée pour les abonnés à ChatGPT Plus. Son API est deux fois plus rapide que son prédécesseur, GPT-4 Turbo[3]. Il existe également une version allégée nommée « GPT-4o mini ». Letokenizer de GPT-4o utilise moins de tokens que son prédécesseur, notamment pour les langues non basées sur l'alphabet latin, ce qui rend ce modèle moins« coûteux » en ressources pour ces langues[4]. En mars 2025, le générateur d'images basé sur GPT-4o a remplacéDALL-E 3 dans ChatGPT[5]. GPT-4o a été retiré de ChatGPT en août 2025 lors de la sortie deGPT-5, mais a été réintroduit après que des utilisateurs se soient plaints du brusque changement et du caractère jugé moins chaleureux de GPT-5[6].

Historique

[modifier |modifier le code]

Ce modèle a été annoncé parMira Murati,CTO d'OpenAI, lors d'une démo diffusée en direct le 13 mai 2024, et intégré àChatGPT le même jour ; soit la veille de « Google I/O », la conférence oùGoogle annonce de nouveaux produits (Google est l'un des principaux concurrents d'OpenAI dans les domaines desLLM[7]).

Avant ce lancement, GPT-4o a été initialement lancé surLMSYS, sous la forme de trois modèles différents :gpt2-chatbot,im-a-good-gpt2-chatbot etim-also-a-good-gpt2-chatbot. Le 7 mai 2024,Sam Altman a publié le tweet« im-a-good-gpt2-chatbot », interprété comme une confirmation du fait qu'OpenAI était responsable de ces nouveaux modèles (alors mystérieux) et effectuait destests A/B[8].

Il ne sera gratuit via ChatGPT que pour un certain nombre de questions, en fonction du degré d'utilisation du modèle, et de la demande ; quand cette limite sera atteinte, ChatGPT basculera la conversation surGPT-3.5.

Capacités

[modifier |modifier le code]

GPT-4o a obtenu des résultats de pointe sur des tests de performance en qualité vocale, vision et multilinguisme ; et selon OpenAI, il est 2 fois plus rapide, deux fois moins cher queGPT-4Turbo[4].

  • Contrairement à GPT-3.5 et GPT-4 (qui dépendent d'autres modèles pour traiter le son), GPT-4o prend en charge, nativement, les conversations vocales, avec des réponses plus fluides et rapides[4].
  • SonAPI est deux fois plus rapide que son prédécesseur, GPT-4 Turbo[3].Ars Technica (mai 2024) note qu'une réponse à une entrée audio se fait en environ 320 millisecondes (moyenne), un score comparable au temps de la moyenne linguistique d'une réponse humains dans une conversation normale (« interaction verbale informelle » mesuré par une étude publiée dansPNAS en 2009). Ce délai est bien plus court que le décalage antérieur de 2 à 3 secondes qui caractérisaient les meilleurs des modèles précédents[2], et GPT-4o se comporte de plus en plus comme unlocuteur humain, en répondant quand vient son tour, en évitant les lacunes et les chevauchements, en s'appuyant sur les indices fournis par lagrammaire, laprosodie, le ton et levocabulaire pour déterminer quand lancer sa réponse orale, dans un timing optimisé ;
  • GPT-4o a battu de nouveaux records en termes detraduction automatique[9], avec plus de 50 langues prises en charge[11], couvrant donc plus de 97 % des locuteurs. Lors de l'événement de démonstration par OpenAI, en direct le 13 mai 2024,Mira Murati a montré la capacité multilingue du modèle en lui parlant en italien et en le faisant traduire entre anglais et l'italien[9].
  • Le nouveau tokenizer réduit pour plusieurs langues le nombre detokens nécessaires pour encoder des phrases, diminuant ainsi les coûts énergétiques et financiers pour les serveurs d'OpenAI. En particulier pour les langues qui ne sont pas basées sur l'alphabet latin[4].

À son lancement en mai 2024, GPT-4o est le meilleur grand modèle de langage du classementElo de LMSYS, avec un avantage particulièrement significatif enprogrammation informatique[12]. Une fois largement disponible, il aura accès à la navigation Web, à l’analyse des données, au GPT Store et à des fonctionnalités de mémoire jusqu'alors réservées aux abonnés àChatGPT Plus, Team et Enterprise[2].

Jionghao Linet al. (mai 2024) notent que dans le domaine éducatif ouprofessionnel, les rétroactions, bilans et corrections faites par ce type d'intelligence artificielle pourraient bénéficier de leur caractère nativement multimodal. En effet, de tels « feedback multimodaux » permettenta priori d'améliorer l'apprentissage grâce à des commentaires pouvant associer le son et l'image au texte habituel. Automatiser la production de feed-backs mobilisant trois canaux sensoriels pourrait permettre de renforcer les acquisitions, et ce pour un grand nombre d’apprenants[13].

Risques, limites, précautions

[modifier |modifier le code]

OpenAI se dit conscient des défis de sécurité et de protection des données alors que ce modèle fonctionne en temps réel. Selon OpenAI, pour accroître la sécurité des interaction des humains avec ce modèle :

  • GPT-4o intègre la sécurité par son design initial, et pour toutes les modalités, grâce à des techniques de type filtrage des données d’entraînement ; l’affinement du comportement du modèle par post-entraînement ; filtrage des sorties vocales ;
  • GPT-4o est testé par« une vasteéquipe rouge externe avec plus 70 experts externes dans des domaines tels que lapsychologie sociale, lesbiais lespréjugés et l’équité et ladésinformation, pour identifier les risques introduits ou amplifiés par les modalités nouvellement ajoutées ». Et les utilisateurs seront invités à signaler d'éventuels problèmes, au fur et à mesure de leur découverte »[2] ;
  • GPT-4o est lancé avec quelques voix prédéfinies et respectant les politiques de sécurité de l'entreprise.

En avril 2025, OpenAI a annulé une mise à jour de GPT-4o qui avait rendu le modèle obséquieux au point de supporter des idées fausses ou dangereuses[14].

GPT-4o mini

[modifier |modifier le code]

Le 18 juillet 2024, OpenAI a lancé une version plus petite et moins chère,GPT-4o mini[15].

Selon OpenAI, son faible coût devrait être particulièrement utile pour les entreprises, lesstartups et les développeurs qui cherchent à l'intégrer dans leurs services. Ce type d'utilisation implique souvent un grand nombre d'appels à l'interface de programmation (API) d'OpenAI[16]. Celle-ci coûte 0,15 $ par million de tokens en entrée et 0,60 $ par million de tokens en sortie, contre 5 $ et 15 $ respectivement pour GPT-4o. Il est également nettement plus performant et 60 % moins cher que GPT-3.5 Turbo, qu'il a remplacé sur ChatGPT[17]. GPT-4o mini sera disponible à l'automne 2024 sur les appareils mobiles et les ordinateurs de bureau Mac d'Apple, via le serviceApple intelligence[16].

GPT Image 1

[modifier |modifier le code]
Image d'une arrestation publiée par le compte Twitter officiel de laMaison-Blanche, dans le style des animations duStudio Ghibli[18].

Le 25 mars 2025, OpenAI a sorti un modèle de génération d'images basé sur GPT-4o, qui a succédé àDALL-E 3. Ce modèle a ensuite été nomméGPT Image 1 (ou gpt-image-1), et introduit dans l'API le 23 avril. OpenAI a indiqué que le modèle est rapidement devenu très populaire, avec plus de 700 millions d'images générées rien que dans la première semaine[19].

Références

[modifier |modifier le code]
  1. (en) « OpenAI launches new AI model GPT-4o and desktop version of ChatGPT »,
  2. abcde etf(en) BenjEdwards, « Major ChatGPT-4o update allows audio-video talks with an “emotional” AI chatbot », surArs Technica,(consulté le)
  3. ab etcCélia Séramour, « Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux »,L'Usine Digitale,‎(lire en ligne, consulté le)
  4. abc etd(en) « Hello GPT-4o », surOpenAI,.
  5. « "Notre générateur d'images le plus avancé à ce jour": OpenAI remplace Dall-E 3 dans ChatGPT », surBFMTV,(consulté le)
  6. SalomeHembert,«J’ai l’impression d’avoir perdu un ami!» : parmi les critiques de GPT-5, les utilisateurs déplorent un ton trop «froid», surLe Figaro,(consulté le)
  7. (en) Sumeet Wadhwani, « AI Galore: Key Announcements From Google I/O 2024 », surSpiceworks,(consulté le)
  8. (en) CarlFranzen, « OpenAI announces new free model GPT-4o and ChatGPT for desktop »,(consulté le)
  9. ab etc(en) RyanDaws, « GPT-4o delivers human-like AI interaction with text, audio, and vision integration », surAI news,(consulté le)
  10. (en) « OpenAI Launched GPT-4o: The Future of AI Interactions Is Here », surThe digital speaker,(consulté le)
  11. (en-US) Wiggers, « OpenAI debuts GPT-4o 'omni' model now powering ChatGPT »,TechCrunch,(consulté le)
  12. (en) CarlFranzen, « OpenAI announces new free model GPT-4o and ChatGPT for desktop », surVentureBeat,(consulté le).
  13. Lin, J., Chen, E., Gurung, A., & Koedinger, K. R. (2024). MuFIN: A Framework for Automating Multimodal Feedback Generation using Generative Artificial Intelligence.| url=https://files.osf.io/v1/resources/3asxz/providers/osfstorage/66450a364664da9366ed6bb7
  14. « ChatGPT trop flatteur ? OpenAI retire la mise à jour GPT-4o après une pluie de critiques », surLes Numériques,(consulté le)
  15. Dominique Filippone, « GPT-4o mini : un LLM multimodal petit mais costaud », surLe Monde Informatique,(consulté le)
  16. a etb(en) CarlFranzen, « OpenAI unveils GPT-4o mini — a smaller, much cheaper multimodal AI model », surVentureBeat,(consulté le)
  17. JulienCadot, « La version gratuite de ChatGPT devient meilleure grâce à GPT-4o mini », surNumerama,(consulté le)
  18. « ChatGPT imite le studio Ghibli sans licence et provoque l’inquiétude des créateurs », surLe Point,(consulté le)
  19. « OpenAI intègre GPT-Image-1 à son API Images », surActuIA,(consulté le)

Voir aussi

[modifier |modifier le code]

Articles connexes

[modifier |modifier le code]

Liens externes

[modifier |modifier le code]

v ·m
Produits
Modèles de fondation
Personnes liées
Ce document provient de « https://fr.wikipedia.org/w/index.php?title=GPT-4o&oldid=228373616 ».
Catégories :
Catégories cachées :

[8]ページ先頭

©2009-2025 Movatter.jp