L’écart entre les repères et la réalité
Les entreprises technologiques communiquent régulièrement des performances impressionnantes telles que « 95 % de précision », « surpasse les humains dans le test X ». Mais ces tests académiques ne reflètent souvent pas la complexité du monde réel. Un LLM peut obtenir d’excellents résultats sur des ensembles de données spécifiques et échouer lamentablement face à des cas d’utilisation réels avec de l’ambiguïté, des nuances culturelles ou des situations qui nécessitent du bon sens.
L’échec de GPT-4.5 : sorti en février, retiré en juillet
L’un des cas les plus révélateurs de 2025 a été celui de GPT-4.5, le plus grand modèle jamais créé par OpenAI. Sorti en février 2025 sous le nom de code « Orion », il a été entraîné en utilisant plus de puissance de calcul et de données que tout autre modèle précédent de la société. Cependant, en avril 2025, deux mois seulement après son lancement, OpenAI a annoncé qu’elle retirerait l’accès API à GPT-4.5 le 14 juillet, ce qui en fait le modèle le plus éphémère de l’histoire commerciale d’OpenAI.
Les raisons ? Le modèle était extrêmement coûteux à exécuter (75 $ par million de jetons d’entrée et 150 $ par million de jetons de sortie, contre 2,50 $ et 10 $ pour GPT-4o), il présentait, en outre, des problèmes de latence et ne disposait apparemment pas des principales protections de sécurité nécessaires à l’évolutivité. Malgré sa taille massive, GPT-4.5 n’a pas atteint le seuil de performance attendue dans plusieurs benchmarks clés de l’industrie.
La communauté des développeurs a réagi avec frustration sur Reddit, Hacker News et Discord d’OpenAI. « Se déprécier après 4 mois, c’est fou », a écrit un développeur. Un autre fondateur de startup a commenté anonymement : « Tuer un modèle si rapidement affecte la confiance. Notre application est développée et optimisée pour interfacer avec GPT-4.5. Changer de modèle ne consiste pas à le remplacer directement par un autre”.
Cet épisode soulève des questions délicates sur la maturité réelle de la technologie que les entreprises adoptent à la hâte.
Une étude révèle que 1,75 % des avis sur les applications mobiles AI font état d’hallucinations
Une étude scientifique publiée en août 2025 dans Scientific Reports a analysé 3 millions d’avis d’utilisateurs de 90 applications mobiles alimentées par l’IA et a révélé qu’environ 1,75 % des avis pertinents signalaient des problèmes indiquant des hallucinations LLM. Les utilisateurs ont décrit des frustrations avec « Mon IA me ment » et d’autres problèmes similaires où le système a généré des informations plausibles mais incorrectes.
Qui prend ses responsabilités en cas d’échec ?
Une question délicate et critique se pose ici : lorsqu’un LLM fournit des informations incorrectes à un client, qui est responsable ? L’entreprise qui l’a déployé ? Le fournisseur de modèles ? Personne? Cette zone grise juridique et éthique est un terrain dangereux que de nombreuses entreprises ignorent dans leur course à l’automatisation.
L’affaire Air Canada a créé un précédent troublant : le tribunal a conclu que l’entreprise était responsable des fausses informations fournies par son chatbot, affirmant qu’il n’y avait « aucune distinction significative » entre les informations sur le site Web et celles fournies par le chatbot. La société a tenté de faire valoir que le chatbot était une « entité juridique distincte », un argument que le tribunal a catégoriquement rejeté.
L’utilisation de LLM dans un contexte de Service Client demeure très pertinente et prometteuse, mais les limitations et les risques de la technologie actuelle impose une approche prudente et structurée que nous aborderons dans les articles suivants.
