Les modèles IA sont ils suffisamment matures pour affronter les défis des Services Clients?

L’écart entre les repères et la réalité

Les entreprises technologiques communiquent régulièrement des performances impressionnantes telles que « 95 % de précision », « surpasse les humains dans le test X ». Mais ces tests académiques ne reflètent souvent pas la complexité du monde réel. Un LLM peut obtenir d’excellents résultats sur des ensembles de données spécifiques et échouer lamentablement face à des cas d’utilisation réels avec de l’ambiguïté, des nuances culturelles ou des situations qui nécessitent du bon sens.

L’échec de GPT-4.5 : sorti en février, retiré en juillet

L’un des cas les plus révélateurs de 2025 a été celui de GPT-4.5, le plus grand modèle jamais créé par OpenAI. Sorti en février 2025 sous le nom de code « Orion », il a été entraîné en utilisant plus de puissance de calcul et de données que tout autre modèle précédent de la société. Cependant, en avril 2025, deux mois seulement après son lancement, OpenAI a annoncé qu’elle retirerait l’accès API à GPT-4.5 le 14 juillet, ce qui en fait le modèle le plus éphémère de l’histoire commerciale d’OpenAI.

Les raisons ? Le modèle était extrêmement coûteux à exécuter (75 $ par million de jetons d’entrée et 150 $ par million de jetons de sortie, contre 2,50 $ et 10 $ pour GPT-4o), il présentait, en outre, des problèmes de latence et ne disposait apparemment pas des principales protections de sécurité nécessaires à l’évolutivité. Malgré sa taille massive, GPT-4.5 n’a pas atteint le seuil de performance attendue dans plusieurs benchmarks clés de l’industrie.

La communauté des développeurs a réagi avec frustration sur Reddit, Hacker News et Discord d’OpenAI. « Se déprécier après 4 mois, c’est fou », a écrit un développeur. Un autre fondateur de startup a commenté anonymement : « Tuer un modèle si rapidement affecte la confiance. Notre application est développée et optimisée pour interfacer avec GPT-4.5. Changer de modèle ne consiste pas à le remplacer directement par un autre”.

Cet épisode soulève des questions délicates sur la maturité réelle de la technologie que les entreprises adoptent à la hâte.

Une étude révèle que 1,75 % des avis sur les applications mobiles AI font état d’hallucinations

Une étude scientifique publiée en août 2025 dans Scientific Reports a analysé 3 millions d’avis d’utilisateurs de 90 applications mobiles alimentées par l’IA et a révélé qu’environ 1,75 % des avis pertinents signalaient des problèmes indiquant des hallucinations LLM. Les utilisateurs ont décrit des frustrations avec « Mon IA me ment » et d’autres problèmes similaires où le système a généré des informations plausibles mais incorrectes.

Qui prend ses responsabilités en cas d’échec ?

Une question délicate et critique se pose ici : lorsqu’un LLM fournit des informations incorrectes à un client, qui est responsable ? L’entreprise qui l’a déployé ? Le fournisseur de modèles ? Personne? Cette zone grise juridique et éthique est un terrain dangereux que de nombreuses entreprises ignorent dans leur course à l’automatisation.

L’affaire Air Canada a créé un précédent troublant : le tribunal a conclu que l’entreprise était responsable des fausses informations fournies par son chatbot, affirmant qu’il n’y avait « aucune distinction significative » entre les informations sur le site Web et celles fournies par le chatbot. La société a tenté de faire valoir que le chatbot était une « entité juridique distincte », un argument que le tribunal a catégoriquement rejeté.

L’utilisation de LLM dans un contexte de Service Client demeure très pertinente et prometteuse, mais les limitations et les risques de la technologie actuelle impose une approche prudente et structurée que nous aborderons dans les articles suivants.

SHA annonce l’accès à sa démo en ligne

Nous avons le plaisir d’annoncer que la version Démo d’INTRA est désormais disponible en ligne.

INTRA permet aux organisations d’élargir et de centraliser leurs connaissances, en garantissant leur application efficace dans les opérations, la formation et la gestion de la qualité.

En transformant les connaissances en informations exploitables, INTRA aide les équipes à améliorer la cohérence, l’efficacité opérationnelle et l’expérience client, tout en maintenant le contrôle des processus et des résultats.

Demandez l’accès et découvrez les principales fonctionnalités d’INTRA via notre section Démo.

Pour plus d’informations, veuillez contacter mc@sha-saas.com.

Echec et Mat pour l’IA et les Services Clients ? Quand connaître les règles ne suffit plus !

L’analogie entre une partie d’échecs et une interaction client-agent (humain) d’un service client, peut paraître surprenante mais en regardant de près les différents niveaux d’interactions, l’analogie peut être pertinente :

Si les objectifs de chaque interaction restent radicalement différents (échec et mat Vs CSat & solution à un problème), la montée progressive en complexité des 2 interactions présente en effet quelques similitudes :


Parallèles conceptuels

Partie d’échecsInteraction Call CenterSignification / Analogie
Stratégie d’ouvertureOuverture d’appel / accueil.Donner le ton et prendre le contrôle dès le début.
Combinaison tactiqueTraitement des objections.Réflexion rapide pour renverser les situations.
Précision en fin de partieClôture de l’appel.Assurer la résolution et la satisfaction avant de terminer.
SacrificeOffrir une compensation ou geste commercial.Perte à court terme pour un gain à long terme (fidélité ou rétention).
Échec et matSatisfaction du client et résolutionAtteindre le résultat escompté de manière efficace.
Erreur critiqueErreur de communication / violation des règlesUne erreur coûteuse qui affecte les résultats.
Pat (blocage)Impasse / escaladeAucune des deux parties n’atteint son objectif.
Pression du tempsPériodes de fort volume d’appelsDécisions sous tension ; Compromis entre l’efficacité et la précision.

Maintenant que le parallèle entre les 2 activités est clarifié, le comportement de l’IA sur ces interactions devient intéressant à observer :

Un exemple illustratif des limites des LLM (grands modèles de langage) provient d’expériences documentées avec les échecs.

En mars 2024, Chess.com a organisé une confrontation entre ChatGPT et Gemini de Google, où les deux systèmes pouvaient parfaitement expliquer les règles des échecs lorsqu’on leur demandait directement, mais ont ensuite violé ces mêmes règles à plusieurs reprises pendant le jeu. Les deux bots ont constamment tenté d’effectuer des mouvements illégaux, et lorsqu’ils ont été informés de l’erreur, ils ont continué à proposer des mouvements invalides.

Nikola Greb, un scientifique des données NLP et ancien champion d’échecs junior ELO 2000+, a joué plusieurs parties contre ChatGPT-4 en janvier 2024 et a documenté que le modèle jouait « comme un grand maître » dans les premiers coups d’ouverture, mais se détériorait considérablement au fur et à mesure que le jeu progressait. ChatGPT-4 a commencé à halluciner, proposant des mouvements impossibles même après avoir été averti. Greb a conclu que la note globale du système était inférieure à 1500, et a observé quelque chose de crucial : “Aucun apprentissage implicite des règles n’a eu lieu – ChatGPT-4 hallucine toujours aux échecs, et continue d’halluciner après l’avertissement sur l’hallucination. C’est quelque chose qui ne peut pas arriver à un humain.

Ce décalage entre ce qu’un LLM peut « dire » et ce qu’il peut « faire » révèle une limitation fondamentale : ils n’ont pas de véritables modèles mentaux du monde. Dans le contexte du service client, cela signifie qu’un bot peut parfaitement réciter la politique de l’entreprise mais l’appliquer de manière incorrecte dans des situations spécifiques, ou qu’il peut expliquer le fonctionnement d’un produit sans être en mesure de diagnostiquer un problème avec celui-ci.

Le tournoi d’échecs chatbot 2025

En janvier 2025, un tournoi d’échecs par chatbot diffusé sur la chaîne GothamChess a opposé le moteur d’échecs professionnel Stockfish à sept chatbots d’IA générative, dont ChatGPT, Gemini de Google et Grok de X. Les résultats ont été exactement ce à quoi on pouvait s’attendre lorsque les modèles de langage essaient de jouer aux échecs : des coups d’ouverture décents suivis de tentatives de plus en plus chaotiques pour contourner les lois du jeu. Le chatbot Snapchat a décidé que les pions pouvaient se déplacer latéralement comme une tour, et lorsque l’erreur a été signalée, il a refusé à plusieurs reprises de continuer à dire « Je suis désolé. Je ne peux pas m’engager dans une telle conversation. Gardons notre conversation respectueuse ».

Le problème de la mémoire et du contexte

Les LLM ont des limites de mémoire strictes. Bien que les modèles plus récents offrent des fenêtres de contexte plus larges, ils traitent toujours chaque conversation comme relativement isolée. Cela signifie qu’ils peuvent « oublier » des informations cruciales fournies au début d’une longue conversation, obligeant les clients à se répéter.

Nous verrons dans un des articles suivants comment éviter de mettre le client en échec tout en utilisant au mieux les capacités indéniables des IA…