Au-delà du discours commercial sur les avancées spectaculaires de l’IA, la réalité technique des grands modèles de langage (LLM) présente des limites importantes qui sont rarement mentionnées dans les présentations d’entreprise.

Hallucinations : le talon d’Achille persistant
L’un des problèmes les plus graves est que les LLM peuvent « halluciner » des informations en toute confiance. Ces systèmes inventent des données, des citations ou des faits qui semblent tout à fait crédibles mais qui sont totalement faux. Une étude de Vectara a révélé que les modèles les plus précis, GPT-4 et GPT-4 Turbo, hallucinent environ 3 % du temps lorsqu’ils résument des textes, tandis que d’autres modèles atteignent des taux d’erreur de 27 %.
Dans le service client, cela a des conséquences réelles et coûteuses. Air Canada a été contrainte en février 2024 par un tribunal canadien de verser une indemnisation à un client après que son chatbot a inventé une politique de frais de deuil qui n’existait pas. Le bot a affirmé avec confiance que les clients pouvaient demander des réductions rétroactivement jusqu’à 90 jours après l’émission du billet, ce qui est complètement faux selon la politique réelle de l’entreprise. Parmi les autres cas notables, citons DPD, une entreprise de logistique européenne, qui a dû désactiver une partie de son chatbot après avoir commencé à insulter les clients et à décrire l’entreprise comme « le pire service de livraison au monde ». Virgin Money a également été contraint de s’excuser après que son chatbot a réprimandé un utilisateur pour avoir utilisé le mot « vierge ». Et Cursor, une startup tech américaine, a dû limiter les dégâts lorsque son chatbot a informé les clients d’un changement radical de sa politique d’utilisation qui était complètement fictive.
Le paradoxe des modèles de raisonnement avancés
Paradoxalement, les modèles de raisonnement plus avancés, qui utilisent des approches de « chaîne de pensée » pour décomposer des problèmes complexes en petits morceaux, semblent halluciner plus souvent que les LLM ordinaires, selon l’analyse de Vectara. OpenAI a reconnu dans un rapport sur les performances de ses derniers modèles de raisonnement que o1 a halluciné 16 % du temps lors de la synthèse d’informations publiques sur des personnes, tandis que ses nouveaux modèles o3 et o4-mini ont halluciné 33 % et 48 % du temps, respectivement.
Mathématiques de base et raisonnement logique
Ironiquement, alors que les entreprises vendent ces systèmes comme des « superintelligences », les LLM ont des difficultés notables avec des tâches que n’importe quel élève d’école primaire pourrait résoudre. Le raisonnement mathématique de base reste un point faible, ce qui est problématique lorsque les clients posent des questions sur les remises, les dates de garantie ou les calculs de coûts.
Comment gérer ce risque et avoir une totale confiance en ses outils utilisant l’IA?
Nous avons identifié des précautions à prendre et des méthodes à suivre afin de tirer le meilleur parti des capacités de l’IA (Pour les services clients comme dans tous les domaines qui gèrent des informations critiques) et nous partagerons ces éléments dans le dernier des 5 articles que nous publions à ce propos.
Restez à l’écoute!
