Más allá de las noticias, un día si y otro también, sobre los avances espectaculares de la IA, la realidad de los grandes modelos (LLM) presenta limitaciones importantes, que rara vez se mencionan.

Alucinaciones: el talón de Aquiles persistente
Uno de los problemas más graves es que los LLM pueden ‘alucinar’ información y quedarse tan «panchos». Estos sistemas inventan datos, citas o hechos que parecen completamente creíbles pero que son totalmente falsos. Un estudio de Vectara reveló que los modelos más precisos, GPT-4 y GPT-4 Turbo, alucinan aproximadamente el 3% del tiempo cuando resumen textos, mientras que otros modelos alcanzaban tasas de error del 27%.
En el servicio al cliente, esto tiene consecuencias reales y costosas:
- En febrero de 2024 Air Canada fue obligada por un tribunal canadiense a pagar una indemnización a un cliente después de que su «agente virtual» inventara una política de tarifas por duelo que no existía. Afirmó con confianza que los clientes podían solicitar descuentos retroactivamente hasta 90 días después de la emisión del billete, lo cual es completamente falso según la política real de la empresa.
- DPD, una empresa de logística europea, tuvo que desactivar parte de su «agente virtual» después de que comenzara a insultar a los clientes y a describir a la empresa como ‘el peor servicio de entrega del mundo’.
- Virgin Money también se vio obligado a disculparse después de que su «agente virtual» reprendiera a un usuario por utilizar la palabra ‘virgen’.
- Finalmente, Cursor, una startup tecnológica estadounidense, tuvo que limitar los daños cuando su «agente virtual» informó a los clientes de un cambio radical en su política de uso que era completamente ficticio.»
La paradoja de los modelos de razonamiento avanzados
Paradójicamente, los modelos de razonamiento más avanzados, que utilizan enfoques de ‘cadena de pensamiento’ para descomponer problemas complejos en pequeñas partes, parecen alucinar más a menudo que los LLM ordinarios, según el análisis de Vectara. OpenAI reconoció en un informe sobre el rendimiento de sus últimos modelos de razonamiento que o1 alucinó el 16% del tiempo al sintetizar información pública sobre personas, mientras que sus modelos o3 y o4-mini alucinaron el 33% y el 48% del tiempo, respectivamente.
Matemáticas básicas y razonamiento lógico
Irónicamente, mientras que las empresas venden estos sistemas como ‘superinteligencias’, los LLM tienen dificultades notables con tareas que cualquier alumno de escuela primaria podría resolver. El razonamiento matemático básico era un punto débil, lo cual es problemático cuando los clientes hacían preguntas sobre descuentos, fechas de garantía o cálculos de costos.
¿Cómo gestionar este riesgo y tener total confianza en sus herramientas que utilizan IA?
En SHA hemos identificado precauciones y métodos a seguir con el fin de sacar el mejor partido de las capacidades de la IA (tanto para los servicios de atención al cliente como en todos los ámbitos que gestionan información crítica) y compartiremos estos elementos en el último de los 5 artículos que publicamos al respecto.
¡Estén atentos!
