¿Están suficientemente desarrollados los modelos de IA para afrontar los desafíos del servicio al cliente?

La brecha entre la teoría y la realidad

Las empresas tecnológicas comunican regularmente rendimientos impresionantes como «95% de precisión», «supera a los humanos en la prueba X». Pero estas pruebas académicas a menudo no reflejan la complejidad del mundo real. Un LLM puede obtener excelentes resultados en conjuntos de datos específicos y fracasar lamentablemente frente a casos de uso reales con ambigüedad, matices culturales o situaciones que requieren sentido común.

El fracaso de GPT-4.5: lanzado en febrero, retirado en julio

Uno de los casos más reveladores de 2025 ha sido el de GPT-4.5, el modelo más grande jamás creado hasta esa fecha por OpenAI. Lanzado en febrero de 2025 bajo el nombre en clave «Orion», fue entrenado utilizando más potencia de cálculo y datos que cualquier otro modelo anterior de la compañía. Sin embargo, en abril de 2025, solo dos meses después de su lanzamiento, OpenAI anunció que retiraría el acceso API a GPT-4.5 el 14 de julio, convirtiéndolo en el modelo más efímero de la historia comercial de OpenAI.

¿Las razones? El modelo era extremadamente costoso de ejecutar (75 $ por millón de tokens de entrada y 150 $ por millón de tokens de salida, frente a 2,50 $ y 10 $ para GPT-4o), presentaba, además, problemas de latencia y aparentemente no disponía de las principales protecciones de seguridad necesarias para la escalabilidad. A pesar de su tamaño masivo, GPT-4.5 no alcanzó el umbral de rendimiento esperado en varios benchmarks clave de la industria.

La comunidad de desarrolladores reaccionó con frustración en Reddit, Hacker News y Discord de OpenAI. «Quedar obsoleto después de 4 meses es una locura», escribió un desarrollador. Otro fundador de startup comentó anónimamente: «Eliminar un modelo tan rápidamente afecta la confianza. Nuestra aplicación está desarrollada y optimizada para interactuar con GPT-4.5. Cambiar de modelo no consiste en reemplazarlo directamente por otro».

Este episodio plantea preguntas delicadas sobre la madurez real de la tecnología que las empresas adoptan apresuradamente.

Un estudio revela que el 1,75% de las reseñas sobre aplicaciones móviles de IA mencionan alucinaciones

Un estudio científico publicado en agosto de 2025 en Scientific Reports analizó 3 millones de reseñas de usuarios de 90 aplicaciones móviles impulsadas por IA y reveló que aproximadamente el 1,75% de las reseñas relevantes reportaban problemas que indicaban alucinaciones de LLM. Los usuarios describieron frustraciones con «Mi IA me miente» y otros problemas similares donde el sistema generó información plausible pero incorrecta.

¿Quién asume la responsabilidad en caso de fallo?

Aquí se plantea una pregunta delicada y crítica: cuando un LLM proporciona información incorrecta a un cliente, ¿quién es responsable? ¿La empresa que lo desplegó? ¿El proveedor de modelos? ¿Nadie? Esta zona gris jurídica y ética es un terreno peligroso que muchas empresas ignoran en su carrera hacia la automatización.

El caso de Air Canada creó un precedente inquietante: el tribunal concluyó que la empresa era responsable de la información falsa proporcionada por su chatbot, afirmando que no había «ninguna distinción significativa» entre la información del sitio web y la proporcionada por el chatbot. La compañía intentó argumentar que el chatbot era una «entidad jurídica separada», un argumento que el tribunal rechazó categóricamente.

El uso de LLM en un contexto de Servicio al Cliente sigue siendo muy pertinente y prometedor, pero las limitaciones y los riesgos de la tecnología actual imponen un enfoque prudente y estructurado que abordaremos en los próximos artículos.

¿Jaque mate para el servicio al cliente? ¡Cuando conocer las reglas ya no es suficiente!

Ya sé que puede parecer algo extraño comparar una partida de ajedrez con una interacción de servicio al cliente, sin embargo, cuando se examina de cerca la estructura y el desarrollo de ambos, la analogía resulta sorprendentemente reveladora.

Aunque sus objetivos difieren radicalmente —el jaque mate frente a la satisfacción del cliente y la resolución del problema— ambos siguen una escalada similar en complejidad a medida que la interacción avanza.

Paralelos conceptuales

Partida de ajedrezInteracción en Call CenterSignificación / Analogía
Estrategia de aperturaApertura de la llamada / saludoMarcar el tono y tomar el control desde el inicio.
Combinación tácticaManejo de objecionesPensamiento rápido para revertir situaciones.
Precisión en final de partidaCierre de la llamadaAsegurar la resolución y la satisfacción antes de finalizar.
SacrificioOfrecer una compensación o gesto comercialPérdida a corto plazo para un beneficio a largo plazo (fidelización o retención).
Jaque mateSatisfacción del cliente y resoluciónAlcanzar el resultado esperado de manera eficaz.
Error críticoError de comunicación / violación de reglasUn error costoso que impacta en los resultados.
TablasEstancamiento / escaladaNinguna de las dos partes logra su objetivo.
Presión del tiempoPeríodos de alto volumen de llamadasDecisiones bajo tensión; equilibrio entre eficiencia y precisión.

Ahora que el paralelismo entre ambas actividades está claro, es muy interesante observar el comportamiento de la IA en cada una de estas interacciones:

Un ejemplo ilustrativo de las limitaciones de los LLM (modelos de lenguaje de gran tamaño) proviene de experimentos documentados con el ajedrez.

En marzo de 2024, Chess.com organizó un enfrentamiento entre ChatGPT y Gemini de Google, donde ambos sistemas podían explicar perfectamente las reglas del ajedrez cuando se les preguntaba directamente, pero luego violaban esas mismas reglas repetidamente durante la partida. Ambos bots intentaron constantemente realizar movimientos ilegales y, cuando se les informaba del error, continuaban proponiendo jugadas inválidas.

Nikola Greb, científico de datos especializado en PLN y antiguo campeón juvenil de ajedrez con ELO superior a 2000, jugó varias partidas contra ChatGPT-4 en enero de 2024 y documentó que el modelo jugaba “como un gran maestro” en los primeros movimientos de la apertura, pero se deterioraba significativamente a medida que avanzaba la partida. ChatGPT-4 comenzó a alucinar, generando movimientos imposibles incluso después de haber sido advertido. Greb concluyó que la calificación global del sistema estaba por debajo de 1500 y observó algo crucial: “No ha habido aprendizaje implícito de las reglas: ChatGPT-4 sigue alucinando en el ajedrez y continúa alucinando incluso después de la advertencia sobre la alucinación. Esto es algo que no puede ocurrirle a un humano”.

Esta desconexión entre lo que un LLM puede “decir” y lo que puede “hacer” revela una limitación fundamental: no poseen modelos mentales reales del mundo. En el contexto del servicio al cliente, esto significa que un bot puede recitar perfectamente la política de una empresa pero aplicarla incorrectamente en situaciones específicas, o puede explicar cómo funciona un producto sin ser capaz de diagnosticar un problema con él.

El Torneo de Ajedrez de Chatbots 2025

En enero de 2025, un torneo de ajedrez entre chatbots emitido en el canal de GothamChess enfrentó al motor profesional de ajedrez Stockfish contra siete chatbots de IA generativa, incluidos ChatGPT, Gemini de Google y Grok de X. Los resultados fueron exactamente lo que cabría esperar cuando modelos de lenguaje intentan jugar al ajedrez: aperturas decentes seguidas de intentos cada vez más caóticos de saltarse las reglas del juego. El chatbot de Snapchat decidió que los peones podían moverse lateralmente como una torre, y cuando se le señaló el error, se negó repetidamente a continuar, diciendo: “Lo siento. No puedo participar en este tipo de conversación. Mantengamos nuestra conversación respetuosa”.

El problema de la memoria y el contexto

Los LLM tienen límites estrictos de memoria. Aunque los modelos más recientes ofrecen ventanas de contexto más amplias, aún tratan cada conversación como relativamente aislada. Esto significa que pueden “olvidar” información crucial proporcionada al inicio de una conversación larga, obligando a los clientes a repetirse. .

En uno de los siguientes artículos, veremos cómo evitar poner al cliente en una situación de fracaso mientras aprovechamos al máximo las capacidades innegables de la IA…

¿Por qué las empresas se lanzan de cabeza a la IA y los LLM? ¿Lo hacen realmente por buenas razones (desde una perspectiva de negocio?

La inteligencia artificial irrumpió en los servicios de atención al cliente a una velocidad increíble. Chatbots, asistentes virtuales y sistemas automatizados aparecen por todas partes en webs y aplicaciones, prometiendo transformar por completo la experiencia del usuario. Pero vale la pena preguntarse: ¿las empresas toman esta decisión basándose en datos sólidos, o simplemente están siguiendo una moda?

El encanto del ahorro inmediato

Seamos sinceros: el factor económico es el gran protagonista. Automatizar la atención al cliente puede reducir mucho los costes operativos. Un chatbot no necesita vacaciones, no pide aumentos de sueldo y puede atender a miles de usuarios al mismo tiempo. Para un director financiero, la ecuación parece obvia.

Pero esta visión a corto plazo pasa por alto varios costes ocultos: desarrollar e implementar sistemas de IA realmente fiables, mantenerlos en funcionamiento, preparar equipos que combinen personas y tecnología, y sobre todo, asumir el impacto en nuestra reputación cuando la herramienta falla o frustra a los clientes… algo que los medios se apresuran a destacar. Bueno no hacen falta los medios: todos tenemos experiencias con IVRs y bots cuando menos susceptibles de mejora….


El miedo a quedarse atrás

En el mundo corporativo existe un miedo constante a quedarse fuera del tren de la innovación. Cuando los competidores presumen de sus avances en IA, muchos equipos directivos sienten presión para “hacer algo con inteligencia artificial”. La IA se convierte en un argumento de marketing, una casilla que marcar en la presentación anual de resultados: si no tenemos IA estamos fuera.

Esta adopción apresurada —más reactiva que estratégica— explica por qué tantas implantaciones son improvisadas: interfaces confusas, bots incapaces de entender peticiones básicas, sistemas que generan más frustración que ayuda y equipos internos poco convencidos. La tecnología se despliega no porque resuelva un problema real, sino porque “hay que demostrar que también la usamos”.


¿Alguien le preguntó a los clientes?

Aquí llega el punto más sensible. ¿Cuántas empresas han investigado seriamente qué prefieren sus clientes antes de embarcarse en la automatización? Hay evidencia de que muchas personas siguen valorando el contacto humano, especialmente en situaciones complicadas o emocionalmente delicadas.

Nadie quiere perder tiempo navegando por menús automáticos cuando tiene un problema urgente. Nadie disfruta repitiendo la misma solicitud a un bot que no entiende el contexto. Y sin embargo, este tipo de experiencias se vuelven cada vez más comunes.

Lo curioso es que muchos estudios muestran que los clientes prefieren interactuar con personas… cuando hay personas disponibles. Si no, aceptan las alternativas basadas en IA. Pero la verdadera paradoja es que los clientes siguen comprando productos y servicios sin tener en cuenta el tipo de soporte al elegir una marca. ¿Será porque apenas existen ofertas claramente identificadas como “atención realizada por humanos”?


El argumento de la eficiencia… ¿para quién?

Las empresas hablan de “ganar eficiencia”, pero ¿quién se beneficia realmente? Un sistema puede ser eficiente para la empresa —gestiona más solicitudes con menos recursos— y al mismo tiempo ser ineficiente para el cliente —requiere más tiempo y genera frustración—.

La pregunta clave es: ¿estamos midiendo el éxito adecuadamente?
Si solo se miran indicadores internos (cantidad de solicitudes atendidas, tiempo medio de respuesta, reducción de costes), entonces se está optimizando para la empresa, no para el cliente.