¿Están suficientemente desarrollados los modelos de IA para afrontar los desafíos del servicio al cliente?

La brecha entre la teoría y la realidad

Las empresas tecnológicas comunican regularmente rendimientos impresionantes como «95% de precisión», «supera a los humanos en la prueba X». Pero estas pruebas académicas a menudo no reflejan la complejidad del mundo real. Un LLM puede obtener excelentes resultados en conjuntos de datos específicos y fracasar lamentablemente frente a casos de uso reales con ambigüedad, matices culturales o situaciones que requieren sentido común.

El fracaso de GPT-4.5: lanzado en febrero, retirado en julio

Uno de los casos más reveladores de 2025 ha sido el de GPT-4.5, el modelo más grande jamás creado hasta esa fecha por OpenAI. Lanzado en febrero de 2025 bajo el nombre en clave «Orion», fue entrenado utilizando más potencia de cálculo y datos que cualquier otro modelo anterior de la compañía. Sin embargo, en abril de 2025, solo dos meses después de su lanzamiento, OpenAI anunció que retiraría el acceso API a GPT-4.5 el 14 de julio, convirtiéndolo en el modelo más efímero de la historia comercial de OpenAI.

¿Las razones? El modelo era extremadamente costoso de ejecutar (75 $ por millón de tokens de entrada y 150 $ por millón de tokens de salida, frente a 2,50 $ y 10 $ para GPT-4o), presentaba, además, problemas de latencia y aparentemente no disponía de las principales protecciones de seguridad necesarias para la escalabilidad. A pesar de su tamaño masivo, GPT-4.5 no alcanzó el umbral de rendimiento esperado en varios benchmarks clave de la industria.

La comunidad de desarrolladores reaccionó con frustración en Reddit, Hacker News y Discord de OpenAI. «Quedar obsoleto después de 4 meses es una locura», escribió un desarrollador. Otro fundador de startup comentó anónimamente: «Eliminar un modelo tan rápidamente afecta la confianza. Nuestra aplicación está desarrollada y optimizada para interactuar con GPT-4.5. Cambiar de modelo no consiste en reemplazarlo directamente por otro».

Este episodio plantea preguntas delicadas sobre la madurez real de la tecnología que las empresas adoptan apresuradamente.

Un estudio revela que el 1,75% de las reseñas sobre aplicaciones móviles de IA mencionan alucinaciones

Un estudio científico publicado en agosto de 2025 en Scientific Reports analizó 3 millones de reseñas de usuarios de 90 aplicaciones móviles impulsadas por IA y reveló que aproximadamente el 1,75% de las reseñas relevantes reportaban problemas que indicaban alucinaciones de LLM. Los usuarios describieron frustraciones con «Mi IA me miente» y otros problemas similares donde el sistema generó información plausible pero incorrecta.

¿Quién asume la responsabilidad en caso de fallo?

Aquí se plantea una pregunta delicada y crítica: cuando un LLM proporciona información incorrecta a un cliente, ¿quién es responsable? ¿La empresa que lo desplegó? ¿El proveedor de modelos? ¿Nadie? Esta zona gris jurídica y ética es un terreno peligroso que muchas empresas ignoran en su carrera hacia la automatización.

El caso de Air Canada creó un precedente inquietante: el tribunal concluyó que la empresa era responsable de la información falsa proporcionada por su chatbot, afirmando que no había «ninguna distinción significativa» entre la información del sitio web y la proporcionada por el chatbot. La compañía intentó argumentar que el chatbot era una «entidad jurídica separada», un argumento que el tribunal rechazó categóricamente.

El uso de LLM en un contexto de Servicio al Cliente sigue siendo muy pertinente y prometedor, pero las limitaciones y los riesgos de la tecnología actual imponen un enfoque prudente y estructurado que abordaremos en los próximos artículos.

SHA anuncia el acceso a su demo en linea

Nos complace anunciar que la versión Demo de INTRA ya está disponible en línea.

INTRA permite a las organizaciones ampliar y centralizar el conocimiento, garantizando su aplicación eficaz en operaciones, formación y gestión de la calidad.

Al transformar el conocimiento en información accionable, INTRA ayuda a los equipos a mejorar la consistencia, la eficiencia operativa y la experiencia del cliente, manteniendo al mismo tiempo el control sobre los procesos y los resultados.

Solicite acceso y descubra las principales funcionalidades de INTRA a través de nuestra sección Demo.

Para más información, póngase en contacto con mc@sha-saas.com.

¿Jaque mate para el servicio al cliente? ¡Cuando conocer las reglas ya no es suficiente!

Ya sé que puede parecer algo extraño comparar una partida de ajedrez con una interacción de servicio al cliente, sin embargo, cuando se examina de cerca la estructura y el desarrollo de ambos, la analogía resulta sorprendentemente reveladora.

Aunque sus objetivos difieren radicalmente —el jaque mate frente a la satisfacción del cliente y la resolución del problema— ambos siguen una escalada similar en complejidad a medida que la interacción avanza.

Paralelos conceptuales

Partida de ajedrezInteracción en Call CenterSignificación / Analogía
Estrategia de aperturaApertura de la llamada / saludoMarcar el tono y tomar el control desde el inicio.
Combinación tácticaManejo de objecionesPensamiento rápido para revertir situaciones.
Precisión en final de partidaCierre de la llamadaAsegurar la resolución y la satisfacción antes de finalizar.
SacrificioOfrecer una compensación o gesto comercialPérdida a corto plazo para un beneficio a largo plazo (fidelización o retención).
Jaque mateSatisfacción del cliente y resoluciónAlcanzar el resultado esperado de manera eficaz.
Error críticoError de comunicación / violación de reglasUn error costoso que impacta en los resultados.
TablasEstancamiento / escaladaNinguna de las dos partes logra su objetivo.
Presión del tiempoPeríodos de alto volumen de llamadasDecisiones bajo tensión; equilibrio entre eficiencia y precisión.

Ahora que el paralelismo entre ambas actividades está claro, es muy interesante observar el comportamiento de la IA en cada una de estas interacciones:

Un ejemplo ilustrativo de las limitaciones de los LLM (modelos de lenguaje de gran tamaño) proviene de experimentos documentados con el ajedrez.

En marzo de 2024, Chess.com organizó un enfrentamiento entre ChatGPT y Gemini de Google, donde ambos sistemas podían explicar perfectamente las reglas del ajedrez cuando se les preguntaba directamente, pero luego violaban esas mismas reglas repetidamente durante la partida. Ambos bots intentaron constantemente realizar movimientos ilegales y, cuando se les informaba del error, continuaban proponiendo jugadas inválidas.

Nikola Greb, científico de datos especializado en PLN y antiguo campeón juvenil de ajedrez con ELO superior a 2000, jugó varias partidas contra ChatGPT-4 en enero de 2024 y documentó que el modelo jugaba “como un gran maestro” en los primeros movimientos de la apertura, pero se deterioraba significativamente a medida que avanzaba la partida. ChatGPT-4 comenzó a alucinar, generando movimientos imposibles incluso después de haber sido advertido. Greb concluyó que la calificación global del sistema estaba por debajo de 1500 y observó algo crucial: “No ha habido aprendizaje implícito de las reglas: ChatGPT-4 sigue alucinando en el ajedrez y continúa alucinando incluso después de la advertencia sobre la alucinación. Esto es algo que no puede ocurrirle a un humano”.

Esta desconexión entre lo que un LLM puede “decir” y lo que puede “hacer” revela una limitación fundamental: no poseen modelos mentales reales del mundo. En el contexto del servicio al cliente, esto significa que un bot puede recitar perfectamente la política de una empresa pero aplicarla incorrectamente en situaciones específicas, o puede explicar cómo funciona un producto sin ser capaz de diagnosticar un problema con él.

El Torneo de Ajedrez de Chatbots 2025

En enero de 2025, un torneo de ajedrez entre chatbots emitido en el canal de GothamChess enfrentó al motor profesional de ajedrez Stockfish contra siete chatbots de IA generativa, incluidos ChatGPT, Gemini de Google y Grok de X. Los resultados fueron exactamente lo que cabría esperar cuando modelos de lenguaje intentan jugar al ajedrez: aperturas decentes seguidas de intentos cada vez más caóticos de saltarse las reglas del juego. El chatbot de Snapchat decidió que los peones podían moverse lateralmente como una torre, y cuando se le señaló el error, se negó repetidamente a continuar, diciendo: “Lo siento. No puedo participar en este tipo de conversación. Mantengamos nuestra conversación respetuosa”.

El problema de la memoria y el contexto

Los LLM tienen límites estrictos de memoria. Aunque los modelos más recientes ofrecen ventanas de contexto más amplias, aún tratan cada conversación como relativamente aislada. Esto significa que pueden “olvidar” información crucial proporcionada al inicio de una conversación larga, obligando a los clientes a repetirse. .

En uno de los siguientes artículos, veremos cómo evitar poner al cliente en una situación de fracaso mientras aprovechamos al máximo las capacidades innegables de la IA…