La brecha entre la teoría y la realidad
Las empresas tecnológicas comunican regularmente rendimientos impresionantes como «95% de precisión», «supera a los humanos en la prueba X». Pero estas pruebas académicas a menudo no reflejan la complejidad del mundo real. Un LLM puede obtener excelentes resultados en conjuntos de datos específicos y fracasar lamentablemente frente a casos de uso reales con ambigüedad, matices culturales o situaciones que requieren sentido común.
El fracaso de GPT-4.5: lanzado en febrero, retirado en julio
Uno de los casos más reveladores de 2025 ha sido el de GPT-4.5, el modelo más grande jamás creado hasta esa fecha por OpenAI. Lanzado en febrero de 2025 bajo el nombre en clave «Orion», fue entrenado utilizando más potencia de cálculo y datos que cualquier otro modelo anterior de la compañía. Sin embargo, en abril de 2025, solo dos meses después de su lanzamiento, OpenAI anunció que retiraría el acceso API a GPT-4.5 el 14 de julio, convirtiéndolo en el modelo más efímero de la historia comercial de OpenAI.
¿Las razones? El modelo era extremadamente costoso de ejecutar (75 $ por millón de tokens de entrada y 150 $ por millón de tokens de salida, frente a 2,50 $ y 10 $ para GPT-4o), presentaba, además, problemas de latencia y aparentemente no disponía de las principales protecciones de seguridad necesarias para la escalabilidad. A pesar de su tamaño masivo, GPT-4.5 no alcanzó el umbral de rendimiento esperado en varios benchmarks clave de la industria.
La comunidad de desarrolladores reaccionó con frustración en Reddit, Hacker News y Discord de OpenAI. «Quedar obsoleto después de 4 meses es una locura», escribió un desarrollador. Otro fundador de startup comentó anónimamente: «Eliminar un modelo tan rápidamente afecta la confianza. Nuestra aplicación está desarrollada y optimizada para interactuar con GPT-4.5. Cambiar de modelo no consiste en reemplazarlo directamente por otro».
Este episodio plantea preguntas delicadas sobre la madurez real de la tecnología que las empresas adoptan apresuradamente.
Un estudio revela que el 1,75% de las reseñas sobre aplicaciones móviles de IA mencionan alucinaciones
Un estudio científico publicado en agosto de 2025 en Scientific Reports analizó 3 millones de reseñas de usuarios de 90 aplicaciones móviles impulsadas por IA y reveló que aproximadamente el 1,75% de las reseñas relevantes reportaban problemas que indicaban alucinaciones de LLM. Los usuarios describieron frustraciones con «Mi IA me miente» y otros problemas similares donde el sistema generó información plausible pero incorrecta.
¿Quién asume la responsabilidad en caso de fallo?
Aquí se plantea una pregunta delicada y crítica: cuando un LLM proporciona información incorrecta a un cliente, ¿quién es responsable? ¿La empresa que lo desplegó? ¿El proveedor de modelos? ¿Nadie? Esta zona gris jurídica y ética es un terreno peligroso que muchas empresas ignoran en su carrera hacia la automatización.
El caso de Air Canada creó un precedente inquietante: el tribunal concluyó que la empresa era responsable de la información falsa proporcionada por su chatbot, afirmando que no había «ninguna distinción significativa» entre la información del sitio web y la proporcionada por el chatbot. La compañía intentó argumentar que el chatbot era una «entidad jurídica separada», un argumento que el tribunal rechazó categóricamente.
El uso de LLM en un contexto de Servicio al Cliente sigue siendo muy pertinente y prometedor, pero las limitaciones y los riesgos de la tecnología actual imponen un enfoque prudente y estructurado que abordaremos en los próximos artículos.
