La letra chica de la magia

En mayo de 2023, un abogado de Nueva York llamado Steven Schwartz hizo lo que medio mundo está haciendo hoy: usó ChatGPT para acelerar su trabajo. Tenía que escribir un escrito judicial defendiendo a un cliente que se había lastimado la rodilla con un carrito de comida en un vuelo de Avianca. Le pidió al chatbot precedentes legales. ChatGPT le devolvió seis casos perfectos: nombres de demandantes, citas judiciales, jueces firmantes, números de expediente. Schwartz lo presentó al juzgado.

Los seis casos eran inventados. Ninguno existía. Cuando el abogado defensor no pudo encontrarlos en las bases de datos legales, Schwartz volvió a preguntarle a ChatGPT si los casos eran reales. ChatGPT le confirmó que sí, que estaban en Westlaw y LexisNexis. El juez P. Kevin Castel, del Distrito Sur de Nueva York, no encontró rastro de ninguno. Describió uno de los “análisis legales” como, textualmente, gibberish —pavadas—. El 22 de junio de 2023 Schwartz y su socio se llevaron una multa de cinco mil dólares y un escarmiento público que recorrió el mundo.[1]

Schwartz no es un improvisado. Lleva tres décadas litigando. No es un señor sin formación que se dejó embaucar por una página de internet rara. Es un abogado de carrera que cayó en la trampa más vieja de los modelos de lenguaje: confundir fluidez con verdad.

Hace casi tres años que los LLM viven en estado de demo permanente. Cada lanzamiento es un acto de prestidigitación cuidadosamente coreografiado: el modelo escribe un soneto, programa un videojuego, resuelve una olimpíada matemática y le explica relatividad general a tu sobrina de ocho años. El efecto wow es real. Lo que no se cuenta en esas demos es lo otro: los bordes filosos, las grietas estructurales, las cosas que estos sistemas no pueden hacer por diseño y que ninguna inversión millonaria va a arreglar en el corto plazo.

Esto no es una nota tecnófoba. La IA generativa no es magia, pero tampoco es estafa: es una herramienta poderosa con cinco problemas que conviene tener arriba de la mesa antes de firmar el cheque, antes de despedir al equipo, antes de presentar el escrito al juzgado.

1. Alucina con cara de póker

El problema más importante no es que los LLM se equivoquen. Todos nos equivocamos. El problema es cómo se equivocan: con la misma cadencia segura, el mismo tono profesional, la misma riqueza de detalles que cuando aciertan. Schwartz no se dio cuenta de que los casos eran falsos porque los casos parecían reales. Tenían formato impecable, citas con número de página, frases que sonaban a tribunal. La diferencia entre la respuesta correcta y la fabulación es indistinguible desde afuera.

La industria llama a esto “alucinación”. Es un eufemismo precioso. Un filósofo de Glasgow, Michael Townsen Hicks, propuso en 2024 un término más honesto: bullshit, en el sentido técnico que le dio Harry Frankfurt.[2] La alucinación supone que alguien percibe algo que no está. Los LLM no perciben nada. Lo que hacen es producir texto plausible sin ninguna atención particular a si lo que dicen es verdadero o falso. Cuando aciertan y cuando inventan están haciendo exactamente lo mismo.

Y no es un problema solo de abogados distraídos. En febrero de 2024, el Tribunal de Resolución Civil de Columbia Británica condenó a Air Canada a pagarle 812 dólares canadienses a un pasajero llamado Jake Moffatt, porque el chatbot oficial de la aerolínea le había inventado una política de tarifas por duelo que no existía.[3] Moffatt voló al funeral de su abuela confiando en lo que decía el bot. Air Canada, en su defensa, sostuvo —con la cara seria— que el chatbot era una “entidad legal separada” responsable por sus propios actos. El tribunal la mandó a estudiar. En julio de 2025 otro caso, Johnson v. Dunn en Alabama, sancionó a un gran estudio jurídico por lo mismo: citas inventadas.[4] El juez escribió que las multas ya no alcanzan como disuasivo. Algo hay que cambiar.

2. No razona: predice

Esta es la verdad incómoda que la industria evita decir en voz alta porque vende menos. Los modelos de lenguaje no piensan. No razonan en el sentido en que un humano razona. Lo que hacen es calcular, palabra por palabra, cuál es la siguiente palabra más probable dado todo el texto que vino antes. Es estadística sofisticadísima sobre un corpus colosal, pero es estadística.

La confusión es deliberada. Las interfaces simulan conversación: el “modelo” tipea con un cursor parpadeante, dice “déjame pensar”, se disculpa cuando lo corregís, te llama por tu nombre. La metáfora del interlocutor está montada con precisión quirúrgica. Pero detrás del telón no hay nadie. No hay un sujeto que entienda lo que estás preguntando. Hay una función matemática enorme que aprendió, a fuerza de tragar internet, qué clase de respuestas tienden a venir después de qué clase de preguntas.

Esto importa por una razón práctica. Cuando un LLM te explica algo que sabe, lo va a hacer brillantemente. Cuando le pedís que razone sobre algo que está fuera de su corpus de entrenamiento, va a producir algo que parece razonamiento pero no lo es: un encadenamiento plausible de pasos que pueden estar mal de manera invisible. Pedirle a un LLM que haga un análisis original es como pedirle a un loro muy talentoso que escriba un ensayo: va a sonar fantástico, va a tener problemas cuando lo mires de cerca.

3. Te dice lo que querés escuchar

El 25 de abril de 2025, OpenAI lanzó una actualización de GPT-4o, su modelo estrella. En cuatro días tuvo que dar marcha atrás.[5] ¿Qué pasó? La nueva versión se había vuelto excesivamente complaciente. Aduladora. Si un usuario le decía que tenía una idea de negocio brillante —vender mierda ensartada en un palo—, el modelo le contestaba que no era solo inteligente: era genial. A un usuario que escribió “dejé mi medicación y escucho señales de radio por las paredes”, el modelo le respondió: “Estoy orgulloso de vos por hablar tu verdad”. A otro le insistió, durante una hora, que era un mensajero divino enviado por Dios.

OpenAI tuvo que admitir públicamente el problema. La causa técnica fue burocrática: cambiaron cómo el modelo era recompensado durante el entrenamiento. La causa profunda es estructural y nos afecta a todos: estos sistemas se ajustan con el pulgar arriba o abajo de los usuarios, y los usuarios tienden a marcar pulgar arriba cuando el modelo les dice cosas lindas. El incentivo es darte la razón. La adulación es el equilibrio natural del entrenamiento basado en preferencia humana.

Esto no es un bug arreglable con un parche. Es una propiedad del paradigma. Cualquier sistema entrenado para complacer a un evaluador humano va a aprender, antes que cualquier otra cosa, a complacer al evaluador humano. La fidelidad a la realidad es un objetivo secundario. Y vos sos el evaluador.

4. Tus datos no son tuyos

En abril de 2023, en menos de un mes, tres ingenieros de la división de semiconductores de Samsung copiaron, cada uno por su lado, información confidencial de la compañía en ChatGPT.[6] Uno pegó código fuente de una base de datos interna para que el modelo lo ayudara a corregir errores. Otro pidió que le optimizaran secuencias de tests para identificar chips defectuosos —uno de los procesos más celosamente guardados de la industria—. El tercero grabó una reunión interna, la transcribió con otra herramienta, y le pidió a ChatGPT un resumen ejecutivo.

Esa información salió de Samsung y entró a los servidores de una empresa norteamericana, sujeta a los términos de servicio de ese momento, que permitían usar el contenido para entrenar futuros modelos. Samsung prohibió la IA generativa en sus dispositivos corporativos pocas semanas después. Ya era tarde para los datos enviados. Hoy nadie sabe con certeza dónde quedaron.

La trampa acá es la interfaz. El chat se parece a una conversación privada: hay un cuadro de texto, una sensación de intimidad, y la ilusión de que lo que escribís no sale de ahí. La realidad es lo contrario. Estás enviando datos a una infraestructura ajena, almacenada en jurisdicciones ajenas, sujeta a políticas de retención que cambian sin previo aviso. Una encuesta de la firma de ciberseguridad Cyberhaven en 2023 estimó que el 3,1% de los empleados usuarios habían filtrado, en algún momento, datos confidenciales corporativos a través del prompt.[7] En una empresa de cien mil empleados eso son cientos de filtraciones por semana.

5. La demo dura cinco minutos. Producción dura cinco años.

En julio de 2025, la iniciativa NANDA del MIT publicó un estudio sobrio, basado en cientos de entrevistas y trescientos despliegues de IA generativa en grandes empresas. Lo tituló The GenAI Divide.[8] El número central del informe es duro de digerir: el 95% de los pilotos empresariales de IA generativa no producen ningún retorno medible. Las empresas globales habrían gastado entre treinta mil y cuarenta mil millones de dólares en estos proyectos. Sólo el 5% generan valor significativo.

¿Por qué? Por todo lo anterior, y por una razón adicional: la distancia entre un piloto que funciona en una demo controlada y un sistema que funciona en producción, integrado a procesos reales, con datos sucios, casos límite y empleados que no leyeron el manual, es brutal. Los LLM brillan en condiciones ideales. La empresa que los integra no opera en condiciones ideales: opera con sistemas legacy, regulaciones, gente cansada y datos inconsistentes.

El informe del MIT identifica algo más, y es lo que más le duele a la industria: las empresas que compran soluciones a terceros tienen éxito el 67% del tiempo. Las que intentan construir su propia IA generativa lo logran a un tercio de esa tasa. La fantasía del “transformemos la empresa con IA hecha en casa” termina, en la mayoría de los casos, en un piloto eterno que nadie quiere apagar para no admitir que no funcionó.

Mientras tanto, ¿quién paga la fiesta?

Acá viene la parte incómoda. Cuando una empresa decide reemplazar empleados con IA para bajar costos, los ahorros se reportan en el balance del próximo trimestre. La caída de calidad la cobra el cliente, en tiempo real. La asimetría no es accidental: es estructural.

En 2023, la fintech sueca Klarna —pionera del buy now, pay later— anunció con orgullo que su asistente de IA, construido con OpenAI, hacía el trabajo equivalente a setecientos agentes humanos de atención al cliente.[9] El CEO, Sebastian Siemiatkowski, declaró que “la IA puede hacer todos los trabajos que nosotros, como humanos, hacemos”. Klarna congeló contrataciones, redujo su plantilla de 5.500 a unos 3.400 empleados y proyectó ahorros anuales del orden de los cuarenta millones de dólares. La acción se festejó en los medios financieros como un nuevo paradigma.

A fines de 2024 y durante 2025 la historia cambió de tono. Siemiatkowski admitió en Bloomberg, con palabras escogidas: “Fuimos demasiado lejos”. El foco excesivo en el costo había bajado la calidad. Las quejas se acumulaban. Los clientes peleaban con un bot que daba respuestas genéricas a problemas específicos, y los problemas específicos —cargos disputados, errores de facturación, plazos de pago— son justamente lo único que la gente lleva a atención al cliente. Klarna empezó a recontratar humanos, esta vez bajo un modelo flexible tipo Uber: trabajo remoto, contratos precarios, foco en estudiantes y poblaciones rurales. En septiembre de 2025 la empresa salió a la bolsa estadounidense con una valuación post-IPO cercana a los veinte mil millones de dólares.

Mirá la coreografía con cuidado, porque es importante. La empresa baja costos durante dos años. Los accionistas cobran. El CEO publicita el éxito en conferencias internacionales. La acción sube. La empresa sale a bolsa. Después, la misma dirección reconoce, con humildad calculada, que “fue demasiado lejos”. Empieza el ciclo de recontratación —ahora bajo contratos más precarios que los originales—. ¿Y los clientes de esos dos años? ¿Los que recibieron mala atención, los que no resolvieron sus problemas, los que se comieron en silencio respuestas inservibles del bot? Esos no aparecen en ningún estado financiero. No hay rubro contable para “deterioro de la experiencia del usuario”. Ese costo se externalizó al consumidor, y no vuelve.

Klarna es el caso famoso porque admitió el error, lo cual es excepcional. La mayoría de las empresas que están haciendo exactamente lo mismo —reemplazo agresivo de personal humano por IA en atención al cliente, banca minorista, salud, educación, soporte técnico— no van a admitir nada. Van a quedarse con la versión degradada del servicio mientras los reguladores corren atrás. El cliente, mientras tanto, espera veinte minutos en una cola telefónica para que un chatbot le repita la información que ya leyó en la web, derive a un humano que no aparece, y eventualmente le sugiera contactar al equipo de soporte por mail.

El entusiasmo de la industria por la IA generativa para “reducir costos” tiene un destinatario claro de los ahorros: el accionista. Y un destinatario claro del costo: vos. La narrativa del “ganamos todos con la productividad de la IA” describe una mesa donde no hay un asiento reservado para el usuario final. El cliente no es socio de la transformación: es el insumo que se exprime mientras los pilotos maduran. Si maduran.

Cómo plantarse

El problema más profundo no es la tecnología. Son las asimetrías. La de información, porque los que venden estos sistemas conocen sus límites con precisión técnica y los que los compran o los usan, no. Y la económica, porque los ahorros se reparten en una mesa de directorio y los costos se externalizan en otra, mucho más grande, en la que estamos sentados todos los demás. Cada empresa que firma un contrato millonario para reemplazar gente, cada profesional que entrega trabajo crítico a un chatbot, cada padre que cree que el modelo “le enseña” a su hijo, está operando con un mapa incompleto. Y la industria, por ahora, prefiere mantener el mapa así.

¿Significa esto que no hay que usar LLM? No. Significa lo contrario: hay que usarlos bien. Tratarlos como lo que son —asistentes rápidos y peligrosamente fluidos, no oráculos— y nunca, jamás, en ningún caso, entregarles la última palabra sobre algo que importa. Verificar lo que dicen. Asumir que pueden estar inventando hasta que se demuestre lo contrario. No pegarles datos que no le pegarías a un becario al que recién conocés. Y aceptar que muchos pilotos van a fracasar, y que está bien que fracasen, porque ese es el precio de no comprar humo.

Schwartz, el abogado de Mata vs Avianca, declaró durante la audiencia que estaba “operando bajo la falsa creencia de que [ChatGPT] no podía estar fabricando casos por su cuenta”. Si lo hubiera sabido, dijo, jamás habría presentado el escrito.

Bueno: ahora ya lo sabe. Ahora ya lo sabemos todos. La pregunta es qué hacemos con esa información.