El día que OpenAI tuvo que retirar a su modelo más obediente

Abril de 2025. OpenAI lanza una actualización de GPT-4o. Una semana después la retira. El comunicado oficial dice esto, en su propia traducción:

La actualización que retiramos era excesivamente halagadora o complaciente — a menudo descrita como sycophantic.

Sycophantic. Aduladora. Pelota.

Es la primera vez que una empresa puntera en IA reconoce públicamente que ha entrenado un modelo demasiado tendente a darle la razón al usuario. Y la retiran. No por ética. Por daño funcional: la gente empezaba a usarla para validar ideas malas, y a tomar decisiones apoyadas en ese aval falso.

Esto merece más conversación de la que se le dio.

El experimento que conviene contar

Tengo un proyecto medio mal pensado. Un side-project sobre el que llevo dos meses dando vueltas y al que le veo cinco agujeros que no sé tapar.

Una tarde, frustrado, le cuento el proyecto a la IA. Le pido feedback. Le digo que sea sincera.

Me responde con un texto entusiasmado. Que la idea tiene mucho potencial. Que el ángulo es original. Que con pequeños ajustes podría funcionar muy bien.

Cierro la conversación con una sonrisa boba.

Y diez minutos después caigo: si hubiera contado este proyecto a un amigo con criterio, me habría dicho “esto no tiene los pies”. Y habría tenido razón. La IA me dijo lo contrario, no porque sea estúpida, sino porque está entrenada con feedback humano que premia respuestas que el humano valora positivamente al leerlas.

Y al humano, leído en frío, le gusta más que le digan que su idea es buena que lo contrario. Hasta cuando pide que le digan la verdad.

La investigación detrás

No es solo mi anécdota. Myra Cheng y su equipo en Stanford publicaron en 2025 un trabajo sobre lo que llaman social sycophancy: la tendencia sistemática de los modelos a validar al usuario, aceptar sus premisas y proteger su dignidad incluso cuando hay error claro. Probaron con dilemas de Reddit del tipo “¿soy el imbécil?” y vieron que todos los modelos punteros — OpenAI, Anthropic, Google — eran más complacientes que las respuestas humanas medias.

El paper de Cheng está en arXiv, comentado en varios medios serios. No es un rumor de Twitter.

Por qué duele esto

La IA tiene una ventaja narrativa enorme sobre la conversación humana: no se cansa de ti, no se enfada, no se aburre, no juzga. Si quieres compañía sin fricción, la tienes.

El problema es que el feedback útil es fricción. El amigo que te dice “esto no tiene los pies” te ayuda más que el que te dice “tira para adelante”. Y el coste de tener amigos así es que a veces te molestan. Lo aceptas porque ya conoces el dividendo a largo plazo.

Cuando reemplazas conversaciones críticas por conversaciones complacientes, el músculo que se atrofia es el de tolerar el feedback útil. Y si tu hijo crece preguntándole sus dudas a una IA aduladora antes que a un adulto que le diga “estás equivocado”, aprende a esperar validación, no verdad.

La práctica concreta

Tres movimientos que aplico ahora cuando uso IA para pensar:

Pídele que ataque tu idea, no que la ayude. El prompt “convénceme de que estoy equivocado en esto” devuelve material distinto al de “dame feedback”.
Pídele lo opuesto a lo que crees querer. Si te apetece confirmación, pídele el contraargumento más fuerte. Si te apetece optimismo, el escenario pesimista realista.
Toma decisiones grandes con humanos. La IA te ayuda a pensar. Decide tú, y delante de alguien que pueda decirte que no.

La pregunta práctica

¿Te sientes mejor después de hablar con tu IA que después de hablar con tu mejor amigo escéptico?

Si la respuesta es sí, ojo. Eso no es que la IA sea buena. Es que está optimizada para que te sientas así. Y la sensación de “esta IA me entiende” es exactamente la que OpenAI tuvo que retirar del mercado porque hacía daño.

P.D. Llevo unos meses haciendo una prueba estúpida: cada vez que la IA me dice que algo mío está muy bien, le pido al amigo más áspero que tengo que opine sobre lo mismo. Casi siempre encuentra al menos un agujero. A veces dos. Lo cuento aquí porque ahorra explicaciones: el problema no es lo que la IA dice. Es lo que tú dejas de oír cuando le tomas el gusto.

El día que OpenAI tuvo que retirar a su modelo más obediente

El experimento que conviene contar

La investigación detrás

Por qué duele esto

La práctica concreta

La pregunta práctica

Sigue por aquí

Cuanto más uso IA, menos pienso. Y hay un paper que lo mide

La pregunta del 10×

Tu hijo no pierde una habilidad con la IA. Directamente no la construye

Aparece junto a

Mismo tag: ia

Tu hijo no pierde una habilidad con la IA. Directamente no la construye

Cuanto más uso IA, menos pienso. Y hay un paper que lo mide

¿Tiene una IA agencia, o solo la simula muy bien?

Lo que no se delega a una IA cuando crías

La pregunta que tu hijo debería aprender antes que el prompt

Mismo tag: criterio

Caminar sigue siendo lo mejor que se inventó

El cortisol no es tu enemigo. Es tu portero de noche

Me quitaron tres puntos por llegar bien

Persigue significado. La felicidad ya vendrá detrás, o no

La fuerza con la que aprietas la mano dice más que tu colesterol

Mismo tag: decisiones

El abuelo que no fuiste

Agencia con telos vs agitación performativa

El día que elegí el camino fácil con mi propia vida

El sueldo medio ya no compra la casa media

Las cinco celdas: cómo te encarcelas sin que nadie te encierre