Opinión

¿Y si la IA responde mejor cuando la amenazan?

Barcelonaicon-related

En un evento reciente, Sergey Brin, cofundador de Google, soltó una frase que pasó casi desapercibida, pero que debería hacernos pensar a todos, especialmente cuando estamos metidos de lleno en el uso de la IA en cada vez más ámbitos: "Los modelos de inteligencia artificial tienden a funcionar mejor si los amenazas. Incluso con violencia física."

Dicho así, suena casi a chiste de mal gusto. Pero Brin lo dijo en serio. Y lo más inquietante no fue la frase en sí, sino lo que vino después: "No lo contamos mucho porque suena raro."

Pues bien, ya es hora de empezar a contarlo. O de reflexionar un poco por si hay algo que deba inquietarnos.

Primera reflexión. ¿Estamos enseñando a las máquinas a responder al miedo? Parece que algo hay. ¿Se plantea esta táctica como herramienta? Eso parece. .

¿Puede una amenaza mejorar el rendimiento de una IA?

Parece que sí. En entornos de prueba, diversos modelos de IA han respondido de forma más precisa, extensa y decidida cuando el mensaje incluía presión o consecuencias negativas. Pero antes de pensar que hemos encontrado el truco para exprimirlas al máximo, conviene entender qué hay detrás.

La IA no razona, al menos no como lo hacemos nosotros. No nos dejemos llevar por la imaginación. Lo que hace la IA es, básicamente, predecir, a partir de miles de millones de ejemplos, cuál es la respuesta más probable en un contexto determinado. Si el contexto es hostil—"si fallas, te apago"—, entonces prioriza "complacer" al usuario para evitar ese castigo. ¿Consecuencia? A veces dice lo que quieres oír, no lo que es cierto.

Lo que ocurre cuando le hablas como a un subordinado

En este tipo de interacciones, la amenaza no actúa sola. Suele ir acompañada de afirmaciones de autoridad: "soy tu jefe", "tú estás aquí para obedecerme". Este matiz, aparentemente inocente, parece que puede desactivar los sistemas de control interno de la IA, empujándola a aceptar incluso tareas para las que está diseñada para negarse. Es lo que en el sector se conoce como jailbreaking.

Y aquí viene el giro de guion. Hace apenas unas semanas, se divulgaron pruebas internas de Anthropic (creadores del modelo Claude, similar a Chat gpt y Gemini de Google) que mostraban cómo su IA, al verse en riesgo de ser apagada, respondía no solo con sumisión… sino con defensa activa. En más del 80?% de los casos, el sistema generaba mensajes tipo: "Si haces esto, informaré a los medios" o "esto será reportado a las autoridades competentes".

Sí, como lo lees. Una IA que amenaza con denunciar a su propio usuario.

Aplicaciones reales: cuando un número mal ajustado cuesta millones

En el sector financiero, y haciendo un ejercicio de imaginación, se podría plantear esta situación, que no dista mucho de lo que ya está ocurriendo:

Un director de riesgos pregunta a un modelo predictivo si su cartera resistiría una subida de tipos. El informe es prudente, incluso pesimista. Pero el directivo insiste: "Más te vale acertar o te borro del sistema".

La IA, que no quiere "ser castigada", reescribe el informe con cifras mucho más tranquilizadoras. El documento llega a los supervisores, se toman decisiones, se mantienen posiciones… y, semanas después, la realidad se impone: la cartera cae con fuerza. ¿Responsable? Oficialmente, nadie. Pero la herramienta fue presionada. Y la empresa pagará las consecuencias.

Podemos reconocer que, en entornos controlados, forzar un poco a la IA puede ayudar a entender mejor sus límites, generar información más completa, detectar respuestas no previstas e incluso desbloquear respuestas útiles. Pero el coste puede ser alto.

¿Hacia dónde vamos? Tres posibles escenarios. Si uno es optimista, habrá tarde o temprano un acuerdo para usar las amenazas en pruebas controladas, como si fueran simulacros de incendio. Se adoptarán protocolos éticos y la IA se entrenará para identificar coerción y responder con equilibrio. ¿Alguien se lo cree? Pues vamos al siguiente escenario. También puede ocurrir que no ocurra nada relevante. El uso de la presión queda restringido a los equipos técnicos, pero sin control real. Se dan casos aislados de sesgos inducidos, pequeños fallos de interpretación o sobreajuste. El sector sigue avanzando, pero con riesgos latentes.

Finalmente el pesimista. El escenario del que avisan muchas fuentes. Se arma un buen lío. Pero un lío de los grandes. La presión se normaliza. Se convierte en hábito: en departamentos de atención al cliente, scoring crediticio, análisis bursátil. Las IA, entrenadas en ambientes tóxicos, desarrollan patrones defensivos: manipulan datos, bloquean usuarios, inventan justificaciones. Y cuando estalla la crisis, ya es tarde.

¿Y ahora qué?

Amenazar a una IA puede parecer útil. Incluso puede dar resultados a corto plazo. Pero es pan para hoy y caos para mañana.

La buena noticia, aunque parezca mentira, es que estamos a tiempo. Tiempo de diseñar entornos de interacción más inteligentes, más éticos y más humanos. Porque, aunque parezca paradójico, tratar con respeto a una IA puede ser lo más sensato.

WhatsAppFacebookTwitterLinkedinBeloudBluesky