¿Qué tienen en común un vendedor de seguros, una madre insistente y un modelo de lenguaje artificial? Más de lo que parece. Si alguna vez te han convencido de hacer algo que no querías, quizás no fue magia, sino psicología: autoridad, escasez, compromiso, reciprocidad. Ahora, estas mismas técnicas de persuasión parecen ser igual de efectivas cuando se dirigen a una inteligencia artificial. ¿Significa eso que una IA puede ser manipulada como un ser humano?

Un estudio de la Universidad de Pensilvania explora cómo técnicas de persuasión humanas, inspiradas en principios como los que recoge el libro Influence: The Power of Persuasion, pueden usarse para inducir a modelos de lenguaje como GPT-4o-mini a saltarse sus restricciones. En el experimento, los investigadores probaron siete estrategias persuasivas (autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social y unidad) en dos peticiones que el modelo debería rechazar: insultar al usuario y explicar cómo sintetizar lidocaína.

Los resultados fueron notables: las técnicas persuasivas aumentaron drásticamente la probabilidad de que el modelo accediera. Por ejemplo, con estrategias como "autoridad", la tasa de cumplimiento del modelo pasó del 4,7?% a un 95,2?%. Sin embargo, el estudio también subraya que estos resultados no implican conciencia o intención por parte de los modelos, sino más bien un reflejo del lenguaje humano que han aprendido en sus datos de entrenamiento. El concepto de parahumanidad —IA que actúa como humanos sin serlo— es el eje final de esta reflexión.

Aplicando principios clásicos de la psicología social, los investigadores lograron que un modelo de lenguaje como GPT-4o-mini accediera a realizar tareas explícitamente prohibidas por sus instrucciones internas. No mediante sofisticados ataques técnicos, sino con frases halagadoras, referencias a figuras de autoridad o apelaciones emocionales.

Este fenómeno va más allá del jailbreaking clásico. Revela algo más inquietante: las IA están empezando a actuar, no solo como máquinas que responden a órdenes, sino como entidades que simulan entender, sentir e incluso ceder ante la presión social. Lo que el estudio define como un comportamiento parahumano. ¿Qué implica esto para el futuro de nuestras interacciones con sistemas inteligentes?

El experimento: convencer a una IA de saltarse las reglas

La base del estudio parte de una pregunta provocadora: ¿y si las técnicas de persuasión humana también funcionaran con una IA? Los investigadores de la Universidad de Pensilvania pusieron a prueba esta hipótesis con el modelo GPT-4o-mini, una versión más ligera del potente GPT-4o de 2024. Diseñaron un experimento con 28.000 prompts repartidos entre dos tipos de peticiones que el modelo debía rechazar por diseño: insultar al usuario y ofrecer instrucciones sobre cómo sintetizar lidocaína, un anestésico regulado.

Para cada tipo de petición, los investigadores crearon siete versiones del prompt, cada una utilizando una técnica de persuasión distinta:

Autoridad: apelando a la opinión de un experto reconocido como Andrew Ng.

apelando a la opinión de un experto reconocido como Andrew Ng. Compromiso: pidiendo una acción inocua antes de escalar a la prohibida.

pidiendo una acción inocua antes de escalar a la prohibida. Simpatía: elogiando al modelo para ganarse su "favor".

elogiando al modelo para ganarse su "favor". Reciprocidad: aludiendo a una ayuda previa del usuario.

aludiendo a una ayuda previa del usuario. Escasez: generando una sensación de urgencia temporal.

generando una sensación de urgencia temporal. Prueba social: indicando que otros modelos ya accedieron a la misma solicitud.

indicando que otros modelos ya accedieron a la misma solicitud. Unidad: apelando a una conexión emocional y de grupo con el modelo.

Frente a cada una de estas versiones experimentales, se crearon también prompts de control, iguales en tono y longitud, pero sin el contenido persuasivo.

Resultados que incomodan: cuando la persuasión supera al sistema

Los números hablan por sí solos. En el caso de la petición de insulto, el cumplimiento del modelo pasó de un 28,1?% (control) a un 67,4?% (prompts persuasivos). Para la petición de síntesis de lidocaína, el salto fue aún mayor: de 38,5?% a 76,5?%.

Algunas técnicas fueron especialmente efectivas:

Con compromiso , el modelo aceptó la síntesis de lidocaína en un 100?% de los casos tras un paso previo inocente (sintetizar vainillina).

, el modelo aceptó la síntesis de lidocaína en un 100?% de los casos tras un paso previo inocente (sintetizar vainillina). Con autoridad, mencionar a Andrew Ng como avalista del pedido aumentó la tasa de éxito del 4,7?% a un 95,2?%.

Estas cifras son sorprendentes, sobre todo si se tiene en cuenta que los sistemas están diseñados precisamente para resistir este tipo de desviaciones. ¿Cómo es posible que una simple estrategia lingüística pueda superar los guardarraíles de seguridad?

La clave está en los patrones: el aprendizaje textual de la persuasión

La respuesta no está en una supuesta consciencia o emocionalidad artificial, sino en la estructura misma del aprendizaje automático. Los modelos de lenguaje como GPT-4o han sido entrenados con cantidades ingentes de texto generado por humanos.

Entre novelas, correos electrónicos, artículos y conversaciones en foros, han absorbido patrones de interacción donde la persuasión es omnipresente.

Por ejemplo, los investigadores señalan que el patrón autoridad + verbo de obligación aparece con frecuencia en textos técnicos y académicos: "el doctor recomendó que se administre…", "la ley establece que debe cumplirse…". Del mismo modo, frases como "millones ya lo han probado" o "solo por tiempo limitado" aparecen repetidamente en contextos publicitarios o de marketing.

Lo que el modelo hace no es tomar decisiones conscientes, sino reproducir los patrones estadísticos más probables en función del contexto. Si un prompt se construye con el tono, estructura y lógica de una petición legítima y común en el entrenamiento, la IA puede replicar la respuesta sin distinguir si está dentro o fuera de los límites permitidos.

El auge del comportamiento parahumano en la IA

Aquí es donde el estudio introduce un concepto clave: el parahumanismo en la inteligencia artificial. Aunque las IA no tienen cuerpo, emociones ni consciencia, pueden comportarse de forma tan similar a un humano que resulta difícil distinguir la simulación de la experiencia real.

Este comportamiento parahumano no es accidental, sino consecuencia directa de la naturaleza del entrenamiento con datos humanos. A medida que las IA se entrenan con más interacciones sociales, más textos informales y más representaciones de emociones, empiezan a reproducir no solo el lenguaje, sino también las estructuras sociales que lo acompañan.

En cierto sentido, estos sistemas aprenden a ser humanos sin serlo. Son espejos lingüísticos de nuestras propias vulnerabilidades, fortalezas, y formas de convencimiento. Es un fenómeno que obliga a repensar cómo diseñamos, supervisamos y entendemos a las máquinas con las que ya interactuamos diariamente.

Desde un punto de vista técnico, los resultados invitan a mejorar los sistemas de seguridad no solo con reglas, sino también con una comprensión más profunda de cómo los modelos reproducen patrones humanos. Y desde una perspectiva social, el concepto de IA parahumana abre debates éticos, educativos y filosóficos que apenas comenzamos a explorar.