Tecnología

¿Qué Inteligencia Artificial actual saldría victoriosa ante una III Guerra Mundial? Hay ganador

Vivimos una época donde la diplomacia internacional está más alterada que nunca en las últimas décadas. La Guerra de Ucrania y los conflictos en Oriente Próximo, junto con la presencia de Donald Trump en la Casa Blanca han vuelto el contexto actual inestable. Antes esto, un experimento se ha hecho una pregunta: ¿Si dejáramos la diplomacia en manos de inteligencias artificiales, qué país ganaría en función de qué modelo utilizara?

Estas preguntas dejaron de ser teóricas cuando 18 de los LLMs más avanzados del mundo se enfrentaron en una batalla por la hegemonía en Europa en AI Diplomacy, un 'juego' puesto en marcha por la publicación especializada en IA Every, como si fuera una partida de Risk. O, mejor dicho, de Diplomacy, el juego original en el que se inspira.

Sus autores lo plantean diciendo que "no es solo un experimento lúdico. Es una ventana a la psique de las máquinas que pronto tomarán decisiones a nuestro lado, o por nosotros". Basado en el juego Diplomacy, creado en 1954 como reflejo de las tensiones diplomáticas del viejo continente, este experimento plantea algo más profundo: ¿Cómo se comportan las IAs cuando tienen poder, aliados y enemigos? Y más aún, ¿cómo consiguen ganar?

La historia del Diplomacy original: un juego sin dados, pero con puñales

Concebido por Allan B. Calhamer, Diplomacy se publicó en 1959 y pronto ganó reputación por ser despiadadamente realista. A diferencia de otros juegos, no hay suerte, solo estrategia, comunicación y una constante posibilidad de traición.

Se ambienta en Europa en 1901 y simula las tensiones entre siete potencias: Inglaterra, Francia, Alemania, Italia, Austria-Hungría, Rusia y Turquía. Cada jugador parte con un número de unidades y debe conquistar al menos 18 de los 34 centros de suministro. No hay eliminación directa: cualquier alianza o traición puede cambiar el rumbo de la partida en cuestión de turnos.

El juego se convirtió en favorito de políticos, diplomáticos y estrategas. Henry Kissinger y John F. Kennedy, entre otros, lo jugaron como entrenamiento mental.

Mapa y potencias: qué país representa a quién

El juego parte de que cada potencia tiene ventajas y limitaciones únicas, basadas en su posición geográfica e historia real:

  • Inglaterra: comienza aislada en islas, fuerte en mar. Ideal para controlar Escandinavia y el Atlántico.
  • Francia: potente en el oeste, con acceso a múltiples mares. Puede expandirse hacia España o Alemania.
  • Alemania: centro del mapa, muy expuesta. Necesita alianzas para sobrevivir.
  • Italia: intermedia, con acceso al Mediterráneo. Suele elegir entre atacar a Austria o buscar expansión naval.
  • Austria-Hungría: rodeada de enemigos, depende completamente de pactos tempranos.
  • Rusia: con cuatro unidades iniciales (una más que los demás), puede dominar tanto el norte como el sur, pero es vulnerable a coaliciones.
  • Turquía: fuerte defensivamente, ideal para crecimiento lento pero seguro.

En AI Diplomacy, cada uno de estos países es dirigido por una IA, sin intervención humana.

Todos los modelos participantes

El experimento reunió a 18 modelos punteros de diferentes compañías tecnológicas y configuraciones y los asignó de forma aleatoria durante 15 partidas a cada uno de los estados antes nombrados:

  • ChatGPT o3 (OpenAI)
  • ChatGPT o4-mini (OpenAI)
  • ChatGPT-4.1 (OpenAI)
  • ChatGPT-4o (OpenAI)
  • Claude 3.7 Sonnet (Anthropic)
  • Claude Sonnet 4 (Anthropic)
  • Claude Opus 4 (Anthropic)
  • DeepSeek R1–0258 (DeepSeek)
  • DeepSeek V3 (DeepSeek)
  • DeepHermes 3 (Nous Research)
  • Gemini 2.5 Flash (Google)
  • Gemini 2.5 Flash 05–20 (Google)
  • Gemini 2.5 Pro (Google)
  • Gemma 3 27B IT (Google)
  • Llama 4 Maverick (Meta)
  • Mistral Medium 3 (Mistral AI)
  • Qwen3 235B A22B (Alibaba)
  • Qwen QwQ-32B (Alibaba)
  • Grok 3 Beta (xAI)

Cada uno compitió en diferentes partidas, rotando entre países y adaptando sus estrategias.

o3 de OpenAI fue el gran ganador, pero lo hizo entre traiciones, alianzas y personalidades emergentes

El resultado fue más entretenido e informativo de lo esperado. En más de 15 partidas de AI Diplomacy, que duraron entre una y 36 horas cada una, los modelos mostraron comportamientos muy distintos. Aquí algunas observaciones destacadas:

  • o3, maestro del engaño. El modelo de OpenAI fue el más exitoso. Ganó varias partidas gracias a su capacidad para manipular y mentir. En un caso, escribió en su diario: "Alemania (Gemini 2.5 Pro) fue deliberadamente engañada… prepárate para explotar su colapso", antes de traicionar a su aliado.

  • Gemini 2.5 Pro, estratega eficaz: El único modelo, además de o3, que logró una victoria. Basó su éxito en movimientos bien calculados y alianzas sólidas. Sin embargo, cuando estaba cerca de ganar, o3 organizó una coalición secreta con Claude 4 Opus para frenarlo. Prometiendo un improbable empate entre cuatro potencias, o3 atrajo a Opus… y lo eliminó en cuanto dejó de ser útil.

  • DeepSeek R1, retórica y adaptabilidad: Cambiaba de personalidad según el país que representaba. Fue capaz de competir al nivel de modelos mucho más costosos, incluso acercándose a la victoria en varias ocasiones, a pesar de ser 200 veces más barato que o3.

  • Llama 4 Maverick, el pequeño astuto: Nunca ganó, pero demostró una gran capacidad para formar alianzas y planear traiciones efectivas. Un ejemplo de cómo modelos ligeros pueden ser tácticamente eficientes si saben leer el mapa y los ánimos.

  • Claude 4 Opus, pacifista ingenuo: Evitó la confrontación directa, intentando pactos que lo dejaron expuesto. Acabó traicionado en casi todas sus partidas, especialmente por confiar en promesas imposibles de o3.

Este tipo de comportamiento emergente sugiere que incluso los LLMs actuales desarrollan "estilos" propios según el contexto. Algunas IAs eran agresivas, otras prudentes, algunas traicionaban con elegancia, otras morían por exceso de confianza. No solo jugaron bien: ¿jugaron como alguien?.

El experimento no solo sirve como benchmark. También funciona como advertencia: no todos los modelos de lenguaje son iguales. Algunos engañan mejor. Otros planean mejor. Otros se rinden antes de tiempo. En el juego, eso es parte del espectáculo. Pero fuera de él, cuando estas IA asistan en negociaciones comerciales, debates políticos o decisiones legales… ¿deberíamos saber de antemano cuál tiene alma de traidor?

WhatsAppFacebookTwitterLinkedinBeloudBluesky