Anthropic desafía a los usuarios a hackear su nuevo modelo de IA 🔓🤖

Anthropic desafía a los usuarios a hackear su nuevo modelo de IA 🔓🤖

La empresa Anthropic, creadora del modelo Claude, ha lanzado una nueva protección llamada Constitutional Classifier, diseñada para bloquear intentos de jailbreak en su IA. Ahora, está retando al público a intentar hackear su sistema y encontrar vulnerabilidades.

¿Cómo funciona el nuevo sistema de seguridad?

Define reglas claras sobre lo que la IA puede y no puede responder.
🔍 Genera miles de intentos sintéticos de jailbreak para entrenar los filtros.
🚫 Bloquea contenido prohibido en tiempo real, deteniendo respuestas peligrosas.

¿Es realmente invulnerable?

Desde agosto, Anthropic ha probado su sistema con un bug bounty de $15.000, donde expertos intentaron romper las restricciones. Los resultados:

  • 🛡️ El 95% de los intentos fueron bloqueados con éxito.
  • ⚠️ Un 23.7% más de consumo de recursos en comparación con el modelo sin protección.
  • 🔍 Algunas preguntas inofensivas también fueron bloqueadas por error.

Ahora es tu turno de intentarlo 🚀

Hasta el 10 de febrero, los usuarios pueden intentar burlar las restricciones en el sitio de prueba de Anthropic. La empresa promete analizar los resultados y mejorar su seguridad con los nuevos jailbreaks descubiertos.

📌 Fuente: Ars Technica