Anthropic desafía a los usuarios a hackear su nuevo modelo de IA 🔓🤖

La empresa Anthropic, creadora del modelo Claude, ha lanzado una nueva protección llamada Constitutional Classifier, diseñada para bloquear intentos de jailbreak en su IA. Ahora, está retando al público a intentar hackear su sistema y encontrar vulnerabilidades.
¿Cómo funciona el nuevo sistema de seguridad?
✅ Define reglas claras sobre lo que la IA puede y no puede responder.
🔍 Genera miles de intentos sintéticos de jailbreak para entrenar los filtros.
🚫 Bloquea contenido prohibido en tiempo real, deteniendo respuestas peligrosas.
¿Es realmente invulnerable?
Desde agosto, Anthropic ha probado su sistema con un bug bounty de $15.000, donde expertos intentaron romper las restricciones. Los resultados:
- 🛡️ El 95% de los intentos fueron bloqueados con éxito.
- ⚠️ Un 23.7% más de consumo de recursos en comparación con el modelo sin protección.
- 🔍 Algunas preguntas inofensivas también fueron bloqueadas por error.
Ahora es tu turno de intentarlo 🚀
Hasta el 10 de febrero, los usuarios pueden intentar burlar las restricciones en el sitio de prueba de Anthropic. La empresa promete analizar los resultados y mejorar su seguridad con los nuevos jailbreaks descubiertos.
📌 Fuente: Ars Technica