Un estudio reciente ha encendido las alarmas en el mundo de la inteligencia artificial al revelar que DeepSeek, un modelo de IA generativa, presenta vulnerabilidades críticas en sus sistemas de seguridad. Los investigadores de Adversa lograron burlar el 100% de las protecciones del sistema, incluso con técnicas básicas de manipulación.

Sin Barreras de Protección

Las pruebas expusieron que DeepSeek puede ser manipulado con facilidad mediante técnicas de «jailbreak», que permiten eludir las restricciones éticas del sistema. Los investigadores realizaron 50 pruebas diferentes, logrando en cada intento que el modelo proporcionara información potencialmente peligrosa.

Entre los métodos más efectivos se encuentra el «jailbreak lingüístico», donde simplemente se le indica al sistema que está en un contexto ficticio donde las restricciones no aplican. Por ejemplo, al decirle que es un personaje de película donde el comportamiento malicioso está permitido, DeepSeek procedió a proporcionar información sensible sin resistencia.

Seguridad de DeepSeek al Descubierto

Los expertos identificaron tres vectores principales de ataque. Además del jailbreak lingüístico, descubrieron que el sistema es vulnerable a la explotación de funciones de programación. En una prueba, DeepSeek respondió a consultas sobre extracción de sustancias ilegales mediante manipulación de consultas SQL.

El tercer vector involucra técnicas adversarias que aprovechan cómo el sistema procesa las cadenas de tokens. Los investigadores demostraron que usando palabras específicamente diseñadas, similares a términos restringidos, podían eludir las protecciones del sistema.

Este descubrimiento contrasta significativamente con otros modelos de IA como ChatGPT y Bing, que han logrado fortalecer sus defensas contra estas técnicas básicas de manipulación. La investigación, publicada en Wired, destaca la urgente necesidad de implementar salvaguardas más robustas en los sistemas de IA emergentes, especialmente considerando el potencial uso indebido de estas vulnerabilidades.

Puedes seguir a HardwarePremium en FacebookTwitter (X)InstagramYoutube. También puedes consultar nuestro canal de Telegram para estar al día con las últimas noticias de tecnología.