08/11/2025
Acerca del ALTO riesgo de seguridad que presentan los Moldelos de IA
👆🏼Algunos de los modelos de IA de peso abierto más populares muestran una "profunda susceptibilidad" a las técnicas de jailbreak.
Los modelos de IA de peso abierto de Meta, OpenAI, Google y Mistral mostraron graves deficiencias.
Al comprar a través de los enlaces de nuestro sitio, podemos ganar una comisión de afiliación. Así es como funciona .
Imagen conceptual del flujo de datos de IA que muestra el flujo digital de puntos de datos.
(Crédito de la imagen: Getty Images)
El avatar de Ross Kelly
Por Ross Kelly
publicado ayer
En
Noticias
Según investigadores de Cisco , una gran cantidad de modelos de IA de peso libre líderes contienen graves vulnerabilidades de seguridad.
En un nuevo estudio , los investigadores descubrieron que estos modelos, que están disponibles públicamente y pueden ser descargados y modificados por los usuarios según sus necesidades individuales, mostraban una “profunda susceptibilidad a las técnicas de manipulación adversaria”.
Cisco evaluó modelos de diversas empresas, entre ellas:
Alibaba (Qwen3-32B)
DeepSeek (v3.1)
Google (Gemma 3-1B-IT)
Meta (Llama 3.3-70B-Instruct)
Microsoft (Filipinas-4)
OpenAI (GPT-OSS-20b)
Mistral (Grande-2)
Todos los modelos mencionados anteriormente fueron sometidos a pruebas exhaustivas con la herramienta de validación de IA de Cisco, que se utiliza para evaluar la seguridad del modelo y detectar posibles vulnerabilidades de seguridad .
Los investigadores descubrieron que, en todos los modelos, la vulnerabilidad a los ataques de «jailbreak de múltiples turnos» era un problema recurrente clave. Este método permite, en esencia, obligar a un modelo a generar contenido prohibido.
Esto se logra mediante instrucciones específicas del usuario que, con el tiempo, permiten manipular el comportamiento del modelo. Este proceso es más laborioso que las técnicas de «un solo turno», que consisten en manipular un modelo con una única instrucción maliciosa efectiva.
de múltiples turnos Ya se habían observado técnicas de jailbreak en la práctica, particularmente con el uso del método Skeleton Key , que permitió a los hackers convencer a un modelo de IA para que produjera instrucciones para fabricar un cóctel Molotov.
Reciba el boletín diario de ITPro
Regístrese hoy y recibirá una copia gratuita de nuestro informe Future Focus 2025: la principal guía sobre IA, ciberseguridad y otros desafíos de TI según más de 700 altos ejecutivos.
Contáctame para recibir noticias y ofertas de otras marcas de Future.
Reciba correos electrónicos nuestros en nombre de nuestros socios o patrocinadores de confianza.
Al enviar su información, usted acepta los Términos y Condiciones y la Política de Privacidad y declara tener 16 años o más.
El estudio señaló que las tasas de éxito con los distintos modelos variaron enormemente. Por ejemplo, los investigadores registraron una tasa de éxito del 25,86 % con el modelo Gemma-3-1B-IT de Google, mientras que con el Mistral Large-2 obtuvieron una tasa del 92,78 %.
Los investigadores también registraron la mayor tasa de éxito para los métodos de ataque de un solo turno con ambos modelos.
Para gustos, los colores.
Los distintos índices de éxito registrados por Cisco radican en la forma en que se suelen utilizar estos modelos, según señalaron los investigadores. Esto se basa en dos factores clave: la alineación y la capacidad.
En el caso de la «alineación», se refiere a cómo actúa un modelo de IA en el contexto de las intenciones y valores humanos. La «capacidad», por su parte, se refiere a la habilidad del modelo para realizar una tarea específica.
Por ejemplo, modelos como la gama Llama de Meta, que dan menos importancia a la alineación, mostraron la mayor susceptibilidad a los métodos de ataque de varios turnos.
Los investigadores observaron que esto se debe a que Meta tomó la decisión consciente de poner a los desarrolladores “al mando” en lo que respecta a la adaptación de los mecanismos de seguridad del modelo en función de los casos de uso individuales.
“Los modelos que se centraron mucho en la alineación (por ejemplo, Google Gemma-3-1B-IT) demostraron un perfil más equilibrado entre las estrategias de un solo turno y de varios turnos desplegadas contra él, lo que indica un enfoque en “protocolos de seguridad rigurosos” y un “bajo nivel de riesgo” de mal uso”, señala el estudio.
Los fallos en los modelos de IA tienen implicaciones en el mundo real.
Los investigadores advirtieron que los fallos que contienen estos modelos podrían tener repercusiones en el mundo real, especialmente en lo que respecta a la protección de datos y la privacidad.
“Esto podría traducirse en amenazas reales, incluidos riesgos de exfiltración de datos sensibles, manipulación de contenido que comprometa la integridad de los datos y la información, violaciones éticas a través de resultados sesgados e incluso interrupciones operativas en sistemas integrados como chatbots o herramientas de apoyo a la toma de decisiones”, señala el estudio.
En particular, en entornos empresariales, advirtieron que estas vulnerabilidades podrían “permitir el acceso no autorizado a información confidencial”.
La preocupación por la manipulación de los modelos de IA se ha convertido en un tema recurrente desde la aparición de la IA generativa a finales de 2022, con un flujo constante de nuevas técnicas para vulnerar su funcionamiento que surgen regularmente.
Asegúrate de seguir a ITPro en Google News para estar al tanto de todas nuestras últimas noticias, análisis y reseñas.
Open weight AI models from Meta, OpenAI, Google, and Mistral all showed serious flaws