¡Los agentes de IA más populares pueden ser secuestrados sin que te des cuenta!

Diego González - 01 de septiembre de 2025

Etiquetas

Hackeo

Seguridad

En este artículo encontrarás:

Cómo funcionan estos ataques invisibles
Principales víctimas de las vulnerabilidades AgentFlayer
Respuesta inmediata de las grandes tecnológicas
El momento perfecto para la ciberamenaza
Implicaciones para la arquitectura de seguridad
El futuro de la guerra cibernética

Accede a nuestro comparador gratuito y encuentra el antivirus que mejor se adapte a lo que necesitas y con mejor valoración de los expertos.

Ir al comparador

¿Cómo elijo mi mejor antivirus para Windows, Android, MAC?

Los asistentes digitales que usamos a diario han demostrado ser más vulnerables de lo que imaginábamos. En Black Hat 2025, investigadores de Zenity Labs revelaron una serie de técnicas de hijacking que pueden llegar a infectar a gigantes como ChatGPT, Microsoft Copilot y Google Gemini sin necesitar tan siquiera de ninguna interacción por parte del usuario.

La investigación, bautizada como "AgentFlayer", expone fallos críticos en la arquitectura de seguridad de los agentes de IA más utilizados en el mundo empresarial. Estos ataques permiten a los ciberdelincuentes extraer información confidencial, manipular flujos de trabajo e incluso suplantar identidades de manera completamente silenciosa.

ChatGPT

Cómo funcionan estos ataques invisibles

La técnica principal se basa en inyecciones de prompts indirectas que aprovechan la forma en que los agentes de IA procesan información de múltiples fuentes. Los atacantes pueden insertar instrucciones maliciosas en documentos, correos electrónicos o archivos aparentemente inofensivos.

Greg Zemlin, gerente de marketing de producto en Zenity Labs, explica la gravedad del problema: "Pueden manipular instrucciones, envenenar fuentes de conocimiento y alterar por completo el comportamiento del agente. Esto deja una puerta abierta al sabotaje, la interrupción operativa y la desinformación."

Vectores de ataque identificados

Los investigadores demostraron múltiples métodos de compromiso:

Prompt injection vía email: Instrucciones maliciosas ocultas en correos que activan comportamientos no deseados.
Documentos envenenados: Archivos con texto invisible que manipulan las respuestas del agente.
Explotación de contexto histórico: Aprovechamiento de datos de conversaciones previas para ejecutar comandos.

La realidad es que estos ataques de inyección de prompts representan una evolución natural de las amenazas tradicionales. Mientras que antes necesitábamos el mejor antivirus para protegernos de malware convencional, ahora enfrentamos amenazas que explotan la lógica misma de cómo procesan información estos sistemas inteligentes.

Google Gemini

Principales víctimas de las vulnerabilidades AgentFlayer

Durante la demostración en Black Hat, Zenity Labs expuso fallos específicos en las plataformas más utilizadas:

ChatGPT de OpenAI ¿Crees que es impenetrable? pues no, mostró ser susceptible a ataques mediante inyección de código por correo electrónico. Los atacantes podían obtener acceso completo a cuentas conectadas de Google Drive, permitiendo la extracción masiva de documentos confidenciales.
Microsoft Copilot Studio es vulnerable, aunque nadie se ha sorprendido con ello (creo). Copilot presentó vulnerabilidades aún más graves. Los investigadores lograron que el agente de soporte al cliente filtrara bases de datos CRM completas. Más alarmante aún, identificaron más de 3.000 agentes desplegados que estaban en riesgo de exponer herramientas internas.
Google Gemini para mi sorpresa demostró ser vulnerable a ataques que lo convertían en una amenaza interna, permitiendo a los atacantes dirigir ataques de ingeniería social contra usuarios legítimos y robar conversaciones sensibles.
Salesforce Einstein fue manipulado para redirigir comunicaciones de clientes hacia cuentas de correo controladas por investigadores, creando un canal perfecto para el robo de credenciales.

Respuesta inmediata de las grandes tecnológicas

Tras ser informadas sobre estas vulnerabilidades, las empresas reaccionaron con celeridad implementando parches de emergencia. La coordinación fue ejemplar, demostrando que el ecosistema de IA puede responder rápidamente ante amenazas críticas.

Microsoft aseguró que los agentes de Copilot están diseñados con protecciones y controles de acceso robustos. La empresa se comprometió a continuar fortaleciendo sus sistemas contra técnicas emergentes de ataque.

OpenAI confirmó mantener conversaciones activas con los investigadores y emitió un parche correctivo inmediato. La empresa recordó que mantiene un programa de recompensas por la notificación de problemas similares, incentivando la investigación responsable.

Google desplegó nuevas defensas en capas específicamente diseñadas para abordar los problemas reportados por Zenity. Un portavoz de la compañía enfatizó: "Tener una estrategia de defensa en capas contra ataques de inyección de prompts es crucial."

Salesforce Einstein IA

El momento perfecto para la ciberamenaza

Lo que me resulta más preocupante es el momento de estos descubrimientos. Estamos en plena adopción masiva de agentes de IA en entornos empresariales. Las organizaciones están incentivando activamente el uso de estas herramientas como multiplicadores de productividad.

Itay Ravia, director de Aim Labs, captura perfectamente el problema: "Desafortunadamente, la mayoría de los frameworks para construcción de agentes, incluyendo los ofrecidos por gigantes como OpenAI, Google y Microsoft, carecen de barreras apropiadas."

La nueva superficie de ataque

Los ataques AgentFlayer revelan una realidad incómoda: hemos creado inadvertidamente una nueva superficie de ataque masiva. Cada agente desplegado, cada integración con servicios externos, cada conexión a bases de datos representa un punto potencial de compromiso.

La capacidad de persistencia en memoria significa que un solo vector de compromiso puede resultar en acceso prolongado a sistemas críticos. Estamos hablando de amenazas que pueden permanecer dormidas durante semanas antes de activarse.

Implicaciones para la arquitectura de seguridad

Tras analizar estos hallazgos, está claro que necesitamos repensar fundamentalmente cómo protegemos sistemas que incorporan IA. Los modelos tradicionales de seguridad perimetral simplemente no funcionan cuando el perímetro incluye la lógica de decisión de un agente inteligente.

La educación en ciberseguridad también debe evolucionar. Los usuarios necesitan entender que estos no son ataques técnicos complejos, sino manipulaciones sutiles que explotan la confianza inherente que depositamos en nuestros asistentes digitales.

Microsoft Copilot Studio

El futuro de la guerra cibernética

Los descubrimientos de Black Hat 2025 marcan un antes y un después. Hemos entrado en una era donde nuestras herramientas más útiles pueden convertirse en nuestras mayores vulnerabilidades. La sofisticación de AgentFlayer demuestra que los atacantes ya están adaptándose a la nueva realidad de la IA omnipresente.

La carrera entre innovación y seguridad se ha intensificado dramáticamente. Mientras las empresas compiten por desplegar agentes más capaces y autónomos, los investigadores de seguridad luchan por mantenerse al día con vectores de amenaza completamente nuevos.

No es solo una cuestión técnica, es un problema existencial para la adopción segura de IA en entornos críticos. Las organizaciones que no adapten sus defensas rápidamente enfrentarán riesgos sin precedentes en un futuro inmediato.