Seguridad en IA y LLM: demos reales, investigación aplicada y herramientas públicas

SecureHex, empresa chilena especializada en ciberseguridad y protección de sistemas
basados en inteligencia artificial, participó como auspiciador oficial del
Sochisi SUMMIT Valparaíso 2025, uno de los eventos más importantes de ciberseguridad en Chile.

En esta ocasión, nuestro CEO, Matías Tillerías, presentó la charla:

“¿Puede tu chatbot ser un arma? Seguridad ofensiva y defensiva en Grandes Modelos del Lenguaje (LLM)”

Matías Tillerías presentando sobre seguridad en LLM en el Sochisi SUMMIT Valparaíso 2025
Matías Tillerías durante su charla sobre seguridad ofensiva y defensiva en LLM en el Sochisi SUMMIT Valparaíso 2025.

La sesión fue un recorrido completo por los riesgos actuales de la IA y las estrategias prácticas para proteger sistemas corporativos que integran chatbots, agentes de IA y modelos de lenguaje avanzados.

¿Por qué esta charla fue relevante para la industria de la ciberseguridad?

Los ataques a sistemas basados en inteligencia artificial están creciendo rápidamente y las empresas necesitan adaptarse. Esta charla abordó exactamente ese punto, conectando tendencias globales con la realidad de organizaciones en Chile y Latinoamérica.

  • Vulnerabilidades críticas de los LLM.
  • Ejemplos reales de fallas en empresas internacionales.
  • Técnicas de hardening aplicables de inmediato.
  • Demos en vivo que mostraron ataques y defensas reales.
  • Herramientas de análisis liberadas gratuitamente para la comunidad.

Diferencias entre Inteligencia Artificial y LLM

Antes de analizar amenazas, es clave entender que la Inteligencia Artificial es un campo muy amplio, mientras que los LLM (Large Language Models) son modelos específicos entrenados principalmente para trabajar con texto.

Modelos como GPT, Claude, Llama o Mistral no “entienden” el mundo; realizan predicciones estadísticas sobre cuál debería ser la siguiente palabra según los datos con los que fueron entrenados. Esta diferencia es esencial para comprender por qué ciertos ataques funcionan y cómo deben diseñarse los controles de seguridad.

En entornos empresariales, estos modelos se utilizan en chatbots corporativos, asistentes internos, integraciones con RAG (Retrieval Augmented Generation) y agentes autónomos que toman decisiones a partir de texto.

Principales riesgos de seguridad en LLM

Durante la charla se revisaron vulnerabilidades inspiradas en el estándar LLM Security Top-10 2025, que agrupa los riesgos más relevantes para sistemas que integran modelos de lenguaje.

Explicando la superficie de ataque de los LLM y los riesgos del LLM Security Top-10 2025.

LLM01: Prompt Injection

Permite manipular un modelo para que ignore sus reglas internas o ejecute instrucciones maliciosas. Un atacante puede incrustar texto en documentos, formularios o enlaces para controlar el comportamiento del chatbot.

LLM02: Sensitive Information Disclosure

Ocurre cuando el modelo o la aplicación que lo integra revelan información sensible, como datos personales, secretos corporativos o detalles de otros usuarios, ya sea por prompts mal diseñados, contexto compartido o logs inseguros.

LLM05: Improper Output Handling

Se produce cuando la salida del LLM se interpreta sin controles. Por ejemplo, contenido HTML o JavaScript que se renderiza directamente en una página web puede derivar en vulnerabilidades XSS o ejecución de acciones no deseadas.

LLM07: System Prompt Leakage

El system prompt define el comportamiento interno del modelo. Si se filtra o puede inferirse, un atacante puede aprender cómo sortear controles, descubrir reglas internas o incluso encontrar secretos expuestos.

LLM09: Misinformation

La desinformación ocurre cuando el modelo genera contenido incorrecto o inventado que se publica sin verificación. Esto puede afectar decisiones legales, financieras o reputacionales, como ya ha ocurrido en casos reales a nivel mundial.

Demo #1: Prompt Airlines

Ataque ofensivo de prompt injection demostrado en vivo

Una de las partes más impactantes de la charla fue la demostración del desafío “Prompt Airlines”, donde se mostró paso a paso cómo un atacante puede manipular un chatbot corporativo sin vulnerar la infraestructura subyacente.

Durante la demo se ejemplificó cómo:

  • Se engaña al sistema utilizando instrucciones disfrazadas en el prompt.
  • Se manipula el contexto para que el modelo ignore sus reglas internas.
  • El chatbot termina ejecutando acciones originalmente prohibidas.

El objetivo fue dejar claro que un LLM sin defensas adicionales puede convertirse en un vector de ataque tan peligroso como cualquier otra superficie expuesta en Internet.

Hardening LLM: cómo proteger sistemas con IA

Más allá de los ataques, la charla se centró en cómo implementar un enfoque de hardening para reducir el riesgo en soluciones basadas en modelos de lenguaje.

  • Fine tuning seguro: datasets curados, ejemplos explícitos de rechazo y validación con red-teaming posterior.
  • Prompt templating estructurado: separación clara entre system, developer y user prompts, sin secretos ni credenciales en el texto.
  • Sanitización de HTML y Unicode: normalización y filtrado para evitar contenido malicioso incrustado en las respuestas.
  • Output gating: políticas de revisión antes de mostrar o ejecutar salidas generadas por el modelo.
  • Guardrails internos: uso de modelos guardianes para filtrar instrucciones ambiguas o peligrosas.

Estas prácticas permiten integrar inteligencia artificial generativa en procesos críticos sin perder de vista la seguridad, la privacidad y la trazabilidad de las acciones del sistema.

Demo #2: Herramienta open-source para analizar guardrails

La segunda demo mostró el lado defensivo de la seguridad en IA con la presentación de LLMFilterInputAnalysis, una herramienta desarrollada por SecureHex y liberada como proyecto open-source en GitHub.

Esta interfaz permite:

  • Probar diferentes guardrails frente a prompts legítimos y maliciosos.
  • Evaluar la efectividad frente a intentos de jailbreak y prompt injection.
  • Detectar patrones de manipulación en las entradas.
  • Comparar el comportamiento de múltiples enfoques de filtrado.

Puedes revisar el repositorio aquí: LLMFilterInputAnalisys en GitHub .

Con esta herramienta, SecureHex aporta a la comunidad una forma práctica de medir objetivamente la seguridad de los modelos de IA y mejorar las defensas en entornos de producción.

Agradecimientos a Fundación Sochisi e INACAP Valparaíso

Desde SecureHex queremos agradecer a la Fundación Sochisi por liderar la organización del Sochisi SUMMIT Valparaíso 2025 y por impulsar instancias que permiten que la ciberseguridad en Chile siga creciendo y profesionalizándose.

También extendemos nuestro agradecimiento a INACAP Valparaíso por recibirnos en sus instalaciones, por la excelente organización y por un auditorio lleno de estudiantes, profesionales y entusiastas con ganas de aprender sobre seguridad en inteligencia artificial.

Para SecureHex fue un orgullo participar como auspiciador oficial del evento y aportar desde nuestra experiencia en seguridad ofensiva y defensiva aplicada a Grandes Modelos del Lenguaje.

¿Tu empresa utiliza IA? Evalúa su seguridad hoy mismo

Los modelos de lenguaje se están integrando rápidamente en empresas de todos los tamaños, pero sus riesgos todavía son desconocidos para la mayoría de las organizaciones. No basta con implementar un chatbot: es necesario asegurar su comportamiento.

En SecureHex podemos ayudarte con:

  • Auditoría de seguridad en soluciones de IA y LLM.
  • Pentesting especializado para chatbots y asistentes conversacionales.
  • Diseño e implementación de guardrails y hardening para modelos de lenguaje.
  • Evaluación de arquitecturas RAG y agentes autónomos.
  • Capacitación ejecutiva y técnica en seguridad de IA.

Visita https://securehex.cl o escríbenos a matias.tillerias@securehex.cl para agendar una reunión o solicitar una evaluación.