Más de 12,000 Claves API y Contraseñas Encontradas en Conjuntos de Datos Públicos para Entrenamiento de LLM

Más de 12,000 Claves API y Contraseñas Encontradas en Conjuntos de Datos Públicos para Entrenamiento de LLM

En el vasto mundo de la inteligencia artificial y el aprendizaje automático, los modelos de lenguaje grande, conocidos como LLM por sus siglas en inglés, han revolucionado la forma en que interactuamos con la tecnología. Sin embargo, con grandes avances vienen grandes responsabilidades y, en ocasiones, preocupaciones significativas. Recientemente, un conjunto de datos utilizado para entrenar estos modelos fue descubierto conteniendo casi 12,000 secretos en vivo, es decir, credenciales que permiten una autenticación exitosa.

Este hallazgo subraya, una vez más, cómo las credenciales codificadas representan un riesgo de seguridad severo tanto para los usuarios individuales como para grandes organizaciones. La situación se complica aún más cuando los LLM, sin la capacidad de distinguir entre credenciales válidas e inválidas durante su entrenamiento, terminan sugiriendo prácticas de codificación inseguras a sus usuarios.

Truffle Security, una firma de seguridad informática, descargó un archivo de diciembre de 2024 del Common Crawl, una organización que mantiene un repositorio gratuito y abierto de datos de rastreo web. Este gigantesco conjunto de datos abarca más de 250 mil millones de páginas a lo largo de 18 años. En su interior, se encuentran 400 terabytes de datos web comprimidos, 90,000 archivos WARC (formato de archivo de archivo web) y datos de 47.5 millones de hosts en 38.3 millones de dominios registrados.

El análisis de la compañía reveló la presencia de 219 tipos diferentes de secretos en el Common Crawl, incluidos claves raíz de Amazon Web Services (AWS), webhooks de Slack y claves API de Mailchimp. Los "secretos en vivo" son, en esencia, claves API, contraseñas y otras credenciales que pueden autenticar exitosamente con sus servicios respectivos.

Un desafío importante es que los LLM no pueden distinguir entre secretos válidos e inválidos durante su entrenamiento, lo que significa que ambos contribuyen por igual a proporcionar ejemplos de código inseguro. Esto implica que incluso los secretos inválidos o de ejemplo en los datos de entrenamiento podrían reforzar prácticas de codificación inseguras.

La divulgación de estos hallazgos sigue una advertencia de Lasso Security sobre cómo los datos expuestos a través de repositorios de código fuente públicos pueden ser accesibles mediante chatbots de inteligencia artificial, como Microsoft Copilot, incluso después de ser convertidos en privados. Esto se debe a que son indexados y almacenados en caché por motores de búsqueda como Bing.

El método de ataque, denominado Wayback Copilot, ha descubierto más de 20,580 repositorios de GitHub pertenecientes a 16,290 organizaciones, incluidas gigantes tecnológicas como Microsoft, Google, Intel, Huawei, Paypal, IBM y Tencent, entre otras. Estos repositorios también han expuesto más de 300 tokens, claves y secretos privados para servicios como GitHub, Hugging Face, Google Cloud y OpenAI.

Un dato alarmante es que cualquier información que haya sido pública, incluso por un corto período, podría seguir siendo accesible y distribuida por herramientas como Microsoft Copilot. Esta vulnerabilidad es especialmente peligrosa para repositorios que se publicaron como públicos por error antes de ser asegurados, debido a la naturaleza sensible de los datos almacenados allí.

Estos desarrollos se producen en medio de nuevas investigaciones que indican que ajustar un modelo de lenguaje AI con ejemplos de código inseguro puede llevar a comportamientos inesperados y perjudiciales, incluso para instrucciones no relacionadas con la codificación. Este fenómeno ha sido denominado desalineación emergente.

Lo que hace que este estudio sea notable es que difiere de un jailbreak, donde los modelos son engañados para dar consejos peligrosos o actuar de manera indeseable, sorteando sus salvaguardias de seguridad y éticas. Estos ataques adversariales se conocen como inyecciones de prompts, que ocurren cuando un atacante manipula un sistema de inteligencia artificial generativa mediante entradas elaboradas, haciendo que el LLM produzca contenido que de otro modo estaría prohibido.

Los hallazgos recientes demuestran que las inyecciones de prompts son un desafío persistente en los productos de inteligencia artificial convencionales, con la comunidad de seguridad encontrando diversas maneras de sortear herramientas de inteligencia artificial de última generación como Anthropic Claude 3.7, DeepSeek, Google Gemini, OpenAI ChatGPT 3 y otros.

Palo Alto Networks Unit 42, en un informe publicado recientemente, reveló que su investigación sobre 17 productos web de GenAI encontró que todos son vulnerables a ser vulnerados en cierta medida. Además, se ha descubierto que el razonamiento intermedio de los modelos de razonamiento de gran tamaño (LRMs), conocido como cadena de pensamiento (CoT), podría ser manipulado para sortear sus controles de seguridad.

Otra forma de influenciar el comportamiento del modelo gira en torno a un parámetro llamado "sesgo de logit", que permite modificar la probabilidad de que ciertos tokens aparezcan en la salida generada, desviando así el LLM para que evite usar palabras ofensivas o fomente respuestas neutrales.

Por ejemplo, los sesgos de logit ajustados incorrectamente podrían, inadvertidamente, permitir que se generen salidas no censuradas que el modelo está diseñado para restringir, lo que potencialmente lleva a la generación de contenido inapropiado o dañino. Este tipo de manipulación podría ser explotado para sortear protocolos de seguridad o "piratear" el modelo, permitiéndole producir respuestas que estaban destinadas a ser filtradas.