TIC Defense te informa cómo los hackers maliciosos leen tus chats de ChatGPT o de Microsoft Copilot
Investigadores de la firma Offensive AI Lab publicaron un artículo describiendo un método para poder restaurar el texto de los mensajes de chatbots de inteligencia artificial interceptados. Por esta alarmante razón, TIC Defense te dice cómo funciona este ataque y lo peligroso que puede ser en estos momentos.
Generalmente y como norma, los chatbots envían mensajes de manera cifrada. Del mismo modo, la implementación de grandes modelos de lenguaje (LLM) y los chatbots basados en esta tecnología, almacenan una serie de funciones que han debilitado sustancialmente el cifrado. Cuando se combinan, estas funcionalidades permiten llevar a cabo ataques de cana lateral, cuando el contenido de un mensaje es restaurado, a partir de fragmentos de información que se filtran.
Para que comprendas lo que pasa durante este tipo de ataque, TIC Defense profundiza un poco en los detalles del LLM y en el funcionamiento de los chatbots. En primer lugar, los LLM no funcionan con caracteres individuales o con palabras propiamente dichas. Su funcionamiento se basa en tokens, en lo que puede describirse como unidades semánticas de texto.
Si echas un vistazo a la página Tokenizar en la página oficial de OpenAI, puedes visualizar su funcionamiento interno. Igualmente, si has interactuado con chatbots basados en inteligencia artificial, puedes conocer la segunda función que facilita este tipo de ataque: los chatbots no envían respuestas largas, sino de forma gradual, pareciendo que una persona estuviese escribiendo dichas respuestas.
Los LLM escriben en tokens y no en caracteres individuales, es decir, que los chatbots envían tokens que son generados en tiempo real y uno tras otro. Tal y como la mayoría de chatbots lo hacen. La excepción a esta regla es Google Gemini, siendo este chatbot invulnerable a este tipo de ciberataque.
Además, otra peculiaridad presente es que la mayoría de los chatbots no usaban compresión, codificación o relleno, que es lo mismo que la incorporación de datos basura a un texto importante, para aumentar su fuerza criptográfica y reducir su previsibilidad. Esto debería hacerlo antes de cifrar un mensaje.
Pues bien, los ataques de cana lateral aprovechan los tres aspectos antes mencionados. Aunque los mensajes de chatbot interceptados no se pueden descifrar, los hackers maliciosos pueden extraer datos útiles de los mismos. Específicamente, pueden saber la longitud de cada token enviado por algún chatbot.
Después, lo que resta es que los atacantes adivinen qué palabras se esconden detrás de estos tokens. Ahora bien, ¿puedes adivinar quiénes son realmente buenos para adivinar? Sí, los mismos LLM. Incluso, esta es su función principal: poder adivinar las palabras correctas en un contexto dado. Por ello, para restaurar el resto del mensaje original, partiendo de la secuencia resultante de la longitud de los tokens, los expertos han recurrido a los LLM.
Los investigadores han observado que los primeros mensajes en las conversaciones con chatbots, casi siempre siguen una fórmula concreta. Por lo tanto, pueden adivinarse por medio de un modelo entrenado con una variedad de mensajes introductorios, generados por modelos de lenguaje populares. De esta forma, el primer modelo se emplea para restaurar los mensajes introductorios y un segundo modelo se encarga del resto de la conversación.
Hasta los momentos, Cloudflare y OpenAI han reaccionado a este estudio y han añadido el método de relleno que mencionamos anteriormente, el cual ha sido diseñado para contrarrestar este tipo de amenaza. Otros desarrolladores de chatbots están preparados para seguir estos pasos, por lo que, en un futuro cercano, la comunicación entre humano e IA va a estar protegida contra este ciberataque.