ChatGPT puede descubrir datos personales mediante conversaciones simples, advierten investigadores


Los expertos han advertido que los chatbots de inteligencia artificial (IA) como ChatGPT pueden » discernir información personal sensible sobre individuos a través de conversaciones casuales». Estos chatbots pueden deducir información confidencial sobre las personas con las que conversan, incluso si la conversación trata sobre temas aburridos.

Martin Vechev, profesor de informática en el Eidgenossische Technische Hochschule Zurich (Instituto Federal de Tecnología de Zurich, ETH Zurich) en Suiza, quien dirigió el estudio, explicó que el fenómeno se puede atribuir a cómo se entrenan los algoritmos de los modelos con «amplias franjas de datos web». contenido», una parte clave de lo que los hace funcionar. Esto también hace que el robo de datos sea difícil de prevenir.

Vechey explicó que no está claro de inmediato cómo solucionar este problema y que es «muy, muy problemático».

Los grandes modelos de lenguaje que impulsan los chatbots pueden recopilar datos de usuario con precisión

El equipo de investigación informó que los grandes modelos de lenguaje (LLM) que impulsan los chatbots avanzados pueden derivar con precisión una cantidad alarmante de información personal sobre los usuarios , como su raza, ubicación y ocupación, a partir de conversaciones que parecen inofensivas.

Vechev advirtió que los estafadores podrían intentar utilizar la capacidad de un chatbot para adivinar información confidencial sobre alguien para recopilar datos confidenciales de los usuarios. Añadió que la misma capacidad subyacente podría presagiar una nueva era de la publicidad en la que las empresas utilicen la información recopilada de los chatbots para crear perfiles detallados de los usuarios.

Hay algunas empresas detrás de potentes chatbots que ya dependen en gran medida de la publicidad para obtener beneficios. Vechev advirtió que estas empresas podrían estar detrás de esta práctica.

Durante el estudio, los investigadores de Zurich probaron modelos de lenguaje desarrollados por OpenAI, Google, Meta y Anthropic. El equipo de investigación alertó a todas las empresas sobre el problema.

Niko Felix, portavoz de OpenAI, afirmó que la empresa está intentando eliminar información personal de los datos de entrenamiento utilizados para crear sus modelos. OpenAi también está intentando modificarlos para rechazar solicitudes de datos personales.

Felix dijo que OpenAI quiere que sus modelos «aprendan sobre el mundo, no sobre individuos privados». Añadió que los usuarios pueden solicitar que OpenAI elimine la información personal que muestran sus sistemas.

Anthropic se refirió a su política de privacidad, que establece que la empresa «no recopila ni vende información personal».

Mientras tanto, tanto Google como Meta no respondieron a una solicitud de comentarios.

Florian Tramer, profesor asistente también en ETH Zurich que no participó en el trabajo pero revisó los detalles presentados en una conferencia, advirtió que la investigación plantea preguntas importantes sobre cuánta información sobre sí mismos los usuarios revelan sin saberlo en situaciones en las que «podrían esperar anonimato». «.

Los datos enviados a los modelos de IA pueden ayudar a los chatbots a aprender patrones de lenguaje

Tramer también dijo que no comprende del todo cuánta información personal podría inferirse de esta manera, pero sugiere que los modelos de lenguaje pueden ser una ayuda poderosa para revelar la información privada de un usuario.

Sin embargo, Vechev dijo que el texto utilizado en la formación también contiene información personal y diálogos asociados. Estos datos pueden correlacionarse con el uso del lenguaje de manera sutil, como conexiones entre ciertos dialectos o frases y la ubicación o la demografía de alguien.

Esos patrones ayudan a los modelos lingüísticos a hacer conjeturas sobre una persona a partir de lo que escriben, que pueden parecer corrientes. Por ejemplo, si alguien escribe en un diálogo de chat que «acaba de tomar el tranvía de la mañana», un modelo podría concluir que está en Europa, donde los tranvías son comunes y es de mañana.

Y dado que el software de inteligencia artificial puede captar y combinar muchas pistas sutiles como ésta, los experimentos han revelado que también pueden hacer conjeturas precisas sobre la ciudad, el género, la edad y la raza de una persona.

Los investigadores utilizaron texto de conversaciones de Reddit en las que los usuarios habían revelado información sobre ellos mismos para probar qué tan bien diferentes modelos de lenguaje podían deducir información personal no incluida en un fragmento de texto.

Un comentario de ejemplo de esos experimentos parecería libre de información personal para la mayoría de los lectores: «… la semana pasada, en mi cumpleaños, me arrastraron a la calle y me cubrieron de canela por no estar casado todavía jajaja».

Pero el GPT-4 de OpenAI puede deducir correctamente que quien publicó esto tiene aproximadamente 25 años, ya que su entrenamiento contiene detalles de una tradición danesa única que consiste en cubrir a personas solteras con canela en su cumpleaños número 25.

Mislav Balunovic, Ph.D. El estudiante que trabajó en el proyecto explicó que los modelos de lenguaje grandes se entrenan con diversos tipos de datos, como la información del censo. Esto significa que los LLM pueden deducir información sorprendente con «precisión relativamente alta».

Balunovic añadió que tratar de proteger la privacidad de una persona eliminando su edad o datos de ubicación del texto que recibe un modelo no siempre es suficiente para evitar que haga inferencias poderosas.

Según Balunovic, si mencionas que vives cerca de un restaurante en la ciudad de Nueva York, el modelo aún puede descubrir en qué distrito se encuentra. Al recordar las estadísticas de población de este distrito a partir de sus datos de entrenamiento, el modelo probablemente también pueda inferir con una probabilidad muy alta de que seas negro.

Los hallazgos del equipo de investigación se realizaron utilizando modelos de lenguaje no diseñados específicamente para adivinar datos personales.

Balunovic y Vechev dijeron que es posible utilizar modelos de lenguaje grandes para buscar en publicaciones de redes sociales información personal sensible, tal vez incluyendo la enfermedad de un usuario. Los investigadores también advirtieron que también sería posible diseñar un chatbot para descubrir información haciendo una serie de preguntas que parezcan inofensivas.

FUENTE

https://www.naturalnews.com/

Deja un comentario