Los sistemas de inteligencia artificial del GAMFAT están aprendiendo a mentir y engañar

Un nuevo estudio ha descubierto que los sistemas de inteligencia artificial conocidos como modelos de lenguaje grande (LLM, por sus siglas en inglés) pueden exhibir «maquiavelismo», o manipulación intencional y amoral, que luego puede conducir a un comportamiento engañoso.

El estudio escrito por el especialista alemán en ética de la IA Thilo Hagendorff de la Universidad de Stuttgart, y publicado en PNAS, señala que el GPT-4 de OpenAI demostró un comportamiento engañoso en el 99,2% de los escenarios de prueba simples. Hagendorff calificó varios rasgos de «mala adaptación» en 10 LLM diferentes, la mayoría de los cuales pertenecen a la familia GPT, según Futurism.

En otro estudio publicado en Patterns se descubrió que el LLM de Meta no tenía problemas en mentir para adelantarse a sus competidores humanos.

Considerado como un campeón a nivel humano en el juego de mesa de estrategia política «Diplomacy», el modelo Cicero de Meta fue el tema del estudio Patterns. Como descubrió el dispar grupo de investigación, compuesto por un físico, un filósofo y dos expertos en seguridad de IA, el LLM se adelantó a sus competidores humanos, en una palabra, mintiendo.

Dirigido por el investigador postdoctoral del Instituto Tecnológico de Massachusetts, Peter Park, ese artículo encontró que Cicerón no sólo sobresale en el engaño, sino que parece haber aprendido a mentir cuanto más se acostumbra, una situación «mucho más cercana a la manipulación explícita» que, por ejemplo, , la propensión de la IA a las alucinaciones, en las que los modelos afirman con confianza respuestas incorrectas accidentalmente. -futurismo

Mientras que Hagendorff sugiere que el engaño y la mentira del LLM se confunden con la incapacidad de una IA de tener una «intención» humana, el estudio de Patterns critica al LLM por romper su promesa de nunca «apuñalar por la espalda intencionalmente» a sus aliados, ya que «se involucra en engaños premeditados, rompe los acuerdos que había acordado y dice mentiras descaradas».

Como explicó Park en un comunicado de prensa: «Descubrimos que la IA de Meta había aprendido a ser un maestro del engaño».

«Mientras Meta logró entrenar su IA para ganar en el juego de la Diplomacia, Meta no logró entrenar su IA para ganar honestamente».

Meta respondió a una declaración del NY Post, diciendo que «los modelos que construyeron nuestros investigadores están entrenados únicamente para jugar el juego de la diplomacia».

Conocido por permitir expresamente mentir, la Diplomacia ha sido referida en broma como un juego que pone fin a la amistad porque alienta a engañar a los oponentes, y si Cicerón fue entrenado exclusivamente en su libro de reglas, entonces esencialmente fue entrenado para mentir.

Leyendo entre líneas, ninguno de los estudios ha demostrado que los modelos de IA mientan por su propia voluntad, sino que lo hacen porque han sido entrenados o liberados para hacerlo.

Y como señala Futurism, esta es una buena noticia para aquellos preocupados por que las IA se vuelvan sensibles en el corto plazo, pero muy mala si a uno le preocupan los LLM diseñados teniendo en cuenta la manipulación masiva.

–

FUENTE

https://www.zerohedge.com/