¿Te imaginas una novela infinita escrita para ti? A mediados de 2017 teorizamos sobre el concepto, sobre cómo la inteligencia artificial podría generar un texto ilimitado que aprendiese de tus gustos. Parte de esa tecnología ya existe, y OpenAI —la organización sin ánimo de lucro— ocultó parte del código de GPT-2 a principios de 2019 por el mal uso que podría darse a esta tecnología.

El peligro de la IA GPT-2 y las novelas sin final

periodico noticia falsa

Imagina tu novela favorita. ¿No sería maravilloso que no acabase nunca, que siempre hubiese un capítulo esperándote? GPT-2 es un software increíblemente versátil que, en esencia, es capaz de “predecir” qué palabras podrían ir a continuación de un texto. Es decir, sabe escribir si lo alimentas bien.

Se probó, en principio, para noticias periodísticas. Haciendo uso de 40 GB en artículos reales de periódico (unos 10 millones de artículos) GPT-2 era capaz de escribir una noticia falsa partiendo únicamente de una frase. También de continuar una novela ad infinitum si se le dan miles de libros.

Esto, por descontado, es un peligro. Ya sabemos que las fake news de 2015 y 2016 han causado la polarización política e incluso influido en sus resultados. Ahora imaginemos automatizar estas noticias de forma que saturen (aún más) los medios. Hasta que no podamos diferenciarlas de la verdad.

Peleas de robots: GLTR vs GPT-2

generador de noticias falsas

Cuando imaginamos peleas de robots nos imaginamos seres antropomorfos de metal dándose de lo lindo. Probablemente boxeando. Nada más alejado de la realidad, GLTR lucha contra GPT-2 en formato de texto enriquecido.

Rebobinemos un poco: GPT-2 es un algoritmo capaz de generar texto. Lo hace tratando de adivinar qué palabra encaja mejor a continuación de las ya escritas. Lo que hace GLTR es tratar de desenmascarar qué texto ha sido escrito por GPT-2.

En el ejemplo de abajo, GLTR (Giant Language model Test Room) marca en verde las palabras que “huelen” a sistema predictivo. Es decir, aquellas que GLTR piensa que podría haber redactado GPT-2. Es el análogo a detectar voz robotizada para saber si estamos hablando con una máquina automática.

Más verde en una palabra significa que es muy probable que GPT-2 la hubiese seleccionado para ocupar esa posición. Morado quiere decir que es muy poco probable que GPT-2 haya hecho lo propio. Es decir, más amarillo, rojo o morado implica que es muy probable que haya un torpe humano tecleando (arriba). Un gran porcentaje de verde (abajo) debería hacernos sospechar.

generador de texto falso

La limitación de GLTR y otros sistemas similares

Piensa en un virus informático. Un virus es una sucesión de ceros y unos, el lenguaje de las máquinas. Localizar una combinación específica de estos elementos en determinados lugares es a lo que se dedican los antivirus. Estos pueden detectar las amenazas porque cada día actualizan sus bases de datos para saber dónde tienen que mirar. Cada día, nuevos virus son liberados.

Pero los virus no son el único tipo de malware. Junto a estos están los adwares, spyware, gusanos, troyanos, riskware o phishing, entre otros. Y dentro de cada una de estas grandes familias hay cientos siendo liberados cada pocas horas. Tratar de detectarlos todos es, simplemente, imposible. De modo que los sistemas de protección trabajan con bases de datos limitadas.

¿Por qué me voy al tema de los antivirus? Porque aunque siguen siendo muy útiles su eficiencia baja; y porque GLTR solo puede detectar en verde texto generado por GPT-2. Es decir, GLTR no podrá detectar con éxito un GPT-3, GPT-30 o GPT-x mutable con un juego de algoritmos enfocado a generar aleatoriedad en el sistema. Una vez liberado este hipotético GPT-x, las fake news serán comunes.

Resulta evidente que es cuestión de tiempo hasta que alguien genere este tipo de códigos y los libere a la red. Con un retoque superficial, el nuevo algoritmo resultará indetectable para los indizadores de noticias, y estará en la parte del usuario el darse cuenta de qué es real y qué no lo es. Tendremos que aprender a vivir con esto.

Más que nunca, el presente nos pide lecturas más prudentes, mayor comprensión del texto, más atención a los datos a los que señale este; y la búsqueda constante de fuentes externas que los corroboren. También, por qué no, a la aleatoriedad y patatas fritas.

Imágenes | Elijah O’Donnell

Comentarios

comentarios