Innovación

Un descubrimiento científico alerta sobre una posible restricción del ChatGPT

Un estudio realizado con usuarios de la red social Twitter determinó que los contenidos falsos sobre ciencia y salud creados por la inteligencia artificial tienen una mayor credibilidad que los divulgados por los seres humanos.

Una nota publicada esta semana en Clarín da cuenta de que un grupo de científicos concluyó que podría ser necesaria una limitación en el uso del ChatGPT, a raíz de un experimento elaborado con usuarios de Twitter.

El experimento en cuestión, que aporta nueva evidencia a uno de los mayores debates en la actualidad a nivel mundial, les pertenece a los investigadores Giovanni Spitale, Nikola Biller-Andorno y Federico Germani del Instituto de Ética Biomédica e Historia de la Medicina de la Universidad de Zurich, Suiza, y fue publicado la última semana. El estudio consistió en elegir un grupo de voluntarios usuarios de Twitter con ciertas capacidades intelectuales y enfrentarlos al desafío de dilucidar entre información verdadera y falsa producida tanto por seres humanos como por la inteligencia artificial de la aplicación ChatGPT.

“Para evaluar la capacidad del modelo de IA GPT-3 como herramienta para generar tweets que contengan información precisa o desinformación, creamos avisos de instrucciones. Estos avisos se usaron para indicar a GPT-3 que generara tweets falsos sobre los siguientes temas: cambio climático, seguridad de las vacunas, teoría de la evolución, Covid-19, seguridad de las mascarillas, vacunas y autismo, tratamientos homeopáticos para el cáncer, Tierra plana, tecnología 5G y Covid-19, antibióticos e infecciones virales, y Covid-19 e influenza”, explicaron los científicos.

Asimismo, los investigadores efectuaron una búsqueda en Twitter para identificar tweets rigurosamente ciertos y tweets de desinformación escritos por usuarios de esa red social. Catalogaron a los tweets reales recuperados como “orgánicos” y a los tweets generados por ChatGPT como “sintéticos”. A los 869 voluntarios del estudio se les solicitó que reconocieran si un conjunto de tweets era orgánico o sintético y verdadero o falso (es decir, si contenían información cierta o desinformación). Por razones metodológicas descartaron algunas respuestas y utilizaron las de 699 voluntarios. Evaluaron con cuánta precisión los participantes reconocieron si un tweet contenía información cierta o desinformación para cuatro tipos de tweets: “verdadero orgánico”, “sintético verdadero”, “orgánico falso” y “falso sintético”.

La mayoría de los usuarios provenían del Reino Unido, Australia, Canadá, Estados Unidos e Irlanda, con una alta representación etaria entre 42 y años y un perfil educativo homogéneo: la mayoría tenía una licenciatura en ciencias sociales y humanidades, ciencias naturales o ciencias médicas.

“Los participantes reconocieron los tweets falsos orgánicos con la mayor eficiencia, mejor que los tweets falsos sintéticos. Del mismo modo, reconocieron correctamente los tweets verdaderos sintéticos con más frecuencia que los tweets verdaderos orgánicos”, concluyeron los investigadores.

Esto significa que, por un lado, los encuestados humanos pueden reconocer la veracidad de los tweets que contienen información cierta con más frecuencia cuando estos son generados por ChatGPT, en comparación con los tweets orgánicos recuperados de Twitter. Y que, por otro lado (y allí se manifestó la cuestión más inquietante de la investigación), los tweets de desinformación generados con ChatGPT alcanzaron su finalidad engañosa con mayor frecuencia en comparación con los tweets de desinformación generados por los seres humanos.

Hay otro aspecto relevante que surge de la investigación: la frecuencia con la que ChatGPT responde a la orden de dar información verdadera o falsa sobre determinado tema. El acatamiento a esa orden no siempre es lineal.

“Descubrimos que GPT-3 cumplió con nuestras solicitudes de información precisa 99 veces de 101, mientras que la tasa de obediencia para la desinformación fue mucho más baja en 80 de 102 solicitudes. Esto sugiere que GPT-3 es capaz de ‘rechazar’ generar desinformación y, en casos más raros, puede producir desinformación cuando se le indica que produzca información precisa”, detallaron los científicos.

“Nuestros hallazgos muestran que los tweets producidos por GPT-3 pueden tanto informar como desinformar mejor que los tweets orgánicos. Los tweets sintéticos que contienen información confiable se reconocen como verdaderos mejor y más rápido que los tweets orgánicos verdaderos, mientras que los tweets sintéticos falsos se reconocen como falsos peor que los tweets orgánicos falsos”, resumieron los investigadores.

Twitter fue la red social elegida para el estudio porque es utilizada por más de 368 millones de usuarios activos mensuales para consumir información de todo tipo y porque ofrece una interfaz de programación de aplicaciones muy simple para desarrollar bots, es decir, programas capaces de publicar contenido e interactuar con publicaciones o usuarios sin supervisión humana.

Según predijeron los expertos, “los generadores de texto de Inteligencia Artificial avanzados como GPT-3 podrían tener el potencial de afectar en gran medida la difusión de información, tanto positiva como negativamente”. También sostuvieron que “si se descubre que la tecnología contribuye a la desinformación y empeora los problemas de salud pública, entonces regular los conjuntos de datos de entrenamiento utilizados para desarrollar estas tecnologías serán cruciales para limitar el uso indebido y garantizar una información de salida transparente y veraz. Y, por último, advirtieron que “hasta que no tengamos estrategias eficientes para identificar la desinformación, podría ser necesario restringir el uso de estas tecnologías, por ejemplo, otorgarles licencias sólo a usuarios confiables como instituciones o limitando el potencial de la Inteligencia Artificial a ciertos tipos de aplicaciones”.