¿Qué significa la inteligencia artificial para la privacidad de los datos?

La exageración tecnológica es un recurso voluble. Hace unos años, blockchain y cripto eran las palabras mágicas de moda que hacían que los capitalistas de riesgo buscaran chequeras. Ahora, con el sector valiendo el 40% de lo que estaba en su apogeo y actores clave envueltos en un atolladero litigioso, su poder de fascinación ha disminuido y la inteligencia artificial lo ha desplazado firmemente como el sabor del mes.

Los capitalistas de riesgo simplemente están desesperados por entregar dinero a los desarrolladores de IA. Mistral AI, que está formada por tres ingenieros franceses de IA y poco más, recibió 105 millones de euros con una valoración de 240 millones de euros en la ronda de semillas más grande jamás realizada en Europa apenas un mes después de su incorporación. Los políticos están igualmente entusiasmados, cifran sus esperanzas de un crecimiento transformador de la productividad en la tecnología y hacen todo lo que está a su alcance para garantizar que su jurisdicción acoja a las empresas de IA.

El revuelo bien puede estar justificado. Las capacidades de las últimas herramientas de IA son impresionantes y parece inevitable que su proliferación y desarrollo tenga enormes consecuencias económicas.

Pero justo cuando la industria de las criptomonedas se enfrenta a desafíos regulatorios, la IA está comenzando a enfrentar sus propias batallas legales en varios frentes. Mientras que la industria de la criptografía lucha con las leyes de valores y las restricciones contra el lavado de dinero, los proveedores de inteligencia artificial se enfrentan a la ira de los reguladores y activistas de la privacidad. Uno de los regímenes más problemáticos para el sector de la IA es el Reglamento General de Protección de Datos, el régimen legal que protege la privacidad de todos los residentes de la Unión Europea y el Reino Unido.

Errores de los datos disponibles públicamente

Desarrollar un modelo de lenguaje grande como ChatGPT requiere la recopilación de grandes cantidades de texto a través de un proceso llamado web scraping. Estos conjuntos de datos ingieren detalles extraídos de fuentes abiertas en línea, como perfiles de redes sociales. La información es de dominio público, por lo que recopilarla no puede ser un problema, ¿verdad? Equivocado. Los abogados de privacidad se esfuerzan por señalar que los desarrolladores de IA que participan en web scraping y análisis siguen en peligro.

Chris Elwell-Sutton es socio del equipo de datos, privacidad y ciberseguridad del bufete de abogados TLT del Reino Unido. 'Existe la creencia común de que, si los datos se obtienen de fuentes disponibles públicamente, están fuera del alcance del RGPD y regímenes de privacidad similares. Esto es un error, potencialmente muy costoso», explica. "Una vez que sus datos personales se almacenan en un sistema de archivo, tiene la protección del RGPD, independientemente de la fuente original".

El RGPD impone una variedad de obligaciones estrictas a cualquier organización que almacene, transmita o ejecute análisis de datos personales. El dolor de cabeza más fundamental que enfrentarán los implementadores de LLM debido al GDPR es identificar una base legal para la extracción masiva de datos personales de millones de personas sin su conocimiento o consentimiento. Esta cuestión ha sido objeto de un intenso escrutinio regulatorio y judicial en toda Europa y no se vislumbra una solución sencilla.

Todavía se desconocen los detalles de cómo se aplicará el RGPD a la IA generativa, pero ya se han dado los primeros tiros en lo que seguramente será una batalla larga y costosa. ChatGPT fue prohibido temporalmente por la autoridad italiana de protección de datos por resultados inexactos y falta de fundamentos legales para el procesamiento, así como por el mal manejo de los datos de los niños. Luego, Google tuvo que posponer el lanzamiento en la UE de su competidor Bard por desafíos de privacidad similares, aunque el gigante tecnológico consideró oportuno lanzar el servicio en el Reino Unido, un guiño, tal vez, al enfoque empresarial positivo para la aplicación de la privacidad prometido por el Reino Unido. Gobierno conservador post-Brexit.

OpenAI ha realizado mejoras en su posición de privacidad, proporcionando verificación de edad, permitiendo a los usuarios optar por que sus datos no se utilicen para modos de entrenamiento y tomando "medidas para eliminar información de identificación personal del conjunto de datos de entrenamiento". Pero es probable que resulte difícil demostrar esta afirmación a satisfacción del regulador.

Las técnicas exactas que OpenAI ha utilizado para eliminar datos personales de su conjunto de datos aún no se han revelado en detalle, pero han mencionado "filtrado de datos y anonimización".

Elwell-Sutton dijo: "Si bien es cierto que la anonimización de los datos puede sacarlos del alcance de la regulación de privacidad, la verdadera anonimización es un listón muy alto que se debe alcanzar según el RGPD. Auditar y probar la eficacia de los métodos de anonimización normalmente implicaría evaluar los resultados que genera una herramienta. Pero, en el caso de un chatbot que produce múltiples respuestas a las mismas preguntas de manera impredecible, auditar su resultado no es un método confiable para evaluar las credenciales de privacidad del modelo. Todo el asunto es demasiado opaco para que cualquier parte externa pueda verificar que se ha producido una verdadera anonimización.'

Un listón alto y en ascenso

Existe otra posible consecuencia de la proliferación de la IA sobre la privacidad, que tendrá implicaciones para muchas organizaciones que no tienen nada que ver con la IA.

No existe una lista exhaustiva de lo que constituyen datos personales. Más bien, se definen como datos relativos a una persona física identificada. La IA predictiva, en lugar de generativa, es capaz de utilizar algoritmos avanzados y análisis predictivos para extrapolar más información personal sobre los individuos.

Este es un riesgo particular para los datos anonimizados en los conjuntos de entrenamiento de IA. Para que los datos hayan sido efectivamente anonimizados, debe existir, como máximo, una probabilidad remota de identificar a un individuo por medios que razonablemente puedan utilizarse. "Esa definición depende de la tecnología", afirmó Elwell-Sutton. "Los datos que alguna vez fueron anonimizados pueden transformarse con el tiempo en datos personales regulados por el GDPR a medida que surgen herramientas más poderosas que pueden establecer conexiones entre elementos previamente no relacionados o sin sentido dentro de conjuntos de datos".

Las herramientas de inteligencia artificial también son cada vez más capaces de generar nuevos datos personales por inferencia. "Una poderosa herramienta de análisis puede tomar algunos puntos de datos aparentemente inofensivos, como el nombre de su pareja, su ubicación en un lugar de culto o un centro médico, e inferir rápidamente su religión, sus opiniones políticas, su orientación sexual o su probabilidad de sufrir una determinada enfermedad. enfermedad", dice Elwell-Sutton. "Estos datos personales "inferidos" pueden ser enormemente sensibles y su creación y almacenamiento conlleva importantes implicaciones legales, un punto que el Tribunal de Justicia Europeo y los reguladores de toda Europa han confirmado repetidamente".

Los riesgos asociados con los datos inferidos presentan desafíos regulatorios para todo tipo de empresas, entre ellas las afectadas por la prohibición del año pasado de Google Analytics en varios países europeos. Los desarrolladores de LLM pueden encontrar estos problemas particularmente dolorosos ya que el tamaño y la complejidad de sus conjuntos de datos de entrenamiento dificultan imponer barreras de seguridad adecuadas y auditarlos. Es probable que la desinfección de los conjuntos de datos de capacitación siga siendo una preocupación para los desarrolladores de LLM. Cumplir con las regulaciones de protección de datos puede implicar enfrentar los complejos desafíos técnicos de eliminar permanentemente las referencias a individuos particulares de los datos de capacitación.

Una alternativa es una excepción regulatoria que relaje las reglas sobre la inclusión de datos personales en los conjuntos de datos de entrenamiento de IA. Esto no está fuera de lo posible (el Reino Unido está flexibilizando las normas sobre la inclusión de material protegido por derechos de autor para los desarrolladores de IA), pero con tantas jurisdicciones examinando las implicaciones de la IA para la privacidad, es poco probable que los problemas legales desaparezcan en el corto plazo.

Los desarrolladores de IA no ignoran esta amenaza legal, pero su enfoque de la privacidad deja mucho que desear, según Elwell-Sutton. "El enfoque de OpenAI en la privacidad y la protección de datos ha tenido éxito hasta el momento", afirmó. 'El problema es que sus esfuerzos giran en torno a la cuestión manejable de los datos proporcionados por los usuarios, en lugar de los vastos lagos de datos personales extraídos de fuentes públicas y utilizados para entrenar sus modelos. Han hecho un buen trabajo en lo que está al alcance de la mano, pero aún les queda mucho trabajo por hacer.'

Lewis McLellan es editor del Instituto Monetario Digital, OMFIF.

Errores de los datos disponibles públicamenteUn listón alto y en ascenso