La Policía Nacional llevaba seis años usando IA para detectar denuncias falsas. Su fiabilidad real era muy discutible

Publicado el 20/03/2025 por Diario Tecnología
Artículo original

La Policía Nacional llevaba seis años usando IA para detectar denuncias falsas. Su fiabilidad real era muy discutible

En octubre de 2018, la Policía Nacional publicó una nota de prensa en la que todo sonaba estupendo. Se hablaba de una nueva herramienta de inteligencia artificial llamada Veripol que prometía una precisión del 90% a la hora de detectar denuncias falsas. Seis años después hemos descubierto que esa promesa era muy discutible.

El Gabinete Técnico de la Dirección General de Policía confirmaba a Civio que dicha herramienta dejó de estar operativa en octubre de 2024, seis años después. Dicha decisión, como señala este medio, no era casual.

Tres meses antes se publicaba el BOE con el nuevo Reglamento de Inteligencia Artificial. En el apartado (59) se señala a los polígrafos de IA como herramientas de IA de alto riesgo y en él precisamente se señala lo siguiente:

"[...] Procede clasificar como de alto riesgo varios sistemas de IA destinados  a ser utilizados con fines de garantía del cumplimiento del Derecho  cuando su precisión, fiabilidad y transparencia sean especialmente  importantes para evitar consecuencias adversas, conservar la confianza  de la población y garantizar la rendición de cuentas y unas vías de  recurso efectivas. [...], entre dichos sistemas de IA de alto riesgo deben  incluirse, en particular, los sistemas de IA destinados a ser utilizados [...] para evaluar el riesgo de que una persona física  sea víctima de delitos, como los polígrafos y otras herramientas  similares".

No solo eso: un grupo de expertos en derecho y matemáticas de la Universidad de Valencia destacó en un estudio cómo Veripol era una herramienta de la que apenas se disponía de información, lo que hacía una auditoría especialmente complicado. Aun indicando que eso les hacía conjeturar sus conclusiones, destacaban cóo la situación era "muy deficiente en cuanto al cumplimiento de los estándares mínimos de transparencia" necesarios para el empleo de herramientas de este tipo.

¿Ciertas palabras específicas bastan para detectar mentiras?

Civio realizó un estudio de la fiabilidad de la herramienta. Tras analizar 1.122 denuncias de robo en España de 2015, el comportamiento de Veripol era singular: si una denuncia contiene las palabras “día”, “abogado”, “seguro” o “espalda” es más probable que sea falsa, pero esa probabilidad aumenta si se usan varias veces palabras como “doscientos” o “apenas".

Riestos

Veripol comenzó a evaluarse en un programa piloto en junio de 2017, y ganó un premio de investigación de la Fundación Policía Española. Se habló de su éxito incluso en Scientific American. Poco a poco fue extendiéndose su uso hasta activarse oficialmente en el citado mes de octubre de 2018 a nivel nacional. Su uso fue notable hasta octubre de 2020 (unas 84.000 denuncias), mientras que al parecer en 2022 se usó tan solo en 3.752 denuncias, de las que 511 se detectaron como falsas.

En el desarrollo de dicho proyecto colaboraron la Universidad Complutense de Madrid (UCM), la Universidad Carlos III de Madrid, la Universidad de Roma "La Sapienza" y el Ministerio del Interior del Gobierno de España. Un anuncio de la UCM señala cómo la iniciativa comenzó en 2014, y se comenzó a probar con aparente éxito en 2017. Las pruebas preliminares, eso sí, se ejecutaron con una muestra que los expertos calificaron como escasa.

En dicho comunicado se destacaba cómo "es la primera vez a nivel mundial que se desarrolla una herramienta de estas características" y que Veripol realizaba un "análisis automático de las declaraciones de denunciantes utilizando  técnicas de procesamiento del lenguaje natural y aprendizaje automático, con una tasa de éxito del 91%, quince puntos superiores a la de agentes expertos". En la descripción de su funcionamiento se señalaba lo siguiente:

"Por ejemplo, se sabe que en los casos de robo, las declaraciones  verdaderas se presentan más detalles, descripciones e información  personal, frente a la insistencia exclusiva en el objeto extraído y la  omisión de detalles sobre el atacante o cómo sucedió el incidente de las  falsas. A partir de este análisis lingüístico, Veripol es capaz de  crear un patrón eficaz".
"En tan solo una semana, se detectaron y cerraron 31 y 49 casos de hurto  falsos, mientras que entre 2008 y 2016 fueron de 3,33 y 12,14 en Murcia y  Málaga, respectivamente. La eficacia del estudio piloto fue de un 83%".

Una IA de dudosa fiabilidad

El estudio completo de la Universidad de Valencia refleja un funcionamiento discutible de la herramienta. Indican cómo los diseñadores de Veripol afirmaban que las denuncias falsas en relación con los robos son "extremadamente comunes" y el delito es "generalmente llevado a cabo por ciudadanos que no tienen antecedentes penales." No tienen cifras claras, pero aun sin poder estimar la cifra real de denuncias falsas "sugieren que podría rondar el 57%", una cifra que se apoya curiosamente en los casos sin resolver.

En Maldita.es realizaron en 2020 un análisis de la evolución del uso de Veripol e indicaron cómo "el hecho de que el total de delitos registrados se mantenga constante a  medida que disminuyen las cifras de uso de Veripol, puede ser un  indicativo de que el algoritmo no se usa tanto entre los agentes de policía". Para algunos agentes, apuntaban, "el programa no es muy preciso", y que aunque en teoría podía funcionar bien, su aplicación en comisarías era complejo porque se necesitaba formación para hacerlo.

AlgorithmWatch, una agencia no gubernamental y sin ánimo de lucro con sede en Berlín y Zurich, realiza a menudo análisis de algoritmos y sistemas de IA para tratar de evaluar su fiabilidad y validez. En octubre de 2020 evaluaron el comportamiento de Veripol y su conclusión ya entonces fue contundente: "no está claro si funciona como se pretende".

También explicaban que los detectores de mentiras —que es en esencia lo que es Veripol— tienen una larga trayectoria de malos funcionamientos. En este algoritmo concreto preocupaba por ejemplo cómo algunas palabras específicas tenían demasiado peso en la decisión. Uno de los agentes entrevistados en aquel momento indicaba cómo bastaba con que la palabra "navaja" estuviera en el informe para que fuera considerado verdadero.

Estamos pues ante un caso más en el que una herramienta tecnológica, en este caso teóricamente apoyada por la IA, que planteó dudas desde el principio por la transparencia sobre su verdadero funcionamiento y desarrollo, y que se comenzó a utilizar sin que las pruebas preliminares fueran del todo concluyentes por el tamaño de las muestras.

En los últimos tiempos hemos visto por ejemplo cómo el 'Caso Ábalos' sirvió para demostrar que hay muchos riesgos aquí y que es necesario evaluar bien la aplicación de algoritmos de IA antes de aplicarlos en organismos públicos de todo tipo. En ese caso en concreto una IA para transcribir las declaraciones convirtió algunos textos en galimatías, y precisamente eso es lo que la Ley de la IA de la UE y organismos como AESIA en nuestro país deberían tratar de evitar. 

Imagen | Policía Nacional

En Xataka | Los vídeos de IA han roto los algoritmos de Instagram y TikTok. Bienvenidos a los nuevos "vertederos de la IA"

utm_campaign=20_Mar_2025"> Javier Pastor .