Individuare sistemi data-intensive nella Pubblica Amministrazione italiana: uno strumento basato su web scraping e machine learning
Abstract
Il lavoro presenta uno strumento capace di individuare ed esplorare automaticamente, attraverso il Machine Learning, l’impiego di sistemi data-intensive da parte della Pubblica Amministrazione (PA) italiana.
Nonostante la digitalizzazione della PA implichi l’uso di tecnologie basate sui dati, manca una panoramica di dove e come questi sistemi sono utilizzati e sui rischi che possono generare. Il lavoro addestra un algoritmo di machine learning su documenti e risorse web per individuare i sistemi di decisione automatica nella PA. Sono stati raccolti 15.087 contenuti tramite web scraping da siti ministeriali italiani, etichettati manualmente e usati per addestrare un modello BERT.
Parole chiave
datificazione; digitalizzazione della Pubblica Amministrazione; machine learning; sistemi Data-intensive; BERT; Web Scraping.