Web scraping e IA generativa: come prevenire la raccolta non autorizzata di dati personali?

24 Giugno 2024

Nel panorama tecnologico odierno, l’intelligenza artificiale generativa (“IAG”) rappresenta sicuramente una delle tecnologie più promettenti, con benefici innegabili in termini di efficienza, celerità e perfezionamento della qualità del lavoro. Tuttavia, essa è al contempo una delle tecnologie più contestate e ciò per le sue implicazioni – talvolta negative – in materia di protezione dei dati personali.

Gli algoritmi di IAG richiedono infatti notevoli quantità di dati (anche di carattere personale) per il loro addestramento, spesso provenienti da una raccolta massiva ed indiscriminata effettuata sul web. Tra le diverse pratiche utilizzate per addestrare tali sistemi, una delle più diffuse è quella del web scraping.

In tale scenario, l’Autorità garante per la protezione dei dati personali (il “Garante Privacy”) è intervenuta indicendo un’indagine conoscitiva in materia di web scraping, la quale ha condotto all’emanazione, lo scorso 20 maggio, di una specifica nota informativa sul web scraping e l’IAG (la “Nota Informativa”).

L’obiettivo del Garante Privacy è quello di segnalare possibili azioni di contrasto che i gestori di siti internet e di piattaforme online, sia pubblici che privati, operanti in Italia, quali titolari del trattamento di dati personali oggetto di pubblicazione, potrebbero implementare al fine di prevenire – ove ritenuta incompatibile con le basi giuridiche e le finalità della pubblicazione – la raccolta di dati da parte di terzi per finalità di addestramento dei modelli di IAG.

Ma cos’è il web scraping e quali problematiche in materia di protezione dei dati personali solleva?

Il web scraping è una particolare tecnica utilizzata per raccogliere, memorizzare e conservare, in maniera sistematica e automatizzata, una quantità massiva e indiscriminata di informazioni e dati pubblicamente disponibili online o resi disponibili in aree ad accesso controllato. I dati raccolti vengono successivamente impiegati per mirate analisi, elaborazioni e utilizzi.

Con l’avvento dell’IAG, la tecnica informatica del web scraping ha avuto una crescita esponenziale, consentendo una raccolta automatizzata di dati più veloce e trasversale, per poi utilizzarli per l’addestramento dell’IAG stessa. Le informazioni che tali tecniche sono in grado di estrarre sono molteplici e tra queste sicuramente rientrano anche dati personali. Si pensi, ad esempio, ai dati di contatto, ai dati biometrici e di geolocalizzazione, alle preferenze personali o anche ai comportamenti di navigazione. In tali ipotesi, i.e. quando il web scraping implica la raccolta di informazioni riconducibile a una persona identificata o identificabile, si pone un problema di protezione dei dati personali (per un maggior approfondimento sugli ulteriori profili legali connessi e derivanti dalle attività di web scraping, si rinvia ad un nostro precedente contributo, disponibile qui).

Nello specifico, in questi casi, il focus della compliance si incentra sulla necessità di individuare un’idonea base giuridica per il trattamento di tali dati e sul rispetto dei principi generali posti dal Regolamento (UE) 679/2016 (il “GDPR”). Ciò significa dunque che i gestori di siti web e di piattaforme online che rivestano al contempo il ruolo di titolare del trattamento dovranno rispettare gli obblighi di trasparenza, pubblicità, riutilizzo, accesso e adozione delle necessarie misure di sicurezza. Infatti, il fatto che i dati personali siano pubblicamente reperibili, non equivale ad acconsentire ad un loro libero utilizzo.

Le indicazioni del Garante Privacy ai gestori di siti web e piattaforme online

Al netto degli ulteriori obblighi gravanti sui titolari del trattamento posti dal GDPR, il Garante Privacy, con la propria Nota Informativa, ha voluto fornire alcune indicazioni ai gestori dei siti web e di piattaforme online in merito alle possibili cautele che gli stessi potrebbero adottare per mitigare gli effetti del web scraping di terze parti finalizzato all’addestramento di sistemi di IAG.

Nello specifico, il Garante Privacy ha individuato quattro diverse misure (contenitive, ma non risolutive), aventi carattere tecnico, tecnico-organizzativo e legale:

  1. la creazione di aree riservate, ossia la predisposizione di aree del sito o delle piattaforme a cui è possibile accedere solo previa registrazione, sottraendo così i dati dalla pubblica disponibilità. Il Garante Privacy sottolinea però come, di contro, tale misura non possa dar luogo ad un trattamento di dati eccessivo da parte del titolare, in violazione del principio di minimizzazione di cui all’art. 5(1)(c) del GDPR, ad esempio imponendo agli utenti oneri di registrazione ulteriori e ingiustificati;
  2. l’inserimento di clausole ad hoc nei termini di servizio, adottando una cautela di mera natura giuridica, operante a posteriori. Infatti, nel caso in cui tali clausole non venissero rispettate, i gestori dei siti e delle piattaforme sarebbero legittimati ad agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte;
  3. il monitoraggio del traffico di rete, mediante un accorgimento tecnico che è in grado di individuare eventuali flussi anomali di dati in ingresso e in uscita da un sito web o da una piattaforma online e, conseguentemente, di adottare adeguate contromisure di protezione;
  4. l’intervento sui bot. Posto che il web scraping si basa sull’utilizzo dei bot, il Garante Privacy sottolinea come una qualsiasi tecnica in grado di limitare l’accesso agli stessi rappresenti un metodo efficace per arginare l’attività automatizzata di raccolta dati effettuata tramite tali software.

Tra tali tecniche rientrano, a mero titolo esemplificativo, l’inserimento di verifiche CAPTCHA (Completely Automated Public Turing-test-to-tell Computers and Humans Apart), che impongono un’azione eseguibile solo da un essere umano, la modifica periodica del markup HTML, oppure l’incorporazione dei contenuti o dei dati all’interno di oggetti multimediali, come ad esempio, le immagini.

Tuttavia, come evidenziato dal Garante Privacy, nessuna di tali misure può essere considerata sufficiente e idonea ad impedire completamente le tecniche di web scraping. Si tratta, dunque, di cautele che devono essere adottate sulla base di un’autonoma valutazione del titolare del trattamento, da svolgersi caso per caso in base allo specifico contesto di riferimento e in attuazione del principio di accountability, nonché nel rispetto dei principi in materia di protezione dei dati personali previsti dal GDPR.

L’intervento del Garante Privacy è cruciale per favorire una maggior consapevolezza nell’utilizzo degli strumenti di IAG da parte delle aziende. In tale ottica, sarà fondamentale garantire un approccio bilanciato e multidisciplinare.

Se infatti, da un lato, le diverse misure tecniche e legali potrebbero fungere da deterrente per le pratiche di web scraping non autorizzate, dall’altro ciò potrebbe comportare un rallentamento dell’innovazione delle nuove tecnologie di IAG. Pertanto, nell’adozione delle stesse, occorre porre molta cautela, bilanciando gli interessi in gioco e adottando misure di prevenzione e mitigazione che siano proporzionate e non eccessivamente onerose, dovendo coinvolgere in tale processo tutti i soggetti, tecnici e legali, esperti in materia.

2024 - Morri Rossetti

I contenuti pubblicati nel presente sito sono protetti da diritto di autore, in base alle disposizioni nazionali e delle convenzioni internazionali, e sono di titolarità esclusiva di Morri Rossetti e Associati.
È vietato utilizzare qualsiasi tipo di tecnica di web scraping, estrazione di dati o qualsiasi altro mezzo automatizzato per raccogliere informazioni da questo sito senza il nostro esplicito consenso scritto.
Ogni comunicazione e diffusione al pubblico e ogni riproduzione parziale o integrale, se non effettuata a scopo meramente personale, dei contenuti presenti nel sito richiede la preventiva autorizzazione di Morri Rossetti e Associati.

cross