Come difendere i dati dal web scraping? Le indicazioni del Garante

Al momento stai visualizzando Come difendere i dati dal web scraping? Le indicazioni del Garante

Il Garante per la Protezione dei Dati Personali, attraverso una nota informativa, ha diffuso le indicazioni per proteggere i dati personali pubblicati online da enti pubblici e privati (che ne sono responsabili del trattamento) contro il web scraping.

Cos’è il web scraping?

Sebbene possa essere effettuato manualmente, il termine web scraping solitamente si riferisce a processi automatizzati condotti tramite bot o web crawler. Questo metodo consente di estrarre dati specifici dal web e copiarli in un database locale o in un foglio di calcolo per analisi successive, spesso utilizzato da pirati informatici o aziende poco etiche per scopi di profilazione o per migliorare algoritmi. In sostanza, i web scraper estraggono informazioni da una pagina web per riutilizzarle altrove. Un esempio comune è la raccolta di nomi, numeri di telefono, aziende e relativi URL o indirizzi e-mail (contact scraping), e, in alcuni casi, persino password di accesso.

Per saperne di più > Webscraping: furti diffusi di dati

Perché il Garante ha deliberato il provvedimento?

Il Garante per la Protezione dei Dati Personali ha deciso di deliberare un provvedimento, adottando la “Nota Informativa” in materia di web scraping, per:

  • addestrare i modelli di intelligenza artificiale generativa (IAG);
  • segnalare le possibili azioni di contrasto che i gestori di siti e piattaforme online, in qualità di titolari del trattamento dei dati personali, potrebbero implementare per evitare la raccolta di dati da parte di terzi per finalità di addestramento di modelli di intelligenza artificiale. 

Essendo che il web scraping coinvolge la raccolta di informazioni riconducibili a persone fisiche identificate o identificabili (e si pone quindi il problema di protezione dei dati personali) il Garante ha ritenuto utile fornire alcune indicazioni ai gestori di siti web e piattaforme online in merito alle cautele da adottare. Non si tratta di misure obbligatorie, ma di accorgimenti che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, per prevenire o mitigare gli effetti del web scraping di terze parti. Gli effetti da prendere in considerazione sono: lo stato dell’arte tecnologico e i costi di attuazione, in particolare per le PMI.

Per saperne di più > Web scraping: illegittimo formare elenchi telefonici rastrellando il web

Le indicazione del Garante: possibili azioni di contrasto al web scraping

Tra le misure concrete che il Garante suggerisce di adottare troviamo: 

  • la creazione di aree riservate (accessibili solo a seguito della registrazione), per sottrarre i dati dalla pubblica disponibilità;
  • l’inserimento di clausole anti-scraping nei termini di servizio dei siti. Se viene inserita questa clausula su di un sito o piattaforma, i gestori degli stessi possono presentarsi in giudizio per dichiarare l’inadempimento della controparte;
  • il monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati sia in entrata che in uscita;
  • interventi specifici sui bot utilizzando soluzioni tecnologiche rese disponibili dalle società responsabili del web scraping. Ad esempio: l’inserimento di verifiche CAPTCHA (che impedisce di eseguire l’azione ad un bot), la modifica periodica del markup HTML (per rendere più complicato lo scraping da parte dei bot), tra gli altri.

Per saperne di più > Scraping online: sanzione per Facebook. Non ha protetto gli utenti

Conclusioni

L’intelligenza artificiale generativa apporta numerosi vantaggi alla collettività. Tuttavia, l’addestramento dei modelli alla base di questi sistemi richiede una grossa quantità di dati, che spesso includono varie informazioni personali e sono raccolti in modo massiccio e indiscriminato tramite tecniche di web scraping. I gestori di siti web e piattaforme online devono rispettare obblighi di trasparenza, accesso, riuso e adozione delle misure di sicurezza previste dal GDPR. Devono anche valutare, caso per caso e in conformità con la normativa vigente, quando sia necessario proteggere i dati personali che gestiscono dall’accesso di bot di terze parti, adottando azioni di contrasto. Per questo motivo, sebbene tali azioni non siano esaustive, possono mitigare gli effetti del web scraping.

Il provvedimento, che prossimamente sarà pubblicato sulla Gazzetta Ufficiale, è disponibile qui.