Web Scraping: i consigli del Garante Privacy per difendere i dai online

Al momento stai visualizzando Web Scraping: i consigli del Garante Privacy per difendere i dai online

Web Scraping: il Garante per la Protezione dei dati personali pubblica una guida per proteggere i propri dati online.

Web Scraping: di cosa parliamo?

È utile partire, prima di tutto, dalle definizioni: per web scraping si intende l’attività di raccolta dati nel web molto spesso avvalendosi di srumenti automatici come i crawler. Chiariamo subito: non è illegale raccogliere dati dal web, anche mediante l’uso di strumenti automatici, purché:

  • i dati siano pubblici e pubblicamente disponibili;
  • i dati non siano sensibili.

Per spiegarci meglio, il web scraping diventa illegale nel caso in cui l’attività di raccolta dei dati avvenga in pagine “coperte” da login e contenenti dati personali. Non si può quindi, ad esempio, raccogliere dati personali dai social.

Il confine tra legale e illegale, si capisce, è molto labile tantoché il Garante ha aperto più istruttorie sul punto: la più nota quella nei confronti di OpenAI e la sua ChatGPT. D’altronde, come si sa, le intelligenze artificiali necessitano di quanti più dati possibili per “nutrire” i propri algoritmi di apprendimento e machine learning. Il tema del web scraping infatti è diventato un problema sempre più serio mano a mano che si sono diffuse le intelligenze artificiali.

La Guida del Garante sul web scraping non è vincolante, ma i consigli sono molto utili

Il Garante per la Protezione dei dati personali ha quindi ritenuto utile emanare delle linee guida su punto, in attesa degli esiti dei procedimenti già in corso sul tema.

“In attesa di pronunciarsi, all’esito di alcune istruttorie già avviate tra le quali quella nei confronti di OpenAI, sulla liceità del web scraping di dati personali effettuato sulla base del legittimo interesse, l’Autorità ha ritenuto necessario fornire a quanti pubblicano online dati personali in qualità di titolari del trattamento talune prime indicazioni sull’esigenza di compiere alcune valutazioni in ordine all’esigenza di adottare accorgimenti idonei a impedire o, almeno, ostacolare il web scraping.”

si legge in una nota dell’autorità.

Sottolineiamo che al momento non vengono introdotti nuovi obblighi per i responsabili del trattamento dati che pubblicano dati sensibili online: queste linee guida vanno intese, ad ora, come consigli e indicazioni non vincolanti.

Le misure suggerite dal Garante per limitare il web scraping

Il documento completo approvato dall’Autorità è disponibile qui ed è stato approvato tenendo di conto e mettendo a punto i contributi che il Garante ha ricevuto in risposta all’indagine conoscitiva del Dicembre 2023.

Creare aree riservate:

sul punto riportiamo precisamente le chiarissime parole del Garante:

“Atteso che l’addestramento dell’intelligenza artificiale generativa si basa su enormi quantità di dati
che spesso provengono da attività di web scraping diretta (ovverosia effettuata dallo stesso
soggetto che sviluppa il modello), indiretta (ovverosia effettuata su dataset creati mediante
tecniche di web scraping da soggetti terzi rispetto allo sviluppatore del modello) od ibrida, su fonti
presenti nel web, la creazione di aree riservate, a cui si può accedere solo previa registrazione,
rappresenta una valida cautela in quanto sottrae dati dalla ritenuta pubblica disponibilità. Tale
tipologia di cautela tecnico-organizzativa può, sebbene indirettamente contribuire ad una maggiore
tutela dei dati personali rispetto ad attività di web scraping”.

Inserire clausole ad hoc nei termini di servizio:

il Garante Privacy suggerisce anche di inserire una clausola apposita nei Termini di Servizio del sito web / piattaforma online che esprima esplicito divieto di utilizzare qualsiasi forma di web scraping. Tale clausola contrattuale è vincolante, quindi i gestori dei siti web/ piattaforme possono anche agire in giudizio per “inadepimento contrattuale della controparte“.

Monitorare il traffico di rete:

è molto utile monitorare le richieste HTTP ricevute dal sito web / piattaforma online. Sarà così facile individuare flussi anomali di dati sia in ingresso che in uscita ma anche procedere a limitarli. Una misura che il Garante Privacy consiglia esplicitamente è quella del Rate Limiting, ovvero la limitazione del traffico di rete e del numero di richieste provenienti da determinati indirizzi IP. Questa misura impedisce “a priori” un traffico dati eccessivo, limitando sia il web scraping che il DDoS.

Limitare i bot:

il web scraping si basa sull’uso di strumenti automatici come i crawler, ma non solo. In generale senza bot non c’è web scraping. Per limitare la loro attività il garante suggerisce di:

  • inserire verifiche come il CAPTCHA;
  • la modifica periodica del markup HTML;
  • incorporare i contenuti sensibili entro oggetti multimediali (immagini o altri media): i bot / crwaler non riescono a leggervi all’interno;
  • la verifica dei file di log per bloccare manualmente eventuali user agent dannosi;
  • modificare il file robot.txt per impedire l’accesso (disallow) a determinati tipi di bot.