INFORMATICA FORENSE ETICA E RESPONSABILE

Il ruolo del bias nei sistemi di Intelligenza Artificiale
(a cura di Roberto Rocchetti

Nel contesto dell’informatica forense etica e responsabile, il tema del bias nei sistemi di Intelligenza Artificiale assume un rilievo centrale, sia sotto il profilo tecnico-scientifico sia sotto quello giuridico-probatorio.

Per bias si intende una distorsione sistematica nei risultati di un modello, tale per cui le prestazioni non risultano uniformi tra diverse classi o sottoclassi di dati. In ambito forense, ciò implica un rischio concreto: l’utilizzo di strumenti apparentemente accurati che, tuttavia, producono esiti non equi o non affidabili in specifiche condizioni.

Accuratezza apparente e criticità nascoste

Un sistema di AI può presentare elevati livelli di accuratezza complessiva, ma nascondere errori significativi concentrati su determinati gruppi. Studi su sistemi di riconoscimento facciale sviluppati da Microsoft, IBM e Face++ hanno evidenziato come le performance possano variare sensibilmente in funzione delle caratteristiche dei soggetti analizzati.

In particolare, si è osservato che alcune categorie risultano meglio rappresentate e quindi meglio riconosciute dal modello, mentre altre – meno presenti nei dati di addestramento – sono soggette a tassi di errore significativamente più elevati.

Questo porta a una considerazione fondamentale in ambito forense:

l’accuratezza globale non è sufficiente – da sola e senza la supervisione di un esperto- a garantire l’affidabilità probatoria di un sistema di AI.

Origine del bias nei modelli

Le principali cause del bias possono essere ricondotte a:

  • Squilibrio dei dati (data imbalance): distribuzione non uniforme delle classi nel dataset;
  • Scarsa rappresentatività: i dati non riflettono adeguatamente la realtà osservata;
  • Apprendimento di correlazioni spurie: il modello privilegia caratteristiche non rilevanti ai fini dell’analisi;
  • Scelte progettuali non adeguate: metriche, architetture o criteri di validazione non coerenti con il contesto applicativo.

Implicazioni in ambito di informatica forense

L’impiego di sistemi di AI in ambito forense – ad esempio per:

  • riconoscimento biometrico,
  • analisi di immagini e video,
  • classificazione automatica di contenuti digitali,

richiede un livello di rigore superiore rispetto ad altri contesti applicativi.

Un sistema affetto da bias può generare:

  • falsi positivi o falsi negativi non distribuiti casualmente,
  • discriminazioni sistematiche tra soggetti,
  • interpretazioni distorte del dato digitale.

Tali criticità incidono direttamente sulla validità, attendibilità e riproducibilità della prova digitale, elementi cardine dell’attività peritale.

Approccio etico e metodologicamente rigoroso

Un approccio conforme ai principi di informatica forense etica e responsabile richiede:

  • Analisi critica dei dataset: verifica della completezza e rappresentatività;
  • Valutazione delle performance per sottoclassi: non solo metriche aggregate, ma analisi disaggregate;
  • Trasparenza ed explainability: comprensione delle logiche decisionali del modello;
  • Validazione indipendente e replicabilità: possibilità di verifica da parte di terzi;
  • Documentazione dei limiti: esplicitazione delle condizioni in cui il modello può fallire.

In tale prospettiva, il principio guida è il seguente:

L’impiego dell’AI in ambito forense è sempre possibile come strumento di supporto; tuttavia, quando incide direttamente sull’analisi o sull’interpretazione della prova, richiede che i suoi limiti, inclusi i bias, siano esplicitamente conosciuti, verificabili e documentati.

Conclusione

Il bias non rappresenta un’anomalia marginale, ma una componente strutturale dei sistemi di apprendimento automatico, che deve essere analizzata, compresa e gestita con metodo scientifico.

Nel contesto dell’informatica forense, ciò si traduce nell’esigenza di adottare un approccio fondato su:

  • evidenza empirica,
  • verificabilità,
  • rigore metodologico,
  • distinzione tra correlazione e causalità.

Solo attraverso tali principi è possibile garantire che l’Intelligenza Artificiale operi come strumento affidabile di supporto all’analisi forense, evitando che diventi, invece, una fonte di errore sistematico o di distorsione interpretativa.

NOTA DI APPROFONDIMENTO SULLA BIAS

Nota tecnica: il bias nelle reti neurali (formalizzazione matematica)

Quando parliamo di AI il più delle volte parliamo anche di reti neurali artificiali (NN, ANN, CNN, ect), il termine bias assume anche un significato strettamente matematico, distinto (ma collegato) al concetto di distorsione nei dati.

In una rete neurale, ogni neurone calcola una combinazione lineare degli ingressi, seguita da una funzione di attivazione. La forma generale è:

y=f(i=1nwixi+b)y = f\left(\sum_{i=1}^{n} w_i x_i + b\right)y=f(∑i=1n​wi​xi​+b)

dove:

  • xix_ixi​ sono gli input,
  • wiw_iwi​ sono i pesi sinaptici,
  • bbb è il bias del neurone,
  • f()f(\cdot)f(⋅) è la funzione di attivazione (quella che introduce la non linearità nel modello) ,
  • yyy è l’output.

Interpretazione del bias matematico

Il termine bbb rappresenta una costante additiva che consente al modello di:

  • traslare la funzione di decisione (a scuola la chiamavamo “intercetta”, immagine seguente),
  • adattare la soglia di attivazione del neurone,
  • rappresentare relazioni non vincolate all’origine.

Senza bias, il modello sarebbe limitato a funzioni che passano per l’origine (0,00,00,0), riducendo significativamente la capacità espressiva della rete.
Equivalentemente: senza il termine bb, la retta sarebbe vincolata a passare per l’origine, limitando la capacità del modello di adattarsi ai dati reali.

Collegamento con il bias “statistico”

Il bias matematico del neurone non è, di per sé, un errore: è un parametro appreso durante il training, al pari dei pesi wiw_iwi​.

Tuttavia, in presenza di:

  • dati sbilanciati,
  • features non rappresentative,
  • correlazioni spurie tra features,

Esempio di sbilanciamento del data set.
Si consideri un sistema di classificazione progettato per individuare contenuti illeciti all’interno di un grande archivio digitale:

  • 9.500 file → contenuti leciti
  • 500 file → contenuti illeciti

Il dataset è quindi sbilanciato:

  • Classe “lecita” = 95%
  • Classe “illecita” = 5%

l’ottimizzazione dei parametri wiw_iwi​ e bbb può condurre a funzioni decisionali distorte, che si traducono in errori sistematici su specifiche sottopopolazioni.

In altri termini:

il bias come parametro matematico è lo strumento attraverso cui il modello può anche incorporare bias statistici presenti nei dati.

Implicazione forense del BIAS : cosa si dovrebbe fare?

Dal punto di vista dell’informatica forense, ciò implica che:

  • il comportamento del modello non è interpretabile unicamente a livello superficiale;
  • è necessario analizzare la funzione decisionale appresa, non solo le performance aggregate;
  • eventuali distorsioni osservate nei risultati sono l’effetto congiunto di dati, pesi e bias appresi.

Conclusione

Una volta riconosciuto che un modello può essere affetto da bias, il primo passo non è “fidarsi meno” della AI in modo generico, ma misurare dove, come e quanto il bias si manifesta e partendo da lì procedere tenendo conto dei principi di etica e responsabilità. La presenza di bias si affronta con metodo scientifico: identificazione dei sottogruppi rilevanti, misurazione disaggregata delle prestazioni, formulazione di ipotesi causali, verifica sperimentale, validazione indipendente e documentazione dei limiti residui.

A Cura di Roberto Rocchetti (testo non riproducibile anche per singoli paragrafi)