Un problema di comprensione reale delle cose

La candela 83: Yara, la genetica, la probabilità

Il caso Yara: la genetica forense, le varie prove e probabilità, la formazione dei magistrati.

Genera segnalibro - Condividi

L'argomento di questa puntata è di stretta attualità, ma vedremo che ci porterà subito a questioni che ho già trattato, su un piano più generale. Per spiegare di che si tratta basta una parola, anzi un nome: Yara.

Che cosa mi ha indotto a toccare questo argomento? Quando il fatto è accaduto, or sono quasi quattro anni, anch'io come tutti sono rimasto dolorosamente colpito. Poi il lungo periodo di silenzio, e circa un mese fa (sto scrivendo a metà luglio) l'annuncio, dato per primo dal ministro Alfano. E non mi soffermo sulla sua incredibile gaffe...  

foto premiata a un concorso scientifico, cristalli e dnafoto premiata a un concorso di fotografia scientifica, dna e cristalli

In un primo momento la mia reazione è stata di soddisfazione, non solo per un risultato in cui non si sperava più, ma per il modo con cui ci si era arrivati: con una complessa indagine scientifica. Poi ho cominciato a riflettere, grazie (per una volta lo debbo dire) ad almeno una parte dei mezzi d'informazione. Ho riflettuto non sull'indagine in sé, ma sul modo com'era stata utilizzata dagli stessi “media”, mettendo in piazza vicende private, risalenti a 44 anni fa, che certamente avrebbero influito pesantemente sulla vita di persone che del delitto non avevano la minima responsabilità; anche se si fosse dimostrato nel processo, e non per le dichiarazioni di un ministro o di altri, che veramente il colpevole era quello indicato.

Ma il mio scopo qui non è di fermarmi sugli aspetti giudiziari e tanto meno sulla diffusione delle notizie: non avrei niente di originale da dire, e questa mia rubrica è nata per occuparsi di altro. Nelle notizie che hanno circolato, mi ha colpito prima di tutto un numero: il famoso 99,999987%. Veniva usato più o meno così: l'identificazione del famoso “Ignoto 1” è certa a quel livello.

Lasciamo stare l'osservazione, forse troppo ovvia, che sono ben poche le persone capaci di capire il significato di tutti quei “9”: se ne scrivessimo due di più o due di meno, che differenza farebbe? Posso anche capire che si sia scelto quel modo di fornire un risultato quantitativo, invece dell'altro, più scientifico e quindi meno comprensibile (?) al grosso pubblico: “la probabilità di un falso positivo è 1.3x10-7. Domandiamoci invece: che cosa significa un falso positivo? E soprattutto: come si ottiene quel numero, e che cosa significa davvero?

* * *

Non è stato facile, ma con un po' di pazienza — e di fiuto — in internet si trova tutto. Come vedremo, qualcosa (non tutto) sono riuscito a capire, e c'è stata qualche sorpresa...  

Per prima cosa, grazie a una segnalazione in un newsgroup ho potuto leggere l'ordinanza del GIP di Bergamo [2] dove sono riportati stralci:  
1) della relazione del RIS di Parma sulle indagini genetiche
2) di quella di una consulenza genetico-forense
3) dell'ulteriore relazione sull'indagine genetica condotta nei laboratori del\-l'Università di Pavia  
4) di un'ultima relazione, per un'ultima indagine condotta ancora all'Università di Pavia

(abbrevio per non tediare il lettore, e rimando per dettagli più precisi al testo della citata ordinanza).

La relazione 1) riguarda il rapporto di paternità tra GG (deceduto: evito di riportare il nome per esteso, anche se ormai tutto è di dominio pubblico) e il soggetto denominato “Ignoto 1”. Vi si legge in primo luogo che “il profilo genotipico relativo al suddetto campione è straordinariamente di ottima qualità”. Questo potrebbe interessare per valutare l'attendibilità del test, ma a me servirà poco, perché è di altro che voglio occuparmi.

Ancora, la stessa relazione conclude:

l'analisi biostatica [suppongo intendesse “biostatistica”] complessiva, derivante dalla combinazione dei dati dei marcatori e di quelli localizzati sul cromosoma Y determina che la probabilità che Ignoto 1 sia figlio di un altro individuo, non imparentato in linea paterna con GG è di 1 su 14 miliardi pari ad una probabilità di 99,999999992%.

La prosa non è di chiarezza cristallina, ma il dato è chiaro, anche se non so dire come sia stata calcolata detta probabilità (però v. più avanti). Inoltre qualcosa non torna esattamente: 1 su 14 miliardi significa p ≃ 7x10-11, quindi 1 - p = 0.99999999993. Ma sono piccolezze: in ogni caso p è estremamente piccola, e tanto basta.

Il documento 2) riguarda ancora la ricerca della paternità:

i risultati ottenuti hanno consentito di confermare il rapporto di paternità naturale tra GG e Ignoto 1, essendo l'indice di paternità almeno pari a 754 milioni, corrispondente ad una probabilità di paternità pari a 0,9999999987, valore che, espresso in termini percentuali, corrisponde al 99,99999987%.

Qui abbiamo la sorpresa; non mi preoccupa che la probabilità di cui si parla sia cambiata dalla prima alla seconda indagine, a parte il fatto che io avrei preferito riportare la probabilità “negativa”, ossia quella che Ignoto 1 non sia figlio di GG. Sarebbero state molto più leggibili: 8 x 10-11 nella prima relazione, 1.3 x 10-9 nella consulenza.

La sorpresa che dicevo è però un'altra. Intanto il famigerato 99,999987% aveva due “9” in più, che si sono persi nella diffusione delle notizie. Ma soprattutto, questa percentuale non si riferisce affatto all'identificazione di MGB con Ignoto 1, ma solo alla certezza che Ignoto 1 sia figlio di GG; cosa che è stata ovviamente importante per lo sviluppo dell'indagine, ma non ha niente a che vedere con la colpevolezza o meno di MGB.

Si capisce che questa “sorpresa” non ha il minimo rilievo processuale: interessa solo per far notare la scarsa attendibilità delle notizie che ci vengono propinate...  

Posso approfittare di questo momentaneo risultato per tornare sul “falso positivo” di cui avevo parlato all'inizio. Nel nostro caso, ad esempio, si sta dicendo che l'attribuzione di paternità di GG rispetto a Ignoto 1 potrebbe essere errata, ma questo errore (un'identificazione falsa, quindi appunto un “falso positivo”) ha una probabilità bassissima, come abbiamo visto.

Resta ancora aperta la questione: come è stata calcolata quella probabilità? Vedremo, pazienza...  

La terza relazione riguarda un altro passo dell'indagine: la ricerca della madre di Ignoto 1. Riporto la conclusione:

È stato quindi eseguito il calcolo biostatico [ancora ...] della probabilità di maternità, secondo la formula di Essen-Möller. Il calcolo così eseguito consente di affermare che il soggetto femminile identificato come [omissis mio] ha una probabilità del 99,999% di essere la madre naturale del soggetto di sesso maschile definito come Ignoto 1.

Anche questo risultato interessa poco per il mio scopo: è servito a decidere con alta probabilità che si era trovata anche la madre di Ignoto 1, oltre che il padre (anche se la persona in questione, che indico con EA, come sappiamo continua a negare: cosa del tutto comprensibile, visto lo sfruttamento nei media, e dall'altra parte il peso — su di lei e sulla famiglia — dell'aver messo in piazza cose di 44 anni fa).

* * *

Veniamo finalmente alla quarta relazione, che è quella decisiva, in quanto riguarda l'identificazione di Ignoto 1 con MGB. Leggiamo:

una piena compatibilità di caratteristiche genetiche per 21 marcatori STR autosomici [...]  ciò significa statisticamente che un soggetto di sesso maschile su due miliardi di miliardi di miliardi condivide nella popolazione di riferimento tali genotipi o caratteristiche genetiche

e ora questo dobbiamo spiegarlo.

Premetto un'incertezza che ho avuto su come scrivere questa parte. Qui siamo nel pieno di quella che si chiama “genetica forense”, quindi una biologia (genetica) applicata a scopi giudiziari e investigativi. Non è certo il mio campo, e potrei assumere che i miei soliti 25 lettori (va bene, direte voi, ormai è vecchia!) ne sappiano ben più di me, se sono insegnanti di scienze. Ma forse non tutti lo sono, e perciò ho deciso di dare qualche maggiore spiegazione, anche se così facendo corro il grosso rischio di prendere qualche papera... Ma in compenso l'esercizio mi serve a mettere insieme ordinatamente quello che ho capito. Dunque cominciamo.

Per prima cosa, che cosa sono i “marcatori STR autosomici”? Marcatore è un termine generico, e non mi sembra ci sia tanto da spiegare: se stessimo parlando di calcio, sarebbe un giocatore di quelli che fanno più goal ... ma nel nostro discorso sono da intendere come elementi (preciserò subito) che servono a contraddistinguere (marcare) un profilo genetico.  

STR è uno degli innumerevoli acronimi che ormai incontriamo dappertutto. Dato che le lettere dell'alfabeto latino (inglese) sono solo 26, il numero dei possibili acronimi di tre lettere non è sterminato, per cui STR può essere usato con vari significati. Se andiamo alla pagina di disambiguazione di wikipedia (inglese) ne troviamo 20, da “Scuderia Toro Rosso” (formula1) al Séminaire Saint-Joseph de Trois-Rivières (una scuola nel Québec).  

Al terzo posto c'è quello che ci serve: “Short Tandem Repeat”, detto anche “microsatellite”. Si tratta di piccoli gruppi di basi, di solito 4 o 5, che fanno parte del DNA non-codificante e che perciò possono mutare senza danni. Succede che questi gruppi si presentano inalterati come successione di basi, ma ripetuti più volte, in numero variabile da un individuo all'altro. Nella terminologia genetica, in un dato locus su un cromosoma possono essere presenti diversi alleli, che differiscono appunto per il numero di ripetizioni. Ecco spiegato lo “short” (sono poche basi), il “tandem” (i gruppi stanno uno in coda all'altro) e il “repeat” (si ripetono, appunto).

Come sempre succede in una specie diploide, ossia che nel nucleo cellulare contiene due copie di ciascun cromosoma autosomico (ossia tutti, tranne quelli sessuali X, Y) i due cromosomi omologhi possono portare alleli uguali (omozigosia) o diversi (eterozigosia). Così stanno le cose per Homo sapiens, per i cromosomi da 1 a 22. Inoltre per molte popolazioni di  H. sapiens sono conosciuti, per i diversi loci, gli alleli che si presentano con frequenze significative e le rispettive frequenze.

Dunque la frase citata della relazione ci dice che sono stati esaminati 21 loci, e in tutti Ignoto1 e MGB presentano lo stesso aplotipo, ossia hanno gli stessi alleli (omo- o eterozigoti che siano). Ci dice inoltre che la probabilità che ciò accada per caso sarebbe 1/(2 x 1027): miliardi di miliardi di miliardi, per chi non ha familiarità con le potenze. Come se uno che non capisce 1027 potesse afferrare quanti sono un miliardo di miliardi di miliardi... 

* * *

E ora finalmente avrete capito dove miravo, raccontando questa storia: come si calcola quella probabilità? su che cosa ci si basa? Non posso pretendere che qualcuno lo ricordi, ma argomenti assai vicini li ho trattati alcuni anni fa: nel 2005 [3] e nel 2006 [4]. Ci tornerò fra poco.

Si procede così. Le frequenze dei vari alleli sono note per la popolazione maschile italiana (bisogna precisare “italiana”, perché suppongo che le frequenze — poniamo — per gli svedesi non siano uguali). Si assume che gli alleli nei diversi loci non siano correlati, ossia che le loro probabilità siano indipendenti. Consideriamo un certo locus, e due alleli che chiamerò A, B; indico con p, q le rispettive probabilità. Allora la probabilità dell'aplotipo AB (eterozigote) è 2pq, dove il 2 deriva dal fatto che si può avere l'allele A in un cromosoma e il B nell'altro, o anche viceversa. Invece l'omozigosia per l'allele A avrà probabilità p2. Assumendo che le comparse dei diversi alleli in loci distinti siano eventi indipendenti, le corrispondenti probabilità andranno poi moltiplicate tra loro per fornire la probabilità finale di quel dato genotipo.

Non posso fare il calcolo esatto, perché non so quali siano i 21 loci considerati nell'indagine; faccio quindi un calcolo solo immaginario, ma che credo non troppo lontano dalla realtà. Per semplificare, suppongo che tutti gli alleli abbiano la stessa frequenza p = 0.16 (so che questo è un numero ragionevole, perché ho visto alcune tabelle delle frequenze alleliche). Assumo un aplotipo eterozigote per tutti i loci, sempre per semplicità. Con queste ipotesi, la probabilità di trovare quel genotipo in un individuo preso a caso si calcola facilmente:

$$\left(2\cdot0.16^{2}\right)^{21}=7.8\cdot10^{-28}=\frac{1}{1.3\cdot10^{27}},$$

poco diverso dal dato scritto nella relazione:  1/(2 x 1027).

* * *

È forse il caso di fermarsi brevemente a commentare quanto piccola sia questa probabilità (uno su 2 miliardi di miliardi di miliardi, nella relazione). La popolazione maschile italiana non arriva a 30 milioni, quindi non c'è speranza di trovare un altro uomo (ripeto, preso a caso) che abbia quel genotipo: è immensamente più facile vincere un 6 al Superenalotto. E anche se allargassimo all'intera popolazione mondiale, che assomma a 7 miliardi includendo anche le donne, saremmo ancora stratosfericamente lontani. Come possiamo immaginare una popolazione così ampia da rendere possibile che esista l'individuo cercato? Dovremmo evidentemente mettere insieme due miliardi di miliardi di miliardi di uomini... La cosa è impossibile nella realtà, ma possiamo forse arrivarci se ricorriamo a ipotesi fantascientifiche.

Supponiamo che in tutte le galassie presenti nell'universo visibile, tutte le stelle abbiano un pianeta abitabile, che ospita una specie del tutto simile a Homo sapiens. L'ipotesi è sicuramente falsa, per più ragioni: prima di tutto sappiamo che già nella nostra Galassia solo un'esigua frazione delle stelle possiede pianeti abitabili. Poi l'evoluzione di forme viventi su quei pianeti avrà dato luogo a specie del tutto diverse dal nostro genere Homo: su questo gli scrittori di fantascienza si sono sbizzarriti... Ma non importa, teniamoci l'ipotesi, tanto per vedere dove si va a finire.

Non vi descrivo il calcolo; anche se non è complicato, porterebbe via — a me per scriverlo e a voi per leggerlo — del tempo che possiamo impiegare più utilmente. Ma ecco il risultato: con quelle ipotesi strampalate, in tutto l'universo visibile (se non ho sbagliato i conti) ci sarebbero circa 1023 uomini: 20000 volte meno di quanti ce ne servono. In altre parole, avremmo bisogno di 20000 universi! 

* * *

Ma il discorso non è mica finito... Infatti per calcolare quella probabilità abbiamo dovuto fare delle ipotesi. Per pigrizia (e per vostra comodità) stralcio da [3]:

E ora il secondo commento. Come tutti sanno, i teoremi hanno delle ipotesi, e nel nostro caso le abbiamo già enunciate. Ve le ripeto:
a) l'esito di ogni lancio è casuale, e nero e rosso sono equiprobabili;
b) l'esito di ciascun lancio è indipendente da quello degli altri lanci.

Ora dobbiamo discutere queste ipotesi, che è la parte più interessante, perché non riguarda più la matematica.

[...]

Mi spiego subito: le ipotesi, intese come proposizioni che si mettono in cima al teorema, fanno certo parte della teoria; ma non fa parte della teoria, quindi della matematica, la  verifica di quelle ipotesi.

Nel nostro solito esempio: chi ci dice che rossi e neri in un lancio sono equiprobabili? Chi ci dice che i singoli lanci sono indipendenti?

[...]

Per risvegliare l'interesse di chi legge, che potrebbe essersi un po' assopito se non è un patito dei giochi d'azzardo, esaminiamo lo stesso problema per il più classico e banale esempio preso dalla genetica. C'è un teorema, dovuto credo a Hardy (1908), che mostra come nell'ipotesi di accoppiamento casuale le frequenze dei diversi fenotipi raggiungono un equilibrio già con la prima generazione. Immagino che questo risultato sia arcinoto a chi ha studiato genetica; io invece l'ho trovato in un classico testo di probabilità: quello di Feller.

Bene. Come sappiamo, un teorema non si discute: dall'ipotesi segue necessariamente la tesi... Ma che dire della validità dell'ipotesi? Nel nostro caso, chi ci dice se l'accoppiamento sarà casuale oppure no? Questo non ce lo dirà di certo un matematico: a seconda delle specie coinvolte e delle condizioni (sperimentali o naturali) dovremo rivolgerci a vari specialisti: agrari, etologi, ecc.

[...]

Insomma, queste cose le sapete meglio di me; ma il punto che volevo sottolineare è uno solo: se si possa parlare di eventi casuali, e con quali probabilità, può dircelo solo un esperto che sia informato sull'effettivo andamento del fenomeno in esame.

Come esperto per il nostro caso, posso rimandarvi a [5]. Il titolo parla di “paternity testing”, che non è proprio lo stesso problema che stiamo esaminando noi; ma in realtà è più stringente. Per cui buona parte di quelle raccomandazioni si possono applicare anche qui. Ecco un estratto della guida finale (traduzione mia):

Tutti i calcoli matematici richiedono delle ipotesi. [...] Varie ipotesi sono necessarie per calcolare e interpretare il PI [paternity index = indice di paternità]: possono essere classificate come fondamentali, empiriche, specifiche e variabili.

Le ipotesi fondamentali riguardano la correttezza delle leggi della genetica e della matematica. Queste leggi sono derivate da principi base, e solitamente vengono accettate senza giustificazione. Le probabilità dei geni e degli aplotipi sono stimate dal campionamento empirico di popolazioni. Il laboratorio dovrà provare che le basi di dati per le frequenze sono rappresentative delle popolazioni in questione [...]

Razza e probabilità a priori costituiscono le ipotesi variabili. Nella formulazione del PI, razza e gruppo etnico hanno lo scopo di definire la popolazione: le frequenze dei geni e degli aplotipi variano sensibilmente da un gruppo all'altro.

Sarà riuscito chiaro che non ho proposto questa citazione per esaminare e discutere quello che c'è scritto, ma solo per far vedere che chi lavora in questo campo sa benissimo che il calcolo della famosa probabilità non è mai una sola questione matematica: ci vogliono delle ipotesi, che debbono essere vagliate. Vediamo anche che a monte del lavoro “sul campo”, svolto dagli esperti dei vari laboratori, c'è una ricerca, da cui seguono delle prescrizioni sulle pratiche da adottare. Ciò non significa che il lavoro degli esperti vada preso a scatola chiusa, ma che esistono delle procedure codificate, e si può controllare in ogni caso singolo se siano state rispettate. Nel processo, questo spetta (spetterebbe ...) al giudice.

Tra i vari aspetti da controllare, ci sarà prima di tutto la correttezza nel prelievo dei reperti e quindi l'assenza di “inquinamento” degli stessi. Anche se nel nostro caso un eventuale inquinamento potrebbe solo rendere più confusa e incerta l'identificazione: non potrebbe certo far apparire la traccia genetica di una persona estranea al fatto, a meno di non ipotizzare uno scenario da “legal thriller” di cattiva qualità, per es.\ un complotto mirante a incolpare un innocente...  

Anche una controversia sul calcolo della probabilità di un falso positivo (i famosi due miliardi ecc.) avrebbe qui scarso peso: se pure si dovesse rivedere quel numero, magari sopprimendo uno dei miliardi, la probabilità resterebbe sempre estremamente piccola. Mi sembra perciò che si possa essere certi, al di là di ogni ragionevole dubbio, dell'identificazione tra Ignoto 1 e MGB.

A scanso di equivoci, voglio ribadire che ciò non equivale ad aver dimostrato la colpevolezza di MGB: per questo occorrerà provare (e potrà avvenire solo nel corso del processo) che l'unica possibile spiegazione di quel reperto è che la traccia sia stata lasciata da MGB nell'atto di commettere il delitto. Spetterà alla difesa proporre spiegazioni diverse, sollevare dubbi ... insomma la normale dialettica processuale. Su questo le anticipazioni le lascio ai talk-show che imperversano in TV.

* * *

Scrivevo sopra che il controllo delle procedure spetterebbe al giudice. Perché il condizionale? Il problema è: fino a che punto un magistrato ha la preparazione necessaria? Badate che il dubbio non lo sollevo io: a quanto ho potuto leggere, è stata addirittura la Cassazione a sollevarlo, insieme ad altri che riguardano tutti l'uso di prove scientifiche in un processo. Non posso qui approfondire, ma le sentenze che ho letto sono molto interessanti, oltre che per il punto che ho già accennato, per il problema più generale che affrontano: la funzione del giudice nei confronti delle prove scientifiche portate in un processo. Vi si leggono posizioni che mi hanno dato da pensare: il giudice come “peritus peritorum”, preposto a esaminare criticamente le dette prove, e a tradurle in un linguaggio, in una formulazione, accessibili a tutti. Ora non posso dire di più.

Voglio però proporvi uno scampolo, preso da una dichiarazione del Procuratore Generale di Bergamo, dott. Pierluigi Maria Dell'Osso. è stata mostrata in “Bersaglio mobile”, su La7 del 21 giugno, ed era evidentemente una dichiarazione “a braccio”, da prendere quindi con tutte le cautele dal caso. L'avevo registrata, e l'ho trascritta accuratamente:

La matematica “che nel cor mi sta” è una scienza sulla quale ... un logaritmo è un logaritmo, un'equazione è un'equazione, un teorema è un teorema.

Quando c'è di mezzo l'essere umano (“bipes” secondo Schopenhauer, ed ha ragione) è chiaro che le certezze in senso matematico e galileiano ... però ci troviamo di fronte certamente ad una situazione che consente più che ragionevolmente di ritenere il caso sostanzialmente risolto.

Preciso che i puntini non sono “omissis”: sono punti in cui — come accade comunemente quando si parla senza avere un discorso scritto — la sintassi si prende delle libertà. Dicevo che occorrono tutte le cautele del caso, ma quel breve discorsetto è a mio parere indicativo del limite con cui (non sempre, ma temo spesso) un magistrato affronta il problema del significato di una prova scientifica: la confusione sul ruolo della matematica, il ricorso banalotto all'umana fallibilità, il richiamo del tutto fuori luogo a Galileo...  

Non voglio fare della facile ironia o peggio ancora atteggiarmi a supercilioso custode del rigore scientifico. Voglio solo rimarcare che per quel controllo di cui parlavo più sopra occorrerebbero ben altri strumenti culturali, che non fanno di regola parte della formazione dei magistrati. Non è proprio il caso di scherzarci sopra, perché il problema è serissimo, come ognuno intende.

Mentre scrivevo questa puntata, mi è capitato d'imbattermi in un articolo di Giancarlo De Cataldo (sull'Espresso del 17 c.m.) tutto dedicato al problema. Penso che De Cataldo sia un nome ben noto, non tanto come magistrato quanto come scrittore, soprattutto per il fortunato Romanzo criminale. L'articolo richiederebbe da parte mia un commento accurato, perché in diversi punti non posso essere d'accordo con ciò che dice; ma ormai questa puntata è arrivata alla fine, e alla scadenza assegnatami dalla Redazione, quindi debbo astenermene. Mi limito a dire che a mio parere De Cataldo mette troppa carne al fuoco a cuocere insieme; fuor di metafora, mescola e sovrappone aspetti assai diversi del problema, col risultato (non so se voluto o no) d'indurre il lettore a un giudizio di forte dubbio sull'opportunità di usare nel processo strumenti detti “scientifici”.

Sull'articolo di De Cataldo vorrei tornare, ma non so se e quando lo farò, né se scriverò il mio commento su questa rivista. In ogni caso, nella presunzione che a qualcuno possa interessare, vi terrò informati.

[2] http://www.tgcom24.mediaset.it/documento/70.$plit/C_4_documento_95_upfDocumento.pdf

[3] Naturalmente 18 (2005), n. 2 e
      http://www.sagredo.eu/candela/candel48.pdf 

[4] Naturalmente 19 (2006), n. 1 e
      http://www.sagredo.eu/candela/candel51.pdf

[5] D.W. Gjertson et al., ISFG: “Recommendations on biostatistics in paternity testing”;  Forensic Science International: Genetics (2007), Dec, 223.

vai avanti di una paginatorna indietro di una pagina
cultura  |  divulgazione scientifica  |  elio  |  aggiungi un commento

Logo e suggerimenti grafici: Emilie Barret - HTML : Nino Martino - Sviluppo del sistema di gestione dei contenuti (CMS): Roberto Puzzanghera | login