lunedì 18 agosto 2014

Skype Translator – Le Deep Neural Networks all’opera

 

E’ di alcuni mesi fa l’annuncio di Microsoft sulla comparsa di Skype Translator per la fine di quest’anno. Si trattera’ di un traduttore automatico che permettera’ di fare telefonate in video con l’aiuto di una traduzione simultanea sia in voce che con i sottotitoli.

La sorpresa e’ arrivata durante la Code Conference di S. Francisco dove il vice presidente di Skype, Gurdeep Pall, ha fatto un esperimento pratico. Parlando in inglese, ha conversato tramite Skype con una dipendente Microsoft di lingua tedesca e la loro discussione e’ stata tradotta in tempo reale. Non e’ ancora chiaro in quante lingue sara’ disponibile Skype Translator e se sara’ un servizio gratuito, ma l’idea di poter parlare, ad esempio, con una persona cinese senza barriere linguistiche, per lavoro o motivi personali e’ davvero una grande novita’. Si tratterebbe del superamento delle barriere linguistiche della Torre di Babele che fino ad ora non era stato possibile con i traduttori disponibili, come per esempio Google Translator, in quanto utili per una traduzione veloce ma non abbastanza precisi. Ma come e’ possibile tutto cio’?

Utilizzando le cosiddette “machine deep learning” sviluppate nell’ambito della ricerca sull’Intelligenza Artificiale. Per capire di cosa si tratta partiamo con l’unita’ piu’ semplice di una rete neurale: il percettrone (perceptron).

Supponiamo di avere 5 immagini di uomini e 5 immagini di qualsiasi altra cosa e di etichettare con 1 le immagini umane e con 0 le altre. L’obiettivo e’ di costruire un algoritmo che sia capace di imparare ad identificare le immagini degli umani una volta che gli vengono presentate nuove immagini mai viste prima (1 per gli umani e 0 per il resto). Questo esempio e’ del tutto generale. I dati potrebbero essere dei sintomi e le etichette le diverse malattie; i dati potrebbero essere le lettere scritte a mano e le etichette le lettere reali corrispondenti. Questo e’ quello che in definitiva fa un algoritmo come il percettrone.

Supponiamo di avere n punti in un piano, etichettati con 0 ed 1. Aggiungiamo un nuovo punto e cerchiamo di prevedere la sua etichetta. Come possiamo fare? Un possibile approccio puo’ essere quello di guardare i primi vicini ed assegnare l’etichetta al punto in base alla quantita’ di 1 e di 0 presenti nelle vicinanze. Per esempio, nell’immagine qui riportata assegneremmo il colore rosso al punto vuoto visto che i primi vicini sono in prevalenza rossi.

Un modo leggermente piu’ intelligente potrebbe essere quello di considerare una linea che meglio separa i dati etichettati e usarla come classificatore (classificatore lineare).

In questo caso, i dati in ingresso verrebbero rappresentati come vettori (x,y) e la funzione in uscita dovrebbe essere qualche cosa come “blu” se il punto cade al di sotto della linea e “rosso” se capita al di sopra. Matematicamente potremmo scrivere la funzione di trasferimento come:

f(x)=w·x+b

dove w e’ un peso opportuno e b un cosiddetto bias (offset verticale). Il risultato di questa funzione potrebbe essere portato in ingresso ad una funzione di attivazione per produrre l’opportuna etichetta. Nel nostro esempio, la funzione di attivazione potrebbe essere:

h(x)=”rosso” se y(x)>f(x)= w·x+b o h(x)=”blu” per gli altri casi.

Per determinare il peso w ottimale, l’algoritmo del percettrone in base ai dati presentati in ingresso sceglie i valori per minimizzare l’errore della risposta in uscita, definito come la differenza tra il valore desiderato e quello reale (oppure utilizzando il cosiddetto mean square error). Ovviamente il percettrone nella sua semplicita’ ha uno svantaggio: esso puo’ solo imparare a separare funzioni lineari. Consideriamo per esempio la funzione XOR, una funzione molto semplice che ritorna 0 se i due valori in ingresso sono uguali altrimenti ritorna 1. In questo caso un classificatore lineare non funzionerebbe correttamente come mostrato sotto.

Per superare questo problema bisogna ricorrere ad un percettrone “multistrato”, anche conosciuto come “feedforward neural network”: in effetti non faremo altro che mettere insieme piu’ percettroni connessi insieme a creare un meccanismo di apprendimento piu’ potente.

La rete neurale ha le seguenti proprieta’:

· Un input, un output e uno o piu’ strati “nascosti” (hidden). Una rete con piu’ strati nascosti viene chiamata Deep Neural Network. Nella figura sopra e’ mostrata una rete con 3 unita’ (anche chiamate neuroni o nodi) in ingresso, uno strato di output con 2 unita’ e due strati nascosti, con 4 unita’ il primo e 3 unita’ il secondo rispettivamente

· Ogni unita’ e’ un singolo percettrone

· Le unita’ dello strato di ingresso servono per trasmettere allo strato nascosto i dati di ingresso, mentre le unita’ nascoste fungono da unita’ di ingresso per lo strato di uscita.

· Ogni connessione tra due neuroni ha un certo peso w simile a quello del percettrone discusso sopra

· Ogni unita’ di uno strato n, in generale e’ connessa ad ogni unita’ dello strato precedente n-1 (anche se e’ possibile disconnettere due neuroni semplicemente settando a zero il proprio peso)

· Lo strato di ingresso serve solo per trasferire i dati di ingresso alla rete che li processera’. Per esempio, se il vettore in ingresso e’ (7,1,2) questo significa che il primo nodo in alto vedra’ il valore 7, quello centrale 1 e quello in basso il valore 2. Questi valori, vengono poi propagati in avanti verso le unita’ nascoste usando una somma pesata come ingresso alla funzione di trasferimento di ogni unita’, che a sua volta calcola il proprio output tramite la funzione di attivazione.

· Lo strato in uscita calcola i valori risultanti allo stesso modo dello strato nascosto. Il risultato e’ l’output finale della rete.

Cosa succede se per i nostri percettroni utilizziamo delle funzioni di attivazione lineari?

L’uscita finale della rete sara’ ancora una qualche funzione lineare degli ingressi, opportunamente aggiustati con tanti pesi diversi collezionati lungo la rete. In altre parole, una composizione lineare di tante funzioni lineari e’ ancora una funzione lineare. Quindi se utilizziamo delle funzioni di attivazione lineari, la rete neurale non sara’ piu’ potente di un singolo percettrone indipendentemente dal numero di strati utilizzati. Per questo motivo la maggior parte delle rete neurali utilizzano funzioni di attivazione non lineari. Le funzioni di attivazione piu’ utilizzate sono: logistica, tangente iperbolica, binaria e rectfier. Nella formula sottostante, k e’ la funzione di attivazione, wi i pesi e gi i vettori in ingresso.

Di seguito la schematizzazione di un singolo neurone con funzione di attivazione a soglia. Il neurone riceve in ingresso uno stimolo dato dalla somma del prodotto dei singoli ingressi per i pesi associati. Nel nostro caso U=1.5·0.5+1·3+2·(-1)=1.75. Se la somma supera una certa soglia (nel nostro esempio il valore theta) il neurone si attiva e in uscita si avra’ il valore U-ɵ=1.75-1=0.75

L’algoritmo piu’ comune per il learning (addestramento) di un percettrone a multistrato e’ conosciuto come backpropagation. La procedura di base e’ la seguente:

· Un campione per il training viene presentato in ingresso alla rete e propagato attraverso di essa.

· In uscita viene calcolato l’errore E=0.5(t-y)2 dove t e’ il valore di riferimento (target) e y e il valore reale calcolato dalla rete.

· L’errore E viene minimizzato usando un metodo chiamato stochastic gradient descent. Il valore ottimale di ogni peso viene determinato in modo da far raggiungere all’errore un minimo globale. Durante la fase di training, i pesi vengono cambiati di poco nella direzione del minimo globale, anche se questa non e’ un’attivita’ semplice visto che spesso i pesi raggiungono dei minimi locali come quelli mostrati di seguito.

L’algoritmo di backpropagation fornisce un metodo per aggiornare ogni peso tra due neuroni rispetto all’errore di uscita. Il peso di un dato nodo (per esempio il nodo i-esimo) viene aggiornato seguendo la semplice relazione:

dove E e’ l’errore di uscita della rete e wi e il peso in input al neurone i-esimo. Il parametro alfa controlla la velocita’ di discesa lungo il gradiente, e nei casi piu’ semplici e’ una costante. Si tratta di muoversi nella direzione del gradiente rispetto al peso wi. Dapprima vengono calcolati gli errori in uscita delle diverse unita’, e quindi propagati all’indietro nella rete in modo efficiente per cercare di raggiungere il minimo globale.

Lo strato nascosto (hidden layer) e’ dove la rete immagazzina la rappresentazione astratta dei dati di training, cosi come il cervello ha una rappresentazione interna del mondo reale. Secondo il teorema dell’approssimazione universale, un singolo strato nascosto con un numero finito di neuroni puo’ essere specializzato ad approssimare qualsiasi funzione. Comunque nella realta’ una rete neurale puo’ avere piu’ di uno strato nascosto per permettere astrazioni maggiori anche se ci sono degli effetti collaterali.

Man mano che si aggiungono strati nascosti, l’algoritmo di backpropagation diventa meno utile nel passare le informazioni agli strati precedenti. Si puo’ presentare inoltre, il cosiddetto problema di overfitting. Esso descrive il fenomeno dell’interpolazione dei dati di training in modo troppo “preciso” (lasciatemi passare il termine), e la rete finisce col perdere in flessibilita’. E’ come se la rete imparasse a memoria perdendo la capacita’ di generalizzare cioe’ la capacita’ di fornire una risposta corretta a nuovi ingressi (non presentati nella fase di addestramento della rete).

Altro problema che affligge tutti i sistemi di apprendimento supervisionato (cioe’ quelli con addestramento) e’ la cosiddetta maledizione della dimensionalita’, un progressivo decadimento delle prestazioni all’aumentare della dimensione dello spazio di ingresso. Questo avviene perche’ il numero di esempi necessari ad ottenere un campionamento sufficiente dello spazio di ingresso aumenta esponenzialmente con il numero delle dimensioni.

Per superare questi problemi sono stati sviluppati degli algoritmi particolari. Il primo e’ quello delle reti auto-associative progettate ed addestrate per trasformare un pattern in ingresso in se stesso, in modo che, in presenza di una versione degradata o incompleta di un pattern di ingresso, sia possibile ottenere il pattern originale. Una rete auto-associativa in generale e’ una rete neurale feedforward con 3 strati: un ingresso, un’uscita e uno strato nascosto. Concettualmente, la rete viene addestrata per ricreare in uscita i dati presentati in ingresso con lo strato nascosto che immagazzina i dati compressi cioe’ una rappresentazione compatta che cattura le caratteristiche fondamentali dei dati in ingresso. Una vera e propria riduzione della dimensione del campione in ingresso.

 

Il secondo algoritmo sviluppato e’ stato quello delle cosiddette Restricted Boltzmann machines (RBM) un tipo di rete neurale stocastica.

Questo tipo di rete e’ composto da uno strato di ingresso/uscita chiamato visibile e uno strato nascosto. Diversamente dalle reti feedforward, le connessioni tra lo strato visibile e quello nascosto sono non direzionali (cioe’ i dati possono viaggiare in entrambi le direzioni visibile-nascosto e nascosto-visibile) e le diverse unita’ neuronali possono essere completamente connesse (in questo caso si parla di macchina di Boltzmann) o parzialmente connesse (in questo caso si parla di macchina di Boltzmann ristretta). In generale una rete RBM ha le unita’ binarie (con stati 0 o 1) assegnate con una certa probabilita’ secondo una distribuzione di Bernoulli.

Queste reti erano note agli scienziati fin dagli anni 80 ma solo di recente hanno visto di nuovo un grosso interesse da parte della comunita’ scientifica in seguito all’introduzione di un nuovo algoritmo di training (addestramento) non supervisionato chiamato “contrastive divergence”.

Questo algoritmo e’ costituito da 3 fasi: quella positiva, quella negativa e quella dell’aggiornamento dei pesi.

Fase positiva

· Un campione v (si tratta di un vettore multidimensionale) e’ presentato in ingresso alla rete

· Il vettore v e’ propagato allo strato nascosto allo stesso modo delle reti feedforward; indichiamo il suo output con il vettore h.

Fase negativa

· Si propaga il vettore h indietro allo strato visibile ottenendo un nuovo vettore v’

· Il vettore v’ viene propagato indietro allo strato nascosto ottenendo un nuovo vettore h’

Aggiornamento dei pesi

w(t+1)=w(t)+a(vhT-v’h’T)

dove a rappresenta la velocita’ di apprendimento della rete e T indica il vettore trasposto (l’operazione di trasposizione trasforma una riga in colonna e viceversa). La fase positiva riflette la rappresentazione interna dei dati reali (h a partire da v). La fase negativa, invece rappresenta il tentativo della rete di ricreare i dati sulla base della rappresentazione interna (v’ a partire da h). Lo scopo principale dell’algoritmo e’ quello di generare dei dati il piu’ vicino possibile ai dati reali e questo e’ riflesso nella formula di aggiornamento dei pesi. In altre parole, la rete ha una qualche percezione di come i dati in ingresso possono essere rappresentati, e quindi prova a riprodurre i dati reali sulla base di questa percezione. Se la riproduzione non e’ abbastanza vicina alla realta’, la rete aggiorna i pesi e prova di nuovo.

Sia le reti auto-associative che le macchine di Boltzmann hanno la proprieta’ interessante di avere le unita’ nascoste che funzionano come dei veri e propri rivelatori di caratteristiche “feature detectors” e questo e’ alla base delle deep neural net come vedremo tra poco. Prima vediamo meglio la proprieta’ delle unita’ nascoste. Supponiamo di voler addestrare una rete neurale a distinguere immagini che rappresentano delle motociclette da quelle che rappresentano dei visi. Abbiamo molti pixels in ingresso e un output pari a 0 per le motociclette e un 1 per un viso. Se usassimo una rete neurale con un singolo strato e un peso per ogni pixel quello che la rete cercherebbe di fare e’ classificare ogni pixel come appartenente ad una moto o ad un viso. Ovviamente questo e’ impossibile in quanto un pixel nero potrebbe essere parte sia dell’immagine della moto che di un viso. Sicuramente sarebbe piu’ utile avere a disposizione un rivelatore di un “manubrio” o di una “ruota”. Sotto la spinta di queste motivazioni sono stati sviluppati dei metodi di “deep lerning” che mirano, tramite l’utilizzo di architetture profonde, all’apprendimento di gerarchie di “features”, con quelle ai livelli piu’ alti formate attraverso la composizione di quelle ai livelli piu’ bassi. Ispirandosi all’architettura profonda del cervello, i ricercatori nel campo delle reti neurali hanno provato ad addestrare reti multistrato sfruttando un algoritmo di apprendimento non supervisionato (le RBM/auto-associative con learning contrastive divergence) e addestrando singolarmente ogni strato nascosto per superare il problema dell’overfitting. Queste strutture stacked (impilate una nell’altra) sono molto potenti e producono risultati veramente impressionanti. Google, per esempio, ha utilizzato una rete profonda costituita da diverse reti auto-associative per imparare a distinguere un viso umano da quello di un gatto (link). Un esempio di rete profonda con blocchi auto-associativi e’ quello mostrato di seguito.

Lo strato nascosto I agisce come strato di ingresso per lo strato nascosto II e cosi via. Il training di una rete del genere procede come segue:

1. Viene effettuato l’addestramento del primo blocco auto-associativo (le connessioni rosse) usando il metodo di backpropagation con tutti i dati di training disponibili.

2. Si effettua l’addestramento del secondo blocco auto-associativo (connessioni verde). Il training inizia presentando i dati in ingresso allo strato rosso e propagato ai neuroni del secondo strato nascosto (quello verde). In seguito vengono aggiornati i pesi (input-hidden e hidden-output) del secondo strato nascosto (quello verde) utilizzando l’algoritmo backpropagation e tutti i dati di training gia’ utilizzati per addestrare il primo strato nascosto. Questa procedura viene ripetuta per tutti gli strati nascosti.

3. Gli steps precedenti vengono chiamati pre-training e servono per inizializzare i pesi della rete. Comunque a questo stadio non esiste ancora un mappatura tra lo strato di ingresso e quello di uscita. Per realizzarla, la rete viene addestrata come una normale feedforward usando l’algoritmo di backpropagation (questo step viene chiamato fine-tuning).

Come con le reti auto-associative, e’ possibile “impilare” anche delle macchine di Boltzmann (RBM) per realizzare delle reti deep conosciute come Deep Belief Netwroks (DBN). In questo caso lo strato nascosto della prima RBM funzionera’ da strato visibile per lo strato nascosto della seconda RBM e cosi via. Lo strato di ingresso della prima RBM e’ lo strato di ingresso dell’intera rete.

L’addestramento della rete procede in questo modo:

1. Viene effettuato il training della prima RBM utilizzando l’algoritmo “contrastive divergence” utilizzando tutti i dati di addestramento.

2. Parte l’addestramento della seconda RBM. Poiche’ lo strato visibile della seconda RBM e’ lo strato nascosto della prima RBM, l’addestramento inizia presentando i dati di training in ingresso alla prima RBM e da qui propagati. La stessa cosa verra’ ripetuta per tutti gli strati nascosti.

3. Allo stesso modo delle reti auto-associative stacked, dopo il pre-training va fatta la mappatura dello strato di ingresso e quello di uscita utilizzando l’algoritmo di backpropagation (fine-tuning).

Le deep neural networks hanno fatto “risorgere” l’interesse per l’intelligenza artificiale da parte degli scienziati del mondo accademico e di quelli di compagnie come Google, Facebook e Microsoft. Gli sforzi di questi teams sono impressionanti: basta ricordare i progressi fatti nell’ambito del riconoscimento vocale, del riconoscimento delle immagini e delle traduzioni automatiche, giusto per citarne alcuni. La mole di dati nonche’ la potenza di calcolo a disposizione oggi e’ di diversi ordini di grandezza superiore a quella di alcuni anni fa. Questo non puo’ che aiutare lo sviluppo di algoritmi di apprendimento sempre piu’ sofisticati. Di sicuro saremo testimoni di una svolta epocale nell’ambito dell’intelligenza artificiale. Non ci resta che attendere.

giovedì 31 luglio 2014

La luce che rivela l’eta’ delle ceramiche

 

Negli ultimi anni l’archeologo si avvale sempre piu’ del supporto di ricercatori scientifici. E’ in via di sviluppo sempre crescente infatti, un nuovo settore della fisica: l’archeofisica il cui interesse va dalla datazione di reperti antichi alle tecniche analitiche nucleari che impiegano la radiazione per scandagliare la materia. All’interno di questo sviluppo rientra lo sforzo di numerosi laboratori in tutto il mondo per mettere a punto dei metodi di datazione di reperti fittili archeologici con l’analisi della Termoluminescenza (in breve TL). Come la stessa etimologia indica, si tratta di emissione di luce stimolata termicamente, da parte di materiali cristallini non conduttori, una volta che essi siano stati irraggiati con radiazione (particelle alfa, radiazione beta, raggi gamma, raggi X, ecc.). Per spiegare questo fenomeno, conviene ricorrere ad un modello schematico semplificato.
Quando la radiazione attraversa la materia, la sua energia viene degradata in seguito alle interazioni con gli atomi che incontra lungo il suo percorso: uno degli effetti di queste interazioni e’ la ionizzazione degli atomi, cioe’ la liberazione di elettroni. Questi, una volta liberi, cominciano a vagare all’interno del materiale fino a quando si ricombinano (transizione 1 nella figura sottostante) con cariche di segno opposto (lacune) o vengono intrappolati in particolari imperfezioni della struttura del cristallo (trappole) in cui possono rimanere anche per migliaia di anni (transizione 2 del grafico). Quando si effettua il riscaldamento del materiale, l’energia termica ceduta, permette agli elettroni di sfuggire dalle trappole (transizione 3). Una volta liberi, quelli che si ricombinano con i centri luminescenti (un altro tipo di imperfezione del reticolo cristallino) danno origine ad emissione di luce (transizione 4 e 5), cioe’ a quella che abbiamo chiamato Termoluminescenza.



Questa luce viene raccolta tramite un fotomoltiplicatore e registrata in funzione della temperatura ottenendo cosi una curva chiamata “glow-curve”, che in realta’ e’ costituita dalla sovrapposizione di un insieme di picchi dovuti alle trappole termoluminescenti localizzate a differenti profondita’ e quindi svuotabili a diverse temperature. In generale i picchi a basse temperature sono considerati provenienti da trappole instabili, in quanto poche profonde e quindi svuotabili anche a temperatura ambiente. Per questo motivo nelle misure di datazione si utilizzano solo i picchi ad alte temperature.



L’assorbimento di radiazione aumenta ovviamente il livello di TL osservata in quanto libera elettroni che vengono intrappolati, mentre l’assorbimento di calore dall’ambiente tende a ridurre questo numero. L’intensita’ di TL da un materiale, quindi, e’ il risultato della competizione fra trappole riempite dalla radiazione e trappole svuotate dall’eccitazione termica. Ad una data temperatura di irraggiamento, molti materiali mostrano un’intensita’ di TL che e’ proporzionale alla quantita’ di energia assorbita per unita’ di massa (dose). Grazie a questa proporzionalita’ tra emissione di luce e dose assorbita dal campione che e’ possibile datare un oggetto in ceramica. Passiamo adesso a descrivere il sistema termoluminescente costituito dal materiale ceramico. Quest’ultimo consiste di una matrice di argilla cotta, che contiene piccole inclusioni con diametri fino a qualche millimetro. Tali inclusioni (principalmente quarzo e feldspato) sono molto piu’ sensibili nel produrre TL del materiale della matrice. La matrice di argilla inoltre, contiene minime quantita’ di sostanze radioattive (in media circa 5 parti per milione di Uranio, circa 10 parti per milione di Torio e circa 2 parti per milione di Potassio40) dalle quali vengono emesse in continuazione particelle alfa, radiazione beta e raggi gamma, che liberano elettroni, una parte dei quali viene catturata dalle trappole. Quando l’argilla viene cotta in fornace a 700 gradi tutti gli elettroni intrappolati vengono liberati e da quel momento ricomincia il processo di riempimento delle trappole a causa dell’irraggiamento naturale (dovuto alle impurezze radioattive dentro la matrice di argilla, alla radioattivita’ del suolo in cui e’ sepolto l’oggetto, e in piccola parte ai raggi cosmici), irraggiamento che e’ dell’ordine di 0.01 Gy/anno (Gy e’ il simbolo del gray, unita’ di misura della dose assorbita nel SI. Un Gy e’ pari a 100 rad, unita’ oggi messa al bando). Grazie alla proporzionalita’ tra TL e dose assorbita e all’assunzione che l’irraggiamento naturale sia costante, misurando la TL di un campione di ceramica si ricava la dose totale assorbita e valutando la dose accumulata in un anno si ottiene facilmente l’eta’, tramite il seguente rapporto:

ETA=Dose totale/Dose annua


Una datazione TL consiste quindi, e nella determinazione della dose che il campione ha assorbito nel passato e la dose annua corrispondente. Ovviamente l’eta’ che cosi si determina e’ l’intervallo di tempo che intercorre tra l’ultimo riscaldamento subito dal campione a temperatura sufficientemente elevata da cancellare ogni TL precedentemente accumulata e il riscaldamento effettuato in laboratorio. Prima di passare a descrivere brevemente le tecniche usate per determinare la dose totale e la dose annua, puntualizziamo alcuni problemi inerenti la datazione con TL. Per prima cosa bisogna sottolineare che questa tecnica e’ distruttiva, nel senso che richiede il prelievo e la distruzione di una quantita’ di campione variabile da alcuni grammi ad alcune decine di grammi. Cio’ costituisce, indubbiamente, un problema, ma poiche’ in genere non si data un singolo reperto ma piuttosto uno strato, e’ sempre possibile trovare e sacrificare dei campioni coevi di scarso rilievo estetico. Va sottolineato ancora che non e’ possibile datare con molta accuratezza reperti di cui non si conosca il luogo di provenienza, in quanto per valutare la dose annua con precisione sono necessarie misure effettuate in loco e la conoscenza del contenuto di umidita’ del terreno. In merito all’errore con cui vengono forniti i risultati delle datazioni TL, questo e’ compreso tra il 6% e il 10%, a seconda delle caratteristiche dei campioni, del numero di valutazioni e della precisione con cui vengono effettuate le varie misure. Vediamo adesso come si determina la dose totale assorbita da un reperto dal momento della sua cottura.
 


Una delle tecniche attualmente utilizzate e’ chiamata fine-grain. La ceramica puo’ essere schematizzata a livello microscopico come un insieme di grani di dimensioni diverse, praticamente sferici, e continuamente sottoposti ad irraggiamento uniforme da parte dei radioisotopi naturali presenti al suo interno e nell’ambiente. In essa le particelle alfa, prima di arrestarsi completamente, percorrono qualche micrometro, quelle beta qualche millimetro e i raggi gamma diversi centimetri. Secondo questa tecnica si selezionano i grani di dimensioni tali da venire attraversati da tutti e tre i tipi di radiazione, e si misura in essi una TL che e’ quindi effetto della somma dei tre contributi. Per arrivare, quindi alla misura della dose totale si procede nel modo seguente: una volta preparato un certo numero di campioni, su una parte di essi si misura la TL naturale, mentre sugli altri la TL naturale piu’ la TL artificiale, indotta da dosi artificiali di radiazione beta impartite in laboratorio (β123 ...). Si costruisce cosi una retta come quella mostrato nel grafico qui sotto, ed ipotizzando che la linearita’ osservata valga su tutto l’intervallo si valuta la dose totale o dose beta equivalente, come intercetta sull’asse della dose (indicata con Q nel grafico qui sotto).



Quella che viene indicata nella figura con I(TL) indica il segnale termoluminescente, cioe’ l’area sottesa alle glow-curve mostrate sulla sinistra. Qui di seguito la rappresentazione schematica di un tipico sistema di misura TL.
 



In realta’ non deve trarre in inganno la semplicita’ della tecnica ora esposta, in quanto vi sono tutta una serie di problemi come: la sopralinearita’ delle ceramiche a basse dosi, la validazione del loro fading (fenomeno di svuotamento spontaneo dei picchi di TL), la diversa efficienza delle particelle alfa rispetto alla radiazione beta e gamma nell’indurre la TL, e per ultimo, l’esistenza di TL spuria, cioe’ non indotta da radiazione che va opportunamente eliminata. Per comodita’, conviene scrivere la dose annua D come:
D=Dα+Dβ+Dγ+Dc
cioe’ prendendo in considerazione separatamente i contributi alfa, beta, gamma e dei raggi cosmici. Il contributo delle alfa e delle beta e’ dovuto esclusivamente alle sostanze radioattive presenti all’interno della ceramica, a causa della loro bassa capacita’ di penetrazione, mentre il contributo gamma proviene dall’ambiente circostante per la loro alta capacita’ di penetrazione. Vi sono diverse tecniche per misurare il contributo di queste radiazioni alla dose annua, ma tre sono le piu’ semplici e piu’ usate. Per misurare la dose annua effettiva dovuta alle alfa, si usa la tecnica del “conteggio alfa”: uno strato di campione polverizzato e’ posto su di uno schermo di ZnS(Ag) che a sua volta e’ posto sulla finestra di un fotomoltiplicatore. Ogni particella alfa che colpisce lo schermo produce una scintillazione ( un piccolo lampo di luce) che produce all’uscita del fotomoltiplicatore un impulso elettrico. Dal conteggio delle alfa si puo’ risalire al tasso di dose alfa. La misura della dose dei raggi beta viene fatta per mezzo della TL stessa. Ci sono infatti, alcuni fosfori che sono cosi altamente sensibili che loro esposizione per alcune settimane ad una sorgente radioattiva induce un livello misurabile di TL. Il campione polverizzato e’ posto in un contenitore di perspex, il cui fondo presenta una sottile finestra di plastica che permette alle particelle beta ma non alle alfa di emergere. Un dosimetro TL e’ posto immediatamente al di sotto della finestra; questo come gia’ detto sopra e’ un fosforo contenuto in un vassoio di rame e la TL acquistata in parecchie settimane (da cui poi si ricava il tasso di dose assorbito) e’ misurata usando un forno adatto. Ovviamente tutta l’unita’ e’ posta dentro un recipiente di piombo per schermare il dosimetro dai raggi cosmici e dai raggi gamma esterni. Per misurare il tasso di dose gamma e il tasso di dose dei raggi cosmici, si inserisce un dosimetro TL nel suolo di rinvenimento del reperto e lo si lascia per parecchi mesi, in modo che assorba una dose gamma e da raggi cosmici “rappresentativa” di quella assorbita ogni anno nei secoli di sepoltura del reperto. Il dosimetro al solito e’ un fosforo termoluminescente contenuto in una capsula di rame, il cui spessore delle pareti e’ tale da bloccare le particelle alfa e beta. Una volta recuperata, questa capsula e’ portata in laboratorio per la misura e la valutazione della dose accumulata. Anche qui, come nel caso della misura della dose totale, vi sono alcuni problemi. La determinazione accurata dei tassi di dose richiede un’assunzione di equilibrio secolare nelle catene di decadimento, dove i nuclei figli si disintegrano e si formano alla stessa velocita’. Questa assunzione, quindi, richiede che non vi sia nessun meccanismo attraverso il quale alcuni isotopi possano essere persi. In realta’, invece, questo e’ proprio quello che accade e la causa piu’ frequente di disequilibrio e’ la perdita di gas radon, dalla serie dell’uranio. Comunque si puo’ stimare il tasso di perdita del radon tramite la tecnica del “conteggio alfa”, dopo aver catturato il gas fuggito in un’opportuna cella a gas, e quindi effettuare le dovute correzioni. In aggiunta alla emanazione del radon e’ necessario fare anche una misura del contenuto di acqua nella ceramica. E cio’ perche’ l’acqua contenuta nei pori attenua la radiazione, rendendo cosi piu’ bassa la dose assorbita a parita’ di concentrazione di impurezze radioattive. Si pesa quindi il campione nelle condizioni in cui lo si ritrova e, dopo aver eliminato l’acqua in esso contenuta, si calcola un fattore di correzione per la dose alfa e beta. In conclusione, una volta misurata la dose totale e la dose annua, si determina l’eta’ del reperto. Di seguito un’illustrazione delle principali fasi dell’applicazione della metodologia di datazione mediante termoluminescenza nel caso di reperti ceramici di origine archeologica.



Recentemente il metodo di datazione con la luminescenza e' stato applicato con successo anche alle rocce che sono state esposte alla luce del sole prima di essere inserite per esempio in un muro e quindi non piu’ esposte alla luce del sole. La misura della luminescenza ci dira’ quanto tempo e’ passato da quando la superficie interna della roccia e’ stata esposta per l’ultima volta alla luce del sole e quindi quanto e’ vecchio il muro. La quantita’ di radiazione assorbita dalla superficie della roccia e' quella che ha ricevuto nel tempo una volta che la superficie e’ stata coperta con altri materiali e non piu’ esposta al sole. Questa e’ la dose totale assorbita dal campione. Come fatto per le ceramiche se questa quantita’ viene divisa per la dose proveniente dall’ambiente in cui si e’ trovata la roccia in un anno essa ci da’ l’eta’ del materiale. Il prelievo  dei campioni nel caso di un  muro e’ effettuato da rocce vicino al terreno per essere sicuri che non siano state mosse nel corso dei secoli e quindi le cui facce nascoste non hanno mai visto la luce del sole. Una volta che I campioni vengono prelevati essi vengono chiusi immediatamente in una busta nera per evitare l’esposizione alla luce del sole. Per calcolare la dose di radiazione ricevuta dal campione dall’ambiente tipicamente si usa un contatore Geiger.I campioni una volta prelevati vengono portati in laboratorio e preparati in una camera oscura. Essi vengono puliti con acidi diluiti e poi viene macinata la superficie del campione ad una profondita’ non piu’ del millimetro. La polvere quindi viene selezionata in base alla dimensione dei grani per identificare la presenza di quarzofeldspati o calcite i minerali utili per la datazione in quanto accumulano la radiazione. Questi grani vengono irradiati con sorgenti radioattive note, riscaldati ad una temperatura di 500 gradi e misurata la luce emessa (la luminescenza appunto). Si puo’ usare anche un altro metodo che prevede l’irraggiamento del campione con una luce blu, verde o infrarossa al posto del riscaldamento. Ancora una volta la luce emessa (luminescenza stimolata da luce ottica) viene registrata e quindi utilizzata per calcolare l’eta’ della roccia. 

Un grazie a mia figlia Francy per avermi aiutato nella compilazione del documento.


giovedì 15 maggio 2014

Perché l’evoluzione porta i sistemi all’edge del caos?

 

Tutti i sistemi viventi si sono evoluti per raggiungere   stati di enorme ordine e complessita’. E’ possibile che la selezione naturale da sola possa spiegare tutto cio’ ? Probabilmente no. Soprattutto se pensiamo all’innata tendenza di tutti i sistemi adattativi a muoversi verso stati di auto-organizzazione e quindi di massimo ordine. Tutti i sistemi complessi compresi quelli biologici prosperano al cosiddetto “edge of chaos” dove le forze evoluzionistiche operano. L’auto-organizzazione e’ una caratteristica peculiare di qualsiasi sistema complesso aperto e lontano dall’equilibrio. Come sottolinea lo scienziato Stuart Kauffman, e’ su quest'ordine che opera la selezione naturale di Darwin adattandolo all’ambiente. In altre parole la selezione naturale non e’ la sola sorgente dell’ordine in biologia. I sistemi complessi adattativi hanno la proprietà fondamentale di auto-organizzarsi in stati sempre più ordinati finche’ hanno la capacità di scambiare materia ed energia con l’ambiente circostante. La selezione naturale sfrutta il già pre-esistente ordine dei sistemi complessi per far si che una popolazione si adatti alle condizioni ambientali. Il comportamento a lungo termine dei sistemi dinamici può essere classificato in due regimi diversi: quello ordinato e quello caotico. La differenza principale tra i due regimi consiste nel fatto che partendo da due punti molto vicini, nel caso del sistema ordinato, questi punti rimarranno sempre molto prossimi tra loro al trascorrere del tempo mentre per il caso caotico anche due punti molto vicini all’inizio divergeranno sempre di più col trascorrere del tempo. Nonostante questa differenza i due sistemi hanno una proprietà in comune: entrambi arrivano nel loro stato finale molto velocemente e li rimangono intrappolati per sempre. In altre parole entrambi mostrano dei transienti finiti. Ciò però non e’ profittevole da un punto di vista evoluzionistico, dove l’eterna ricerca di nuove forme e’ imperativa. Ecco perché’ i sistemi dinamici evoluzionari tendono a stabilirsi al confine tra l’ordine e il disordine nel loro spazio delle fasi. In questo stato i fenomeni transienti sono eterni, e il sistema quindi non raggiunge mai il suo destino finale, preservando la diversità, cioè la possibilità di esplorare altre regioni dello spazio degli stati e non solo la piccola regione occupata dal suo attrattore finale.

Cerchiamo di capire meglio questi concetti ricorrendo a un esempio. Consideriamo un sistema dinamico regolato dalla seguente formula chiamata mappa logistica:

xt+1=a·xt(1-xt)

dove xt e’ la variabile dinamica (cioè che dipende dal tempo t) che descrive il sistema e xo il sua valore iniziale. L’orologio interno di questo sistema scorre in modo discreto. Il parametro di controllo a e’ mantenuto costante durante l’evoluzione temporale del sistema. Questa mappa e’ stata introdotta quasi un secolo e mezzo fa per modellizzare la crescita delle popolazioni, dove a rappresenta il tasso di nascita per ogni generazione.

Supponiamo per questione di semplicita’ che 0<xo<1 e che 0<a<4. Questo forza la variabile dinamica del sistema a essere compresa tra 0 e 1.

La mappa logistica e’ molto semplice da programmare, e quindi facilmente si possono ammirare le diverse dinamiche che essa genera modificando il suo parametro di controllo a.

La prima osservazione che si può fare e’ che per a<1, il valore di xt tende a zero per tempi t molto lunghi. Al contrario, xt raggiunge un valore diverso da zero stabile se 1<a<3. C’è un punto di transizione tra l’estinzione e la stabilità in corrispondenza di a=ao=1. In entrambi i casi, estinzione o stabilità, l’attrattore (cioè il destino finale del sistema) e’ un singolo punto fisso x*=0 per a<1 o x*=1-1/a per 1<a<3. Il tempo di transizione corrisponde al numero di iterazioni necessarie per arrivare ad x* partendo da xo. Più il parametro di controllo e’ vicino al valore critico ao=1 e maggiore sarà il tempo di transizione. Per valori di a prossimi ad 1 il sistema evolve secondo una funzione con decadimento esponenziale:

xt-x*~e-|a-1|t

In questo caso il tempo di transizione e’ dato da:

tau=1/|a-1|

e dipende solo dal valore del parametro a. In generale qualsiasi sistema che obbedisce a una legge di decadimento esponenziale, ha un tempo caratteristico ben definito che rappresenta la sua scala naturale, durante la quale si presentano tutti i fenomeni più importanti. In altre parole, tau misura la vita media del sistema nel senso che dopo questo tempo cessano tutte le attività.

La situazione e’ completamente diversa per a=1, cioè quando la mappa logistica e’ in una situazione critica. In questo caso vale la relazione:

xt-x*~t-1

dove adesso al posto dell’andamento esponenziale abbiamo una funzione di potenza. Questo comporta un tempo di transizione infinito, e quindi tutte le scale temporali sono importanti. Tra tutti i valori di a nell’intervallo 0-3, il valore a=1 rappresenta il transiente eterno. Questa caratteristica matematica e’ praticamente generale, cioè vera per tutti i sistemi dinamici, tanto da essere presa come definizione di criticità. In queste condizioni il sistema presenta una memoria a lungo termine nel senso che il suo stato corrente e’ la conseguenza di molte caratteristiche accumulate durante tutta la sua lunga storia.

Oltre al valore a=1, esistono altri punti critici. Il primo si presenta per a=3, oltre il quale l’attrattore non e’ più un punto fisso. Infatti, per 3<a<3.449 l’attrattore diventa un ciclo con periodo 2, cioè una sequenza di due stati che si alternano all’infinito. Il successivo punto critico si trova ad a=3.449, oltre il quale l’attrattore diventa un ciclo di periodo 4 e cosi via. In effetti, c’è una cascata di punti critici a0, a1, a2, ... e ad ognuno di essi c’è un raddoppiamento di periodo. Questa cascata finisce ad a=3.570, dove comincia il comportamento caotico del sistema. Ad ogni modo anche all’interno della regione caotica tra 3.570 e 4, appare di nuovo qualche finestra di ordine subito dopo il punto critico a3~3.828. Si tratta di un ciclo con periodo 3. In definitiva ci sono una serie di transizioni da una specie di attrattore ad un altro (punto fisso, cicli periodici, attrattori caotici, cicli periodici dispari, attrattori caotici di nuovo e così via…). Il sistema può diventare critico solo nei punti di transizione a0, a1, a2, ..., mentre tra di essi il sistema presenta un decadimento esponenziale, cioè un transiente finito. Questo implica che anche il regime caotico non e’ critico da un punto di vista della memoria, poiché l’attrattore corrispondente è raggiunto in tempi esponenzialmente corti. Nel nostro caso, comunque, non siamo tanto interessati a classificare i sistemi in ordinati o caotici, quanto a distinguere transienti temporali finiti da quelli infiniti. Per la mappa logistica risulta ormai chiaro che solo in corrispondenza dei punti critici il sistema mostra una memoria a lungo termine, mentre per tutti gli altri valori del parametro di controllo a, indipendentemente dal regime (ordinato o caotico), il sistema mostra una memoria corta.

Diagramma della mappa logistica.

Un altro aspetto importante da sottolineare e’ la chiusura del sistema. Se un sistema dinamico e’ chiuso, questo significa che anche il tempo e’ limitato e quindi i transienti cesseranno rapidamente e ciò e’ contro l’evidenza essendo l’evoluzione, un processo eterno, senza fine. Questo implica che affinché’ ci sia evoluzione i sistemi dinamici devono essere aperti e rifornirsi continuamente di cibo, energia, informazione, calore, massa etc. Una volta processate queste entità, il sistema getta via il rimanente; da questo punto di vista il sistema e’ dissipativo.

Questo significa che tali sistemi dissipativi, devono avere una dinamica che evolve verso qualche attrattore rimanendo intrappolati su di esso in modo irreversibile.

Da un punto di vista dell’evoluzione però, questa dinamica non e’ conveniente. Infatti, una volta che il sistema e’ intrappolato in un piccolo volume dello spazio degli stati (l’attrattore appunto), la probabilità di esplorare nuovi stati (per cercare forme migliori di quella attuale) e’ praticamente nulla.

D’altra parte, l’evoluzione all’interno di un sistema chiuso non può essere descritta da una dinamica non dissipativa, anche se teoricamente ciò risolverebbe il problema della visita di tutti gli stati possibili da parte del sistema.

Come fa la Natura a risolvere questo puzzle?

La strategia e’ molto semplice. Adottare una dinamica critica, cioè evitare il minuscolo attrattore fornito dalla dinamica dissipativa, ed evolvere in un transiente infinito. Il sistema evoluzionistico, sintonizza naturalmente i suoi parametri interni in modo da rimanere sempre in un punto critico. Il minuscolo attrattore può essere interpretato come la migliore forma attuale del sistema. Poiché’ la selezione naturale ha bisogno della diversità per ottenere le migliori forme possibili e’ necessario uno spazio maggiore di quello occupato dall’attrattore. E questo e’ quello che fa una dinamica critica. Il sistema rimane sempre molto vicino all’attrattore che rappresenta la migliore forma attuale, ma non e’ mai intrappolato in esso. In questo modo, qualsiasi modifica dell’ambiente esterno costringe il sistema ad adattarsi in una nuova posizione di equilibrio che si troverà con alta probabilità nell’intorno dell’attrattore, tenuta in vita dal sistema insieme alla prima forma “ottimale”.

La dinamica in un punto critico quindi, fornisce il grado di diversità di cui la selezione naturale ha bisogno. Se il processo dinamico non e’ critico, non c’è diversità, il che significa nessuna selezione e quindi nessuna evoluzione.

In definitiva, i sistemi evoluzionari si spostano verso i punti critici (l’edge del caos), poiché in tutte, gli altri stati (regime ordinato o caotico) sarebbero rapidamente intrappolati in minuscoli attrattori, perdendo cosi la diversità non dando la possibilità alla selezione naturale di fare il suo lavoro.

Un sistema complesso non può essere definito con precisione; esso si può trovare soltanto collocato tra l’ordine e il disordine, in uno stato di criticità auto-organizzata (SOC); non è né ‘prevedibile e regolare (come la struttura rigida e statica delle molecole in un cristallo), ne’ casuale e caotico (come le molecole di un gas). Un sistema complesso, infatti, mostra caratteristiche intermedie essendo talvolta prevedibile per certi aspetti (a livello locale) e sorprendentemente imprevedibile per altri (a livello globale). Questa posizione intermedia, in equilibrio tra “rigidità” e “turbolenza” è quella che si definisce il confine del caos. Nei sistemi che si auto-organizzano in uno stato di criticità, l’azione di ciascun singolo elemento può influenzare qualunque altro e qualsiasi cambiamento a livello locale, anche piccolo, può potenzialmente avere ripercussioni catastrofiche sull’intero sistema (come si verifica ad esempio con l’aggiunta di un singolo granello su una pila di sabbia; Bak, 1996). Il sistema allo stato critico è un'unità funzionale le cui proprietà emergenti non possono essere studiate andando ad analizzare i singoli elementi che lo compongono perché la sua complessità è maggiore della somma delle complessità dei sui elementi costitutivi.

La struttura di un sistema complesso derivante dall’auto-organizzazione è ben rappresentata dall’immagine di una rete, dove ciascun'unità fondamentale è un nodo e le interazioni instaurate sono i collegamenti della rete stessa. La distribuzione dei collegamenti tra i nodi tende a seguire una legge di potenza: ci sono molti nodi con pochi collegamenti e solo pochi nodi con molti collegamenti. Poiché un sistema SOC si auto-organizza in una struttura più complessa della somma delle sue parti, mostra una serie di proprietà, dette “emergenti”, che non possono essere ridotte alla mera addizione delle proprietà individuali dei suoi singoli costituenti. Ad esempio, una cellula è vivente pur essendo composta da molecole inanimate e l’oro appare lucente, giallo e malleabile, benché gli atomi che lo compongono presi singolarmente non mostrino tali qualità. Quindi, pur conoscendo tutti gli elementi del sistema e le loro interazioni, le proprietà collettive del sistema auto-organizzato sono di fatto imprevedibili, maggiori e diverse dalle proprietà individuali dei suoi costituenti.

Un  esempio di sistema  auto-organizzato è rappresentato da un branco di pesci che appare come un’entità unica grazie allo spostamento armonioso e ben coordinato dei singoli individui che ne fanno parte, senza la necessità di un leader che lo guidi. Ancora una volta tra gli elementi del sistema agenti s'instaurano interazioni non-lineari responsabili del pattern globale. L’interazione da un lato consente ai pesci di organizzarsi in gruppo, essendo ciascun individuo attratto dagli altri poiché in un banco diminuisce il rischio di essere predato, mentre dall’altro di mantenere per ciascun individuo la corretta spaziatura all’interno del banco, ovvero la giusta distanza dai suoi vicini evitando così rischiose collisioni. Ciascun pesce si limita a seguire delle semplici regole (mantenere la corretta distanza dai suoi compagni più vicini) senza dover conoscere la traiettoria e la velocità del banco: in questo modo l’auto-organizzazione di gruppo e un pattern complesso si realizzano a partire da semplici regole comportamentali eseguite a livello locale dai singoli agenti del sistema.

Un altro esempio di sistema biologico complesso e auto-organizzato e’ il nostro cervello; un numero sempre maggiore di ricercatori ritiene che esso si trovi al confine tra l’ordine e il caos, uno stato nello spazio delle fasi che lo rende robusto e flessibile al tempo stesso. Nello stato critico il cervello si può permettere il più grande insieme di azioni utili per la sua sopravvivenza con il minimo numero di aree coinvolte nel generare queste azioni. Il cervello si troverebbe in uno stato critico semplicemente perché’ il mondo in cui esso deve sopravvivere e’ critico

Secondo il punto di vista di Darwin, il cervello va considerato come integrato nel resto della Natura e in co-evoluzione con essa secondo le regole della selezione naturale. Quindi se il mondo fosse sotto-critico allora tutto sarebbe semplice e uniforme e non ci sarebbe nulla da imparare; il cervello sarebbe un qualche cosa di superfluo. Se, invece, il mondo fosse super-critico, tutto cambierebbe continuamente non permettendo al cervello di imparare. Quindi in entrambi gli estremi, un cervello non avrebbe avuto nessuna probabilità di sopravvivere. Da qui deriva la necessità di essere al confine tra l’ordine e il caos.

In un mondo critico, le cose spesso sono le stesse, ma c’è sempre spazio per la sorpresa. Esattamente come per le leggi di potenza, c’è sempre un qualche evento improbabile che ci può riservare delle sorprese.

 

http://arxiv.org/pdf/1012.2242v1.pdf

http://www.amazon.co.uk/Complexity-Life-at-Edge-Chaos/dp/0226476553

http://necsi.edu/events/iccs7/papers/e24fb842408f0a352e61eab19761.pdf

venerdì 2 maggio 2014

Terremoti nel cervello. Legge di potenza per l’epilessia.

 

Verso la fine degli anni ottanta, il neurologo Ivan Osorio

dopo anni di ricerca, si rese conto che non si poteva  capire a fondo cosa determinasse nel cervello l’aumento improvviso dell’attività elettrica conosciuta come attacco epilettico.

Cominciò così a guardarsi intorno, al di fuori del campo medico per cercare di trovare delle similitudini con altri fenomeni. Fu cosi che scoprì per caso la forte somiglianza tra gli attacchi epilettici e i terremoti e subito iniziò a studiare le leggi che regolano quest’ultimi per cercare di gettare nuova luce su cosa avviene nel cervello durante gli attacchi di epilessia. Questo collegamento fu trovato indirettamente, leggendo un articolo pubblicato da uno psicologo su Nature nel 1967, Graham Goddard, che aveva descritto un particolare fenomeno chiamato “kindling”.

Questo scienziato aveva scoperto che stimolando continuamente il cervello di alcuni ratti con impulsi di basso voltaggio, una volta che si innescava un attacco epilettico, c’era bisogno di una stimolazione elettrica minore rispetto alla precedente, per indurre un secondo attacco epilettico. Goddard chiamò questo fenomeno “kindling” in quanto gli ricordava quello che succede, quando si vuole accendere un gran fuoco e si parte con l’usare gradualmente sempre più ramoscelli. All’inizio c’è bisogno di tanti ramoscelli, ma poi quando il fuoco è andato, basta l’aggiunta di pochi ramoscelli per tenerlo acceso.

Si tratta di un fenomeno dove lentamente c’è un accumulo di energia che poi viene rilasciata istantaneamente. I vari impulsi elettrici creano piccoli attacchi epilettici, che accumulandosi pian piano portano poi ad una violenta scarica. Ricorrendo ad un’altra analogia, e’ come avere un mucchietto di sabbia dove  l’aggiunta di un unico granello, genera delle micro-valanghe (piccoli attacchi epilettici) e porta gradualmente il sistema in uno stato critico. A quel punto l’arrivo di un nuovo granello di sabbia può generare una valanga di grandi dimensioni (scarica epilettica violenta).

Nell’ambito dei sistemi complessi, questo rilascio improvviso di energia si chiama ‘rilassamento’. I tempi che intercorrono tra due eventi di rilassamento, in genere, sono molto lunghi, e la quantità di energia rilasciata è cosi grande che può avere delle conseguenze catastrofiche. In base a queste considerazioni è possibile considerare gli attacchi epilettici come degli eventi di rilassamento del cervello?

I sistemi complessi (come i terremoti, internet, i mercati finanziari ...) sembrano mostrare tutti la stessa legge di rilassamento. Ogni volta che all’interno di un sistema complesso, c’è un turbamento, una scossa, un evento estremo che sposta il sistema dal suo stato tipico, esso si rilassa seguendo una legge ben precisa: la legge di Omori.

Omori trovò la sua legge analizzando gli eventi sismici. Da allora in poi i ricercatori hanno verificato che tutti i sistemi complessi sembrano mostrare la stessa legge indipendentemente dal contesto. La legge è una legge di potenza con un andamento del tipo t, dove t è il tempo trascorso rispetto all’evento catastrofico ed alfa una costante. Nel caso dei terremoti, per esempio, la legge di Omori stabilisce che il numero di eventi sismici dopo la scossa principale per unità di tempo, decresce nel tempo con legge di potenza. Questo significa che subito dopo la scossa principale ci sarà un numero elevato di scosse di minore intensità e che questo numero poi rapidamente decadrà andando a zero ma molto, molto lentamente. Ecco perchè anche dopo mesi da una prima scossa si hanno ancora eventi sismici significativi. Il sistema per ritornare al suo stato iniziale, cioè a quello esistente prima della scossa, impiega un tempo lunghissimo. Nella figura 1, viene mostrato il numero di scosse nel tempo per il terremoto che ha colpito l’Aquila il 6 Aprile del 2009. Si può vedere chiaramente l’andamento previsto da Omori (curva color fucsia) con un esponente pari a circa 0.4.

 

Figura 1 Legge di Omori per il terremoto dell’Aquila dell’Aprile 2009.

 

 

 

Figura 2 Legge analoga a quella di Omori per l’andamento della magnitudine massima giornaliera del terremoto dell’Aquila dell’Aprile 2009.

 

Nella figura 2, è riportata invece l’andamento giornaliero della massima magnitudo registrata. Anche in questo caso si può notare un andamento simile alla legge di Omori con un esponente pari a 0.185.

Ma ritorniamo adesso all’epilessia.

Osorio e il matematico dell’Università del Kansas, Mark Frei, avevano presentato la loro idea a diversi congressi, fino a, quando incontrarono il neurologo John Milton, che gli suggerì di confrontare gli attacchi epilettici ai sistemi complessi incluso i terremoti. L’idea era semplice: usare le leggi di un fenomeno per risolvere i misteri di un altro.

Lo stesso Milton favorì l’incontro di Frei e Osori con il geofisico Didier Sorniette, esperto di teoria delle catastrofi e dei sistemi complessi, per cercare di applicare i concetti fisici sviluppati in ambiti diversi, alle previsioni degli attacchi epilettici. Questo team di ricercatori ha eseguito un’analisi quantitativa, confrontando 16.032 casi di attacchi epilettici e 81.977 eventi sismici con magnitudo maggiore di 2.3. Gli attacchi epilettici sono stati definiti come il rapporto adimensionale dell’attività elettrica del cervello in una particolare banda di frequenze con un valore superiore a 22 ed una durata di almeno 0.84 secondi. Da questi dati, sono poi stati estratti due parametri caratteristici: l’energia E (intesa come il prodotto del picco dell’attacco epilettico per la sua durata) e l’intervallo di tempo tra due attacchi consecutivi. Per i terremoti, invece, è stato considerato il momento sismico definito come:

S~101.5M

dove M è la magnitudo del sisma. Nella figura 3 è riportato il confronto tra un segnale epilettico e quello di un sisma. Notare la forte somiglianza tra i due. Stessa cosa per la figura 4, dove viene riportata la distribuzione di probabilità (PDF) per l’energia nel caso degli attacchi epilettici e il momento sismico S dei terremoti. Per entrambi i sistemi, la probabilità che un evento abbia un’energia o un momento sismico maggiore di x è proporzionale a  x-β  dove β~2/3.

Questa distribuzione si differenzia da quella Gaussiana per la presenza di una lunga coda a destra, che si riflette nella presenza di eventi estremi che accadono con una probabilità non trascurabile. Questi eventi estremi si trovano a diverse deviazioni standard dal valore medio predetto dalla distribuzione di Gauss. Queste proprietà sono anche riflesse nel fatto che distribuzioni di potenza illimitate con beta uguale a 2/3 hanno una media ed una varianza infinita.

Un risultato analogo è stato ottenuto per l’intervallo temporale tra due eventi successivi.

 

Figura 3 Confronto tra il segnale elettrico di un attacco epilettico (A) e quello di un terremoto (B). Notare la forte somiglianza.

 

Figura 4 Densità di probabilità del momento sismico e degli attacchi epilettici. Entrambe le statistiche sono compatibili con la stessa legge di potenza con esponente ̴ 2/3.

 

La figura 5, mostra come entrambe le densità di probabilità approssimativamente seguono una legge di potenza sebbene con una pendenza diversa.

Com’è possibile che questi sistemi operanti su scale spaziali e temporali completamente diverse, con processi alla base decisamente diversi, esibiscano tante somiglianze da un punto di vista statistico?

 

Figura 5 Densità di probabilità degli intervalli temporali tra due attacchi epilettici successivi (curva rossa) e tra due terremoti (curva blu).

 

Una possibile speculazione per tale somiglianza potrebbe venire dal fatto che entrambi questi sistemi sono formati da tanti elementi interagenti in competizione tra loro, e che la maggior parte di tali sistemi esibiscono un comportamento auto-organizzato con una statistica che segue una legge di potenza. In parole semplici, gli attacchi epilettici come i terremoti accadono quando l’attività del cervello o della crosta terrestre, visitano la parte destra della distribuzione dell’energia/magnitudo o allo stesso modo la parte sinistra della distribuzione degli intervalli temporali tra due attacchi epilettici o tra due scosse successive. Sia il cervello che la crosta terrestre possono essere simulati con un sistema di oscillatori non-lineari con dinamica instabile e un numero elevatissimo di interconnessioni con proprietà frattali o auto-somiglianti, che si ripetono attraverso una vasta gerarchia di scale spaziali. L’analisi dinamica di tali sistemi ha mostrato che essi si trovano al confine tra lo stato ordinato e quello caotico, come tanti altri sistemi complessi. Una caratteristica fondamentale dei sistemi complessi è proprio la capacità di visitare sia zone ordinate che quelle caotiche (pensate ad un’autostrada dove all’improvviso si forma un ingorgo senza alcun motivo apparente e senza nessun motivo scompare all’improvviso) facendo tesoro dell’esperienza accumulata (effetto memoria o feed-back). Per questi sistemi la somma è maggiore delle parti nel senso che il sistema come un tutt’uno riesce a mostrare comportamenti decisamente complessi che nessuna delle singole parti riuscirebbe a mostrare. È solo l’azione di gruppo, l’interazione tra la maggior parte degli elementi del sistema a far emergere un tale comportamento. La scienza della complessità contrariamente alla fisica riduzionista non cerca di dividere un sistema in parti più semplici da studiare ma cerca di analizzare il sistema come un unico “corpo” che vive ed interagisce con il mondo che lo circonda (sistema aperto da un punto di vista termodinamico). È molto probabile che tutti i sistemi complessi siano retti da leggi universali la cui comprensione potrebbe definitivamente gettare una nuova luce sul comportamento della natura e dell’Universo. Ancora una volta la matematica sembra essere l’unica chiave per aprire la serratura della Natura, e riuscire, così, a carpire il segreto ultimo delle cose.

 

Per approfondire:

http://arxiv.org/ftp/arxiv/papers/0712/0712.3929.pdf

http://chaos1.la.asu.edu/~yclai/papers/PRE_010_OFSML.pdf

http://www.wikio.it