BayesFor.eu

beta

Bayesian web spidering

Traduzioni di questa pagina?:

Menu

Associazione

Progetti

Pagine personali

Traccia: » normalizzazione
::

NORMALIZZAZIONE

Fin dai primi giorni di ideazione e progettazione di Bayes-Swarm ci siamo interrogati sulla possibilità di vari tipi di normalizzazione nel monitoraggio di Bayes-Swarm. Il problema è ampio e non banale: a nostro avviso, una corretta normalizzazione del numero di apparizioni sulla rete di una data parola “X” dovrebbe tenere conto dei seguenti fattori:

1) Numero di fonti se il numero di fonti varia (o il volume di informazioni varia all'interno di ogni fonte) il numero di volte che uno stem è contato varia in proporzione. Questo può essere un problema per alcuni tipi di analisi. Ci occorre quindi di disporre di un dice che sia insensibile al volume di fonti e possibilmente anche al volume di informazioni interne a una fonte (ma questo è un discorso in parte differente vedi punto 2)

2) concentrazione di X nella pagina in cui viene ritrovata: le ripetizione di X 3 volte in una pagina con 10 parole ha piu' significato che in una pagina con 2000 parole;

3) posizione di X nel testo: se X è un titolone a caratteri cubitali, è ben più visibile di una scritta nascosta;

4) numero di visitatori per pagina: se la pagina in cui X appare è molto visitata, la visibilità di X assume un significato diverso da una pagina con minore affluenza di lettori.

Al momento Bayes-Swarm lavora senza effettuare alcuna normalizzazione: i dati che ricava sono, per così dire, “grezzi”.

Ciò nonostante, come mostrato nelle pagine del sito, le time series mostrano trend e “picchi” o “dati anomali”. In particolare, dovendo introdurre nuove fonti e passando alla nuova tipologia di fonte (RSS+home), ci aspettiamo di trovare un drift, ovvero una discontinuità il giorno dopo l'introduzione delle nuove fonti. Ci chiediamo che cosa potremmo essere in grado di “vedere” se fossimo in grado di normalizzare per i fattori (1), (2), (3) e (4) di cui sopra. E soprattutto stiamo ancora studiando quali strade si possano seguire per ottenere una tale normalizzazione.

Considerazioni sulla normalizzazione

Spettrometria di Massa di Ioni Secondari (SIMS)

La Spettrometria di Massa di Ioni Secondari è interessante per introdurre il concetto di normalizzazione per un “elemento” abbondante e “neutro”. Nella tecnica SIMS si colpisce il campione solido con un fascio di ioni O^-^, il che provoca un fenomeno di “sputtering”: il campione va in frantumi costituiti da ioni, polianioni e policationi che vengono poi accelerati tramite differenza di potenziale e differenziati in base al rapporto massa/carica (Istituto di Geoscienze e Georisorse). Per farla breve, poiché il flusso di frantumi che vengono analizzati non è costante, si misura sempre in rapporto ad un isotopo di un elemento maggiore DI CONCENTRAZIONE NOTA TRAMITE ANALISI PRECEDENTI, che rispetti alcune caratteristiche (per esempio poche interferenze con altri ioni/polianioni/policationi). Nel caso di analisi mineralogiche di silicati cristallini o di vetri silicei dunque viene usato l'isotopo ^30^Si del silicio (Whitehouse, 2004). Ma la sua concentrazione deve essere nota!!!, altrimenti non si sa a cosa si sta normalizzando (o “standardizzando”). Una curiosità: nei grafici che riportano le abbondanze degli elementi nell'universo (diagrammi di Harkins, credo si chiamino), nel sistema solare o nella terra o nei meteoriti, si normalizzano le concentrazioni a un milione di atomi di Si (vedi figura allegata). Sia in geochimica che in cosmochimica il silicio viene usato come riferimento.

BIBLIOGRAFIA: Istituto di Geoscienze e Georisorse (IGG) - Sezione di Pavia: “Secondary Ion Mass Spectrometry(SIMS)”, disponibile su http://www_crystal.unipv.it/sims/Simslab/simslab.HTM Whitehouse M.J., 2004 - Multi-Collector SIMS Determination of Trace Lanthanides in Zircon - Geostandards and Geoanalytical Research Vol 28, pp 195-201

la congiunzione "e"/"and" come elemento neutro

Noi abbiamo bisogno della “concentrazione” delle parole. Usare “e” per normalizzare funziona solo se è vero che “e” è ragionevolmente proporzionale al numero di parole, cosa che non abbiamo verificato. Si potrebbero anche utilizzare i punti o le virgole, come mi ha suggerisce la Dr.ssa Barbara Nisi del dipartimento di Scienze della Terra di Firenze. Sempre che la punteggiatura sia ragionevolmente proporzonale al numero di parole, cosa che non abbiamo verificato.

Gli Elementi Conservativi

Altro concetto interessante che potrebbe essere in qualche modo collegato alle nostre future analisi è quello di “elemento conservativo” in geochimica: un elemento conservativo è un elemento la cui presenza è naturale in un determinato ambiente, non dovuta ad anomalie. Nell'acqua di mare gli elementi conservativi per eccelenza sono il sodio e il cloro, nelle acque dolci il calcio. Le concentrazioni dei vari elementi vengono perciò rapportate a quella dell'elemento conservativo scelto. Chiaramente in una certa area soggetta ad evaporazione le concentrazioni di tutti gli elementi aumentano, ma i loro rapporti dovrebbero rimanere costanti a meno di anomalie, che poi è quello che uno spera di trovare, le anomalie dico. Sennò che palle. “World” e “news” sono “parole conservative”? In ogni caso è utile sapere la concentrazione di tutte le parole nel flusso giornaliero. Si potrebbe fare in modo che Bayes-Swarm conti le parole per pagina, normalizzi “obama”i per il numero di parole della pagina i-esima, e poi faccia la media aritmetica di tutti i valori di (“obama”i/numero di parole i).

Letteratura specializzata in linguistica

Nella letteratura linguistica. Parentesi: le congiunzioni e le preposizioni si chiamano “parole vuote (empty words)” contrapposte alle “parole piene”, cioè quelle relative al contesto. Ma non sono riuscito a trovare qualcosa sulla correlazione fra numero totale di parole e parole vuote

commenti

  • PAOLO La somma di alcuni stem molto comuni “e” … dovrebbe tendere a valori omogenei:tentativo_neutrale la figura mostra un problema che swarm ha avuto il 17 e 18 febbraio 2008, bloccandosi a un certo punto della lettura delle fonti.
  • GIULIO Dipende: l'esempio riportato in figura in effetti è riconducibile ad un errore del software proprio nella giornata di domenica. Ma possiamo assumere che gli stem tendano a valori omogenei? O che abbiano una distribuzione di tipo normale o altro? Non abbiamo ancora verificato. Dobbiamo decidere che cosa cercare in letteratura o verificare statisticamente e che cosa assumere o meno. Non dimentichiamo che noi vogliamo normalizzare anche proprio per eliminare queste oscillazioni del flusso di parole giornaliero.

Tentativo di normalizzazione 1: occorrenze/occorrenze empty words

problema del 17/18 febbraio 2008

Alcuni tentativi di trovare un indicatore di volume di parole immesse nelle nostre fonti in un certo giorno hanno dato esiti difficimente interretabili. Siamo comunque partiti dal presupposto che lunedi domenica 17 e lunedi 18 swarm ha avuto un problema: il numero di pagine lette è stato inferiore a quelle programmate. in questo caso come è evidente nel grafico del primo commento tentativo_neutrale anche una somma di parole neutrali mostra un picco verso il basso (coerente con i problemi di swarm e con picchi simili con parole “nonempty”). Abbiamo provato quindi a vedere se un possibile metodo di normalizzazione fosse dividere il numero di ricorrenze dello stem per le apparizioni della somma di stem neutrali (moltiplicando poi per un numero che rendesse le apparizioni normalizzate comparabili con le apparizioni in valore assoluto.

dal dataset swarm20feb08 sono state considerate empty words le parole “che”, “con”, “per”, “del”, “della”. L'indice di correlazione lineare fra queste parole (sempre attorno a +0.76, +0.83) sembra suggerire che la loro presenza sia fortemente correlata (anche se non è un'indicazione univoca che la distribuzione sia anche omogenea, non si vede quale possa essere la ragione per cui “che” covaria con “della”, se non per via di variazioni nel volume di parole nella fonte) Un'ulteriore conferma proviene dalla bassa correlazione per “empty” e “non empty” words: “del” e “veltroni” mostrano una correlazione di + 0.03, “che” e “berlusconi” +0.11. Anche parole teoricamente correlate come “berlsuconi” e “casini” non superano +0.4.

Abbiamo quindi costruito un indice di normalizzazione ottenuto dalla somma delle empty words divisa per 3500. Abbiamo quindi diviso le apparizioni della parola “veltroni” per l'indice di normalizzazione, ottenendo una serie temporale veltroni_n. Se la normalizzazione funziona, allora dovrebbe scomparire la caduta in corrispondenza dei giorni 17 e 18 febbraio. La figura sotto riporta il risultato.

veltroni.jpg

In nero l'andamento dell'indice di normalizzazione, avremmo preferito vederlo meno variabile nel tempo (eccetto per la caduta del 17/18 febbraio evidente a destra[index=63-64]) ma la variabilità potrebbe essere un indice di variabilità nel volume di informazioni realmente immesse in rete nelle nostre fonti.

In verde il conteggio “veltroni” non normalizzato con l'evidente caduta il 17/18 febbraio. In rosso “veltroni_n” normalizzato.

Due commenti (oltre alla variabilità dell'indice di normalizzazione, che dovrà essere indagata separatamente):

  1. “veltroni” e “veltroni_n” sono fortemente correlati e tendono a non esserlo solo in picchi particolari. questa sembra una buona notizia, anche se andrebbe investigato quando e perchè le due serie tendono a separarsi, in ogni caso, visto che il volume di fonti è costante, il comportamento corretto è una sostanziale sovraposizione delle due serie.
  2. le due serie tendono effettivamente a separarsi il 17/18. il che è coerente con un boun funzionamento della normalizzazione. nel momento in cui diminuiscono le fonti lette “veltroni” dovrebbe scendere mentre “veltroni_n” rimanere a livelli “normali”

Il problema con l'esempio “veltroni” è che è una parola molto variabile. non possiamo sapere in quale misura il calo del 17/18 febbraio sia dovuto a una minore presenza di veltroni sulla rete o invece al fatto che swarm ha letto meno pagine. Abbiamo quindi ripetuto l'esercizio su una parola stabile, eliminandola dall'indice di normalizzazione e osservando come cambia il suo andamento se normalizzata. La figura sotto riporta le due serie della parola “che” e di “che_n” normalizzata per un indice differente, dal quale “che” è stata eliminata.

che.jpg

In rosso vediamo le apparizioni della parola “che” In verde la stessa parola normaizzata, come si nota, seppur le due serie non tendano a combaciare perfettamente, l'effetto di calo evidente in rosso nei giorni 17/18 febbraio, è annullato dal procedimento di normalizzaione.

altri esempi: berlusconi bush pd veltroni2

drift simulato

Per verificare il criterio di normalizzazione ipotizzato, abbiamo simulato un drift nel database. Utilizzando un backup, abbiamo eliminato tutte le occorrenze delle parole riferibili alle fonti con identificativo pari fino al 26/1/2008. In questo modo, considerata una serie storica che inizia dal 17/12/2007, i primi 40 giorni di dati sono imputabili a 20 fonti, mentre i secondi 40 giorni a 40 fonti.

Comando sql utilizzato:

DELETE FROM words WHERE page_id IN (SELECT id FROM pages WHERE language_id=2600 AND mod(id, 2) = 0) AND scantime<'2008-01-26';

due serie storiche a confronto

Prendendo come riferimento berlusconi e veltroni, abbiamo plottato le varie serie storiche

drifted normalized

Ecco a confronto le due serie storiche in cui è stato ricavato il drift e cosa si ottiene normalizzando le serie utilizzando la stop word 'che'.

berlusconi veltroni

Le tre serie a confronto per i due stem considerati

funziona!

norma_drift_1_copia.jpg

Torna su :: normalizzazione.txt · Ultima modifica: 2008/03/19 01:01 (modifica esterna)
Mostra sorgente Revisioni precedenti Ultime modifiche Indice