BayesFor.eu

beta

Bayesian web spidering

Traduzioni di questa pagina?:

Menu

Associazione

Progetti

Pagine personali

Traccia: » norma
::

Normalizzazione

Fin dai primi giorni di ideazione e progettazione di Bayes-Swarm ci siamo interrogati sulla possibilità di vari tipi di normalizzazione nel monitoraggio di Bayes-Swarm. Il problema è ampio e non banale: a nostro avviso, una corretta normalizzazione del numero di apparizioni sulla rete di una data parola “X” dovrebbe tenere conto dei seguenti fattori:

  1. concentrazione di X nella pagina in cui viene ritrovata: le ripetizione di X 3 volte in una pagina con 10 parole ha piu' significato che in una pagina con 2000 parole;
  2. numero di fonti: se il numero di fonti varia nel tempo il numero di volte che X è contata varia in proporzione. Questo può essere un problema per alcuni tipi di analisi. Ci occorre quindi di disporre di un indice che sia insensibile al numero di fonti e possibilmente anche al numero di parole pubblicate in ogni fonte (punto 1);
  3. posizione e carattere di X nel testo: se X è un titolo maiuscolo a caratteri cubitali, è ben più visibile di una scritta minuscola nascosta;
  4. numero di visitatori per pagina: se la pagina in cui X appare è molto visitata, la visibilità di X assume un significato diverso da una pagina con minore affluenza di lettori.

Al momento Bayes-Swarm lavora senza effettuare alcuna normalizzazione: i dati che ricava sono, per così dire, “grezzi”.

Ciò nonostante, le time series mostrano trend e “picchi” o “dati anomali”. In particolare, dovendo introdurre nuove fonti e/o cambiando le tipologie delle fonti (“feedRSS” piuttosto che “normali homepage”), ci aspettiamo di trovare dei drift, ovvero delle discontinuità il giorno dopo l'introduzione delle nuove fonti. Ci chiediamo quali fenomeni potremmo essere in grado di “vedere” se fossimo in grado di normalizzare per i fattori (1), (2), (3) e (4) di cui sopra. Stiamo ancora studiando quali strade si possano seguire per ottenere una tale normalizzazione.

torna alla documentazione

Torna su :: bayes-swarm/norma.txt · Ultima modifica: 2008/05/04 18:13 (modifica esterna)
Mostra sorgente Revisioni precedenti Ultime modifiche Indice