Che cos'è un outlier
In statistica si definisce un outlier un'osservazione molto distante dal resto dei dati disponibili. Ad esempio, immaginiamo di aver posto un dispositivo nel televisore di 10 persone, per capire per quante ore guardano TV in media le persone. Osserviamo, per 9 persone un tempo compreso fra 30 minuti e 1 ora e mezzo e poi, per una sola persona 13 ore di TV. Se consideriamo solo i primi 9 otteniamo una stima di circa 1 ora/TV al giorno, ma se consideriamo anche il decimo, la media sale oltre 2 ore! Quale media devo considerare? Spesso in statistica si eliminano gli outlier. Nel nostro caso potrebbe essere che il decimo personaggio si sia addormentato davanti al televisore, lasciandolo acceso per tutta la notte. Oppure potrebbe essere stato che ha trascritto il tempo di accensione a aver scritto 13 invece che 1 e 30.
La scelta se eliminare o tenere un autlier nell'analisi è comunque complessa. Nel caso in cui non si sia in grado di identificare la ragione che ha generato l'uotlier, eliminarlo o tenerlo può divenire una scelta arbitraria e rischiosa.
Veniamo agli outlier di Bayes-Swarm. I dati in questione sono le apparizioni dei nomi “Obama” e “Clinton” nelle fonti in lingua inglese. Il grafico sotto rappresenta quello che ci attendiamo da una campagna elettorale combattuta, botta e risposta, prevalenza alternata di uno o dell'altro dei nomi, con continui saliscendi attorno a valori piuttosto regolari.
Se però diamo un'occhiata non solo ai dati dell'ultimo mese, ma anche al mese precedente ci troviamo davanti un grafico incomprensibile. Un enorme picco, il 6 di Gennaio, sia di Clinton che Obama. In ogni caso, Obama, svetta molto al di sopra di quanto non accada alla Clinton.
Alcune domande sorgono spontanee
- Siamo in presenza di un outlier?
- Cosa è successo quel giorno?
- Si è inceppato Swarm?
- Qual'è la spiegazione?
- Dobbiamo eliminare queste osservazioni?!?
Una risposta alla volta:
- Sì, siamo in presenza di un aoutlier, qualsiasi definizione si prenda di autlier è praticamente certo che questi picchi dovrebbero destare sospetto
- Il Giorno 6 Gennaio non è successo nulla di particolare, siamo 3 giorni dopo la clamorosa vittoria di Obama in Iowa, due giorni prima della rivincita della Clinton in New Hampshire. Nessun clamoroso risultato è stato annunciato quel giorno. Certo la tensione sarà stata alta, visto che una riconferma di Obama due giorni dopo sarebbe stata ancora più clamorosa, ma questo non sembra poter giustificare un picco di molto superiore a qulasiasi picco successivo (compreso il giorno dopo il super-martedi!).
- Sembra naturale ammettere che Swarm si sia inceppato, capita a tutti. In realtà però le tracce lasciate dall'attività di spidering di Swarm non segnalano nulla di anomalo…
- Ci deve essere una spiegazione. Cosa può aver spinto il nome Clinton e il nome Obama, a questi livelii di apparizione? L'arcano è presto spiegato andando a vedere dove swarm ha contato cosi tante apparizioni: la pagina politica del New York Times. Come forse avrete notato questa pagina non riporta solo l'articolo ma anche circa 303 commenti all'articolo, in cui i due candidati democratici sono continuamente nominati! Ecco spiegato il perchè del salto. Swarm ha contato correttamente le apparizioni, contando anche i commenti.
- Dobbiamo eliminare l'osservazione? Ora che abbiamo capito il perchè dell'outlier possiamo chiederci se debba essere mantenuto o meno nel dataset. La questione è complessa. Se il NYT inserisse sempre in fondo agli articoli i commenti, allora non ci sarebbe stata difformità fra i dati del 6 Gennaio e quelli di altri giorni. Sarebbe interessante capire perchè quel giorno, e solo quel giorno sono stati inseriti i commenti. Un errore? O magari una scelta editoriale, dato il particolare momento di tensione nella campagna elettorale? In ogni caso il dato raccolto da Swarm ci segnala che questa scelta è stata fatta, che chi si connetteva al NYT quel giorno non leggeva solo l'articolo ma si trovava davanti anche centinaia di messaggi. Sarebbe certamente un peccato perdere questa informazione, eliminando l'outlier. Allo stesso tempo, considerare l'apparizione del nome di Obama in uno di 300 commenti come quella al centro dell'articolo appare altrettanto problematico…

