Analisi Istituto Digis: rilevamenti PDL 2008 e 2009
[ad]In questo nostro recente articolo abbiamo presentato un’analisi di massima sull’andamento degli Istituti di sondaggi relativi alle Elezioni Politiche Nazionali 2008 ed Elezioni Europee 2009. Abbiamo indicato quali siano stati gli errori medi di ogni Istituto in riferimento ai dati reali delle POL08 (abbreviazione per Elezioni Politiche Nazionali 2008). Abbiamo altresì anche presentato un’analisi di interpolazione polinomiale degli errori delle serie storiche delle POL08, con l’obiettivo di trovare l’evoluzione dell’errore medio di ogni Istituto.
In un nostro commento abbiamo tuttavia messo in evidenza come alcuni Istituti presentino andamenti discordanti, fortemente dipendenti dal momento di rilevazione del sondaggio: alcuni Istituti infatti sembrano sottostimare o sovrastimare taluni partiti apparentemente in modo non lineare.
In questo nostro nuovo articolo presentiamo uno studio dell’Istituto Digis, il quale ha effettuato 6 rilevamenti nel 2008 e 9 nel 2009.
Trattiamo il caso del PDL per dare un’idea di massima di come questo istituto abbia lavorato nel 2008 in previsione delle prossime elezioni Europee. Lo stesso tipo di analisi può essere effettuata per qualunque altro Istituto/partito.
Nel 2008 Digis effettuò 6 rilevamenti. Per il PDL si leggono i seguenti valori
24/02/2008 | DIGIS | 38,2 | 0,02139 |
01/03/2008 | DIGIS | 40,3 | 0,07754 |
09/03/2008 | DIGIS | 41,1 | 0,09893 |
16/03/2008 | DIGIS | 40,4 | 0,080214 |
21/03/2008 | DIGIS | 41 | 0,096257 |
27/03/2008 | DIGIS | 40,4 | 0,080214 |
Nella prima colonna la data di rilevamento, nella terza il valore per il PDL e nella quarta colonna la dispersione dal dato finale (37,4%). Si evince subito che
1. Digis sovrastimò sempre il PDL tra il 2,1% ed il 9,8%
2. la prima rilevazione Digis fu la più vicina al voto finale, mentre nel corso dei successivi sondaggi sovrastimò sempre oltre il 7,7%, con un andamento a dorso di cammello, come possiamo notare dal grafico sottostante
In questa immagine abbiamo evidenziato tre tipi di interpolazioni al 5% di confidenza:
1. polinomiale Montecarlo
2. somma di due funzioni sinusoidali
3. smoothing (ovvero di massima verosimiglianza con la forma reale)
4. polinomiale del V ordine (polinomi con grado inferiore davano R^2 più bassi. Polinomi con grado più alto hanno bisogno invece di molti più dati da interpolare).
Poichè si è tenuto conto del primo punto (rilevazione del 24/02/2008), le interpolazioni tendono a decadere dopo il sesto punto, tendendo verso zero. L’andamento a dorso di cammello lo prevede senza possibilità di fuga. Chiaro che in questo tipo di interpolazioni si presume che l’andamento al punto successivo sia in linea con quelli precedenti. Nel caso in cui ciò non fosse vero allora l’Istituto si discosterebbe dalla verosimiglianza del test e tutta l’analisi risulterebbe essere una “caccia al buio stile Nostradamus”. Statisticamente quindi dobbiamo pensare che il punto successivo si collochi, entro i margini di errore del test, sulla curva di interpolazione.
Seguendo queste 4 interpolazioni, la proiezione per i prossimi 2 rilevamenti risulta essere
Interpolazione | Proiezione 1 | Proiezione 2 |
poly MC | 0,032086 | -0,04813 |
Sum Sin | 0,021968 | 0,006199 |
Smooth | 0,065799 | 0,11283 |
Poly5 | -0,3984 | -2,3556 |
Per proiezioni qui intendiamo la possibilità che il punto successivo all’ultimo presente nella figura corrisponda al dato finale delle EUR09.
(per continuare la lettura cliccare su “2”)
[ad]L’interpolazione al quinto grado fa emergere una proiezione troppo discordante (tale funzione tende a meno infinito troppo velocemente rispetto alle altre, e quindi produce una sottostima troppo elevata per il PDL) e perciò la tralasciamo. Dimostrazione lampante di come l’analisi di R^2 in questo tipo di studi è condizione necessaria ma non sufficiente affinchè un’interpolazione sia corretta.
Utilizzando le prime 3 funzioni test, applichiamo ai valori percentuali che Digis assegna nel 2009 al PDL per le EUR09 ed otteniamo i seguenti valori
Valore di previsione dispersione | |||||||
Data Sondaggio | Valore Digis | 0,032086 | 0,021968 | 0,065799 | -0,04813 | 0,006199 | 0,11283 |
23/02/2009 | 39,7 | 38,466 | 38,847 | 37,249 | 41,707 | 39,455 | 35,675 |
02/03/2009 | 39,5 | 38,272 | 38,651 | 37,061 | 41,497 | 39,257 | 35,495 |
16/03/2009 | 39,7 | 38,466 | 38,847 | 37,249 | 41,707 | 39,455 | 35,675 |
23/03/2009 | 39,5 | 38,272 | 38,651 | 37,061 | 41,497 | 39,257 | 35,495 |
10/04/2009 | 40,5 | 39,241 | 39,629 | 38 | 42,548 | 40,251 | 36,394 |
18/04/2009 | 40 | 38,756 | 39,14 | 37,531 | 42,022 | 39,754 | 35,944 |
27/04/2009 | 39,8 | 38,563 | 38,944 | 37,343 | 41,812 | 39,555 | 35,765 |
02/05/2009 | 40,2 | 38,95 | 39,336 | 37,718 | 42,233 | 39,952 | 36,124 |
11/05/2009 | 40,2 | 38,95 | 39,336 | 37,718 | 42,233 | 39,952 | 36,124 |
Nella seconda colonna il dato di Digis nei sondaggi per le EUR09. Nelle successive colonne, i valori ricalibrati secondo i dati provenienti dalle interpolazioni precedenti. Quindi, sono i valori veri che Digis sta al momento campionando presupponendo che l’errore commesso oggi sia in linea con quello del 2008.
Considerando la media del rilevamento di Digis per il PDL nel 2009, pari a 39,9%, (con una deviazione standard molto bassa, pari a 0,3464) applichiamo nuovamente i 6 valori di dispersione precedenti ed otteniamo
Proiezione 1 | Proiezione 2 | |
poly MC | 38,66 | 41,917 |
Sum Sin | 39,042 | 39,654 |
Smooth | 37,437 | 35,855 |
Vorremmo spendere due parole sul valor medio di Digis per il PDL: nel 2008, Digis mostrò una rilevazione media per il PDL pari a 40,23% ed una deviazione standard pari a 1,052. Nel 2009 invece Digis da una rilevazione media di 39,9%, quindi molto simile al 2008, ma con una deviazione standard nettamente più bassa, 0,3464. Poichè la deviazione standard indica il grado di dispersione dal valor medio, possiamo affermare che nel 2009 Digis dimostra di essere molto più stabile, con debolissime variazioni. Questo può essere considerato un indicatore di accuratezza o almeno di consistenza maggiore nel campionamento.
Se invece escludiamo la priva rilevazione del 24/02/2008, l’evoluzione di errore di Digis appare più simile ad una funzione sinusoidale. Infatti, come si evince dalla prossima interpolazione, effettuata con una funzione del tipo
f(x) = a0 + a1*cos(x*w) + b1*sin(x*w),
questo tipo di funzione tende a decrescere per poi risalire, esattamente in linea con gli errori delle rilevazioni di Digis nel 2008 rispetto ai dati reali delle POL08.
Le proiezioni alla sesta e settima rilevazione (cioè, ribadiamo, EUR09) sono
Proiezione 1 | Proiezione 2 | |
Fourier 1 | 0.0951634 | 0.0825684 |
(per continuare la lettura cliccare su “3”)
Con queste proiezioni (errore del 9,5% ed 8,2% rispettivamente), i sondaggi per il PDL di Digis nel 2009 risultano modificati nel seguente modo
Valore previsione dispersione | |||
Data Sondaggio | Valore Digis | 0,095163 | 0,082568 |
23/02/2009 | 39,7 | 36,25 | 36,672 |
02/03/2009 | 39,5 | 36,068 | 36,487 |
16/03/2009 | 39,7 | 36,25 | 36,672 |
23/03/2009 | 39,5 | 36,068 | 36,487 |
10/04/2009 | 40,5 | 36,981 | 37,411 |
18/04/2009 | 40 | 36,524 | 36,949 |
27/04/2009 | 39,8 | 36,342 | 36,764 |
02/05/2009 | 40,2 | 36,707 | 37,134 |
11/05/2009 | 40,2 | 36,707 | 37,134 |
[ad]Poichè i valori di dispersione che abbiamo considerato sono quelli più alti rispetto alle rilevazioni di Digis nel 2008, risulta naturale ottenere valori più bassi in questo caso. Il valore che abbiamo escluso in questa prova (cioè 0.02 che si riferisce al valore di dispersione del sondaggio del 24 Febbraio 2008) fa aumentare considerevolmente il grado di proiezione. Applicando le due proiezioni al valor medio di Digis nel 2009 (39,9%), ricaviamo
PDL = 36.4329%
PDL = 36.8568%
Questi valori sono in linea per esempio con l’ultimo sondaggio di Predict09.eu, che abbiamo recentemente presentato.
Confrontiamo ora i risultati ottenuti. per la media di rilevazione di Digis per il PDL per le EUR09, pari a 39.9%: nella prima colonna il tipo di interpolazione usata. Nella seconda colonna la stima di proiezione numero 1 e nella terza la stima di proiezione numero 2.
Proiezione 1 | Proiezione 2 | |
poly MC | 38,66 | 41,917 |
Sum Sin | 39,042 | 39,654 |
Smooth | 37,437 | 35,855 |
Fourier (Escl.) | 36,433 | 36,857 |
Quasi tutte le interpolazioni tendono a sottostimare il valore medio di 39,9%. L’interpolazione polinomiale con modalità MonteCarlo è l’unico caso di sovrastima, con un valore di 41,917%. L’interpolazione a somme di funzioni sinusoidali è quella che da un riscontro più simile al sondaggio reale.
Il 41,917% è in linea con Crespi, il 38 con il nostro sondaggio del 7/05, i dati sul 39% si attestano sulla media di tutti gli Istituti di sondaggi.
Concludiamo questo lavoro con due considerazioni:
2. una proiezione più conservatrice terrebbe in conto solo i sondaggi di Digis dal primo Gennaio al 27 Marzo 2008 per estrarre un valor medio d’errore, poichè dimostrano essere più in sintonia con il trend generale dell’Istituto. (che ricordiamo essere interpolato meglio da una funzione sinusoidale). Questo porta ad un valore di proiezione per la dispersione in EUR09 molto alta, pari a circa il 9%. Se invece includiamo tutti i dati dei sondaggi per POL08, il valor di proiezione si abbassa fino al 2%. Il valore medio di dispersione in questo caso, considerando tutte le interpolazioni adottate (3, escludendo il polinomio di grado V poichè troppo sovrastimante. Darebbe infatti il PDL al 65%, cosa francamente impossibile da immaginare) è di 0,03179, ovvero il 3,179% d’errore. Noi del TP per esempio forniamo i nostri valori con un margine di errore del 2%.
Con questo valor medio, si ricava una proiezione in base ai sondaggi di Digis per il 2009 di
PDL = 38.6706%
ovvero 1,3% in meno rispetto alla media di Digis per il PDL ed un punto percentuale sotto la media di tutti gli Istituti per quanto riguarda questo partito. Nessun Istituto pronostica tale valore, se non il TP nella rilevazione del 7 Maggio.