Simulazione Monte Carlo EUR09: il caso del PDL
Trattiamo in questo articolo una veloce simulazione Monte Carlo dei dati provinciali di Elezioni Europee 2009: ci soffermiamo sul caso del PDL per dare un’idea chiara di che cosa voglia dire “simulare” un’elezione in politica.
[ad]Una simulazione di questo tipo risulta essere molto utile nel caso si voglia effettuare una qualche previsione nel breve periodo, in modo tale da non dover includere nella simulazione anche parametri di fluttuazione temporale della percentuale. Avendo il TP già sperimentato questa tecnica con i sondaggi per le Elezioni Europee 2009 con ottimi risultati, sebbene mai pubblicato nulla a riguardo, confidiamo che questa metodologia possa fornire un terreno fertile di analisi e previsioni.
Una simulazione è un modo standardizzato che tenta, a seconda della tecnica utilizzata, di ricreare un evento storico, partendo dai dati reali ed aggiungendovi una componente casuale, stocastica, random.
Per esempio, supponete di voler simulare il lancio di un dado a 6 facce: il dato reale può essere inteso come la sequenza dei primi 6 numeri interi, ovvero 1,2,3,4,5,6. Ogni numero rappresenta una faccia (che coincide anche col valore numerico di essa). Per simulare il lancio di un tal dado basterà estrarre casualmente un numero da questa sequenza di 6 numeri. Se l’estrazione avviene in modo corretto, ogni faccia del dado sarà rappresentata da una probabilità molto prossima ad 1/6 (16,67%). Più si aumenta il numero di estrazioni casuali e più questa probabilità sarà sempre più vicina al valore teorico (Teorema del Limite Centrale).
Nel caso del Popolo della Libertà nelle Elezioni Europee 2009, abbiamo su 110 province un valor medio di 35,12%, mentre il dato nazionale corretto è di 35,26%. Nel grafico sottostante potete osservare la distribuzione del voto, insieme al dato nazione corretto.
la cui interpolazione migliore viene raggiunta tramite una serie di Fourier ad almeno 16 funzioni sinusoidali (il grafico dei dati reali infatti appare molto oscillante)
Scegliamo ora 5 tipi di estrazioni: 1000,2500,5000,10000 e 15000 estrazioni casuali, ricavate da una distribuzione normale (pressapoco la distribuzione di probabilità delle percentuale che il PDL ha ottenuto nelle 110 province italiane). Un’estrazione casuale da una distribuzione normale avrà un valor medio (nella sua parte puramente stocastica) prossimo allo zero a seconda di quanto grande è la simulazione. Perciò, nel lungo termine, la nostra simulazione dovrà fornire un valor medio del PDL molto prossimo a 35.12% (valor medio su tutte le province).
ESTRAZIONE 1000 CASI
ESTRAZIONE 2500 CASI
ESTRAZIONE 5000 CASI
ESTRAZIONE 10000 CASI
Forniamo ora una tabella riassuntiva dei momenti statistici delle 5 simulazioni
Valor Medio |
Deviazione Standard (media) |
|
1000 casi |
35.1306 | 7.3567 |
2500 casi |
35.1265 | 7.3679 |
5000 casi |
35.1292 | 7.3618 |
10000 casi |
35.1268 | 7.3647 |
15000 casi |
35.1286 | 7.3664 |
(per continuare la lettura cliccare su “2”)
La deviazione standard dei dati provinciali del PDL è stata di 6.8861. I valori medi simulatisi possono consultare attraverso questo grafico:
SIMULAZIONE VALOR MEDIO PDL
Interessante osservare i valori massimi e minimi dei valori medi a seconda del tipo di estrazione, poichè questi valori estremi possono creare problemi in un’eventuale previsione futura. Oscillazioni troppo ampie (in valore assoluto), discostandosi molto dal valore medio reale, forniscono situazioni appunto estreme.
Valor Medio Massiamo | Valor Medio Minimo | |
1000 casi |
63.0182 | 3.3247 |
2500 casi |
62.6597 | 3.8392 |
5000 casi |
63.1810 | 3.1006 |
10000 casi |
63.0762 | 3.6723 |
15000 casi |
64.4265 | 1.9349 |
[ad]Il valor massimo tra i dati provinciali del PDL è risultato essere 52.98% (Latina) e minimo di 12.78% (Bolzano): quindi queste noste simulazioni sovrastimano il valor massimo dell’8% circa, mentre sottostimano il valor minimo dal 300 al 500%.
Caso 1000 estrazioni: 819 volte su 1000 il valore massimo è stato superiore a 52.98.
601 volte su 1000 il valore minimo è stato inferiore a 12.78%
Caso 2500 estrazioni: 2043 volte su 2500 il valore massimo è stato superiore a 52.98
1568 volte su 2500 il valore minimo è stato inferiore a 12.78%
Caso 5000 estrazioni: 4122 volte su 5000 il valore massimo è stato superiore a 52.98
3125 volte su 5000 il valore minimo è stato inferiore a 12.78%
Caso 10000 estrazioni: 8130 volte su 10000 il valore massimo è stato superiore a 52.98
6326 volte su 10000 il valore minimo è stato inferiore a 12.78%
Caso 15000 estrazioni: 12331 volte su 15000 il valore massimo è stato superiore a 52.98
9311 volte su 15000 il valore minimo è stato inferiore a 12.78%
Adottando la tecnica del GARCH(p,q), abbiamo considerato tre casi, in cui si noterà come le deviazioni standard ricavate per calibrare i parametri del garch cambino a seconda del numero di lag per le regressioni sul dato storico e sulle deviazioni standard. Garch ad 1 lag, a 4 e 10.
CASO GARCH(1,1)
CASO GARCH(4,4)
CASO GARCH(10,10)