Come funzionano i sondaggi? Una breve guida per i futuri sondaggisti
Quella che proponiamo è una guida ufficiosa per i sondaggisti o semplicemente per chiunque voglia capire cosa implichi realizzare un sondaggio, trattarlo statisticamente e valutare il grado di errore. Nulla di particolarmente tecnico o matematico: ci concentriamo sulla parte logica e qualitativa.
[ad]Nessun segreto verrà svelato che non sia già largamente conosciuto. Tale guida perciò va letta come un’indicazione di massima, un’introduzione alla scienza dei sondaggi. Ci piacerebbe inoltre che la lettura di questa guida facesse avvicinare sempre più persone ad un tema largamente conosciuto in Italia, ma scarsamente divulgato e considerato pratica da rabdomanti e non scientificamente valido o razionale da alcuni.
Supponiamo un giorno di voler effettuare una ricerca di mercato, politica, sociale ed ammettiamo che il sondaggio in sè sia sensato nella sua formulazione finale (dettaglio largamente sottovalutato, ndr). Ci chiediamo innanzitutto: cosa vuol dire raccogliere un campione rappresentativo di persone, tale per cui le risposte raccolte siano indicatori del sentimento generale della popolazione? Di seguito forniamo un elenco di passaggi logici necessari per rispondere a questa domanda.
Cosa intendiamo per campione rappresentativo?
Intendiamo una porzione finita dell’intera popolazione, potenzialmente coinvolta ed interessata dal tema del sondaggio, la quale sia [tale campione] in linea con le risposte che ci saremmo aspettati se avessimo potuto intervistare tutti i partecipanti nominali. La parte per il tutto, con un linguaggio più metaforico. Un esempio pratico per farci capire: vogliamo sapere cosa ne pensino gli abitanti del Lazio sul caso Marrazzo. Nel Lazio ci sono circa 5 milioni di abitanti. E’ chiaro che non possiamo pensare di contattarli tutti quanti, sia per ragioni di tempo, sia per i costi di gestione. Allora dovremo opportunamente selezionare una porzione di essi che dia nel complesso le stesse risposte che avremmo ottenuto se avessimo intervistato tutti e 5 i milioni di laziali.
Come facciamo a sapere se tale campione sia rappresentativo a priori?
Ci sono diverse tecniche statistiche di verosimiglianza, ci si avvale dei passati storici, di database, di indicatori qualitativi. La lista è lunga e non possiamo di certo spiegare tutti i passaggi. Anche qui, però, vogliamo dare un’indicazione di massima. Torniamo al caso del Lazio e di Marrazzo. Se qualcuno vi commissionasse un sondaggio di questo tipo, secondo voi, quanto sarebbe logico cercare un campione rappresentativo solo nella provincia di Viterbo senza trattare la città di Roma? Oppure, quanto rappresentativo potrebbe essere il vostro campione se intervistaste solo i minorenni, oppure solo i pensionati o gli imprenditori?
Ecco che giungiamo ad un altro aspetto importante nella realizzazione del campione rappresentativo, ed in ultima istanza, di un un buon sondaggio:
quali e quanti parametri sociali dobbiamo considerare per ottenere verosimiglianza di risposta?
Ci si avvale degli indicatori sociodemografici, quali l’età, il sesso, l’istruzione, le tendenze religiose, etc..Ognuna di queste categorie mostra una propria distribuzione dei suoi sottoelementi. Cosa intendiamo per disribuzione? Esempio: la popolazione residente in Italia può essere suddivisa secondo fasce d’età. Dividiamo la vita di un essere umano dai zero anni sino alla sua morte, in intervalli di 5 anni (esempio), e quindi avremo ripartito il nostro campione totale in una serie di fasce coerenti. Contando il numero di italiani in ogni fascia, otteniamo la distribuzione della popolazione residente. Possiamo fare altrettanto per tutte le altre categorie sociali (demografiche). Un campione rappresentativo, dunque, è una porzione della popolazione totale che, per quanto piccolo, rispecchia la distribuzione generale. Esempio: supponiamo di volere ricavare un campione relativamente alla categoria “capelli rossi”. In Italia, lo 0.58% degli abitanti ha i capelli rossi. Se selezioniamo tra tutti gli abitanti un campione di 1000 unità, e scopriamo che in questo campione la percentuale di persone con i capelli rossi è del 5%, allora avremo ricavato un campione NON rappresentativo.
Cosa si intende per campione non rappresentativo ma stabile?
[ad]Un campione può essere non rappresentivo dell’intera popolazione, ma non mutare entro limiti statistici nel corso del tempo. Questo definisce un campione stabile. Esempio: riprendiamo il caso dei cappelli rossi e del campione con il 5%. Supponiamo di ripetere ogni settimana una campionatura, e supponiamo che ogni rilevazione dia sempre 5% con un errore statistico dello 0.25% (ovvero, il 5% relativo sul totale). Avremo quindi selezionato un campione stabile, benché non rappresentativo. Cosa ce ne facciamo di tale campione? In sondaggi di opinione, se il campione risulta stabile ma non in linea con i dati macroscopici, allora possiamo ribilanciare opportunamente l’intera rilevazione per renderla rappresentativa. In pratica, si sfrutta una debolezza del campione (la non rappresentatività) a proprio vantaggio, senza inficiare la qualità della statistica.
Sinora abbiamo discusso in termini generici del problema della creazione di un campione rappresentativo. Cerchiamo di essere più specifici ora ed addentrarci nel merito della questione.
Ci chiediamo: come facciamo a raccogliere le risposte?
Al momento, vi sono due tipi di metodologie di raccolta dati. Il sistema C.A.T.I., ovvero tramite telefono, oppure il sistema C.A.W.I., ovvero tramite internet. Noi del Termometro Politico siamo tra i pochi in Italia a far uso del sistema C.A.W.I., per almeno una ragione: ha costi di gestione molto bassi rispetto alla interviste telefoniche. In più, sono gli intervistati che, volontariamente, rispondono ai vari quesiti a differenza di quanto accade per le chiamate telefoniche, in cui è l’intervistatore che deve importunare l’intervistato. Questa differenza è basilare. Infatti, se l’intervistato è già in partenza infastidito per essere stato disturbato potrebbe, nel caso in cui decida di rispondere, non farlo in maniera onesta, falsando il risultato finale. Nel sistema C.A.W.I., se è vero che ha potenzialmente un problema di copertura, non essendo almeno in Italia molto elevata la percentuale di italiani che naviga sulla rete, è altrettanto vero che l’intervistato, non essendo importunato, potrebbe teoricamente essere maggiormente predisposto nel dare risposte oneste e veritiere.
Supponiamo di voler usare il sistema C.A.W.I. per realizzare un sondaggio: come dobbiamo strutturare questo sondaggio perché sia il più possibile veritiero? Abbiamo descritto i principi fondamentali per la selezione di un campione rappresentativo (o stabile). Scelta una metodologia di campionatura (telefono o Internet), si incontrano problemi specifici ed unici a seconda del sistema adottato. Nel C.A.W.I., come detto, il principale ostacolo è la copertura limitata della popolazione. In uno studio di Giancarlo Livraghi, che abbiamo recentemente pubblicato, si analizza la penetrazione della popolazione italiana nell’uso di Internet.
Cosa intendiamo per penetrazione della popolazione italiana in Internet?
Nulla di osceno, vorremmo avvertire i genitori in ascolto. Per penetrazione si intende la percentuale sul totale di quella categoria che fa uso diretto di un dato servizio o partecipa ad un dato evento. Esempio: tra i 18 e 34 anni, secondo Audiweb, la penetrazione Internet è pari al 68.5%. Ciò vuol dire che 685 persone su 1000, tra i 18 e 34, fanno uso della rete.
Quello che introduciamo ora è un processo logico di campionatura, valido per il C.A.W.I., ma estendibile con le dovute riparametrizzazioni, anche al C.A.T.I.. Supponiamo di voler realizzare un sondaggio sul voto politico per una data elezione imminente (per esempio, le prossime elezioni regionali del 2010): quali sono le categorie da considerare? Secondo logica, ci aspetteremmo queste distinzioni
1) fasce demografiche fornite dall’Istat
2) scelta di una categoria sociodemografica
3) percentuale di votanti all’elezione (prevista o storica) in quella data categoria
4) penetrazione internet di quella categoria
5) percentuale di votanti tra chi naviga in internet in quella categoria che vota al sondaggio
[ad]I passaggi logici difficili da trattare sono il 3) ed il 4). Il 5) è dato da quanta visibilità ha il sondaggio. Se Repubblica pubblicizza un sondaggio, per esempio, ci aspettiamo moltissimi naviganti votanti (ecco spiegato il motivo per cui il Termometro Politico si è appoggiato ai grandi portali o quotidiani).
3): il principale fattore che ha determinato la complessiva bassa precisione dei sondaggi durante le elezioni europee 2009 è stato proprio la bassa affluenza nelle regioni meridionali ed insulari. Il Termometro Politico sta studiando modelli di previsione per l’affluenza prevista alla prossime elezioni regionali. Ipotizzata una certa affluenza sul totale dei votanti, si possono ricalibrare con la dovuta accortenza statistica tutte le fasce sociodemografiche incluse in un sondaggio politico.
4): il numero di persone che usa la rete, come si potrebbe immaginare in Italia, non è altissimo. Come detto, tra i 18 e 34 anni, meno del 70% usa la rete. E questa è la fascia demografica che ne fa più uso. I pensionati ultra 75enni, solo l’1.6%. Eppure i pensionati ultra 75enni votano alle elezioni politiche, ed anche molto. Esempio lampante di sottorappresentazione di una categoria sociale (quella dei pensionati), nella metodologia C.A.W.I. a cui bisogna porre rimedio in qualche modo. Non solo, tra tutti coloro i quali usano la rete, solo una piccola percentuale si collega a siti specialistici come il Termometro Politico, laddove ci si aspetterebbe di trovare un sondaggio politico. Ecco perché i portali generalisti o i quotidiani sono molti utili nel raccogliere il più vasto pubblico possibile, altrimenti inaccessibile ed irraggiungibile.
Altra domanda che ogni sondaggista professionale si dovrebbe porre: le risposte sono oneste oppure l’intervistato sta mentendo?
Un esempio che tutti certamente conoscono; durante gli anni di dominio DC-PCI, se intervistati, gli italiani rispondevano con qualche esitazione alla domanda “lei vota DC?”. Eppure, come tutti sanno, la DC è sempre stata al potere fino all’evento così detto “Tangentopoli”. C’è perciò, tra gli intervistati italiani, un ostacolo quasi culturale nel rispondere onestamente ad alcune particolari domande. Le motivazioni possono essere molteplici, su cui sociologi e psicologi si sono e si stanno tuttora interrogando per trovare una risposta esauriente. Come ovviare a questo problema? Qualche sistema esiste, e su questo qualche segreto commerciale impone la non divulgazione. Tuttavia è logico che più il questionario è ampio, maggiore sarà la verosimiglianza della risposta, poiché si possono incrociare le risposte e valutare, entro certi limiti, la correlazione. Esistono poi sistemi più raffinati per isolare eventuali menzogne, come per esempio l’estrazione casuale di interviste, valutare il campione relativo, calcolare l’errore campionario e non campionario, osservare l’asintoticità della dispersione e quindi stabilire l’ampiezza minima di campione affinché si possa avere una risposta veritiera. Tutte tecniche, queste, che richiedono tempo e professionalità, le quali sono usate ampiamente in tanti altri settori scientifici e sociali.
Finiamo con la ricalibrazione sondaggistica, ovvero la parte più matematica del sondaggio: questa procedura è lasciata volutamente generica, per poter essere applicata ad ogni metodologia.
Chiamiamo Y una data categoria sociodemografica (esempio, i diplomati).
1. Quante individui sono inclusi nella categoria Y? X con Σ X(i,Y)≡ N, popolazione totale (nel nostro caso gli elettori, da non confondersi con gli abitanti. Non tutti gli abitanti infatti hanno diritto di voto!). Quindi, la somma di tutti gli X è ovviamente uguale alla popolazione complessiva. Se così non fosse, allora qualche individuo sarebbe escluso e dovremmo ristrutturare le categorie sotto esame.
2. Qual è il peso (frequenza) di X sul totale della popolazione? X = α·N, α ∈ [0,1), tale che [Σ α(i)]·N = N, con Σ α(i) =1. In questo caso α è il peso della distribuzione relativa alla categoria Y. Quindi, α è la porzione sulla totalità N che rappresenta il campione X. Che distribuzione di probabilità mostra α? Certamente discreta (la popolazione non è infinita, e non è possibile considerare frazioni infinitesime di un individuo), in intervallo limitato (la popolazione non può essere negativa o infinitamente positiva). Si possono usare, con le dovute cautele, anche distribuzioni continue per valutazioni qualitative. Non è pratica matematicamente rigorosa, ma si può chiudere un occhio in questo caso.
3. Quanti X andranno a votare? β·X, β ∈ [0,1). β si stima tramite il punto 3) mostrato precedentemente. In generale β ≤ α, con la relazione di uguaglianza valida in rarissimi casi, ovvero quando tutti gli individui di quella categoria vanno a votare (può capitare in piccoli comuni, dove affluenze oltre il 95% non sono rare). β perciò rappresenta l’affluenza, o in altri termini, la porzione di potenziali elettori che si sono realmente recati alle urne (da distinguere poi i voti validi, ovvero i voti su cui si contano le percentuali finali. Tali voti validi risultano spesso ben oltre il 90% dei voti totali).
[ad]4. Quanti X usano Internet? γ·X, γ ∈ [0,1). γ si stima tramite il punto 4). γ quindi rappresenta la penetrazione di X, facente parte della categoria Y.
5. Quanti γ·X votano al sondaggio? δ·(γ·X) , δ ∈ [0,1), δ·γ < γ. δ rappresenta l’affluenza degli elementi di X che fanno uso di Internet. Esattamente come β.
6. Qual è il peso di γ·X rispetto a β·X? ε=γ/β, ε ∈ R. Qui si calcola il rapporto tra tutti i votanti alle elezioni ed i votanti al sondaggio. Se il sondaggio ha successo, allora tale rapporto sarà tendente ad 1 o in rari casi maggiore di uno (per esempio tra i più giovani, solitamente poco propensi a votare alle elezioni).
7. Quanti β·X usano anche internet? ζ·(β·X), ζ ∈ [0,1), ζ·β < β. Qui ci chiediamo: tra tutti coloro che voteranno effettivamente alle elezioni, quanti usano Internet? Importante per stabilire il rapporto tra affluenza e penetrazione.
8. Quanti ζ·(β·X) votano al sondaggio? η·[ζ·(β·X)], η ∈ [0,1), η·(ζ·β) < ζ·β < β. Potremmo intervistare persone che rispondono sì al questionario, che però non andranno a votare. In pratica risposte inutili al fine del sondaggio oppure non indicative.
Altri parametri possono essere calcolati, in funzione di che tipo di analisi si voglia effettuare. Insiemisticamente parlando abbiamo pertanto: Voto Sondaggio ⊆ Utente Internet ⊆ Votanti ⊆ Categoria Y ⊆ Elettori ⊆ Abitanti
Come ribilanciare un sondaggio, avendo ottenuti questi parametri?
Beh, qui sta il segreto profressionale, perciò non possiamo fornirvi la completa ricetta alchemica. Un po’ come per la Coca Cola rilasciare la ricetta del soft drink più bevuto e famoso al mondo. Basti sapere che lo scopo di un sondaggista è quello di avere dati sociodemografici corretti da cui partire. Ottenuti questi, i dati in un sondaggio devono rispecchiare tali categorie. Riparametrizzate le categorie, allora si procede a fornire il risultato del sondaggio. Non prima! Pratica non molto semplice e certamente pratica che richiede una buona preparazione statistica, informatica e matematica.
Qualunque metodo si voglia usare, ad esso si dovrà associare inevitabilmente un errore statistico, Δ〈O〉, con O l’operatore statistico in questione, distinguendo tra errore campionario (stima dei parametri) e non campionario (oggetto della stima, modello, contesto della campionatura). In funzione del tipo di analisi statistica effettuata, si dovranno poi adoperare test di verosimiglianza, di scarto, di accettazione o scarto d’ipotesi.
Con questa introduzione, speriamo di aver raccolto il più possibile sinteticamente le informazioni necessarie per effettuare un sondaggio, raccogliere dati, analizzarli. Senza dimenticare un fatto importante: non esiste solo la statistica nei sondaggi, esiste anche e forse soprattutto il buon senso dell’intervistatore, la sua esperienza qualitativa dell’argomento trattato ed in alcuni casi (si spera sempre rari), del suo intuito negli eventi dubbi ed ambigui che possono sempre manifestarsi in una campionatura sociale. Esempio di dove l’intuito ed esperienza giocano un ruolo vitale: supponiamo di voler trattare la categoria del grado di istruzione. Sappiamo che circa il 50% degli italiani possiede al più la licenza media. Se nel nostro sondaggio non riusciamo ad intercettare il voto di chi ha al massimo la licenza elementare, come possiamo fare? Questo non è un dettaglio da trascurare nel sondaggio C.A.W.I., poiché è risaputo che gli utenti Internet possiedono un grado di istruzione medio-alto. Ebbene, ecco che in questo frangente, non avendo alcun dato per i meno istruiti, e sapendo che questi votano alle elezioni e votano spesso e molto, allora dobbiamo trovare un sistema per far emergere tale campione largamente sottostimato, se non addirittura escluso.