dissabte, 4 de febrer del 2012

10 maneres de mentir fent servir les Matemàtiques: 3. L'Estadística

Deia un professor de l'ETSECCPB que a la vida hi ha veritats, mentides i estadístiques. I és que les estadístiques no són altra cosa que una acumulació de dades. La utilitat o inutilitat d'una estadística (i també el seu grau de proximitat amb la realitat) depèn completament de com es recullen, analitzen i tracten aquestes dades. Al llarg de tot aquest procés es poden produir errors, o bé manipul·lacions intencionades, que redueixin el resultat precisament a això: a un conjunt de dades sense gaire sentit, o bé amb un sentit induït artificialment.

Se li atribueix a Winston Churchill (com tantes altres frases que potser va dir, o potser no) allò de no crec en cap estadística que no hagi manipul·lat jo mateix. I és que massa sovint les utilitzem tan malament com sabem, sense cap mena de rigor ni respecte per la metodologia d'una ciència molt maltractada i molt mal compresa.

Per començar potser hauríem de definir què és l'Estadística. Per a la majoria de la gent, les estadístiques són el mateix que les enquestes, xifres que apareixen als diaris i a la televisió, i que normalment s'expressen en termes de tants per cent, cosa que encara les fa més equívoques.

Però què és, en realitat, l'Estadística?

Segons el diccionari de l'Institut d'Estudis Catalans, estadística és la ciència que té per objecte d’aplegar, classificar i comptar tots els fets del mateix ordre. Només això: comptar i classificar. L'Estadística no és altra cosa que l'eina per analitzar grans quantitats de dades. I, com totes les eines, pot ser perillosa en mans d'algú que no la sap fer servir.

Ara bé, quin és l'interès d'analitzar totes aquestes dades? Conèixer la realitat. Aquest és sempre l'objectiu final: fem estadístiques per saber alguna cosa més del món en què vivim. I per què necessitem l'Estadística? Perquè el món és tan gran, tan vast i està tan saturat d'informació que és impossible conèixer-la tota. L'Estadística defensa que aquesta realitat pot representar-se dins d'uns certs marges d'error analitzant-ne només una part i suposant que el què és vàlid per aquesta part (que anomenarem a partir d'ara mostra) també ho és per al tot (que anomenarem població). Així doncs, si volgués saber quants arbres hi ha en una selva, tindria l'opció de comptar-los tots un per un, cosa que seria inhumanament llarga i molt probablement fora de l'abast dels meus recursos, o bé comptar, per exemple, quants arbres caben en 1 km quadrat, medir sobre un mapa (o sobre imatges per satèl·lit) la superfície de la selva i multiplicar-ho pel nombre d'arbres que cabien a la meva mostra. Així tindria una aproximació de la quantitat d'arbres totals. Igualment, si volem conèixer l'opinió de tot un país sobre un tema, tenim l'opció de visitar un per un cada habitant dels que en conformen la població i preguntar-los què en pensen, cosa que no és gaire pràctica, o bé fer una enquesta sobre una mostra extreta d'aquesta població.

Fins aquí molt bé. El problema és que això és una simplificació, i no sempre es recorda: és evident que, procedint d'aquesta manera, només per la més afortunada de les casualitats encertaria el nombre real d'arbres que hi ha a la selva. Però potser m'hi acostaria amb una precisió d'uns quants milers. Si no només comptés els arbres al llarg d'un km quadrat, sino que ho fes diverses vegades, en zones diferents, amb accidents geogràfics diversos, i fes la mitja de tots els resultats, potser aconseguiria aproximar el resultat fins als centenars. Tot això requereix un procés de tractament de les dades molt estricte a fi d'estar segurs que ens allunyem el mínim possible de la realitat. Perquè això que quedi ben clar: una estadística mai no és la realitat, però una estadística ben feta s'hi aproxima el màxim possible.

Són molts els errors que es cometen en aquest procés. Analitzem-ne alguns dels més comuns.


1. Mostres massa petites

L'Estadística requereix gran quantitat de dades per funcionar. Bàsicament, com més dades, més s'acostarà a la realitat (si portem el raonament fins a l'extrem, si recollíssim totes les dades, podríem representar la realitat en tota la seva exactitud... com fer-ho ja és una altra cosa). Aplicar l'Estadística a mostres petites només ens portarà a equívocs.

D'aquí venen algunes de les crítiques tradicionalment fetes a l'Estadística. Per exemple, estadísticament parlant, al Vaticà hi ha 2 Sants Pares per kilòmetre quadrat. El problema (a part que el Vaticà només té mig kilòmetre quadrat de superfície) és que no es pot aplicar l'Estadística al Sant Pare de Roma, perquè només n'hi ha un. Igualment, s'ha dit tota la vida que l'Estadística és la ciència que diu que, si tu t'has menjat un bistec de 5 kg i jo m'he begut un litre d'aigua, cap dels dos no té ni gana ni set. O, formulat d'una altra manera, si jo m'he menjat tot un pollastre i tu no has menjat res, cada un dels dos ens hem menjat mig pollastre.


2. Mostres esbiaixades

És menys sabut del que caldria que les enquestes que fan els diaris no volen dir res: l'absoluta majoria dels lectors d'un diari són gent que està d'acord amb la línea ideològica del mateix. Per tant, una enquesta sobre qualsevol tema feta entre els propis lectors només demostra que la majoria de la gent que pensa com nosaltres està d'acord amb el que diem. De la mateixa manera, està clar que si fem una enquesta sobre la religiositat de la població enmig de Plaça Catalunya obtindrem resultats força diferents que si fem les mateixes preguntes un diumenge a la sortida d'una esglèsia. Trobaríem també que dos enquestadors que fessin la mateixa pregunta (així, per exemple, "qui creus que guanyarà la lliga?") en dos llocs escollits "a l'atzar" (com ara el Camp Nou i el Santiago Bernabeu) obtindrien resultats força diferents... Contradictoris, potser.

Hi ha tota una ciència al voltant del mostreig: s'intenta que les mostres siguin prou grans, que comprenguin diferents segments demogràfics, per edats, per sexes, per localització geogràfica, per nivell d'ingressos, etc. Una mostra massa petita no és mai representativa, però fins i tot una mostra molt gran pot donar resultats esbiaixats si no representa adequadament la població: com a exemple extrem, podríem fer una mostra sobre la meitat de la població, preguntar-los de quin sexe són i obtenir com a resultat de l'enquesta que el 100% dels habitants del país són dones.


3. L'irrellevància de les dades

En podreu trobar un exemple darrere l'altre a la retransmissió de qualsevol enfrontament esportiu, coses de l'estil de "la meitat de les vegades que el Barça ha encaixat un gol abans del minut 42, ha acabat remuntant el partit".

Molt bé... i què? Per què el minut 42 i no el 41 o el 43? De la mateixa manera podríem dir "la meitat de vegades que m'he obert una cervesa a la mitja part, el Barça ha acabat remuntant el partit" o "el 80% de vegades que em vesteixo de negre plou a Galícia".

El problema és que ni casualitat implica correlació ni correlació implica conseqüència. Què és el que fa que el Barça remunti el partit, que encaixin el gol abans del minut 42 o que jo m'obri una cervesa? Probablement cap de totes dues coses. I, de la mateixa manera, encara que tingui per costum vestir-me de negre (i encara que a Galícia hi hagi el costum que el temps sigui plujós), no hi ha cap relació entre el color del meu jersei i la meteorologia gallega, no més enllà de la coincidència. Quina rellevància te aquesta dada, llavors? Cap ni una.

El problema amb aquestes dades irrellevants és que de vegades arriben fins i tot a ser notícia. Un exemple força recent arriba de la mà del tancament de Megaupload. El cap de setmana següent, un conegut diari presentava el següent titular: Los cines llenan tras el cierre de Megaupload, detallant a continuació que l'afluència de públic havia augmentat un 32%. El problema és que una variació de taquilla del 32% és perfectament normal d'un cap de setmana a l'altre, en funció de la cartellera, del temps que faci, d'altres opcions d'oci disponibles... En conclusió, no hi ha notícia. Cap ni una. És una dada que no indica res.


4. La manera de formular la pregunta

Us ho cregueu o no, la manera de formular una pregunta té molta influència sobre la resposta que donem a la mateixa. Dan Ariely en aquesta conferència enmarcada en les TED talks ho explica molt millor que jo (i subtitolat en 38 idiomes):





El senyor Ariely defensa que els éssers humans som previsiblement irracionals. Davant d'un estímul, tendim tots a actuar de maneres similars, que no sempre tenen gaire a veure amb l'anàlisi intel·ligent de les circumstàncies, sino més aviat tot el contrari. Això és vàl·lid també per al cas de respondre a una enquesta, o bé triar entre diverses opcions.

Hi ha un exemple de llibre, molt explicatiu. Suposem que dos diaris fan una enquesta sobre la percepció ciutadana de la tasca del govern. El primer pregunta "Està vostè d'acord amb totes les mesures que ha pres el nostre president?", mentre que el segon pregunta "Creu que la tasca del nostre president ha estat, en general, positiva?". És, en essència, la mateixa pregunta. Però, clarament, a la primera d'elles hi haurà molta més gent que contestarà "no". D'acord amb totes les seves decisions? Amb totes? O bé ets un militant convencut dels que porten el carnet del partit a la butxaca o bé en alguna cosa o altra discreparàs, no? En canvi, l'altre diari t'ofereix dir que en general ho ha fet més o menys bé. Molta més gent estarà d'acord amb aquest altre enfocament, simplement perquè ja està orientat així.

I no només de la pregunta. El resultat també dependrà de les respostes elegibles. En el cas de la pregunta anterior, els resultats no seran els mateixos si només oferim les possibilitats "Sí" i "No" que si hi afegim "Més o menys". Hi haurà una variació, que no sempre és evident. Exemples extrems ja freguen la manipul·lació descarada. És el cas de la consulta popular per al canvi de nom de Maó, que no permetia l'opció de conservar el nom en ús (arrel de la qual es va crear el hastag #ésMaó), o bé aquesta altra enquesta feta per un diari, en què només éra possible votar "no". 


Així que ja ho veieu. Potser sí que no ens hauríem de creure cap estadística que no haguem manipul·lat nosaltres mateixos. O potser no cal anar tan lluny, però si tenir present que una estadística mai no demostra res. Només és un sondeig, una recopil·lació de dades que, si no es fa correctament, ni tan sols no tenen significat.

Ara bé, aquestes que hem vist són algunes de les pràctiques més comunes, però ni de bon tros les úniques. Podríem dedicar-li tota una sèrie només a l'Estadística (10 maneres de mentir fent servir l'Estadística...) i no ens les acabaríem. I a tu? Se t'ocorre alguna altra manera habitual de manipul·lar les dades?