Está en la página 1de 25

Introducció a l’estadística

Estadística Descriptiva amb una variable


Estudi estadístic: Passos
1 - Definició d'objectius
• Definir la població amb precisió. La població es el conjunt de persones o
elements dels quals volem estudiar una característica.
• Identificar les característiques a estudiar. La característica dona lloc a la
variable estadística i pot ser qualitatives, si els valors que pren no son
quantificables o s'expressen amb paraules, o quantitatives, si els valors que
pren son nombres. Les variables quantitatives poden ser discretes, si
prenen valors concrets i continues, si poden prendre qualsevol valor d'un
interval.
• Decidir l’abast: la investigació pot ser censal (de tota la població) o mostral
(nomes es considera una part de la població).
• Especificar l'àmbit d'estudi i la forma de recollir les dades (entrevistes
personals, per correu, per telèfon, ...)
Estudi estadístic: Passos
2- Recollida de les dades estadístiques
• Disseny del qüestionari. Es un apartat molt important ja que el
llenguatge ha de ser clar, senzill i directe; les preguntes han de ser
precises, concretes i curtes; no es pot influir en la resposta; s'ha de
cuidar l'ordre de les preguntes, de senzilles a mes delicades; decidir el
millor tipus de pregunta, oberta o tancada.
• Disseny del material auxiliar (fulls de control, d'incidències, cartes de
presentació, instruccions per emplenar el qüestionari,...)
Estudi estadístic: Passos
2- Recollida de les dades estadístiques
• Tria de la mostra d'acord amb el marc disponible. Aquest es un dels apartats mes delicats ja que
la mostra ha de ser representativa, es a dir, ha de tenir les característiques mes rellevants de la
població estudiada i en les mateixes proporcions. Hi ha diferents tipus de mostreig:
• mostreig simple: Es numeren els elements i se'n trien uns quants a l'atzar.
• mostreig estratificat: es divideix la població en grups homogenis respecte a la característica i de manera que hi
hagi grans diferencies entre els diversos grups. El total de la mostra es distribueix de manera proporcional a la
població de cada estrat.
• mostreig per conglomerats. Segons agrupaments heterogenis respecte de la característica.
• mostreig complexe: S'estratifica la població, dins de cada estrat es fa un mostreig per conglomerats i dins
d'aquests es tria a l'atzar els elements.
• Recollida de dades
• tractament de les dades recollides. Es la part on s'aplica l'Estadística Descriptiva.
• En el cas d'una investigació mostral i, a partir de les conclusions de l'apartat anterior, es generalitzen les
conclusions per tota la població. L'estudi de la possibilitat de generalització el porta a terme l'Estadística
Inferencial.
Taules de freqüències
Un cop tenim les dades recollides cal organitzar-les per treure'n la màxima
informació.
1. Ordenació.
• Els valors obtinguts (𝑥𝑥𝑖𝑖 ) s'ordenen de menor a major.
• Si la variable és contínua o té molts valors diferents (més de 10), el millor és agrupar
les dades en intervals, que s'anomenen classes (𝑙𝑙𝑖𝑖 ), procurant que tots tinguin la
mateixa amplitud.
• En aquest cas, el valor que representa l'interval és el punt mig (𝑥𝑥𝑖𝑖 ) que s'anomena
marca de classe.
2. Recompte de freqüències.
• Freqüència absoluta (𝑛𝑛𝑖𝑖 ) és el nombre de vegades que es repeteix el valor xi.
• Freqüència absoluta acumulada (𝑁𝑁𝑖𝑖 ) és el nombre de vegades que la variable pren
un valor menor o igual a 𝑥𝑥𝑖𝑖 . Es calcula sumant les freqüències absolutes 𝑖𝑖
corresponents al valors inferiors o igual al calculat.
𝑁𝑁𝑖𝑖 = � 𝑥𝑥𝑗𝑗
𝑗𝑗=1
Taules de freqüències
2. Recompte de freqüències.
• Freqüència relativa (𝑓𝑓𝑖𝑖 ) és el quocient entre la freqüència absoluta del valor i
el nombre total d'observacions (mida de la mostra).
La freqüència relativa d'un valor representa el tant per u del total i reflecteix el
pes específic del valor dins el conjunt de les dades.

• Freqüència relativa acumulada (𝐹𝐹𝑖𝑖 ) és el quocient entre la freqüència


absoluta acumulada i el total de dades.
Taules de freqüències
3. Elaboració de la taula de freqüències.
• Es tracta de construir una taula amb diferents columnes on constin:
els valors de la variable (𝑥𝑥𝑖𝑖 ), les freqüències absolutes (𝑛𝑛𝑖𝑖 ), les
freqüències absolutes acumulades (𝑁𝑁𝑖𝑖 ) i les freqüències relatives
(𝑓𝑓𝑖𝑖 ).
• En cas d'haver agrupat les dades en intervals, la primera columna serà
la de les classes (𝑙𝑙𝑖𝑖 ) i la columna 𝑥𝑥𝑖𝑖 correspondrà a la marca de
classe. Si els intervals tenen amplituds diferents, completem la taula
de freqüències amb una nova columna que ens indica la densitat de
l'interval, ℎ𝑖𝑖 , que serà el quocient entre la freqüència absoluta i
l'amplitud de l'interval.
Exemples
Exemple1.
El nombre de gols encaixats per un equip de
futbol a la Lliga han estat aquests: xi ni Ni fi Fi

2, 3, 1, 0, 1, 2, 0, 0, 4, 3, 0, 2, 1, 1, 1, 5, 3, 2, 0, 0 11 11 0,275 0,275
0, 3, 1, 3, 1, 2, 4, 2, 0, 0, 1, 1, 2, 1, 0, 3, 3, 0, 1, 1 11 22 0,275 0,55
2, 0. 2 8 30 0,2 0,75
Fes la taula de freqüències. 3 7 37 0,175 0,925
4 2 39 0,05 0,975
5 1 40 0,025 1
Exemples
Exemple2
L'alçada de 40 nois en cms. són les següents: Ii xi ni Ni fi Fi
173 169 185 174 170 191 187 168 176 192 [160,165) 162,5 4 4 0,1 0,1
167 180 172 186 178 167 194 169 172 178
170 171 164 180 172 168 189 183 176 177 [165,170) 167,5 6 10 0,15 0,25
164 192 163 182 180 184 175 164 182 171

Fes la taula de freqüències. [170,175) 172,5 9 19 0,225 0,475


[175,180) 177,5 6 25 0,15 0,625
[180,185) 182,5 7 32 0,175 0,8
[185,190) 187,5 4 36 0,1 0,9
[190,195) 192,5 4 40 0,1 1
Gràfics estadístics
• Malgrat que les taules de freqüències contenen tota la informació es
solen acompanyar de gràfics a fi que aquesta informació sigui més
clara i evident. Moltes vegades, fins i tot, es prescindeix de les taules i
es mostren només els gràfics.

• Un gràfic estadístic ha de ser adequat i convé que sigui tan expressiu


com sigui possible. Cal fixar-se en tota la informació que l'acompanya:
unitats en què s'expressen les dades, escales utilitzades, etc.
Gràfics
estadístics
DIAGRAMA DE BARRES
• Es fan servir en variables
qualitatives o quantitatives
discretes. Aquest gràfic
representa cada valor mitjançant
una barra d'alçada proporcional a
la freqüència que té el valor. (En
alguns programes, com l'Excel,
aquestes barres acostumen a ser
rectangles).
• En l'eix d'abscisses s'hi posen les
dades (xi) i en l'eix d'ordenades, la
freqüència absoluta (ni).
Gràfics
estadístics
HISTOGRAMA
• S'usa per variables agrupades en
intervals i es representa a partir
de rectangles de base l'amplitud
de l'interval i l'alçada es calcula de
manera que l'àrea del rectangle
sigui proporcional a la freqüència
absoluta de l'interval.
• Si tots els intervals tenen la
mateixa amplitud es sol
representar la freqüència
absoluta; en cas contrari, es
representa la densitat de l'interval
on ai és l'amplada de l'interval.
𝑛𝑛𝑖𝑖
ℎ𝑖𝑖 =
𝑎𝑎𝑖𝑖
Gràfics
estadístics
ni
DIAGRAMA DE SECTORS
• Es pot usar en qualsevol tipus de
variables i es representa en una
circumferència de manera que
l'àrea del sector circular
corresponent a cada valor sigui
proporcional a la seva freqüència
absoluta.
• L'angle de cada valor es calcula .

360 · 𝑛𝑛𝑖𝑖
𝛼𝛼𝑖𝑖 =
𝑁𝑁 [160,165) [165,170) [170,175) [175,180) [180,185) [185,190) [190,195)
Gràfics estadístics
POLÍGONS DE FREQÜÈNCIES
• És una línia poligonal que s'obté unint els punts
corresponents a la freqüència de cada valor. Tant en
diagrames de barres com histogrames s'uneixen els
punts mitjos del costat superior del rectangle.

PICTOGRAMES
• Les dades es representen a partir de dibuixos
representatius de l'estudi de manera que el volum
del dibuix sigui proporcional a la freqüència de la
dada representada.
• Aquests gràfics, tot i que els veiem en diaris, són
difícils de confeccionar manualment.
Paràmetres estadístics
Fins i tot agrupant les dades, la informació de les taules de freqüències és excessiva i
s'intenta reduir la informació en un nombre petit de valors anomenats paràmetres
estadístics. Aquests paràmetres són de tres tipus:

• De posició: aquests paràmetres donen una idea global de la distribució de les


observacions. Poden ser de centralització, donen una idea intuïtiva de promig, o de no
centralització, que divideixen la distribució en parts iguals.

• De dispersió: mesuren com estan distribuïdes les dades al voltant d'un paràmetre de
centralització. Complementen aquests paràmetres.

• De forma: es calculen a partir de la variable estandarditzada i, per tant, no depenen de


les unitats de mesura i són invariables per canvis d'escala. Ens indiquen la forma de la
gràfica de la distribució.
De posició central
La mitjana aritmètica �
𝒙𝒙 s'obté sumant tots els valors i dividint el resultat pel total de
resultats.

Propietats:
1. Si sumem una constant C a tots els valors de la distribució, la mitjana de la nova
distribució s'obté sumant la constant C a la mitjana de la distribució inicial.

2. Si multipliquem tots els valors de la distribució per una constant K, la mitjana de la


nova distribució s'obté multiplicant per K la mitjana de la distribució inicial.

La moda (Mo) és el valor que es repeteix més vegades. És l'únic paràmetre que pot
prendre més d'un valor.
En cas de treballar amb intervals, l'interval que conté més dades és la classe modal i el
valor de la moda direm que és la marca de classe.
De posició central
La mediana (Me) és el valor que ocupa la posició central d'un conjunt de dades numèriques ordenades
en ordre creixent.

Quan hi ha moltes dades es calcula a partir de la freqüència absoluta acumulada. La mediana és el valor
que ocupa el lloc N/2. Busquem el valor de 𝑁𝑁𝑖𝑖 que sigui igual o superior a N/2; si és superior, el valor de la
mediana serà 𝑥𝑥𝑖𝑖 , i si és igual, serà la mitjana entre 𝑥𝑥𝑖𝑖 i 𝑥𝑥𝑖𝑖+1 .
En cas de tenir les dades agrupades en intervals aquest procés ens dona la classe mediana, és a dir,
l'interval que conté la mediana. Per calcular la mediana suposem que les dades es distribueixen
uniformement en l'interval i apliquem la fórmula

on 𝐿𝐿𝑖𝑖 és el límit inferior de la classe mediana; ni, la freqüència absoluta de l'interval; 𝑎𝑎𝑖𝑖 , l'amplada de
l'interval, i 𝑁𝑁𝑖𝑖−1 , la freqüència absoluta acumulada fins l'interval.
Exemples
Exemple1.
El nombre de gols encaixats per un equip de futbol a la Lliga han estat aquests:
2, 3, 1, 0, 1, 2, 0, 0, 4, 3, 0, 2, 1, 1, 1, 5, 3, 2, 0, 0, 3, 1, 3, 1, 2, 4, 2, 0, 0, 1, 1, 2, 1, 0, 3, 3, 0, 1, 2, 0.
Calcula els paràmetres de posició central.
A partir de la taula de freqüències
xi ni Ni fi Fi
0 11 11 0,275 0,275
1 11 22 0,275 0,55
2 8 30 0,2 0,75
3 7 37 0,175 0,925
4 2 39 0,05 0,975
5 1 40 0,025 1
Exemples
173 169 185 174 170 191 187 168 176 192
Exemple2 167 180 172 186 178 167 194 169 172 178
170 171 164 180 172 168 189 183 176 177
L'alçada de 40 nois en cms. són les següents: 164 192 163 182 180 184 175 164 182 171

Calcula els paràmetres de centralització. Ii xi ni Ni fi Fi


[160,165) 162,5 4 4 0,1 0,1
Fem els càlculs a partir de la taula de freqüències [165,170) 167,5 6 10 0,15 0,25
[170,175) 172,5 9 19 0,225 0,475
[175,180) 177,5 6 25 0,15 0,625
[180,185) 182,5 7 32 0,175 0,8
[185,190) 187,5 4 36 0,1 0,9
[190,195) 192,5 4 40 0,1 1
De posició no central
Aquests paràmetres ens divideixen les dades en parts iguals, cosa que ens permet fer-nos una idea
de com estan distribuïdes les observacions.

Els més importants són els quartils. Els quartils divideixen el conjunt d'observacions ordenat en
ordre creixent en quatre parts iguals. Hi ha, per tant, tres quartils.

Q1, quartil 1, és el valor que deixa el 25% de les dades per sota seu, és a dir, una quarta part de les
dades són més petites o iguals que ell. O dit d'una altra manera, és el valor que té una freqüència
absoluta acumulada de N/4.

Q2, segon quartil, és el valor tal que el 50% de les dades són més petites o igual que ell. Coincideix
amb la mediana.

Q3 o tercer quartil, és el valor que deixa per sota seu el 75% de les dades, és a dir, té una freqüència
absoluta acumulada de 3N/4.
De posició no central
Si treballem amb dades agrupades en intervals, a partir de la freqüència absoluta
acumulada trobarem la classe quartil i calcularem el valor del quartil, de manera
anàloga al valor de la mediana, amb la fórmula:

Hi ha d'altres mesures com els decils, en què es divideix el conjunt d'observacions


en 10 parts, o els percentils, en què es divideixen les observacions en 100 parts.

Anomenem rang interquartílic (rQ) a la diferència entre el tercer i el primer quartil.


De fet, és una mesura de dispersió i ens indica l'amplitud de l'interval que conté el
50% de dades centrals.
De posició no central

Els quartils s'acostumen a representar gràficament en l'anomenat


diagrama de caixa. El diagrama de caixa és un gràfic estadístic que
representa la distribució de les dades. Recull els 5 punts resum, és a
dir, el valor mínim, els tres quartils i el valor màxim.

Per elaborar un diagrama de caixa dibuixem un rectangle entre el


quartil 1 i el quartil 3 i el dividim per un segment vertical que ens
marca el quartil 2. El valor mínim i el valor màxim els unim al rectangle
amb una línia, anomenada bigotis. Aquests bigotis si són més llargs
que 1,5 vegades el rang interquartílic els fem discontinus i ens indica
que hi ha valors atípics, és a dir, valors extrems que poden ser deguts
a anomalies o a errors en la recollida de dades.

Taula comparativa amb diagrames de caixa de les dades


dels experiments de Michelson–Morley per calcular la
velocitat de la llum.
Exemples
Exemple1.
El nombre de gols encaixats per un equip de futbol a la Lliga han estat aquests:
2, 3, 1, 0, 1, 2, 0, 0, 4, 3, 0, 2, 1, 1, 1, 5, 3, 2, 0, 0, 3, 1, 3, 1, 2, 4, 2, 0, 0, 1, 1, 2, 1, 0, 3, 3, 0, 1, 2, 0.
Calcula els quartils i dibuixa el diagrama de caixa.
A partir de la taula de freqüències

xi ni Ni fi Fi
0 11 11 0,275 0,275
1 11 22 0,275 0,55
2 8 30 0,2 0,75
3 7 37 0,175 0,925
4 2 39 0,05 0,975
5 1 40 0,025 1
De dispersió
Les mesures de dispersió ens diuen com es distribueixen les dades al voltant de paràmetres
de centralització com la mitjana aritmètica i quantifiquen, en certa manera, la
representativitat del promig. Ens donen la variabilitat o dispersió de les dades.

Les principals mesures de dispersió són:


el rang: és la diferència entre el valor més gran i el més petit.
la variància (𝑺𝑺𝟐𝟐 ) és la mitjana aritmètica dels erros quadràtics comesos al considerar la
mitjana aritmètica com a representant de les dades. Diem error o desviació d'un valor a la
diferència entre el valor i la mitjana. La fórmula que utilitzem per calcular-la és:

la desviació típica o estàndard (S) és l'arrel quadrada positiva de la variància.


Exemples
Exemple1.
El nombre de gols encaixats per un equip de futbol a la Lliga han estat aquests:
2, 3, 1, 0, 1, 2, 0, 0, 4, 3, 0, 2, 1, 1, 1, 5, 3, 2, 0, 0, 3, 1, 3, 1, 2, 4, 2, 0, 0, 1, 1, 2, 1, 0, 3, 3, 0, 1, 2, 0.
Calcula els paràmetres de dispersió.
A partir de la taula de freqüències

xi ni Ni fi Fi
0 11 11 0,275 0,275
1 11 22 0,275 0,55
2 8 30 0,2 0,75
3 7 37 0,175 0,925
4 2 39 0,05 0,975
5 1 40 0,025 1

También podría gustarte