Está en la página 1de 26

Estadstica

Elementos Introductorios

Definicin
La Estadstica es la tecnologa de la
Sistematizacin, recogida, ordenacin y presentacin
ade los datos referentes a un fenmeno que presenta
v
i
t
p
i
variabilidad o incertidumbre para su estudio metdico, con
r
c
objeto de
es

deducir las leyes que rigen esos fenmenos,

d
a
lid
i
ab
b
o
y poder
r
P

de esa forma hacer previsiones sobre los mismos,


tomar decisiones u obtener conclusiones.

ia
c
en
r
fe
n
I

Poblacin y muestra

Poblacin (population) es el conjunto sobre el que


estamos interesados en obtener conclusiones (hacer
inferencia).
Normalmente es demasiado grande para poder
abarcarlo.

Muestra (sample) es un subconjunto suyo al que tenemos


acceso y sobre el que realmente hacemos las
observaciones (mediciones)
Debera ser representativo
Esta formado por miembros seleccionados de la
poblacin (individuos, unidades experimentales).

Variables
Una variable es una caracterstica observable que vara entre los
diferentes individuos de una poblacin. La informacin que
disponemos de cada individuo es resumida en variables.

En los individuos de la poblacin colombiana,


de uno a otro es variable:

El grupo sanguneo

Su nivel de felicidad declarado

{Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal

El nmero de hijos

{A, B, AB, O} Var. Cualitativa

{0,1,2,3,...} Var. Numrica discreta

La altura

{162 ; 174; ...} Var. Numrica continua

Tipos de variables

Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a
un nmero (no se pueden hacer operaciones algebraicas con ellos)

Nominales: Si sus valores no se pueden ordenar

Ordinales: Si sus valores se pueden ordenar

Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)

NBI, Grado de satisfaccin, Intensidad del dolor

Cuantitativas o Numricas
Si sus valores son numricos (tiene sentido hacer operaciones
algebraicas con ellos)

Discretas: Si toma valores enteros

Nmero de hijos, Nmero de cigarrillos, Num. de cumpleaos

Continuas: Si entre dos valores, son posibles infinitos valores intermedios.

Altura, Presin intraocular, Dosis de medicamento administrado, edad

Los posibles valores de una variable suelen denominarse modalidades.

Las modalidades pueden agruparse en clases (intervalos)

Edades:

Hijos:

Menos de 20 aos, de 20 a 50 aos, ms de 50 aos


Menos de 3 hijos, De 3 a 5, 6 o ms hijos

Las modalidades/clases deben forman un sistema exhaustivo y


excluyente

Exhaustivo: No podemos olvidar ningn posible valor de la variable

Mal: Cul es su color del pelo: (Rubio, Moreno)?


Bien: Cul es su grupo sanguneo?

Excluyente: Nadie puede presentar dos valores


simultneos de la variable

Estudio sobre el ocio

Mal: De los siguientes, qu le gusta: (deporte, cine)


Bien: Le gusta el deporte: (S, No)
Bien: Le gusta el cine: (S, No)
Mal: Cuntos hijos tiene: (Ninguno, Menos de 5, Ms de 2)

Presentacin ordenada de datos


Gnero

Frec.

Hombre

Mujer

Las tablas de frecuencias y las representaciones grficas son


dos maneras equivalentes de presentar la informacin. Las
dos exponen ordenadamente la informacin recogida en una
muestra.
7

Tablas de frecuencia

Exponen la informacin recogida en la muestra, de forma que no se pierda nada


de informacin (o poca).

Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad

Frecuencias relativas (porcentajes): Idem, pero dividido por el total

Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas

Muy tiles para calcular cuantiles (ver ms adelante)

Qu porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8


Entre 4 y 6 hijos? Soluc 1: 8,4%+3,6%+1,6%= 13,6%. Soluc 2: 97,3% - 83,8% = 13,5%

Sexo del encuestado

Vlidos

Hombre
Mujer
Total

Frecuencia
636
881
1517

Porcentaje
41,9
58,1
100,0

Nmero de hijos
Porcentaje
vlido
41,9
58,1
100,0

Vlidos

Nivel de felicidad

Vlidos

Perdidos
Total

Muy feliz
Bastante feliz
No demasiado feliz
Total
No contesta

Frecuencia
467
872
165
1504
13
1517

Porcentaje
30,8
57,5
10,9
99,1
,9
100,0

Porcentaje
vlido
31,1
58,0
11,0
100,0

Porcentaje
acumulado
31,1
89,0
100,0

Perdidos
Total

0
1
2
3
4
5
6
7
Ocho o ms
Total
No contesta

Frecuencia
419
255
375
215
127
54
24
23
17
1509
8
1517

Porcentaje
27,6
16,8
24,7
14,2
8,4
3,6
1,6
1,5
1,1
99,5
,5
100,0

Porcentaje
vlido
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcentaje
acumulado
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

Grficos para v. cualitativas

Diagramas de barras

Diagramas de sectores (tortas, polares)

Alturas proporcionales a las frecuencias (abs.


o rel.)
Se pueden aplicar tambin a variables
discretas

No usarlo con variables ordinales.


El rea de cada sector es proporcional a su
frecuencia (abs. o rel.)

Pictogramas

Fciles de entender.
El rea de cada modalidad debe ser
proporcional a la frecuencia. De los dos, cul
es incorrecto?.

Parmetros y estadsticos

Parmetro: Es una cantidad numrica calculada sobre


una poblacin

La altura media de los individuos de un pas

La idea es resumir toda la informacin que hay en la


poblacin en unos pocos nmeros (parmetros).

Estadstico: dem (cambiar poblacin por muestra)

La altura media de los que estamos en este aula.

Somos una muestra (representativa?) de la poblacin.

Si un estadstico se usa para aproximar un parmetro tambin


se le suele llamar estimador.

10

11

En resumen

Posicin
Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos.

Centralizacin
Indican valores con respecto a los que los datos
parecen agruparse.

Media, mediana y moda

Dispersin
Indican la mayor o menor concentracin de los
datos con respecto a las medidas de centralizacin.

Cuantiles, percentiles, cuartiles, deciles,...

Desviacin tpica, coeficiente de variacin, rango,


varianza

Forma
Asimetra
Apuntamiento o curtosis

12

Estadsticos de posicin

Se define el cuantil de orden como un valor de la variable por


debajo del cual se encuentra una frecuencia acumulada

Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

13

Centralizacin
Aaden unos cuantos casos particulares a las medidas de posicin. En este
caso son medidas que buscan posiciones (valores) con respecto a los
cuales los datos muestran tendencia a agruparse.

Media (mean) Es la media aritmtica (promedio) de los valores de una


variable. Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con
respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos

Mediana (median) Es un valor que divide a las observaciones en dos


grupos con el mismo nmero de individuos (percentil 50). Si el nmero
de datos es par, se elige la media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible a
valores extremos.

Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!

Moda (mode) Es el/los valor/es donde la distribucin de frecuencia


alcanza un mximo.

14

Variabilidad o dispersin

Los estudiantes de Mtodos de investigacin reciben diferentes


calificaciones en la asignatura (variabilidad). A qu puede deberse?

Diferencias individuales en el conocimiento de la materia.

Podra haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo


nivel de conocimiento. Las notas seran las mismas en todos?
Seguramente No.

Dormir poco el da del examen, el croissant estaba envenenado...

El examen no es una medida perfecta del conocimiento.

Diferencias individuales en la habilidad para hacer un examen.

Variabilidad por error de medida.

En alguna pregunta difcil, se duda entre varias opciones, y al azar


se elige la mala

Variabilidad por azar, aleatoriedad.

15

Desviacin tpica (standard


deviation)
Es la raz cuadrada de la varianza

Tiene las misma dimensionalidad


(unidades) que la variable.
Cierta distribucin que veremos
ms adelante (normal o
gaussiana) quedar
completamente determinada por la
media y la desviacin tpica.

A una distancia de una desv. tpica de


la media tendremos 68%
observaciones.

S S

50

40

30

20

10

Desv. tp. = 568,43


Media = 2023

N = 407,00

Peso recin nacidos en partos gemelares

A una distancia de dos desv. tpica de

16

Centrado en la media y a una desviacin tpica de


distancia tenemos ms de la mitad de las
observaciones (izq.)

A dos desviaciones tpicas las tenemos a casi todas


(dcha.)
17

Muestreo

Las poblaciones estn formadas por individuos, pero sera mejor


denominarlas unidades de muestreo o unidades de estudio:
Personas, clulas, familias, hospitales, pases

La poblacin ideal que se pretende estudiar se denomina


poblacin objetivo.
No es fcil estudiarla por completo. Aproximamos mediante
muestras que den idealmente la misma probabilidad a cada
individuo de ser elegido.
Tampoco es fcil elegir muestras de la poblacin objetivo:

Si llamamos por telfono excluimos a los que no tienen.


Si elegimos indiv. en la calle, olvidamos los que estn trabajando...

El grupo que en realidad podemos estudiar (v.g. los que tienen


telfono) se denomina poblacin de estudio.
18

Fuentes de sesgo

Las poblaciones objetivo y de estudio pueden diferir


en cuanto a las variables que estudiamos.

En este caso, diremos que las muestras que se elijan estarn


sesgadas. Al tipo de sesgo debido a diferencias sistemticas entre
poblacin objetivo y poblacin de estudio se denomina sesgo de
seleccin.

Hay otras fuentes de error/sesgo

No respuesta a encuestas embarazosas

El nivel econmico en la poblacin de estudio es mayor


que en la objetivo,...
Los individuos que se eligen en la calle pueden ser de
mayor edad (mayor frecuencia de jubilados p.ej.)

Consumo de drogas, violencia domstica, prcticas poco


ticas,

Mentir en las preguntas delicadas.

Para evitar este tipo de sesgo se utilizan la tcnica de


19
respuesta aleatorizada.

Tcnicas de respuesta aleatorizada

Reducen la motivacin para mentir (o no responder)


a las encuestas.

Si digo la verdad, mostrar el cobre?

Cmo se hace?
Pdele que lance una moneda antes de responder
y

Si sale cara que diga la opcin comprometedora

Si sale sello que diga la verdad

(no tiene por qu avergonzarse, la culpa es de la


moneda)
(no tiene por qu avergonzarse, el encuestador no
sabe si ha salido cara o sello)

Aunque no podamos saber cul es la verdad en cada


individuo, podemos hacernos una idea porcentual
sobre la poblacin, viendo en cunto se alejan las 20

Ejemplo: Ha tomado drogas alguna vez?


Sin respuesta
aleatorizada

Con respuesa
aleatorizada

Insinceros!!

100% No

40% No
60% S

Diferencia entre los que han dicho s y los que deban hacerl
por que as lo indicaba la moneda

No son mitad y mitad!


El porcentaje estimado de ind. que tom drogas
es:

0,6 0,5
p
0,2 20%
1 0,5
*

Los que deben decir la verdad

21

Tcnicas de muestreo

Cuando elegimos individuo de una poblacin de


estudio para formar muestras podemos encontrarnos
en las siguientes situaciones:
Muestreos probabilistas
Conocemos la probabilidad de que un individuo sea elegido
para la muestra.
Interesantes para usar estadstica matemtica con ellos.
Muestreos no probabilistas
No se conoce la probabilidad.
Son muestreos que seguramente esconden sesgos.
En principio no se pueden extrapolar los resultados a la
poblacin.

A pesar de ello una buena parte de los estudios que se publican


usan esta tcnica. Buff!

En adelante vamos a tratar exclusivamente con


muestreos con la menor posibilidad de sesgo
(probabilistas): aleatorio simple, sistemtico,
estratificado y por grupos.

22

Muestreo aleatorio simple (m.a.s.)

Se eligen individuos de la poblacin de estudio, de


manera que todos tienen la misma probabilidad de
aparecer, hasta alcanzar el tamao muestral
deseado.

Se puede realizar partiendo de listas de individuos


de la poblacin, y eligiendo individuos
aleatoriamente con un ordenador.

Normalmente tiene un coste bastante alto su


aplicacin.

En general, las tcnicas de inferencia estadstica


suponen que la muestra ha sido elegida usando
m.a.s., aunque en realidad se use alguna de las
que veremos a continuacin.

23

Muestreo sistemtico

Se tiene una lista de los individuos de la poblacin


de estudio. Si queremos una muestra de un
tamao dado, elegimos individuos igualmente
espaciados de la lista, donde el primero ha sido
elegido al azar.

CUIDADO: Si en la lista existen periodicidades,


obtendremos una muestra sesgada.

Un caso real: Se eligi una de cada cinco casas para un


estudio de salud pblica en una ciudad donde las casas se
distribuyen en manzanas de cinco casas. Salieron con
mucha frecuencia las de las esquinas, que reciben ms sol,
estn mejor ventiladas,
24

Muestreo estratificado

Se aplica cuando sabemos que hay ciertos factores


(variables, subpoblaciones o estratos) que pueden
influir en el estudio y queremos asegurarnos de
tener cierta cantidad mnima de individuos de cada
tipo:
Hombres y mujeres,
Jovenes, adultos y ancianos

Se realiza entonces una m.a.s. de los individuos de


cada uno de los estratos.

Al extrapolar los resultados a la poblacin hay que


tener en cuenta el tamao relativo del estrato con
respecto al total de la poblacin.
25

Muestreo por grupos o conglomerados

Se aplica cuando es difcil tener una lista de todos los


individuos que forman parte de la poblacin de estudio, pero
sin embargo sabemos que se encuentran agrupados
naturalmente en grupos.

Se realiza eligiendo varios de esos grupos al azar, y ya


elegidos algunos podemos estudiar a todos los individuos de
los grupos elegidos o bien seguir aplicando dentro de ellos
ms muestreos por grupos, por estratos, aleatorios simples,

Para conocer la opinin de los mdicos del sistema nacional de


salud, podemos elegir a varias regiones de Colombia, dentro de
ellas varios departamentos, y dentro de ellas varios centros de
salud, y

Al igual que en el muestreo estratificado, al extrapolar los


resultados a la poblacin hay que tener en cuenta el tamao
relativo de unos grupos con respecto a otros.

Regiones con diferente poblacin pueden tener probabilidades 26

También podría gustarte