Está en la página 1de 41

David Cao Carreo

Primer Premio de Fotografa (Libre)


S.A.E.M. THALES SEVILLA
CONCURSO DE FOTOGRAFA Y
MATEMTICAS E IMGENES MATEMTICAS
Epidemiologa Clnica y Estadstica Aplicada

Revisin de conceptos bsicos en Estadstica I.
Juan Jos de la Cruz Troca
BIOESTADISTICA
Ciencia que estudia la obtencin y condiciones de
aplicacin de determinados procedimientos que
resuelvan cientficamente el problema de la recogida,
organizacin y anlisis de datos que provienen
de la observacin de los fenmenos biolgicos
Epidemiologa Clnica y Estadstica Aplicada
Juan Jos de la Cruz Troca.
CONCEPTO COMO CIENCIA
Por sus procedimientos es una ciencia matemtica.

Por su naturaleza es un ciencia aplicada.

Por su objetivo es un ciencia metodolgica.
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Estadstica
(Bioestadstica)
Investigacin
(en ciencias de la Vida)
Formulacin de Hiptesis
Anlisis de Resultados
Conclusiones
Reglas para
Herramienta para
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Anlisis de Resultados y Conclusiones

1. Estadstica descriptiva

1. Estadstica univariante

1. Estadstica multivariante
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
INTRODUCCIN A LA ESTADSTICA

CONCEPTOS BSI COS:

Poblacin diana: Conjunto de referencia sobre el que se recogen las observaciones,
pueden ser finitas o infinitas, dependiendo de la cantidad de elementos que la
compongan. N=Tamao de la poblacin

Unidad muestral o elemento: Cada uno de los componentes de una poblacin.

Muestra: Subconjunto de la poblacin total. n=Tamao de la muestra

Carcter (Variable): Cada una de las cualidades que poseen los individuos de la
poblacin y que permiten su descripcin. Cualitativo o cuantitativo. Ej. Altura, peso,
color...

Modalidad (categora): Cada uno de los posibles valores numricos o descriptivos de un
carcter.
Ej. color de pelo: moreno, rubio, pelirrojo...
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Tomamos una poblacin y queremos estudiar una determinada caracterstica,
para ello seleccionamos una muestra y estudiamos la caracterstica X,
despus extrapolamos las conclusiones a la poblacin usando estimadores
(inferencia estadstica).
POBLACIN MUESTRA
Representativa de la
poblacin en la
caracterstica de estudio
Media poblacional ()
Varianza poblacional (
2
)
Media muestral x
Varianza muestral S
2
n

Cuasivarianza muestral S
2
n-1

Estimacin puntual
CONSIDERACIONES GENERALES SOBRE MUESTREO
Generalizar
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
TI POS DE VARI ABLES Y SUS REPRESENTACI ONES GRFI CAS
Cualitativas. Describen cualidades de los elementos de la muestra.
Nominales. Categoras excluyentes y sin orden. Ej. Sexo
Ordinales. Categoras con cierto orden. Ej. Clase Social

Diagrama de Barras Grfico de Sectores (Tartas o quesitos)
0
10
20
30
40
50
n
Alta Media Baja
Clase Social
Mujeres
55%
Varones
45%
ESTAD STI CA DESCRI PTI VA
La estadstica descriptiva se encarga de estructurar la informacin referente al
fenmeno o experimento estudiado.
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
TIPOS DE VARIABLES Y SUS REPRESENTACIONES GRFICAS (II)
Cuantitativas (numricas). Devuelven valores numricos para cada caso.

Continuas. Existe un valor intermedio entre dos valores.
Ej. Talla
Discretas. Toma solo valores determinados.
Ej. N de hijos

Histograma y polgono de frecuencias Polgono de frecuencias acumuladas
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
140 150 160 170 180 190 200
Talla (cm)
F
r
e
c
u
e
n
c
i
a
s

r
e
l
a
t
i
v
a
s

a
c
u
m
u
l
a
d
a
s
0
5
10
15
20
25
Talla (cm)
n
F
i

Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
PICTOGRAMAS
Tabla de frecuencias de una variable cualitativa o cuantitativa discreta.

Variable x
i

n
i
f
i
F% N
i
F
i

Frecuencia absoluta (n
i
):
Nmero de veces que aparece cada modalidad de la variable.
Frecuencia relativa (f
i
= n
i
/n):
Cociente entre frecuencia absoluta y tamao muestral.
Frecuencia porcentual (F%= f
i
*100)
Frecuencia absoluta acumulada (N
i
):
Suma de frecuencias absolutas de las modalidades inferiores o iguales a x
i
.
Frecuencia relativa acumulada (F
i
):
Suma de frecuencias relativas de las modalidades inferiores o iguales a x
i
.

=
=
k
i
i
n n
1

=
=
k
i
i
f
1
1
Razn o cociente:
Expresa una relacin cuando las magnitudes son independientes.
Ej. Razn entre varones y mujeres R=V/M.
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Personas Enfermas

Nmero Familias

Xi

ni

fi

F%i

Ni

Fi

F%
acu.

1

16

16/50

32%

16

16/50

32%

2

20

20/50

40%

36

36/50

72%

3

9

9/50

18%

45

45/50

90%

4

5

5/50

10%

50

50/50

100%

Total

50

* EJEMPLO: Cualitativas y Cuantitativas Discretas.
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Variable: N de personas con gripe en familias de 5 ms miembros
Estadsticos Resumen de Variables Cuantitativas.
Medidas de Tendencia Central: Valor al que tienden a agruparse los datos
Media Aritmtica (X). Suma de valores entre n de casos.


Mediana (Me). Valor Observado que, ordenados los valores de
forma creciente, divide el nmero de casos en dos partes iguales.
50% Me 50%

Moda (Mo). Valor observado que tiene mayor n
i
. (que ms se repite)
n
x
x
n
i
i
=
=
1
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Estadsticos Resumen de Variables Cuantitativas.
Medidas de Dispersin: Miden la variabilidad o dispersin de los datos.
Rango Amplitud (R). Diferencia entre el valor mximo observado y
el valor mnimo en la muestra. R=Mx-Mn.
Cuartiles (Q1, Q2, Q3). Rango intercuartlico (Q3-Q1). Percentiles (Pi).
Varianza (o
2
). Mide la distancia entre los valores y la media estimada.


Desviacin Tpica (o). Es la raz cuadrada de la Varianza.

Coeficiente de Variacin (CV). Se usa para comparar distribuciones.
Suele expresarse en %.

=
= =
n
i
i
x x
n
S
1
2 2 2
) (
1
o
2
s S = =o
x CV o =
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Medidas de forma: Permiten la descripcin de la grfica de la
distribucin de frecuencias.
Medidas de simetra. Para saber si los valores de la variable
se concentran en una determinada zona.
Coeficiente de Asimetra de Pearson


Coeficiente de Asimetra de Fisher
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
As<0

As=0

As>0

Asimetra Negativa a
la Izquierda



Simtrica



Asimetra Positiva a la
Derecha.



Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Medidas de aplastamiento. El Coeficiente de Curtosis analiza el
grado de concentracin que presentan los valores alrededor de la zona
central de la distribucin. Se definen 3 tipos de distribuciones segn su
grado de curtosis:

Coeficiente de Curtosis:
g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
La mayora de las variables aleatorias que se presentan en los estudios
relacionados con las ciencias sociales, fsicas y biolgicas, por ejemplo, el peso
de nios recin nacidos, talla de jvenes de 18 aos en una determinada regin,
son continuas y se distribuyen segn una funcin de densidad , que tiene la
siguiente expresin analtica :


Donde es la media de la variable aleatoria y es su desviacin tpica. Este
tipo de variables se dice que se distribuye normalmente. El rea bajo la
funcin de densidad es 1.
La funcin de densidad, en el caso de la distribucin Normal, tiene forma de
campana :
DISTRIBUCIN NORMAL
2
2
1
2
1
) (
e
x
x f
|
.
|

\
|

=
o

t o
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Estimacin de Parmetros.
Error Muestral (Error estndar) (ET). Mide la dispersin de los estadsticos de
todas las posibles muestras de la poblacin.

Intervalos de Confianza (IC). Valores entre los cules se encuentra el valor de la
poblacin con una probabilidad p.

Muestras grandes. Se calcula a partir del ET.

Variables Cuantitativas. Si definimos el ET como ET=o/\n.
Calculamos el IC de la Media segn el valor p.
Para p=0,95 (95%). IC=X 1,96.ET
Para p=0,99 (99%). IC=X 2,6.ET

ESTAD STI CA BSI CA Y BI VARI ANTE
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Estimacin de Parmetros.

Variables Cualitativas. Si definimos el ET como ET=\p(1-p)/n.
Calculamos el IC del porcentaje segn el valor p.
Para p=0,95 (95%). IC=% 1,96.ET
Para p=0,99 (99%). IC=% 2,6.ET

Muestras pequeas (n<30, n<100).
Variables Cuantitativas.
Segn la tabla de la t de Student.
Variables Cualitativas.
Segn la tabla de la Binomial
ESTAD STI CA BSI CA Y BI VARI ANTE
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
ESTAD STI CA BSI CA Y BI VARI ANTE
Tipos de Hiptesis y Errores.

Tipos de Hiptesis.
Hiptesis Nula (H
0
). Cualquier Diferencia que observemos al azar.
Hiptesis Alternativa (H
1
). Difiere de H
0
, y es la diferencia excesiva no
atribuible al azar.
Tipos de Error.
Error Tipo I (Error o).- Riesgo de equivocarse al rechazar H
0

Error Tipo II (Error |).- Riesgo de rechazar H
1
siendo cierta.

Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Situaciones entre Hiptesis y Error.
H
0
Cierta H
1
Cierta

Rechazo H
0
Error Tipo I Decisin correcta
p=o (0,05) p=1-| (poder o potencia)

No rechazo H
0
Decisin correcta Error Tipo II
p=1-o p=| (0,2)
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Tests Estadsticos utilizados con mayor frecuencia entre
variables cualitativas.

Para medir la posible asociacin entre dos variables cualitativas se
emplea el test ji-cuadrado de Pearson.
Si tenemos un 20 % de casillas con una frecuencia esperada menor
de 5 se aplica la correccin de Yates.

H
0


%
x
= %
y
.
H
1


%
x
= %
y
.
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Debemos decidir si existe evidencia significativa de que los porcentajes
de cada categora en cada variable son iguales (aceptamos H
0
).


Si rechazamos H
0
entonces aceptamos H
1



Calculamos el valor _
2
Pearson
= E|O
i
-E
i
|
2
/E
i
donde O
i

es el valor de frecuencias observadas y E
i
el valor esperado en cada celda. A partir
de este valor estan tabulados los valores p asociados a cada uno de ellos y se
decide si se rechaza H
o
.
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada

Observadas Esperadas
x
1
x
2
x
1
x
2
y
1
a b n
y1
y
1
a b
n
y1
y
2
c d n
y2
y
2
c d
n
y2
n
x1
n
x2
N n
x1
n
x2
N

xi= Categora variable 1, yi=Categora variable2
ni=n de casos marginales, N=Muestra total
a=nmero de casos de la categora x
1
de la variable 1 y con la categora y
1
de la 2.
b=nmero de casos de la categora x
2
de la variable 1 y con la categora y
1
de la 2.
c=nmero de casos de la categora x
1
de la variable 1 y con la categora y
2
de la 2.
d=nmero de casos de la categora x
2
de la variable 1 y con la categora y
2
de la 2.
a=(n
x
1
. n
y
1
)/N; b=(n
x
2
. n
y
1
)/N; c=(n
x
1
. n
y
2
)/N; d=(n
x
2
. n
y
2
)/N
Tablas de Frecuencia
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
_
2
Pearson
=E|O
i
-E
i
|
2
/E
i
=((a-a)
2
/a) +((b-b)
2
/b) +((c-c)
2
/c) +((d-d)
2
/d)

Miramos en la tabla _
2

Li< _
2

<Ls y obtenemos la p asociada o error tipo I.

La correccin de Yates es:
_
2
Yates
= E(|O
i
-E
i
|-1/2)
2
/E
i
= ((|a-a|-0,5)
2
/a) + ((|b-b|-0,5)
2
/b) + ((|c-c|-0,5)
2
/c)
+ ((|d-d|-0,5)
2
/d)

Como medida de Asociacin usamos el valor Odds Ratio (OR).
OR = (a.c)/(b.d)
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Test Exacto de Fisher
El contraste de homogeneidad mediante la prueba Chi-Cuadrado entre dos
variables cualitativas (o tambin llamado contraste de independencia entre dos
variables cualitativas) se basa en la comparacin de las frecuencias obtenidas con las
frecuencias esperadas.

La prueba exacta de Fisher est basada en la distribucin exacta de los
datos y no en aproximaciones asintticas, y presupone que los marginales de la tabla
de contingencia estn fijos.

En general, cuando las frecuencias absolutas esperadas, en la gran mayora
de casillas o celdas son relativamente grandes (ms de 5), se utiliza el estadstico Chi-
Cuadrado para realizar el contraste mencionado.


Cuando en un 20% de las casillas el valor esperado no es superior a 5, el
estadstico anterior no es vlido y generalmente se utiliza la prueba exacta de
Fisher.
Habitualmente, la prueba exacta de Fisher es ms conservadora que la
prueba Chi-Cuadrado.
La prueba exacta de Fisher se aplica a variables dicotmicas
A continuacin, se construyen todas las tablas de
contingencia 2x2 posibles con celdas a, b, c, d, siendo
0 < a < mn{c1 , f1}, b = f1 a, c = c1 a y d = f2 c.
A partir de dichas tablas se calcula:

sa a
a
p
'
'
Donde X! indica el factorial de X que
se calcula como x(x-1)(x-2)21,
por ejemplo, 5!=54321=120.
Test Exacto de Fisher
Para calcular el estadstico de contraste, se construye en primer lugar la tabla de
contingencia de dimensiones 2x2 con las frecuencias absolutas observadas, con la
notacin siguiente:


B + -
A
+ a b f
1
- c d f
2
c
1
c
2
n
El p-valor unilateral-izquierda es =



el p-valor unilateral-derecha es =
! ' ! ' ! ' ! ' !
! ! ! !
2 1 2 1
'
d c b a n
c c f f
p
a
=

>a a
a
p
'
'
y el p-valor bilateral resultante es:

s
a a
p p
a
p
'
'
1720 , 0
! 18 ! 19 ! 4 ! 1 ! 42
! 22 ! 20 ! 37 ! 5
'
1
= =
a
p
0310 , 0
! 21 ! 16 ! 1 ! 0 ! 42
! 22 ! 20 ! 37 ! 5
'
0
= =
a
p
Ejemplo: A partir de la tabla
F1 F2
C1 4 1 5
C2 16 21 37
20 22 42
Calcular el valor p correspondiente al Test de Fisher:

1 Calculamos la tabla para a=0


entonces



2 Calculamos la tabla para a=1


entonces


F1 F2
C1 0 5 5
C2 20 17 37
20 22 42

F1 F2
C1 1 4 5
C2 19 18 37
20 22 42
3096 , 0
! 20 ! 17 ! 2 ! 3 ! 42
! 22 ! 20 ! 37 ! 5
'
3
= =
a
p
3440 , 0
! 19 ! 18 ! 3 ! 2 ! 42
! 22 ! 20 ! 37 ! 5
'
2
= =
a
p


3 Calculamos la tabla para a=2


entonces



4 Calculamos la tabla para a=3


Entonces


Para a=4 p
a4
=0,1253

Para a=5 p
a5
=0,0182

F1 F2
C1 2 3 5
C2 18 19 37
20 22 42

F1 F2
C1 3 2 5
C2 17 20 37
20 22 42
9818 , 0 1253 , 0 3096 , 0 3440 , 0 1720 , 0 0310 , 0
'
'
= + + + + =

sa a
a
p
a Pa
0 0.0310
1 0.1720
2 0.3440
3 0.3096
4 0.1253
5 0.0182
Los valores de P para cada a
1745 , 0 0310 , 0 0182 , 0 1253 , 0
'
'
= + + =

s
a a
p p
a
p
El valor p unil-izq.es:
El valor p bilateral es
1435 , 0 0182 , 0 1253 , 0
'
'
= + =

>a a
a
p
El valor p unil-der.es:
Prueba Test de Mc Nemar
Prueba no paramtrica para dos variables dicotmicas
relacionadas.
Contrasta los cambios en las respuestas utilizando la distribucin
de chi-cuadrado.
Es til para detectar cambios en las respuestas debidas a la
intervencin experimental en los diseos del tipo "antes-despus o para
comparar dos tipos de tratamiento.
Tpicamente, un valor de significacin menor que 0,05 se
considera significativo, pero podemos establecer un nivel de significacin
distinto (0,01; 0,1.)
Matemticamente el Estadstico de Mc Nemar se define por :
c b
c b
MN
+

=
2
2
) 1 (
_
En una tabla de contingencia:

B + -
A
+ a b
- c d
Nota: Para el valor p, se utiliza la Tabla de con 1 grado de libertad
2
_
Ejemplo 1
Se ejecut la intervencin educativa Salud bucal para modificar los
conocimientos sobre higiene bucal en alumnos de tercer grado durante el
primer semestre de 1998.

La tabla muestra los resultados obtenidos en conocimientos generales:
Despues Inadecuado Adecuado
Antes
Inadecuado 14 102
Adecuado 0 7
85
120
10201
0 120
) 1 0 102 ( ) 1 (
2 2
2
= =
+

=
+

=
c b
c b
MN
_
001 , 0 83 , 10 85
2
< > = p
MN
_
Tabla de Pruebas para variables cualitativas
Variable 1 Variable 2 Muestra Grande Muestra pequea
Cualita. (2 cat.) Cualita. (2 cat.) _
2
de Pearson Test de Fisher
Cualita. (2 ms cat) Cualita. (2 ms cat) _
2
de Pearson Correcin de Yates
Muestras Relacionadas
Diseos del tipo "antes-despus o para comparar dos tipos de tratamiento.
Cualita. (2 cat.) Cualita. (2 cat.) Test de Mc Nemar
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Si hay ms de un 20% de celdas con frecuencia esperada < 5
algn valor 0, muestra pequea.
Test Estadstico utilizado con mayor frecuencia entre variables cualitativas y
cuantitativas.
Para medir la posible asociacin entre una variable cualitativa y una variable
cuantitativa, decidimos si existe diferencia de medias en la variable cuantitativa segn
el grupo de la variable cualitativa.
Empleamos el test de la t de Student si la variable cualitativa es dicotmica
(tiene dos categoras) y el ANOVA si tiene ms de 2 categoras. En ambos casos la
distribucin de la cuantitativa se asume como Normal.
Veamos el caso de la T-student
H
0

1
=
2
.
H
1

1
=
2
.
Si S
2
=((n
1
-1).S
1
2
) + ((n
2
-1).S
2
2
) / (n
1
+ n
2
-2). S=\ S
2
t= (
1
+
1
)/ (S. \ (1/ n
1
) + (1/ n
2
).
Miramos en las tablas de la distribucin t el valor p asociado: Si es
< de 0,05 rechazo H
0
(diferencia de medias estadsticamente significativa). Si > de
0,05 rechazo H
0
(no encontramos evidencia de que exista diferencia de medias).
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Tipos de Pruebas Estadsticas.
Paramtricas. Para variables cuantitativas normales.
No Paramtricas. Para variables cuantitativas no normales.
TCL (Teorema Central del Lmite).
Si n>30 Distribucin Normal.
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Variable 1 Variable 2 Test Paramtrico Test No Paramtrico
Cualita. (2 cat.) Cuantitativa t de Student U de Mann Whitney
Cualita. (2 ms cat) Cuantitativa ANOVA Kruskal-Wallis
Cuantitativa Cuantitativa Correlacin/ Regresin Rho (r) de Spearman
Regresin. r de Pearson
Tabla de Pruebas para variables cuantitativas
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
23
38
39
22
70
8
0
10
20
30
40
50
60
70
80
Fumador
Actual
No Fumador Ex-Fumador
%
Varones
Mujeres
390
400
410
420
Varones Mujeres
C
o
l
e
s
t
e
r
o
l
Epidemiologa Clnica y Estadstica Aplicada
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Juan Jos de la Cruz Troca.
Epidemiologa Clnica y Estadstica Aplicada
Teorema original de Pitgoras. (Distancias eucldeas)
Epidemiologa Clnica y Estadstica Aplicada