Está en la página 1de 59

Facultad de Estomatologa Roberto Beltrn

Prof. John Oyardo


johnp067@yahoo.es


Investigacin Cientfica I
APLICACIONES FISICO - BIOLOGICAS
Problema real
Depuracin de los datos
(Anlisis de datos)
Estimacin de los parmetros
(Teora de la estimacin)
Modelos Estadsticos
(Clculo de probabilidades)
Planteamiento del problema
Objetos y medios
Recoleccin de informacin muestral
(Tcnicas de muestreo ; diseo de experimentos)
EXPERIMENTO
Contrastes de Simplificacin
(Contrastes de hiptesis)
Crtica y Diagnosis del Modelo
(Anlisis de datos)
Nuevo Conocimiento
Previsiones Decisiones
Estimacin de Parmetros
Inferencia Estadstica
Esperanza de una v.a. X
| |

=
i
i i
x P x X E ) (
Varianza de una v.a. X
| | | |

=
i
i i
x P X E x X V ) ( ) (
2
6
Distribuciones muestrales
Muestras
Media de
la muestra
10, 10 10 225
10, 20 15 100
10, 30 20 25
10, 40 25 0
20, 10 15 100
20, 20 20 25
20, 30 25 0
20, 40 30 25
30, 10 20 25
30, 20 25 0
30, 30 30 25
30, 40 35 100
40, 10 25 0
40, 20 30 25
40, 30 35 100
40, 40 40 225
Suma 400 1000
Media de la
distribucin
muestral
400/16=25
Desviacin
estndar
de la
distribucin
muestral
6.324555
10 20 30 40
0
2
4
6
_
F
r
e
c
u
e
n
c
i
a
Medias muestrales x
i
Distribucin de las muestrales
18 . 11
4
500
N
) x (
25
4
40 30 20 10
x
N
1
2
i
N
1 i
i
= =

= o
=
+ + +
= =

=
Distribucin de las muestras
32 . 6
25
1000
n
) x (
25 x
n
1
25
1 i
2
x
i
x
25
1 i
i
x
= =

= o
= =

=
=
x
o
x

2
x
i ) x (
i x
n
x
o
= o
o s o
x
Distribucin Normal N(, )
R x e N
x
e =
|
.
|

\
|

,
2
1
) , (
2
2
1
o

o t
o
20 30 40 50 60 70 80 90 100 110 120
o = 5
o = 5
10 = o
Curvas normales con distintas medias y desviaciones estndar.
0) (
2
1
) ( ) , (
2
2
2
) (
> = =

x
e x P N
9
N(, ): Interpretacin probabilista
Entre la media y una
desviacin tpica
tenemos siempre la
misma probabilidad:
aprox. 68%

Entre la media y dos
desviaciones tpicas
aprox. 95%

10
Normal Tipificada N(0,1)

Si tomamos intervalos centrados en , y cuyos extremos
estn
a distancia , tenemos probabilidad 68%
a distancia 2 , tenemos probabilidad 95%
a distancia 25 tenemos probabilidad 99%

Todas las distribuciones normales N(, ), pueden ponerse
mediante una traslacin , y un cambio de escala , como
N(0,1). Esta distribucin especial se llama normal tipificada.
R x e N
x
e =

,
2
1
) 1 , 0 (
2
2
1
t
11
Tipificacin
Dada una variable de media y desviacin tpica , se denomina valor
tipificado,z, de una observacin x, a la distancia (con signo) con
respecto a la media, medido en desviaciones tpicas, es decir






En el caso de variable X normal, la interpretacin es clara: Asigna a
todo valor de N(, ), un valor de N(0,1) que deja exctamente la
misma probabilidad por debajo.

Nos permite as comparar entre dos valores de dos distribuciones
normales diferentes, para saber cul de los dos es ms extremo.
o

=
x
z
Tema 5: Modelos
probabilsticos
12
Tabla N(0,1)
Z es normal tipificada.

Calcular P[Z<1,85]
Solucin: 0,968 = 96,8%
13 Bioestadstica. U. Mlaga.
Tabla N(0,1)
Z es normal tipificada.

Calcular P[Z<-0,54]
Solucin: 1-0,705 = 0,295
14
Tabla N(0,1)
Z es normal tipificada.

Calcular P[-0,54<Z<1,85]
Solucin: 0,968-0,295= 0,673
15
Ejemplo: Clculo con probabilidades normales

El colesterol en la poblacin tiene distribucin
normal, con media 200 y desviacin 10.

Qu porcentaje de indivduos tiene
colesterol inferior a 210?

Qu valor del colesterol slo es superado por
el 10% de los individuos.
Tema 5: Modelos
probabilsticos
16
Todas las distribuciones normales son similares salvo traslacin y cambio de
escala: Tipifiquemos.

1
10
200 210
=

=
o
x
z
841 , 0 ) ver tabla ( ] 00 , 1 [ = = < Z P
Tema 5: Modelos
probabilsticos
17 Bioestadstica. U. Mlaga.
8 , 212 28 , 1 10 200
10
200
28 , 1
= + =

=
x
x
El valor del colesterol que slo supera el 10% de los individuos es el percentil 90.
Calculemos el percentil 90 de la N(0,1) y deshacemos la tipificacin.

o

=
x
z
18
Ejemplo: Tipificacin
Se quiere dar una beca a uno de dos estudiantes de
sistemas educativos diferentes. Se asignar al que
tenga mejor expediente acadmico.
El estudiante A tiene una calificacin de 8 en un sistema
donde la calificacin de los alumnos se comporta como
N(6,1).
El estudiante B tiene una calificacin de 80 en un sistema
donde la calificacin de los alumnos se comporta como
N(70,10).
Solucin
No podemos comparar directamente 8 puntos de A frente a
los 80 de B, pero como ambas poblaciones se comportan de
modo normal, podemos tipificar y observar las
puntuaciones sobre una distribucin de referencia N(0,1)
Tema 5: Modelos
probabilsticos
19
1
10
70 80
2
1
6 8
=

=
=

=
B
B B
B
A
A A
A
x
z
x
z
o

o

Como Z
A
>Z
B
, podemos decir que el
porcentaje de compaeros del mismo
sistema de estudios que ha superado en
calificacin el estudiante A es mayor que el
que ha superado B.
Podramos pensar en principio que A es
mejor candidato para la beca.

Intervalos de Confianza
Inferencia Estadstica
Intervalos de Confianza
Mtodos de estimacin:
Estimacin puntual:
utilizacin de datos de la
muestra para calcular un
solo nmero
Estimacin de intervalo:
Intervalos de Confianza
Mtodos de estimacin:
Estimacin puntual:
utilizacin de datos de la
muestra para calcular un
solo nmero para estimar
el parmetro de inters.
Estimacin de intervalo:
ofrece un intervalo de valores
razonables dentro del cual se
pretende que est el
parmetro de inters, en este
caso la media poblacional, con
un cierto grado de confianza
Intervalos de Confianza
Muestreo
aleatorio
MUESTRA
(x
1
, x
2
,..,x
n
)
ESTIMADORES
(Estadsticos)

ESTIMACIONES
(Valores concretos)
Inferencias
PARMETROS
POBLACIN
Descripcin
Intervalos de confianza
n
x
i

=
.

( )


|
.
|

\
|
=
. .
1
2
n X
i
o
ESTIMADORES
ESTIMACIONES
_
X
S
2

Valores concretos
Ejemplo: distribucin de
tallas de neonatos
Valores desconocidos de
los parmetros media y
variancia de la talla de la
poblacin
Estimadores
Muestra
Estimacin puntual de
Estimacin puntual de

2
o
n
x
i

=
.

( )


|
.
|

\
|
=
. .
1
2
n X
i
o
{ } 52 ; 52 ; 51 ; 48 ; 46
50
5
52 52 51 49 46
=
+ + + +
=

x
( ) ( )
5 , 6
1 5
50 52 ....... 50 46
2 2
2
=

+ +
= s

2
o
Intervalos de confianza bilaterales:
construccin
Dada una variable aleatoria X con media
y desviacin estndar,
el teorema del lmite central afirma que posee una distribucin
normal estndar si X :
- se encuentra distribuida normalmente,
- no se encuentra distribuida normalmente y n sea suficientemente
grande

o
n
x
Z
o

=

Intervalo de Confianza 95%
Para una variable normal estndar, 95% de las observaciones se
ubican entre -1,96 y +1,96.

En otras palabras, la probabilidad de que Z tome un valor entre -
1,96 y +1,96 es:

( ) 95 , 0 96 , 1 96 , 1 = s s Z P
Al sustituir el valor de Z:
95 , 0 96 , 1
/
96 , 1 =
|
|
|
.
|

\
|
s

s

n
x
P
o

Multiplicamos los tres trminos de la
desigualdad por el error estndar

Por tanto,

n
o
95 , 0 96 , 1 96 , 1 =
|
.
|

\
|
s s

n
x
n
P
o

o
Intervalo de Confianza 95%
Restamos de cada trmino de tal manera que:



Multiplicamos por -1, invirtiendo el sentido de la
desigualdad:
95 , 0 96 , 1 96 , 1 = |
.
|

\
|
s s

x
n
x
n
P
o

o
95 , 0 96 , 1 96 , 1 = |
.
|

\
|
+ s s +

x
n
x
n
P
o

x
Intervalo de Confianza 95%
Al reordenar trminos:




ya no se localiza en el centro de la desigualdad; en
lugar de eso, la afirmacin de probabilstica indica algo
sobre

95 , 0 96 , 1 96 , 1 = |
.
|

\
|
+ s s

n
x
n
x P
o

Intervalo de Confianza 95%


Al reordenar trminos:





95 , 0 96 , 1 96 , 1 =
|
.
|

\
|
+ s s

n
x
n
x P
o

o
Intervalo de Confianza 95%
Intervalos de Confianza
Importante:
Cuando las muestras aleatorias son cada vez
ms grandes, la variabilidad de X se torna
ms pequeo.
Sin embargo la variabilidad inherente de la
poblacin estudiada, medida por o, siempre
se encuentra presente.
Intervalos de Confianza
Ejemplo :
Distribucin de los niveles de colesterol en sangre
de todos los varones que son hipertensos y que
fuman.
Esta distribucin es:
aproximadamente normal,
con una media desconocida: = ?,
y una desviacin estndar
o = 46 mg / 100 ml.
Intervalos de Confianza
Interesa calcular el nivel medio de colesterol en
sangre.
Antes de elegir una muestra aleatoria,




Representa un intervalo de confianza de = 0,95. o la
probabilidad de 95% que este intervalo contenga la
verdadera media poblacional .
)
)
46
96 . 1 ,
46
96 . 1 (
n
X
n
X +

Intervalos de Confianza
En el caso de tomar una muestra tamao 12 de
la poblacin de fumadores hipertensos y que
adems poseen un nivel medio de colesterol en
sangre de x = 217 mg / 100 ml.
El intervalo de confianza del 95% para es
) 243 , 191 (
)
12
46
96 . 1 217 ,
12
46
96 . 1 217 (
o
+
Intervalos de Confianza
Este intervalo contiene el valor de 211 mg /100 ml, el
nivel medio de colesterol en la sangre de todos los
hombres de 20 a 74 aos de edad sin importar si son
hipertensos o fumadores.


Se est 95 % seguro de que los lmites 191 y 243 cubren la
verdadera media .
Interpretacin 1
Intervalos de Confianza
Interpretacin 2: en trminos de frecuencia.

Si se tomaran 100 muestras aleatorias de tamao 12 de
esta poblacin y utilizaran cada muestra para construir un
intervalo de confianza de 95 %, se espera que en promedio
95 de los intervalos cubrieran la verdadera media
poblacional = 211 y 5 no.
Intervalos de Confianza
Este procedimiento se
expresa grficamente
de la siguiente forma:
Intervalos de Confianza

La nica cantidad que varia de muestra es X.
Todos tiene la misma amplitud.
Cada intervalo de confianza que no contenga el valor
verdadero de se encuentra marcado con un punto, 5
intervalos estn dentro de esta categora
Interpretacin del grfico:
Intervalos de Confianza

Con la misma muestra de 12 hipertensos, se encuentra que los
lmites son
) 251 , 183 (
)
12
46
58 . 2 217 ,
12
46
58 . 2 217 (
o
+
Para calcular un intervalo de confianza
de 99% para .
Intervalos de Confianza
Interpretacin:

Un 99% de confianza de este intervalo cubre el verdadero
nivel medio de colesterol en sangre de la poblacin.
La amplitud de intervalo de confianza de 99% es de 251-
183=68 mg/ 100 ml.
Este intervalo es ms amplio que el correspondiente intervalo
de confianza de 95%.
Intervalos de Confianza
Reflexionando en el sentido del tamao muestral:

Qu dimensiones debe tener una muestra para que
la amplitud del intervalo se reduzca a solo 20
mg/100 ml?
Intervalos de Confianza
Consideraciones:
Ya que el intervalo se centra en la media de
muestreo x=217 mg/ 100 ml, interesa el tamao de
la muestra necesario para generar el intervalo (217-
10, 217+10)

(207, 227)
Intervalos de Confianza
Para determinar el tamao n que se requiere
de la muestra, se debe resolver la ecuacin
8 . 140
) 46 ( 58 . 2
10
=
=
n
n
Intervalos de Confianza
Se necesita una muestra de 141 hombres para
reducir la amplitud del intervalo de confianza de 99%
a 20 mg/100 ml.
Aunque la media de muestreo de 217 mg/100 ml se
ubica en el centro del intervalo, no desempea
ningn papel en la determinacin de su amplitud; la
amplitud es funcin de o, n y el nivel de confianza.
PRUEBAS DE HIPTESIS
Inferencia Estadstica
PRUEBAS DE HIPTESIS


Objetivo: Tratar de determinar cundo es
razonable concluir, a partir del anlisis de
una muestra, que la poblacin entera posee
determinada propiedad y cuando sto no es
razonable.

TIPOS DE PRUEBAS
Establecen un valor un intervalo de valores para los
parmetros de una variable
Asociada a la construccin de Intervalos de confianza
Ej. La media de una variable es 10
Establecen la igualdad de las distribuciones de dos mas
variables
Requiere un diseo experimental
Ej. La media de dos poblaciones normales son iguales
con igual variancia
Determinan la forma de la distribucin de la variable
Pruebas especificas para establecer el tipo de
distribucin de una variable
Ej. La distribucin de una variable es normal
HIPOTESIS ESTADISTICA
Supuesto acerca de la distribucin de una
variable aleatoria.
Una hiptesis se especifica dando el valor o
los valores del parmetro.

Ejemplos:
1) El nivel medio de ph es = 4
2) La proporcin de rboles infectados
es P < 0.15


REALIZACION DE UNA HIPOTESIS ESTADISTICA
Se lleva a cabo un experimento, obteniendo datos a travs de una
muestra

La hiptesis formulada es desechada si los resultados obtenidos del
experimento son improbables bajo dicha hiptesis. Si los resultados no
son improbables , la hiptesis no es desechada por falta de evidencia .

TIPOS DE ERROR
Rechazar una hiptesis no significa que
sta sea falsa, como tampoco el no rechazarla
significa que sea verdadera. La decisin
tomada no esta libre de error.

Error I: Rechazar una hiptesis que es
verdadera .

Error II: No rechazar una hiptesis que es
falsa .

MEDICION DE LOS ERRORES

o es la Probabilidad de cometer un Error
tipo I. Se llama Nivel de significacin

| es la probabilidad de cometer un Error
tipo II

Es deseable que estas dos probabilidades de
error sean pequeas.

TIPOS DE HIPOTESIS
La prueba de hiptesis es un procedimiento
de toma de decisiones, relacionada
principalmente con la eleccin de una accin
entre dos conjuntos posibles de valores del
parmetro, es decir, en dos hiptesis
estadsticas, a las cuales llamaremos:

Hiptesis nula H
0

Hiptesis alternativa H
1

HIPOTESIS NULA y ALTERNATIVA
Hiptesis nula corresponde a la ausencia de
una modificacin en la variable investigada, y
por lo tanto se especifica de una forma exacta:
H
0
: u = u
0

Hiptesis alternativa se especifica de manera
ms general :

H
1
: u = u
0

H
1
: u > u
0

H
1
: u < u
0
.

ERRORES Y RIESGOS
La prctica de probar la hiptesis nula
contra una alternativa, sobre la base de la
informacin de la muestra, conduce a dos
tipos posibles de error, debido a
fluctuaciones al azar en el muestreo. Es
posible que la hiptesis nula sea verdadera
pero rechazada debido a que los datos
obtenidos en la muestra sean incompatibles
con ella; como puede ocurrir que la
hiptesis nula sea falsa pero no se la
rechace debido a que la muestra obtenida
no fuese incompatible con ella.
CUADRO DE DECISIONES Y
ERRORES

u e H
o


u eH
o

Rechazar
H
o

Incorrecto
error I
Correcto
No
Rechazar
H
o

Correcto Incorrecto
error II
PRUEBA SIGNIFICATIVA
Las probabilidades de cometer errores de
tipo I y II se consideran los "riesgos" de
decisiones incorrectas.



Al realizar la prueba se toma en cuenta el error
de tipo I. Por lo tanto, la prueba es significativa
si se rechaza la hiptesis nula, pues en este
caso se conoce la probabilidad de haber
cometido un error.


NIVEL DE SIGNIFICACIN
Nivel de Significacin (o) = P (rechazar Ho / Ho es
cierta)


Crticas a la seleccin Nivel significacin
El resultado es arbitrario (Rechazo con o del
5% y acepto con o del 4 %
Dar solo el resultado no permite diferenciar el
grado de evidencia de la muestra a favor en
contra de Ho


NIVEL CRITICO p
p es la Probabilidad de obtener una discrepancia mayor o igual que la
observada en la muestra n cuando H
o
es cierta

El valor de p no se fija a priori, sino que se determina a partir de la
muestra

A menor valor de p , menor es la credibilidad de H
o