Lectura EstadÃ - Stica Inferencial

UNIVERSIDAD EL BOSQUE
FACULTAD DE ODONTOLOGIA
UNIDAD DE INVESTIGACION
ODONTOLOGIA BASADA EN LA EVIDENCIA

MODULO 3.3 INFERENCIA ESTADÍSTICA
LUIS FERNANDO GAMBOA M.

Endodoncista
MSc Epidemiología Clínica
La Inferencia estadística persigue la obtención de conclusiones sobre un gran número de datos, basándose en
la observación de una muestra obtenida de ellos; también intenta medir su significación, es decir la confianza
que nos merecen.
Algunos de nuestros estudios se basan en la normalidad de las distribuciones de los datos de las variables
numéricas que empleamos, por lo tanto antes de seguir adelante vamos a repasar la Distribución Normal.
Aunque para entender el concepto, primero debemos revisar el teorema del límite central.
TEOREMA DEL LIMITE CENTRAL
El teorema del límite central o teorema central del límite indica que, en condiciones muy generales, si Sn es la
suma de n variables aleatorias independientes (edad, altura, IQ…), entonces la distribución de Sn se aproxima
bien a una distribución normal (también llamada distribución gaussiana, curva de Gauss o campana de Gauss).
Así pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es
lo suficientemente grande. En otras palabras, en muestras grandes la mayoría de los datos se distribuyen
simétricamente alrededor del promedio.
La primera demostración matemática de esto se llevo a cabo por el fisiólogo Sir Francis Galton (1822-1917).
La máquina de Galton está formada por una tabla vertical en la que hay una serie de filas de clavos que se
encuentran intercalados unos con otros. A través de un embudo se dejan caer bolitas de acero, de manera que
cada bolita, al encontrarse con un clavo, tiene probabilidad ½ de caer a la izquierda o a la derecha. Las bolitas
forman pequeños montones en el suelo de la máquina, de manera que las superficies dibujan una curva. En
principio esta curva tiene una forma cualquiera, pero cuando el número de bolitas es lo suficientemente
grande, la distribución de las bolitas adopta la forma de la campana de Gauss (en la máquina original se
emplearon 800 bolitas).
Preguntémonos:
Que tan inteligente soy?, cuál es tu respuesta? Normal, superdotado…
Ahora de nuevo preguntémonos:
Que tan inteligentes son mis compañeros del Postgrado? cuál es tu respuesta? Normales, superdotados…
Ahora de nuevo preguntémonos:
Que tan inteligentes son la gente que conozco? cuál es tu respuesta? Normales, superdotados…
Supongo que la respuesta fue…
Bueno sobre este tema del Cociente Intelectual (Coeficiente, CI, IQ), mucho se ha escrito y se ha llegado a la
siguiente conclusión, la cual se presenta gráficamente para mayor claridad.
Ahora, recuerda tus respuestas. Si observas bien lo que nos está “diciendo” la grafica es que la mayoría de la
población, esta alrededor del promedio (100). Se denomina superdotados a aquellos que poseen un cociente
intelectual igual o mayor que 130 (generalmente) y se encuentran por encima del 98% de la población; es
decir, que su resultado se encuentra en la parte derecha más extrema de la curva de resultados (una campana
de Gauss). Concuerda esto con tus respuestas?.
Aun no es claro? Piensa en la altura de las personas que te rodean, como son?. Podemos pensar que la altura
de la mayoría es normal y que hay algunos muy altos y otros muy bajitos?, si es así y logras imaginarlos en una
grafica observaras que se comporta como una campana de Gauss.
Si aún persisten dudas, no dejes de ver el siguiente video:

http://www.youtube.com/watch?v=PUydiGzSPTE&NR=1
CAMPANA DE GAUSS
Entre las distribuciones continuas la más importante es la llamada distribución normal. Fue introducida por
Carl Gauss a principios del siglo XIX en su estudio de los errores de medida. Desde entonces se ha utilizado
como modelo en multitud de variables (peso, altura, calificaciones, etc), en cuya distribución los valores más
usuales se agrupan en torno a uno central y los valores extremos son escasos. La densidad de la normal viene
dada por la ecuación:
Ecuación:
Esta ecuación determina la curva en forma de campana que tan bien conocemos.
La distribución de una variable normal está completamente determinada por dos parámetros, su media y su
desviación estándar. Como podemos apreciar en la siguiente grafica:
Propiedades de la distribución normal:
La distribución normal posee ciertas propiedades importantes que conviene destacar:
i. Tiene una única moda, que coincide con su media y su mediana.

ii. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre -∞y +∞ es
teóricamente posible. El área total bajo la curva es, por tanto, igual a uno.
iii. Es simétrica con respecto a su media. Según esto, para este tipo de variables existe una
probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato
menor.
iv. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una
desviación típica (s). Cuanto mayor sea, más aplanada será la curva de la densidad.
v. El área bajo la curva comprendida entre los valores situados aproximadamente a dos desviaciones
estándar de la media es igual a 0,95. En concreto, existe un 95% de posibilidades de observar un
valor comprendido en el intervalo
vi. La forma de la campana de Gauss depende de los parámetros promedio y ds.
HIPOTESIS
Una hipótesis puede definirse como una solución provisional (tentativa) para un problema dado.
La hipótesis nula: a=b; la representaremos por H0, es la hipótesis que se desea contrastar. La hipótesis nula es
en general una hipótesis simple que permite hacer predicciones sin ambigüedad.
El adhesivo A y el adhesivo B tienen la misma fuerza de adhesión.
La hipótesis alterna: a≠b; la representaremos por Ha, es la hipótesis que contradice a la hipótesis nula.
El adhesivo A y el adhesivo B tienen diferente fuerza de adhesión.
VALOR P
El proceso de aceptación o rechazo de la hipótesis lleva implícito un riesgo que se cuantifica con el valor de la
"p", que es la probabilidad de aceptar la hipótesis alternativa como cierta, cuando la cierta podría ser la
hipótesis nula.
En el protocolo de nuestra investigación, decidimos con que valor p o significancia estadística vamos a trabajar,
existen tres valores p (0.1, 0.05, 0.01), aunque existe un consenso internacional para trabajar con 0.05.
Después de tener los resultados del estudio, estos son comparados, mediante un test estadístico, al final este
test estadístico nos va a dar un valor p que se analiza de la siguiente manera:
El valor de "p" que indica que la asociación es estadísticamente significativa ha sido arbitrariamente
seleccionado y por consenso se considera en 0.05 o menor. Una seguridad del 95% lleva implícito una p< de
0.05 y una seguridad del 99% lleva implícita una p< 0.01. Cuando rechazamos la Ho (hipótesis nula) y
aceptamos la Ha (hipótesis alternativa) como probablemente cierta afirmando que hay una asociación, o que
hay diferencia, estamos diciendo en otras palabras que es muy poco probable que el azar fuese responsable de
dicha asociación.
Del mismo modo si la p>0.05 decimos que el azar no puede ser excluido como explicación de dicho hallazgo y
no rechazamos la Ho (hipótesis nula) que afirma que ambas variables no están asociadas o correlacionadas.
RECUERDE:
En el protocolo de investigación debe establecer las hipótesis del estudio.
En el protocolo debe establecer el valor p con el cual desea analizar.
Cuando tenga los datos, los enviamos a un estadístico.
El estadístico nos devuelve un valor p (o varios según el número de hipótesis)
Con base en el valor p decido si me quedo con H0 o con Ha.
TEST ESTADISTICOS
Estos test nos sirven para analizar, cuantificar y establecer diferencias o similitudes entre las variables de un
estudio. Veamos ejemplos de algunas pruebas estadísticas, que nos van a familiarizar con ellas. Cuando
encontremos pruebas estadísticas diferentes debemos buscar en un libro de estadística o en GOOGLE, para
que se utiliza y con qué variables aplica.
SHAPIRO WILK
Esta prueba la hacemos a cualquier variable cuantitativa que se encuentre en nuestro estudio. La normalidad o
no de los datos la podemos verificar mediante esta prueba. Esta prueba es el único test estadístico que usa
unas hipótesis diferentes a todas las demás pruebas.
Ejemplo
Formulemos las hipótesis de SWILK, aunque debemos recordar que son diferentes a todas las demás…
Ho: la distribución es normal
Ha: la distribución no es normal
STATA (programa estadístico) nos da la siguiente salida:
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
-------------+-------------------------------------------------
matage | 500 0.99087 3.071 2.697 0.00350
Podemos concluir con base en el valor p (el cual está en color amarillo), que vamos a quedarnos con la
hipótesis alterna, es decir los datos de la variable edad, tiene una distribución no normal.
Esto es muy importante, por cuanto si la distribución de los datos es no normal usaremos test no paramétricos,
si tiene distribución normal usaremos test paramétricos.
Chi Cuadrado
Se utiliza cuando vamos a comparar la asociación entre dos variables cualitativas.
Una investigación quiere conocer si existe asociación entre bajo peso al nacer (si – no) y el sexo del bebe (M –
F).
Ejemplo:
Id BPN Sexo
1 SI M
2 NO F
3 NO M
La base de datos tiene una muestra de 500. En este momento ya sabemos que las dos variables son cualitativas
nominales dicotómicas.
Como anteriormente explicamos lo primero que debemos hacer es formular las hipótesis del estudio.
Ho: La proporción de bajo peso al nacer es igual en niños y niñas.
Ha: La proporción de bajo peso al nacer es diferente en niños y niñas
Vamos a usar la prueba chi cuadrado.
STATA, nos da el siguiente resultado:
Pr = 0.605
El valor p que nos da STATA es Prob = 0.605. Con este valor aceptamos la hipótesis nula, es decir: La
proporción de bajo peso al nacer es igual en niños y niñas. En otras palabras tener bajo peso al nacer es
independiente del sexo del bebe.
Para recordar: no hacemos pruebas de normalidad, porque estas solo se hacen a variables cuantitativas.
TEST U de Mann-Whitney (no paramétrico)
Una investigación quiere conocer si existe asociación entre parto pretermino y la edad de la mujer. Ejemplo:
Id Pretermino Edad Madre

1 SI 34
2 NO 30
3 NO 35
La base de datos tiene una muestra de 500. En este momento ya sabemos que una variable es numérica
(cuantitativas y de razón), y la otra es nominal dicotómica
Ho: la edad de la madre no se asocia con tener un parto pretermino.
Ha: la edad de la madre se asocia con tener un parto pretermino.
Luego evaluamos la distribución de los datos de la variable numérica, para esto usamos la prueba Shapiro Wilk,
RECUERDE, por cada prueba debemos formular las hipótesis respectivas.

-------------+-------------------------------------------------
matage | 500 0.99087 3.071 2.697 0.00350
hipótesis alterna, es decir los datos de la variable edad, tiene una distribución no normal.
Veamos la grafica:
60
40
Frequency
20
0
25 30 35 40 45
maternal age
Hummm... casi casi, pero… los casi no valen!. Así que podemos concluir que la variable tiene distribución no
normal, así que vamos a utilizar un test no paramétrico, en este caso la prueba U de Mann-Whitney.
Formulemos las hipótesis:
Ho: la edad de la madre no se asocia con tener un parto pretermino.

Ha: la edad de la madre se asocia con tener un parto pretermino.
El valor p que nos da STATA es Prob = 0.840. Con este valor aceptamos la hipótesis nula, es decir: la edad de la
madre no se asocia con tener parto pretermino.
Es importante resaltar que si el resultado de la prueba SWILK, hubiese sido distinto, es decir la variable
cuantitativa tuviera una distribución normal, la prueba que debemos utilizar es t test. Con esta prueba
seguimos exactamente el mismo procedimiento.
ANOVA DE UNA VIA (paramétrico)
Una investigación quiere conocer si existen diferencias entre las fuerzas de adhesión de 5 resinas.
La base de datos tiene una muestra de 150 dientes para cada resina. En este momento ya sabemos que todas
las variable son numéricas (cuantitativas y de razón).
Ho: la fuerza de adhesión de todas las resinas son iguales
Ha: al menos la fuerza de adhesión de una de las resinas es diferente a las demás.
Luego evaluamos la distribución de los datos de las variables cuantitativas, para esto usamos la prueba Shapiro
Wilk, RECUERDE, por cada prueba debemos formular las hipótesis respectivas.
-------------+--------------------------------------------------
a1m | 150 0.79138 4.045 2.764 0.80286
b1m | 150 0.83494 3.200 2.301 0.11070
c1m | 150 0.92449 1.464 0.754 0.22540
d1m | 150 0.97448 0.495 -1.391 0.91794
e1m | 150 0.94051 1.154 0.282 0.38879

hipótesis alterna, es decir los datos de todas las resinas, tienen una distribución no normal.
Como todos son normales usamos ANOVA (paramétrica), si alguna hubiese sido no normal usaríamos una
prueba no paramétrica (KWALLIS).
ANOVA nos arroja el siguiente valor p: Prob = 0.000
Con base en este valor nos quedamos con la hipótesis alterna: Ha: al menos la fuerza de adhesión de una de las
resinas es diferente a las demás. En este caso debemos hacer un análisis adicional (Post Hoc), porque debemos
saber cual o cuales resinas son diferentes.
Formulamos hipótesis
H0: fuerza de adhesión resina A es igual a fuerza de adhesión resina B
H0: fuerza de adhesión resina A es diferente a fuerza de adhesión resina B
Y así sucesivamente…
Comparison of resg1 by grupo1
(Bonferroni)
Row Mean-|
Col Mean | a1 b1 c1 d1
---------+--------------------------------------------
b1 | -32.5843
| 0.000
c1 | -25.181 7.40333
| 0.000 0.573
d1 | -8.10833 24.476 17.0727
| 0.378 0.670 0.490
e1 | -9.88233 22.702 15.2987 -1.774
| 0.120 0.870 0.002 1.000

Los valores p están resaltados con amarillo y nos indican que la resina a es diferente de la resina b y c. También
podemos observar que la resina c es diferente de la resina d.
Con base en lo anterior podemos concluir que:
El primer paso es clasificar las variables
Si hay variables numéricas, establecer la normalidad de la distribución de los datos de dichas variables
Segundo: Establecer la prueba estadística que vamos a usar
Tercero: Formular las hipótesis
Cuarto: Con base en el valor p, decidir cual hipótesis es la verdadera
Recuerde todas las pruebas estadísticas funcionan igual, así que lo importante es seguir los pasos anteriores.

Lectura EstadÃ - Stica Inferencial

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lectura EstadÃ - Stica Inferencial

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD EL BOSQUE

ODONTOLOGIA BASADA EN LA EVIDENCIA

LUIS FERNANDO GAMBOA M.

TEOREMA DEL LIMITE CENTRAL

Que tan inteligente soy?, cuál es tu respuesta? Normal, superdotado…

Ahora de nuevo preguntémonos:

Ahora de nuevo preguntémonos:

Supongo que la respuesta fue…

Si aún persisten dudas, no dejes de ver el siguiente video:

La distribución normal posee ciertas propiedades importantes que conviene destacar:

i. Tiene una única moda, que coincide con su media y su mediana.

El adhesivo A y el adhesivo B tienen la misma fuerza de adhesión.

El adhesivo A y el adhesivo B tienen diferente fuerza de adhesión.

En el protocolo de investigación debe establecer las hipótesis del estudio.

En el protocolo debe establecer el valor p con el cual desea analizar.

Cuando tenga los datos, los enviamos a un estadístico.

El estadístico nos devuelve un valor p (o varios según el número de hipótesis)

Con base en el valor p decido si me quedo con H0 o con Ha.

Ho: la distribución es normal

Ha: la distribución no es normal

STATA (programa estadístico) nos da la siguiente salida:

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

matage | 500 0.99087 3.071 2.697 0.00350

Se utiliza cuando vamos a comparar la asociación entre dos variables cualitativas.

Ha: La proporción de bajo peso al nacer es diferente en niños y niñas

Vamos a usar la prueba chi cuadrado.

STATA, nos da el siguiente resultado:

TEST U de Mann-Whitney (no paramétrico)

Id Pretermino Edad Madre

Ho: la edad de la madre no se asocia con tener un parto pretermino.

Ha: la edad de la madre se asocia con tener un parto pretermino.

Ho: la distribución es normal

Ha: la distribución no es normal

STATA (programa estadístico) nos da la siguiente salida:

Variable | Obs W V z Prob>z

matage | 500 0.99087 3.071 2.697 0.00350

Formulemos las hipótesis:

Ho: la edad de la madre no se asocia con tener un parto pretermino.

ANOVA DE UNA VIA (paramétrico)

Ho: la fuerza de adhesión de todas las resinas son iguales

Ho: la distribución es normal

Ha: la distribución no es normal

STATA (programa estadístico) nos da la siguiente salida:

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

a1m | 150 0.79138 4.045 2.764 0.80286

b1m | 150 0.83494 3.200 2.301 0.11070

c1m | 150 0.92449 1.464 0.754 0.22540

d1m | 150 0.97448 0.495 -1.391 0.91794

e1m | 150 0.94051 1.154 0.282 0.38879

ANOVA nos arroja el siguiente valor p: Prob = 0.000

H0: fuerza de adhesión resina A es igual a fuerza de adhesión resina B

H0: fuerza de adhesión resina A es diferente a fuerza de adhesión resina B

Comparison of resg1 by grupo1

d1 | -8.10833 24.476 17.0727

| 0.378 0.670 0.490

e1 | -9.88233 22.702 15.2987 -1.774

| 0.120 0.870 0.002 1.000

Con base en lo anterior podemos concluir que:

El primer paso es clasificar las variables

Segundo: Establecer la prueba estadística que vamos a usar

Tercero: Formular las hipótesis