Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lectura Estadà - Stica Inferencial
Lectura Estadà - Stica Inferencial
FACULTAD DE ODONTOLOGIA
UNIDAD DE INVESTIGACION
La Inferencia estadística persigue la obtención de conclusiones sobre un gran número de datos, basándose en
la observación de una muestra obtenida de ellos; también intenta medir su significación, es decir la confianza
que nos merecen.
Algunos de nuestros estudios se basan en la normalidad de las distribuciones de los datos de las variables
numéricas que empleamos, por lo tanto antes de seguir adelante vamos a repasar la Distribución Normal.
Aunque para entender el concepto, primero debemos revisar el teorema del límite central.
El teorema del límite central o teorema central del límite indica que, en condiciones muy generales, si Sn es la
suma de n variables aleatorias independientes (edad, altura, IQ…), entonces la distribución de Sn se aproxima
bien a una distribución normal (también llamada distribución gaussiana, curva de Gauss o campana de Gauss).
Así pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es
lo suficientemente grande. En otras palabras, en muestras grandes la mayoría de los datos se distribuyen
simétricamente alrededor del promedio.
La primera demostración matemática de esto se llevo a cabo por el fisiólogo Sir Francis Galton (1822-1917).
La máquina de Galton está formada por una tabla vertical en la que hay una serie de filas de clavos que se
encuentran intercalados unos con otros. A través de un embudo se dejan caer bolitas de acero, de manera que
cada bolita, al encontrarse con un clavo, tiene probabilidad ½ de caer a la izquierda o a la derecha. Las bolitas
forman pequeños montones en el suelo de la máquina, de manera que las superficies dibujan una curva. En
principio esta curva tiene una forma cualquiera, pero cuando el número de bolitas es lo suficientemente
grande, la distribución de las bolitas adopta la forma de la campana de Gauss (en la máquina original se
emplearon 800 bolitas).
Preguntémonos:
Que tan inteligentes son mis compañeros del Postgrado? cuál es tu respuesta? Normales, superdotados…
Que tan inteligentes son la gente que conozco? cuál es tu respuesta? Normales, superdotados…
Bueno sobre este tema del Cociente Intelectual (Coeficiente, CI, IQ), mucho se ha escrito y se ha llegado a la
siguiente conclusión, la cual se presenta gráficamente para mayor claridad.
Ahora, recuerda tus respuestas. Si observas bien lo que nos está “diciendo” la grafica es que la mayoría de la
población, esta alrededor del promedio (100). Se denomina superdotados a aquellos que poseen un cociente
intelectual igual o mayor que 130 (generalmente) y se encuentran por encima del 98% de la población; es
decir, que su resultado se encuentra en la parte derecha más extrema de la curva de resultados (una campana
de Gauss). Concuerda esto con tus respuestas?.
Aun no es claro? Piensa en la altura de las personas que te rodean, como son?. Podemos pensar que la altura
de la mayoría es normal y que hay algunos muy altos y otros muy bajitos?, si es así y logras imaginarlos en una
grafica observaras que se comporta como una campana de Gauss.
Entre las distribuciones continuas la más importante es la llamada distribución normal. Fue introducida por
Carl Gauss a principios del siglo XIX en su estudio de los errores de medida. Desde entonces se ha utilizado
como modelo en multitud de variables (peso, altura, calificaciones, etc), en cuya distribución los valores más
usuales se agrupan en torno a uno central y los valores extremos son escasos. La densidad de la normal viene
dada por la ecuación:
Ecuación:
Esta ecuación determina la curva en forma de campana que tan bien conocemos.
La distribución de una variable normal está completamente determinada por dos parámetros, su media y su
desviación estándar. Como podemos apreciar en la siguiente grafica:
Propiedades de la distribución normal:
HIPOTESIS
Una hipótesis puede definirse como una solución provisional (tentativa) para un problema dado.
La hipótesis nula: a=b; la representaremos por H0, es la hipótesis que se desea contrastar. La hipótesis nula es
en general una hipótesis simple que permite hacer predicciones sin ambigüedad.
La hipótesis alterna: a≠b; la representaremos por Ha, es la hipótesis que contradice a la hipótesis nula.
VALOR P
El proceso de aceptación o rechazo de la hipótesis lleva implícito un riesgo que se cuantifica con el valor de la
"p", que es la probabilidad de aceptar la hipótesis alternativa como cierta, cuando la cierta podría ser la
hipótesis nula.
En el protocolo de nuestra investigación, decidimos con que valor p o significancia estadística vamos a trabajar,
existen tres valores p (0.1, 0.05, 0.01), aunque existe un consenso internacional para trabajar con 0.05.
Después de tener los resultados del estudio, estos son comparados, mediante un test estadístico, al final este
test estadístico nos va a dar un valor p que se analiza de la siguiente manera:
El valor de "p" que indica que la asociación es estadísticamente significativa ha sido arbitrariamente
seleccionado y por consenso se considera en 0.05 o menor. Una seguridad del 95% lleva implícito una p< de
0.05 y una seguridad del 99% lleva implícita una p< 0.01. Cuando rechazamos la Ho (hipótesis nula) y
aceptamos la Ha (hipótesis alternativa) como probablemente cierta afirmando que hay una asociación, o que
hay diferencia, estamos diciendo en otras palabras que es muy poco probable que el azar fuese responsable de
dicha asociación.
Del mismo modo si la p>0.05 decimos que el azar no puede ser excluido como explicación de dicho hallazgo y
no rechazamos la Ho (hipótesis nula) que afirma que ambas variables no están asociadas o correlacionadas.
RECUERDE:
TEST ESTADISTICOS
Estos test nos sirven para analizar, cuantificar y establecer diferencias o similitudes entre las variables de un
estudio. Veamos ejemplos de algunas pruebas estadísticas, que nos van a familiarizar con ellas. Cuando
encontremos pruebas estadísticas diferentes debemos buscar en un libro de estadística o en GOOGLE, para
que se utiliza y con qué variables aplica.
SHAPIRO WILK
Esta prueba la hacemos a cualquier variable cuantitativa que se encuentre en nuestro estudio. La normalidad o
no de los datos la podemos verificar mediante esta prueba. Esta prueba es el único test estadístico que usa
unas hipótesis diferentes a todas las demás pruebas.
Ejemplo
Formulemos las hipótesis de SWILK, aunque debemos recordar que son diferentes a todas las demás…
-------------+-------------------------------------------------
Podemos concluir con base en el valor p (el cual está en color amarillo), que vamos a quedarnos con la
hipótesis alterna, es decir los datos de la variable edad, tiene una distribución no normal.
Esto es muy importante, por cuanto si la distribución de los datos es no normal usaremos test no paramétricos,
si tiene distribución normal usaremos test paramétricos.
Chi Cuadrado
Una investigación quiere conocer si existe asociación entre bajo peso al nacer (si – no) y el sexo del bebe (M –
F).
Ejemplo:
Id BPN Sexo
1 SI M
2 NO F
3 NO M
La base de datos tiene una muestra de 500. En este momento ya sabemos que las dos variables son cualitativas
nominales dicotómicas.
Como anteriormente explicamos lo primero que debemos hacer es formular las hipótesis del estudio.
Ho: La proporción de bajo peso al nacer es igual en niños y niñas.
Pr = 0.605
El valor p que nos da STATA es Prob = 0.605. Con este valor aceptamos la hipótesis nula, es decir: La
proporción de bajo peso al nacer es igual en niños y niñas. En otras palabras tener bajo peso al nacer es
independiente del sexo del bebe.
Para recordar: no hacemos pruebas de normalidad, porque estas solo se hacen a variables cuantitativas.
Una investigación quiere conocer si existe asociación entre parto pretermino y la edad de la mujer. Ejemplo:
La base de datos tiene una muestra de 500. En este momento ya sabemos que una variable es numérica
(cuantitativas y de razón), y la otra es nominal dicotómica
Como anteriormente explicamos lo primero que debemos hacer es formular las hipótesis del estudio.
Luego evaluamos la distribución de los datos de la variable numérica, para esto usamos la prueba Shapiro Wilk,
RECUERDE, por cada prueba debemos formular las hipótesis respectivas.
Formulemos las hipótesis de SWILK, aunque debemos recordar que son diferentes a todas las demás…
-------------+-------------------------------------------------
Podemos concluir con base en el valor p (el cual está en color amarillo), que vamos a quedarnos con la
hipótesis alterna, es decir los datos de la variable edad, tiene una distribución no normal.
Veamos la grafica:
60
40
Frequency
20
0
25 30 35 40 45
maternal age
Hummm... casi casi, pero… los casi no valen!. Así que podemos concluir que la variable tiene distribución no
normal, así que vamos a utilizar un test no paramétrico, en este caso la prueba U de Mann-Whitney.
El valor p que nos da STATA es Prob = 0.840. Con este valor aceptamos la hipótesis nula, es decir: la edad de la
madre no se asocia con tener parto pretermino.
Es importante resaltar que si el resultado de la prueba SWILK, hubiese sido distinto, es decir la variable
cuantitativa tuviera una distribución normal, la prueba que debemos utilizar es t test. Con esta prueba
seguimos exactamente el mismo procedimiento.
Una investigación quiere conocer si existen diferencias entre las fuerzas de adhesión de 5 resinas.
La base de datos tiene una muestra de 150 dientes para cada resina. En este momento ya sabemos que todas
las variable son numéricas (cuantitativas y de razón).
Como anteriormente explicamos lo primero que debemos hacer es formular las hipótesis del estudio.
Ha: al menos la fuerza de adhesión de una de las resinas es diferente a las demás.
Luego evaluamos la distribución de los datos de las variables cuantitativas, para esto usamos la prueba Shapiro
Wilk, RECUERDE, por cada prueba debemos formular las hipótesis respectivas.
Formulemos las hipótesis de SWILK, aunque debemos recordar que son diferentes a todas las demás…
-------------+--------------------------------------------------
Como todos son normales usamos ANOVA (paramétrica), si alguna hubiese sido no normal usaríamos una
prueba no paramétrica (KWALLIS).
Con base en este valor nos quedamos con la hipótesis alterna: Ha: al menos la fuerza de adhesión de una de las
resinas es diferente a las demás. En este caso debemos hacer un análisis adicional (Post Hoc), porque debemos
saber cual o cuales resinas son diferentes.
Formulamos hipótesis
Y así sucesivamente…
(Bonferroni)
Row Mean-|
Col Mean | a1 b1 c1 d1
---------+--------------------------------------------
b1 | -32.5843
| 0.000
c1 | -25.181 7.40333
| 0.000 0.573
Si hay variables numéricas, establecer la normalidad de la distribución de los datos de dichas variables
Recuerde todas las pruebas estadísticas funcionan igual, así que lo importante es seguir los pasos anteriores.