Está en la página 1de 38

INFERENCIA DE VARIABLES

CUANTITATIVAS

EDUARDO VERGARA WEKSELMAN


MEDICO EPIDEMIOLOGO
RNE 20215
CAMPANA DE GAUSS
1. Al describir una variable, no es suficiente con dar
una medida de tendencia central.
2. Informar de la dispersión de estos datos, de si
están todos muy agrupados o no alrededor de la
media.
Éstas son las medidas de dispersión, entre las que
destacan la desviación estándar y la amplitud o
rango.
El rango es la diferencia entre el valor máximo y
mínimo en la muestra.
La desviación estándar informa de la variabilidad de
la variable.
3. Una variable que sigue una distribución simétrica
(distribución normal, la famosa campana de Gauss),
el 95% de los valores se encuentra entre la media
más y menos 1,96 desviaciones estándar (figura
1). En lugar de 1,96 se suele redondear a 2.
ANALISIS DE LOS DATOS

• Actividad de transformar un conjunto de datos con el objetivo de poder verificarlos muy bien
dándole al mismo tiempo una razón de ser o un análisis racional.

• Consiste en analizar los datos de un problema e identificarlos


ANÁLISIS CUANTITATIVO: PASOS
1. Depurar datos: el propósito de la depuración de datos es buscar y arreglar estas y otras inconsistencias que pudieran
ocasionar que aparezcan registros duplicados o incorrectos en la base de datos
2. Eliminar los datos atípicos: Valor atípico es una observación que es numéricamente distante del resto de los datos.
Las estadísticas derivadas de los conjuntos de datos que incluyen valores atípicos serán frecuentemente engañosas.
Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente del resto de la muestra
establecida.
3. Proceder a la selección de la prueba estadística: la estadística descriptiva es una gran parte de la estadística que se dedica a
analizar y representar los datos. Este análisis es muy básico. Algunos ejemplos son: media, moda, desviación estándar, etc.
• La inferencia estadística o estadística inferencial es una parte de la estadística que comprende los métodos y
procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma
muestra.
• La bondad de estas deducciones se mide en términos probabilísticos, es decir, toda inferencia se acompaña de su
probabilidad de acierto.
4. Aplicar el programa estadístico para el análisis. Analizar es descomponer el todo en sus partes, recomponer y observar de
nuevo el fenómeno a través de la medidas aplicadas.
5. Interpretar los datos. En contraste con el análisis la interpretación "va más allá" de lo que los datos nos pueden reflejar, en
el proceso de interpretación parte de un concepto vacío y busca una cosa real que lo encarne.
• En un proyecto de investigación todo tiene que estar planificado.
• El apartado de resultados del artículo puede estar completamente escrito, habiendo dejado sólo
los huecos para rellenar con los datos.
• Esto ayuda al equipo investigador a realizar el análisis en una secuencia lógica, ordenada,
utilizando únicamente las pruebas estadísticas necesarias y pertinentes.
• Por ello debería ser la parte más sencilla de escribir, ya que se trata de dar respuesta a las
preguntas de investigación planteadas.
• Ninguno de los objetivos planteados se debe quedar sin su correspondiente respuesta en
resultados, pero tampoco hay que dar resultados no especificados en los objetivos.
• No es preciso proporcionar absolutamente todos los resultados obtenidos y cargar al lector de
números.
• La obsesión por incluirlo todo, sin olvidar nada, no es una prueba de que se dispone de una
información ilimitada, sino de que se carece de capacidad de discriminación «El necio colecciona
hechos; el sabio los selecciona».
• Los paquetes estadísticos, especialmente en determinados análisis multivariados, difieren en la
forma de presentar los resultados o incluso en pruebas concretas utilizadas: es importante
especificar cuál se ha utilizado.
• La descripción de las variables debe ser coherente con la escala de las variables y con las pruebas
de contraste de hipótesis usadas posteriormente.
• Por ejemplo, no se puede describir una variable con la media y la desviación estándar
(entendiendo con ello que sigue una distribución normal) y después emplear pruebas de
contraste de hipótesis no paramétricas.
• En cuanto al nivel de significación estadística aceptado, también debe especificarse, aunque
prácticamente todo el mundo trabaja con un nivel del 5% (p <0,05).
• De todos modos, es preferible presentar los resultados con el intervalo de confianza, que en este
caso sería del 95%.
CONTRASTE DE HIPÓTESIS
• La estadística inferencial, además de la estimación de parámetros, se encarga del contraste de
hipótesis.
• Si se plantean preguntas del tipo: ¿Es más alto el porcentaje de cesáreas en los hospitales
públicos que en los privados? ¿La vigilancia electrónica del feto durante el trabajo de parto, tiene
efectos positivos en el resultado del embarazo? ¿La lactancia materna disminuye el número de
infecciones en los lactantes?
• El contraste de hipótesis consiste en comprobar si una hipótesis puede ser aceptada o rechazada
con cierta probabilidad de acertar. La hipótesis que va a ser contrastada es la hipótesis nula, la
hipótesis de la igualdad, de la ausencia de diferencia.
• Se formula con la intención expresa de ser rechazada. Si se rechaza, puede entonces aceptarse la
hipótesis alternativa, que es la hipótesis de investigación del experimentador.
• Por ejemplo, el objetivo de nuestro estudio es ver si el peso de los recién nacidos es menor entre
las madres fumadoras respecto a las no fumadoras.
• La hipótesis nula es que no hay diferencias entre el peso de los recién nacidos según la madre sea

fumadora o no.

• La hipótesis alternativa es que el peso de los recién nacidos de madres fumadoras es menor que el

peso de los recién nacidos de madres no fumadoras.

• Siempre existe una posibilidad de error.

• Si se rechaza la hipótesis nula siendo cierta, el error se denomina alfa, o error tipo I, y si no se rechaza

la hipótesis nula siendo falsa, el error se denomina beta o error tipo II.
PRUEBAS ESTADISTICAS MÁS UTILIZADAS SEGÚN
TIPO DE VARIABLES
Pita Fernández, S., Pértegas Díaz, S.
Pita Fernández, S., Pértegas Díaz, S.
PROCESO PARA EFECTUAR ANALISIS ESTADISTICO
RESULTADOS DEL CONTRASTE DE HIPÓTESIS

• El resultado del contraste de hipótesis se expresa mediante la p (nivel de significación estadística


o probabilidad asociada al error tipo I), de modo que si la p es <0,05, decimos que las diferencias
son estadísticamente significativas, mientras que si es mayor, las diferencias encontradas no son
estadísticamente significativas.
• No existe una lógica detrás del hecho de que prácticamente todo el mundo utilice un nivel de
significación estadística del 5%.
• Por otro lado, el tamaño de la muestra, en estadística, es como una lupa: cuando el tamaño de las
muestras es grande, cualquier pequeña diferencia se detecta como estadísticamente significativa
y, en cambio, cuando el tamaño de las muestras es pequeño, grandes diferencias pueden no
resultar estadísticamente significativas.
• La «p» no proporciona en absoluto información de la magnitud del efecto. Una p= 0,001 no
quiere decir que el efecto es mayor que si ha resultado p= 0,78.
NIVEL CRITICO DE UNA PRUEBA ESTADISTICA
NIVEL CRITICO INTERPRETACION CONCLUSION
p > 0.05 Indica que la diferencia encontrada No rechazar Ho
es NO SIGNIFICATIVA y puede No hay evidencia suficiente para
deberse al azar del muestreo rechazar
0.01 < p ≤ 0.05 Indica que la diferencia encontrada Rechazar Ho a favor de Ha
ES SIGNIFICATIVA y que hay evidencia suficiente para
probablemente no se deba al azar rechazar
0.001 < p ≤ 0.01 Indica que la diferencia encontrada Rechazar Ho a favor de Ha
es MUY SIGNIFICATIVA y hay evidencia suficiente para
probablemente se deba a que hay rechazar
diferencias en la población
p ≤ 0.001 Indica que la diferencia encontrada Rechazar Ho a favor de Ha
es ALTAMENTE SIGNIFICATIVA y hay evidencia suficiente para
probablemente se deba a que hay rechazar
diferencias en la población

Sí p > α, entonces No se puede rechazar la Hipótesis al nivel α establecido


Sí p ≤ α entonces se rechaza la Hipótesis al nivel α establecido
• De aquí se deriva también que, en las pruebas de contraste de hipótesis, no es suficiente con
presentar la p, porque no ofrece una idea de las diferencias observadas.
• Lo más conveniente es presentar los intervalos de confianza, el rango de valores probable, para
que el lector, con un espíritu crítico, pueda interpretar directamente esos resultados.
• Además, si el intervalo de confianza de las diferencias observadas incluye el valor nulo, quiere
decir que las diferencias no son estadísticamente significativas, y si el intervalo de confianza no
incluye el valor nulo, las diferencias observadas son estadísticamente significativas.
• Si se comparan proporciones, se presenta el intervalo de confianza de la diferencia de
proporciones; si se comparan medias, el intervalo de confianza de la diferencia de las medias.
• Otras medidas específicas como el riesgo relativo (RR) en los estudios de incidencia, la odds ratio
(OR) (en castellano «tasa de probabilidad») en los de prevalencia, o la reducción relativa del
riesgo (RRR), la reducción absoluta del riesgo (RAR) o el número que es necesario tratar (NNT) en
los ensayos clínicos; en todos los casos, estas medidas deben ir acompañadas de su intervalo de
confianza.
ANALISIS PARAMETRICO Y NO PARAMÉTRICO
• Un parámetro es un dato que es tomado como necesario para analizar o valorar una situación.
• A partir del parámetro, una determinada circunstancia puede entenderse o situarse en perspectiva.
• Para las matemáticas, un parámetro es una variable que permite identificar, en una familia de elementos, a cada
uno de ellos mediante su valor numérico.
• Un parámetro estadístico es una función definida sobre los valores numéricos de una población. Se trata, por lo
tanto de un valor representativo que permite modelizar la realidad.
• La utilidad de los parámetros estadísticos se encuentra ante la dificultad para manejar una gran cantidad de
datos individuales de una misma población. Este tipo de parámetros permite obtener un panorama general de
la población y realizar comparaciones y predicciones.
• En las ciencias de la computación, un parámetro es una variable que puede ser recibida por una rutina o una
subrutina (que utilizan los valores asignados a un parámetro para modificar su comportamiento en el tiempo de
ejecución).
• La parametrización de una base de datos, por otra parte, es la organización y estandarización de la información
que se ingresa en un sistema. De esta forma, es posible realizar distintos tipos de consulta y obtener resultados
fiables.
• A continuación se muestra una tabla en que se clasifican las variables como paramétricas y no paramétricas:
PRUEBAS PARAMÉTRICAS
• Su cálculo implica una estimación de los parámetros de la población con base en muestras
estadísticas.
• Mientras más grande sea la muestra más exacta será la estimación, mientras más pequeña, más
distorsionada será la media de las muestras por los valores raros extremos.
• Son valores numéricos dados.
• Los análisis paramétricos parten de los siguientes supuestos:
1. La distribución poblacional de la variable dependiente es normal: el universo tiene distribución
normal.
2. El nivel de medición de las variables es por intervalos de razón.
3. Cuando dos o más poblaciones son estudiadas, tienen una varianza homogénea: las poblaciones
en cuestión poseen una dispersión similar en sus distribuciones.
• Como estos criterios son muy rigurosos, algunos investigadores sólo basan sus análisis en el tipo
de Hi y los niveles de medición de las variables.
LAS PRUEBAS PARAMÉTRICAS MÁS
UTILIZADAS SON
• Coeficiente de correlación de Pearson y regresión lineal.

• Prueba t.

• Prueba de contraste de las diferencias de proporciones.

• Análisis de varianza unidireccional (ANOVA en un solo sentido o oneway)

• Análisis de Varianza factorial (ANOVA)

• Análisis de covarianza (ANCOVA)


• Descripción. (Otra lista de pruebas paramétricas):
• Prueba del valor Z de la distribución normal
• Prueba T de Student para datos relacionados (muestras dependientes)
• Prueba T de Student para datos no relacionados (muestras independientes)
• Prueba T de Student-Welch para dos muestras independientes con varianzas no homogéneas
• Prueba de ji cuadrada de Bartlett para demostrar la homogeneidad de varianzas
• Prueba F (análisis de varianza o ANOVA)
EL COEFICIENTE DE CORRELACIÓN DE
PEARSON (R)
• Es una prueba estadística para analizar la relación entre dos variables medidas en un nivel por
intervalos o de razón.
• Prueba Hi del tipo de “A mayor X, mayor Y”; “A mayor X, menor Y”; etc.
• La prueba en si no considera a una como independiente y la otra como dependiente, porque no
evalúa la causalidad, solo la relación mutua (correlación).
• El coeficiente se calcula a partir de las puntuaciones obtenidas en una muestra de dos variables. Se
relacionan las puntuaciones obtenidas de una variable con las puntuaciones obtenidas de otra
variable, en los mismos sujetos.
• Mide niveles de variables de intervalo o de razón.
• Puede variar de -1,00 a +1,00
REGRESIÓN LINEAL
• Es modelo matemático para estimar el efecto de una variable sobre otra. Está asociado con el
coeficiente r de Perason.
• Sirve para resolver Hi correlacionales y causales.
• Mide variables de Intervalos y de razón.
• La regresión lineal se determina con base al diagrama de dispersión.
• Este consiste en una gráfica donde se relacionan las puntuaciones de una muestra en dos
variables, como la de estatura y peso del ejemplo anterior.
PRUEBA “T” (PARAMÉTRICA)
• Una prueba t de Student o Test-T es cualquier prueba en la que el estadístico utilizado tiene una distribución
t de Student si la hipótesis nula es cierta.
• Se aplica cuando la población se asume ser normal pero el tamaño muestral es demasiado pequeño como
para que el estadístico en el que está basada la inferencia esté normalmente distribuido, utilizándose una
estimación de la desviación típica en lugar del valor real.
• En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del
problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra
es pequeño.
• Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre
dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias
de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a
partir de los datos de una muestra.
• Es una prueba estadística para evaluar si dos grupos difieren estadísticamente entre sí, de manera
significativa respecto a sus medias
• Es una prueba apropiada para comparar los promedios de dos grupos, y especialmente apropiado como
análisis para el diseño experimental de solo postest de dos grupos al azar.
• Mide variables de intervalo o de razón.
COEFICIENTE RHO DE SPEARMAN
• Es un coeficiente para medir el grado de asociación entre dos variables ordinales cuyos valores indican
rangos en cada una de ellas.
• Rho toma el valor +1 cuando existe igualdad de rangos de los casos en las dos variables y -1 cuando tienen
rangos exactamente opuestos.
• Los valores intermedios pueden ser interpretados según sus magnitudes relativas. Su fórmula de cálculo es:

En la cual:
D = diferencia de rangos en las dos variables, o, diferencia entre los correspondientes estadísticos de orden de x - y.
N = número de parejas.
• Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia
• Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student.
ANÁLISIS NO PARAMETRICOS
• Aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también
como de distribución libre (distribution free).
• En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de
ordenación y recuento, por lo que su base lógica es de fácil comprensión.
• Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido suponer la
normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para corroborar los resultados
obtenidos a partir de la utilización de la teoría basada en la normal.
• Es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no
se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los
datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se
puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no
sea, como mínimo, de intervalo.
• Aunque el término no paramétrico sugiere que la prueba no está basada en un parámetro, hay algunas
pruebas no paramétricas que dependen de un parámetro tal como la media.
• Las pruebas no paramétricas, sin embargo, no requieren una distribución particular, de manera que algunas
veces son referidas como pruebas de libre distribución.
• Aunque libre distribución es una descripción más exacta, el término no paramétrico es más comúnmente
usado. Las siguientes son las mayores ventajas y desventajas de los métodos no paramétricos
VENTAJAS DE LOS MÉTODOS NO
PARAMÉTRICOS
1. Los métodos no paramétricos pueden ser aplicados a una amplia variedad de situaciones porque
ellos no tienen los requisitos rígidos de los métodos paramétricos correspondientes. En
particular, los métodos no paramétricos no requieren poblaciones normalmente distribuidas.

2. Diferente a los métodos paramétricos, los métodos no paramétricos pueden frecuentemente ser
aplicados a datos no numéricos, tal como el género de los que contestan una encuesta.

3. Los métodos no paramétricos usualmente involucran simples computaciones que los


correspondientes en los métodos paramétricos y son por lo tanto, más fáciles para entender y
aplicar.
DESVENTAJAS DE LOS MÉTODOS NO
PARAMÉTRICOS
1. Los métodos no paramétricos tienden a perder información porque datos numéricos exactos
son frecuentemente reducidos a una forma cualitativa.
2. Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, de manera
que con una prueba no paramétrica generalmente se necesita evidencia más fuerte (así como
una muestra más grande o mayores diferencias) antes de rechazar una hipótesis nula.
• Cuando los requisitos de la distribución de una población son satisfechos, las pruebas no
paramétricas son generalmente menos eficientes que sus contrapartes paramétricas, pero la
reducción de eficiencia puede ser compensada por un aumento en el tamaño de la muestra.
LA JI CUADRADA O X2
• Es una prueba estadística para evaluar hipótesis acerca de la relación entre dos variables
categóricas.
• Sirve para probar Hi correlacionales.
• Mide variables nominales u ordinales (o intervalos o razón reducidas a ordinales)

• Ej: Presentación o en su defecto, no presentación, de un aviso publicitario y compra o no compra
de un producto.
• Ej: Un corredor de propiedades quiere saber qué tipo de vivienda prefieren los profesionales. Se
le pregunta a un grupo de profesionales sobre sus preferencias de vivienda (casa o departamento)
y si prefiere vivir en Chiclayo ó en Villarrica - JLO.
CHI CUADRADO
• Variables cualitativas • Para hallar los valores esperados
• Dos o más categorías excluyentes • E = (a+b) x (a+c) = 250 x 148 = 18.5 (a)
• Tablas de contingencia n 2000

Peso del niño al nacer. Estudio de seguimiento de 2000


gestantes.

Recién nacido de bajo peso


Gestante Sí No Total

Fumadora 43 (a) 207 (b) 250 (a+b)

No fumadora 105 (c) 1645 (d) 1750 (c+d)


Total 148 (a+c) 1852 (b+d) 2000
CHI CUADRADO
• E = (a+b) x (b+d) = 250 x 1852 = 231.5 (b)
n 2000
• E = (c+d) x (a+c) = 1750 x 148 = 129.5 (c)
n 2000
• E = (c+d) x (b+d) = 1750 x 1852 = 1620.5 (d)
n 2000
Peso del niño al nacer. Estudio de seguimiento de 2000
gestantes. (valores esperados)

Recién nacido de bajo peso


Gestante Sí No Total

Fumadora 18.5 (a) 231.5 (b) 250

No fumadora 129.5 (c) 1620.5 (d) 1750


Total 148 1852 2000
• X2 = (43 - 18.5)2 + (207 - 231.5)2 + (105 - 129.5)2 + (1645 - 1620.5)2
18.5 231.5 129.5 1620.5

• X2 = (24.5)2 + (-24.5)2 + (-24.5)2 + (24.5)2


18.5 231.5 129.5 1620.5

• X2 = 600.25 + 600.25 + 600.25 + 600.25 = 32.44 + 2.59 + 4.6 + 0.37


18.5 231.5 129.5 1620.5
• X2 = 40.04
• Para una seguridad del 95% (α =0.05) el valor teórico de una distribución ji-cuadrado con un grado
de libertad es 3,84.
• Para α =0.01 es de 6,63 y para α =0.005 es de 7,88. Como quiera que en el cálculo del χ 2 en el
ejemplo obtuvimos un valor de 40,04, que supera al valor para α =0.005.
• Concluimos que las dos variables no son independientes, sino que están asociadas (p<0.005).
• Por lo tanto, a la vista de los resultados, rechazamos la hipótesis nula (H0) y aceptamos la hipótesis
alternativa (Ha) como probablemente cierta.
ESQUEMA DE SELECCIÓN DE PRUEBAS ESTADÍSTICAS
Si Prueba Z para la media
1 grupo
Si
n > = 30 Prueba T para la media
Distribución
normal
No Prueba del signo
No para la mediana
Si
Prueba Z para la ≠ media
Si
n > = 30 Si Prueba T
Si Varianzas para ≠ de medias
No Distribución iguales Prueba T
normal No Con ajustes de
g de libertad
2 grupos
Número No Prueba de Mann Whitney
de grupos Independientes para comparación de poblac

Si Prueba Z para la media


de la ≠ en datos apareados

Si Prueba T para la media de


No La ≠ en datos apareados
n > = 30

Distribución
No normal Prueba del signo ó de
No Wilcoxon para datos apareados
Si
3 grupos Si Distribución ANVA Comparación de Ttos0
Normal c/varianzas
semejantes No Prueba de krustal-Wallis-Comp Ttos
Independientes
Distribución Si
Normal c/varianzas ANVA en bloque Comparación de Ttos
No
semejantes No
Prueba de Friedman -Comp Ttos
ESQUEMA DE SELECCIÓN DE PRUEBAS ESTADÍSTICAS CUANDO LA VARIABLE DEPENDIENTE ES NOMINAL
1 grupo Si
Prueba Z para la proporción poblacional
Muestra grande
nP y n (1-P) > 5
No Prueba binomial p/ proporción poblacional

Si
Prueba exacta de Fisher
Si Frecuencias Comparación de proporciones
Esperadas
pequeñas
No Prueba Z o Prueba JI Cuadrado para
2 grupos Comparación de proporciones
Número
de grupos Independientes

No Prueba de McNemar
Comparación de proporciones

Si Prueba JI Cuadrado (reunir categorías)


para comparación de proporciones
Frecuencias
3 grupos Si Esperadas
pequeñas No Prueba JI Cuadrado para
Independientes Comparación de proporciones

No Prueba Q de Cochran
comparación de tratamientos
ESQUEMAS DE SELECCIÓN DE PRUEBAS ESTADÍSTICAS PARA MEDIR RELACIÓN ENTRE VARIABLES

Continua
Coeficiente de correlación lineal de Pearson

Escala de
Medición
para Ordinal y/ó númerica
ambas Coeficiente de correlación por rangos de Spearman
variables

Prueba JI Cuadrado (Coeficiente ǿ)


Riesgo relativo (Estudios de cohorte)
Odds ratio (Estudios de casos-control)
Nominal Coeficiente de concordancia Kappa
Cada variable (Comparación de métodos)
Tiene dos
Categorías
(tabla de 2x2)
Prueba de JI Cuadrado para independencia
de variables (Coeficiente de contingencia)

También podría gustarte