Está en la página 1de 20

TEMA II

EL ANÁLISIS PRELIMINAR
DE LOS DATOS
LECTURA OBLIGATORIA

Capítulo 2: Preparación del Archivo de datos. En Rial, A. y Varela, J. (2008).


Estadística Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo.
Páginas 17-28.

Capítulo 3: Análisis de datos para una sola variable. En Rial, A. y Varela, J. (2008).
Estadística Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo.
Páginas 31-57.

Capítulo 4: Inferencia estadística. Estimación de parámetros y contrates de hipótesis.


En Rial, A. y Varela, J. (2008). Estadística Práctica para la Investigación en Ciencias de
la Salud. Coruña: Netbiblo. Páginas 59-96.

Modelos Multivariantes 2
Razones por las que examinar los datos

 Preparar el archivo de datos: depurar errores e incoherencias

 Resolver el problema de la falta de respuesta: tamaño de la muestra


(potencia de los contrastes) y sesgo de los resultados (no se distribuyen al
azar)
Problema I: los datos no son buenos
 Tratar los casos anómalos: elección de los estadísticos adecuados

 Comprobación de supuestos paramétricos: pruebas paramétricas vs. no


paramétricas, elección de la técnica multivariante concreta
Problema II: las herramientas no son las adecuadas

 Resumir la información que contienen los datos, informar de las tendencias,


realciones entre variables, etc.
Modelos Multivariantes 3
La Depuración de los Datos
Errores de grabación e incoherencias

Valores fuera de rango (no admisibles):


Tablas de Frecuencias para todas las variables

Incoherencias entre respuestas (preguntas filtro):


Tablas de Contingencia para pares de variables

¿Cómo corregir los errores?


Buscar los valores erróneos en la matriz de datos (variable por variable)
e ir subsanándolos

Modelos Multivariantes 4
Muestreo de Errores
Se trata de estimar el Porcentaje de Error (PE) que contiene nuestra
matriz de datos. Seleccionamos una submuestra de cuestionarios y
comprobamos cuántos errores hay.

Seleccionar una submuestra aleatoria (entre el 10 y el 20%)


Contar el número de datos erróneos
Hacer una Regla de Tres para estimar cuántos habrá en toda
la matriz
Aplicar la fórmula del PE
[Errores / (casos x variables)] x 100
El resultado debe ser inferior al 0.05%
Modelos Multivariantes 5
Los valores ausentes o casos
“MISSING”
RIESGOS:
1. LA CAPACIDAD DE GENERALIZACIÓN DE LOS RESULTADOS (lo que en
principio era una muestra adecuada se convierte en inadecuada y no
representativa)
2. La reducción excesiva del tamaño de la muestra condiciona las
estimaciones (AMPLIANDO LOS INTERVALOS DE CONFIANZA) y las
comparaciones (REDUCIENDO AL SIGNIFICACIÓN ESTADÍSTICA)

3. LOS RECHAZOS. ¿Son iguales los que responden a una encuesta que los
que no responden?. ¿Los missing siguen algún patrón?, ¿de quién
estamos realmente informando?(POSIBLE SESGO EN LOS TRESULTADOS)
LO MAS IMPORTANTE ES PREGUNTARSE POR LAS RAZONES
DE LA NO RESPUESTA
Modelos Multivariantes 6
¿Se distribuyen al azar?

Varias estrategias:
Comprobar si los distintos segmentos presentan un
porcentaje similar de falta de repuesta (Sexo, Provincia,
Grupos de Edad, ...) 2
Estudiar posibles patrones
Identificar variables relacionadas y comprobar que los
que responden y los missing se comportan igual, que no
existen diferencias estadísticamente significativas entre
ambos grupos.

Modelos Multivariantes 7
¿Sustituirlos o imputarlos?

 Media de la serie
SUSTITUCIÓN  Media de los puntos adyacentes
 Mediana de los puntos adyacentes

 Interpolación lineal
 Tendencia lineal en el punto
IMPUTACIÓN  Media de Subclases (Kalton)
Fichero Caliente (Hot Deck)
 Regresión lineal
Esperanza Maximización (EM)
Modelos Multivariantes 8
Los valores ANÓMALOS o atípicos

“Valores que caen fuera del rango normal de los datos”

CRITERIO: distancia respecto al cuerpo central de la distribución


(50% de los casos, los que están entre el P75 y el P25)
¿Cuántas veces el valor del IQR (Recorrido Intercuartílico)

OUTLIERS....................  1.5 IQR  3 IQR

EXTREMOS......................  3 IQR

Modelos Multivariantes 9
Implicaciones de los casos anómalos

3 Ejemplos:

A NIVEL UNIVARIADO: Gasto promedio fin de semana

A NIVEL BIVARIADO: Contraste de hipótesis para dos


medias. Ingresos deportistas profesionales

A NIVEL MULTIVARIADO: Empobrecimiento del ajuste en el


análisis de regresión lineal

Modelos Multivariantes 10
Implicaciones de los casos anómalos

SOLUCIONES:
Acudir a estadísticos distintos de los habituales y
“RESISTENTES” (Mediana, Media reducida, M-estimadores:
Andrews, Huber, Tukey, Hampel)
Utilizar Contrastes no paramétricos: Mann-Withney, Prueba
de la Mediana, Kruskal-Wallis
Detectarlos, eliminarlos de la muestra y repetir el análisis
(deben ser pocos y poco influyentes), recurrir a un
procedimiento de Remuestreo (Bootstrapping) o a
procedimientos de estimación robustos.
Modelos Multivariantes 11
¿Cómo detectarlos?

A nivel univariante:
 Numéricamente (IQR)
 Gráficos de Caja (BOXPLOT)
 Gráficos de Tallo y Hojas

A nivel bivariado: Gráficos de Dispersión


A nivel multivariado:
 Residuos (tipificados, studentizados, etc.)
 Distancia de Mahalanobis
 Distancia de Cook

Modelos Multivariantes 12
El BOXPLOT
600000

500000
10

400000

300000
9

200000

100000

0
N= 20

INGRESOS

Modelos Multivariantes 13
BOXPLOT

 MUCHA INFORMACIÓN:

Extremos y outliers
Percentiles 75 y 25
IQR
Mediana
Asimetría
Comparar la distribución de 2 o más variables
Comparar la distribución de 2 o más grupos en una misma
variable
Modelos Multivariantes 14
Comparar la distribución de dos o más
variables
600000

500000
10

400000

300000 10
9

19
200000

100000

2
0

-100000
N= 20 20

INGRESOS GASTOS

Modelos Multivariantes 15
Comparar la distribución de dos o
más grupos
600000

500000
10

400000

300000

200000
INGRESOS

100000

0
N= 10 10

HOMBRE MUJER

SEXO
Modelos Multivariantes 16
La comprobación de supuestos
Para elegir la prueba estadística adecuada en cada caso
Optar por Pruebas Paramétricas ó No Paramétricas
Garantizar la Estabilidad del modelo

Ejemplos:
 t de Student ó Mann-Withney
 Anova ó Kruskal-Wallis
 Discriminante o Regresión Logística

Modelos Multivariantes 17
¿Cuáles son esos SUPUESTOS?
NORMALIDAD, que la VD se distribuya normalmente

ALEATORIEDAD o Independencia de las medidas: que


los sujetos hayan sido seleccionados al azar (ANOVA)

HOMOCEDASTICIDAD u Homogeneidad de varianzas:


que los distintos grupos posean una variabilidad similar

LINEALIDAD: Relación lineal entre las variables


analizadas

OTROS: ausencia colinealidad, normalidad de los residuos


Modelos Multivariantes 18
¿Cómo se comprueban?

NORMALIDAD: Prueba K-S con corrección de Lilliefors


(muestras pequeñas: Shapiro-Wilk)
ALEATORIEDAD: Prueba de las Rachas
HOMOCEDASTICIDAD: Prueba de Levene

Se parte siempre de que se cumplen los supuestos salvo que las


pruebas sean significativas (p< 0.05)

LINEALIDAD: Gráfico de dispersión y/o correlación

Modelos Multivariantes 19
Y... si no es NORMAL
2 ALTERNATIVAS:
TRANSFORMAR LA VARIABLE

 Posibles transformaciones
 Asimetría Positiva FUERTE: -1/X3, ó -1/X
SUAVE: log X ó X
 Asimetría Negativa FUERTE: antilog X
SUAVE: X2 ó X3

Recurrir a una prueba no paramétrica o a técnicas


multivariantes más robustas

Modelos Multivariantes 20

También podría gustarte