Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema 2naranget
Tema 2naranget
EL ANÁLISIS PRELIMINAR
DE LOS DATOS
LECTURA OBLIGATORIA
Capítulo 3: Análisis de datos para una sola variable. En Rial, A. y Varela, J. (2008).
Estadística Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo.
Páginas 31-57.
Modelos Multivariantes 2
Razones por las que examinar los datos
Modelos Multivariantes 4
Muestreo de Errores
Se trata de estimar el Porcentaje de Error (PE) que contiene nuestra
matriz de datos. Seleccionamos una submuestra de cuestionarios y
comprobamos cuántos errores hay.
3. LOS RECHAZOS. ¿Son iguales los que responden a una encuesta que los
que no responden?. ¿Los missing siguen algún patrón?, ¿de quién
estamos realmente informando?(POSIBLE SESGO EN LOS TRESULTADOS)
LO MAS IMPORTANTE ES PREGUNTARSE POR LAS RAZONES
DE LA NO RESPUESTA
Modelos Multivariantes 6
¿Se distribuyen al azar?
Varias estrategias:
Comprobar si los distintos segmentos presentan un
porcentaje similar de falta de repuesta (Sexo, Provincia,
Grupos de Edad, ...) 2
Estudiar posibles patrones
Identificar variables relacionadas y comprobar que los
que responden y los missing se comportan igual, que no
existen diferencias estadísticamente significativas entre
ambos grupos.
Modelos Multivariantes 7
¿Sustituirlos o imputarlos?
Media de la serie
SUSTITUCIÓN Media de los puntos adyacentes
Mediana de los puntos adyacentes
Interpolación lineal
Tendencia lineal en el punto
IMPUTACIÓN Media de Subclases (Kalton)
Fichero Caliente (Hot Deck)
Regresión lineal
Esperanza Maximización (EM)
Modelos Multivariantes 8
Los valores ANÓMALOS o atípicos
EXTREMOS...................... 3 IQR
Modelos Multivariantes 9
Implicaciones de los casos anómalos
3 Ejemplos:
Modelos Multivariantes 10
Implicaciones de los casos anómalos
SOLUCIONES:
Acudir a estadísticos distintos de los habituales y
“RESISTENTES” (Mediana, Media reducida, M-estimadores:
Andrews, Huber, Tukey, Hampel)
Utilizar Contrastes no paramétricos: Mann-Withney, Prueba
de la Mediana, Kruskal-Wallis
Detectarlos, eliminarlos de la muestra y repetir el análisis
(deben ser pocos y poco influyentes), recurrir a un
procedimiento de Remuestreo (Bootstrapping) o a
procedimientos de estimación robustos.
Modelos Multivariantes 11
¿Cómo detectarlos?
A nivel univariante:
Numéricamente (IQR)
Gráficos de Caja (BOXPLOT)
Gráficos de Tallo y Hojas
Modelos Multivariantes 12
El BOXPLOT
600000
500000
10
400000
300000
9
200000
100000
0
N= 20
INGRESOS
Modelos Multivariantes 13
BOXPLOT
MUCHA INFORMACIÓN:
Extremos y outliers
Percentiles 75 y 25
IQR
Mediana
Asimetría
Comparar la distribución de 2 o más variables
Comparar la distribución de 2 o más grupos en una misma
variable
Modelos Multivariantes 14
Comparar la distribución de dos o más
variables
600000
500000
10
400000
300000 10
9
19
200000
100000
2
0
-100000
N= 20 20
INGRESOS GASTOS
Modelos Multivariantes 15
Comparar la distribución de dos o
más grupos
600000
500000
10
400000
300000
200000
INGRESOS
100000
0
N= 10 10
HOMBRE MUJER
SEXO
Modelos Multivariantes 16
La comprobación de supuestos
Para elegir la prueba estadística adecuada en cada caso
Optar por Pruebas Paramétricas ó No Paramétricas
Garantizar la Estabilidad del modelo
Ejemplos:
t de Student ó Mann-Withney
Anova ó Kruskal-Wallis
Discriminante o Regresión Logística
Modelos Multivariantes 17
¿Cuáles son esos SUPUESTOS?
NORMALIDAD, que la VD se distribuya normalmente
Modelos Multivariantes 19
Y... si no es NORMAL
2 ALTERNATIVAS:
TRANSFORMAR LA VARIABLE
Posibles transformaciones
Asimetría Positiva FUERTE: -1/X3, ó -1/X
SUAVE: log X ó X
Asimetría Negativa FUERTE: antilog X
SUAVE: X2 ó X3
Modelos Multivariantes 20