Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RESUMEN DE CUESTIONES Y CONCEPTOS. El anlisis previo de los datos debe realizarse siempre a fin de proporcionar al analista una interpretacin precisa de la estructura conceptual de los datos, la precisin necesaria sobre la cantidad y calidad de la informacin que recogen, la deteccin de problemas en el diseo de investigacin y de medicin durante la recogida de los datos. Se establecen las relaciones primarias entre las variables y su comportamiento frecuencialista dentro del proceso inductivo que caracteriza la labor de la inferencia estadstica, as como la comprobacin de los supuestos o propiedades subyacentes de los propios mtodos estadsticos.
Para aplicar cualquier mtodo estadstico, incluidos los multivariantes, el analista debe evaluar el ajuste de la muestra de datos a los supuestos subyacentes en el mtodo. Los beneficios del anlisis previo de los datos, son atinentes a: (1) el analista obtiene un conocimiento bsico de los datos y las relaciones entre las variables. El conocimiento de las interrelaciones de variables puede ayudar enormemente en la especificacin y refinamiento del modelo multivariante, y su interpretacin; (2) el anlisis de los supuestos de los mtodos multivariantes, los que son por definicin ms complejos, y (3) el anlisis de los efectos de los datos ausentes que en algunos casos pueden hasta hacer variar la naturaleza de la/s variables estudiadas. Aunque pueda parecer que es malgastar el tiempo, esfuerzo y los recursos dedicados al proceso de examen de los datos, el analista debe ver estas tcnicas como una inversin en un seguro multivariante. Incluso aunque una tcnica sirva para hacer una estimacin adecuada y obtener resultados, los problemas ocultos que surgen de estas cuestiones expuestas pueden conducir a problemas potencialmente catastrficos. El examen previo de los datos se realiza en cuatro etapas: (1) un examen grfico de la naturaleza de las variables a analizar y las relaciones que forman las bases del anlisis multivariante; (2) un proceso de evaluacin para entender el impacto que pueden tener los datos ausentes sobre el anlisis, y una serie de alternativas para casos reiterados de ausencia de datos en el anlisis; (3) las tcnicas que mejor se ajustan para la identificacin de casos atpicos, aquellos casos que por 11
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica
Diagrama de Tallo y Hojas de la Longitud Total de Yacars Frequency Stem & Leaf (=<72) 33 8 2 5 04 8 11224 5 0134 578999 44 56
1.00 Extremes 2.00 9 . 1.00 9 . 1.00 10 . 1.00 10 . 2.00 11 . 1.00 11 . 5.00 12 . 1.00 12 . 4.00 13 . 6.00 13 . 2.00 14 . 2.00 14 . Stem width: Each leaf:
10 1 case(s)
12
ANLISIS DE RELACIN ENTRE VARIABLES. Utilice diagramas de dispersin. Las variables pueden ser valores observados, esperados o residuos. Grfico 1: Relacin bivariada entre valores observados para medidas de mandbulas de Yacar
13
** Correlaciones significativas al 0.01 (dos colas) * Correlaciones significativas al 0.05 (dos colas)
DATOS AUSENTES. El primer paso al enfrentarse al problema de los datos ausentes consiste en determinar las razones de esta ausencia para luego seleccionar el curso de accin apropiado. Un proceso de datos ausentes constituye un evento sistemtico externo que no tiene que ver con el material experimental (ya sea un encuestado, un animal, un vegetal, etc.). stos procesos suelen ser conocidos y por lo tanto pueden ser tenidos en cuenta en el plan de investigacin. Por ejemplo, si se van a relevar opiniones, actitudes, satisfactores, necesidades, etc, de personas e interesa la poblacin en general, seleccionando una cuota de encuestados de un conglomerado geogrfico, es probable que en determinados lugares y/o horarios algunas personas con determinadas caractersticas se encuentren con menor frecuencia varones en su hogar en horarios de trabajo, jvenes en edad escolar en horario de clases, etc.-. 14
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica
15
Caso
11 12 15 17 29 22 19 44 43 40 47
1 1 3 3 2 4 4 4 9 9 9
- indica un valor alejado bajo, + indica un valor alejado alto. El rango usado es (Q1 - 1.5*IQR, Q3 + 1.5*IQR). a. Los casos y variables estn ordenados por modelo de valores perdidos
Comando SPSS: Analyze/Missing values analysis/Patterns/cases with missing values, sorted by missing value patterns
En la tabla anterior se puede observar que los casos 40, 43 y 47 no cuentan con medidas para las variables incluidas en la medicin. De esta manera su eliminacin producira un aumento de cobertura en la muestra. Estos tres casos representan el 6,4% de la muestra. Por lo tanto el nivel de cobertura resulta ser 94,6%. Convendra asimismo revisar el material experimental correspondiente a los casos 22, 19 y 44, ya que presentan datos ausentes para las variables 40, 43, 45 y 47. El anlisis debe tener en cuenta la definicin de estas variables. No se observan modelos de comportamiento que asocien valores extremos y datos ausentes, excepto para la variable 45 para la que con singularidad de los casos 15, 17 y 29, resulta que presenta datos ausentes y la mayor proporcin de valores alejados bajos. En definitiva, hemos encontrado en tres casos alta proporcin de datos ausentes. El porcentaje de datos ausentes sobre el total no es significativo; si lo es -para las variables 40, 43, 45 y 47- la proporcin de casos ausentes por variable, esto no se puede solucionar eliminando los casos 40, 43 y 47. No se observan ganancias en la cobertura de la muestra si se eliminan variables excepto quizs en el caso de la variable 43 que cuenta con 7 datos ausentes sobre un total de 11 casos con algn valor perdido. Soluciones ms sofisticadas para el tratamiento de datos ausentes se intentarn posteriormente.
16
Tabla de Modelo de Valores Perdidos Nmero de casos correspondiente con el modelo 36 1 1 2 1 3 3 X X X X X X X X X X X X X X X X X X X X Modelo de Valores Perdidos(a) V42 V46 V48 V44 V41 V40 V47 V45 V43 N de Casos(b)
36 37 37 39 37 40 47
a Las variables estn ordenadas por cantidad de valores perdidos b El nmero de casos completos se cuenta de acuerdo al modelo de valores perdidos que corresponde a la izquierda -en el cuerpo de la tabla-
Esta tabla se complementa con la anterior y nos muestra columna a la derecha- el nmero de casos que quedara si se incluye el modelo de valores ausentes que corresponde al cuerpo de la tabla. De esta manera, por ejemplo, si decidiramos incluir casos con el modelo de tres datos ausentes (en rojo en la tabla), tendramos un total de 39 datos incluidos en la muestra teniendo en cuenta los 36 casos completos para las variables analizadas-.
CLASIFICACIN DE LOS DATOS AUSENTES. Segn la causa que origina el modelo de datos ausentes estos se pueden clasificar en: (a) Datos prescindibles: corresponde a aquellos que se presentan en forma aleatoria. Un ejemplo de estos seran las observaciones no seleccionadas para el estudio, de tal manera que la muestra probabilstica utilizada provea informacin suficiente para generalizar resultados que las representen. Un caso especial de datos prescindibles son los llamados Datos Censurados: corresponden a observaciones incompletas como consecuencia de su naturaleza en el proceso de relevamiento de datos. Un ejemplo se dara en un estudio sobre causas de fallecimiento. All se produce un sesgo para con aquellos encuestados que todava estn vivos y que obviamente no pueden citar causas de fallecimiento de si mismos. Otro caso se dara cuando se analizan longitudes de animales de una especie determinada sin tener en cuenta edad o estadio de desarrollo de los ejemplares, esto es, seleccionndolos por el tamao a la vista, pues se supone asociado con la edad o estadio de desarrollo cuando lo que se busca es generalizar para 17
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica
18
Test Chi-Cuadrado (A) Valor Pearson Chi-Square N casos vlidos .947(a) 47 df 2 Sig. Asinttica (2 colas) .623
a. 3 celdas (50.0%) tienen un valor esperado menor que 5. El mnimo valor esperado es 1,94.
19
Completamente Aleatorio
(a) Aproximacin de casos completos: Consiste en utilizar la opcin especfica en el software estadstico. En SPSS al abrir el cuadro de dilogo de cualquier mtodo de anlisis aparecer el 20
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica
22
Tanto en este paso como en los que siguen puede utilizarse la opcin SPSS Data/Split File/Compare groups (o Organize output for groups). La ventaja de este comando con respecto al que se presentar aqu consiste en que todas las salidas o resultados se presentarn para cada una de las categoras de la variable SEXO automticamente. Prof. Titular Roberto Delfor Meyer 23 Ctedra de Estadstica
Se observa que la variable mas completa es la 3m. Las dems presentan entre 6 y 7 datos ausentes. Se deber verificar si estos 6 o 7 casos son los mismos para cada variable, en cuyo caso se puede proceder a su eliminacin. Conviene, si ese fuera el caso, analizar luego si los 6 o 7 casos poseen un patrn aleatorio o no aleatorio, o en todo caso completamente aleatorio. Se completa el paso 1 con la presentacin de las medidas descriptivas por sexo y total de ejemplares:
Medidas Descriptivas SEXO Medidas N Mean 0 Sum Std. Deviation % of Total N N Mean 1 Sum Std. Deviation % of Total N N Mean 2 Sum Std. Deviation % of Total N N Mean Total Sum Std. Deviation % of Total N 1m 12 215.2042 2582.45 21.2571 30.0% 12 226.7708 2721.25 6.7463 30.0% 16 222.9088 3566.54 9.6994 40.0% 40 221.7560 8870.24 14.0698 100.0% 2m 11 215.023 2365.3 23.283 26.8% 14 226.826 3175.6 7.035 34.1% 16 222.459 3559.3 10.313 39.0% 41 221.955 9100.2 14.599 100.0% 3m 13 13.577 176.5 2.130 29.5% 14 14.203 198.8 .804 31.8% 17 15.827 269.1 3.181 38.6% 44 14.645 644.4 2.487 100.0% 4m 12 84.2183 1010.62 7.3554 30.0% 12 87.8333 1054.00 4.0862 30.0% 16 86.4656 1383.45 5.3423 40.0% 40 86.2017 3448.07 5.7449 100.0% 5m 12 83.5025 1002.03 8.0441 29.3% 14 87.2986 1222.18 4.6905 34.1% 15 86.8187 1302.28 5.0133 36.6% 41 86.0120 3526.49 6.0377 100.0% 6m 13 114.6538 1490.50 9.2331 31.7% 12 120.3233 1443.88 4.4547 29.3% 16 116.7394 1867.83 4.8620 39.0% 41 117.1271 4802.21 6.7089 100.0%
24
Los ltimos resultados nos permiten conocer los tamaos muestrales y medidas descriptivas para cada categora de la variable sexo. Estos tamaos muestrales se utilizarn para conocer si existe alguna relacin, para alguna variable, entre datos ausentes y sexo de los ejemplares. Paso 2: Representacin grfica del patrn de datos ausentes por caso y variable. Resumen de casos ausentes y valores alejados (extremos) por variable:
Medidas y extremos Valores presentes M40 M41 M42 M43 M44 M45 SEXO 40 41 44 40 41 41 47 ausentes cantidad 7 6 3 7 6 6 0 % 14.9 12.8 6.4 14.9 12.8 12.8 .0 No. de valores alejados(a) bajos 3 3 1 1 1 3 altos 0 0 4 0 0 1
11 12 15 17 29 22 19 44 43 40 47
El signo (-) indica un valor extremos bajo, (+) indica valor extremo alto. a Casos y variables son ordenados por patrn de valores ausentes
25
Los Patrones con menos de 1% de datos ausentes no son desplegados a Las variables son ordenadas por patrn de datos ausentes b El nmero de casos completos de variables con datos asentes en el patrn (marcados con X) no son usados
Los patrones ms frecuentes son los que se presentan para los datos ausentes de M45, M43 y M40; y para los datos ausentes en M42, M41, M44, M45, M43 y M40. Esto indica que hay un patrn de datos ausentes que se repite para tres variables, y otro que se repite para todas las variables. Esto es coincidente con lo observado en el grfico anterior. Esto sugiere que existen dos patrones de datos ausentes subyacentes. Correspondera a esta altura eliminar los casos que se detectaron anteriormente y luego graficar nuevamente para observar si se ha solucionado el problema. No lo haremos por ahora slo por propsitos didcticos a fin de realizar el diagnstico de aleatoriedad y demostrar que sta no existe en los datos ausentes. Paso 3: Diagnstico de la aleatoriedad de los datos ausentes. Recordemos que se proponen tres procedimientos para analizar la aleatoriedad de los datos ausentes: (a) el test de proporciones entre una variable agrupada en dos grupos se codifica 26
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica
Output
Procedimiento (a): segn el procedimiento (a) descripto, ahora se comparan mediante un test t todas las variables cuantitativas m40, m41,.....m47. En todos los test t se debe observar el dato de la probabilidad de las dos colas del test llamada valor p . Si ese valor es menor que el 5% por ejemplo, entonces el test t demuestra evidencia estadstica de medias distintas entre los datos correspondientes a vlidos y ausentes de la variable utilizada. Comando SPSS: Analyze/Missing value analyze/
Test t para varianzas distintas(a) M40 t df P(2-tail) M40 # Present # Missing Mean(Present) Mean(Missing) t df P(2-tail) M41 # Present # Missing Mean(Present) Mean(Missing) t df P(2-tail) M42 # Present # Missing Mean(Present) Mean(Missing) t df P(2-tail) M43 # Present # Missing Mean(Present) Mean(Missing) . . . 40 0 221.7560 . -.4 8.8 .681 38 2 221.6958 222.9000 . . . 40 0 221.7560 . . . . 39 1 222.7410 . M41 -.4 2.5 .724 38 3 221.733 224.763 . . . 41 0 221.955 . . . . 41 0 221.955 . .7 3.2 .521 37 4 222.793 214.202 M42 -.6 3.2 .568 40 4 14.521 15.887 .1 3.1 .942 41 3 14.650 14.580 . . . 44 0 14.645 . -.3 3.1 .811 40 4 14.586 15.237 M43 . . . 39 1 86.2428 . .5 7.5 .625 37 3 86.2549 85.5467 . . . 40 0 86.2017 . . . . 40 0 86.2017 . M44 .8 4.4 .445 37 4 86.2092 84.1875 . . . 40 1 86.0772 . . . . 41 0 86.0120 . 1.2 3.8 .286 37 4 86.3697 82.7025 M45 . . . 40 1 117.0828 . -.1 10.0 .955 38 3 117.1208 117.2067 . . . 41 0 117.1271 . . . . 40 1 117.6203 . M46 -.1 5.8 .920 40 4 116.8847 117.1050 -.8 5.5 .454 41 3 116.8090 118.2133 . . . 44 0 116.9048 . 1.3 3.3 .288 40 4 117.4622 111.3300 M47 . . . 40 1 49.2192 . -.9 4.5 .392 38 3 49.1339 50.2933 . . . 41 0 49.2188 . . . . 40 1 49.4718 . M48 -.6 4.3 .596 38 4 49.4547 50.4450 . . . 41 1 49.5244 . . . . 42 0 49.5490 . .6 3.3 .576 38 4 49.7326 47.8050
28
Cada variable cuantitativa es dividida en dos grupos: datos vlidos y ausentes, para la comparacin de sus medias. a.- las variables con menos del 5% de los datos ausentes no son mostradas
29
Obsrvese que sin necesidad de analizar el test de Levene para igualdad de variancias, a fin de determinar si las variancias son o no iguales entre las categoras vlidos vs. ausentes, la fila Sig. (2tailed) valor p-
no muestra valores iguales o menores al 5%. Esto significa que en ningn caso se
puede rechazar la hiptesis nula que dice en este caso las medias de datos vlidos y las medias de datos ausentes son iguales. Si algunos de los test t resultaran significativos, esto indicara que para algn par de variables, el patrn de datos ausentes de otra variable afecta los resultados promedios, y por lo tanto no son un efectos aleatorios. En general si algunos test son significativos y otros no, el patrn de datos ausentes es aleatorio. Si todos son no significativos, el patrn de datos ausentes es completamente aleatorio. Procedimiento (b): Analyze/Correlate/Bivariate/Pearson Este comando produce una tabla de doble entrada con los valores de correlacin y su test respectivo. As, si por ejemplo, las variables MAN40ALE y MAN43ALE tienen una correlacin muestral de 0,832, es decir un valor alto, y una significacin o valor p- de 0,000 < 0,01 o 0,05 (es decir, una significacin menor al 1% o 5%), entonces estas dos variables estn correlacionadas y por lo tanto sus patrones de datos ausentes son similares, o sea no aleatorios. De nuevo, si todas las variables presentan correlacin alta significativa, entonces el patrn es no aleatorio, si en cambio slo algunas correlaciones son significativas y altas, entonces el patrn es aleatorio, y finalmente si ninguna correlacin es alta ni moderada-, aunque sean significativas, entonces el patrn es completamente aleatorio. Veamos la salida para nuestro ejemplo:
30
CORRELACIONES MAN40ALE Pearson Correlation Sig. (2-tailed) MAN41ALE Pearson Correlation Sig. (2-tailed) MAN42ALE Pearson Correlation Sig. (2-tailed) MAN43ALE Pearson Correlation Sig. (2-tailed) MAN44ALE Pearson Correlation Sig. (2-tailed) MAN45ALE Pearson Correlation Sig. (2-tailed) MAN46ALE Pearson Correlation Sig. (2-tailed) MAN47ALE Pearson Correlation Sig. (2-tailed) MAN48ALE Pearson Correlation Sig. (2-tailed) 1.000 . .556(**) .000 .624(**) .000 .832(**) .000 .377(**) .009 .914(**) .000 .624(**) .000 .914(**) .000 .437(**) .002 MAN41ALE .556(**) .000 1.000 . .683(**) .000 .377(**) .009 .809(**) .000 .427(**) .003 .683(**) .000 .427(**) .003 .902(**) .000 MAN42ALE .624(**) .000 .683(**) .000 1.000 . .624(**) .000 .683(**) .000 .683(**) .000 1.000(**) .000 .683(**) .000 .757(**) .000 MAN43ALE .832(**) .000 .377(**) .009 .624(**) .000 1.000 . .377(**) .009 .914(**) .000 .624(**) .000 .914(**) .000 .437(**) .002 MAN44ALE .377(**) .009 .809(**) .000 .683(**) .000 .377(**) .009 1.000 . .427(**) .003 .683(**) .000 .427(**) .003 .902(**) .000 MAN45ALE .914(**) .000 .427(**) .003 .683(**) .000 .914(**) .000 .427(**) .003 1.000 . .683(**) .000 1.000(**) .000 .488(**) .000 MAN46ALE .624(**) .000 .683(**) .000 1.000(**) .000 .624(**) .000 .683(**) .000 .683(**) .000 1.000 . .683(**) .000 .757(**) .000 MAN47ALE .914(**) .000 .427(**) .003 .683(**) .000 .914(**) .000 .427(**) .003 1.000(**) .000 .683(**) .000 1.000 . .488(**) .000 MAN48ALE .437(**) .002 .902(**) .000 .757(**) .000 .437(**) .002 .902(**) .000 .488(**) .000 .757(**) .000 .488(**) .000 1.000 .
MAN40ALE
31
32