Está en la página 1de 22

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II

RESUMEN DE CUESTIONES Y CONCEPTOS. El anlisis previo de los datos debe realizarse siempre a fin de proporcionar al analista una interpretacin precisa de la estructura conceptual de los datos, la precisin necesaria sobre la cantidad y calidad de la informacin que recogen, la deteccin de problemas en el diseo de investigacin y de medicin durante la recogida de los datos. Se establecen las relaciones primarias entre las variables y su comportamiento frecuencialista dentro del proceso inductivo que caracteriza la labor de la inferencia estadstica, as como la comprobacin de los supuestos o propiedades subyacentes de los propios mtodos estadsticos.

Para aplicar cualquier mtodo estadstico, incluidos los multivariantes, el analista debe evaluar el ajuste de la muestra de datos a los supuestos subyacentes en el mtodo. Los beneficios del anlisis previo de los datos, son atinentes a: (1) el analista obtiene un conocimiento bsico de los datos y las relaciones entre las variables. El conocimiento de las interrelaciones de variables puede ayudar enormemente en la especificacin y refinamiento del modelo multivariante, y su interpretacin; (2) el anlisis de los supuestos de los mtodos multivariantes, los que son por definicin ms complejos, y (3) el anlisis de los efectos de los datos ausentes que en algunos casos pueden hasta hacer variar la naturaleza de la/s variables estudiadas. Aunque pueda parecer que es malgastar el tiempo, esfuerzo y los recursos dedicados al proceso de examen de los datos, el analista debe ver estas tcnicas como una inversin en un seguro multivariante. Incluso aunque una tcnica sirva para hacer una estimacin adecuada y obtener resultados, los problemas ocultos que surgen de estas cuestiones expuestas pueden conducir a problemas potencialmente catastrficos. El examen previo de los datos se realiza en cuatro etapas: (1) un examen grfico de la naturaleza de las variables a analizar y las relaciones que forman las bases del anlisis multivariante; (2) un proceso de evaluacin para entender el impacto que pueden tener los datos ausentes sobre el anlisis, y una serie de alternativas para casos reiterados de ausencia de datos en el anlisis; (3) las tcnicas que mejor se ajustan para la identificacin de casos atpicos, aquellos casos que por 11
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


su singularidad pueden distorsionar las relaciones sobre una o ms variables estudiadas; (4) los mtodos analticos necesarios para evaluar adecuadamente la capacidad de los datos para cumplir los supuestos estadsticos especficos de muchas tcnicas multivariantes. (1) EXMEN GRFICO DE LOS DATOS. LA NATURALEZA DE LA VARIABLE: ANLISIS DE LA FORMA DE LA DISTRIBUCIN. Utilice histogramas, diagramas de tallos y hojas, grficos de caja. Histograma de la Longitud Total de Yacars Diagrama de Caja de la Longitud Total de las Yacars

comando SPSS: Graphs/Histogram/Display normal curve

Graphs/Boxplot/simple/summaries for separate variables

Diagrama de Tallo y Hojas de la Longitud Total de Yacars Frequency Stem & Leaf (=<72) 33 8 2 5 04 8 11224 5 0134 578999 44 56

1.00 Extremes 2.00 9 . 1.00 9 . 1.00 10 . 1.00 10 . 2.00 11 . 1.00 11 . 5.00 12 . 1.00 12 . 4.00 13 . 6.00 13 . 2.00 14 . 2.00 14 . Stem width: Each leaf:

10 1 case(s)

Comando SPSS: Analyze/Descriptive Statistics/Explore/plots/Steam-and-leaf

12

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II

ANLISIS DE RELACIN ENTRE VARIABLES. Utilice diagramas de dispersin. Las variables pueden ser valores observados, esperados o residuos. Grfico 1: Relacin bivariada entre valores observados para medidas de mandbulas de Yacar

Comando SPSS: Graphs/Scatter/Matrix/Define/Options/exclude cases variable by variable

13

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


Correlaciones bivariadas de medidas de mandbula de Yacar
1m 1m Correlacin de Pearson Sig. (2-tailed) 2m Correlacin de Pearson Sig. (2-tailed) 3m Correlacin de Pearson Sig. (2-tailed) 4m Correlacin de Pearson Sig. (2-tailed) 5m Correlacin de Pearson Sig. (2-tailed) 6m Correlacin de Pearson Sig. (2-tailed) 7m Correlacin de Pearson Sig. (2-tailed) 8m Correlacin de Pearson Sig. (2-tailed) 9m Correlacin de Pearson Sig. (2-tailed) 1.000 . .995(**) .000 .323(*) .042 .755(**) .000 .753(**) .000 .917(**) .000 .942(**) .000 .923(**) .000 .911(**) .000 2m .995(**) .000 1.000 . .236 .137 .753(**) .000 .758(**) .000 .912(**) .000 .936(**) .000 .929(**) .000 .900(**) .000 3m .323(*) .042 .236 .137 1.000 . .148 .362 .053 .741 .324(*) .039 .279 .067 .206 .197 .183 .245 4m .755(**) .000 .753(**) .000 .148 .362 1.000 . .957(**) .000 .643(**) .000 .655(**) .000 .672(**) .000 .648(**) .000 5m .753(**) .000 .758(**) .000 .053 .741 .957(**) .000 1.000 . .654(**) .000 .653(**) .000 .688(**) .000 .683(**) .000 6m .917(**) .000 .912(**) .000 .324(*) .039 .643(**) .000 .654(**) .000 1.000 . .935(**) .000 .827(**) .000 .801(**) .000 7m .942(**) .000 .936(**) .000 .279 .067 .655(**) .000 .653(**) .000 .935(**) .000 1.000 . .858(**) .000 .829(**) .000 8m .923(**) .000 .929(**) .000 .206 .197 .672(**) .000 .688(**) .000 .827(**) .000 .858(**) .000 1.000 . .969(**) .000 9m .911(**) .000 .900(**) .000 .183 .245 .648(**) .000 .683(**) .000 .801(**) .000 .829(**) .000 .969(**) .000 1.000 .

** Correlaciones significativas al 0.01 (dos colas) * Correlaciones significativas al 0.05 (dos colas)

Comando SPSS: Analyze/Correlate/Bivariate/Pearson (o Spearman)/Two Tailed

DATOS AUSENTES. El primer paso al enfrentarse al problema de los datos ausentes consiste en determinar las razones de esta ausencia para luego seleccionar el curso de accin apropiado. Un proceso de datos ausentes constituye un evento sistemtico externo que no tiene que ver con el material experimental (ya sea un encuestado, un animal, un vegetal, etc.). stos procesos suelen ser conocidos y por lo tanto pueden ser tenidos en cuenta en el plan de investigacin. Por ejemplo, si se van a relevar opiniones, actitudes, satisfactores, necesidades, etc, de personas e interesa la poblacin en general, seleccionando una cuota de encuestados de un conglomerado geogrfico, es probable que en determinados lugares y/o horarios algunas personas con determinadas caractersticas se encuentren con menor frecuencia varones en su hogar en horarios de trabajo, jvenes en edad escolar en horario de clases, etc.-. 14
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


Otros procesos internos, tpicos del material experimental suelen ser desconocidos. Se hace necesario entonces que el analista identifique el patrn que caracteriza esas ausencias. Se plantean dos cuestiones: (1) estn los datos ausentes distribuidos aleatoriamente entre las observaciones o se pueden identificar pautas de comportamiento?; (2) en que medidas son relevantes? El impacto de los datos ausentes es perjudicial no slo por sus potenciales sesgos escondidos sino tambin por su efecto en el tamao de la muestra disponible para el anlisis. As es que sino se soluciona la ausencia de datos, ninguna observacin con datos ausentes sobre cualquiera de las variables ser incluida en el anlisis. En casos de muestras multivariadas este problema adquiere una marcada importancia y una muestra que en principio resultaba de tamao adecuado, con los datos ausentes se reduce a una inadecuada. En esas situaciones el analista debe buscar observaciones adicionales o encontrar una solucin a la ausencia de datos en la muestra original. Al iniciar el anlisis de los datos ausentes en la muestra, tener en cuenta: a. la identificacin de variables con alta proporcin de datos ausentes. b. la identificacin de casos con alta proporcin de datos ausentes. c. la identificacin de la proporcin de datos ausentes en el total. La solucin directa -y trivial- es la eliminacin de variables y casos con un gran nmero de datos ausentes. Una manera de comenzar este anlisis es realizar una tabla de casos y variables en donde se identifique aquellos datos ausentes y an valores extremos presentes. A continuacin se presenta esta tabla para el caso de medidas de mandbula de Yacars:

15

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


Ejemplo:
Modelo de Valores perdidos y Alejados (solo casos con valores perdidos) N de Valores Perdidos Modelo de Valores Perdidos y Alejados(a) % de Valores Perdidos V42 11.1 11.1 33.3 33.3 22.2 44.4 44.4 44.4 100.0 100.0 100.0 + S S S S S S S S S S S S S S S S S V46 V48 S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S S V44 V41 V40 V47 V45 V43 S

Caso

11 12 15 17 29 22 19 44 43 40 47

1 1 3 3 2 4 4 4 9 9 9

- indica un valor alejado bajo, + indica un valor alejado alto. El rango usado es (Q1 - 1.5*IQR, Q3 + 1.5*IQR). a. Los casos y variables estn ordenados por modelo de valores perdidos

Comando SPSS: Analyze/Missing values analysis/Patterns/cases with missing values, sorted by missing value patterns

En la tabla anterior se puede observar que los casos 40, 43 y 47 no cuentan con medidas para las variables incluidas en la medicin. De esta manera su eliminacin producira un aumento de cobertura en la muestra. Estos tres casos representan el 6,4% de la muestra. Por lo tanto el nivel de cobertura resulta ser 94,6%. Convendra asimismo revisar el material experimental correspondiente a los casos 22, 19 y 44, ya que presentan datos ausentes para las variables 40, 43, 45 y 47. El anlisis debe tener en cuenta la definicin de estas variables. No se observan modelos de comportamiento que asocien valores extremos y datos ausentes, excepto para la variable 45 para la que con singularidad de los casos 15, 17 y 29, resulta que presenta datos ausentes y la mayor proporcin de valores alejados bajos. En definitiva, hemos encontrado en tres casos alta proporcin de datos ausentes. El porcentaje de datos ausentes sobre el total no es significativo; si lo es -para las variables 40, 43, 45 y 47- la proporcin de casos ausentes por variable, esto no se puede solucionar eliminando los casos 40, 43 y 47. No se observan ganancias en la cobertura de la muestra si se eliminan variables excepto quizs en el caso de la variable 43 que cuenta con 7 datos ausentes sobre un total de 11 casos con algn valor perdido. Soluciones ms sofisticadas para el tratamiento de datos ausentes se intentarn posteriormente.

16

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II

Tabla de Modelo de Valores Perdidos Nmero de casos correspondiente con el modelo 36 1 1 2 1 3 3 X X X X X X X X X X X X X X X X X X X X Modelo de Valores Perdidos(a) V42 V46 V48 V44 V41 V40 V47 V45 V43 N de Casos(b)

36 37 37 39 37 40 47

a Las variables estn ordenadas por cantidad de valores perdidos b El nmero de casos completos se cuenta de acuerdo al modelo de valores perdidos que corresponde a la izquierda -en el cuerpo de la tabla-

Comando SPSS: Analyze/Missing values analysis/Patterns/Tabulated cases

grouped by missing value patterns

Esta tabla se complementa con la anterior y nos muestra columna a la derecha- el nmero de casos que quedara si se incluye el modelo de valores ausentes que corresponde al cuerpo de la tabla. De esta manera, por ejemplo, si decidiramos incluir casos con el modelo de tres datos ausentes (en rojo en la tabla), tendramos un total de 39 datos incluidos en la muestra teniendo en cuenta los 36 casos completos para las variables analizadas-.

CLASIFICACIN DE LOS DATOS AUSENTES. Segn la causa que origina el modelo de datos ausentes estos se pueden clasificar en: (a) Datos prescindibles: corresponde a aquellos que se presentan en forma aleatoria. Un ejemplo de estos seran las observaciones no seleccionadas para el estudio, de tal manera que la muestra probabilstica utilizada provea informacin suficiente para generalizar resultados que las representen. Un caso especial de datos prescindibles son los llamados Datos Censurados: corresponden a observaciones incompletas como consecuencia de su naturaleza en el proceso de relevamiento de datos. Un ejemplo se dara en un estudio sobre causas de fallecimiento. All se produce un sesgo para con aquellos encuestados que todava estn vivos y que obviamente no pueden citar causas de fallecimiento de si mismos. Otro caso se dara cuando se analizan longitudes de animales de una especie determinada sin tener en cuenta edad o estadio de desarrollo de los ejemplares, esto es, seleccionndolos por el tamao a la vista, pues se supone asociado con la edad o estadio de desarrollo cuando lo que se busca es generalizar para 17
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


cualquier estadio de desarrollo-; todos ellos pueden ser solucionados mediante mtodos especializados tales como el anlisis de la historia o regularidad del evento. (b) Datos ausentes por factores de procedimiento: corresponde a errores en la entrada de datos, restricciones de representatividad inclusin errnea del elemento experimental o exclusin de sectores representativos-, fallas al completar el cuestionario o mortandad del encuestado. En esos ltimos casos el analista no tiene poder sobre la causa mientras la misma no siga un patrn aleatorio. El error en la entrada de datos puede ser corregido si se cuenta con otro registro preliminar de los datos. Mientras los datos ausentes sigan un patrn aleatorio, pueden existir soluciones para mitigar sus efectos. Cmo se identifica un proceso aleatorio en los datos ausentes? Supongamos que se observan dos variables X e Y. Supongamos que X no tiene datos perdidos, mientras que Y tiene algunos. En ese caso los datos ausentes correspondern a un proceso aleatorio si los valores ausentes de Y dependen de X pero no de Y. Quiere decir que los valores observados de Y representan una muestra de los valores reales de Y para cada valor de X, pero los datos observados para Y no representan necesariamente una muestra verdaderamente aleatoria para todos los valores de Y. Por ejemplo supongamos que la variable X sea el sexo de los yacars, y la variable Y cierta medida de su mandbula. Supongamos que encontramos que los datos ausentes son aleatorios para ambos sexos sin distincin-, pero ocurren con mayor frecuencia entre los machos. En este caso podr haber aleatoriedad en los datos ausentes sin embargo la inferencia an no es posible. Lo ser cuando la proporcin de datos ausentes sea la misma para hembras y machos, independientemente si el tamao total de la muestra de yacars permite la inferencia por sexo segn la medida Y. Cuando el proceso aleatorio se d de manera que la inferencia sea posible para (X,Y) y no para Y nicamente, se denominar Proceso Aleatorio. Cuando el proceso aleatorio de datos ausentes determine la posibilidad de la inferencia tambin para Y independientemente de X- el proceso se denominar completamente aleatorio. Este sera el caso en que la proporcin para machos y hembras de la medida de mandbula analizada sea la misma.

18

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


DIAGNSTICO DE ALEATORIEDAD El primer mtodo consiste en comparar mediante un test de proporciones de la diferencia entre la proporcin de datos presentes y ausentes, respecto a otra variable categrica. Por ejemplo, comparar la proporcin de machos y hembras entre los de datos ausentes y presentes en cada una de las variables que miden longitudes de mandbulas de yacar. Este procedimiento se debe repetir para cada variable incluida en el anlisis. El no rechazo de la hiptesis de nulidad proporciones iguales- implicara un proceso aleatorio. Si en cambio se rechaza la hiptesis de nulidad ocurrir que habr mayor proporcin de datos ausentes entre machos que entre hembras, o recprocamente. Este mtodo es muy tedioso y no est disponible en SPSS. Es similar al test chi cuadrado que se utilizar seguidamente. El segundo mtodo consiste en medir la correlacin bivariada 1: datos presentes, 0: datos ausentes- para cada variable. Bajos niveles de correlacin implicaran un proceso aleatorio. Seguidamente se utiliza el Test Chi Cuadrado para evaluar la correlacin entre Sexo y V40 medida de mandbula-:
Distribucin de frecuencias entre SEXO y DATOS AUSENTES (Variable 40) Datos Ausentes V40 Total Ausente 0 Cantidad % of Total SEXO Hembras Cantidad % of Total Machos Cantidad % of Total Total Cantidad % of Total 1 2.1% 2 4.3% 4 8.5% 7 14.9% Completo 12 25.5% 12 25.5% 16 34.0% 40 85.1% 13 27.7% 14 29.8% 20 42.6% 47 100.0%

Test Chi-Cuadrado (A) Valor Pearson Chi-Square N casos vlidos .947(a) 47 df 2 Sig. Asinttica (2 colas) .623

a. 3 celdas (50.0%) tienen un valor esperado menor que 5. El mnimo valor esperado es 1,94.

Comando SPSS: Analyze/Crosstabs/Statistics/Chi_ Square

19

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


Puede observarse que la correlacin chi cuadrado resulta no significativa, esto es no puede rechazarse la hiptesis nula que establece la independencia entre las categoras de las dos variables: sexo y datos ausentes V40. Sin embargo el test no puede ser finalmente tenido en cuenta en el ejemplo- pues est establecido que no ms del 20% de la celdas deben tener una frecuencia esperada menor que 5, y en este caso el 50% de las celdas lo tiene, para que sea vlida su aplicacin. Finalmente, este procedimiento se debe aplicar variable por variable. Si todos los test resultan no significativos, entonces los datos ausentes son completamente aleatorios. Si en cambio algunos son significativos, entonces los datos ausentes son aleatorios. El tercer mtodo es un test conjunto de aleatoriedad. Este test analiza el patrn de datos ausentes sobre todas las variables y las compara con el patrn esperado para un proceso de datos ausentes aleatorio. Si no se encuentran diferencias significativas, los datos ausentes pueden ser clasificados como completamente aleatorios. Este test es el chi-cuadrado mostrado en la salida (A) pg. 17-. OJO, TEST DE LITTLE. TRATAMIENTO DE DATOS AUSENTES Procedimientos Supresin de casos y variables (b) Aleatorio o No Aleatorio Procedimientos basados en el modelo (i) Procedimientos Tipo de proceso Aproximacin de casos completos (a) enfoque de disponibilidad completa (c) Sustitucin de caso (d) Mtodos de Imputacin Sustitucin por la media (e) (Var. Mtricas) Sustitucin por constante (f) Imputacin por regresin (g) Imputacin Mltiple (h)

Completamente Aleatorio

(a) Aproximacin de casos completos: Consiste en utilizar la opcin especfica en el software estadstico. En SPSS al abrir el cuadro de dilogo de cualquier mtodo de anlisis aparecer el 20
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


men opciones, dentro de l se deber marcar la opcin exclude cases listwise. El peligro que se corre consiste en reducir el tamao de la muestra hasta un nivel en que la generalizacin ya no es posible. (b) Supresin de casos y/o variables: Consiste en la supresin de casos y/o variables que peor se comportan respecto a los datos ausentes que presentan. Aqu es el investigador el que analiza cada caso y variable para determinar la cantidad de datos ausentes en cada uno de ellos, y eventualmente los elimina del archivo de datos. La decisin sobre su aplicacin se basa exclusivamente en consideraciones empricas y tericas relacionadas a la ventaja en la reduccin del nmero de datos ausentes que se logre y la prdida de informacin que sobrevendr. Una orientacin posible para tomar la decisin mencionada consiste en tener en cuenta si la variable que se elimina es dependiente o independiente. En el primer caso no debe dudarse en eliminarla siempre que no sea la nica-, debido a que cualquier mtodo de sustitucin de los datos ausentes que se pretenda aplicar sobre ella, puede generar un aumento artificial en el poder explicativo del anlisis que luego se realice. Si la variable es independiente se deber analizar si existe otra variable explicativa con tanto o igual valor explicativo que la variable que se pretende eliminar. (c) enfoque de disponibilidad completa: Utilizado fundamentalmente en el caso de estimar correlaciones y cuando se intenta maximizar la informacin disponible en la muestra. Bsicamente lo que se suceder es que, si se intenta establecer la correlacin muestral entre dos variables mtricas X e Y, cualquier caso ausente en una de las dos variables provocar la eliminacin de su observacin pareada para la otra variable. El comando especfico en SPSS es exclude cases Pairwise. Su aplicacin debe realizarse teniendo en cuenta que los resultados estadsticos logrados estimaciones- presentan varios problemas que no se describen atendiendo a los conocimientos previos de los alumnos y la complejidad matemtica de los mismos-. (d) Sustitucin de caso: Consiste en reemplazar un caso que por ejemplo no haya sido cubierto, por otro con caractersticas similares que no haya sido incluido originalmente en la muestra al azar. El procedimiento presenta el problema de no ajustarse especficamente a las leyes del azar. (e) Sustitucin por la media: Consiste en reemplazar los datos ausentes de una variable por el promedio calculado con los datos restantes. El comando especfico se puede encontrar en SPSS en varios mens, por ejemplo en el men Transform/Replace missing values/Series Mean o en mens para mtodos especficos Analyze/Regresin/Linear/Options/Replace with mean. Una variante de este procedimiento es considerar la media slo de los valores ms cercanos al dato ausente, 21 en SPSS Transform/Replace missing values/Mean of nearby points, o

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


Transform/Replace missing values/Median of nearby points, este ltimo en vez de utilizar la media aritmtica, utiliza la mediana de los valores ms cercanos. Este procedimiento acarrea tres problemas: se invalidan las estimaciones de la varianza de la variable, la distribucin de frecuencias real de la variable se presentar distorsionada y, se modifican las correlaciones que se estimen debido al uso de valores constantes media o mediana-. (f) Sustitucin por valor constante: Consiste en reemplazar los datos ausentes en una variable por un valor estimado que haya sido relevado en otro momento y que est convenientemente aceptado. En otras palabras, que posea validez terica previa. (g) Imputacin por regresin: Consiste en reemplazar los datos ausentes de una variable Y por estimados puntuales, producto de un modelo estimado por el mtodo de regresin, el que relaciona la variable Y con otra cualquiera presente en la base de datos a la que llamaremos X. Para ello es necesario encontrar la variable X que presente una alta correlacin con la variable Y. El mtodo presenta la ventaja de utilizar las relaciones ya existentes en la muestra como base para la prediccin del dato ausente. Tambin presenta varias desventajas: (1) refuerza las relaciones ya existentes es decir, puede suponerse que si los datos ausentes estuvieran presentes, entonces las relaciones entre las variables podran ser de otra naturaleza-, (2) el mtodo subestima la varianza de la distribucin de probabilidades verdadera de la variable para la cual se estiman los datos ausentes, (3) debe existir en la base de datos una variable con alta correlacin con aquella para la que se van a estimar los datos ausentes, si no la hay, ser preferible utilizar otro mtodo de imputacin, (4) puede ser que la variable para la que se van a estimar los datos ausentes sea una variable acotada, por ejemplo: la escala de calificaciones de 1 a 10 puntos, en ese caso puede suceder que la regresin estime un dato ausente fuera del rango, por ejemplo: 11. Una variante en SPSS consiste en realizar la regresin de la variable con datos ausentes -previamente ordenados los valores muestrales- con una variable tipo index que asigna un 1 al menor valor, un 2 al segundo, y as sucesivamente. Comando SPSS: Transform/Replace missing values/Linear trend at point1. (h) Imputacin mltiple: Consiste en estimar el dato ausente por dos o varios de los mtodos presentados, y luego producir una estimacin que sea promedio de las logradas. El mtodo de reemplazo se fundamenta suponiendo que un promedio de este tipo minimizar los problemas que presenta cada mtodo individualmente. (i) Procedimientos basados en el modelo: Se utiliza exclusivamente cuando el patrn de comportamiento de los datos ausentes es slo aleatorio o no aleatorios. Consiste en un
SPSS tambin presenta otra opcin de reemplazo: Transform/Replace missing values/Linear interpolation, consiste en estimar el dato ausente mediante una interpolacin lineal (regla de tres simple) utilizando el dato anterior y el posterior al dato ausente previamente ordenado el lote de datos-. Si el primero o el ltimo valor del lote son a su vez datos ausentes, no se los reemplaza.
1

22

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


conjunto de procedimientos especficos diseados para la estimacin de datos ausentes cuando se va a aplicar un mtodo de anlisis multivariante, o bien forma parte, propiamente dicho, del mtodo de anlisis multivariante que se aplica. En general, todos los mtodos multivariantes en SPSS utilizarn las opciones de estimacin de datos ausentes denominadas: listwise y pairwise, o mean. Claro que la manera en que cada procedimiento de reemplazo se realiza es especfico al mtodo multivariante que se utilizar. Otra forma de abordar el problema consiste en definir en cada variable un subconjunto o categora con los propios datos ausentes, y luego producir un anlisis especfico aplicando el mismo mtodo multivariante que para el resto de los datos y variables-, a fin de obtener conclusiones respecto al comportamiento de una variable dependiente frente a los datos ausentes. Por ello este mtodo es til cuando est presente por lo menos una variable dependiente y variables independientes, y el problema se presenta en estas ltimas. En ese caso se crean variables llamadas ficticias (dummys en ingls) que asignan un 1 al dato presente y un 0 al dato ausente; esta variable permitir realizar una seleccin de casos presentes o ausentes a fin de aplicar luego el mtodo multivariante especfico con todas las variables independientes. Obviamente, la comparacin entre los resultados para el subconjunto de datos presentes y el correspondiente a los datos ausentes, nos mostrar de que manera estos ltimos afectan las conclusiones del anlisis. Otro mtodo es el denominado EM (estimacin mximo verosmil). EJEMPLO DE DIAGNSTICO, ALEATORIEDAD Y SOLUCIN DE DATOS AUSENTES y EXTREMOS: Se retoma el problema de las medidas de mandbula de Yacars que se ha venido utilizando en las secciones anteriores. Ahora para mostrar el procedimiento completo de tratamiento de datos ausentes. layer Paso 1: Examen de las muestras de datos ausentes. Comando SPSS: Analyze/Reports/Olap Cubes/Statistics Complementariamente se ha elegido una variable categrica debe elegirse una necesariamenteen este caso SEXO2, para determinar los primeros comportamientos de datos ausentes para cada variable de medida de mandbula por sexo (macho (2), hembra (1) o sin identificar (0)). Al abrir el men Statistics se deber elegir el tipo de medida resumen que se pretende para cada variable. En este caso se eligieron: total de casos N, media, suma, desvo estndar y porcentaje sobre el total de datos y la suma.
2

Tanto en este paso como en los que siguen puede utilizarse la opcin SPSS Data/Split File/Compare groups (o Organize output for groups). La ventaja de este comando con respecto al que se presentar aqu consiste en que todas las salidas o resultados se presentarn para cada una de las categoras de la variable SEXO automticamente. Prof. Titular Roberto Delfor Meyer 23 Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


Resmen de casos Completos (included) Ausentes (excluded) Variables 1m 2m 3m 4m 5m 6m Total 40 41 44 40 41 41 % 85.1% 87.2% 93.6% 85.1% 87.2% 87.2% Total 7 6 3 7 6 6 % 14.9% 12.8% 6.4% 14.9% 12.8% 12.8% Total Total %

47 100.0% 47 100.0% 47 100.0% 47 100.0% 47 100.0% 47 100.0%

Se observa que la variable mas completa es la 3m. Las dems presentan entre 6 y 7 datos ausentes. Se deber verificar si estos 6 o 7 casos son los mismos para cada variable, en cuyo caso se puede proceder a su eliminacin. Conviene, si ese fuera el caso, analizar luego si los 6 o 7 casos poseen un patrn aleatorio o no aleatorio, o en todo caso completamente aleatorio. Se completa el paso 1 con la presentacin de las medidas descriptivas por sexo y total de ejemplares:
Medidas Descriptivas SEXO Medidas N Mean 0 Sum Std. Deviation % of Total N N Mean 1 Sum Std. Deviation % of Total N N Mean 2 Sum Std. Deviation % of Total N N Mean Total Sum Std. Deviation % of Total N 1m 12 215.2042 2582.45 21.2571 30.0% 12 226.7708 2721.25 6.7463 30.0% 16 222.9088 3566.54 9.6994 40.0% 40 221.7560 8870.24 14.0698 100.0% 2m 11 215.023 2365.3 23.283 26.8% 14 226.826 3175.6 7.035 34.1% 16 222.459 3559.3 10.313 39.0% 41 221.955 9100.2 14.599 100.0% 3m 13 13.577 176.5 2.130 29.5% 14 14.203 198.8 .804 31.8% 17 15.827 269.1 3.181 38.6% 44 14.645 644.4 2.487 100.0% 4m 12 84.2183 1010.62 7.3554 30.0% 12 87.8333 1054.00 4.0862 30.0% 16 86.4656 1383.45 5.3423 40.0% 40 86.2017 3448.07 5.7449 100.0% 5m 12 83.5025 1002.03 8.0441 29.3% 14 87.2986 1222.18 4.6905 34.1% 15 86.8187 1302.28 5.0133 36.6% 41 86.0120 3526.49 6.0377 100.0% 6m 13 114.6538 1490.50 9.2331 31.7% 12 120.3233 1443.88 4.4547 29.3% 16 116.7394 1867.83 4.8620 39.0% 41 117.1271 4802.21 6.7089 100.0%

24

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II

Los ltimos resultados nos permiten conocer los tamaos muestrales y medidas descriptivas para cada categora de la variable sexo. Estos tamaos muestrales se utilizarn para conocer si existe alguna relacin, para alguna variable, entre datos ausentes y sexo de los ejemplares. Paso 2: Representacin grfica del patrn de datos ausentes por caso y variable. Resumen de casos ausentes y valores alejados (extremos) por variable:
Medidas y extremos Valores presentes M40 M41 M42 M43 M44 M45 SEXO 40 41 44 40 41 41 47 ausentes cantidad 7 6 3 7 6 6 0 % 14.9 12.8 6.4 14.9 12.8 12.8 .0 No. de valores alejados(a) bajos 3 3 1 1 1 3 altos 0 0 4 0 0 1

a Numero de casos fuera del rango (Q1 - 1.5*IQR, Q3 + 1.5*IQR).

Representacin grfica de los patrones de datos ausentes:


Patrn de datos ausentes (casos con valores ausentes) Patrones de datos ausentes y valores extremos(a) Caso N de ausentes % Datos Ausentes SEXO 1 1 2 2 2 3 3 3 6 6 6 14.3 14.3 28.6 28.6 28.6 42.9 42.9 42.9 85.7 85.7 85.7 + S S S S S S S S S S S S S S S S S S S S S S S S M42 M41 S S S S S S S S S S M44 M45 M43 S M40 -

11 12 15 17 29 22 19 44 43 40 47

El signo (-) indica un valor extremos bajo, (+) indica valor extremo alto. a Casos y variables son ordenados por patrn de valores ausentes

25

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


El objetivo en este paso es identificar si la eliminacin de casos puede ser una solucin a la presencia de datos ausentes. Como se expres en las secciones anteriores, los casos 40, 43 y 47 tienen un total de 6 datos ausentes, es decir que no se han podido medir ninguna de las variables mandbula. Conviene obviamente eliminarlos. Habr que seguir analizado los casos 19, 22 y 44 ya que no han podido relevarse 3 de las variables (y son las mismas para los tres casos), es decir el 50% de la evidencia emprica que se propona a priori. Repeticin del patrn de datos ausentes:
Tabulacin de Patrones de datos ausentes Patrones de datos ausentes(a) Completo en ...(b) Numero de casos 36 1 1 2 1 3 3 X X X X X X X X X X X X X X X SEXO M42 M41 M44 M45 M43 M40 36 37 37 39 37 40 47

Los Patrones con menos de 1% de datos ausentes no son desplegados a Las variables son ordenadas por patrn de datos ausentes b El nmero de casos completos de variables con datos asentes en el patrn (marcados con X) no son usados

Los patrones ms frecuentes son los que se presentan para los datos ausentes de M45, M43 y M40; y para los datos ausentes en M42, M41, M44, M45, M43 y M40. Esto indica que hay un patrn de datos ausentes que se repite para tres variables, y otro que se repite para todas las variables. Esto es coincidente con lo observado en el grfico anterior. Esto sugiere que existen dos patrones de datos ausentes subyacentes. Correspondera a esta altura eliminar los casos que se detectaron anteriormente y luego graficar nuevamente para observar si se ha solucionado el problema. No lo haremos por ahora slo por propsitos didcticos a fin de realizar el diagnstico de aleatoriedad y demostrar que sta no existe en los datos ausentes. Paso 3: Diagnstico de la aleatoriedad de los datos ausentes. Recordemos que se proponen tres procedimientos para analizar la aleatoriedad de los datos ausentes: (a) el test de proporciones entre una variable agrupada en dos grupos se codifica 26
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


con 0 el dato ausente, y con 1 el dato vlido- contra todas las dems, y as para todas las variables. (b) Correlaciones entre pares de variables dicotmicas agrupados los datos en cada variable como en (a)-. Correlaciones bajas indican una baja asociacin entre los procesos de ausencia de datos para el par de variables. (c) El test conjunto de datos ausentes para comprobar que la ausencia de datos es completamente aleatoria. Cmo se preparan en SPSS las variables dicotmicas Datos ausentes-Datos vlidos? 1) Comado SPSS: Transform/Recode/Into different variables/Numeric variable variable/name/change. Este primer comando del proceso posibilita crear una nueva variable. La nueva variable se nombrar en el siguiente cuadro de dilogo en donde primero se elegir la variable a ser recodificada y luego se colocar el nombre de la nueva variable. En nuestro ejemplo se recodifica, en primer lugar la variable 2m(rtulo m41) y se le asigna el nombre man41ale. 2) Comando SPSS: Old and new values/Old value/System-missing/New value=0/Old Value/All other values/New value=1. Este es el siguiente comando. En el mismo cuadro de dilogo donde dejamos en el paso 1, elegimos la opcin Old and new values para determinar cules son los valores o cdigos que queremos que tenga la nueva variable, y que estn seleccionados con valores o rangos de valores de la vieja variable. La variable m41 que estamos recodificando tiene valores en cm o datos ausentes cuya forma de presentacin en la base de datos es la celda en blanco, asignada por defecto por el sistema. Nuestro procedimiento de recodificacin ser de la siguiente manera: Old value (valor presente) System-missing (valor por defecto asignado por el sistema a los datos ausentes) New value (nuevo valor) 0 add (asignar a la celda en blanco dato ausente en la vieja variable-, el valor 0. Old value All other values (todos los otros valores, en nuestra variable son los datos vlidos) New value 1 add (asignar a la celda con dato vlido, el valor 1) Este procedimiento se repite para todas las variables. 27
Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

Output

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II

Procedimiento (a): segn el procedimiento (a) descripto, ahora se comparan mediante un test t todas las variables cuantitativas m40, m41,.....m47. En todos los test t se debe observar el dato de la probabilidad de las dos colas del test llamada valor p . Si ese valor es menor que el 5% por ejemplo, entonces el test t demuestra evidencia estadstica de medias distintas entre los datos correspondientes a vlidos y ausentes de la variable utilizada. Comando SPSS: Analyze/Missing value analyze/

Test t para varianzas distintas(a) M40 t df P(2-tail) M40 # Present # Missing Mean(Present) Mean(Missing) t df P(2-tail) M41 # Present # Missing Mean(Present) Mean(Missing) t df P(2-tail) M42 # Present # Missing Mean(Present) Mean(Missing) t df P(2-tail) M43 # Present # Missing Mean(Present) Mean(Missing) . . . 40 0 221.7560 . -.4 8.8 .681 38 2 221.6958 222.9000 . . . 40 0 221.7560 . . . . 39 1 222.7410 . M41 -.4 2.5 .724 38 3 221.733 224.763 . . . 41 0 221.955 . . . . 41 0 221.955 . .7 3.2 .521 37 4 222.793 214.202 M42 -.6 3.2 .568 40 4 14.521 15.887 .1 3.1 .942 41 3 14.650 14.580 . . . 44 0 14.645 . -.3 3.1 .811 40 4 14.586 15.237 M43 . . . 39 1 86.2428 . .5 7.5 .625 37 3 86.2549 85.5467 . . . 40 0 86.2017 . . . . 40 0 86.2017 . M44 .8 4.4 .445 37 4 86.2092 84.1875 . . . 40 1 86.0772 . . . . 41 0 86.0120 . 1.2 3.8 .286 37 4 86.3697 82.7025 M45 . . . 40 1 117.0828 . -.1 10.0 .955 38 3 117.1208 117.2067 . . . 41 0 117.1271 . . . . 40 1 117.6203 . M46 -.1 5.8 .920 40 4 116.8847 117.1050 -.8 5.5 .454 41 3 116.8090 118.2133 . . . 44 0 116.9048 . 1.3 3.3 .288 40 4 117.4622 111.3300 M47 . . . 40 1 49.2192 . -.9 4.5 .392 38 3 49.1339 50.2933 . . . 41 0 49.2188 . . . . 40 1 49.4718 . M48 -.6 4.3 .596 38 4 49.4547 50.4450 . . . 41 1 49.5244 . . . . 42 0 49.5490 . .6 3.3 .576 38 4 49.7326 47.8050

28

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


t df P(2-tail) M44 # Present # Missing Mean(Present) Mean(Missing) t df P(2-tail) M45 # Present # Missing Mean(Present) Mean(Missing) t df P(2-tail) M46 # Present # Missing Mean(Present) Mean(Missing) t df P(2-tail) M47 # Present # Missing Mean(Present) Mean(Missing) t df P(2-tail) M48 # Present # Missing Mean(Present) Mean(Missing) .8 2.8 .502 37 3 222.0962 217.5600 . . . 40 0 221.7560 . . . . 40 0 221.7560 . . . . 40 0 221.7560 . -.4 8.8 .681 38 2 221.6958 222.9000 . . . 40 1 222.375 . -.4 2.5 .724 38 3 221.733 224.763 . . . 41 0 221.955 . -.4 2.5 .724 38 3 221.733 224.763 . . . 41 0 221.955 . .3 2.7 .820 41 3 14.663 14.400 -.9 2.1 .470 41 3 14.484 16.850 . . . 44 0 14.645 . -.9 2.1 .470 41 3 14.484 16.850 -1.8 33.8 .075 42 2 14.611 15.370 1.0 2.6 .393 37 3 86.4041 83.7067 . . . 40 0 86.2017 . . . . 40 0 86.2017 . . . . 40 0 86.2017 . .1 2.0 .924 38 2 86.2113 86.0200 . . . 41 0 86.0120 . .5 2.4 .645 38 3 86.1353 84.4500 . . . 41 0 86.0120 . .5 2.4 .645 38 3 86.1353 84.4500 . . . 41 0 86.0120 . 1.3 2.5 .312 38 3 117.4287 113.3067 . . . 41 0 117.1271 . . . . 41 0 117.1271 . . . . 41 0 117.1271 . .6 6.9 .579 39 2 117.1664 116.3600 1.0 2.7 .410 41 3 117.1051 114.1667 .5 3.7 .640 41 3 116.9793 115.8867 . . . 44 0 116.9048 . .5 3.7 .640 41 3 116.9793 115.8867 .0 8.4 .978 42 2 116.9031 116.9400 .2 2.5 .887 38 3 49.2445 48.8933 . . . 41 0 49.2188 . . . . 41 0 49.2188 . . . . 41 0 49.2188 . -1.1 1.5 .427 39 2 49.1356 50.8400 . . . 41 1 49.5385 . -.4 2.4 .725 39 3 49.4831 50.4067 . . . 42 0 49.5490 . -.4 2.4 .725 39 3 49.4831 50.4067 . . . 42 0 49.5490 .

Cada variable cuantitativa es dividida en dos grupos: datos vlidos y ausentes, para la comparacin de sus medias. a.- las variables con menos del 5% de los datos ausentes no son mostradas

29

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II

Obsrvese que sin necesidad de analizar el test de Levene para igualdad de variancias, a fin de determinar si las variancias son o no iguales entre las categoras vlidos vs. ausentes, la fila Sig. (2tailed) valor p-

no muestra valores iguales o menores al 5%. Esto significa que en ningn caso se

puede rechazar la hiptesis nula que dice en este caso las medias de datos vlidos y las medias de datos ausentes son iguales. Si algunos de los test t resultaran significativos, esto indicara que para algn par de variables, el patrn de datos ausentes de otra variable afecta los resultados promedios, y por lo tanto no son un efectos aleatorios. En general si algunos test son significativos y otros no, el patrn de datos ausentes es aleatorio. Si todos son no significativos, el patrn de datos ausentes es completamente aleatorio. Procedimiento (b): Analyze/Correlate/Bivariate/Pearson Este comando produce una tabla de doble entrada con los valores de correlacin y su test respectivo. As, si por ejemplo, las variables MAN40ALE y MAN43ALE tienen una correlacin muestral de 0,832, es decir un valor alto, y una significacin o valor p- de 0,000 < 0,01 o 0,05 (es decir, una significacin menor al 1% o 5%), entonces estas dos variables estn correlacionadas y por lo tanto sus patrones de datos ausentes son similares, o sea no aleatorios. De nuevo, si todas las variables presentan correlacin alta significativa, entonces el patrn es no aleatorio, si en cambio slo algunas correlaciones son significativas y altas, entonces el patrn es aleatorio, y finalmente si ninguna correlacin es alta ni moderada-, aunque sean significativas, entonces el patrn es completamente aleatorio. Veamos la salida para nuestro ejemplo:

30

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II

CORRELACIONES MAN40ALE Pearson Correlation Sig. (2-tailed) MAN41ALE Pearson Correlation Sig. (2-tailed) MAN42ALE Pearson Correlation Sig. (2-tailed) MAN43ALE Pearson Correlation Sig. (2-tailed) MAN44ALE Pearson Correlation Sig. (2-tailed) MAN45ALE Pearson Correlation Sig. (2-tailed) MAN46ALE Pearson Correlation Sig. (2-tailed) MAN47ALE Pearson Correlation Sig. (2-tailed) MAN48ALE Pearson Correlation Sig. (2-tailed) 1.000 . .556(**) .000 .624(**) .000 .832(**) .000 .377(**) .009 .914(**) .000 .624(**) .000 .914(**) .000 .437(**) .002 MAN41ALE .556(**) .000 1.000 . .683(**) .000 .377(**) .009 .809(**) .000 .427(**) .003 .683(**) .000 .427(**) .003 .902(**) .000 MAN42ALE .624(**) .000 .683(**) .000 1.000 . .624(**) .000 .683(**) .000 .683(**) .000 1.000(**) .000 .683(**) .000 .757(**) .000 MAN43ALE .832(**) .000 .377(**) .009 .624(**) .000 1.000 . .377(**) .009 .914(**) .000 .624(**) .000 .914(**) .000 .437(**) .002 MAN44ALE .377(**) .009 .809(**) .000 .683(**) .000 .377(**) .009 1.000 . .427(**) .003 .683(**) .000 .427(**) .003 .902(**) .000 MAN45ALE .914(**) .000 .427(**) .003 .683(**) .000 .914(**) .000 .427(**) .003 1.000 . .683(**) .000 1.000(**) .000 .488(**) .000 MAN46ALE .624(**) .000 .683(**) .000 1.000(**) .000 .624(**) .000 .683(**) .000 .683(**) .000 1.000 . .683(**) .000 .757(**) .000 MAN47ALE .914(**) .000 .427(**) .003 .683(**) .000 .914(**) .000 .427(**) .003 1.000(**) .000 .683(**) .000 1.000 . .488(**) .000 MAN48ALE .437(**) .002 .902(**) .000 .757(**) .000 .437(**) .002 .902(**) .000 .488(**) .000 .757(**) .000 .488(**) .000 1.000 .

MAN40ALE

** Correlaciones significativas a un nivel menor al 1%

31

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

ESTADSTICA II ANLISIS PREVIO DE LOS DATOS PARTE II


Se observa que todas las correlaciones resultaron significativas, existen algunas moderadas entre 0,4 y 0,6- y otras altas mayores al 60%-. Por lo tanto, el patrn presente de datos ausentes para cada variable, cuando se lo compara con todas las dems indica la existencia de un proceso no aleatorio. Procedimiento (c): consiste en aplicar el Test de Little para comparar los datos ausentes con lo que se esperara si los datos ausentes se distribuyeran aleatoriamente. Lamentablemente este test no est presente en la versin de SPSS que utilizamos. Se lo encuentra en Analyze/Missing value analyze/Descriptives, en EM. Paso 4: Solucin para la ausencia de datos. La primera cuestin consisti en determinar el patrn de datos ausentes para casos y variables paso 1 y 2-. El segundo paso consisti en diagnosticar la aleatoriedad de los datos ausentes. Como se determin, los patrones de datos son aleatorios para los casos y no aleatorios para las variables. Por lo tanto se deben usar los procedimientos adecuados al tipo de aleatoriedad detectada. La opcin que parece ser adecuada en este caso es la supresin de casos y variables. Por lo tanto y dadas las evidencias recogidas, eliminaremos los casos 40, 43 y 47. Luego de hacerlo conviene realizar nuevamente el anlisis de los patrones de datos ausentes para comprobar los resultados logrados. Por razones de espacio no se muestra la tabla de resultados, pero como se pudo suponer, dado que el problema se present con la correlacin bivariada de variables, el problema no se soluciona dado que lo que se han eliminado son datos. Como segundo paso se eliminarn tambin las variables con patrones de datos ausentes ms comprometidas: M40, M43 y M45. Este ltima eliminacin mejora en algo las correlaciones aunque se mantienen algunas altas y significativas. Dado que la eliminacin de mas variables que parece ser lo adecuado- implicara que nos quedramos con muy pocas medidas de mandbulas, se optar por utilizar la segunda opcin o proceso de solucin para datos aleatorios o no aleatorios: procedimientos basados en el modelo multivariado elegido. Por lo tanto aqu finaliza la etapa de tratamiento de datos ausentes, se aguardar la eleccin de un mtodo multivariado para determinar el procedimiento que mejore el patrn de datos ausentes de nuestra base de datos.

32

Prof. Titular Roberto Delfor Meyer Ctedra de Estadstica

También podría gustarte