Está en la página 1de 17

2011

UNIVERSIDAD SAN MARTN DE PORRES .Arbul Bernuy Sheylla. .Asca Latorre Andrea. .Astocondor Pearrienta Carlos. .Cachi Pia Csar.

[ Anlisis Exploratorio de Datos]


La orientacin de esta labor es dar una visualizacin previa al anlisis definitivo de los datos en estudio.

Presentacin

Examinar los datos previamente a la aplicacin de cualquier tcnica estadstica es la finalidad primordial de ste estudio monogrfico, titulado Analisis Exploratorio de Datos (AED). De una forma analista se consigue el entendimiento bsico de sus datos y de las sendas relaciones existentes entre las variables realizadas.

El presente estudio nos mostrar la metodologa bsica para organizar y preparar los datos, detectar fallos en el diseo y recogida de datos, tratamiento y evaluacin de datos ausentes, identificacin de casos atpicos y comprobacin de los supuestos subyacentes en la mayor parte de las tcnicas multivariantes.

ndice I. Marco Terico Pg. 4 1. Definicin de A.E.D ---------------- Pg.4 2. Etapas del A.E.D ---------------- Pg.4 3. Preparacin de Datos --------------- Pg.5 4. Anlisis estadstico Unidimensional ------------- Pg.5 5. Estudio de la Normalidad ------------- Pg.6 6. Anlisis estadstico Bidimensional ------------- Pg.7 7. Datos atpicos (Outliers) -----------------------------------------------------------------------------________________

I.

Marco Conceptual

1. Definicin de A.E.D Es un conjunto, grupo y recopilacin de tcnicas estadsticas cuya finalidad es conseguir un entendimiento bsico de los datos y de las relaciones existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona mtodos sistemticos sencillos para organizar y preparar los datos, detectar fallos en el diseo y recogida de los mismos, tratamiento y evaluacin de datos ausentes (missing), identificacin de casos atpicos (outliers) y comprobacin de los supuestos subyacentes en la mayor parte de las tcnicas multivariantes (normalidad, linealidad, homocedasticidad).

La exanimacin de los datos es un paso previo importante, que lleva tiempo y que se suele descuidar por parte de los analistas. Las tareas implcitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier anlisis estadstico.

2. Etapas del A.E.D. Los niveles o etapas del A.E.D estn condicionados a la naturaleza del caso o casos, que pueden presentarse como variables. Las siguientes etapas son las que conviene seguir segn el estandar. 1 Preparar los datos de modo accesible a cualquier tcnica estadstica. 2 Realizar un examen grfico de la naturaleza de las variables

individuales a analizar y un anlisis descriptivo numrico que permita cuantificar algunos aspectos grficos de los datos. 3 Realizar un examen grfico de las relaciones entre las variables analizadas y un anlisis descriptivo numrico que cuantifique el grado de interrelacin existente entre ellas. 4 Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas tcnicas estadsticas como, por ejemplo, la normalidad, linealidad y homocedasticidad. 5 Sealar los posibles casos atpicos (outliers) y valorar el impacto potencial que puedan ejercer en anlisis estadsticos posteriores. 6 Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados.

3. Preparacin de los Datos

Los paquetes estadsticos son conjuntos de programas que implementan diversas tcnicas estadsticas en un entorno comn. Algunos de los ms utilizados son SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA y ltimamente MINITAB, S-PLUS, EVIEWS, STATGRAPHICS y MATLAB. La codificacin de los datos depende del tipo de variable. Los paquetes estadsticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena, numricos, nominales, ordinales y otros). Algunas operaciones tiles son las siguientes: Combinar conjuntos de datos de dos archivos distintos Seleccionar subconjuntos de los datos Dividir el archivo de los datos en varias partes Transformar variables Ordenar casos Agregar nuevos datos y/o variables Eliminar datos y/o variables

Guardar datos y/o resultados. 4. Anlisis Estadstico Unidimensional Realizaremos un anlisis estadstico grfico y numrico de las variables del problema con el fin de tener una idea inicial de la informacin contenida en el conjunto de datos as como detectar la existencia de posibles errores en la codificacin de los mismos. Este proceso a realizar depende de la escala de medida de la variable analizada. Anexo. Tabla 1(se sugieren las representaciones grficas y resmenes descriptivos numricos ms aconsejables para realizar dicho anlisis.) 1. Variables Cualitativas Los datos correspondientes a variables cualitativas se agrupan de manera natural en diferentes categoras o clases y se cuenta el nmero de datos que aparecen en cada una de ellas.

Este tipo de variable no aparece en forma numrica, sino como categoras o atributos como, por ejemplo, el sexo o la profesin de una persona. En dichas categoras puede haber un orden subyacente (variable ordinal) o no (variable Nominal). 2. Variables cuantitativas
Una primera clasificacin, basada en el tipo de valores que puede tomar, permite distinguir entre:

Variables discretas: Son frecuentemente el resultado de contar y, por tanto, toman slo valores enteros. Variables continuas: Resultan de medir y pueden contenercifras decimales. Variables continuas son aquellas cuyos valores pueden ser cualquier cantidad en un intervalo, como la temperatura, el peso o la altura de una persona o la superficie de las viviendas. 5. Estudio de la Normalidad

La hiptesis de normalidad de la variable objeto de estudio, son el encuadramiento bsico de diversos mtodos de estudio estadstico. Existen varios mtodos para evaluar la normalidad de un conjunto de datos que pueden dividirse en dos grupos: los mtodos grficos y los contrastes de hiptesis. Si la falta de normalidad de la variable es suficientemente fuerte, muchos de los contrastes utilizados en los anlisis estadsticoinferenciales no son vlidos. Incluso aunque las muestras grandes tiendan a disminuir los efectos perniciosos de la no normalidad, el investigador debera evaluar la normalidad de todas las variables incluidas en el anlisis. Mtodos grficos par ver la normalidad

Histogramas Grficos P-P Grfico QQ Plot

Contrastes de Normalidad Prueba para chi cuadrado: bondad de ajuste

Prueba de Cosmogorov Smirnov

Prueba de Shapiro Wilks

6. Anlisis estadstico Bidimensional En esta parte de nuestro estudio analizaremos la existencia de posibles relaciones entre ellas. Dicho estudio puede realizarse desde una ptica bidimensional o multidimensional. ste ltimo podra llevarse a cabo utilizando tcnicas multivariantes. Las tres situaciones generales que pueden presentarse en este caso son las siguientes: 1) Ambas variables son cualitativas:

Se utiliza una tabla de contingencia que contiene en cada casilla la correspondiente frecuencia conjunta que representa el nmero de datos que pertenecen a la modalidad J-sima de la primera variable y a la modalidad j-sima de la segunda. A partir de dicha tabla podemos estudiar si las dos variables son o no independientes. Si son independientes no existe relacin alguna entre ellas; en caso contrario analizaramos el tipo y el grado de su dependencia tanto grfica como numricamente. 2) Ambas variables son cuantitativas. La distribucin conjunta de dos variables puede expresarse

grficamente mediante un diagrama de dispersin que proporciona una buena descripcin de la relacin entre las dos variables. La relacin entre las variables tambin puede expresarse de forma numrica. Una medida de la relacin entre dos variables que resuma la informacin del grfico de dispersin y que no dependa de las unidades de medida es el coeficiente de correlacin lineal. Cuando las variables estn relacionadas linealmente de forma exacta, el coeficiente de correlacin lineal ser igual a uno en valor absoluto. Cuando las variables no estn relacionadas linealmente entre s, el coeficiente de correlacin lineal es cero. 3) Una variable es cuantitativa y la otra cualitativa. Cuando se dispone de una variable cuantitativa y otra cualitativa, el estudio se enfoca de que como la define un la problema numrica variable de en comparacin las Ignorar del la comportamiento subpoblaciones variable diferentes

cualitativa.

heterogeneidad debida a la presencia de subpoblaciones puede conducir a conclusiones equivocadas en el anlisis.

10

7. Datos Atpicos (Outliers) Este tipo de casos no pueden ser caracterizados categricamente como benficos o problemticos sino que deben ser contemplados en el contexto del anlisis y debe evaluarse el tipo de informacin que pueden proporcionar. Su principal problema radica en que son elementos que pueden no ser representativos de la poblacin pudiendo distorsionar seriamente el comportamiento de los contrastes estadsticos. Por otra parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las caractersticas de un segmento vlido de la poblacin y, por consiguiente, una seal de la falta de representatividad de la muestra. Causas Los valores atpicos pueden tener muchas causas anmalas. Un aparato de la fsica para la realizacin de medidas puede haber sufrido una avera transitoria. Puede haber habido un error en la transmisin de datos o de transcripcin. Los valores extremos se presentan debido a los cambios en el comportamiento del sistema, la conducta fraudulenta, el error humano, error del instrumento o simplemente a travs de las desviaciones en las poblaciones naturales. Una muestra puede haber sido contaminados con elementos del exterior que se examin la poblacin. Por otra parte, un valor atpico puede ser el resultado de una falla en la teora supone, para pedir una investigacin ms por el investigador. Hay tres enfoques fundamentales para el problema de la deteccin de valores extremos: Tipo 1 - Determinar los valores extremos sin conocimiento previo de los datos. Se trata esencialmente de un enfoque de aprendizaje similar a la

11

agrupacin sin supervisin. El enfoque de los procesos de los datos como una distribucin esttica, se sealan los puntos ms remotos, y las banderas como los valores extremos posibles. Tipo 2 - Modelo tanto la normalidad y la anormalidad. Este enfoque es similar a la clasificacin supervisada y requiere pre-etiquetado de datos, la categora normal o anormal. Tipo 3 - Modelo de normalidad slo (o en un modelo de anomala pocos casos). Esto es anlogo a un reconocimiento semi-supervisados o una tarea de deteccin. Se puede considerar semi-supervisados como la clase normal que se ensea, pero el algoritmo aprende a reconocer anormalidad.

8. Datos Ausentes (Missing) La ocupacin primaria del investigador debe ser determinar las razones que subyacen en el dato ausente buscando entender el proceso principal de esta ausencia para seleccionar el curso de accin ms apropiado. Los datos ausentes son algo habitual en el Anlisis Multivariante; de hecho, rara es la investigacin en la que no aparece este tipo de datos. Para ello se debe determinar cul es el proceso de datos ausentes, entendido como cualquier evento sistemtico externo al encuestado (errores en la introduccin de datos) o accin por parte del encuestado (tales como rehusar a contestar) que da lugar a la ausencia de datos. En particular, el investigador debe analizar si existe algn patrn no aleatorio en dicho proceso que pueda sesgar los resultados obtenidos debido a la prdida de representatividad de la muestra analizada. Tcnicas para ocuparse de la falta de Datos

12

Los datos que faltaban reducir la representatividad de la muestra y por lo tanto pueden distorsionar las inferencias sobre la poblacin. Si es posible, trate de pensar en cmo evitar que los datos missingness antes de la recoleccin de datos se realiza efectivamente. Por ejemplo, en los cuestionarios equipo a menudo no es posible que salte una pregunta. Una pregunta hay que responder, de lo contrario no se puede seguir a la siguiente. Por lo tanto los valores perdidos debido a la participante se eliminan por este tipo de cuestionario. Y en encuestas de investigacin, es comn para hacer mltiples esfuerzos para contactar con cada individuo en la muestra, a menudo el envo de cartas para tratar de persuadir a aquellos que no han decidido participar para cambiar su mente. Sin embargo, estas tcnicas pueden ayudar o perjudicar en trminos de reducir los efectos negativos de inferencia de los datos que faltan, ya que el tipo de personas que estn dispuestos a ser persuadidos para participar despus de negarse inicialmente o no estar en casa es probable que sean significativamente diferentes de los tipos de personas que todava se niegan o permanecer inaccesible despus de un esfuerzo adicional

Imputacin Parcial

El algoritmo de maximizacin de expectativas es un enfoque en que los valores de las estadsticas que se calcula si un conjunto completo de datos disponibles, se estima (imputado), teniendo en cuenta el patrn de datos faltantes. En este enfoque, los valores para los distintos elementos que faltan datos no suelen ser imputados.

Supresin parcial

Los mtodos que implican la reduccin de los datos disponibles para un conjunto de datos que no tienen valores que faltan son:

13

Segn lista supresin / supresin por casos (aunque una solucin ingenua) eliminacin por parejas (aunque una solucin ingenua)

Anlisis completo

Los mtodos que tengan plenamente en cuenta toda la informacin disponible, sin la distorsin resultante del uso de valores imputados como si se observaron en realidad:

El algoritmo de maximizacin de expectativas el mximo de informacin completa probabilidad de estimacin

Tipos de variables ausentes Datos ausentes prescribibles Datos ausentes no prescribibles Datos ausentes completamente aleatorios Datos ausentes no aleatorios

14

II.

Resumen y Conclusiones

Resumen: Hoy da, en el marco de la crisis de los grandes paradigmas tericos, las universidades y centros de investigacin siguen privilegiando, con marcado nfasis, los anlisis de datos que conducen a la Confirmacin de teoras o hiptesis, en contraste con un reducido inters en las herramientas estadsticas que orientan a la Exploracin de datos sobre problemas de la realidad social. sto es comn an en campos o reas relativamente nuevas o poco trabajadas por la ciencia social (Parra, 1990) . A menudo, se olvida que, en la ciencia, muchas veces es ms importante encontrar la pregunta que hallar la respuesta, lo cual apunta a la posible formulacin de enfoques diferentes a los actuales y al enriquecimiento del universo intelectual de las diversas disciplinas de lo social. Como consecuencia de lo anterior, se requiere la enseanza y empleo de ambos enfoques de anlisis de datos de investigacin: tanto el exploratorio como el confirmatorio, como medios para el avance de las ciencias sociales. Este trabajo intenta realizar un aporte en este sentido, presentando algunas de las cuestiones claves que plantea la lgica o la prctica de la investigacin cientfica y derivando de aquellas las diferencias de la Exploracin y de la Confirmacin, en especial en lo atinente Conclusiones: - Es recomendable ensear en las universidades tanto el Anlisis Exploratorio de datos como el Confirmatorio, incluso en ese orden. - La actitud ante la investigacin sera ms abierta si se enseara tambin el anlisis de los datos con la finalidad de buscar a la actitud ante el conocimiento.

15

comportamientos inusuales de los mismos y no slo para juzgar si la data se ajusta a lo planteado por ciertas hiptesis o modelos. - En los tiempos actuales, cuando los grandes paradigmas tericoexplicativos han entrado en crisis, la mirada de los cientficos sociales debera girar hacia el uso de modelos analticos que permitan explorar datos, en aras de plantearse nuevas y diferentes relaciones entre las variables, enriqueciendo as el ambiente intelectual y la produccin de conocimientos. - Lo que se afirma aqu no es que el anlisis confirmatorio de datos no tiene lugar en las Ciencias sociales, sino que el mismo no debe ser el nico y exclusivo modelo a ensear, mxime cuando, en muchos casos hoy da, ni siquiera se cuenta con teoras slidas para ser confirmadas.

III.

Referencias

Linkografa http://ciberconta.unizar.es/LECCION/anamul http://www.5campus.com/leccion/aed Bibliografa Grubbs, FE: Procedimientos para la deteccin de observaciones atpicas en las muestras. Technometrics 11, 1-21. Rubin, Donald B.; Little, Roderick JA (2002)) de Estadstica. Anlisis

con los datos que faltan (2 ed.. Nueva York: Wiley.

16

IV.

Anexo Tabla 1
Anlisis estadstico Unidimensional Medidas Descriptivas Numricas y Representaciones Graficas Aconsejadas en funcin de la escala de medida de la variable

17

También podría gustarte