Está en la página 1de 22

ANÁLISIS

EXPLORATORIO DE
DATOS
ANÁLISIS EXPLORATORIO DE DATOS

La finalidad del análisis exploratorio


El análisis exploratorio de datos
de datos es examinar los datos
proporciona métodos sencillos para
previamente a la aplicación de
organizar y preparar los datos,
cualquier técnica estadística. De
detectar
esta forma el analista
fallos en el diseño y recogida de
consigue un entendimiento básico
datos, tratamiento y evaluación de
de sus datos y de las relaciones
datos ausentes,
existentes entre las
identificación de casos atípicos y
variables analizadas.
comprobación de los supuestos
Un análisis cuidadoso de los datos
subyacentes en la mayor
conduce a una mejor predicción y a
parte de las técnicas multivariantes.
una evaluación más precisa de la
dimensionalidad.
ETAPAS DEL ANÁLISIS EXPLORATORIO DE DATOS

Preparar los datos para hacerlos accesibles a cualquier técnica estadística.

Realizar un examen gráfico de variables individuales y un análisis descriptivo


numérico que permita cuantificar algunos aspectos gráficos de los datos.

Realizar un examen gráfico de las relaciones entre las variables y un análisis


descriptivo numérico que cuantifique el grado de interrelación entre ellas.

Evaluar, si fuera necesario, algunos supuestos básicos subyacentes a muchas


técnicas estadísticas como: La normalidad, linealidad y homocedasticidad.

Identificar los posibles casos atípicos (outliers) y evaluar el impacto


potencial que puedan ejercer en análisis estadísticos posteriores.

Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos
ausentes (missing) sobre la representatividad de los datos analizados.
PREPARACIÓN DE LOS DATOS

Hacer accesible los datos a cualquier técnica estadística descriptiva e


inferencial.

Almacenar y procesar los datos en un paquete estadístico adecuado


(SPSS 22, MINITAB, STATA, R, etc…), utilizando herramientas
estadísticas
DATOS ATÍPICO (OUTLIERS)

Los casos atípicos son observaciones con características diferentes de las


demás. Este tipo de casos no pueden ser caracterizados categóricamente
como benéficos o problemáticos sino que deben ser contemplados en el
contexto del análisis y debe evaluarse el tipo de información que pueden
proporcionar. Su principal problema radica en que son elementos que pueden
no ser representativos de la población pudiendo distorsionar seriamente el
comportamiento de los contrastes estadísticos. Por otra parte, aunque son
diferentes a la mayor parte de la muestra, pueden ser indicativos de las
características de un segmento válido de la población y, por consiguiente, una
señal de la falta de representatividad de la muestra.
TIPOS DE DATOS
ATIPICOS

Los casos atípicos surgen de un


Otro caso atípico es la
error de procedimiento, tales
observación que ocurre como
como la entrada de datos o un
consecuencia de un
error de codificación. Estos casos
acontecimiento extraordinario
atípicos deberían subsanarse en
real en el estudio. En este caso, el
el filtrado de los datos, y si no se
outlier no representa ningún
puede, deberían eliminarse del
segmento válido de la población
análisis o recodificarse como
y puede ser eliminado del análisis
datos ausentes.
ANÁLISIS ESTADÍSTICO UNIDIMENSIONAL

VARIABLES CUALITATIVAS
VARIABLES CUANTITATIVAS
Son aquellas que no aparecen en
Las variables cuantitativas son las
forma numérica, sino como
que pueden expresarse
categorías o atributos . En
numéricamente. Permite distinguir
dichas categorías puede haber un
entre variables cuantitativas
orden subyacente (variable
discretas y continuas.
ordinal) o no (variable
Se suelen representar
nominal).
gráficamente mediante
Se suelen representar mediante
histogramas, grafico de tallos y
diagrama de barras, sectores o
hojas, grafico de cajas, etc…
líneas.
GRAFICO DE CAJAS
El grafico de cajas se caracteriza por:
- Centralización de los datos (con la mediana)
- La dispersión (con el rango intercuartil)
- La simetría (observando la posición de la mediana)
- La longitud de la colas (con los segmentos que parten de los lados laterales)
En la caja observamos:
- Un dato atípico denotado por un circulo.
- Un dato extremo denotado por un asterisco, siempre es el dato mas lejano.
- Tiene asimetría negativa porque la longitud de la cola izquierda es más larga que la otra.
- La mediana esta al centro de la caja, pero no significa que sea simétrica.
- El 50% del total de los datos representa la caja.

- El 25 % del total de los datos representa cada cola.


DIAGRAMA DE TALLOS Y HOJAS

El diagrama de tallos y hojas es una representación grafica de los


datos de forma del histograma. Tiene la misma interpretación
que el histograma
El grafico de tallos y hojas, se construye, partiendo las cifras que
forman al dato en dos grupos: Uno con las primeras cifras para
formar el tallo y el otro con las cifras restante para formar las
hojas.
Si tenemos el dato 68; 6 es el tallo y 8 es la hoja.
Si tenemos el dato 331; 33 es el tallo y 1 es la hoja.
Si tenemos el dato 4.12; 41 es el tallo y 2 es hoja.
Si tenemos el dato 41.2; 41 es el tallo y 2 es la hoja
Ejemplo: Construir un diagrama de tallos y hojas de los pesos de maíz de 35 bolsas
producidos en una zona agrícola.

Solución:
Dato menor: 33,1 Dato mayor: 36,5
Tallos posibles: 33, 34, 35 y 36
Hojas: 1, 4, 7, 7, 9, 8, 6, 2, 2, …
Sólo existen 4 tallos, debiendo ser el
mínimo 5 tallos, entonces los tallos
propuestos se desdoblan, de la
siguiente manera:
33 (del 33,0 al 33,4)
33 (del 33,5 al 33,9) Interpretación:
34 (del 34,0 al 34,4) - Son 35 casos.
34 (del 34,5 al 34,9) - La menor observación es de 33,1
35 (del 35,0 al 35,4) - La mayor observación es de 36,5
35 (del 35,5 al 35,9) - Tiene distribución asimétrica positiva porque la
36 (del 36,0 al 36,4) distribución de datos está sesgada (sesgo
positivo), es decir, hay mayor concentración de
36 (del 36,5 al 36,9)
datos a la derecha.
Ejemplo: Se entrevistaron a 474 empleados y se le preguntaron sobre el sector donde
trabajan, obteniéndose los siguientes resultados utilizando el SPSS 22:

Categoría Laboral

Frecuencia Porcentaje
Válido Administrativo 360 75,9
En este ejemplo, trabajamos Seguridad 27 5,7
con una variable cualitativa Directivo 83 17,5
nominal (Categoría Laboral), Total 470 99,2
Perdidos Sistema 4 ,8
realizando un análisis
Total 474 100,0
exploratorio de datos
observamos que hay datos
perdidos llamados datos
ausentes, porque al verificar
la vista de datos del SPSS 22
hay 4 celdas vacías.
Ejemplo: Se recolectó información sobre los salarios de 20 jóvenes, antes de realizar un
estudio descriptivo se hizo un análisis exploratorio univariado sobre dicha variable.
170 200 200 210 210 210 210 220 220 220 220 220 220 230 230 230 230 240 240 240

HISTOGRAMA: En el
histograma, observamos que
hay un joven cuyo salario esta
muy por debajo del restante,
este dato es considerado dato
atípico, que ha sido originado
por error de digitación o se ha
entrevistado a un joven cuyo
sueldo no esta asociado al
grupo. En algunos casos se
elimina ese dato o se recolecta
nuevamente la información.
GRAFICO Q-Q: En el grafico observamos que la distribución no es normal por que hay un
dato que esta muy separado de la línea, ese dato es considerado dato atípico
GRAFICO DE CAJAS: En el grafico observamos que existe un dato que esta muy separado
de la caja, ese dato es considerado dato atípico. Son considerados datos atípicos los
datos que están por encima de U y por debajo de L.
NORMALIDAD

Muchos métodos estadísticos se


basan en la hipótesis de
Existen varios métodos para
normalidad de la variable objeto
evaluar la normalidad de un
de estudio. De hecho, si la falta de
conjunto de datos que
normalidad de la variable es
pueden dividirse en dos grupos: -
suficientemente fuerte, muchos
Métodos gráficos: Histograma
de los contrastes utilizados en los
diagramas de cuantiles (Q-Q
análisis estadístico - inferenciales
plots), Diagrama de cajas
no son válidos. El investigador
Contrastes de Hipótesis:
debería evaluar la normalidad de
Test de Kolmogorov-Smirnov
todas las variables incluidas en el
análisis.
Ejemplo: Se recolectó información sobre los salarios (en dólares) de 16 empleados
administrativos, en el estudio se realizó un analisis de normalidad con los siguientes
datos:
1200 1210 1210 1220 1220 1220 1230 1230 1230 1230 1240 1240 1240 1250 1250 1260

HISTOGRAMA: Los salarios de


los administrativos siguen una
distribución normal.

N Válido 16
Perdidos 0
Media 1230,00
Mediana 1230,00
Moda 1230
Asimetría ,000
GRAFICO DE CAJAS: En el grafico observamos que las líneas en forma de bigotes que están
hacia el lado derecho e izquierdo son iguales, la mediana esta al centro de la caja, no hay
datos atípicos; entonces podemos afirmar que los datos siguen una distribución normal.
GRAFICO Q-Q: En el grafico observamos que los datos están muy cerca a la línea por lo
tanto siguen una distribución normal
ANÁLISIS ESTADÍSTICO
BIDIMENSIONAL
Es un gráfico donde se presentan
una variable en el eje horizontal y
la otra en el vertical. El patrón de
los puntos representa la relación
entre las variables.

DIAGRAMA DE DISPERSIÓN
Se denomina diagrama de dispersión o nube de puntos a la
grafica de los valores (xi, yi) de las variables X e Y en el
sistema cartesiano. En el diagrama de dispersión se
visualiza el tipo de relación existente entre dos variables.
DIAGRAMA DE DISPERSIÓN

CORRELACIÓN CORRELACIÓN
CORRELACIÓN NULA
DIRECTA POSITIVA INDIRECTA NEGATIVA
Ejemplo: En el siguiente ejemplo, se realiza un grafico de dispersión entre las
variables “salario inicial “y “salario actual” del archivo “DATOS EMPLEADOS.SAV”.

El grafico de dispersión muestra a las


variables “salario inicial “ (eje X) y “salario
actual” (eje Y) del archivo “DATOS
EMPLEADOS.SAV”:
- En el grafico se observa que los datos
muestran un comportamiento lineal
positivo.
- El diagrama no asegura tener una alta
correlación lineal, eso lo confirmaremos
con el coeficiente de correlación (r), en el
tema de análisis de regresión.
- En el diagrama observamos un dato que
esta bastante separado del grupo, puede
ser que sea un dato atípico, eso lo
confirmamos con el diagrama de cajas u
otro método.
MUCHAS
GRACIAS

También podría gustarte