Está en la página 1de 5

8.

Análisis Exploratorio de Datos

El objetivo del análisis exploratorio es resumir y visualizar datos de manera que se


facilite la identificación de tendencias o patrones que los subyacen y que son
relevantes para responder alguna pregunta de interés.

El análisis exploratorio tiene como objetivo identificar el modelo teórico más


adecuado para representar la población de la cual proceden los datos muestrales.
Dicho análisis se basa en gráficos y estadísticos que permiten explorar la distribución
identificando características tales como: valores atípicos o outliers, saltos o
discontinuidades, concentraciones de valores, forma de la distribución, etc. Por otra
parte, este análisis se puede realizar sobre todos los casos conjuntamente o de forma
separada por grupos. En este último caso los gráficos y estadísticos permiten
identificar si los datos proceden de una o varias poblaciones, considerando la variable
que determina los grupos como factor diferenciador de las poblaciones. También
permite comprobar, mediante técnicas gráficas y contrastes no paramétricos, si los
datos han sido extraídos de una población con distribución aproximadamente normal.

 Diagrama de Puntos

Un diagrama de puntos es una gráfica utilizada para ilustrar un nímero reducido de


datos, la cual permite identificar con facilidad dos características:

1. La localización de los datos.


2. La dispersión o variabilidad de los datos.
Este diagrama muestra cada uno de los elementos de un conjunto de datos números
por encuma de una recta númerica.

Ejemplo:

MAT007CA-01
Interpretación:
En el ejemplo anterior, se puede ver claramente cómo el autor tómo el valor mínimo
de la longitud de los cables, el cual es 10 y el valor máximo, que es 200. A los valores
anteriores los colocó sobre una línea horizontal y usó intervalos de 10 en 10.
Posteriormente, realizó un conteo de las longitudes de la tabla, y en la línea,
representó el número de veces que se repetian mediante puntos.
Podemos observar claramente que los valores que más se repiten son el 20 y e 40, con
cuatro veces cada uno de ellos, y que tienen un gran dispersión sobre la línea.

MAT007CA-01
 Diagrama de Tallos y Hojas

Es una técnica gráfica desarrollada por Tukey, la cual es muy sencilla y permite
mostrar la forma de la distribución de una variable númerica. Es apropuada para
conjuntos de observaciones no muy extensos.

Ejemplo:

Interpretación:

En el ejemplo anterior, pude observar que los numeros de la tabla se separaron en


dos, los cuales representan el tallo y la hoja.
Para los numeros que representan el tallo, solo se puede utulizar un digito, mientras
que el segundo tallo, o sea las hojas, pueden tener tantos digitos como sean
necesarios.
Una vez separado, se ordenaron los tallos de menor a mayor, anexando una línea para
separarlos de las hojas.

MAT007CA-01
A continuación, las hojas representan el conteo total de los numero de la tabla con
esos digitos, quiero decir, en la tabla hay un 88 y un 89, por lo que está el 8, que
representa el primer digito o tallo, y a un lado están un 8 y un 9, que representan las
hojas, es decir, los segundos digitos que conforman el número en sí.
Como observación final, podemos concluir que la mayoría de los valores se
encuentran en el tallo 11, pues este tiene 9 hojas.

 Diagrama de Caja y Bigotes.

Interpretación:
Como podemos observar en las imágenes anteriores, el autor ordenó primero la
información de menor a mayor para posteriormente trazar una línea, en donde
primeramente localizó sus extremos mínimo y máximo.
Acto seguido, calculó los cuartiles 1, 2 y 3 y plasmó en la línea.
El primer bigote recorre el límite inferior hacia el primer cuartil: es allí, en donde
comienza la caja. Para el cuartil dos, que también representa la media, el autor insiste
en que hay que dibujar una línea que corta la caja del segundo extremo, el cual recorre
del cuartil 2 al 3. Inmediatamente después del cuartil 3, termina la caja y comienza el
segundo bigote que se encarga de desplazarse del cuartil tres al límite máximo.
Como una conclusión importante de este gráfico, me gustaría recalcar que es
facilmente visible que existe una menor dispersión del cuartil 2 al 3, que del cuartil 1
al 2.

MAT007CA-01
Fuentes de consulta:

http://www.fca.proed.unc.edu.ar/mod/book/view.php?id=3270

http://cms.dm.uba.ar/academico/materias/verano2015/estadisticaQ/descriptiva.pdf

http://www.estadisticaparatodos.es/taller/graficas/cajas.html

MAT007CA-01

También podría gustarte