Analisis Exploratorio de Datos

ANÁLISIS
EXPLORATORIO
DE DATOS
Metodología de
la Investigación
Bloque 4
MICA0420
METODOLOGÍA DE LA INVESTIGACIÓN
El presente material recopila una serie de definiciones, explicaciones y ejemplos prácticos de autores especiali-
zados que te ayudarán a comprender los temas principales de este bloque.
Las marcas usadas en la antología son única y exclusivamente de carácter educativo y de investigación, sin fines
lucrativos ni comerciales.
2
Análisis exploratorio de datos
4. Análisis exploratorio de datos

Tiene como objetivo examinar los datos, antes de la aplicación de cualquier técnica estadística. Indepen-
dientemente del procedimiento estadístico que se pretende seguir o de la complejidad de los datos, este
análisis permite tener un entendimiento básico de los mismos, identificar las relaciones existentes entre
las variables analizadas, detectar fallas en el diseño y/o recolección de datos, el tratamiento y la evalua-
ción de datos ausentes, entre otros.
4.1. Comparación de lotes de datos
Lind, Marchal y Wathen (2012) explican que “al conjunto de técnicas estadísticas cuya finalidad es des-
cribir un conjunto de datos se le denomina estadística descriptiva; con ella es posible organizar los datos
para observar su distribución, su tendencia de concentración, y además se pueden señalar los valores
de datos poco usuales, también llamados atípicos” (p. 6).
Antes de hacer uso de cualquiera de estas técnicas, se debe identificar si se trabaja con variables cua-
litativas o cuantitativas. Las primeras no son de naturaleza numérica, por ejemplo, el género de un con-
junto de estudiantes, o la marca de computadora que utilizan; las segundas sí se representan en forma
numérica, como la edad o el ingreso mensual.
Las principales técnicas de estadística descriptiva para variables cualitativas son:
Tabla de frecuencias. Es una tabla en la que se exhibe el conteo de elementos por cada categoría
que existe. Por ejemplo: el número de estudiantes hombres y el número de estudiantes mujeres. Si
se incluye el porcentaje, se le denomina tabla de frecuencias relativas.
Gráfica de barras. Es una forma gráfica de observar la tabla de frecuencias, cada barra indica el
número de elementos.
Gráfica de pastel. Es una forma gráfica de observar la tabla de frecuencias relativas. Un “pastel”
o círculo entero representa el 100% de los datos, mientras que cada “rebanada” es una categoría
y su tamaño es proporcional al porcentaje correspondiente.
3
Figura 1. Técnicas de estadística descriptiva para variables cualitativas

0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Gráfica de barras Gráfica de pastel
Para las variables cuantitativas, las principales técnicas son:
Distribución de frecuencias. Es una tabla que divide la escala en varias clases mutuamente
excluyentes, de manera que una observación sólo puede pertenecer a una clase. Muestra la
información clasificada, para que pueda identificarse con claridad el conteo por clase.
Histograma. Es la representación gráfica de la distribución de frecuencias, en el eje horizontal
(X) se muestran las categorías, mientras que, en el vertical (Y), cada barra indica la frecuencia de
sujetos por categoría.
Gráfico boxplot. También se conoce como gráfico de caja y bigotes, es una forma más resumida
de observar la concentración de los datos. Dentro de la caja se encuentra el 50% del conjunto de
observaciones centrales en los datos, y se observa un 25% en cada uno de los bigotes; los puntos
por encima o por debajo de los bigotes se consideran observaciones atípicas.
Figura 2. Técnicas de estadística descriptiva para variables cuantitativas
160
12 140
Edad de trabajadores
10 120
Horas trabajadas
8 100
6 80
4 60
2 40
0 20
[32,39][39,46][46,53][53,60][60,67][67,74][74,81][81,88]
0
Histograma Gráfico boxplot
4
Para poder obtener las tablas y gráficas que se han explicado, basta con una hoja de cálculo y no se
requiere necesariamente un software estadístico especializado. Si tienes dudas sobre la elaboración
de gráficos en Excel, la hoja de cálculo de mayor uso, puedes consultar el video de Microsoft (2019),
llamado Crear un gráfico de principio a fin; encontrarás el enlace en el apartado de referencias.
4.2. Transformación de datos
Algunas variables siguen, de manera natural, formas de distribuciones definidas y estudiadas para cier-
tos fenómenos y sería imposible mencionar todas ellas; sin embargo, una de las más importantes es la
distribución normal. Antes de explicarla, es necesario recordar los siguientes conceptos:
Media. Es una medida de tendencia central e indica en qué parte de la escala se concentran los
datos. Se calcula como el promedio aritmético de las observaciones.
Desviación estándar. Es una medida de variación de los datos, es decir, representa qué tan
dispersos están, en promedio, los datos de la media.
Una variable aleatoria normal tiene forma de campana, es simétrica respecto a la media y las colas se
extienden indefinidamente en ambas direcciones; la variable normal estándar siempre tiene media igual
a cero y desviación estándar igual a uno. Además, se puede utilizar en una amplia variedad de temas:
biológicos, criminológicos, financieros, educativos.
A pesar de sus aplicaciones, la comparación de variables puede carecer de sentido si no se tiene la mis-
ma escala, por lo que una transformación de datos permite que ambas variables puedan comportarse
como variables normales estándar. A este proceso se le llama normalización, aunque no es el único tipo
de transformación de datos.
Figura 3. Gráfico de una distribución normal estándar
5
4.3. Líneas resistentes en X y en Y
La técnica conocida como análisis de regresión lineal permite observar la relación entre dos variables,
ambas cuantitativas. Su propósito es explicar el comportamiento promedio de una, de acuerdo con el
comportamiento de la otra.
Según Lind, Marchal y Whaten (2012) “se desea estimar el valor de la variable dependiente [su media] con
base en un valor seleccionado de la variable independiente” (p. 463). Por ejemplo, la venta en pesos de
un conjunto de negocios puede tratar de explicarse mediante el monto destinado a la publicidad. Como
podemos ver, esta técnica requiere que los datos se hayan recogido por pares, es decir, que se tengan
ambas variables (ventas y monto en publicidad) para el mismo negocio.
Es importante destacar que esta técnica ya no es meramente descriptiva, sino que intenta ser un modelo
simplificado de la realidad, por lo que el ajuste del modelo a los datos determinará el grado de exactitud
con que se predice el comportamiento. Además, siempre existirá un error entre lo estimado y lo observado;
dichos errores se conocen con el nombre de residuales y tienen un importante papel en la comprobación
de los supuestos del modelo; esto se retomará en la sección 4.5. de esta antología.
Figura 4. Gráfico de un modelo de regresión lineal

250
200
150
100
50
0
0 20 40 60 80 100 120 140
4.4. Análisis de tablas de dos entradas
Estas tablas son una técnica dirigida “al estudio de la relación entre dos o más variables cualitativas
o categóricas, es decir, medidas a nivel nominal y ordinal” (Rubio, 2016, pp. 1). Debido a la naturaleza
de las variables, no es posible obtener parámetros como la media y la varianza, por lo que las pruebas
realizadas se consideran en el grupo de métodos no paramétricos.
El también llamado análisis de tablas de contingencia permite comprobar formalmente si el comporta-

miento observado se corresponde con el esperado, por esta razón se le conoce como pruebas de bon-
dad de ajuste. Lind, Marchal y Wathen (2012) reconocen dos casos principales: frecuencias esperadas
iguales y frecuencias esperadas desiguales (p. 648).
6
En ambos casos se elabora una tabla de frecuencias (teórica o esperada), como las que se revisaron en
el tema 4.1. Por ejemplo, se sabe que en un restaurante el 50% de los clientes piden pollo, 30% pescado,
10% mariscos y 10% ensalada; sin embargo, al observar una muestra de datos de cierto día, esto no será
exactamente así, debido a las variaciones en la recolección de la muestra. La prueba permitirá comprobar
si en efecto puede considerarse que la muestra proviene de una distribución con frecuencias esperadas,
es decir, si las variaciones de lo observado con lo esperado son o no estadísticamente significativas.
Una generalización del procedimiento anterior se obtiene al comparar dos variables cualitativas en
una misma tabla, por ejemplo: el género del cliente y el platillo que pide. Una prueba de independencia
permitirá saber si existe relación entre éstas o si son independientes, lo cual implica que, sin importar el
género, la distribución de los platillos es la misma, y viceversa.
El uso de la variable aleatoria chi-cuadrada será la base para estos análisis, por lo que las pruebas antes
mencionadas se conocen como pruebas de bondad de ajuste de chi-cuadrada y prueba de indepen-
dencia de chi cuadrada, respectivamente.
7
4.5. Examen y evaluación de residuos
Como se mencionó, los residuos que se obtienen de la estimación de un modelo de regresión lineal
permiten corroborar si se cumplen ciertos supuestos que utiliza el modelo, ya que en caso de que no se
cumplan, las conclusiones que pudieran obtenerse del mismo no serían válidas.
Los supuestos que se deben probar en el modelo son los siguientes:
Los residuos tienen una distribución normal. Esto puede averiguarse mediante el histograma de
los residuos, el gráfico de probabilidad normal o las pruebas de normalidad (similares a las que se
describieron en el apartado 4.4 de la antología).
Homocedasticidad. La dispersión o varianza de los residuos debe ser similar a lo largo de toda la
recta de regresión. Esto se observa al graficar los valores ajustados contra los residuos, pues no
debe haber patrones claros, sólo una nube de puntos como la que se observa en la siguiente figura.
Figura 5. Gráfico de valores estimados contra residuales

3
0
0 50 100 150 200
-1
-2
-3
Los residuos son independientes. Para verificar esto, se utiliza también el gráfico de valores
ajustados contra residuales, y adicionalmente se realizan pruebas de autocorrelación, como la de
Durbin-Watson.
Cuando alguno de estos supuestos no se cumple, es posible que el modelo no sea el más adecuado
para presentar los datos que se tienen; en ocasiones esto puede solucionarse con una transformación
de variable, y en casos menos sencillos se requerirá cambiar a un modelo estadístico más complejo,
como regresión logística, regresión de Poisson o análisis de series de tiempo, que son los más comunes.
8
4.6. Comparación de estimadores de locación
Los estimadores de locación son mejor conocidos como medidas de posición. De acuerdo con Marqués
(2017), “la finalidad de las medidas de posición es encontrar unos valores que sinteticen las distribu-
ciones de frecuencias” (p. 116). De esta manera, en vez de analizar la distribución de manera visual,
dichos valores numéricos nos pueden dar una idea de cómo se encuentran distribuidos los datos. Los
estimadores más comunes son:
Las medidas relacionadas con la tendencia central, como la media o promedio, de la que ya se
habló anteriormente.
La mediana, que es el valor en el que se acumulan el 50% de los datos.
La moda, es decir, el valor que más se repite en la distribución, por lo que la barra más alta del
histograma se observa en dicho punto.
Otras medidas son los cuartiles, que dividen la distribución en cuatro partes, con el mismo porcentaje
de observaciones en cada una, de manera que el primer cuartil es el valor por debajo del cual se agrupa
el 25% de las observaciones, el segundo cuartil coincide con la mediana, antes del tercero se agrupa el
75% de observaciones, y en el cuarto el 100% (el máximo valor encontrado). También se consideran los
percentiles, es decir, los valores que concentran (de menor a mayor) un porcentaje deseado.
Al comparar algunos de estos estimadores en una misma distribución, podemos advertir la forma que ésta
tiene, sin necesidad de graficarla. Por ejemplo, cuando la media, la mediana y la moda tienen el mismo
valor, sabremos que la distribución es simétrica; cuando esto no sucede, se observa una “inclinación”
hacia la derecha o izquierda. Los cuartiles, por otro lado, son los valores utilizados en la gráfica de caja
y bigotes, por lo que leerlos o ver la gráfica nos da la misma información.
Figura 6. Diagrama cajas y bigotes
Empresa A
Empresa B
Empresa C
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
Número de acciones vendidas
Fuente: Datavizcatalogue (s.f.).
9
4.7. Estimadores robustos
Como señalan Montaño y Zurita (2009), la estimación robusta proviene de la necesidad de estimadores
que se comporten bien, aun cuando existan variaciones en los supuestos iniciales o cuando es posible
que el modelo esté contaminado por valores aberrantes que producen influencias en los resultados y,
por lo tanto, conducen a estimaciones erróneas. Como este es un campo en constante desarrollo, se
han propuesto diversos métodos de estimación (p. 1).
En términos concretos, lo primero que se busca en un estimado es la propiedad de insesgamiento. Un

estimador como la media o la varianza utiliza todos los valores de la distribución para ser calculado.
Cuando se obtiene a través de una muestra, dicho valor tendrá una variación con respecto a lo que se
obtendría del valor poblacional; si el valor esperado de dicho estimador coincide con el valor teórico, se
dice que es insesgado. En este sentido, el promedio es un estimador insesgado de la media, mientras
que el estimador de varianza no lo es, por lo que en la práctica suele usarse el estimador de cuasivarianza.
10
REFERENCIAS
Lind D., Marchal W. y Whaten S., (2012). Estadística aplicada a los negocios y a la economía. Madrid:
McGraw-Hill.
Marqués, F. (2017). R en profundidad programación gráficos y estadística. Madrid: Alfaomega.
Microsoft. (2019). Crear un gráfico de principio a fin. Recuperado de
Montaño, N. y Zurita, G. (2009). Estimadores robustos para el vector de medias y la matriz de varianzas
y covarianzas de vectores aleatorios multivariados. Revista Tecnológica ESPOL, 22 (1), pp. 1-9. Recu-
perado de
Ribecca, S. (s.f.). El catálogo de visualización de datos. Recuperado de
Rubio, J y Berlanga, V. (2011). Cómo aplicar las pruebas paramétricas bivariadas t de Student y ANO-
VA en SPSS. Caso práctico. Artículo metodológico. Universidad de Barcelona. Recuperado
Rubio, M. (2016). Estadística aplicada a las ciencias sociales. Madrid: Universidad Complutense de Madrid.
11

Analisis Exploratorio de Datos

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis Exploratorio de Datos

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS

Análisis exploratorio de datos

4. Análisis exploratorio de datos

4.1. Comparación de lotes de datos

Las principales técnicas de estadística descriptiva para variables cualitativas son:

Figura 1. Técnicas de estadística descriptiva para variables cualitativas

Para las variables cuantitativas, las principales técnicas son:

Figura 2. Técnicas de estadística descriptiva para variables cuantitativas

4.2. Transformación de datos

Figura 3. Gráfico de una distribución normal estándar

4.3. Líneas resistentes en X y en Y

Figura 4. Gráfico de un modelo de regresión lineal

4.4. Análisis de tablas de dos entradas

El también llamado análisis de tablas de contingencia permite comprobar formalmente si el comporta-

4.5. Examen y evaluación de residuos

Los supuestos que se deben probar en el modelo son los siguientes:

Figura 5. Gráfico de valores estimados contra residuales

4.6. Comparación de estimadores de locación

Figura 6. Diagrama cajas y bigotes

Fuente: Datavizcatalogue (s.f.).

4.7. Estimadores robustos

En términos concretos, lo primero que se busca en un estimado es la propiedad de insesgamiento. Un

Marqués, F. (2017). R en profundidad programación gráficos y estadística. Madrid: Alfaomega.

Microsoft. (2019). Crear un gráfico de principio a fin. Recuperado de

Ribecca, S. (s.f.). El catálogo de visualización de datos. Recuperado de

También podría gustarte