Está en la página 1de 28

TEMA 2.

ANÁLISIS EXPLORATORIO DE DATOS


El análisis exploratorio de datos (AED) consiste en los métodos utilizados para
describir los datos en sencillos términos aritméticos con imágenes fáciles de
trazar, con ello realizamos un análisis preliminar de los datos disponibles,
describiendo y organizando la información.

Las herramientas utilizadas para este fin son las que proporciona la estadística
ANÁLISIS descriptiva tales como:
EXPLORATORIO
Métodos gráficos
DE DATOS
Métodos gráficos
Después de identificar el tipo de variables y su nivel de medición, puede
realizar un análisis gráfico para presentar la información de una manera simple
y fácil de entender.

Medidas numéricas
Permite describir y resumir conjuntos de datos, existen tres tipos:

• Medidas de tendencia central (media, mediana y moda),


• Medidas de dispersión (varianza y desviación estándar) y
• Medidas de posición (percentiles y cuartiles).
TEMA 2.

Métodos gráficos
Métodos gráficos

El análisis exploratorio de datos consiste básicamente en


realizar un análisis preliminar de los datos disponibles,
que consiste en describir y organizar la información.

Una vez que has identificado el tipo de variables con las


que estas trabajando y su escala de medición, puedes
comenzar a realizar un análisis gráfico con la finalidad de
presentar la información, contenida en tu muestra de
datos, de manera sencilla y fácil de entender para tomar
decisiones más efectivas y eficientes.
Métodos gráficos

Observaciones por clase:


• Tablas de frecuencia.
• Gráfico de barras.
ANÁLISIS • Gráfico de pastel
EXPLORATORIO
Observaciones por intervalo:
DE DATOS • Tablas de frecuencia para variables cuantitativas.
• Histograma

Dependencia (o falta de ella):


• Diagrama de punto.
• Diagrama de dispersión.

Dependencia dentro de las observaciones:


• Diagrama de tallo y hojas.
Métodos gráficos. Observaciones por clase

Tabla de frecuencia.

Una distribución de frecuencias es una tabla utilizada para organizar datos. La


columna de la izquierda (llamada clases o grupos) contiene todas las respuestas
ANÁLISIS posibles sobre una variable estudiada. La columna de la derecha es una lista de
EXPLORATORIO las frecuencias o número de observaciones correspondientes a cada clase.
DE DATOS
Es una agrupación de datos cualitativos en clases mutuamente excluyentes que
muestran el número de observaciones en cada clase.

*Para México en el 2021.


Métodos gráficos. Observaciones por clase

Gráfico de barras.

Es un gráfico en el que las clases son reportadas en el eje horizontal y las


ANÁLISIS frecuencias de cada clase en el eje vertical. Las frecuencias de clase son
EXPLORATORIO proporcionales a las alturas de las barras
DE DATOS

*Para México en el 2021.


Métodos gráficos. Observaciones por clase

Gráfico de pastel (pay)

Es un gráfico que muestra la proporción o porcentaje que representa cada clase


ANÁLISIS del número total de frecuencias.
EXPLORATORIO
DE DATOS

*Para México en el 2021.


Métodos gráficos.

Tabla de frecuencia para variables cuantitativas

Es una tabla que muestra la relación entre el total de una clase y el número
total de observaciones
ANÁLISIS
EXPLORATORIO Intervalo de clase:
DE DATOS El intervalo de clase se obtiene restando el límite inferior de una clase del límite
inferior de la siguiente clase.

Frecuencia de clase:
El número de observaciones en cada clase.

Punto medio de clase*:


Un punto que divide una clase en dos partes iguales. Este es el promedio de los
límites de clase superior e inferior.

* Mas adelante lo calcularemos.


Métodos gráficos. Observaciones por intervalo.

Tabla de frecuencia para variables cuantitativas

ANÁLISIS
EXPLORATORIO
DE DATOS
Métodos gráficos. Observaciones por intervalo.

Tabla de frecuencia para variables cuantitativas

ANÁLISIS 1. Encuentra el número de clases.


EXPLORATORIO
El número recomendado de intervalos es de mínimo 5 y como máximo 20,
DE DATOS dependiendo de la cantidad de datos. Calcule √n (donde n es el número de
datos de muestra) y redondee a un número entero para determinar el número
apropiado de clases (k).
Métodos gráficos. Observaciones por intervalo.

Tabla de frecuencia para variables cuantitativas


2. Calcula el ancho del intervalo.
ANÁLISIS Resta el valor máximo menos el valor mínimo del conjunto de observaciones.
EXPLORATORIO Luego divide entre el número de clases elegido en el inciso (1).
DE DATOS
i=H−L/k

Donde:
i es el ancho del intervalo,
H es el valor máximo,
L es el valor mínimo y
k es la cantidad de clases o intervalos a construir.

Si los datos de la muestra son enteros, redondea esta cifra a un entero; si los
datos tienen un decimal, redondea esta cifra a un decimal, etc.
Métodos gráficos. Observaciones por intervalo.

Tabla de frecuencia para variables cuantitativas


3. Define los límites de cada clase.
El límite inferior del primer intervalo será el valor mínimo de los datos; suma a
ANÁLISIS este valor el ancho del intervalo definido en el inciso (2) para determinar el
EXPLORATORIO límite superior. Construye de esta forma el resto de los intervalos, cuidando que
DE DATOS exista continuidad entre ellos, pero sin traslape de valores entre los límites
superior e inferior de las clases sucesivas.

4. Verifica los intervalos.


Revisa que el número de clases sea el que se determinó en el inciso (1) y que el
valor máximo de los datos quede incluido en el último intervalo.
Métodos gráficos. Observaciones por intervalo.

Histograma

Es una gráfica que se emplea para representar las frecuencias de los valores
ANÁLISIS observados de una variable cuantitativa. De forma similar a una gráfica de
barras, el histograma se construye a partir de una tabla de frecuencias, y
EXPLORATORIO constituye una forma gráfica de visualizar el comportamiento y las tendencias
DE DATOS de la variable, detectar datos atípicos y formas de la distribución de las
frecuencias
Métodos gráficos. Dependencia

Diagrama de dispersión.

En los casos anteriores se ha analizado el comportamiento de una variable


ANÁLISIS (datos univariados). Sin embargo, existen situaciones en las que se estudia y
representa visualmente la relación entre dos variables. Al estudiar la relación
EXPLORATORIO entre ellas, se hace referencia a los datos como bivariados.
DE DATOS
Una técnica gráfica útil para mostrar la relación entre dos variables es el
Diagrama de dispersión. El tipo de relación entre un par de variables puede
ser positiva o negativa: se trata de una relación positiva si a medida que una
de las variables incrementa su valor la otra también lo hace, es decir, existe
una relación directa entre ellas; si por el contrario, cuando una de las variables
incrementa su valor la otra disminuye (relación inversa), se dice que la
relación es negativa.
Métodos gráficos. Dependencia.

Diagrama de dispersión.

ANÁLISIS
EXPLORATORIO
DE DATOS
TEMA 2.

Medidas numéricas
Medidas numéricas

• Media
Medidas de
tendencia • Mediana
ANÁLISIS central.
EXPLORATORIO • Moda
DE DATOS

• Varianza y desviación estándar (poblacional y muestral)


Medidas de
dispersión.
• Coeficiente de variación (poblacional y muestral)

Medidas de
• Medidas de posición: deciles y percentiles
posición.
Medidas numéricas. Tendencia central.

Media
Características principales:
• Se utilizan todos los valores.
ANÁLISIS • Es única.
• La suma de las desviaciones de la media es 0.
EXPLORATORIO • Se calcula sumando los valores y dividiendo por el número
DE DATOS de valores.

Media poblacional Media muestral

Si al calcular la media utilizamos los Si sólo tomamos una muestra de la


datos de la población (todos los población y a partir de ella calculamos
datos), entonces estaremos la media entonces estaremos
calculando la media poblacional calculando la media muestral .
Medidas numéricas. Tendencia central.

Mediana
El punto medio de los valores después de haberlos ordenado de menor a mayor, o de
mayor a menor.
ANÁLISIS
EXPLORATORIO
DE DATOS

Propiedades de la Mediana

• Hay una mediana única para cada conjunto de datos.


• No se ve afectado por valores extremadamente grandes o pequeños y, por lo tanto,
es una valiosa medida de tendencia central cuando se presentan dichos valores.
• Se puede calcular para datos de nivel de razón, nivel de intervalo y nivel ordinal.
Medidas numéricas. Tendencia central.

Mediana

ANÁLISIS
EXPLORATORIO
DE DATOS
Medidas numéricas. Tendencia central.

Moda
Es el valor que más se repite en una lista de datos.
ANÁLISIS
Si para calcular la moda usamos todos los datos de la población entonces estamos
EXPLORATORIO calculando la
DE DATOS
y si usamos sólo una muestra de la población entonces estamos calculando la
Medidas numéricas. De dispersión.

Varianza
Es el promedio de las diferencias entre cada observación y la media elevadas al
cuadrado. Las unidades de la varianza no son las mismas que las de la muestra. La
ANÁLISIS varianza siempre es positiva y es nula cuando todos los valores coinciden con la media.
EXPLORATORIO
DE DATOS

Desviación standard
Es la raíz cuadrada positiva de la varianza. Se considera como la más utilizada y sus
unidades son las mismas que las de los datos.
Medidas numéricas. De dispersión.

Varianza y desviación standard


La varianza y las desviaciones estándar no son negativas y son cero solo si todas las
ANÁLISIS observaciones son iguales.
EXPLORATORIO
DE DATOS Para poblaciones cuyos valores están cerca de la media, la varianza y la desviación
estándar serán pequeñas.

Para poblaciones cuyos valores están dispersos de la media, la varianza de la población y


la desviación estándar serán grandes.
Medidas numéricas. De dispersión.

Coeficiente de variación (CV)


Mide que tan grande es la desviación estándar en relación al promedio.

ANÁLISIS Un coeficiente de variación pequeño indica poca dispersión (esto es que los datos son
precisos).
EXPLORATORIO
DE DATOS Cuanto más elevado sea el CV más dispersión o variabilidad tienen los datos.

Asimismo permite comparar la dispersión entre dos poblaciones distintas aunque ellas
tengas diferentes unidades de medición.

CV<10 Muy bueno


10-20 Bueno
20-30 Aceptable
CV>30 No aceptable
Mapa conceptual por equipos.

De la industria del café en México con


respecto del mundo.
ANÁLISIS
Situación
EXPLORATORIO
Problema 1 • Consumo al año.
DE DATOS • Producción anual.
• Precio
• Tipo de presentación
• Costos.

También podría gustarte