Está en la página 1de 2

Taller Número 3.

Capítulo 4: Análisis Exploratorio De Datos


Yefrei G. Sierra1*.
*Universidad Pedagógica y Tecnológica de Colombia, Programa de química, Facultad de
ciencias, Av. central del norte 39-115, Tunja-Colombia
1. ¿Cuáles son los cuatro tipos de EDA?
➢ Univariante no gráfico:
➢ Multivariante no gráfico.
➢ Univariante gráfico.
➢ Multivariante gráfico.
Los métodos no gráficos generalmente implican el cálculo de estadísticas de resumen,
mientras que los métodos gráficos obviamente resumen los datos de forma diagramática o
pictórica. Los métodos univariantes analizan una variable (columna de datos) a la vez,
mientras que los métodos multivariantes analizan dos o más variables a la vez para explorar
las relaciones.
2. ¿Cuál es el mejor resumen numérico para presentar una variable categórica?
Las características de interés de una variable categórica son simplemente el rango de valores y
la frecuencia (o frecuencia relativa) de aparición de cada valor. Por lo tanto, la única técnica
univariante no gráfica útil para las variables categóricas es alguna forma de tabulación de las
frecuencias, normalmente junto con el cálculo de la fracción (o porcentaje) de datos que cae
en cada categoría.
3. ¿Qué es una estadística muestral?
Es una medida cuantitativa, derivada de un conjunto de datos de una muestra, con el objetivo
de estimar o inferir características de una población o modelo estadístico; por ende, a partir de
los datos es posible calcular una estadística muestral, como la media, la varianza, la desviación
estándar, la asimetría y la curtosis de la muestra.
4. ¿Qué es un outlier?
También llamado “valor atípico”, y significa que los valores están fuera de las áreas de una
distribución que se produce comúnmente.

5. ¿Qué es tendencia central? Mencione tres medidas de tendencia central, y para cada una
escriba su significado.
La tendencia central o "ubicación" de una distribución tiene que ver con los valores típicos o
medios de los valores de una serie de observaciones, en la que se encuentra ubicado el conjunto
de los datos. Algunas medidas de tendencia central son:
➢ Media Aritmética: Es la suma de todos los valores de los datos, dividida por el número
de valores. Puede considerarse como la cantidad que obtiene cada sujeto en una
redistribución "justa" de lo que miden los datos, y su formula es:
∑𝑛 𝑥𝑖
̅ = 𝑖=1
𝒙
𝑛
➢ Mediana: Es el valor medio después de poner todos los valores en una lista ordenada. Si
hay un número par de valores, se toma la media de los dos valores centrales.
➢ Moda: Es el valor más probable o que aparece con mayor frecuencia en un conjunto de
datos. Lo más habitual es utilizar el término "moda" para describir si una distribución tiene
un solo pico (unimodal) o dos o más picos (bimodal o multimodal).

1
Taller Número 3. Capítulo 4: Análisis Exploratorio De Datos
Yefrei G. Sierra1*.
*Universidad Pedagógica y Tecnológica de Colombia, Programa de química, Facultad de
ciencias, Av. central del norte 39-115, Tunja-Colombia
6. ¿Qué es dispersión o variabilidad? Mencione cuatro medidas de dispersión, y para cada
una escriba su fórmula.
La dispersión o variabilidad es un indicador de cuán lejos del centro es probable que
encontremos los valores de los datos. Algunas medidas de dispersión son:
➢ Varianza: Es la distancia media al cuadrado de cualquier valor con respecto a la media
de la distribución. Se define como la desviación media al cuadrado, y su fórmula es:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝒔𝟐 =
(𝑛 − 1)
➢ Desviación Estándar: Es la raíz cuadrada de la varianza, y su fórmula es:
𝒔 = √𝑠 2
➢ Rango Intercuartílico: Los cuartiles de una población o una muestra son los tres valores
que dividen la distribución o los datos observados en cuartos iguales. Así, una cuarta parte
de los datos cae por debajo del primer cuartil, que suele escribirse (𝑄1); la mitad cae por
debajo del segundo cuartil (𝑄2 ); y tres cuartas partes caen por debajo del tercer cuartil
(𝑄3 ). Por ende, el rango intercuartílico es la diferencia entre el tercer y el primer cuartil
de una distribución, y a su vez, es una medida robusta de la dispersión. Su fórmula es:
𝑰𝑸𝑹 = 𝑄3 − 𝑄1
➢ Rango: Es la distancia entre el valor mínimo y el valor máximo. El mínimo y el máximo
de una muestra pueden ser útiles para detectar valores atípicos, especialmente si se conoce
algo sobre los posibles valores razonables de la variable. Su fórmula es:
𝑹𝒂𝒏𝒈𝒐 = 𝑀á𝑥𝑖𝑚𝑜 − 𝑀í𝑛𝑖𝑚𝑜

7. ¿Qué gráficas sirven para visualizar la distribución de una variable cuantitativa?


Para visualizar la distribución de una variable cuantitativa, se utilizan histogramas, diagrama
de tallos y hojas y el diagrama de caja. Los cuales serán definidos a continuación:

➢ Histograma: Es un diagrama de barras en el que cada una representa la frecuencia o


proporción de casos para un rango de valores.
➢ Diagrama De Tallo Y Hojas: Es un diagrama que muestra todos los valores de los datos
y la forma de la distribución, con una forma visual muy llamativa y sencilla.
➢ Diagramas De Caja: Muestran medidas sólidas de ubicación y dispersión, además de
proporcionar información sobre la simetría y los valores atípicos.

También podría gustarte