Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pef 1
Pef 1
Docentes:
Laura Camila Cruz de Paula
Cristian Camilo Parra Aldana
Departamento de Estadı́stica
Facultad de Ciencias
Universidad Nacional de Colombia
2023-IIS
Probabilidad y Estadı́stica Fundamental –1–
Contenido I
1 Estadı́stica Descriptiva
Conceptos básicos de estadı́stica.
Variables
Medidas descriptivas para variables no agrupadas
Medidas descriptivas para variables agrupadas
Descripciones gráficas y detección de datos atı́picos.
Gráficos engañosos
Medidas descriptivas para datos bivariados.
Motivación
La estadı́stica descriptiva es un conjunto de técnicas y procedimientos
estadı́sticos que ayudan a describir, mostrar y resumir, la información de
un conjunto de datos.
Población
Una población es un conjunto de personas, objetos o eventos, de los cuales
nos interesa estudiar algunas de sus caracterı́sticas.
Unidad de observación
Una unidad de observación es un grupo de elementos de una población, de
la cual se tiene, o es posible obtener, su información de manera conjunta.
Muestra
Una muestra es cualquier subconjunto de una población. Al número de
elementos de la muestra se le llama tamaño de la muestra.
Variables
Variable
Una variable es una caracterı́stica de interés que posee cada elemento de
una población y que podemos medir.
Datos u Observaciones
Mediante el término datos se entiende al conjunto de observaciones de una
o varias variables de interés para todos los elementos de una muestra
Clasificación de variables
Variable Cuantitativa
Una variable es cuantitativa si sus valores son números y representan una
cantidad.
Ejemplo: Edad, Número de hijos de una familia, Estatura en cm, Masa en
Kg, Asignaturas inscritas por un estudiante en el semestre, Longitud en
pulgadas de un tornillo...
Variables Discretas
Existe una cantidad finita o infinita numerable de valores de la variable
entre dos posibles valores cualesquiera de la misma.
Ejemplo: Edad en años, Número de llamadas que entran en una linea
telefónica en una hora, Número de piezas dañadas en un lote de
fabricación.
Variables Continuas
Existe una cantidad infinita no numerable de valores de la variable entre
dos posibles valores cualesquiera de la misma.
Ejemplo: cm3 de llenado en una botella, temperatura, ingreso salarial.
Clasificación de variables
Variable Cualitativa
Una variable es cualitativa si sus valores representan una cualidad, un
atributo o una categorı́a. Se les llama también variables categóricas.
Ejemplo: Genero, Raza, Estrato Socio económico, Color Favorito, Estado
Civil.
Variables Dicotómicas
Existen solo dos categorı́as.
Ejemplo: Estado de sobrevivencia (Vivo-Muerto), Estado de verdad
(Verdadero-Falso).
Variables Politómicas
Existen más de dos categorı́as.
Ejemplo: Estado Civil (Soltero-Casado-Divorciado-Viudo), Color Favorito
(Amarillo-Azul-Rojo...), El estado de un ticket de ayuda
(abierto-contestado-resuelto-cerrado-en proceso...).
Escalas de medición.
Medición
La medición es un proceso mediante el cual se asignan valores
cuantitativos o cualitativos a los atributos de los elementos objeto de
estudio, de acuerdo con unas reglas claramente preestablecidas.
Escalas de medición.
Cualitativas
Cuantitativas Escala nominal: se clasifican los
Escala de intervalo: la individuos respecto a las
diferencia entre dos niveles del categorı́as del atributo.
atributo representa una distancia Ejemplo: tipo de material.
real que se mantiene para Escala ordinal: se clasifican los
intervalos semejantes. No posee individuos en una posición en
un cero absoluto. relación con los niveles del
Ejemplo: temperatura. atributo, pero sin precisar la
Escala de razón: el valor del distancia que hay entre las
cero es absoluto. posiciones.
Ejemplo: peso. Ejemplo: clasificación del pH
como ácido, neutro y básico.
Tabla de frecuencias
Tabla de frecuencias
0P≤ hj ≤ 1
m
j=1 hj = 1
Tabla de frecuencias
N1 = n1
Nm = n
N1 ≤ N2 ≤ . . . ≤ Nm
Tabla de frecuencias
H1 = h1
Hm = 1
H1 ≤ H2 ≤ . . . ≤ Hm
Tabla de frecuencias
Agrupamiento de datos
Agrupamiento de datos
Agrupamiento de datos
Agrupamiento de datos
√
n = 35 por lo tanto m ≈ 35 = 5.916 ≈ 6 y
m ≈ 1 + 3.3 log(35) = 6.095 ≈ 6.
xmin = 60.4 y xmax = 142.2.
R = xmax − xmin = 142.2 − 60.4 = 81.8.
a = 81.8
6 = 13.63.
Las clases resultantes son:
C1 = {x : l0 ≤ x ≤ l1 } donde l0 = 60.40 y l1 = 60.40 + 13.63 = 74.03.
C2 = {x : l1 < x ≤ l2 } donde l2 = 74.03 + 13.63 = 87.67.
C3 = {x : l2 < x ≤ l3 } donde l3 = 87.67 + 13.63 = 101.30.
C4 = {x : l3 < x ≤ l4 } donde l4 = 101.30 + 13.63 = 114.93.
C5 = {x : l4 < x ≤ l5 } donde l5 = 114.93 + 13.63 = 128.57.
C6 = {x : l5 < x ≤ l6 } donde l6 = 128.57 + 13.63 = 142.20.
Agrupamiento de datos
Histograma de Frecuencias
Histograma de Frecuencias
hj
Si la amplitud de los intervalos es constante, aj = a, entonces dj = a ,
donde hj es la frecuencia relativa del intervalo j.
Figure 2: Histograma
x1 , x2 , · · · , xn
Media
Considere el conjunto de datos x1 , x2 , ..., xn . La media se define como:
n
1X
m(x) = x̄ = xi
n
i=1
Caracterı́sticas:
Pn
La media es el centro de gravedad de los datos i=1 (xi − x̄) = 0
Es sensible a datos atı́picos
Sea x(1) el mı́nimo y x(n) el máximo, entonces x(1) ≤ x̄ ≤ x(n)
Sea x1 = x2 = · · · = xn = c tal que c ∈ R, entonces m(c) = c
sea x1 + c, x2 + c, · · · , xn + c, entonces m(x + c) = x̄ + c
sea cx1 , cx2 , · · · , cxn , entonces m(cx) = cx̄
Mediana
Considere las observaciones x1 , x2 , · · · , xn ordenadas:
Caracterı́sticas:
Se calcula para variables medidas en al menos una escala ordinal
La mediana es robusta a datos atı́picos
Al igual que la media, la mediana se preserva bajo transformaciones
lineales.
Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS
Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 26 –
Moda
La moda es el valor que aparece con mayor frecuencia en el conjunto de
datos, si lo hubiera.
Caracterı́sticas:
La moda puede no existir, por ejemplo, cuando todos los datos son
diferentes.
La moda puede existir y ser única (unimodal).
Pueden existir dos o más modas (bimodal o multimodal).
La moda es robusta a datos atı́picos.
La moda se preserva bajo transformaciones lineales.
Medidas de localización
Cuantiles
Un cuantil es un número c tal que la proporción de valores xi que son
menores o iguales a c es al menos p ∗ 100% con 0 < p ≤ 1 y, al mismo
tiempo, la proporción de valores xi que son mayores o iguales a c es el
porcentaje complementario, esto es, el (1 − p) ∗ 100%.
# {xi : xi ⩽ c} # {xi : xi ⩾ c}
⩾p y ⩾ 1 − p.
n n
Medidas de localización
Caracterı́sticas:
El cuantil correspondiente p = 0 es el mı́nimo de los datos x(1)
El cuantil correspondiente p = 1 es el máximo de los datos x(n)
El cuantil correspondiente p = 0.5 es la mediana.
Los cuantiles correspondientes a p = 0.25, 0.50 0.75, se conocen
como cuartiles Q1 , Q2 , Q3
Los cuantiles correspondientes a p = 0.1, 0.2, ..., 0.9, se conocen
como deciles d1 , d2 , · · · , d9
Los cuantiles correspondientes a p = 0.01, 0.02, ..., 0.99, se conocen
como percentiles p1 , p2 , · · · , p99
Se preserva bajo transformaciones lineales
Medidas de variabilidad
Rango
Considere las observaciones ordenadas x(1) , x(2) , · · · , x(n) , el rango se
define como:
r(x) = x(n) − x(1)
Caracterı́sticas:
Está dado en las mismas unidades de la variable de estudio.
El rango no cambia cuando se añaden u omiten valores siempre y
cuando no sea el máximo o el mı́nimo. Es sensible a valores extremos.
Se preserva bajo transformaciones lineales.
Medidas de variabilidad
Rango Intercuartı́lico
Es la diferencia entre el primer cuartil (Q1 ) y el tercer cuartil (Q3 )
RI(x) = Q3 − Q1
Caracterı́sticas:
Está dado en las mismas unidades de la variable de estudio.
En el rango intercuartı́lico se concentra el 50% de los datos.
Es una medida robusta a valores extremos.
Se preserva bajo transformaciones lineales.
Medidas de variabilidad
Varianza Poblacional
Dado un conjunto de datos x1 , x2 , . . . , xn , la varianza se calcula como:
n
1X
v(x) = s = (xi − x̄)2
2
n
i=1
Medidas de variabilidad
Caracterı́sticas:
Está dada en las unidades de la variable de estudio al cuadrado.
Es sensible a datos atı́picos.
Se cumple v(x) ≥ 0.
Sea x1 = x2 = · · · = xn = c tal que c ∈ R, entonces v(c) = 0.
sea x1 + c, x2 + c, · · · , xn + c, entonces v(x + c) = v(x).
sea cx1 , cx2 , · · · , cxn , entonces v(cx) = c2 v(x).
Medidas de variabilidad
Medidas de variabilidad
Coeficiente de variación
Dado un conjunto de datos x1 , x2 , . . . , xn , el coeficiente de variación se
calcula como:
s
cv(x) =
| x̄ |
donde x̄ ̸= 0.
Caracterı́sticas:
Es una medida adimensional.
Es sensible a valores atı́picos.
Más de 15% la variación de los datos se considerada alta.
No se preserva bajo transformaciones lineales.
Medidas de forma
Datos simétricos
Un conjunto de datos numéricos es simétrico si estas cantidades se
encuentran distribuidas simétricamente alrededor de la media.
Medidas de forma
Coeficiente de asimetrı́a
Dado un conjunto de datos x1 , x2 , ..., xn , el coeficiente de asimetrı́a se
calcula como:
n
!
1 1X
sk(x) = 3 (xi − x̄)3
s n
i=1
Caracterı́sticas:
Es una medida adimensional.
sk(x) ≥ 0 si la distribución de los datos presenta una cola alargada a
la derecha.
sk(x) ≤ 0 si la distribución de los datos presenta una cola alargada a
la izquierda.
sk(x) = 0 si la distribución de los datos es simétrica.
Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS
Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 37 –
Medidas de forma
Medidas de forma
Curtosis
La curtosis es una medida del grado de concentración de los datos
alrededor de la media.
Medidas de forma
Coeficiente de curtosis
Dado un conjunto de datos x1 , x2 , ..., xn , el coeficiente de curtosis se
calcula como:
n
!
1 1X 4
k4 (x) = 4 (xi − x̄) − 3
s n
i=1
Caracterı́sticas:
Es una medida adimensional.
Leptocúrtica (k4 > 0) : Decaimiento rápido, colas ligeras Fig 6(a).
Mesocúrtica (k4 = 0) : Curva normal Fig 6(b).
Platicúrtica (k4 < 0) : Decaimiento lento, colas amplias Fig 6(c).
Media
m m
1X X
m(x) = x̄ ≈ nj xj = hj xj
n
j=1 j=1
Mediana
0.5n − Nk−1
me(x) =≈ lk + ak
nk
donde k es el indice del primer intervalo cuya frecuencia relativa
acumulada es mayor o igual 50% y lk es el respectivo lı́mite inferior.
Moda
nk − nk−1
mo(x) ≈ lk + ak
2nk − nk−1 − nk+1
donde k es el ı́ndice del(de los) intervalo(s) con mayor frecuencia absoluta,
y lk el respectivo lı́mite inferior.
Medidas de localización
Cuantiles Cp
(n)(p/100) − Nk−1
Cp (x) ≈ lk + ak
nk
donde k es el ı́ndice del primer intervalo cuya frecuencia relativa
acumulada es mayor o igual a p%.
Medidas de Variabilidad
Rango Intercuartı́lico
RI(x) ≈ Q3 − Q1
donde Q1 y Q3 son los cuartiles para datos agrupados C25% , y C75%
respectivamente.
Varianza
m m
1X X
v(x) = s2 ≈ nj (xj − x̄)2 = hj (xj − x̄)2
n
j=1 j=1
Medidas de Variabilidad
Desviación Estándar
v
√ u1 m
u X
sd(x) = 2
s ≈t nj (xj − x̄)2
n
j=1
Medidas de Forma
Coeficiente de Asimetrı́a
m
1 1 X
sk(x) ≈ 3 nj (xj − x̄)3
s n
j=1
Coeficiente de Curtosis
m
1 1 X
k4 (x) ≈ 4 nj (xj − x̄)4 − 3
s n
j=1
Descripciones gráficas
Diagrama de Barras
En esta gráfica se representa cada categorı́a (o agrupamiento de valores)
mediante una barra de forma que la altura de la barra sea la frecuencia de
la categorı́a correspondiente.
Ejemplo
Supongamos un conjunto de 92 personas, de las cuales 50 son mujeres
(M) y 42 son hombres (H).
Diagrama de Sectores
Es un gráfico circular divido en sectores que corresponden a cada una de
las categorı́as de la variable. El tamaño del sector lo determina el ángulo
hj × 360◦ donde hj es la frecuencia relativa de la categorı́a j.
Ejemplo
Considere un grupo de 80 personas a quienes se les ha registrado su grupo
sanguı́neo. A continuación, se encuentra la tabla de frecuencias junto con
el gráfico de sectores.
G. Sanguı́neo nj hj θ
A 12 0.15 54◦
B 28 0.35 126◦
AB 16 0.20 72◦
O 24 0.30 108◦
Valores Extremos
xi > Q3 + 3RI o xi < Q1 − 3RI
Regla Empı́rica
Es útil cuando se tienen distribuciones simétricas cercanas a la distribución
normal.
xi > x̄ + 3s o xi < x̄ − 3s
Gráfico de lı́neas
Este gráfico permite visualizar los cambios de una variable cuantitativa a
lo largo de un rango continuo, como el tiempo o la distancia. Es útil para
describir la tendencia de una variable o comparar tendencias de distintas
variables.
Ejemplo de gráfico de lı́nea
Gráficos Engañosos
Figure 11: Ejemplo tomado de Alberto Cairo. Los datos no son reales.
Gráficos inapropiados
Elecciones presidenciales de Venezuela 2013
La siguiente imagen son los resultados electorales presentados por la
televisión venezolana para la presidencia de 2013. ¿Por qué es un gráfico
engañoso?
Figure 13: Número de personas que reciben bienestar federal en Estados Unidos.
Link: https://nbc24.com/news/nation-world/
jaw-dropping--over-100-million-now-on-federal-welfare
Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS
Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 58 –
Formas de engaño
La mejor visualización
Variables Categóricas
k
X
Marginal Columna: n•j = n1j + n2j + . . . + nkj = nij para j = 1, . . . , p
i=1
X p
k X k
X p
X
nij = ni• = n•j = n
i=1 j=1 i=1 j=1
k
X
Marginal Columna: h•j = h1j + h2j + . . . + hkj = hij para j = 1, . . . , p
i=1
X p
k X k
X p
X
hij = hi• = h•j = 1
i=1 j=1 i=1 j=1
Los perfiles fila están asociados con una tabla de doble entrada en la que
se calculan las frecuencias relativas conjuntas respecto a los totales de las
filas correspondientes. Análogamente, se definen los perfiles columna. A
partir de la definición, se tiene que la frecuencia relativa de la ij-ésima
categorı́a de una tabla de perfiles fila, denotada con hij|i• , está dada por:
nij
hij|i• =
ni•
mientras que la frecuencia relativa de la ij-ésima categorı́a de una tabla de
perfiles columna, denotada con hij|•j , se está dada por:
nij
hij|•j =
n•j
para i = 1, . . . , k y j = 1, . . . , p.
hij
hij|i• = para i = 1, . . . , k y j = 1, . . . , p.
hi•
hij
hij|•j = para i = 1, . . . , k y j = 1, . . . , p.
h•j
p
X
hij|i• = 1 para i = 1, . . . , k.
j=1
k
X
hij|•j = 1 para j = 1, . . . , p.
i=1
Variables Cuantitativas
Consideremos n individuos o unidades de observación sobre los cuales son
medidas dos variables cuantitativas x y y de tal manera que por cada
individuo se tienen n parejas de observaciones, ası́:
Covarianza
Covarianza
Sean (x1 , y1 ), (x2 , y2 ), · · · , (xn , yn ) observaciones bivariadas, la covarianza
muestral se define como:
n
1 X
cov(x, y) = sxy = (xi − x̄) (yi − ȳ)
n−1
i=1
Caracterı́sticas:
cov(x, y) = cov(y, x)
cov(x, x) = v(x)
cov(ax + b, cy + d) = ac.cov(x, y) con a, b, c, d constantes.
Si x y y son variables conmensurables, entonces
Covarianza
Caracterı́sticas:
Si cov(x, y) > 0, entonces y tiende a aumentar (disminuir) cuando
aumenta (disminuye) x (relación directa).
Si cov(x, y) < 0, entonces y tiende a disminuir (aumentar) cuando x
aumenta (disminuye) x (relación inversa).
Si cov(x, y) ≈ 0, entonces los puntos se reparten ”equitativamente”
alrededor de (x̄, ȳ).
cov(x, y) es sensible a datos atı́picos.
Está dada en unidades mixtas de medición (unidades de la variable
independiente multiplicadas por las unidades de la variable
dependiente).
Si la covarianza es aproximadamente cero, esto no quiere decir que no
pueda existir una relación entre las variables.
Caracterı́sticas:
−1 ⩽ ρ(x, y) ⩽ 1
ρ(x, y) = ρ(y, x)
Caracterı́sticas:
+ρ(x, y) si a > 0,
ρ(ax, y) =
−ρ(x, y) si a < 0.
ρ(x + c, y) = ρ(x, y), c constante
Si ρ(x, y) > 0, entonces y tiende a aumentar cuando lo hace x
(relación directa).
Si ρ(x, y) < 0, entonces y tiende a disminuir cuando lo hace x
(relación inversa).
Si ρ(x, y) ≈ 0, no existe relación lineal entre x y y.
Es sensible a datos atı́picos.
Es una medida adimensional.
Figure 18: Ejemplos datos bivariados con distintos valores de correlación y relación.