Está en la página 1de 77

Probabilidad y Estadı́stica Fundamental

Docentes:
Laura Camila Cruz de Paula
Cristian Camilo Parra Aldana
Departamento de Estadı́stica
Facultad de Ciencias
Universidad Nacional de Colombia

2023-IIS
Probabilidad y Estadı́stica Fundamental –1–

Contenido I

1 Estadı́stica Descriptiva
Conceptos básicos de estadı́stica.
Variables
Medidas descriptivas para variables no agrupadas
Medidas descriptivas para variables agrupadas
Descripciones gráficas y detección de datos atı́picos.
Gráficos engañosos
Medidas descriptivas para datos bivariados.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental –2–

Conceptos básicos de estadı́stica.

Motivación
La estadı́stica descriptiva es un conjunto de técnicas y procedimientos
estadı́sticos que ayudan a describir, mostrar y resumir, la información de
un conjunto de datos.

Población
Una población es un conjunto de personas, objetos o eventos, de los cuales
nos interesa estudiar algunas de sus caracterı́sticas.

Unidad de observación
Una unidad de observación es un grupo de elementos de una población, de
la cual se tiene, o es posible obtener, su información de manera conjunta.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental –3–

Conceptos básicos de estadı́stica.

Figure 1: Población - Muestra

Muestra
Una muestra es cualquier subconjunto de una población. Al número de
elementos de la muestra se le llama tamaño de la muestra.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental –4–

Variables

Variable
Una variable es una caracterı́stica de interés que posee cada elemento de
una población y que podemos medir.

Datos u Observaciones
Mediante el término datos se entiende al conjunto de observaciones de una
o varias variables de interés para todos los elementos de una muestra

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental –5–

Clasificación de variables

Variable Cuantitativa
Una variable es cuantitativa si sus valores son números y representan una
cantidad.
Ejemplo: Edad, Número de hijos de una familia, Estatura en cm, Masa en
Kg, Asignaturas inscritas por un estudiante en el semestre, Longitud en
pulgadas de un tornillo...

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental –6–

Clasificación de variables cuantitativas

Variables Discretas
Existe una cantidad finita o infinita numerable de valores de la variable
entre dos posibles valores cualesquiera de la misma.
Ejemplo: Edad en años, Número de llamadas que entran en una linea
telefónica en una hora, Número de piezas dañadas en un lote de
fabricación.

Variables Continuas
Existe una cantidad infinita no numerable de valores de la variable entre
dos posibles valores cualesquiera de la misma.
Ejemplo: cm3 de llenado en una botella, temperatura, ingreso salarial.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental –7–

Clasificación de variables

Variable Cualitativa
Una variable es cualitativa si sus valores representan una cualidad, un
atributo o una categorı́a. Se les llama también variables categóricas.
Ejemplo: Genero, Raza, Estrato Socio económico, Color Favorito, Estado
Civil.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental –8–

Clasificación de variables cualitativas

Variables Dicotómicas
Existen solo dos categorı́as.
Ejemplo: Estado de sobrevivencia (Vivo-Muerto), Estado de verdad
(Verdadero-Falso).

Variables Politómicas
Existen más de dos categorı́as.
Ejemplo: Estado Civil (Soltero-Casado-Divorciado-Viudo), Color Favorito
(Amarillo-Azul-Rojo...), El estado de un ticket de ayuda
(abierto-contestado-resuelto-cerrado-en proceso...).

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental –9–

Escalas de medición.

Medición
La medición es un proceso mediante el cual se asignan valores
cuantitativos o cualitativos a los atributos de los elementos objeto de
estudio, de acuerdo con unas reglas claramente preestablecidas.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 10 –

Escalas de medición.

Cualitativas
Cuantitativas Escala nominal: se clasifican los
Escala de intervalo: la individuos respecto a las
diferencia entre dos niveles del categorı́as del atributo.
atributo representa una distancia Ejemplo: tipo de material.
real que se mantiene para Escala ordinal: se clasifican los
intervalos semejantes. No posee individuos en una posición en
un cero absoluto. relación con los niveles del
Ejemplo: temperatura. atributo, pero sin precisar la
Escala de razón: el valor del distancia que hay entre las
cero es absoluto. posiciones.
Ejemplo: peso. Ejemplo: clasificación del pH
como ácido, neutro y básico.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 11 –

Tabla de frecuencias

Considerar el conjunto de datos x1 , x2 , · · · , xn de una variable X sin


agrupar y sean:
n : Número de casos de estudio.
C1 , · · · , Cm : Clases (categorı́as o valores) de la variable.
m : Número de clases

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 12 –

Tabla de frecuencias

Frecuencia Absoluta: La frecuencia absoluta nj de la clase Cj , es la


cantidad de observaciones que hacen parte de la j-ésima categorı́a
para j = 1, . . . , m.
0P≤ nj ≤ n
m
j=1 nj = n
Frecuencia Relativa:La frecuencia relativa hj de la clase Cj , es la
proporción de casos que hacen parte de la j-ésima categorı́a para
j = 1, . . . , m.
nj
hj =
n

0P≤ hj ≤ 1
m
j=1 hj = 1

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 13 –

Tabla de frecuencias

Frecuencia Absoluta Acumulada: La frecuencia absoluta


acumulada Nj de la clase Cj es la cantidad de individuos cuya
modalidad es inferior o igual a la j-ésima categorı́a:
j
X
Nj = nk
k=1

N1 = n1
Nm = n
N1 ≤ N2 ≤ . . . ≤ Nm

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 14 –

Tabla de frecuencias

Frecuencia Relativa Acumulada: La frecuencia relativa acumulada


Hj de la clase Cj es la proporción de individuos cuya modalidad es
inferior o igual a la j-ésima categorı́a:
j
X Nj
Hj = hk =
n
k=1

H1 = h1
Hm = 1
H1 ≤ H2 ≤ . . . ≤ Hm

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 15 –

Tabla de frecuencias

Distribución de frecuencias: Se llama distribución de frecuencias a


la tabla que contiene las categorı́as junto con las frecuencias
correspondientes.
Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
C1 n1 h1 N1 H1
.. .. .. .. ..
. . . . .
Cm nm hm n 1
Total n 1

Table 1: Distribución de Frecuencias

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 16 –

Agrupamiento de datos

Cuando no se tienen directamente las m clases para elaborar la tabla de


distribución de frecuencias se acostumbra definir las clases (intervalos) de
la siguiente manera:
1. Seleccionar el número de clases m. Para tal fin se distinguen tres
alternativas:
Elegir m arbitrariamente o teniendo en cuenta alguna consideración
previa. √
Regla empı́rica: m ≈ n (no es recomendable para muestras grandes).
Regla de Sturges: m ≈ 1 + 3.3 log(n)

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 17 –

Agrupamiento de datos

2. Calcular el mı́nimo y el máximo de la variable: xmin y xmax ,


respectivamente.
3. Calcular el rango de la variable: R = xmax − xmin
R
4. Calcular la amplitud de las clases: a = m
5. Definir las clases: Cj = {x : lj−1 < x ≤ lj } con lj =
lj−1 + a para j = 1, . . . , m, donde l0 = xmin
lj−1 +lj
6. Calcular las marcas de Clase: xj = 2
7. Calcular nj , hj , Nj , Hj en cada clase.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 18 –

Agrupamiento de datos

Ejemplo: Los siguientes datos están asociados con el peso (kg) de un


conjunto de materiales. Elaborar la distribución de frecuencias
correspondiente:
103.1, 82.1, 106.2, 100.9, 91.8 , 96.1 , 126.9, 119.8, 93.1, 86.8, 75.2,
93.0 , 82.3 , 94.8, 64.2 , 105.3, 108.0, 86.3 , 81.8 , 138.1, 92.5, 66.3,
66.6, 142.2, 96.5 , 74.8, 95.4 , 100.1, 81.9 , 112.0, 116.8, 103.2, 66.1,
60.4, 78.7

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 19 –

Agrupamiento de datos


n = 35 por lo tanto m ≈ 35 = 5.916 ≈ 6 y
m ≈ 1 + 3.3 log(35) = 6.095 ≈ 6.
xmin = 60.4 y xmax = 142.2.
R = xmax − xmin = 142.2 − 60.4 = 81.8.
a = 81.8
6 = 13.63.
Las clases resultantes son:
C1 = {x : l0 ≤ x ≤ l1 } donde l0 = 60.40 y l1 = 60.40 + 13.63 = 74.03.
C2 = {x : l1 < x ≤ l2 } donde l2 = 74.03 + 13.63 = 87.67.
C3 = {x : l2 < x ≤ l3 } donde l3 = 87.67 + 13.63 = 101.30.
C4 = {x : l3 < x ≤ l4 } donde l4 = 101.30 + 13.63 = 114.93.
C5 = {x : l4 < x ≤ l5 } donde l5 = 114.93 + 13.63 = 128.57.
C6 = {x : l5 < x ≤ l6 } donde l6 = 128.57 + 13.63 = 142.20.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 20 –

Agrupamiento de datos

Clase Marca Clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada


[60.40; 74.03] 67.2 5 14.3% 5 14.3%
(74.03; 87.67] 80.8 9 25.7% 14 40.0%
(87.67; 101.30] 94.5 10 28.6% 24 68.6%
(101.30; 114.93] 108.1 6 17.1% 30 85.7%
(114.93; 128.57] 121.7 3 8.6% 33 94.3%
(128.57; 142.20] 135.4 2 5.7% 35 100%
Total 35 100%

Table 2: Distribución de Frecuencias Datos Agrupados

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 21 –

Histograma de Frecuencias

Un histograma se construye a partir de la distribución de la frecuencias


asociando a cada clase un rectángulo que tiene a cada intervalo como base.
El criterio para calcular la altura (densidad) de cada rectángulo es
mantener la proporcionalidad entre la frecuencia y el área de cada
intervalo. Las densidades satisfacen
m
X
aj dj = 1
j=1

donde m es el número de intervalos, y aj y dj son respectivamente la


amplitud y la densidad del intervalo j.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 22 –

Histograma de Frecuencias

hj
Si la amplitud de los intervalos es constante, aj = a, entonces dj = a ,
donde hj es la frecuencia relativa del intervalo j.

Figure 2: Histograma

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 23 –

Medidas descriptivas para variables no agrupadas

Supongamos que tenemos un conjunto de n mediciones:

x1 , x2 , · · · , xn

Sobre las cuales tenemos 4 agrupaciones de medidas descriptivas dadas


por:
Tendencia central: Media, mediana, moda.
Localización: Cuantiles.
Variabilidad: Rango, rango intercuartı́lico, varianza, desviación
estándar, coeficiente de variación.
Forma: Coeficiente de curtosis, coeficiente de asimetrı́a

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 24 –

Medidas de tendencia central

Media
Considere el conjunto de datos x1 , x2 , ..., xn . La media se define como:
n
1X
m(x) = x̄ = xi
n
i=1

Caracterı́sticas:
Pn
La media es el centro de gravedad de los datos i=1 (xi − x̄) = 0
Es sensible a datos atı́picos
Sea x(1) el mı́nimo y x(n) el máximo, entonces x(1) ≤ x̄ ≤ x(n)
Sea x1 = x2 = · · · = xn = c tal que c ∈ R, entonces m(c) = c
sea x1 + c, x2 + c, · · · , xn + c, entonces m(x + c) = x̄ + c
sea cx1 , cx2 , · · · , cxn , entonces m(cx) = cx̄

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 25 –

Medidas de tendencia central

Mediana
Considere las observaciones x1 , x2 , · · · , xn ordenadas:

x(1) ≤ x(2) ≤ . . . ≤ x(n)



x si n es impar
 ( n+1
2 )


me(x) = x̃ =
 x( n2 ) +x( n2 +1)


2 si n es par

Caracterı́sticas:
Se calcula para variables medidas en al menos una escala ordinal
La mediana es robusta a datos atı́picos
Al igual que la media, la mediana se preserva bajo transformaciones
lineales.
Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS
Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 26 –

Medidas de tendencia central

Moda
La moda es el valor que aparece con mayor frecuencia en el conjunto de
datos, si lo hubiera.

Caracterı́sticas:
La moda puede no existir, por ejemplo, cuando todos los datos son
diferentes.
La moda puede existir y ser única (unimodal).
Pueden existir dos o más modas (bimodal o multimodal).
La moda es robusta a datos atı́picos.
La moda se preserva bajo transformaciones lineales.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 27 –

Medidas de localización
Cuantiles
Un cuantil es un número c tal que la proporción de valores xi que son
menores o iguales a c es al menos p ∗ 100% con 0 < p ≤ 1 y, al mismo
tiempo, la proporción de valores xi que son mayores o iguales a c es el
porcentaje complementario, esto es, el (1 − p) ∗ 100%.

# {xi : xi ⩽ c} # {xi : xi ⩾ c}
⩾p y ⩾ 1 − p.
n n

Figure 3: Ejemplo Cuantil al 20%

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 28 –

Medidas de localización

Caracterı́sticas:
El cuantil correspondiente p = 0 es el mı́nimo de los datos x(1)
El cuantil correspondiente p = 1 es el máximo de los datos x(n)
El cuantil correspondiente p = 0.5 es la mediana.
Los cuantiles correspondientes a p = 0.25, 0.50 0.75, se conocen
como cuartiles Q1 , Q2 , Q3
Los cuantiles correspondientes a p = 0.1, 0.2, ..., 0.9, se conocen
como deciles d1 , d2 , · · · , d9
Los cuantiles correspondientes a p = 0.01, 0.02, ..., 0.99, se conocen
como percentiles p1 , p2 , · · · , p99
Se preserva bajo transformaciones lineales

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 29 –

Medidas de variabilidad

Rango
Considere las observaciones ordenadas x(1) , x(2) , · · · , x(n) , el rango se
define como:
r(x) = x(n) − x(1)

Caracterı́sticas:
Está dado en las mismas unidades de la variable de estudio.
El rango no cambia cuando se añaden u omiten valores siempre y
cuando no sea el máximo o el mı́nimo. Es sensible a valores extremos.
Se preserva bajo transformaciones lineales.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 30 –

Medidas de variabilidad

Rango Intercuartı́lico
Es la diferencia entre el primer cuartil (Q1 ) y el tercer cuartil (Q3 )

RI(x) = Q3 − Q1

Caracterı́sticas:
Está dado en las mismas unidades de la variable de estudio.
En el rango intercuartı́lico se concentra el 50% de los datos.
Es una medida robusta a valores extremos.
Se preserva bajo transformaciones lineales.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 31 –

Medidas de variabilidad

Varianza Poblacional
Dado un conjunto de datos x1 , x2 , . . . , xn , la varianza se calcula como:
n
1X
v(x) = s = (xi − x̄)2
2
n
i=1

donde x̄ es la media de los datos.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 32 –

Medidas de variabilidad

Caracterı́sticas:
Está dada en las unidades de la variable de estudio al cuadrado.
Es sensible a datos atı́picos.
Se cumple v(x) ≥ 0.
Sea x1 = x2 = · · · = xn = c tal que c ∈ R, entonces v(c) = 0.
sea x1 + c, x2 + c, · · · , xn + c, entonces v(x + c) = v(x).
sea cx1 , cx2 , · · · , cxn , entonces v(cx) = c2 v(x).

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 33 –

Medidas de variabilidad

Desviación Estándar Poblacional


Dado un conjunto de datos x1 , x2 , . . . , xn , la desviación estándar se
calcula como: v
u n
u1 X
sd(x) = s = t (xi − x̄)2
n
i=1

donde x̄ es la media de los datos.


Caracterı́sticas:
Es la raı́z positiva de la varianza muestral.
Sea x1 = x2 = · · · = xn = c tal que c ∈ R, entonces sd(c) = 0.
sea x1 + c, x2 + c, · · · , xn + c, entonces sd(x + c) = sd(x).
sea cx1 , cx2 , · · · , cxn , entonces sd(cx) = |c|sd(x).

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 34 –

Medidas de variabilidad

Coeficiente de variación
Dado un conjunto de datos x1 , x2 , . . . , xn , el coeficiente de variación se
calcula como:
s
cv(x) =
| x̄ |
donde x̄ ̸= 0.

Caracterı́sticas:
Es una medida adimensional.
Es sensible a valores atı́picos.
Más de 15% la variación de los datos se considerada alta.
No se preserva bajo transformaciones lineales.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 35 –

Medidas de forma

Datos simétricos
Un conjunto de datos numéricos es simétrico si estas cantidades se
encuentran distribuidas simétricamente alrededor de la media.

Figure 4: Ejemplo de simetrı́a.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 36 –

Medidas de forma
Coeficiente de asimetrı́a
Dado un conjunto de datos x1 , x2 , ..., xn , el coeficiente de asimetrı́a se
calcula como:
n
!
1 1X
sk(x) = 3 (xi − x̄)3
s n
i=1

donde x̄ es la media y s3 = (s2 )3/2 siendo s2 la varianza poblacional.

Caracterı́sticas:
Es una medida adimensional.
sk(x) ≥ 0 si la distribución de los datos presenta una cola alargada a
la derecha.
sk(x) ≤ 0 si la distribución de los datos presenta una cola alargada a
la izquierda.
sk(x) = 0 si la distribución de los datos es simétrica.
Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS
Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 37 –

Medidas de forma

Figure 5: Asimetrı́a negativa y positiva.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 38 –

Medidas de forma

Curtosis
La curtosis es una medida del grado de concentración de los datos
alrededor de la media.

Figure 6: (a) Curva leptocúrtica, (b) mesocúrtica (c) platicúrtica.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 39 –

Medidas de forma

Coeficiente de curtosis
Dado un conjunto de datos x1 , x2 , ..., xn , el coeficiente de curtosis se
calcula como:
n
!
1 1X 4
k4 (x) = 4 (xi − x̄) − 3
s n
i=1

Siendo s4 = (s2 )2 con s2 la varianza poblacional.

Caracterı́sticas:
Es una medida adimensional.
Leptocúrtica (k4 > 0) : Decaimiento rápido, colas ligeras Fig 6(a).
Mesocúrtica (k4 = 0) : Curva normal Fig 6(b).
Platicúrtica (k4 < 0) : Decaimiento lento, colas amplias Fig 6(c).

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 40 –

Medidas descriptivas para datos agrupados

Supongamos un conjunto de datos x1 , x2 , . . . , xn de una variable continua.


Su respectiva tabla de frecuencias donde los datos se encuentran
agrupados por intervalos es:
Intervalo Marca de clase F. Absoluta F. Relativa F. Abs. Acumulada F. Rel. Acumulada
l0 − l1 x1 n1 h1 N1 H1
l1 − l2 x2 n2 h2 N2 H2
.. .. .. .. .. ..
. . . . . .
lm−1 − lm xm nm hm Nm Hm
lj−1 +lj
donde xj = 2 es la marca de clase del intervalo j.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 41 –

Medidas de tendencia central

Media
m m
1X X
m(x) = x̄ ≈ nj xj = hj xj
n
j=1 j=1

Mediana
 
0.5n − Nk−1
me(x) =≈ lk + ak
nk
donde k es el indice del primer intervalo cuya frecuencia relativa
acumulada es mayor o igual 50% y lk es el respectivo lı́mite inferior.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 42 –

Medidas de tendencia central

Moda
 
nk − nk−1
mo(x) ≈ lk + ak
2nk − nk−1 − nk+1
donde k es el ı́ndice del(de los) intervalo(s) con mayor frecuencia absoluta,
y lk el respectivo lı́mite inferior.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 43 –

Medidas de localización

Cuantiles Cp
 
(n)(p/100) − Nk−1
Cp (x) ≈ lk + ak
nk
donde k es el ı́ndice del primer intervalo cuya frecuencia relativa
acumulada es mayor o igual a p%.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 44 –

Medidas de Variabilidad

Rango Intercuartı́lico

RI(x) ≈ Q3 − Q1
donde Q1 y Q3 son los cuartiles para datos agrupados C25% , y C75%
respectivamente.

Varianza
m m
1X X
v(x) = s2 ≈ nj (xj − x̄)2 = hj (xj − x̄)2
n
j=1 j=1

donde xj es la marca de clase correspondiente a la clase j, y x̄ es la media


para datos agrupados.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 45 –

Medidas de Variabilidad

Desviación Estándar
v
√ u1 m
u X
sd(x) = 2
s ≈t nj (xj − x̄)2
n
j=1

donde xj es la marca de clase correspondiente a la clase j, y x̄ es la media


para datos agrupados.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 46 –

Medidas de Forma

Coeficiente de Asimetrı́a
 
m
1 1 X
sk(x) ≈ 3 nj (xj − x̄)3 
s n
j=1

donde xj es la marca de clase correspondiente a la clase j, x̄ y s2 son la


media y varianza poblacional para datos agrupados con s3 = (s2 )3/2 .

Coeficiente de Curtosis
 
m
1 1 X
k4 (x) ≈ 4  nj (xj − x̄)4  − 3
s n
j=1

donde xj es la marca de clase correspondiente a la clase j, x̄ y s2 son la


media y varianza poblacional para datos agrupados con s4 = (s2 )4/2

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 47 –

Descripciones gráficas

Explorar los datos mediante gráficas permite comprender la información de


manera más rápida y sencilla para identificar patrones y anomalı́as en la
distribución de los datos. Los tipos de gráficos más destacados son:
Diagrama de barras.
Diagrama de sectores o gráfico de pastel.
Histograma.
Diagrama de caja (boxplot).

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 48 –

Diagrama de Barras
En esta gráfica se representa cada categorı́a (o agrupamiento de valores)
mediante una barra de forma que la altura de la barra sea la frecuencia de
la categorı́a correspondiente.
Ejemplo
Supongamos un conjunto de 92 personas, de las cuales 50 son mujeres
(M) y 42 son hombres (H).

Figure 7: Ejemplo diagrama de barras

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 49 –

Diagrama de Sectores
Es un gráfico circular divido en sectores que corresponden a cada una de
las categorı́as de la variable. El tamaño del sector lo determina el ángulo
hj × 360◦ donde hj es la frecuencia relativa de la categorı́a j.
Ejemplo
Considere un grupo de 80 personas a quienes se les ha registrado su grupo
sanguı́neo. A continuación, se encuentra la tabla de frecuencias junto con
el gráfico de sectores.

G. Sanguı́neo nj hj θ
A 12 0.15 54◦
B 28 0.35 126◦
AB 16 0.20 72◦
O 24 0.30 108◦

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 50 –

Diagrama de caja (Boxplot)


Este gráfico consiste en una caja delimitada por los cuartiles Q1 y Q3 ,
adicional de los puntos referentes Q1 − 1.5RI y Q3 + 1.5RI que permite
caracterizar visualmente la localización, la dispersión, la simetrı́a y los
datos atı́picos de una variable cuantitativa.
Esquema del gráfico

Figure 8: Diagrama de caja (Boxplot.)

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 51 –

Valores Atı́picos y Valores Extremos (Outliers)


Un valor atı́pico o extremo es un valor que no se comporta como los
demás valores de la muestra, es un valor que no es imposible de obtener
pero es poco probable de obtener en la muestra.
Valores Atı́picos
xi > Q3 + 1.5RI o xi < Q1 − 1.5RI

Valores Extremos
xi > Q3 + 3RI o xi < Q1 − 3RI

Regla Empı́rica
Es útil cuando se tienen distribuciones simétricas cercanas a la distribución
normal.

xi > x̄ + 3s o xi < x̄ − 3s

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 52 –

Gráfico de lı́neas
Este gráfico permite visualizar los cambios de una variable cuantitativa a
lo largo de un rango continuo, como el tiempo o la distancia. Es útil para
describir la tendencia de una variable o comparar tendencias de distintas
variables.
Ejemplo de gráfico de lı́nea

Figure 9: Número de nuevos casos de covid 19 en Colombia desde el 18 de marzo


de 2020.
Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS
Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 53 –

Gráficos Engañosos

Los gráficos engañosos, más conocidos como misleading graphs, son


gráficos que tergiversan los datos, lo cual lleva a un mal uso de las
estadı́sticas y conclusiones incorrectas.
Alberto Cairo - Graphics Lies, Misleading Visuals
Según Alberto Cairo, la mayorı́a de las gráficas engañosas se basan en 3
estrategias:
1 Ocultar datos relevantes para resaltar lo que nos beneficia.
2 Mostrar demasiados datos para oscurecer la realidad.
3 Usar los tipos de gráficos de forma inapropiada (distorsionar los
datos).

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 54 –

Ocultar datos relevantes

Cambio porcentual de ventas


El objetivo del análisis es conocer el cambio porcentual de las ventas del
2013 respecto al 2012 de 10 empresas de un grupo financiero. El gráfico
de la derecha es un ejemplo de gráfico engañoso. ¿Por qué?.

Figure 10: Ejemplo tomado de Alberto Cairo.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 55 –

Mostrar demasiados datos

Nivel de pobreza en un paı́s


Ninguna de las siguientes gráficas es incorrecta, pero la primera es mejor si
nuestro objetivo es brindar una descripción resumida y clara de los datos.

Figure 11: Ejemplo tomado de Alberto Cairo. Los datos no son reales.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 56 –

Gráficos inapropiados
Elecciones presidenciales de Venezuela 2013
La siguiente imagen son los resultados electorales presentados por la
televisión venezolana para la presidencia de 2013. ¿Por qué es un gráfico
engañoso?

Figure 12: Imagen tomada de periódico EL MUNDO. Link:


https://www.elmundo.es/america/2013/04/15/venezuela/1366029653.html

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 57 –

Ejemplos de gráficos engañosos


¿Por qué este gráfico es engañoso?
Noticia de NBC 24 de agosto del 2012 acerca del bienestar federal en
Estados Unidos.

Figure 13: Número de personas que reciben bienestar federal en Estados Unidos.
Link: https://nbc24.com/news/nation-world/
jaw-dropping--over-100-million-now-on-federal-welfare
Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS
Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 58 –

Ejemplos de gráficos engañosos


¿Por qué este gráfico es engañoso?
Noticia de FOX news del 2011 acerca del ı́ndice de desempleo durante el
gobierno de Barack obama

Figure 14: Índice de desempleo. Link: https://www.msnbc.com/the-ed-show/


watch/fox-news-and-chart-trouble-43898435537

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 59 –

Ejemplos de gráficos engañosos


¿Por qué este gráfico es engañoso?
Noticia de FOX news del 2012 acerca de la favorabilidad de 3 candidatos
presidenciales.

Figure 15: Favorabilidad de candidatos republicanos. Link:


https://www.businessinsider.com/fox-news-charts-tricks-data-2012-11

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 60 –

Ejemplos de gráficos engañosos


¿Por qué este gráfico es engañoso?
Tweet de Dondald Trump en 2018 acerca de su favorabilidad en el 2018.

Figure 16: Favorabilidad de Donald Trump.Link:


https://www.instagram.com/p/BlrtJxQgNdy/?taken-by=realdonaldtrump

Compare lo anterior con la noticia del siguiente link:


https://www.nbcnews.com/politics/first-read/
nbc-wsj-poll-public-gives-trump-thumbs-down-russia-thumbs-n893266
Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS
Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 61 –

Formas de engaño

Las 3 estrategias descritas por Alberto Cairo se pueden materializar de la


siguiente forma:
Formas de engañar en los gráficos
Omitir el valor 0 en los ejes.
Manipular la escala del eje y.
En análisis de tiempo no graficar el rango de tiempo completo.
Usar el gráfico incorrecto. Por ejemplo, usar un diagrama de sectores
en vez de un gráfico de barras cuando los porcentajes no son
complementarios.
Usar convenciones, tamaños de letra y colores que confundan a la
audiencia.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 62 –

La mejor visualización

Alberto Cairo, en su libro El arte verdadero, enuncia las 5 cualidades que


toda visualización deberı́a tener:
Cualidades del gráfico ótimo
Veraz: Honestidad en el proceso de limpieza y resumen de datos. No
omitir datos.
Funcional: Facilidad de interpretar el gráfico con la mayor información
posible.
Belleza: Colores, tamaños de letra y estilo correctos.
Perspicaz: Los gráficos no deben replicar tablas, deben revelar de
forma creativa los datos para encontrar patrones y relaciones que no
se ven a simple vista (Insights).
Esclarecedora: Las cualidades anteriores se han complementado
correctamente y el gráfico produce revelaciones valiosas de los datos.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 63 –

Variables Categóricas

En este escenario se dispone de un conjunto de n individuos, cada uno de


ellos observado en dos atributos que en adelante se representan mediante
X y Y . Se supone que la variable X tiene k categorı́as, es decir, X asume
los valores x1 , x2 , . . . , xk , y que la variable Y tiene p categorı́as, es decir,
Y asume los valores y1 , y2 , . . . , yp

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 64 –

Tabla de Contingencia Frecuencias Absolutas

Se elabora una tabla de frecuencias conformada por k × p casillas o


categorı́as, denotadas con Cij , para i = 1, . . . , k y j = 1, . . . , p,
organizadas de tal forma que se tengan k filas y p columnas con las
categorı́as de las variables X y Y , respectivamente.

Tal estructura se denomina tabla de doble entrada o tabla de contingencia


o tabla de clasificación.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 65 –

Tabla de Contingencia Frecuencias Absolutas

La frecuencia absoluta conjunta de la clase Cij , denotada con nij , es la


cantidad de observaciones que hacen parte de la i-ésima fila y la j-ésima
columna para i = 1, . . . , k y j = 1, . . . , p
X/Y y1 y2 ··· yj ··· yp Total
x1 n11 n12 ... n1j ··· n1p n1·
x2 n21 n22 ··· n2j ··· n2p n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
xi ni1 ni2 ··· nij ··· nip ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
xk nk1 nk2 ··· nkj ··· nkp nk·
Total n·1 n·2 ··· n·j ··· n·j n

Table 3: Tabla de Contingencia Frecuencias Absolutas

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 66 –

Tabla de Contingencia Frecuencias Absolutas

Frecuencias Absolutas Marginales


p
X
Marginal Fila: ni• = ni1 + ni2 + . . . + nip = nij para i = 1, . . . , k
j=1

k
X
Marginal Columna: n•j = n1j + n2j + . . . + nkj = nij para j = 1, . . . , p
i=1

X p
k X k
X p
X
nij = ni• = n•j = n
i=1 j=1 i=1 j=1

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 67 –

Tabla de Contingencia Frecuencias Relativas


La frecuencia relativa conjunta de la clase Cij , denotada con hij , es la
proporción de la frecuencia absoluta conjunta de la ij-ésima categorı́a
respecto a la cantidad total de observaciones, esto es,
nij
hij =
n
para i = 1, . . . , k y j = 1, . . . , p
X/Y y1 y2 ··· yj ··· yp Total
x1 h11 h12 ... h1j ··· h1p h1·
x2 h21 h22 ··· h2j ··· h2p h2·
.. .. .. .. .. .. .. ..
. . . . . . . .
xi hi1 hi2 ··· hij ··· hip hi·
.. .. .. .. .. .. .. ..
. . . . . . . .
xk hk1 hk2 ··· hkj ··· hkp hk·
Total h·1 h·2 ··· h·j ··· h·j 1

Table 4: Tabla de Contingencia Frecuencias Relativas

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 68 –

Tabla de Contingencia Frecuencias Relativas

Frecuencias Relativas Marginales


p
X
Marginal Fila: hi• = hi1 + hi2 + . . . + hip = hij para i = 1, . . . , k
j=1

k
X
Marginal Columna: h•j = h1j + h2j + . . . + hkj = hij para j = 1, . . . , p
i=1

X p
k X k
X p
X
hij = hi• = h•j = 1
i=1 j=1 i=1 j=1

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 69 –

Perfiles o distribuciones condicionadas

Los perfiles fila están asociados con una tabla de doble entrada en la que
se calculan las frecuencias relativas conjuntas respecto a los totales de las
filas correspondientes. Análogamente, se definen los perfiles columna. A
partir de la definición, se tiene que la frecuencia relativa de la ij-ésima
categorı́a de una tabla de perfiles fila, denotada con hij|i• , está dada por:
nij
hij|i• =
ni•
mientras que la frecuencia relativa de la ij-ésima categorı́a de una tabla de
perfiles columna, denotada con hij|•j , se está dada por:
nij
hij|•j =
n•j

para i = 1, . . . , k y j = 1, . . . , p.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 70 –

Perfiles o distribuciones condicionadas

hij
hij|i• = para i = 1, . . . , k y j = 1, . . . , p.
hi•
hij
hij|•j = para i = 1, . . . , k y j = 1, . . . , p.
h•j
p
X
hij|i• = 1 para i = 1, . . . , k.
j=1
k
X
hij|•j = 1 para j = 1, . . . , p.
i=1

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 71 –

Variables Cuantitativas
Consideremos n individuos o unidades de observación sobre los cuales son
medidas dos variables cuantitativas x y y de tal manera que por cada
individuo se tienen n parejas de observaciones, ası́:

(x1 , y1 ), (x2 , y2 ), · · · , (xn , yn )


Lo que constituyen observaciones o datos bivariados,de manera gráfica se
usa el diagrama de dispersión que no es más que la representación de las
parejas de datos observados en el plano Cartesiano.

Figure 17: Gráfico de dispersión


Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS
Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 72 –

Covarianza
Covarianza
Sean (x1 , y1 ), (x2 , y2 ), · · · , (xn , yn ) observaciones bivariadas, la covarianza
muestral se define como:
n
1 X
cov(x, y) = sxy = (xi − x̄) (yi − ȳ)
n−1
i=1

Caracterı́sticas:
cov(x, y) = cov(y, x)
cov(x, x) = v(x)
cov(ax + b, cy + d) = ac.cov(x, y) con a, b, c, d constantes.
Si x y y son variables conmensurables, entonces

v(x + y) = v(x) + v(y) + 2cov(x, y)


v(x − y) = v(x) + v(y) − 2cov(x, y)

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 73 –

Covarianza

Caracterı́sticas:
Si cov(x, y) > 0, entonces y tiende a aumentar (disminuir) cuando
aumenta (disminuye) x (relación directa).
Si cov(x, y) < 0, entonces y tiende a disminuir (aumentar) cuando x
aumenta (disminuye) x (relación inversa).
Si cov(x, y) ≈ 0, entonces los puntos se reparten ”equitativamente”
alrededor de (x̄, ȳ).
cov(x, y) es sensible a datos atı́picos.
Está dada en unidades mixtas de medición (unidades de la variable
independiente multiplicadas por las unidades de la variable
dependiente).
Si la covarianza es aproximadamente cero, esto no quiere decir que no
pueda existir una relación entre las variables.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 74 –

Correlación Lineal de Pearson

Correlación Lineal de Pearson


Sean (x1 , y1 ), (x2 , y2 ), · · · , (xn , yn ) observaciones bivariadas, la correlación
lineal de Pearson se define como:
cov(x, y) cov(x, y) sxy
ρ(x, y) = rxy = p = =
v(x)v(y) sd(x)sd(y) sx sy
Pn
i=1 (xi −qx̄) (yi − ȳ)
ρ(x, y) = qP
n 2 Pn 2
i=1 (xi − x̄) i=1 (yi − ȳ)

Caracterı́sticas:
−1 ⩽ ρ(x, y) ⩽ 1
ρ(x, y) = ρ(y, x)

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 75 –

Correlación Lineal de Pearson

Caracterı́sticas:
+ρ(x, y) si a > 0,
ρ(ax, y) =
−ρ(x, y) si a < 0.
ρ(x + c, y) = ρ(x, y), c constante
Si ρ(x, y) > 0, entonces y tiende a aumentar cuando lo hace x
(relación directa).
Si ρ(x, y) < 0, entonces y tiende a disminuir cuando lo hace x
(relación inversa).
Si ρ(x, y) ≈ 0, no existe relación lineal entre x y y.
Es sensible a datos atı́picos.
Es una medida adimensional.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS


Estadı́stica Descriptiva Probabilidad y Estadı́stica Fundamental – 76 –

Correlación Lineal de Pearson

Figure 18: Ejemplos datos bivariados con distintos valores de correlación y relación.

Cruz & Parra Probabilidad y Estadı́stica Fundamental – UN 2023-IIS

También podría gustarte