Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidades y Estadística
Otoño 2022
Profesor: Javier Olivas Linares
+ Parámetro y Estadígrafo
Parámetro:
Cantidad numérica que mide características de una
población.
Ejemplo: La altura media de los individuos de un país
Estadígrafo:
Cantidad numérica que mide características de una
muestra.
cuatro grupos:
• Medidas de forma
+
- Media aritmética.
- Moda.
- Mediana.
+ La Media Aritmética o Promedio
Es una de las medidas de tendencia central de mayor uso. Dada una colección
de datos X1,X2,....Xn. Entonces el promedio se define como la suma de los
datos dividida por el total de la muestra y se denota por: X
6,8 5,1 6,2 5,8 4,5 5,0 6,0 5,7 4,2 3,8
3,8 5,8 3,7 5,0 4,8 5,9 5,7 6,1 5,8 6,2
6,8 5,1 6,2 5,8 4,5 5,0 6,0 5,7 4,2 3,8 3,8 5,8 3,7 5,0 4,8 5,9 5,7 6,1 5,8 6,2
X
20
105,9
X 5,295 La nota promedio del curso fue de 5,3
20
+La Media o Promedio para Datos Agrupados en intervalos
Si los datos están agrupados en una tabla de frecuencias se calcula la
media, multiplicando la marca de clase por la frecuencia de cada
intervalo. Se suman los resultados de cada multiplicación y se dividen
por el número total de datos.
Proteínas totales del plasma en prematuros
normales de 15 días de edad
Proteínas Frecuencia Marca de
(g/l) Absoluta Clase fi* xi k
fi xi fi x´i
40 – 45 2 42,5 85 X i 1
n
45 – 50 6 47,5 285
50 – 55 12 52,5 630
55 – 60 13 57,5 747,5 El promedio de concentración de
60 – 65 5 62,5 312,5 proteínas en el plasma, en niños
65 – 70 2 67,5 135 prematuros normales, es de 54,4 gramos.
Total 40 2195
Ventajas:
• Es sensible a cualquier cambio en los datos (puede ser usado como
detector de variaciones en los datos).
Desventajas:
• Puede verse afectada por la presencia de valores extremos o atípicos
que no son representativos del conjunto de datos. En estos casos
podría resultar más representativo calcular la media sin tomar en
cuenta el valor extremo.
3,7 3,8 3,8 4,2 4,5 4,8 5,0 5,0 5,0 5,2
5,3 5,5 5,8 5,8 6,0 6,2 6,4 6,4 6,6 6,8
La nota más frecuente en el curso fue 5,0
La moda es el estadístico de centralización
adecuado si la variable está medida en escala También se utiliza la moda si la variable está
nominal: medida en escala ordinal o numérica discreta:
1
Mo Li *A
1 2
Li : Límite inferior del intervalo que contiene la frecuencia mas alta
Δ1 : Diferencia entre la frecuencia mas alta y la del intervalo anterior
Δ2 : Diferencia entre la frecuencia mas alta y la del intervalo siguiente
A : Amplitud del intervalo
Ejemplo:
EDAD fi
16 – 20 8 5
20 – 24
Mo 24 * 4 26,5
5 3
10
24 – 28 15
28 – 32 12
32 – 36 5 La moda o dato más frecuente de edad
en este grupo de datos, es de 26,5 años.
Li : 24 años A:4
Δ1 : 15-10=5 Δ2 : 15-12=3
Ventajas y Desventajas de la Moda
Ventajas:
Desventajas:
• Puede no existir
• En conjuntos relativamente pequeños de datos pierde utilidad y dificulta su
interpretación.
+ La Mediana
Es aquel valor que divide la muestra en dos partes iguales. De
este modo, la mediana es el primer valor de la variable que deja
por debajo de sí al 50% de las observaciones. La mediana
corresponde al percentil 50 o Cuartil 2, (Mediana=P50=Q2).
Notemos que la mediana es tanto un estadígrafo de posición y de
centralización.
• Si n es impar: X(n 1)
Me Me
X(7 1)
X4
2 2
X 4 10
Ejemplo: 5 7 7 10 12 18 25
• Si n es par:
Ejemplo: 5 7 7 10 12 18 25 32
Donde:
n Li : Límite inferior del intervalo de la clase mediana
2 ( Fianterior ) n : Número total de observaciones
Me Li * A Fianterior : Frecuencia acumulada hasta el intervalo anterior a
fi que contiene la mediana.
fi : Frecuencia absoluta de la clase mediana.
A : Amplitud de la clase mediana.
n/2 : Muestra/2. Clase mediana
Ventaja:
Desventajas:
• Cuartiles
• Quintiles
• Deciles
• Percentiles
Cuartiles
Los cuartiles son valores que dividen a la muestra ordenada en forma
ascendente en 4 partes iguales, cada una de ellas con un 25% de las
observaciones.
RIC= 45-31=14
Varianza
Varianza para datos no agrupados
Mide la dispersión de los datos con respecto a su media, su calculo es la media de
las diferencias cuadráticas de cada observación con su media. Es representada
como σ2 cuando es la varianza poblacional y S2 varianza muestral. Describe la
variabilidad de los datos alrededor de la media: es grande cuando hay mucha
dispersión y pequeña cuando hay poca dispersión.
( ) ( ) ( )
2 2 2
X1- X + X2 - X +... + Xn- X
S2 =
n-1
Ejemplo: Consideremos las calificaciones de 2 alumnos: Natalia y Diego
Desvío de las notas,
Nota respecto del
promedio
2 2 – 4 = -2
3 3 – 4 = -1
7 7–4= 3
4 4–4= 0
( 2) ( 1) (3) 0 2 1 ( 3)
2 2 2 2 2 2 2
S2 6 6–4= 2
7 1 5 5–4= 1
4 1 9 0 4 1 9 28 1 1 – 4 = -3
S2 4,67
6 6 Total 28
Varianza para datos Agrupados
Cada desviación de la marca de clase,
X ´1 X * f 1 X ´2 X * f 2 ... X ´n X * fn
respecto de la media, se eleva al cuadrado 2 2 2
S 2
42,5 54,9 * 2 47,5 54,9 * 6 52,5 54,9 *12 57,5 54,9 *13 62,5 54,9 * 5 67,5 54,9 * 2
2 2 2 2 2 2
39
S 2 35,88
Desviación estándar para datos No Agrupados
La desviación estándar describe la variabilidad de los datos alrededor de la
media. Corresponde a la raíz cuadrada de la varianza. Se denota por la S si se
mide en la muestra y σ si se mide en la población.
S= S2
Ejemplo: Consideremos las calificaciones de 2 alumnos Natalia y Diego:
Desvío de las
Nota notas, respecto del
promedio
2 2 – 4 = -2
3 3 – 4 = -1
7 7–4= 3
4 4–4= 0
(2) 2 (1) 2 (3) 2 (0) 2 (2) 2 (1) 2 (3) 2 6 6–4= 2
Varianza S 2
4,67
7 1 5 5–4= 1
1 1 – 4 = -3
DesviaciónEstándar = S= 4, 67 = 2, 2 Total 28
Interpretación: “la mayoría de los datos está entre el promedio menos la desviación y el
promedio más la desviación”, lo que en el ejemplo es:
La mayoría de las notas de Natalia están entre 4 - 2.2 y 4 + 2.2, es decir entre 1.8 y 6.2.
Desviación Estándar para datos Agrupados
S
X ´i X * fi
2
ó 2
n 1 S= S
Proteínas totales del plasma en prematuros normales de 15 días de edad
Proteínas (g/l) Frecuencia
Absoluta (fi)
Marca de
Clase (X`i) fi * X´i X ´i X X ´i X
2
X ´i X . fi
2
Varianza :
S 2
42,5 54,9 * 2 47,5 54,9 * 6 52,5 54,9 *12 57,5 54,9 *13 62,5 54,9 * 5 67,5 54,9 * 2
2 2 2 2 2 2
39
S
CV 100%
X
0 1
Datos menos dispersos Datos más dispersos
(más homogéneos) (más heterogéneos)
Valores
Outlier
o
atípicos
Box Plot o gráfico de cajas y bigotes
Interpretación de una salida
F
I
N