Está en la página 1de 33

+

Probabilidades y Estadística
Otoño 2022
Profesor: Javier Olivas Linares
+ Parámetro y Estadígrafo
Parámetro:
Cantidad numérica que mide características de una
población.
Ejemplo: La altura media de los individuos de un país

La idea es resumir toda la información que hay en la


población en unos pocos números (parámetros).

Estadígrafo:
Cantidad numérica que mide características de una
muestra.

Ejemplo : La altura media de los que estamos en esta


sala: una muestra de la población.

Estos números permiten establecer conclusiones


acerca de la estructura de una muestra, y pueden
usarse como base para hacer inferencias.
+
Medidas Descriptivas

cuatro grupos:

• Medidas de forma
+

Aquellos valores hacia los cuales tienden a aglomerarse los datos de


una muestra. La mayoría de ellas trata de ubicar el centro de la
distribución.
Medidas de Tendencia Central
Las medidas de tendencia central o de resumen son valores que generalmente se
ubican en la parte central de la distribución de datos. Fundamentalmente estas
medidas se usan para variables cuantitativas, aportando una idea acerca del
comportamiento de la variable, por ejemplo el promedio de un conjunto de
datos. Entre las medidas de tendencia central más importantes están:

- Media aritmética.

- Moda.

- Mediana.
+ La Media Aritmética o Promedio
Es una de las medidas de tendencia central de mayor uso. Dada una colección
de datos X1,X2,....Xn. Entonces el promedio se define como la suma de los
datos dividida por el total de la muestra y se denota por: X

La Media o promedio para Datos No Agrupados x i


X  i 1
n
Ejemplo: Se tienen las notas de 20 alumnos de un curso. Éstas son:

6,8 5,1 6,2 5,8 4,5 5,0 6,0 5,7 4,2 3,8
3,8 5,8 3,7 5,0 4,8 5,9 5,7 6,1 5,8 6,2

6,8  5,1  6,2  5,8  4,5  5,0  6,0  5,7  4,2  3,8  3,8  5,8  3,7  5,0  4,8  5,9  5,7  6,1  5,8  6,2
X
20

105,9
X   5,295 La nota promedio del curso fue de 5,3
20
+La Media o Promedio para Datos Agrupados en intervalos
Si los datos están agrupados en una tabla de frecuencias se calcula la
media, multiplicando la marca de clase por la frecuencia de cada
intervalo. Se suman los resultados de cada multiplicación y se dividen
por el número total de datos.
Proteínas totales del plasma en prematuros
normales de 15 días de edad
Proteínas Frecuencia Marca de
(g/l) Absoluta Clase fi* xi k

fi xi  fi  x´i
40 – 45 2 42,5 85 X i 1
n
45 – 50 6 47,5 285
50 – 55 12 52,5 630
55 – 60 13 57,5 747,5 El promedio de concentración de
60 – 65 5 62,5 312,5 proteínas en el plasma, en niños
65 – 70 2 67,5 135 prematuros normales, es de 54,4 gramos.
Total 40 2195

(2 x 42,5)  (6 x 47,5)  (12 x52,5)  (13x57,5)  (5 x62,5)  (2 x67,5)


X 
40
2.195
X  54,9 gramos
40
Ventajas y Desventajas de la Media

Ventajas:
• Es sensible a cualquier cambio en los datos (puede ser usado como
detector de variaciones en los datos).

• Es un buen estimador puntual del parámetro poblacional.

Desventajas:
• Puede verse afectada por la presencia de valores extremos o atípicos
que no son representativos del conjunto de datos. En estos casos
podría resultar más representativo calcular la media sin tomar en
cuenta el valor extremo.

• Puede ser poco representativa en distribuciones que presentan


mucha asimetría.
La Moda
+
Es aquel valor que más se repite en una muestra y se denota por Mo.
La Moda para Datos No Agrupados

Ejemplo: Considere las siguientes notas de un curso de 20 alumnos

3,7 3,8 3,8 4,2 4,5 4,8 5,0 5,0 5,0 5,2
5,3 5,5 5,8 5,8 6,0 6,2 6,4 6,4 6,6 6,8
La nota más frecuente en el curso fue 5,0
La moda es el estadístico de centralización
adecuado si la variable está medida en escala También se utiliza la moda si la variable está
nominal: medida en escala ordinal o numérica discreta:

Distribución trabajadores por género Distribución del número de hijos en mujeres


Sexo Frecuencia Porcentaje post menopáusica
Masculino 63 18,42% Número hijos Frecuencia Porcentaje
Femenino 279 81,58% 0 14 4,17%
Total 342 100% 1 83 24,70%
Si la variable es continua, formalmente la 2 193 57,44%
moda no existe, pues es muy difícil que al 3 46 13,69%
sacar una muestra de números reales
dos o mas de ellos coincidan. Total 336 100%
+ Moda para Datos Agrupados en intervalos

Para calcularla debe ubicarse el intervalo que tiene la mayor frecuencia

 1 
Mo  Li    *A
 1   2 
Li : Límite inferior del intervalo que contiene la frecuencia mas alta
Δ1 : Diferencia entre la frecuencia mas alta y la del intervalo anterior
Δ2 : Diferencia entre la frecuencia mas alta y la del intervalo siguiente
A : Amplitud del intervalo

Ejemplo:
EDAD fi
16 – 20 8  5 
20 – 24
Mo  24    * 4  26,5
5  3
10
24 – 28 15
28 – 32 12
32 – 36 5 La moda o dato más frecuente de edad
en este grupo de datos, es de 26,5 años.
Li : 24 años A:4
Δ1 : 15-10=5 Δ2 : 15-12=3
Ventajas y Desventajas de la Moda

Ventajas:

• No se ve afectada por la presencia de valores extremos bajos o altos.

• Puede también aplicarse a datos cualitativos.

Desventajas:

• Puede no existir
• En conjuntos relativamente pequeños de datos pierde utilidad y dificulta su
interpretación.
+ La Mediana
Es aquel valor que divide la muestra en dos partes iguales. De
este modo, la mediana es el primer valor de la variable que deja
por debajo de sí al 50% de las observaciones. La mediana
corresponde al percentil 50 o Cuartil 2, (Mediana=P50=Q2).
Notemos que la mediana es tanto un estadígrafo de posición y de
centralización.

Mediana para Datos No Agrupados


+
Mediana para Datos No Agrupados

• Si n es impar: X(n  1)
Me  Me 
X(7  1)
 X4
2 2
X 4  10
Ejemplo: 5 7 7 10 12 18 25

El valor que divide la muestra en dos partes iguales, es 10

• Si n es par:

La mediana es igual al promedio de las dos posiciones centrales

Ejemplo: 5 7 7 10 12 18 25 32

Como la cantidad de datos es par, entonces la mediana corresponde al promedio


de los datos centrales, por lo tanto la mediana es 11.
Mediana para Datos agrupados en intervalos
Dividir el total de la muestra en dos (n/2) y buscar el intervalo que contenga la frecuencia
absoluta acumulada igual o mayor a n/2.

Donde:
 n   Li : Límite inferior del intervalo de la clase mediana
 2  ( Fianterior )   n : Número total de observaciones
Me  Li    * A Fianterior : Frecuencia acumulada hasta el intervalo anterior a
 fi   que contiene la mediana.
 fi : Frecuencia absoluta de la clase mediana.
   A : Amplitud de la clase mediana.
n/2 : Muestra/2. Clase mediana

Ejemplo: Distribución por edad de 975 individuos

EDAD fi Fi  487,5  430  


Me  55    *10  57,1
15 – 25 40 40  270  
Li : 55
25 – 35 67 107 n : 975
35 – 45 143 250 Fianterior : 430
fi : 270 El 50% de los individuos tiene 57,1
45 – 55 180 430 A : 10 años o menos
55 – 65 270 700 n/2 : 975/2= 487,5 El valor que divide la muestra en dos
65 – 75 275 975 partes iguales, es 57,1
Ventaja y desventajas de la Mediana

Ventaja:

• La más importante es que no se ve afectada como la media, por


datos con valores extremos. Por lo que al existir valores extremos
la mediana es más representativa que la media aritmética.

Desventajas:

• No utiliza toda la información disponible en su cálculo.


• No pondera cada valor por el número de veces que se repite.
Medidas de Posición No Central

Las medidas de posición no centrales permiten conocer otros


valores característicos de la distribución, que no son los valores
centrales, los que nos ayudan a ubicar un dato dentro de la
distribución. Entre las medidas de posición, están:

• Cuartiles
• Quintiles
• Deciles
• Percentiles
Cuartiles
Los cuartiles son valores que dividen a la muestra ordenada en forma
ascendente en 4 partes iguales, cada una de ellas con un 25% de las
observaciones.

El 75% de los datos están por debajo de este valor.


Quintiles
Los quintiles son valores que dividen a la muestra ordenada en forma
ascendente en 5 partes iguales, cada una de ellas con un 20% de las
observaciones.
Deciles

Los deciles son valores que dividen a la muestra ordenada en forma


ascendente en 10 partes iguales, cada una de ellas con un 10% de las
observaciones.
Percentiles
Si los datos se encuentren tabulados se deben seguir los siguientes
pasos:
1. Calcular frecuencias acumuladas simples ( Fi )
2. Determinar el intervalo, en el cual el primer Fi supere a  k n 
 100 
 kn 
  Fianterior 
Pk  LI   100  A
 fi 
 
 
LI : Límite inferior del intervalo que contiene al percentil
n : Total de observaciones
Fianterior : Frecuencia acumulada del intervalo anterior
fi : Frecuencia absoluta del intervalo que contiene al percentil
A : Amplitud del intervalo
Medidas de Dispersión
Alumno Calificaciones Promedio
DIEGO 4,0 4,0 4,0 4,0 4,0 4,0 4,0 4,0

NATALIA 2,0 3,0 7,0 4,0 6,0 5,0 1,0 4,0

Se puede observar que ambos alunmos tienen idéntico rendimiento


promedio. Sin embargo ¿quién tiene rendimiento más homogéneo?, por
inspección vemos que DIEGO, pues obtuvo sólo notas 4.0, mientras que
NATALIA obtuvo toda la gama de notas. Para contestar la pregunta
propuesta mediante el uso de indicadores estadísticos se desarrollaron
los estadígrafos de variabilidad o medidas de Dispersión.

Las Medidas de Dispersión dan un valor de la diferencia o variabilidad


de los datos, tomando como referencia la media. Indican que tan
alejados están los datos con respecto a su media.
Rango o Recorrido
Se define el rango o recorrido de los datos como la distancia que existe
entre el dato de mayor valor (máximo) y el de menor valor (mínimo).

Rango  Xmáx  Xmín

Para el ejemplo anterior:


Rango(Calificaciones de Natalia) = 7,0 – 1,0 = 6
Rango(Calificaciones de Diego) = 4,0 – 4,0 = 0

Se puede observar que mientras mas heterogénea es la colección de


datos mayor es el valor del rango. Sin embargo el Rango puede
exagerar el grado de heterogeneidad del los datos, para prevenir este
hecho se prefiere usar como medida de variabilidad otro tipo de Rango,
denominado Rango intercuartílico.
Rango Intercuartílico
Dado que el rango puede exagerar el grado de
heterogeneidad del los datos, para prevenir este hecho
se prefiere usar como medida de variabilidad e rango
intercuartílico, que corresponde a la distancia entre RIC= C3-C1
primer y tercer cuartil. Esta medida, no es tan sensible a
valores extremos.
Ejemplo:
A continuación se presentan los estadígrafos de resumen de la variable edad,
medida en un grupo de 30 pacientes

En esta salida se han


destacado en negritas los
tres cuartiles,
C1=31 años
C2=35 años
C3=45 años

RIC= 45-31=14
Varianza
Varianza para datos no agrupados
Mide la dispersión de los datos con respecto a su media, su calculo es la media de
las diferencias cuadráticas de cada observación con su media. Es representada
como σ2 cuando es la varianza poblacional y S2 varianza muestral. Describe la
variabilidad de los datos alrededor de la media: es grande cuando hay mucha
dispersión y pequeña cuando hay poca dispersión.

( ) ( ) ( )
2 2 2
X1- X + X2 - X +... + Xn- X
S2 =
n-1
Ejemplo: Consideremos las calificaciones de 2 alumnos: Natalia y Diego
Desvío de las notas,
Nota respecto del
promedio

2 2 – 4 = -2
3 3 – 4 = -1
7 7–4= 3
4 4–4= 0
( 2)  ( 1)  (3)  0  2  1  ( 3)
2 2 2 2 2 2 2
S2  6 6–4= 2
7 1 5 5–4= 1
4 1 9  0  4 1 9 28 1 1 – 4 = -3
S2    4,67
6 6 Total 28
Varianza para datos Agrupados
Cada desviación de la marca de clase,
X ´1  X  * f 1  X ´2  X  * f 2  ...  X ´n  X  * fn
respecto de la media, se eleva al cuadrado 2 2 2

y se multica por la frecuencia absoluta de S2 


cada intervalo. Al final se suman todos los n 1
valores y se dividen por n-1.
Proteínas totales del plasma en prematuros normales de 15 días de edad. Clínica Las Lilas
Proteínas (g/l) Frecuencia
Absoluta (fi)
Marca de Clase
(X´i)
fi * X´i X ´i  X X ´i  X 2
X ´i  X  . fi
2

40 – 45 2 42,5 85 -12,4 153,76 307,52


45 – 50 6 47,5 285 -7,4 54,76 328,56
50 – 55 12 52,5 630 -2,4 5,76 69,12
55 – 60 13 57,5 747,5 2,6 6,76 87,88
60 – 65 5 62,5 312,5 7,6 57,76 288,8
65 – 70 2 67,5 135 12,6 158,76 317,52
Total 40 2195 437,56 1399,4
El primer paso es calcular 2 * 42,5  6 * 47,5  12 * 52,5  13 * 57,5  5 * 62,5  2 * 67,5 2.195
X   54,9 gramos
el promedio: 40 40
Varianza :

S 2

42,5  54,9 * 2  47,5  54,9 * 6  52,5  54,9 *12  57,5  54,9 *13  62,5  54,9 * 5  67,5  54,9 * 2
2 2 2 2 2 2

39

S 2  35,88
Desviación estándar para datos No Agrupados
La desviación estándar describe la variabilidad de los datos alrededor de la
media. Corresponde a la raíz cuadrada de la varianza. Se denota por la S si se
mide en la muestra y σ si se mide en la población.

S= S2
Ejemplo: Consideremos las calificaciones de 2 alumnos Natalia y Diego:
Desvío de las
Nota notas, respecto del
promedio
2 2 – 4 = -2
3 3 – 4 = -1
7 7–4= 3
4 4–4= 0
(2) 2  (1) 2  (3) 2  (0) 2  (2) 2  (1) 2  (3) 2 6 6–4= 2
Varianza  S  2
 4,67
7 1 5 5–4= 1
1 1 – 4 = -3

DesviaciónEstándar = S= 4, 67 = 2, 2 Total 28

Interpretación: “la mayoría de los datos está entre el promedio menos la desviación y el
promedio más la desviación”, lo que en el ejemplo es:
La mayoría de las notas de Natalia están entre 4 - 2.2 y 4 + 2.2, es decir entre 1.8 y 6.2.
Desviación Estándar para datos Agrupados

S
X ´i  X  * fi
2
ó 2
n 1 S= S
Proteínas totales del plasma en prematuros normales de 15 días de edad
Proteínas (g/l) Frecuencia
Absoluta (fi)
Marca de
Clase (X`i) fi * X´i X ´i  X X ´i  X 
2
X ´i  X  . fi
2

40 – 45 2 42,5 85 -12,4 153,76 307,52


45 – 50 6 47,5 285 -7,4 54,76 328,56
50 – 55 12 52,5 630 -2,4 5,76 69,12
55 – 60 13 57,5 747,5 2,6 6,76 87,88
60 – 65 5 62,5 312,5 7,6 57,76 288,8
65 – 70 2 67,5 135 12,6 158,76 317,52
Total 40 2195 437,56 1399,4

Varianza :

S 2

42,5  54,9 * 2  47,5  54,9 * 6  52,5  54,9 *12  57,5  54,9 *13  62,5  54,9 * 5  67,5  54,9 * 2
2 2 2 2 2 2

39

La mayoría de las concentraciones de proteínas en el


S = 35,88 = 5, 99 plasma, están entre 54,4 -5,99 y 54,4 + 5,99, es decir
entre 48,41 y 60,39.
Coeficiente de Variación
Es una medida que permite interpretar el grado de heterogeneidad entre
los datos y comparar el nivel de dispersión de dos muestras de variables
diferentes. Entre menor es el valor, más homogéneos son los datos. Se
calcula como el cociente entre la desviación estándar y el promedio,
multiplicado por 100.

S
CV  100%
X

Para el ejemplo de las 2,2


calificaciones de Natalia, CV  100%  55%
encontramos : 4
Es decir un 55% de variabilidad o dispersión, que es ALTO.
Coeficiente de Variación

0 1
Datos menos dispersos Datos más dispersos
(más homogéneos) (más heterogéneos)

Homogéneo: Uniforme, semejante, similar, idéntico.


Heterogéneo: Diverso, variado, mezclado, distinto.

Observación: Expresado en porcentaje el coeficiente de


variación toma valores desde 0% al 100%.
Box Plot o gráfico de cajas y bigotes
El Box Plot es un gráfico muy útil que
reúne los conceptos de centralización,
simetría y variabilidad, el cual permite
comparar el comportamiento de la
variable.

Valores
Outlier
o
atípicos
Box Plot o gráfico de cajas y bigotes
Interpretación de una salida

• El rango de edad de este grupo de pacientes, está entre 16 y 58 años.


•La edad promedio es de 36,13 años.
•El 25% de las personas tiene 31 años o menos.
•El 50% de las personas tiene 35 años o menos.
•La mayoría de las edades se concentra entre 36,13±10,5, es decir, entre 35,6
y 46,6 años.
•La varianza es de 109,4
•Los datos tienen una variabilidad de 28,9%, es decir una variabilidad
moderada.
+

F
I
N

También podría gustarte