Está en la página 1de 23

UNIVERSIDAD PERUANA

LOS ANDES

FACULTAD DE INGENIERÍA
Escuela Profesional de Ingeniería de Sistemas y
Computación

Asignatura:
ESTADISTICA
Dr. Casio Aurelio Torres López
Email: d.ctorres@upla.edu.pe
HUANCAYO - 2023
UNIDAD ESTADISTICA DESCRIPTIVA:
PROCESAMIENTO Y ANALISIS DE
II DATOS

TEMA: Resumen, análisis e


interpretación de datos

Objetivo:
Interpretar los resultados obtenidos
diferenciando si son variables
cuantitativas o cualitativas.

Dr. Casio A. Torres López Estadística


✓ Se utiliza mayormente cuando la característica en estudio se ha medido en
escala nominal u ordinal.
✓ La moda es la observación que mayormente se repite ( o es la observación
que posee la mayor frecuencia).
✓ Nota: En una distribución puede existir dos o mas modas

PARA DATOS AGRUPADOS

❑ MEDIA ARITMETICA (𝑿)


𝒇𝟏 𝑿𝟏+𝒇𝟐𝑿𝟐+ …+ 𝒇𝒎 𝑿𝒎
Fórmula: ഥ
𝑿 = donde: 𝑋1 , 𝑋2 , … 𝑋𝑚 son marcas de clase
𝒇𝟏 + 𝒇𝟐 + …+ 𝒇𝒎
𝑓1 , 𝑓2 , … , 𝑓𝑚 ∶ son frecuencias absolutas que corresponden a las marcas de
clases
m : número de clases o intervalos
Fórmula abreviada:
𝒎
ഥ = σ𝒊=𝟏𝒎 𝒇𝒊 .
𝑿
𝑿𝒊
σ 𝒊=𝟏 𝒇𝒊

❖ Ejemplo: La siguiente Tabla de distribución de frecuencias se refiere a las


edades de 40 personas. Se pide encontrar la edad promedio
A. MEDIDAS DE TENDENCIA CENTRAL
PARA DATOS NO AGRUPADOS
▪ Permiten hallar un solo valor numérico e indican el centro de un conjunto de datos

➢ MEDIA ARITMETICA (𝑿)


✓ Denominada también promedio, se considera como un valor representativo del
conjunto de datos que se está estudiando y caracteriza a toda una distribución.

𝑿𝟏+ 𝑿𝟐 +⋯𝑿𝑵 σ𝑵
𝒊=𝟏 𝑿𝒊
ഥ =
𝑿 o ഥ=
𝑿
𝑵 𝑵

✓ La media aritmética puede ser una valor positivo, cero o una valor negativo
✓ Si a los valores que estamos analizando le sumamos o restamos una constante,
el valor de la nueva media aritmética quedaría como la media aritmética de los
datos originales mas o menos la constante que se ha agregado.
✓ Si a cada valor de la serie le multiplicamos por una constante, la nueva media
aritmética sería igual a la media aritmética original multiplicada por la
constante.
✓ La suma de las desviaciones de los datos con respecto a la media es cero:
✓ σ𝑵 ഥ
𝒊=𝟏 𝑿𝒊 − 𝑿 = 0
➢ MEDIANA (Me)

✓ Es un valor que divide a la distribución ordenada en forma ascendente o


descendente en dos grupos iguales, es decir, a cada grupo le corresponde el
50% de los datos.
✓ Para calcular el valor de la mediana de los datos 𝑋1 , 𝑋2 , … , 𝑋𝑁 ,
1. Se ordenan los datos en forma ascendente o descendente
2. Si N es impar, el valor de la mediana es el valor del centro
Me = 𝑿(𝑵+𝟏)/𝟐 donde (N+1)/2 es la posición de la mediana
3. Si N es par, el valor de la median estará dado por:

𝑿𝑵/𝟐 + 𝑿 𝑵
( +𝟏)
Me = 𝟐
El valor de la mediana se encuentra entre los valores
𝟐
cuya posición son; N/2 y N/2+1
✓ El valor de la mediana puede o no coincidir con uno de los datos que se están
analizando.
✓ Nota: La media aritmética se considera una medida mas estable de muestra en
muestra que la mediana, porque en su cálculo intervienen todos los valores

✓ MODA (Mo)
EDAD 𝒇𝒊 𝑿𝒊 𝒇𝒊 . 𝑿 𝒊
(en años)
5–9 3 7 21
10 – 14 9 12 108
15 – 19 15 17 255
20 – 24 8 22 176
25 - 29 5 27 135
Total 40 695
695
ഥ =
𝑿 = 17.38 años de edad
40

✓ Cuando los valores de 𝑋𝑖 tienen pesos o ponderaciones dados por β𝑖 ,


entonces se tiene una media ponderada.
𝜷𝟏 . 𝑿𝟏 + 𝜷𝟐 . 𝑿𝟐 + …+ 𝜷𝒌 . 𝑿𝒌
𝑿 =
𝜷𝟏 + 𝜷𝟐 + …+ 𝜷𝒌

❖ Ejemplo: Para determinar el promedio final de un estudiante en el curso de


Estadística se tiene tres componentes con diferentes ponderaciones:

❖ años) Componentes de la Ponderaciones


variable • 𝒇𝒊
𝑋1 : Práctica calificada • 𝑿𝒊 β1 : 2
𝑋2 : Trabajos prácticos β2 : 1
𝑋3 : Examen parcial β3 : 3
✓ Si un estudiante obtiene en : Practica calificada 13, Trabajos prácticos 15 y
en Examen parcial 11, entonces su promedio final es:
2 𝑥 13+1 𝑥 15+3 𝑥 11 74
𝑋𝑝 = = = 12.33
2+1+3 6

❑ MEDIANA (Me)
𝑵
− 𝑭𝒊 −𝟏
Fórmula: Me = 𝑳𝒊 + 𝟐
x C
𝒇𝑴𝒆

donde:
N/2 : Posición de la Me
𝐿𝑖 : Límite real inferior de la clase que contiene la Me
N : Número total de observaciones
𝐹𝑖 −1 : Frecuencia absoluta acumulada de la clase anterior a la que
contiene a la Me (clase mediana)
𝑓𝑀𝑒 : Frecuencia absoluta de la clase que contiene a la Me
C : Amplitud de la clase que contiene a la Me
Clase mediana: Es la primera clase cuya frecuencia absoluta acumulada
excede a N/2.
❖ Ejemplo: Hallar la mediana (Me) de la siguiente distribución (la tabla
corresponde al ejemplo anterior para el cálculo de la media aritmética).
Variable 𝒇𝒊 𝑭𝒊
5–9 3 3
10 – 14 9 12
15 – 19 15 27
20 – 24 8 35
25 - 29 5 40
Total 40
• Procedimiento:
✓ Calcular las frecuencias acumuladas
✓ Calcular N/2 = 40/2 = 20, sirve para ubicar la clase mediana
✓ Ubicar la clase mediana: Clase cuyo 𝐹𝑖 excede a 20 (15 – 19)
✓ De la clase mediana se obtiene:
𝐿𝑖 = 14.5 𝐹𝑖 −1 = 12 C=5 𝑓𝑀𝑒 = 15

20 −12
Entonces la Me = 14.5 + x 5 = 17.17 años de edad
15

✓ Interpretación: El 50% de las edades de las personas están por debajo de


17.17 años de edad y el 50% están por encima de los 17.17 años de edad.
❑ MODA (Mo)
En una tabla de distribución de frecuencias es aproximadamente la marca
de clase o punto medio de la clase que contiene la mayor frecuencia absoluta
simple.
❖ Ejemplo: En la tabla del ejemplo anterior, la moda estará ubicado en el
intervalo:

Variable 𝒇𝒊

15 - 19 15
14.5+19.5
Donde la marca de clase es = 17.0
2
Luego, la Mo = 17.0

B. MEDIDAS DE POSICION

❑ LOS CUANTILES
Son aquellos que dividen a la distribución en cuatro, diez o cien partes
iguales.
❑ Cuartiles (Q)
✓ Son aquellos que dividen a la distribución en cuatro partes iguales, en
donde cada uno de ellos incluyen el 25% de las observaciones.
✓ Fórmulas:
𝑵
− 𝑭𝒊 −𝟏
𝑸𝟏 = 𝑳𝒊 + 𝟒
x C
𝒇𝑸
𝟏

𝑸𝟐 = Me
𝟑
𝑵 − 𝑭𝒊 −𝟏
𝑸𝟑 = 𝑳𝒊 + 𝟒
x C
𝒇𝑸
𝟑

Donde:
𝐿𝑖 : Límite real inferior de la clase que contiene el 𝑄1 𝑜 𝑄3
𝐹𝑖 −1 : Frecuencia absoluta acumulada de la clase anterior a la que contiene
a 𝑄1 𝑜 𝑄3
𝑓𝑄1 𝑜 𝑓𝑄3 : Frecuencia absoluta de la clase que contiene el 𝑄1 𝑜 𝑄3
C : Ancho de la clase que contiene el 𝑄1 𝑜 𝑄3

❑ Deciles (D)
✓ Son aquellos que dividen a la distribución en diez partes iguales, en donde
cada uno de ellos incluyen el 10% de las observaciones.
✓ Fórmulas:
𝑵
− 𝑭 𝒊 −𝟏
𝑫 𝟏 = 𝑳𝒊 + 𝟏𝟎
x C
𝒇𝑫
𝟏

𝑫𝟓 = Me
𝟕
𝑵 − 𝑭𝒊 −𝟏
𝑫 𝟕 = 𝑳𝒊 + 𝟏𝟎
x C
𝒇𝑫
𝟕

Donde:
𝐿𝑖 : Límite real inferior a la clase que contiene el 𝐷1 𝑜 𝐷7
𝐹𝑖 −1 : Frecuencia absoluta acumulada de la clase anterior a la que contiene
el 𝐷1 𝑜 𝐷7
𝑓𝐷1 o 𝑓𝐷7 : Frecuencia absoluta simple de la clase que contiene el 𝐷1 𝑜 𝐷7
C : Ancho de la clase que contiene el 𝐷1 𝑜 𝐷7

❑ Percentiles (P)
✓ Son aquellos que dividen a la distribución en 100 partes iguales, en donde
cada uno de ellos incluye el 1 % de las observaciones.
✓ Fórmulas:
𝟏𝟎 𝑵
− 𝑭𝒊 −𝟏
𝑷𝟏𝟎 = 𝑳𝒊 + 𝟏𝟎𝟎
x C
𝒇𝑷
𝟏𝟎
✓ Para el percentil 60:
𝟔𝟎 𝑵
− 𝑭𝒊 −𝟏
𝑷𝟔𝟎 = 𝑳𝒊 + 𝟏𝟎𝟎
x C
𝒇𝑷
𝟔𝟎
✓ C : Ancho de la clase que contiene al 𝑃10 𝑜 𝑃60
❖ Ejemplo: En la siguiente distribución de frecuencias, calcular 𝑄3 (los
cuartiles, deciles y percentiles se calculan en forma similar).

Variable 𝒇𝒊 𝑭𝒊
55 – 58 20 20
59 – 62 30 50
63 – 66 80 130
67 – 70 70 200
71 – 74 40 240
75 - 78 10 250
Total 250
Procedimiento:
✓ Calcular las frecuencias acumuladas 𝐹𝑖
✓ Calcular la posición de 𝑄3 : 3N/4 = 3(250)/4 = 187.5
✓ Clase que contiene a 𝑄3 , , es la clase cuyo 𝐹𝑖 excede a 187.5 y que
corresponde al intervalo 67 – 70
✓ Límite real inferior de la clase que contiene a 𝑄3 es: 𝐿𝑖 = 66.5
✓ Frecuencia absoluta acumulada anterior a la clase que contiene a 𝑄3 es :
𝐹𝑖 −1 = 130
✓ Frecuencia absoluta de la clase que contiene a 𝑄3 es: 𝑓𝑄3 = 70
Reemplazando valores se tiene:
187.5 −130
𝑸𝟑 = 66.5 + x 4 = 69.78
70
Por lo tanto, se tiene que el 75 % de los valores están por debajo de 69.78 puntos
y el 25 % de los valores están por encima de 69.78.

C. MEDIDAS DE DISPERSION
❑ AMPLITUD TOTAL
Se define como la diferencia entre el valor máximo ( V máx.) y el valor mínimo
(V min)
A = V máx. – V min.
Representa la medida de variación más simple y la que representa mayor
valor intuitivo.
❖ Ejemplo : Determinar la amplitud de la siguiente serie de datos:
135, 149, 158, 165, 179
A = V máx. – V min = 179 – 135 = 44
❑ VARIANZA [¨V(X)] o ( 𝝈𝟐 ) y DESVIACION ESTANDAR (σ)
✓ Cuantifica la variabilidad de los datos con respecto a la media aritmética.
✓ Se define como el promedio de las desviaciones al cuadrado de cada uno de
los datos con respecto a la media.
✓ Para un conjunto de datos N: 𝑋1 , 𝑋2, … , 𝑋𝑁 con una media aritmética 𝑋ത ,
la varianza de estos datos se define como:
𝟐
σ𝑵
𝒊=𝟏 𝑿𝒊
σ𝑵 ഥ 𝟐 σ𝑵 𝟐 ഥ𝟐 σ𝑵 𝟐
𝒊=𝟏 𝑿𝒊 −
𝒊=𝟏 𝑿𝒊 − 𝑿 𝒊=𝟏 𝑿𝒊 − 𝑵 . 𝑿
V (X) = o V (X) = o V (X) = 𝑵
𝑵 𝑵 𝑵

CALCULO DE LA VARIANZA PARA DATOS NO AGRUPADOS


❖ Ejemplo : Para la serie de datos : 7, 8, 3, 5, 4, 2, 10, 9
ഥ = 48 = 6
𝑿 N=8
8
60
⇒ V (X) = = 7.5
8
σ8𝑖=1 𝑋𝑖 = 48 σ8𝑖=1 𝑋𝑖2 = 348 N . 𝑋ത 2 = 288
348 −288
⇒ V (X) = = 7.5
8
✓ La desventaja de la varianza es que hay dificultad en su interpretación, porque
las unidades que utiliza están elevadas al cuadrado.
✓ Cuando se trabaja con muestras, se hace una corrección con el denominador y
en lugar de considerar n, se toma n – 1.
σ𝒏 ഥ 𝟐
𝒊=𝟏 𝑿𝒊 −𝑿
𝑺𝟐 =
𝒏 −𝟏
✓ A pesar que la varianza cuantifica correctamente la variabilidad de las
observaciones de los datos con respecto a la media, sin embargo hay dificultad
en su interpretación, por consiguiente una medida alternativa es la
DESVIACIÓN ESTANDAR (σ).
σ = 𝒗 (𝒙)
❖ Ejemplo : Los siguientes datos corresponden al número de días que 6
pacientes que estuvieron internados en una Clínica durante la pandemia: 7, 3,
4, 5, 2, 6
V (X) = 2.917 ⇒ σ = 𝟐. 𝟗𝟏𝟕 = 1.71
✓ Significa que los datos se dispersan en promedio 1.71 con respecto al valor
central.

CALCULO DE LA VARIANZA PARA DATOS AGRUPADOS

✓ En este caso interviene las marcas de clase 𝑿𝒊 con su respectiva frecuencia 𝒇𝒊

σ𝒎 ഥ 𝟐
𝒊=𝟏 𝒇𝒊 𝑿𝒊 −𝑿
V (X) = m : número de intervalos de clase
𝑵

𝟐
𝒎 𝟐 σ𝒎
𝒊=𝟏 𝒇𝒊 𝑿𝒊
σ𝒊=𝟏 𝒇𝒊 𝑿𝒊 −
V (X) = 𝑵
𝑵
▪ La varianza de la suma de una variable y una constante es igual a la varianza
de la variable. V (X + k) = V (X)
▪ La varianza del producto de una constante por una variable es igual al
producto del cuadrado de la constante por la varianza de la variable.
V ( k X) = 𝑘 2 . V (X)

❑ COEFICIENTE DE VARIACION
Es una medida de dispersión relativa de la desviación estándar con respecto
a la media.
𝝈
C.V. = ഥ
x 100
𝑿
✓ Este coeficiente no tiene unidades
✓ Se utiliza para comparar la dispersión o variabilidad de dos conjuntos de
datos expresados en diferentes unidades

Grupo 1 Grupo 2

Edad promedio 𝑋ത 27 años 12 años


Peso promedio 𝑋ത 72.5 kg 40 kg
σ 5 kg 5 kg
N 15 15
✓ Qué grupo es más homogéneo o menos variable con relación al peso?
✓ El coeficiente de variación del grupo 1:
5
C.V. = x 100 = 6.9 %
72.5

✓ El coeficiente de variación del grupo 2 :


5
C.V. = x 100 = 12.5 %
40

✓ El grupo 1 tiene menos dispersión de los pesos con respecto a la media en


relación al grupo 2.
Nota:
• Si el C.V. es menor del 10% se dice que hay poca dispersión
• Si el C.V. oscila entre el 10% y el 33% la dispersión existente es aceptable
• Si el C.V. escila entre el 33% y el 50% se dice que hay alta dispersión
• Si el C.V. es mayor del 50% se dice que la dispersión es muy alta

❑ RANGO INTERCUARTÍLICO
✓ Se calcula como la diferencia entre el tercer y primer cuartil del conjunto de
datos.
R I = 𝑸𝟑 − 𝑸𝟏
✓ En el rango intercuartílico se concentran el 50% central de las
observaciones
• TAREA:

1. INDICE O COEFICIENTE DE GINI


1.1 Concepto
1.2 Cálculo
1.3 Aplicaciones
2. CURVA DE LORENZ
2.1 Significado
2.2 Para que sirve
2.3 Aplicaciones
3. RELACION ENTRE LA CURVA DE LORENZ Y EL INDICE DE GINI
D. MEDIDAS DE FORMA
✓ Son aquellas que nos muestran si una distribución de frecuencia tiene
características especiales como simetría, asimetría, nivel de concentración de
datos y nivel de apuntamiento que la clasifiquen en un tipo particular de
distribución.
✓ Si 𝑋ഥ = Mo = Me ⇒ la distribución es SIMÉTRICA
✓ Si 𝑋ത > Me ⇒ la distribución es ASIMÉTRICA con cola a la derecha (sesgada a la
derecha).
✓ Si 𝑋ത < Me ⇒ la distribución es ASIMÉTRICA con cola a la izquierda (sesgada a la
izquierda).

❑ MEDIDAS DE ASIMETRÍA:
❖ Coeficiente de asimetría de Fisher

𝟏 𝟏
σ𝑵 ഥ 𝟑
𝑿𝒊 − 𝑿 σ𝑵 ഥ 𝟑 . 𝒇𝒊
𝑿𝒊 − 𝑿
𝑵 𝒊=𝟏 𝑵 𝒊=𝟏
𝑨𝒔 = 𝑨𝒔 = ( n → N; S → σ )
𝝈𝟑 𝑵 . 𝝈𝟑
Para datos no agrupados Para datos agrupados

✓ Si Coeficiente = 0 ⇒ distribución simétrica.


✓ Coeficiente > 0 ⇒ distribución asimétrica positiva.
✓ Coeficiente < 0 ⇒ distribución asimétrica negativa.
❖ Coeficiente de asimetría de Yule-Bowley

𝑸𝟏 + 𝑸𝟑 − 𝟐 𝑸𝟐
𝑨𝒚𝒃 =
𝑸𝟑 − 𝑸𝟏

✓ Coeficiente = 0 ⇒ distribución simétrica


✓ Coeficiente > 0 ⇒ distribución asimétrica positiva
✓ Coeficiente < 0 ⇒ distribución asimétrica negativa

❖ Índice de Asimetría de Pearson

ഥ − 𝑴𝒐
𝑿 μ − 𝑴𝒐
𝑨𝒔 = 𝑨𝒔 =
𝑺 σ

✓ Si 𝑋ഥ - 𝑀𝑜 es positivo, entonces la ASIMETRIA es positiva o a la derecha


✓ Si 𝑋ഥ - 𝑀𝑜 es negativa, entonces la ASIMETRIA es negativa o a la izquierda

𝟑 𝑿ഥ − 𝑴𝒆 𝟑 (μ − 𝑴𝒆)
𝑨𝒔 = 𝑨𝒔 =
𝑺 σ

✓ Estas fórmulas se aplica a datos simples así como también a datos ponderados
o agrupados
E. MEDIDA DE APUNTAMIENTO O CURTOSIS
✓ La curtosis es una medida estadística que determina el grado de concentración
que presentan los valores de una variable alrededor de la zona central de la
distribución de frecuencias.
✓ La curtosis es importante porque afecta la inferencia respecto a la media,
alta curtosis afecta la inferencia respecto a medidas de dispersión y de
correlación.

❖ MEDIDAS DE CURTOSIS
✓ Para datos no agrupados:
σ𝑵 ഥ 𝟒
𝒊=𝟏 𝑿𝒊 − 𝑿 𝑸𝟑 − 𝑸𝟏
𝒌 = -3 k =
𝑵 . σ𝟒 𝟐 𝑷𝟗𝟎 − 𝑷𝟏𝟎
✓ Para datos agrupados:

σ𝑵 ഥ 𝟒
𝒊=𝟏 𝑿𝒊 − 𝑿 . 𝒇𝒊 𝑷𝟕𝟓 − 𝑷𝟐𝟓
𝒌 = -3 k = - 0.5
𝑵 . σ𝟒 𝑷𝟗𝟎 − 𝑷𝟏𝟎

✓ Las curvas se pueden clasificar en tres grupos según el signo de su


curtosis, es decir, según la forma de la distribución:
Leptocúrtica: Si la curtosis > 0. Los datos están muy concentrados en la
media, siendo una curva muy apuntada.
Mesocúrtica: Si la curtosis = 0. Distribución normal.
Platicúrtica: Si la curtosis < 0. Muy poca concentración de datos en la
media, presentando una forma muy achatada.
❖ Ejemplo 1: Para la siguiente información, hallar : 𝐴𝑠 y k.
0.89 1.58 0.79 1.29 1.42 0.84 1.06 0.87 1.96 1.53
❖ Ejemplo 2: Para la siguiente información, hallar: 𝐴𝑠 y k.

Intervalo de clase 𝒇𝒊
20 – 30 5
30 – 40 4
40 – 50 3
50 – 60 2
60 - 70 6
20
1. Solución:
Media: 1.223 -0.6923305Índice curtosis
Mediana : 1.175 1.175Mediana
Moda : 0.79 Moda
Varianza : 0.156 0.39502602Desviac. Estandar
Desviación estándar : 0.395 1.223Media

Percentil 10 : 0.795 0.15604556Varianza


0.58601551Coefic. Asimetría
Percentil 25 : 0.8625
0.875Cuartil 1
Percentil 75: 1.5425
1.175Cuartil 2
Percentil : 90 : 1.922
1.5025Cuartil 3
Coeficiente de asimetría: 0.586 0.7945Percentil 10
Índice de curtosis : - 0.692 0.875Percentil 25
1.5025Percentil 75
Grafico del ejercicio
1.618Percentil 90
3

0
1 2 3 4 5 6 7 8 9 10

También podría gustarte