Está en la página 1de 24

UNIVERSIDAD PERUANA

LOS ANDES

FACULTAD DE INGENIERÍA
Escuela Profesional de Ingeniería de Sistemas y
Computación

Asignatura:
ESTADISTICA
Dr. Casio Aurelio Torres López
Email: d.ctorres@upla.edu.pe
HUANCAYO - 2023
UNIDAD ESTADISTICA DESCRIPTIVA:
II PROCESAMIENTO Y ANALISIS DE
DATOS

TEMA: Resumen, análisis e interpretación


de datos

Objetivo:
Interpretar los resultados obtenidos
diferenciando si son variables cuantitativas o
cualitativas.

Dr. Casio A. Torres López Estadística


A. MEDIDAS DE TENDENCIA CENTRAL
PARA DATOS NO AGRUPADOS
 Permiten hallar un solo valor numérico e indican el centro de un conjunto de datos

 MEDIA ARITMETICA (
 Denominada también promedio, se considera como un valor representativo del conjunto de
datos que se está estudiando y caracteriza a toda una distribución.

= o =
 La media aritmética puede ser una valor positivo, cero o una valor negativo
 Si a los valores que estamos analizando le sumamos o restamos una constante, el valor de la
nueva media aritmética quedaría como la media aritmética de los datos originales mas o menos
la constante que se ha agregado.
 Si a cada valor de la serie le multiplicamos por una constante, la nueva media aritmética sería
igual a la media aritmética original multiplicada por la constante.
 La suma de las desviaciones de los datos con respecto a la media es cero:
 =0
 MEDIANA (Me)

 Es un valor que divide a la distribución ordenada en forma ascendente o descendente en dos


grupos iguales, es decir, a cada grupo le corresponde el 50% de los datos.
 Para calcular el valor de la mediana de los datos ,
1. Se ordenan los datos en forma ascendente o descendente
2. Si N es impar, el valor de la mediana es el valor del centro
Me = donde (N+1)/2 es la posición de la mediana
3. Si N es par, el valor de la median estará dado por:

Me = El valor de la mediana se encuentra entre los valores cuya posición son; N/2 y
N/2+1
 El valor de la mediana puede o no coincidir con uno de los datos que se están analizando.
 Nota: La media aritmética se considera una medida mas estable de muestra en muestra que la
mediana, porque en su cálculo intervienen todos los valores

 MODA (Mo)
 Se utiliza mayormente cuando la característica en estudio se ha medido en escala nominal u
ordinal.
 La moda es la observación que mayormente se repite ( o es la observación que posee la mayor
frecuencia).
 Nota: En una distribución puede existir dos o mas modas

PARA DATOS AGRUPADOS

 MEDIA ARITMETICA (
Fórmula: = donde: son marcas de clase
, son frecuencias absolutas que corresponden a las marcas de clases
m : número de clases o intervalos
Fórmula abreviada:
=
 Ejemplo: La siguiente Tabla de distribución de frecuencias se refiere a las edades de 40 personas.
Se pide encontrar la edad promedio
EDAD
(en años)
5–9 3 7 21
10 – 14 9 12 108
15 – 19 15 17 255
20 – 24 8 22 176
25 - 29 5 27 135
Total 40 695

= = 17.38 años de edad


 Cuando los valores de tienen pesos o ponderaciones dados por entonces se tiene una
media ponderada.
=
 Ejemplo: Para determinar el promedio final de un estudiante en el curso de Estadística se
tiene tres componentes con diferentes ponderaciones:

años) Componentes de la Ponderaciones


variable
: Práctica calificada :2
: Trabajos prácticos : 1
: Examen parcial :3
 Si un estudiante obtiene en : Practica calificada 13, Trabajos prácticos 15 y en Examen
parcial 11, entonces su promedio final es:
= = = 12.33

 MEDIANA (Me)
Fórmula: Me = + x C
donde:
N/2 : Posición de la Me
: Límite real inferior de la clase que contiene la Me
N : Número total de observaciones
: Frecuencia absoluta acumulada de la clase anterior a la que contiene a la Me (clase
mediana)
: Frecuencia absoluta de la clase que contiene a la Me
C : Amplitud de la clase que contiene a la Me
Clase mediana: Es la primera clase cuya frecuencia absoluta acumulada excede a N/2.
 Ejemplo: Hallar la mediana (Me) de la siguiente distribución (la tabla corresponde al
ejemplo anterior para el cálculo de la media aritmética).
Variable
5–9 3 3
10 – 14 9 12
15 – 19 15 27
20 – 24 8 35
25 - 29 5 40
Total 40
•Procedimiento:
 Calcular las frecuencias acumuladas
 Calcular N/2 = 40/2 = 20, sirve para ubicar la clase mediana
 Ubicar la clase mediana: Clase cuyo excede a 20 (15 – 19)
 De la clase mediana se obtiene:
= 14.5 = 12 C=5 = 15

Entonces la Me = 14.5 + x 5 = 17.17 años de edad

Interpretación: El 50% de las edades de las personas están por


debajo de 17.17 años de edad y el 50% están por encima de los
17.17 años de edad.
 MODA (Mo)
En una tabla de distribución de frecuencias es aproximadamente la marca de clase o punto
medio de la clase que contiene la mayor frecuencia absoluta simple.
 Ejemplo: En la tabla del ejemplo anterior, la moda estará ubicado en el intervalo:

Variable

15 - 19 15
Donde la marca de clase es = 17.0
Luego, la Mo = 17.0

B. MEDIDAS DE POSICION

 LOS CUANTILES
Son aquellos que dividen a la distribución en cuatro, diez o cien partes iguales.
 Cuartiles (Q)
 Son aquellos que dividen a la distribución en cuatro partes iguales, en donde cada uno de
ellos incluyen el 25% de las observaciones.
 Fórmulas:
= + x C
= Me
= + x C
Donde:
: Límite real inferior de la clase que contiene el
: Frecuencia absoluta acumulada de la clase anterior a la que contiene a
: Frecuencia absoluta de la clase que contiene el
C : Ancho de la clase que contiene el

 Deciles (D)
 Son aquellos que dividen a la distribución en diez partes iguales, en donde cada uno de
ellos incluyen el 10% de las observaciones.
 Fórmulas:
= + x C
= Me
= + x C
Donde:
: Límite real inferior a la clase que contiene el
: Frecuencia absoluta acumulada de la clase anterior a la que contiene el
o : Frecuencia absoluta simple de la clase que contiene el
C : Ancho de la clase que contiene el

 Percentiles (P)
 Son aquellos que dividen a la distribución en 100 partes iguales, en donde cada uno de ellos
incluye el 1 % de las observaciones.
 Fórmulas:
= + x C
 Para el percentil 60:
= + x C
 C : Ancho de la clase que contiene al
 Ejemplo: En la siguiente distribución de frecuencias, calcular (los cuartiles, deciles y
percentiles se calculan en forma similar).

Variable
55 – 58 20 20
59 – 62 30 50
63 – 66 80 130
67 – 70 70 200
71 – 74 40 240
75 - 78 10 250
Total 250

Procedimiento:
 Calcular las frecuencias acumuladas
 Calcular la posición de : 3N/4 = 3(250)/4 = 187.5
 Clase que contiene a , es la clase cuyo excede a 187.5 y que corresponde al intervalo 67 –
70
 Límite real inferior de la clase que contiene a es: = 66.5
 Frecuencia absoluta acumulada anterior a la clase que contiene a es :
= 130
 Frecuencia absoluta de la clase que contiene a es: = 70
Reemplazando valores se tiene:
= 66.5 + x 4 = 69.78
Por lo tanto, se tiene que el 75 % de los valores están por debajo de 69.78 puntos y el 25 % de los
valores están por encima de 69.78.

C. MEDIDAS DE DISPERSION
 AMPLITUD TOTAL
Se define como la diferencia entre el valor máximo ( V máx.) y el valor mínimo (V min)
A = V máx. – V min.
Representa la medida de variación más simple y la que representa mayor valor intuitivo.
 Ejemplo : Determinar la amplitud de la siguiente serie de datos:
135, 149, 158, 165, 179
A = V máx. – V min = 179 – 135 = 44
 VARIANZA [¨V(X)] o ( ) y DESVIACION ESTANDAR (σ)
 Cuantifica la variabilidad de los datos con respecto a la media aritmética.
 Se define como el promedio de las desviaciones al cuadrado de cada uno de los datos con
respecto a la media.
 Para un conjunto de datos N: , … , con una media aritmética ,
la varianza de estos datos se define como:
V (X) = o V (X) = o V (X) =

CALCULO DE LA VARIANZA PARA DATOS NO AGRUPADOS


 Ejemplo : Para la serie de datos : 7, 8, 3, 5, 4, 2, 10, 9
= =6 N=8
⇒ V (X) = = 7.5
= 48 = 348 N . = 288
⇒ V (X) = = 7.5
 La desventaja de la varianza es que hay dificultad en su interpretación, porque las unidades que
utiliza están elevadas al cuadrado.
 Cuando se trabaja con muestras, se hace una corrección con el denominador y en lugar de
considerar n, se toma n – 1.
=
 A pesar que la varianza cuantifica correctamente la variabilidad de las observaciones de los
datos con respecto a la media, sin embargo hay dificultad en su interpretación, por consiguiente
una medida alternativa es la DESVIACIÓN ESTANDAR (σ).
σ =
 Ejemplo : Los siguientes datos corresponden al número de días que 6 pacientes que
estuvieron internados en una Clínica durante la pandemia: 7, 3, 4, 5, 2, 6
V (X) = 2.917 ⇒ σ = = 1.71
 Significa que los datos se dispersan en promedio 1.71 con respecto al valor central.

CALCULO DE LA VARIANZA PARA DATOS AGRUPADOS

 En este caso interviene las marcas de clase con su respectiva frecuencia

V (X) = m : número de intervalos de clase

V (X) =
 Ejemplo : Con la información de la siguiente Tabla de distribución de frecuencias, calcular la
desviación estándar.

Variable

55 - 58 20 56.5 1130 63845.00


59 - 62 30 60.5 1815 109807.50
63 - 66 80 64.5 5160 332820.00
67 - 70 70 68.5 4795 328457.50
71 - 74 40 72.5 2900 210250.00
75 - 78 10 76.5 765 5852.25
Total 250 16565 1051032.25

 Reemplazando en las fórmulas se tiene:


V (X) = 186.26 ⇒ σ = = 13.65
 Significa que los datos se dispersan en promedio, 13.65 con respecto al valor central.
 Propiedades de la varianza :
 El valor de la V (X) es mayor o igual que cero cualquiera sea su distribución
 La varianza de una variable que toma el mismo valor es cero
 La varianza de la suma de una variable y una constante es igual a la varianza de la variable. V
(X + k) = V (X)
 La varianza del producto de una constante por una variable es igual al producto del cuadrado
de la constante por la varianza de la variable.
V ( k X) = . V (X)

 COEFICIENTE DE VARIACION
Es una medida de dispersión relativa de la desviación estándar con respecto a la media.
C.V. = x 100
 Este coeficiente no tiene unidades
 Se utiliza para comparar la dispersión o variabilidad de dos conjuntos de datos expresados
en diferentes unidades

Grupo 1 Grupo 2

Edad promedio 27 años 12 años


Peso promedio 72.5 kg 40 kg
σ 5 kg 5 kg

N 15 15
 Qué grupo es más homogéneo o menos variable con relación al peso?
 El coeficiente de variación del grupo 1:
C.V. = x 100 = 6.9 %
 El coeficiente de variación del grupo 2 :
C.V. = x 100 = 12.5 %
 El grupo 1 tiene menos dispersión de los pesos con respecto a la media en relación al grupo
2.
Nota:
• Si el C.V. es menor del 10% se dice que hay poca dispersión
• Si el C.V. oscila entre el 10% y el 33% la dispersión existente es aceptable
• Si el C.V. escila entre el 33% y el 50% se dice que hay alta dispersión
• Si el C.V. es mayor del 50% se dice que la dispersión es muy alta

 RANGO INTERCUARTÍLICO
 Se calcula como la diferencia entre el tercer y primer cuartil del conjunto de datos.
RI=
 En el rango intercuartílico se concentran el 50% central de las observaciones
• TAREA:

1. INDICE O COEFICIENTE DE GINI


1.1 Concepto
1.2 Cálculo
1.3 Aplicaciones
2. CURVA DE LORENZ
2.1 Significado
2.2 Para que sirve
2.3 Aplicaciones
3. RELACION ENTRE LA CURVA DE LORENZ Y EL INDICE DE GINI
D. MEDIDAS DE FORMA
 Son aquellas que nos muestran si una distribución de frecuencia tiene características especiales
como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la
clasifiquen en un tipo particular de distribución.
 Si = Mo = Me ⇒ la distribución es SIMÉTRICA
 Si > Me ⇒ la distribución es ASIMÉTRICA con cola a la derecha (sesgada a la derecha).
 Si < Me ⇒ la distribución es ASIMÉTRICA con cola a la izquierda (sesgada a la izquierda).

 MEDIDAS DE ASIMETRÍA:
 Coeficiente de asimetría de Fisher

= = ( n → N; S → σ )
Para datos no agrupados Para datos agrupados

 Si Coeficiente = 0 ⇒ distribución simétrica.


 Coeficiente > 0 ⇒ distribución asimétrica positiva.
 Coeficiente < 0 ⇒ distribución asimétrica negativa.
 Coeficiente de asimetría de Yule-Bowley

=
 Coeficiente = 0 ⇒ distribución simétrica
 Coeficiente > 0 ⇒ distribución asimétrica positiva
 Coeficiente < 0 ⇒ distribución asimétrica negativa

 Índice de Asimetría de Pearson

= =
 Si - es positivo, entonces la ASIMETRIA es positiva o a la derecha
 Si - es negativa, entonces la ASIMETRIA es negativa o a la izquierda

= =
 Estas fórmulas se aplica a datos simples así como también a datos ponderados o agrupados
E. MEDIDA DE APUNTAMIENTO O
CURTOSIS

La curtosis es una medida estadística que determina el grado de
concentración que presentan los valores de una variable alrededor de la zona
central de la distribución de frecuencias.

La curtosis es importante porque afecta la inferencia respecto a la media,
alta curtosis afecta la inferencia respecto a medidas de dispersión y de
correlación.

MEDIDAS DE CURTOSIS
 Para datos no agrupados:
= -3 k =
 Para datos agrupados:

= -3 k = - 0.5
 Las curvas se pueden clasificar en tres grupos según el signo de su curtosis, es decir, según
la forma de la distribución:
Leptocúrtica: Si la curtosis > 0. Los datos están muy concentrados en la media, siendo
una curva muy apuntada.
Mesocúrtica: Si la curtosis = 0. Distribución normal.
Platicúrtica: Si la curtosis < 0. Muy poca concentración de datos en la media, presentando
una forma muy achatada.
 Ejemplo 1: Para la siguiente información, hallar : y k.
0.89 1.58 0.79 1.29 1.42 0.84 1.06 0.87 1.96 1.53
 Ejemplo 2: Para la siguiente información, hallar: y k.

Intervalo de clase
20 – 30 5
30 – 40 4
40 – 50 3
50 – 60 2
6
60 - 70
20
1. Solución:
Media: 1.223
-0.6923305 Índice curtosis
Mediana : 1.175
1.175 Mediana
Moda : 0.79 Moda
Varianza : 0.156 0.39502602 Desviac. Estandar
Desviación estándar : 0.395 1.223 Media
Percentil 10 : 0.795 0.15604556 Varianza
Percentil 25 : 0.8625 0.58601551 Coefic. Asimetría
Percentil 75: 1.5425 0.875 Cuartil 1
Percentil : 90 : 1.922 1.175 Cuartil 2
Coeficiente de asimetría: 0.586 1.5025 Cuartil 3

Índice de curtosis : - 0.692 0.7945 Percentil 10


0.875 Percentil 25
1.5025 Percentil 75
Grafico del ejercicio
1.618 Percentil 90
2.5
2
1.5
1
0.5
0
1 2 3 4 5 6 7 8 9 10

También podría gustarte