Está en la página 1de 87

Redefinamos los

buenos negocios
centrum.pucp.edu.pe
ESTADISTICA
Sesiones 3 -4

1
Objetivos
● Reconozcamos las medidas de Tendencia Central

● Definamos e interpretemos las Medidas de dispersión. Simetría y Medida de Curtosis

● Medidas de Asociación. Coeficiente de Correlación y Análisis de Regresión

2
Medidas de
Tendencia Central

3
Características de los Datos

Tendencia Central
(Posición)

Dispersión
(Variación)

Sesgo

4
Tendencia
Central

Media Media Media Mediana Moda


Aritmética Ponderada Geométrica

5
Media de la Población

Para datos no agrupados, la media aritmética


de la población es la suma de todos los valores
en ella dividida entre el total de valores en la
población:
 = x / N
donde µ representa la media de la población.

N es el número total de elementos en la población.

x representa cualquier valor en particular.

Σ indica la operación de sumar.

6
Media de una Muestra

Para datos no agrupados, la media de una muestra es la suma de todos


los valores divididos entre el número total de los mismos:

x = x / n
donde denota la media muestral

n es el número total de valores en la muestra.

7
Propiedades de la Media Aritmética

Todo conjunto de datos tiene un valor medio.

Al evaluar la media se incluyen todos los valores.

Un conjunto de valores sólo tiene una media.


x = x / n
Desventaja

Es afectada por los valores extremos.

8
Media Aritmética

Es la medida más común de tendencia central.

Es afectada por valores extremos.

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14

Media = 5 Media = 6

9
Media Ponderada

La media ponderada de un conjunto de números x1, x2, ..., xn, con


las ponderaciones correspondientes w1, w2, ...,wn, se calcula con la
fórmula:
xw = ( w1 x1 + w2 x2 + ... + wn xn ) /( w1 + w2 + ...wn )
xw = ( w * x ) / w

10
Media Geométrica

La media geométrica (MG) de un conjunto de n números


positivos se define como la raíz n-ésima del producto de los
n valores. Su fórmula es:

MG = n ( x1)( x 2)( x3)...(xn)


La media geométrica se usa para encontrar el promedio de
porcentajes, razones, índices o tasas de crecimiento.

11
Mediana

Mediana: es el punto medio de los valores después de


ordenarlos de menor a mayor, o de mayor a menor. La
misma cantidad de valores se encuentra por arriba de la
mediana que por debajo de ella.

Nota: para un conjunto con un número par de números, la


mediana será el promedio aritmético de los dos números
medios.

12
Mediana

No es afectada por los valores extremos.

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14

Mediana = 5 Mediana = 5

n +1
Mediana =
2

13
Propiedades de la mediana

La mediana es única para cada conjunto de datos.

No se ve afectada por valores muy grandes o muy pequeños.

14
Moda

Valor que ocurre más a menudo.

No es afectada por valores extremos.

Puede no existir una moda.

Pueden haber varias modas.

0 1 2 3 4 5 6
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sin Moda
15 Moda = 9
Datos NO Agrupados
Registro cantidad de artículos vendidos
durante 22 días

Día Artículos Día Artículos


1 10 12 10
2 14 13 14
3 9 14 6
4 12 15 13
5 8 16 8
6 15 17 12
7 12 18 7
8 3 19 16
9 11 20 9
10 17 21 11
11 5 22 6
16
Datos Agrupados
Distribución de Frecuencias de artículos vendidos
durante 22 días

CLASE FRECUENCIA
1-3 1
4-6 3
7-9 5
10 - 12 7
13 - 15 4
16 - 18 2
22
17
Media de Datos Agrupados

La media de una muestra de datos agrupados se puede


“estimar” con la formula:

( f * x ) ( f * x )
x= =
f n
f = frecuencia de cada clase
x = punto medio o marca de la clase
n = número de observaciones

18
Ejemplo
Media de Datos Agrupados
CLASE MARCA FRECUENCIA M X FREC.
1-3 2 1 2
4-6 5 3 15
7-9 8 5 40
10 - 12 11 7 77
13 - 15 14 4 56
16 - 18 17 2 34
22 224

224
Media  = 10.18
19
22
Mediana de datos agrupados
La mediana de una muestra de datos agrupados se calcula mediante la siguiente
fórmula:

 ( n + 1) / 2 − ( F + 1) 
m=
 
 * w + Lm
 fm 

n= número de elementos de la distribución

F= suma de todas las frecuencias de clase hasta pero sin incluir la clase mediana.

fm= Frecuencia de la clase mediana

W = ancho del intervalo de clase

Lm= Límite inferior del intervalo de clase mediano


20
Ejemplo
Mediana de Datos Agrupados
CLASE FRECUENCIA FR. ACUM.
1-3 1 1
4-6 3 4
7-9 5 9
10 - 12 7 16
13 - 15 4 20
16 - 18 2 22
22

22 + 1
Ubicación de la mediana = = 11.5
2

 ( 22 + 1) / 2 − (9 + 1) 
m=  * 3 + 10 = 10.64
 7 
21
Moda de datos agrupados

La moda de los datos agrupados se encuentra de la clase que contiene la


frecuencia de clase mayor.
 d1 
Mo = LMo +  *w
 d1 + d 2 
LMo= Límite inferior de la clase modal
d1= Frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente
por debajo de ella (en valor).
d2= Frecuencia de la clase modal menos la frecuencia de la clase que se encuentra inmediatamente
por encima de ella (en valor).
w= Ancho del intervalo de la clase modal.

22
Ejemplo
Moda de Datos Agrupados
CLASE FRECUENCIA
1-3 1
4-6 3
7-9 5
10 - 12 7
13 - 15 4
16 - 18 2
22

 (7 − 5) 
Mo = 10 + 
 (7 − 5) + (7 − 4) 
 * 3 = 11.2
 

23
Medidas de Medidas
de dispersión

24
Dispersión

Varianza Desviación Estándar Coeficiente de


Variación
Alcance Varianza de Desviación
la Población Estándar de
la Población
Varianza de
la Muestra Desviación
Estándar de
Alcance Intercuartil la Muestra

25
Alcance o Rango

26
Alcance

Diferencia entre la mayor y la menor de las observaciones


Alcance = xmayor – xmenor

No toma en cuenta la forma en que están distribuidos los datos.

Alcance: 12 - 7 = 5 Alcance: 12 - 7 = 5

7 8 9 10 11 12 7 8 9 10 11 12

27
Cuartiles

Los datos se ordenan de menor a mayor.


25% 25% 25% 25%

( Q1 ) ( Q2 ) ( Q3 )
Observación Observación
Menor Mayor

El alcance intercuartil es la distancia entre el tercer cuartil


Q3 y el primer cuartil Q1.

28
Desviación de la Media

29
Promedio de desviación de cada dato

-2
1
-1

0 1 2 3 4 5

( x −  ) = 0
30
x1 xn
X
x2

Podríamos sumar las diferencias entre cada valor x y la media de los


valores x . Sin embargo, esto siempre daría cero. Por lo tanto,
elevamos al cuadrado la diferencia entre cada x y x, para eliminar las
negativas y resaltar los puntos singulares y después tomar las medias
de los resultados. Se define esto como la varianza

31
Varianza de la Población
Desviación cuadrática promedio con relación a la media de
la Población

( x −  ) 2
 2
=
N
x 2
 2
= − 2

N
32
Desviación Estándar de la Población
Raíz Cuadrada de la Varianza de la Población

( x −  ) 2
 =  2
=
N
x 2
 =  2
= − 2

N
33
Varianza de la Muestra

Desviación cuadrática promedio (n-1) con relación a la


media de la Muestra
( x − x ) 2
s = 2

n −1
x 2 2
nx
s =
2

n −1 n −1
34
Varianza de la Muestra
Desviación cuadrática promedio (n-1) con relación a la
media de la Muestra

( x − x ) 2
s = 2

n −1
x 2 2
nx
s =
2

n −1 n −1
35
Desviación Estándar de la Muestra

Raíz Cuadrada de la Varianza de la Muestra

( x − x ) 2
s= s 2
=
n −1

x2 2
nx
s= s 2
= −
n −1 n −1
36
Varianza de la Población
Datos Agrupados

f ( x −  ) 2
 2
=
N
fx 2
 2
= − 2

N
x = marca de clase

37
Desviación Estándar de la Población
Datos Agrupados

f ( x −  ) 2
 =  2
=
N
fx 2
 =  2
= − 2

N
x = marca de clase
38
Varianza de la Muestra
Datos agrupados

f ( x − x) 2
s =
2

n −1
fx 2 2
nx
s =
2

n −1 n −1
x = marca de clase
39
Desviación Estándar de la Muestra
Datos Agrupados

f ( x − x) 2
s= s 2
=
n −1

fx 2 2
nx
s= s 2
= −
n −1 n −1
x = marca de clase
40
Ejemplo Desviación Estándar
de Datos Agrupados
CLASE MARCA FRECUENCIA M X FREC. (Marca - Media)2 x Frecuencia
1-3 2 1 2 66.94 66.94
4-6 5 3 15 26.85 80.55
7-9 8 5 40 4.76 23.80
10 - 12 11 7 77 0.67 4.69
13 - 15 14 4 56 14.58 58.31
16 - 18 17 2 34 46.49 92.98
22 224 327.27

MEDIA 10.18 VARIANZA 15.584

DESV. ESTAND. 3.948

41
Comparación de Desviaciones Estándar

Datos A
Media = 15.5
s = 3.338
11 12 13 14 15 16 17 18 19 20 21

Datos B
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = .9258
Datos C
Media = 15.5

11 12 13 14 15 16 17 18 19 20 21 s = 4.57
42
Interpretación y usos de la Desviación Estándar

Teorema de Chebyshev: para cualquier conjunto de observaciones,


la proporción mínima de valores que está dentro de k desviaciones
estándar desde la media es al menos 1 - 1/k2 , donde k es una
constante mayor que 1.

43
Interpretación y usos de la Desviación Estándar

Regla empírica: para una distribución de frecuencias simétrica de


campana:
Cerca de 68% de las observaciones estará dentro de ±1σ de la media (μ);

Cerca de 95% de las observaciones estará dentro de ±2σ de la media (μ);

Casi todas (alrededor de 99.7%) las observaciones estarán dentro de ±3σ de


la media (μ).

44
Curva de Distribución Normal

-3σ -2σ -1σ μ +1σ +2σ +3σ


45
34.13% 34.13%

13.60%
13.60%

2.135% 2.135%

0.135% 0.135%

-3σ -2 σ -1σ +1σ +2σ +3σ


μ

68.26%

95.46%

99.73%
46
Resultado Estándar

-3σ -2σ -1σ


μ +1σ +2σ +3σ

x−
Re =
47 
 = 100  = 100
 = 20  = 20
x = 80 x = 160
¿ Re? ¿ Re?

-3σ -2σ -1σ


μ +1σ +2σ +3σ

80 100 160

80 − 100 160 − 100


Re = = −1 Re = =3
20 20
48
Dispersión Relativa

El coeficiente de variación es la razón de la desviación estándar


a la media aritmética, expresada como porcentaje:

s
CV = (100%)
x

49
Ejemplo de Dispersión Relativa

Distribuci ón A Distribuci ón B
x = 10 x = 100
s=2 s=5

¿Cuál de las dos tiene menor dispersión?

50
Ejemplo de Dispersión Relativa

Distribución A Distribución B
2 5
CV = 100 = 20% CV = 100 = 5%
10 100

La distribución B tiene menor dispersión

51
Coeficiente de Variación
NOTA: Las tablas que se presentan son
algunas propuestas que ayudan a la
interpretación del Coeficiente de
Variación, sin embargo es importante
resaltar que esta información es solo
referencial, y la interpretación en cada
caso debe ser hecha por el analista de la
información, teniendo en cuenta el
proceso que se esta analizando.

52
Simetría y Medida
de Curtosis

53
Sesgo de una distribución

Positivamente
Negativamente Simétrica Sesgada
Sesgada

Media < Mediana < Moda Media = Mediana = Moda Moda < Mediana < Media

54
Coeficiente de asimetría
El coeficiente de asimetría de una distribución se define como:

Si | Sk |≥ 1 La distribución es altamente asimétrica


Si 0.5 < |Sk |< 1 La distribución es moderadamente asimétrica
Si 0 < |Sk | 0.5 La distribución es casi simétrica
Si Sk = 0 La distribución es simétrica

55
56
CASO APLICADO
Usted trabaja en una planta ensambladora de motores de automóviles. Una de las piezas, un árbol de levas, debe
tener 600 mm +2 mm de largo para cumplir con las especificaciones de ingeniería. Ha habido un problema crónico
con la longitud del árbol de levas que no ha cumplido con la especificación , lo cual causa que los ensamblajes no
queden ajustados adecuadamente y originando altas tasas de descarte y reparación.

El supervisor desea analizar el proceso, de manera que en un mes recolectamos un total de 100 observaciones (20
muestras de 5 árboles de levas cada una) de todos los árboles de leva utilizados en la planta y 100 observaciones
de cada uno de sus proveedores.

57
Summary Report for Supp2
Anderson-Darling Normality Test
A-Squared 0.29
P-Value 0.61 5
Mean 600.23
StDev 1 .87
Variance 3.51
Skewness 0.051 853
Kurtosis -0.51 8286
N 1 00
Minimum 596.20
1 st Quartile 599.00
Median 600.20
3rd Quartile 601 .60
Maximum 604.20
95% Confidence Interval for Mean
597.0 598.5 600.0 601 .5 603.0 599.86 600.60
95% Confidence Interval for Median
599.80 600.60
95% Confidence Interval for StDev
1 .65 2.1 8

95% Confidence Intervals

Mean

Median

599.8 600.0 600.2 600.4 600.6


58
Summary Report for Supp1
Anderson-Darling Normality Test
A-Squared 0.84
P-Value 0.029
Mean 599.55
StDev 0.62
Variance 0.38
Skewness -0.082566
Kurtosis 0.7451 02
N 1 00
Minimum 597.80
1 st Quartile 599.20
Median 599.60
3rd Quartile 600.00
Maximum 601 .20
95% Confidence Interval for Mean
597.75 598.50 599.25 600.00 600.75 599.43 599.67
95% Confidence Interval for Median
599.40 599.60
95% Confidence Interval for StDev
0.54 0.72

95% Confidence Intervals

Mean

Median

599.40 599.45 599.50 599.55 599.60 599.65 599.70

59
Medidas estadísticas
de asociación

60
Coeficiente de
correlación de
Pearson

61
Coeficiente de Correlación
La correlación es el método de análisis que
se usa para medir la intensidad de
asociación observada entre cualquier par
de variables cuantitativas y para probar si
es mayor de lo que podría esperarse por
azar.

Cuando tanto X como Y son variables


aleatorias, puede ser útil medir el grado en
que la relación entre las dos variables se
aproximan a la situación extrema en la que
cada punto del diagrama de dispersión cae
exactamente en una línea recta.
62
Coeficiente de Correlación

• Es la estadística descriptiva, que en un solo numero, resume y


describe las características importantes de una relación.

• EL coeficiente de correlación cuantifica el patrón en una relación,


examinando todos los pares X-Y a la vez.

• Por lo tanto, el coeficiente de correlación es importante porque


simplifica una relación compleja en una estadística fácil de interpretar.

63
Coeficiente de Correlación muestral de Pearson (r)

• Tiene valores entre -1≤ r ≤ 1

• Un valor de r cercano a 1 implica una


fuerte asociación lineal positiva

• Un valor de r cercano a -1 implica una


fuerte asociación lineal negativa

• Un valor de r cercano a 0 implica una


ausencia de asociación lineal

64
65
66
Supuestos del Análisis de Correlación

67
Análisis de Correlación
EJEMPLO

Un Gerente de Producción comparo las calificaciones de una


prueba de destreza de cinco empleados de una línea de
montaje con su productividad por hora.

Empleado x = Calificación en la prueba de y = Unidades producidas en una


destreza hora

12 55
A
14 63
B
17 67
C
16 70
D
11 51
E

68
Análisis de Correlación
EJEMPLO

80
70
60
50
40
Y

30
20
10
0
10 12 14 16 18 20
r = 0.9546
X

EL coeficiente de correlación (r = 0.9546) es positiva, lo que refleja que la productividad (y) se


relaciona directamente con la calificación de la prueba de destreza (x).

En otras palabras, las personas con una calificación mas alta en la prueba de destreza tienden
a registrar niveles de productividad mas altos.
69
70
Análisis de
Regresión.

71
Análisis de Regresión
Modelo que permite utilizar la información proporcionada por las variables
explicativas (X) para describir adecuadamente el comportamiento de la
variable dependiente Y.

Tipos de análisis de regresión Regresión


Regresión simple
lineal
Regresión
Análisis de múltiple
Regresión

Regresión
Regresión simple
no lineal
Regresión
72 múltiple
Análisis de Regresión Lineal Simple
MODELO MATEMÁTICO

Consumo
Línea de regresión
Y
Y.X=0+ 1X

Y X

Y X Y X
Y X
• •


Y X
Y X

f(X,Y) X1
X2

Xk X
Ingreso
mensual
73
Análisis De Regresión Lineal Simple
MODELO DE REGRESION
Modelo de regresión poblacional= modelo matemático
Y.X=0+ 1X

Parámetros:
0 Coeficiente coeficiente de intersección poblacional.
Expresa el valor de la media Y.X cuando X=0
1 Coeficiente de regresión poblacional o pendiente
de la línea de regresión. Expresa el valor del
cambio promedio que ocurre en la variable Y como
consecuencia de un cambio unitario en la variable
X.
74
Análisis De Regresión Lineal Simple
MODELO ESTADISTICO

Consumo
Modelo matemático
Y
Y.X=0+ 1X
(xi, yi)
yi • 
i

Modelo estadístico
yi yi = Y.Xi + i
Y.Xi
= 0+ 1Xi + i

xi
X
Ingreso mensual

75
Análisis De Regresión Lineal Simple
MODELO ESTADISTICO

Modelo de regresión poblacional= modelo matemático


Y.X=0+ 1X

Modelo estadístico poblacional de regresión lineal simple


yi = Y.Xi + i
= 0+ 1Xi + i

i Término aleatorio residual o del error. Expresa el efecto propio del muestreo
aleatorio y el efecto de otras variables no incluidas en el modelo.

76
Análisis de Regresión Lineal Simple
SUPUESTOS SOBRE EL MODELO ESTADÍSTICO

1. La relación funcional entre las variables X e Y puede ser expresada mediante el


modelo lineal:

Yi =0+ 1Xi + i

donde: Y.X=0+ 1X

2. Los términos aleatorios del error residual i son independientes y tienen una
distribución con media cero y variancia  2 ; es decir:

E i  = 0 ,  
E  i2 =  2 y  
E  i j = 0 i  j

77 3. Los valores de X son fijados y medidos sin error.


Análisis de Regresión Lineal Simple
SUPUESTOS SOBRE EL MODELO ESTADÍSTICO

4. Para cada valor de x, los valores de Y tienen una distribución normal con media
y.x = 0 + 1 x , y con variancia  y.x ; es decir:
2

Y  N(  y.x , y2.x )

5 Las distribuciones de Y, para los diferentes valores de X= x, tienen igual variancia


(supuesto de homogeneidad de variancias u homocedasticidad); es decir,

 y2. x1 =  y2. x 2 =  =  y2. x k =  2

6 Los valores de Y, para cada valor de X, son obtenidos mediante una muestra es
aleatoria.

78
Análisis de Regresión Lineal Simple
ESTIMACIÓN DE LOS PARÁMETROS 0 y 1

METODO DE MÍNIMOS CUADRADOS


A partir del modelo estadístico muestral:

Yi = b0 + b1 xi + ei
Despejando para ei se obtiene:

ei = Yi − Yˆi = Yi − b0 − b1 xi
De donde, para minimizar los errores ei se hace uso de la
siguiente suma de cuadrados de los errores.
n n
Q(b 0 , b1 ) =  ei2 =  ( y i − b 0 − b 1 xi ) 2
i =1 i =1

El objetivo ahora es determinar los estimadores b0 y b1 que hacen


79 mínima esta suma de cuadrados de los errores.
Análisis de Regresión Lineal Simple
ESTIMACIÓN DE LOS PARÁMETROS 0 y 1

METODO DE MÍNIMOS CUADRADOS

80
Análisis de Regresión Lineal Simple
EJEMPLO

Un Gerente de Producción comparo las calificaciones de una


prueba de destreza de cinco empleados de una línea de
montaje con su productividad por hora.

Empleado x = Calificación en la prueba de y = Unidades producidas en una


destreza hora

12 55
A
14 63
B
17 67
C
16 70
D
11 51
E

81
82
Diagrama de
dispersión y la
línea de
regresión de
mínimos
cuadrados

83
Análisis de Regresión Lineal Simple
Obtención de la línea de regresión estimada

b0=19.2 Este valor indica que las unidades producidas en una hora ( con 0 en
la calificación de la prueba de destreza) es de 19.2 unidades.

b1=3.0 Este valor indica que por cada punto adicional en la calificación de la
prueba de destreza, las unidades producidas en una hora se incrementan en
3.0 unidades

84
Estimación puntual usando la línea de regresión

y = 19.2 + 3.0 (15) = 64.2 unidades/hora, productividad estimada

Productividad Calificación del


estimada, aspirante de la
unidades por hora prueba

85
El coeficiente de Determinación

El coeficiente de determinación es otra medida de la fuerza de la relación, se


puede describir en terminos de la variación total en y comparada con la variacion
no explicada en y.

86
El coeficiente de Determinación
EJEMPLO

Regression Statistics
Multiple R 0.954575798
R Square 0.911214953
Adjusted R Square 0.881619938
Standard Error 2.75680975
Observations 5

r2= 0.911

Lo que refleja que las calificaciones en la prueba de destreza (x) explican el 91.1% de la
variación en la productividad (y).

87

También podría gustarte