Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CAPÍTULO
6
MEDIDAS DE FORMA
Nos proponemos ahora dar un paso más en el análisis de una variable, y nos
planteamos calcular una medida que muestre las direcciones de la dispersión de
los datos con respecto a su valor central. Estas medidas se denominan: asimetría
que nos indica si la distribución de frecuencias es simétrica o asimétrica, curtosis o
apuntamiento que nos indica la deformación con respecto a la altura de la curva
normal.
Sesgo. Para medir el grado de asimetría de una curva de frecuencias, llamada
también Curva suavizada del polígono de frecuencias, se suele emplear el concepto
de sesgo, que trata de medir cuán alejado de la simetría de una curva normal o
campana de Gauss, se encuentra una curva de frecuencias.
Si una curva tiene la cola inclinada a la derecha, se dice que esta sesgada a la
derecha o tiene sesgo positivo. Si tiene la cola inclinada a la izquierda, se dice que
esta sesgada a la izquierda o que tiene sesgo negativo. (Ver figura 6.1)
Mo Me x x Me Mo x Me Mo
Sesgada a la derecha Curva normal Sesgada a la izquierda
Figura 6.1
COEFICIENTE DE ASIMETRÍA O SESGO ( CAs ).
Indica o mide el grado de deformación horizontal de la distribución de
frecuencias. Cuando la distribución de frecuencias esta inclinada o alargada hacia
la derecha se denomina asimetría a la derecha o asimetría positiva y si esta
inclinada o alargada al lado izquierdo se llama asimetría a la izquierda o
negativa. La asimetría se puede observar análogamente en la figura 6.1 y la
figura 6.2
220 ESTADÍSTICA APLICADA I Lic. Mario Soto
Donde S 3 i
(x x)2
m 23
n
Coeficiente de asimetría n 2 m3
de una muestra CAs '
( n 1)(n 2) S 3
Figura 6.8
El coeficiente de Curtosis o apuntamiento se puede medir en función de momentos
de cuantiles o a partir de una muestra.
CAPÍTULO 6 MEDIDAS DE FORMA Lic. Mario Soto 223
Coeficiente momento m4 m4
CKu m
de Curtosis s 4 m22
Leptocúrtica
Mesocúrtica
Platicúrtica
Figura 6.9
Se expresa por:
Coeficiente de m4
Aplastamiento de Fisher CKu F 3
s4
m4
Si 3 CKu 0
S4
224 ESTADÍSTICA APLICADA I Lic. Mario Soto
Interpretación:
Figura 6.11
Ejemplo En el siguiente cuadro de distribución de frecuencias se pide calcular:
a) El primer y segundo coeficiente de asimetría o sesgo de Pearson.
b) El coeficiente de asimetría por momentos y para una muestra
c) Los coeficientes de Curtosis empleando las cuatro formas.
CAPÍTULO 6 MEDIDAS DE FORMA Lic. Mario Soto 225
Tabla 6.1
i l i 1 l i x i' fi Fi x i' fi ( xi' x ) 3 f i ( x i' x ) 2 f i ( x i' x ) 4 f i
1 6 - 8 7 2 2 14 -109.744 28.88 417.0272
2 8 - 10 9 5 7 45 -29.16 16.2 52.488
3 10 - 12 11 18 25 198 0.144 0.72 0.0288
4 12 - 14 13 4 29 52 42.592 19.36 93.7024
5 14 - 16 15 1 30 15 74.088 17.64 311.1696
30 324 -22.08 82.8 874.416
Solución
a) 1er Coeficiente de asimetría o sesgo de Pearson
5
xi' f i 324
i 1
x 10.8
n 30
1
10 2
13
Mo l i 1 a 10.96
1 2 13 14
k
(x
i 1
i x)2 fi
82.8 , luego S 2.76 1.661324773 1.7
S2 2.76
n 30
x Mo 10.8 10.96
CAs1 -0.094
S 1.7
Interpretación: Como el primer coeficiente de asimetría de Pearson es menor a
cero CAs 0 , la distribución es ligeramente sesgada a la izquierda (Ver figura
6.12)
2do Coeficiente de asimetría o sesgo de Pearson
n / 2 Fi 1 15 7
n /2 = 30/2=15; Md l i 1 a 10 2 10.888 10.9
fi 18
3( x Md ) 3(10.8 10.9)
CAs2 -0.17
s 1.7
Interpretación: El segundo coeficiente de asimetría de Pearson es menor a cero
CAs 0 , por tanto la distribución está ligeramente sesgada a la izquierda
226 ESTADÍSTICA APLICADA I Lic. Mario Soto
( xi' x )3 f i 22.08
i 1
m3 0.736
n 30
m3 0.736
CAsm 0.160
S3 (1.66)3
( xi' x )2 fi 82.8
S2 i 1
2.855172441, S 1.689725544
n 1 30 1
n 2 m3 302 (0.736) 662.4
CAs ' 3
3
0.169
(n 1)(n 2) S ( 29)(28)(1.689725544) 3917.4597
k
( xi x ) 4 f i 874.416
i 1
m4 29.1472
n 30
m4 m4 29.1472
CKu m 3.83
s 4 m22 7.6176
Interpretación: Como el coeficiente de curtosis es mayor a 3 CKu 3 entonces
la distribución es Leptocúrtica (Ver figura 6.12)
CAPÍTULO 6 MEDIDAS DE FORMA Lic. Mario Soto 227
( xi' x )2 fi 82.8
S2 i 1
2.855172441, S 1.689725544
n 1 30 1
fi
18
15
12
8
9
6 8 10 12 14 16
Ii
Figura 6.12
Como se puede observar el histograma y el polígono de frecuencias, efectivamente
la distribución de frecuencias es ligeramente sesgada a la izquierda y es
Leptocúrtica o puntiaguda.
228 ESTADÍSTICA APLICADA I Lic. Mario Soto
EJERCCICIOS
1. Con los siguientes datos:
x 5' = 75, a = 10, f 1 = 7, f 4 = 22, f 2 f 3 45 , F2 = 25, H 4 = 0.74,
6
x
i 1
'
i f i 6020
a) Complete la tabla de distribución de frecuencias.
b) Calcule el coeficiente de Asimetría y Curtosis.
c) Grafique un histograma e interprete los resultados.
4. Una agencia de viajes local ofrece tarifas especiales para la visita del Cerro Rico
de Potosí y el Salar de Uyuni, para personas mayores. El gerente de la agencia
desea información adicional respecto de las personas que participan en tales
CAPÍTULO 6 MEDIDAS DE FORMA Lic. Mario Soto 229
viajes. Una muestra al azar de 40 clientes que fueron a una travesía el año
pasado, indicó las siguientes edades:
25 63 38 50 44 71 59 18 26 39
60 43 67 84 31 20 34 65 59 80
43 29 88 24 46 19 66 39 53 43
72 80 74 63 54 32 29 19 69 57
a) Organice los datos en una tabla de distribución de frecuencias.
b) ¿Dónde tienden los datos acumularse?
c) Determine y dibuje un gráfico adecuado para comprobar el coeficiente
de asimetría y curtosis.
5. Los datos corresponden a una serie histórica de caudales medios anuales en
m3/s del río San Juan.
98.1 123.5 239.4 111.2 108.4 95.05 107.2 116.8 156.8 145.7
110.2 109.3 197.5 112.3 182.9 132.7 110.4 111.0 109.3 155.2
110.5 169.3 110.9 111.6 109.8 145.7 112.1 111.3 152.6 100.2
CAPÍTU LO
7
DISTRIBUCIONES BIDIMENSIONALES
INTRODUCCIÓN. En este capítulo estudiaremos las distribuciones
bidimensionales, que son aquellas en las que se estudian simultáneamente dos
variables de cada elemento de la población o muestra: por ejemplo: peso y altura
de un grupo de estudiantes; superficie y precio de las viviendas de una ciudad;
potencia y velocidad de una gama de coches deportivos, ingreso y consumo de
familias de un determinado distrito, etc. Si asociamos a cada variable por x y y ,
tendremos un par ordenado ( x , y ) que se denominará variable estadística
bidimensional o simplemente variable bidimensional.
DIAGRAMA DE DISPERSIÓN O NUBE DE PUNTOS
Es la representación gráfica de la relación entre dos variables, el cual muestra la
ubicación de los puntos de la variable bidimensional ( x , y ) en el sistema
cartesiano.
y
x y
18
(10,12)
6 3
8 6 15
6
10
6
9 12
8
12
9
12 9
10
14
12
15
6
12
14
15
18
3
16 18 x
6 8 10 12 14 16
Figura 7.2 Diagrama de dispersión
244 ESTADÍSTICA APLICADA I Lic. Mario Soto
Covarianza 1 n ( xi X )( yi Y )
S XY xi yi XY i 1
n i 1 n
Cov( X , Y )
Coeficiente de n xi y i xi y i
correlación de uso r
práctico n xi2 ( xi ) 2 n y i2 ( y i ) 2
El coeficiente de correlación es un número comprendido en el intervalo
1 r 1
Cuando r 1 la correlación lineal es perfecta positiva, indica una
dependencia total entre las dos variables, denominada relación directa, de
manera que cuando una de ellas aumenta la otra también aumenta.
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 245
y y y
x x
x
Correlación lineal Correlación lineal Correlación no lineal
Alta positiva alta negativa
Figura 7.4
246 ESTADÍSTICA APLICADA I Lic. Mario Soto
S x2 S xy 1 r
Var-Cov = r= r
S y2 1
S yx
Teórica 52 55 61 68 74 80
x
Práctica 54 60 66 71 74 83
y
S x2
xi2 xi
25950 (65) 2 100 , S x 100 10
n
n 6
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 247
2
S y2
y i2 yi
28278 (68) 2 89 , Sy 89 9.43398
n
n 6
Cov( x, y ) S xy
xi y i 27078
xy
(65)(68) 93 0
n 6
reemplazando en la siguiente fórmula tenemos:
Cov( x, y ) 93
r 0.986
SxSy (10)(9.433981132 )
c) y
90
80
2
70 68
( x , y )
60
50
65
70
x
50 60 80 90
Figura 7.5 nube de puntos
248 ESTADÍSTICA APLICADA I Lic. Mario Soto
que mejor ajuste a los valores de la muestra, con el propósito de determinar el grado
de dependencia entre las dos variables, prediciendo el valor de ŷ estimado que se
obtendría, para un valor “ x ” que no este en la distribución.
Hallar la función lineal yˆ bˆ0 bˆ1 x consiste en determinar las constantes o
coeficientes b̂0 y b̂1 siendo b̂0 la ordenada en el origen denominada también
intercepto (intersección entre la línea de regresión con el eje de las ordenadas) y
b̂1 se denomina coeficiente de regresión es la pendiente de la recta de regresión,
es el cambio que se produce en “ y ” cuando “ x ” varía una unidad. (Ver figura
7.6).
y
yˆ bˆ0 bˆ1 x
Pendiente
Intercepto
x
Figura 7.6
Estimación de la recta de regresión por mínimos cuadrados
Un método de estimación que a veces se utiliza en forma preliminar consiste en
utilizar el diagrama de dispersión para dibujar en forma visual una recta que mejor
nos parezca para representar la tendencia de los datos, si bien este método
proporciona resultados relativamente aceptables, tiene los inconvenientes de ser
subjetivo, impreciso y sin ningún valor desde el punto de vista estadístico. Este
problema se supera empleado el método analítico más usado, llamado Método
de Mínimos Cuadrados desarrollado por Carl Gauss (1777 – 1855). La idea del
método es hallar b̂0 y b̂1 que minimicen la suma de cuadrados de las longitudes
de los segmentos de las líneas verticales que unen los datos observados con la
recta estimada en el gráfico de dispersión (ver figura 7.7).
250 ESTADÍSTICA APLICADA I Lic. Mario Soto
y
yi
yˆ bˆ0 bˆ1 x
ei y i yˆ i
ŷ i
x
Figura 7.7 Desviación entre los puntos observados
y la recta de regresión estimada
Dadas dos variables x, y sobre las que definimos un modelo lineal de dos
variables de la forma:
Modelo de regresión y b0 b1 xi ei
lineal simple
Para hallar los valores b̂0 y b̂1 que hacen mínima la expresión anterior es preciso
igualar a cero las derivadas con respecto a las incógnitas b̂0 y b̂1 .
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 251
SCE n
2 ( y i bˆ0 bˆ1 x i )(1) 0
bˆ 0i 1
SCE n
2 ( y i bˆ0 bˆ1 xi )( xi ) 0
bˆ i 1
1
Ambas ecuaciones se ordenan, hasta llegar a la forma del sistema de ecuaciones
normales, como sigue:
n n
( yi bˆ0 bˆ1 xi ) 0 ( xyi bˆ0 xi bˆ1 xi2 ) 0
i 1 i 1
n n n
y i bˆ0 bˆ1 xi 0
i 1 i 1 i 1
n n n
xi y i bˆ0 xi bˆ1 xi2 0
i 1 i 1 i 1
n n n n n
yi nbˆ0 bˆ1 xi y i xi bˆ0 xi bˆ1 xi2
i 1 i 1 i 1 i 1 i 1
l n n
y i bˆ0 n bˆ1 x i
Sistema de ecuaciones i 1 i 1
n n n
normales
y i xi bˆ0 xi bˆ1 xi2
i 1 i 1 i 1
1 n n
n i 1
y i xi x ( y bˆ1 x ) bˆ1 xi2
i 1
252 ESTADÍSTICA APLICADA I Lic. Mario Soto
S xy bˆ1 S x2
b̂0 se puede calcular por medio de las formulas (1) ó (2) y b̂1 se puede
determinar resolviendo el sistema de ecuaciones por medio de la regla de Cramer:
n
n yi
i 1
n n n n n
xi xi y i n xi y i xi yi
ˆ
b
i 1 i 1
i 1 i 1 i 1
1 n 2
n
n
n xi n x i2
xi
i 1 i 1 i 1
n n
xi x i2
i 1 i 1
n n n
n xi y i xi y i
bˆ1 i 1
n
i 1
n
i 1
n xi2 ( x i ) 2
i 1 i 1
Por otra parte sustituyendo la constante bˆ0 y bˆ1 x en yˆ bˆ0 bˆ1 x resulta,
S xy
yˆ y bˆ1 ( x x ) o también (x x) yˆ y
S x2
Que es otra forma de expresar la recta de regresión mínimo cuadrática que
permite observar que la recta de regresión siempre contiene al punto ( x , y ).
Regresión de “ x ” sobre “ y ”
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 253
ˆ1
yˆ bˆ0 bˆ1 x de donde x ˆ ( yˆ b0 )
b 1
yi 2 4 2 6 3 7
i 1 i 1
ˆ 1.14 0.591y
x
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 255
y
7 ˆ 1.14 0.59 y
x
6 ˆ 1.4 0.743 x
y
4 ○( x , y )
3
2
1
x
1 2 3 4 5 6 7
Figura 7.9
La figura 7.9 muestra el diagrama de dispersión o nube de puntos, más las dos
rectas ajustadas que poseen el mismo grado de aproximación al diagrama de
dispersión, las mismas se interceptan en punto que se denomina centroide donde
se encuentran exactamente las medias aritméticas ( x , y ) .
Predicción
Cuando se estima un modelo de regresión lineal, por ejemplo:
yˆ bˆ0 bˆ1 x
explicativo será el modelo; se debe tener muy en cuenta que siempre se predicen
valores promedios
COEFICIENTE DE DETERMINACIÓN ( r 2 )
MEDIDA DE LA BONDAD DE AJUSTE
Solución:
xi yi xi y i
x laNúmero
a)Empleando fórmulade de días de permanencia
uso práctico tenemos:
x i2 y i2
de los turistas en nuestra ciudad
1 30 1 30 900 y Gasto n xeni ydólares
i xi yi
por permanencia
1 35 1 35 1225 r
de los turistas 2 en la ciudad
1 40 1 40 1600 nTabla xi ) 2 n y i2 ( y i ) 2
xi (7.7
2 55 4 110 3025
2 62 4 124 3844
3 75 9 225 5625 10(2246) 26(705)
r 0.
3 80 9 240 6400
10(86) 26 2 10(59123) 705 2
4 98 16 392 9604
4 100 16 400 10000 992
5 130 24 650 16900
26 705 86 2246 59123
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 257
S y2
( y i y ) 2 9420.5 942.05 , S y 942.05 30.69283304
n n
Cov( x, y ) S xy
xi y i x y ( xi x )( y i y ) 413 41.3
n n 10
Luego se reemplaza en la siguiente fórmula:
Cov( x, y ) 41.3
r 0.992
SxSy (1.356465997)(30.69283304)
Interpretación: El coeficiente de correlación de 0.992 muestra que las dos
variables gasto en dólares y permanencia en días por los turistas en nuestra ciudad
están fuertemente correlacionadas, o sea que existe una fuerte o alta correlación
entre ambas variables.
258 ESTADÍSTICA APLICADA I Lic. Mario Soto
b) coeficiente de determinación
n
( yˆ i y ) 2 9270.05
i 1
r2 n
0.984 98%
9420.5
( yi y ) 2
i 1
Figura 7.12
INTERPRETACIÓN DE LA ECUACIÓN DE REGRESIÓN
ESTIMADA
En nuestro ejemplo la ecuación obtenida es:
ˆ 12.1413 22.4457 x
y
100
y
50
10 20 30 40 50 60 70 80
x
Figura 7.13
Desviación Razón T=
Estándar del Coeficiente/
Predictor Coeficiente coeficiente Desv. Estándar
Intercepto
x
23,169
1,68724
2,771
0,05257
8,36
32,09
150
S = 3,428 R-Cuadrado = 99,2% R-Cuadrado(adj) = 99,1%
y
50
10 20 30 40 50 60 70 80
x
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 261
Figura 7.14
EJERCICIOS
262 ESTADÍSTICA APLICADA I Lic. Mario Soto
Segundo parcial 75 51 90 80 60 40 55 78
x
Examen final 79 52 92 81 63 51 60 82
y
a) Encuentre la ecuación de la línea de mínimos cuadrados que nos permitirá
pronosticar las calificaciones del examen final.
b) Pronostique o estime la calificación en el examen final de un estudiante
que obtuvo un 70 en el segundo parcial.
2. Los estudiantes de la Carrera de Ingeniería Comercial, en un estudio de
mercado tratan de averiguar, si es efectiva la propaganda televisada de un
producto nuevo que salió a la venta con respecto al tiempo de publicidad en
(horas/semana). Los datos recopilados se muestran en el siguiente cuadro:
a) Semana 2 3 4 5 6 7 ¿es
Propaganda x 15 20 25 23 35 41 efectiva
la Ventas en dólares 280 300 330 - 370 400
y
publicidad del producto?
b) ¿En cuanto estimaría las ventas para la semana 5? Interprete los resultados.
3. El ingreso anual disponible y los gastos de consumo de 10 familias
seleccionados aleatoriamente en una zona de nuestra ciudad han sido, en
cientos de miles de pesos, los siguientes:
Consumo 9 12 16 30 20 24 15 14 10 22
y
Ingreso x 11 16 20 35 28 25 22 18 12 17
a) Ajuste por mínimos cuadrados la recta en la que el consumo sea función de
los ingresos.
b) Explique el significado estadístico y económico de los coeficientes de la
línea ajustada.
c) Proporcione una medida de bondad de ajuste.
d) Estime el consumo si los ingresos anuales fueran de 27 en miles de pesos.
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 263
Método clásico x 9 12 28 72 30 38 76 26 52
Método experimental y 6 10 27 67 25 35 75 27 53
No. Orden 1 2 3 4 5 6 7 8
Estadística x 51 60 50 72 40 80 66 53
Matemáticas y 50 55 53 67 45 80 75 51
B
A
264 ESTADÍSTICA APLICADA I Lic. Mario Soto
Mes 1 2 3 4 5 6 7 8
A 150 - 179 182 195 182 195 200
B 110 120 180 200 205 190 - 202