Está en la página 1de 34

CAPÍTULO 6 MEDIDAS DE FORMA Lic.

Mario Soto 219

CAPÍTULO
6
MEDIDAS DE FORMA
Nos proponemos ahora dar un paso más en el análisis de una variable, y nos
planteamos calcular una medida que muestre las direcciones de la dispersión de
los datos con respecto a su valor central. Estas medidas se denominan: asimetría
que nos indica si la distribución de frecuencias es simétrica o asimétrica, curtosis o
apuntamiento que nos indica la deformación con respecto a la altura de la curva
normal.
Sesgo. Para medir el grado de asimetría de una curva de frecuencias, llamada
también Curva suavizada del polígono de frecuencias, se suele emplear el concepto
de sesgo, que trata de medir cuán alejado de la simetría de una curva normal o
campana de Gauss, se encuentra una curva de frecuencias.
Si una curva tiene la cola inclinada a la derecha, se dice que esta sesgada a la
derecha o tiene sesgo positivo. Si tiene la cola inclinada a la izquierda, se dice que
esta sesgada a la izquierda o que tiene sesgo negativo. (Ver figura 6.1)

Mo  Me  x x  Me  Mo x  Me  Mo
Sesgada a la derecha Curva normal Sesgada a la izquierda
Figura 6.1
COEFICIENTE DE ASIMETRÍA O SESGO ( CAs ).
Indica o mide el grado de deformación horizontal de la distribución de
frecuencias. Cuando la distribución de frecuencias esta inclinada o alargada hacia
la derecha se denomina asimetría a la derecha o asimetría positiva y si esta
inclinada o alargada al lado izquierdo se llama asimetría a la izquierda o
negativa. La asimetría se puede observar análogamente en la figura 6.1 y la
figura 6.2
220 ESTADÍSTICA APLICADA I Lic. Mario Soto

Mo < Me < x x  Me  Mo x <


Me < Mo
Asimetría positiva Simétrica Asimetría negativa
CAs > 0 CAs 6.2
Figura =0 CAs < 0

Coeficiente de asimetría de Pearson.


Basándonos en que una distribución de frecuencias es simétrica y unimodal
donde la media, la mediana y la moda coinciden, un índice de asimetría podría
ser aquel que mida la distancia entra la media y la moda, ( x  Mo) . Para quitar
la dimensionalidad a esta diferencia, dividimos por la desviación típica, obteniendo
el primer coeficiente de asimetría de Pearson:

1er. Coeficiente de asimetría x  Mo


CAs1
o sesgo de Pearson S

Como en distribuciones asimétricas se verifica x  Mo  3( x  Me)


sustituyendo en el numerador de la fórmula anterior, obtenemos el segundo
coeficiente de asimetría de Pearson, que es la más utilizada:

2do. Coeficiente de asimetría 3( x  Me)


o sesgo de Pearson CAs2 
S

Interpretación: El coeficiente de asimetría para los dos casos anteriores se


interpreta de la siguiente manera:

< 0, la distribución está sesgada a la izquierda (asimetría negativa)


CAs = 0, la distribución es simétrica
> 0, la distribución está sesgada a la derecha (asimetría positiva)
CAPÍTULO 6 MEDIDAS DE FORMA Lic. Mario Soto 221

Coeficiente de asimetría basado en el tercer momento central o


Coeficiente de asimetría de Fisher ( CAsm ).
Los momentos centrales de orden r impar son siempre nulos en el caso de
distribuciones simétricas, mientras que para distribuciones asimétricas será
positiva si existe asimetría positiva y será negativa en el caso de la asimetría
negativa. El tercer momento respecto a la media se expresa como:
n
 ( xi  x ) 3 ; para datos no clasificados
i 1
m3 
n
k
 ( xi  x ) 3 f i ; para datos clasificados
i 1
m3 
n
Se divide m3 por el cubo de la desviación estándar S 3 para que el coeficiente
de asimetría sea un número sin dimensiones. Esto es

Coeficiente de asimetría por m3 m


momentos o de Fisher CAsm  3
 3
S m23

Donde S 3    i
 (x  x)2 
  m 23
 n 
 

Coeficiente de asimetría de una muestra ( CAs ' )


Para el calcular este coeficiente, se requiere de momentos centrales de tercer orden
y la desviación estándar muestral, que se calcula a partir de la cuasivarianza con
n  30 y se expresa por medio de la siguiente fórmula

Coeficiente de asimetría n 2 m3
de una muestra CAs ' 
( n  1)(n  2) S 3

Interpretación: La interpretación es equivalente a los anteriores coeficientes de


asimetría, es decir:
222 ESTADÍSTICA APLICADA I Lic. Mario Soto

< 0, la distribución está sesgada a la izquierda (asimetría negativa)


CAs = 0, la distribución es simétrica
> 0, la distribución está sesgada a la derecha (asimetría positiva)

Nota. Cuando se efectúa un estudio descriptivo es improbable que la distribución


de frecuencias sea totalmente simétrica. Por lo cual diremos que la distribución es
simétrica de manera aproximada, En muchos casos observando detenidamente la
gráfica podemos no distinguir claramente de qué lado están las frecuencias más
altas. Entonces es conveniente recurrir a otras medidas que ayuden a interpretar
de manera clara la asimetría. Definiremos a continuación algunos de los más
usuales.

MEDIDAS DE APUNTAMIENTO O CURTOSIS (CKu )


Una vez que la simetría ha sido determinada, podremos preguntarnos si la curva es
más o menos apuntada (mayor o menor altura). Este apuntamiento habrá que
medirlo con respecto a la altura de la curva normal.
Coeficiente de Curtosis. ( CKu ). Del griego Kurtosis: encorvado, redondeado.
Mide el grado de deformación vertical o apuntamiento de la distribución de
frecuencias, tomando como patrón de referencia la distribución normal o gaussiana.

A la curva normal se le llama Mesocúrtica, cuando es más apuntada se le


denomina Leptocúrtica y a la más plana o achatada Platicúrtica (Ver figura 6.4).

Leptocúrtica Mesocúrtica Platicúrtica


(Apuntada) (Normal) (Plana)

Figura 6.8
El coeficiente de Curtosis o apuntamiento se puede medir en función de momentos
de cuantiles o a partir de una muestra.
CAPÍTULO 6 MEDIDAS DE FORMA Lic. Mario Soto 223

Coeficiente de Curtosis basado en momentos ( CKum ). Está expresado por:

Coeficiente momento m4 m4
CKu m  
de Curtosis s 4 m22

Donde m 4 es cuarto momento respecto a la media y S es la desviación estándar.


En una distribución normal, este coeficiente toma el valor de 3, es decir m 4  3m 22
Interpretación:
< 3, Platicúrtica, si la distribución es menos apuntada que la normal
CKu = 3, Mesocúrtica, si la distribución es normal
> 3, Leptocúrtica, si la distribución es más apuntada que la normal

Coeficiente de aplastamiento de Fisher ( CAs F ).


Es otra forma de medir la Curtosis, se emplea para medir si una distribución de
frecuencias es muy apuntada o no en la parte central de la distribución.

Leptocúrtica

Mesocúrtica
Platicúrtica

Figura 6.9
Se expresa por:
Coeficiente de m4
Aplastamiento de Fisher CKu F  3
s4
m4
Si  3  CKu  0
S4
224 ESTADÍSTICA APLICADA I Lic. Mario Soto

Coeficiente de Curtosis de una muestra ( Cku ' ). Se utiliza momentos


centrales de cuarto orden y la desviación estándar muestral con n  30 , y
se expresa por medio de:

Coeficiente de Curtosis de una n3 m4


CKu '  3
muestra (n  1)(n  2)( n  3) S 4

Interpretación:

< 0, Platicúrtica, si la distribución es menos apuntada que la normal


CKu = 0, Mesocúrtica, si la distribución es normal
> 0, Leptocúrtica, si la distribución es más apuntada que la normal

Los histogramas que se muestra a continuación también nos permiten de manera


objetiva observar el grado de deformación vertical, Curtosis o apuntamiento que
tiene una distribución de frecuencias (Ver figura 6.11).

Leptocúrtica Mesocúrtic Platicúrtic

Figura 6.11
Ejemplo En el siguiente cuadro de distribución de frecuencias se pide calcular:
a) El primer y segundo coeficiente de asimetría o sesgo de Pearson.
b) El coeficiente de asimetría por momentos y para una muestra
c) Los coeficientes de Curtosis empleando las cuatro formas.
CAPÍTULO 6 MEDIDAS DE FORMA Lic. Mario Soto 225

Tabla 6.1
i l i 1  l i x i' fi Fi x i' fi ( xi'  x ) 3 f i ( x i'  x ) 2 f i ( x i'  x ) 4 f i
1 6 - 8 7 2 2 14 -109.744 28.88 417.0272
2 8 - 10 9 5 7 45 -29.16 16.2 52.488
3 10 - 12 11 18 25 198 0.144 0.72 0.0288
4 12 - 14 13 4 29 52 42.592 19.36 93.7024
5 14 - 16 15 1 30 15 74.088 17.64 311.1696
30 324 -22.08 82.8 874.416
Solución
a) 1er Coeficiente de asimetría o sesgo de Pearson
5
 xi' f i 324
i 1
x   10.8
n 30
 1 
  10  2
13 
Mo  l i 1  a   10.96
 1   2   13  14 
k

 (x
i 1
i  x)2 fi
82.8 , luego S  2.76  1.661324773  1.7
S2    2.76
n 30
x  Mo 10.8  10.96
CAs1   -0.094
S 1.7
Interpretación: Como el primer coeficiente de asimetría de Pearson es menor a
cero CAs  0 , la distribución es ligeramente sesgada a la izquierda (Ver figura
6.12)
2do Coeficiente de asimetría o sesgo de Pearson

 n / 2  Fi 1  15  7 
n /2 = 30/2=15; Md  l i 1  a   10  2   10.888  10.9
 fi   18 
3( x  Md ) 3(10.8  10.9)
CAs2    -0.17
s 1.7
Interpretación: El segundo coeficiente de asimetría de Pearson es menor a cero
CAs  0 , por tanto la distribución está ligeramente sesgada a la izquierda
226 ESTADÍSTICA APLICADA I Lic. Mario Soto

b) Coeficiente de asimetría por momentos


5

 ( xi'  x )3 f i  22.08
i 1
m3     0.736
n 30
m3  0.736
CAsm     0.160
S3 (1.66)3

Interpretación: Como el coeficiente de asimetría por momentos también es menor


a cero CAs  0 , decimos que está ligeramente sesgada a la izquierda
Coeficiente de asimetría de una muestra
5

 ( xi'  x )2 fi 82.8
S2  i 1
  2.855172441, S  1.689725544
n 1 30  1
n 2 m3 302 (0.736)  662.4
CAs '  3
 3
   0.169
(n  1)(n  2) S ( 29)(28)(1.689725544) 3917.4597

Interpretación: Ente caso como en los anteriores, el coeficiente de asimetría de una


muestra también es menor a cero CAs  0 , por lo tanto la distribución está
ligeramente sesgada a la izquierda (Ver figura 6.12)

c) Coeficiente de Curtosis por momentos

s 2.76  1.661324773 , luego s 4  7.6176

k
 ( xi  x ) 4 f i 874.416
i 1
m4    29.1472
n 30
m4 m4 29.1472
CKu m     3.83
s 4 m22 7.6176
Interpretación: Como el coeficiente de curtosis es mayor a 3 CKu  3 entonces
la distribución es Leptocúrtica (Ver figura 6.12)
CAPÍTULO 6 MEDIDAS DE FORMA Lic. Mario Soto 227

Coeficiente de aplastamiento de Fisher


m4 29.1472
CKu F  4
3  3  0.83
s 7.6176
Interpretación: Como el coeficiente de curtosis CKu  0 , entonces la distribución
es Leptocúrtica (Ver figura 6.12)
Coeficiente de curtosis para una muestra
5

 ( xi'  x )2 fi 82.8
S2  i 1
  2.855172441, S  1.689725544
n 1 30  1

n3m4 303 ( 29.1472)


CKu '   3  3
(n  1)(n  2)(n  3) S 4 ( 29)(28)(27)(1.68972554) 4

Cku '  4.403278289  3  1.403278

Interpretación: Como CKu  0 , la distribución es Leptocúrtica (Ver figura 6.12)

fi
18

15

12
8
9

6 8 10 12 14 16
Ii
Figura 6.12
Como se puede observar el histograma y el polígono de frecuencias, efectivamente
la distribución de frecuencias es ligeramente sesgada a la izquierda y es
Leptocúrtica o puntiaguda.
228 ESTADÍSTICA APLICADA I Lic. Mario Soto

EJERCCICIOS
1. Con los siguientes datos:
x 5' = 75, a = 10, f 1 = 7, f 4 = 22, f 2  f 3  45 , F2 = 25, H 4 = 0.74,
6

x
i 1
'
i f i  6020
a) Complete la tabla de distribución de frecuencias.
b) Calcule el coeficiente de Asimetría y Curtosis.
c) Grafique un histograma e interprete los resultados.

2. Con los siguientes datos y cinco intervalos de igual amplitud


l1  10.5 , l 5  26.5 , F3  22 , F5  40 , h1  0.10 , h3  0.25 ,
h5  0.15
Se pide:
a) Calcular el segundo coeficiente de asimetría de Pearson.
b) Calcular el coeficiente de asimetría por momentos.
c) Calcular el coeficiente momento de curtosis.
e) Graficar e interpretar los resultados.

3. La carrera de Estadística efectuó una encuesta a 50 usuarios de Internet


sobre la cantidad de horas utilizadas en una semana. Los resultados fueron los
siguientes:

I 2-4 4-6 6-8 8 - 10 10 - 12 12 - 14 14 - 16


fi 2 5 10 16 10 5 2

a) Calcular el segundo coeficiente de asimetría de Pearson.


b) Calcular el coeficiente de asimetría por momentos.
d) Calcular el coeficiente momento de curtosis.
e) Calcular el coeficiente de aplastamiento de Fisher.
f) Graficar e interpretar los resultados.

4. Una agencia de viajes local ofrece tarifas especiales para la visita del Cerro Rico
de Potosí y el Salar de Uyuni, para personas mayores. El gerente de la agencia
desea información adicional respecto de las personas que participan en tales
CAPÍTULO 6 MEDIDAS DE FORMA Lic. Mario Soto 229

viajes. Una muestra al azar de 40 clientes que fueron a una travesía el año
pasado, indicó las siguientes edades:

25 63 38 50 44 71 59 18 26 39
60 43 67 84 31 20 34 65 59 80
43 29 88 24 46 19 66 39 53 43
72 80 74 63 54 32 29 19 69 57
a) Organice los datos en una tabla de distribución de frecuencias.
b) ¿Dónde tienden los datos acumularse?
c) Determine y dibuje un gráfico adecuado para comprobar el coeficiente
de asimetría y curtosis.
5. Los datos corresponden a una serie histórica de caudales medios anuales en
m3/s del río San Juan.

f1  f 6 , f 3  f 5 , f 4  25, f 2  f 4  f1 , f 3  f1  10, F1  100

 xi'  415.275, l5  142.65


i4
Se pide calcular:
a) Calcular el segundo coeficiente de asimetría de Pearson.
b) Calcular el coeficiente de asimetría por momentos.
c) Calcular el coeficiente de asimetría para una muestra
d) Calcular el coeficiente momento de curtosis.
e) Calcular el coeficiente de aplastamiento de Fisher.
f)Calcular el coeficiente de curtosis para una muestra
g) Graficar e interpretar los resultados
6. Los datos representan a los caudales medios anuales, en m 3/s, que corresponde a
un registro de 30 años del río Pilcomayo.

98.1 123.5 239.4 111.2 108.4 95.05 107.2 116.8 156.8 145.7
110.2 109.3 197.5 112.3 182.9 132.7 110.4 111.0 109.3 155.2
110.5 169.3 110.9 111.6 109.8 145.7 112.1 111.3 152.6 100.2

a) Organizar los datos en una tabla de distribución de frecuencias


b) Calcular el coeficiente de asimetría y curtosis
c) Graficar e interpretar los resultados
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 243

CAPÍTU LO
7
DISTRIBUCIONES BIDIMENSIONALES
INTRODUCCIÓN. En este capítulo estudiaremos las distribuciones
bidimensionales, que son aquellas en las que se estudian simultáneamente dos
variables de cada elemento de la población o muestra: por ejemplo: peso y altura
de un grupo de estudiantes; superficie y precio de las viviendas de una ciudad;
potencia y velocidad de una gama de coches deportivos, ingreso y consumo de
familias de un determinado distrito, etc. Si asociamos a cada variable por x y y ,
tendremos un par ordenado ( x , y ) que se denominará variable estadística
bidimensional o simplemente variable bidimensional.
DIAGRAMA DE DISPERSIÓN O NUBE DE PUNTOS
Es la representación gráfica de la relación entre dos variables, el cual muestra la
ubicación de los puntos de la variable bidimensional ( x , y ) en el sistema
cartesiano.
y
x y
18  
(10,12)  
6 3
8 6 15
6
10
6
9 12  
8
12
9
12 9  
10
14
12
15
6  
12
14
15
18
3 
16 18 x
6 8 10 12 14 16
Figura 7.2 Diagrama de dispersión
244 ESTADÍSTICA APLICADA I Lic. Mario Soto

Si analizamos más de dos variables simultáneamente entonces estamos en el campo


del análisis estadístico multivariado, esta técnica cuenta con una gama de métodos
multivariados muy avanzados y complejos, que no tocaremos en este libro.
COVARIACIÓN - CORRELACIÓN
Cuando se analiza de forma conjunta dos variables cuantitativas, el objetivo que se
pretende es, por lo general determinar la existencia o no de algún tipo de variación
conjunta o covariación entre ellas.
n

Covarianza 1 n  ( xi  X )( yi  Y )
S XY   xi yi  XY  i 1
n i 1 n
 Cov( X , Y )

COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON (r )

Fue Karl Pearson quien propuso un índice estandarizada independiente de la escala


de medida de ambas variables denominada coeficiente de correlación lineal, que
mide la intensidad o grado de dependencia entre las variables x, y , cuyo cálculo
se realiza dividiendo la covariancia por el producto de las desviaciones estándar de
ambas variables:
Coeficiente de correlación
S xy
en términos de covarianza
r
SxSy
A partir de esta expresión se obtiene otra fórmula de uso práctico en el cálculo de
del coeficiente de correlación lineal:

Coeficiente de n xi y i   xi  y i
correlación de uso r
práctico n xi2  ( xi ) 2 n y i2  ( y i ) 2
El coeficiente de correlación es un número comprendido en el intervalo
1  r  1
 Cuando r  1 la correlación lineal es perfecta positiva, indica una
dependencia total entre las dos variables, denominada relación directa, de
manera que cuando una de ellas aumenta la otra también aumenta.
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 245

 Cuando r  1 la correlación lineal es perfecta negativa o inversa indica una


dependencia total denominada relación inversa de manera que cuando una de
ellas aumenta la otra disminuye.

 Cuando r  0 , no existe correlación alguna, una independencia total entre las


dos variables, de manera que cuando una de ellas varía esto no influye en
absoluto en el valor que pueda tomar la segunda variable.
En los siguientes diagramas de dispersión, se observa los diferentes tipos de
correlación.
y y y

  


  

   
  
 x x x
Correlación lineal Correlación lineal No existe correlación
perfecta positiva perfecta negativa

y y y

 

 

  

  
 
 x  x
x
Correlación lineal Correlación lineal Correlación no lineal
Alta positiva alta negativa

Figura 7.4
246 ESTADÍSTICA APLICADA I Lic. Mario Soto

Matriz de varianza-covarianza y matriz de correlación

 S x2 S xy  1 r
Var-Cov =   r=  r
 S y2   1

 S yx 

Matriz de varianza-covarianza Matriz de correlación


Ejemplo En el examen de la materia de Estadística de Medio Ambiente que
consta de la parte teórica y práctica, las calificaciones de 6 estudiantes fueron:

Teórica 52 55 61 68 74 80
x
Práctica 54 60 66 71 74 83
y

a) Calcule la covarianza y el coeficiente de correlación lineal de estos resultados.


b) Calcule el coeficiente de correlación de uso práctico.
c) Grafique el diagrama de dispersión.
d) Determine la matriz de var-cov y la de correlación
Solución: Tabla 7.1
xi yi xi y i x i2 y i2
52 54 2808 2704 2916
55 60 3300 3025 3600
61 66 4026 3721 4356
68 71 4828 4624 5041
74 74 5476 5476 5476
80 83 6640 6400 6889
390 408 27078 25950 28278

a) Para calcular la covarianza primero calculamos las medias seguidamente


calculamos las varianzas de ambas variables, para luego remplazar en la
fórmula del coeficiente de correlación. Así
6 6
 xi 390 ,  yi 408
i 1 i 1
x   65 y   68
n 6 n 6
2

S x2 
 xi2   xi
 

  25950  (65) 2  100 , S x  100  10
n 
 n  6
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 247
2

S y2 
 y i2   yi
 

  28278  (68) 2  89 , Sy  89  9.43398
n 
 n  6

Cov( x, y )  S xy 
 xi y i 27078
xy
 (65)(68)  93  0
n 6
reemplazando en la siguiente fórmula tenemos:
Cov( x, y ) 93
r   0.986
SxSy (10)(9.433981132 )

Al ser S xy > 0, la nube de puntos en el gráfico debe tener una tendencia


creciente; como el coeficiente de correlación no esta muy alejado de 1,
vemos que no sólo la tendencia es creciente sino que se encuentran
relativamente alineados, es decir que existe una correlación lineal positiva alta
entre ambas variables.
n xi y i   xi  y i
b) r
n xi2  ( x i ) 2 n y i2  ( y i ) 2

6(27078)  390(408) 3348


r   0.986
6(25950)  390 2
6(28278)  408 2 3396.233208

c) y
90


80
2
70 68
( x , y )
60 
50
 65

70
x
50 60 80 90
Figura 7.5 nube de puntos
248 ESTADÍSTICA APLICADA I Lic. Mario Soto

d) Matriz de varianza - covarianza y la matriz de correlación


 100 93   1 0.986
Var  Cov ( x, y )  
89 
; r  
1 
 93   0.986 

REGRESIÓN LINEAL SIMPLE


Introducción
En este capítulo estudiaremos la relación entre dos variables x y y en términos
de dependencia, analizando la influencia de una sobre la otra, esta puede ser una
dependencia causa efecto, por ejemplo, la cantidad de lluvia caída (causa), da lugar
a un aumento de la producción agrícola (efecto), o bien los gastos de una empresa
en publicidad y su volumen de ventas, la estatura de padres e hijos, la magnitud del
agujero de la capa de ozono y la emisión de gases contaminantes, etc.
Si utilizamos un sistema de coordenadas cartesianas para representar la distribución
bidimensional, obtendremos un conjunto de puntos conocido como diagrama de
dispersión o nube de puntos, cuyo análisis permite estudiar cualitativamente, la
relación entre una variable dependiente “ y ” y una variable independiente o
explicatoria ( x ), El siguiente paso, es la determinación de la dependencia
funcional entre las dos variables “x” y “ y” que mejor ajusta a la distribución
bidimensional, con el fin de predecir el valor de una variable en base a la otra,
denominada regresión lineal cuando la función es lineal, es decir, requiere la
determinación de dos constantes: la pendiente y la ordenada en el origen de la recta
de regresión yˆ  bˆ0  bˆ1 x . La palabra regresión fue empleada por primera vez por
Sir Francis Galton (1822-1911), cuando estudió el fenómeno de la herencia y
demostró que cuando matrimonios con estaturas altas o bajas tienen hijos, las
estaturas de esos hijos tienden a exhibir regresión es decir, a desplazarse hacia una
estatura media más representativa.
Regresión lineal simple
Dados n pares de datos ( x1 , y1 ), ( x 2 , y 2 ),..., ( x n , y n ) de una variable
bidimensional ( x, y ) . La regresión lineal simple de “ y ” con respecto a “ x ”,
consiste en determinar la ecuación de la línea recta estimada:
yˆ  bˆ0  bˆ1 x
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 249

que mejor ajuste a los valores de la muestra, con el propósito de determinar el grado
de dependencia entre las dos variables, prediciendo el valor de ŷ estimado que se
obtendría, para un valor “ x ” que no este en la distribución.
Hallar la función lineal yˆ  bˆ0  bˆ1 x consiste en determinar las constantes o
coeficientes b̂0 y b̂1 siendo b̂0 la ordenada en el origen denominada también
intercepto (intersección entre la línea de regresión con el eje de las ordenadas) y
b̂1 se denomina coeficiente de regresión es la pendiente de la recta de regresión,
es el cambio que se produce en “ y ” cuando “ x ” varía una unidad. (Ver figura
7.6).
y

 yˆ  bˆ0  bˆ1 x
Pendiente


Intercepto 
x
Figura 7.6
Estimación de la recta de regresión por mínimos cuadrados
Un método de estimación que a veces se utiliza en forma preliminar consiste en
utilizar el diagrama de dispersión para dibujar en forma visual una recta que mejor
nos parezca para representar la tendencia de los datos, si bien este método
proporciona resultados relativamente aceptables, tiene los inconvenientes de ser
subjetivo, impreciso y sin ningún valor desde el punto de vista estadístico. Este
problema se supera empleado el método analítico más usado, llamado Método
de Mínimos Cuadrados desarrollado por Carl Gauss (1777 – 1855). La idea del
método es hallar b̂0 y b̂1 que minimicen la suma de cuadrados de las longitudes
de los segmentos de las líneas verticales que unen los datos observados con la
recta estimada en el gráfico de dispersión (ver figura 7.7).
250 ESTADÍSTICA APLICADA I Lic. Mario Soto

y
yi

 yˆ  bˆ0  bˆ1 x
ei  y i  yˆ i
 ŷ i 
 
 x
Figura 7.7 Desviación entre los puntos observados
y la recta de regresión estimada
Dadas dos variables x, y sobre las que definimos un modelo lineal de dos
variables de la forma:
Modelo de regresión y  b0  b1 xi  ei
lineal simple

Donde b0 y b1 son constante o coeficientes desconocidos, ei es el error


residual que se debe minimizar y “ x i ” es la variable independiente.

El método consiste en medir el error ei que se comete al aproximar “ y ”


mediante “ ŷ ” estimada, calculando la suma de las diferencias entre los valores
reales y los aproximados, elevados al cuadrado, que también recibe el nombre de
suma de cuadrados residuales o suma de cuadrados de los errores que debe ser
mínima, a partir de la recta de regresión mínimo cuadrática yˆ  bˆ0  bˆ1 x tenemos:
n n n
SCE   ei2   ( y i  yˆ i ) 2   ( y i  bˆ0  bˆ1 xi ) 2 sea mínima
i 1 i 1 i 1

Para hallar los valores b̂0 y b̂1 que hacen mínima la expresión anterior es preciso
igualar a cero las derivadas con respecto a las incógnitas b̂0 y b̂1 .
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 251

SCE n
 2 ( y i  bˆ0  bˆ1 x i )(1)  0
bˆ 0i 1

SCE n
 2 ( y i  bˆ0  bˆ1 xi )(  xi )  0
bˆ i 1
1
Ambas ecuaciones se ordenan, hasta llegar a la forma del sistema de ecuaciones
normales, como sigue:
n n
 ( yi  bˆ0  bˆ1 xi )  0  ( xyi  bˆ0 xi  bˆ1 xi2 )  0
i 1 i 1

n n n
 y i   bˆ0   bˆ1 xi  0
i 1 i 1 i 1
n n n
  xi y i   bˆ0 xi   bˆ1 xi2  0
i 1 i 1 i 1

n n n n n
 yi  nbˆ0  bˆ1  xi  y i xi  bˆ0  xi  bˆ1  xi2
i 1 i 1 i 1 i 1 i 1

l n n
 y i  bˆ0 n  bˆ1  x i
Sistema de ecuaciones i 1 i 1
n n n
normales
 y i xi  bˆ0  xi  bˆ1  xi2
i 1 i 1 i 1

Desarrollando la primera ecuación normal se obtiene:


n n
 yi  xi , luego bˆ0  y  bˆ1 x
bˆ0  i 1
 bˆ1 i 1
n n
Sustituyendo en la segunda ecuación normal tenemos:
n n n
0   y i xi  bˆ0  xi  bˆ1  x i2
i 1 i 1 i 1

1 n n
 
n i 1
y i xi  x ( y  bˆ1 x )  bˆ1  xi2
i 1
252 ESTADÍSTICA APLICADA I Lic. Mario Soto

 S xy  bˆ1 S x2

Así obtenemos las constantes buscadas:


n n n n
Ordenada en el bˆ0  y  bˆ1 x
origen  xi2  yi   xi  xi yi
bˆ0  i 1 i 1 i 1 i
2
(1) n
 n

n xi2    xi 
S xy i 1  i 1 
Coeficiente de regresión bˆ1 
S x2 (2)

b̂0 se puede calcular por medio de las formulas (1) ó (2) y b̂1 se puede
determinar resolviendo el sistema de ecuaciones por medio de la regla de Cramer:
n
n  yi
i 1
n n n n n
 xi  xi y i n xi y i   xi  yi
ˆ 
b
i 1 i 1
 i 1 i 1 i 1
1 n 2
n
 n 
n  xi n  x i2  
  xi 

i 1 i 1  i 1 
n n
 xi  x i2
i 1 i 1

n n n
n xi y i   xi  y i
bˆ1  i 1
n
i 1
n
i 1

n xi2  ( x i ) 2
i 1 i 1

Después de haber determinado las constantes b̂0 y b̂1 , la recta de regresión


mínimo cuadrática de y sobre x se expresa por:
yˆ  bˆ0  bˆ1 x

Por otra parte sustituyendo la constante bˆ0  y  bˆ1 x en yˆ  bˆ0  bˆ1 x resulta,

S xy
yˆ  y  bˆ1 ( x  x ) o también (x  x) yˆ  y 
S x2
Que es otra forma de expresar la recta de regresión mínimo cuadrática que
permite observar que la recta de regresión siempre contiene al punto ( x , y ).
Regresión de “ x ” sobre “ y ”
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 253

De forma análoga que la regresión anterior intentamos hacer la regresión de “ x


”sobre “ y ”, ¡ojo! Debemos tener cuidado en calcular la recta de regresión “ x ”
sobre “ y ” porque es incorrecto despejar de la ecuación anterior, es decir:

ˆ1
yˆ  bˆ0  bˆ1 x de donde x  ˆ ( yˆ  b0 )
b 1

esta relación expresa la regresión de x sobre ŷ , que no es lo que queremos,


entonces la regresión “ x ”sobre “ y ” se efectúa aproximando “ x ” por x̂ es
decir:
ˆ '  S xy
b
xˆ  bˆ0'  bˆ1' y bˆ0'  x  bˆ1' y
1 2
S y
donde

porque de esta manera se minimizan en el sentido de los mínimos cuadrados los


errores entre las cantidades x i y las xˆ i  bˆ0'  bˆ1' y i , donde la constante b̂1' se
llama
coeficiente de regresión de “ x ”sobre “ y ” (Ver figura 7.8).
y
 xˆ  b0'  b1' y
xi  x̂ i


x

Figura 7.8
Ejemplo Ajustar una recta empleando las dos formas de regresión a los siguientes
datos:
xi 1 2 3 4 5 6
254 ESTADÍSTICA APLICADA I Lic. Mario Soto

yi 2 4 2 6 3 7

Solución: Tabla 7.6


xi yi xi y i x i2 y i2
Con los datos de la anterior
1 2 2 1 4
tabla, se forma otra tabla, con
2 4 8 4 16
sus respectivas sumatorias.
3 2 6 9 4
Donde n  6 , luego se
4 6 24 16 36
reemplaza en las siguientes
5 3 15 25 9
fórmulas:
6 7 42 36 49
21 24 97 91 118
6 6
 xi 21 ,  yi 24
i 1 i 1
x   3.5 y   4
n 6 n 6
n n n
n x i y i   x i  y i
6(97)  (21)(24)
bˆ1  i 1
n
i 1
n
i 1
  0.743
6(91)  (21) 2
n xi2  ( xi ) 2
i 1 i 1

bˆ0  y  b1 x  4  0.743(3.5)  1.4


ˆ  1.4  0.743 x
y

De forma análoga se obtiene la ecuación de la línea recta cuya variable


independiente es “ y ”, esto es
n n n
n x i y i   x i  y i
6(97)  (21)(24)
bˆ1'  i 1
n
i 1
n
i 1
  0.591
6(118)  (24) 2
n y i2  ( y i ) 2

i 1 i 1

bˆ0'  x  b1 y  3.5  0.591( 4)  1.14

ˆ  1.14  0.591y
x
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 255

y
7 ˆ  1.14  0.59 y
x 
6  ˆ  1.4  0.743 x
y

4  ○( x , y )

3 
2 
1
x
1 2 3 4 5 6 7
Figura 7.9

La figura 7.9 muestra el diagrama de dispersión o nube de puntos, más las dos
rectas ajustadas que poseen el mismo grado de aproximación al diagrama de
dispersión, las mismas se interceptan en punto que se denomina centroide donde
se encuentran exactamente las medias aritméticas ( x , y ) .

Las dos rectas ajustadas no son dependientes la una de la otra, si se despeja de la


primera ecuación no se obtiene la segunda ecuación, estaríamos cometiendo un
error.

Predicción
Cuando se estima un modelo de regresión lineal, por ejemplo:

yˆ  bˆ0  bˆ1 x

para predecir valores de la variable explicada o dependiente “ y ”, para distintos


valores de la variable explicativa o independiente “ x ”, se debe ser cuidadoso con
las predicciones, pues a medida que nos alejamos de los datos de partida menos
256 ESTADÍSTICA APLICADA I Lic. Mario Soto

explicativo será el modelo; se debe tener muy en cuenta que siempre se predicen
valores promedios

Todo modelo para fines de predicción, debe ir acompañado de una medida de


bondad de ajuste para conocer el grado de confianza o fiabilidad del mismo, si el
coeficiente de determinación es elevado, podemos decir que el modelo de regresión
lineal es bueno para hacer predicciones

COEFICIENTE DE DETERMINACIÓN ( r 2 )
MEDIDA DE LA BONDAD DE AJUSTE

La cantidad definida por r 2 se conoce como el coeficiente de determinación y es


ampliamente empleado como una medida de la bondad de ajuste de una línea de
regresión. Es decir, r 2 mide la proporción o porcentaje de la variación total en
“ y ” explicada por el modelo de regresión.

Ejemplo En una investigación efectuada por una Agencia de Turismo, sobre la


permanencia y el gasto en dólares que efectúan los turistas, durante su permanencia
en nuestra ciudad, se obtuvo la siguiente información que se muestra en la tabla
7.7 Con esa información se pide:

a) Calcular el coeficiente de correlación lineal de las tres formas conocidas, la


matriz de var-cov y de correlación.
b) Calcular el coeficiente de determinación.
c) Determinar la recta de regresión mínimo cuadrática y graficar.
d) Estimar o pronosticar el gasto de permanencia si el turista permanece 6 días
en nuestra ciudad.

Solución:
xi yi xi y i
x  laNúmero
a)Empleando fórmulade de días de permanencia
uso práctico tenemos:
x i2 y i2
de los turistas en nuestra ciudad
1 30 1 30 900 y  Gasto n xeni ydólares
i   xi  yi
por permanencia
1 35 1 35 1225 r 
de los turistas 2 en la ciudad
1 40 1 40 1600 nTabla  xi ) 2 n y i2  ( y i ) 2
xi  (7.7
2 55 4 110 3025
2 62 4 124 3844
3 75 9 225 5625 10(2246)  26(705)
r  0.
3 80 9 240 6400
10(86)  26 2 10(59123)  705 2
4 98 16 392 9604
4 100 16 400 10000 992
5 130 24 650 16900
26 705 86 2246 59123
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 257

Para determinar los otros coeficientes de correlación, previamente se efectúan los


cálculos que se muestra en la siguiente tabla:
Tabla 7.8
xi yi ( xi - ( yi - ( x i - x )( y i - ŷ ( yˆ  y ) 2
x)2 yi ) 2 y)
1 30 2.56 1640.25 64.8 34.587 1289.75
1 35 2.56 1260.25 56.8 34.587 1289.75
1 40 2.56 930.25 48.8 34.587 1289.75
2 55 0.36 240.25 9.3 57.033 181.37
2 62 0.36 72.25 5.1 57.033 181.37
3 75 0.16 20.25 1.8 79.478 80.61
3 80 0.16 90.25 3.8 79.478 80.61
4 98 1.96 756.25 38.5 101.924 987.46
4 100 1.96 870.25 41.3 101.924 987.46
5 130 5.76 3540.25 142.8 124.370 2901.93
26 705 18.4 9420.5 413 9270.05

La correlación en términos de covarianza requiere que previamente se calcule la


media aritmética, la desviación estándar y la covarianza para ambas variables
n n
 xi 26 ,  y i 705
i 1
x   2.6 y  i 1   70.5
n 10 n 10
2
Sx 
 ( x i  x ) 2 18.4
  1.84 , S x  1.84  1.356465997
n 10

S y2 
 ( y i  y ) 2  9420.5  942.05 , S y  942.05  30.69283304
n n

Cov( x, y )  S xy 
 xi y i  x y   ( xi  x )( y i  y )  413  41.3
n n 10
Luego se reemplaza en la siguiente fórmula:
Cov( x, y ) 41.3
r   0.992
SxSy (1.356465997)(30.69283304)
Interpretación: El coeficiente de correlación de 0.992 muestra que las dos
variables gasto en dólares y permanencia en días por los turistas en nuestra ciudad
están fuertemente correlacionadas, o sea que existe una fuerte o alta correlación
entre ambas variables.
258 ESTADÍSTICA APLICADA I Lic. Mario Soto

Matriz de varianza - covarianza y la matriz de correlación


 1.84 41.3 
Var  Cov ( x, y )  
942.05
;
 41.3 
 1 0.992
r  
 0. 992 1 

b) coeficiente de determinación
n
 ( yˆ i  y ) 2 9270.05
i 1
r2  n
  0.984  98%
9420.5
 ( yi  y ) 2
i 1

Otra forma más directa de calcular el coeficiente de determinación es elevar al


cuadrado el coeficiente de correlación r 2  (0.992) 2  0.984  98%
Interpretación El valor r 2 de 0.984 significa que aproximadamente que el 98%
de la variación del gasto esta explicado por la permanencia del turista en nuestra
ciudad, por tanto la línea de regresión se ajusta bastante bien a los datos.
Como el valor del coeficiente de determinación o mediada de bondad de ajuste es
muy alto o sea 98% entonces se puede predecir o pronosticar los gastos por
concepto de permanencia de los turistas sin problema.
d) Las constantes b0 y b1 para determinara la ecuación de la línea recta se
y
calculan de la siguiente forma:
n x i y i   xi  y i
b1  130
n xi2  ( x i ) 2

10(2246)  26(705)
10(86)  26 2 
 22.4457
120
b0  y 110
 bx  70.5  22.4457( 2.6)  12.1413
yˆ  12.1  22.4 x
100 ˆ  12.1413  22.4457 x
y 

90

Con la ecuación de regresión estimada, se ajusta una línea recta a la nube de
80 7.12)
puntos (Ver figura


70
60
50

40 

30 
1 2 3 4 5
x
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 259

Figura 7.12
INTERPRETACIÓN DE LA ECUACIÓN DE REGRESIÓN
ESTIMADA
En nuestro ejemplo la ecuación obtenida es:
ˆ  12.1413  22.4457 x
y

Luego decimos que a un incremento de un día de permanencia por un turista en


nuestra ciudad, corresponde un incremento estimado o promedio del gasto de
aproximadamente 22,44 dólares.

Ejemplo En un estudio de la relación entre la publicidad por televisión y las


ventas de un producto, efectuado por estudiantes de la Carrera de Ingeniería
Comercial durante 10 semanas, se obtuvo la siguiente información:
x = Tiempo de duración en minutos de la publicidad por semana.
y = Número de artículos vendidos.
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad x 15 20 30 40 50 55 60 65 70 80
Ventas y 50 60 70 85 110 120 125 130 140 160

a) Trazar el diagrama de dispersión.


b) Calcular y graficar la recta estimada de regresión.
c) Calcular el coeficiente de correlación y determinación.
d) Si en la octava semana se incrementa la publicidad en 6 minutos, en cuanto se
estimaría el incremento de las ventas.
260 ESTADÍSTICA APLICADA I Lic. Mario Soto

Solución. Utilizamos una computadora y el programa MINITAB para resolver


este ejercicio.
a)


150

  
100


y

 
50 
10 20 30 40 50 60 70 80

x
Figura 7.13

Los puntos que aparecen en la figura 7.13, representan el número de parejas de


valores que aparecen en ese lugar de la nube de puntos.

b) La ecuación de regresión es:


y = 23,2 + 1,69 x

Desviación Razón T=
Estándar del Coeficiente/
Predictor Coeficiente coeficiente Desv. Estándar
Intercepto
x
23,169
1,68724
2,771
0,05257
8,36
32,09 

150

 
S = 3,428 R-Cuadrado = 99,2% R-Cuadrado(adj) = 99,1%

100 Regression Plot 



y = 23,1687+1,6872x


y

S = 3,42843 R-Sq = 99,2 %

50  
10 20 30 40 50 60 70 80

x
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 261

Figura 7.14

MINITAB nos reporta directamente la ecuación de regresión que es igual


ˆ  23.2  1.69 x y el gráfico de la línea ajustada a la nube de puntos que
y
se muestra en la figura 7.14.
c) El coeficiente de determinación también es reportado por MINITAB que es
igual a: R-Cuadrado = 99,2% o sea r 2  99.2% . El coeficiente de
correlación se calcula fácilmente sacando la raíz cuadrada del coeficiente de
determinación r  0.992  0.996
Interpretación de r El coeficiente de correlación de 0.996 nos indica que
existe una fuerte o alta correlación entre la variable publicidad y la variable
ventas.
Interpretación de r 2 El coeficiente de determinación de 0.992 significa que
aproximadamente el 99.2% de la variación de las ventas esta explicado por la
publicidad, en consecuencia la línea de regresión se ajusta bastante bien a los
datos, por tanto se puede pronosticar las ventas por el tiempo de publicidad sin
dificultad.
d) Como la ecuación de regresión es yˆ  23.2  1.69 x , el valor estimado de
las ventas en la octava semana es yˆ 8  23.2  1.69(65)  133.05 , si en la
octava semana se incrementa el tiempo de publicidad en 6 minutos, entonces la
venta estimada sería
yˆ 8  23.2  1.69(71)  143.19
y el incremento estimado en las ventas sería 143.19  133.05  10.14

EJERCICIOS
262 ESTADÍSTICA APLICADA I Lic. Mario Soto

1. Los siguientes datos corresponden a las calificaciones del segundo parcial y el


examen final, de ocho estudiantes que cursan la materia de Estadística.

Segundo parcial 75 51 90 80 60 40 55 78
x
Examen final 79 52 92 81 63 51 60 82
y
a) Encuentre la ecuación de la línea de mínimos cuadrados que nos permitirá
pronosticar las calificaciones del examen final.
b) Pronostique o estime la calificación en el examen final de un estudiante
que obtuvo un 70 en el segundo parcial.
2. Los estudiantes de la Carrera de Ingeniería Comercial, en un estudio de
mercado tratan de averiguar, si es efectiva la propaganda televisada de un
producto nuevo que salió a la venta con respecto al tiempo de publicidad en
(horas/semana). Los datos recopilados se muestran en el siguiente cuadro:

a) Semana 2 3 4 5 6 7 ¿es
Propaganda x 15 20 25 23 35 41 efectiva
la Ventas en dólares 280 300 330 - 370 400
y
publicidad del producto?
b) ¿En cuanto estimaría las ventas para la semana 5? Interprete los resultados.
3. El ingreso anual disponible y los gastos de consumo de 10 familias
seleccionados aleatoriamente en una zona de nuestra ciudad han sido, en
cientos de miles de pesos, los siguientes:
Consumo 9 12 16 30 20 24 15 14 10 22
y
Ingreso x 11 16 20 35 28 25 22 18 12 17
a) Ajuste por mínimos cuadrados la recta en la que el consumo sea función de
los ingresos.
b) Explique el significado estadístico y económico de los coeficientes de la
línea ajustada.
c) Proporcione una medida de bondad de ajuste.
d) Estime el consumo si los ingresos anuales fueran de 27 en miles de pesos.
CAPÍTULO 7 DISTRIBUCIONES BIDIMENSIONALES Lic. Mario Soto 263

4. En una planta potabilizadora se han realizado 9 tomas de la presión del agua


que fluye de la depuradora mediante un método clásico directo, y por medio de
una nueva técnica experimental indirecta que si funciona bien se desea patentar.
Se han obtenido los siguientes resultados en milímetros de mercurio:

Método clásico x 9 12 28 72 30 38 76 26 52
Método experimental y 6 10 27 67 25 35 75 27 53

a) Hallar la ecuación lineal que exprese la relación existente entre las


presiones del agua, determinadas por los dos métodos.
b) ¿Qué tanto por ciento de la variabilidad de “ y ” es explicada por la
regresión? Hállese el grado de dependencia entre las dos variables y la
varianza residual.

5. Las notas en estadística y matemáticas, obtenidas por 8 estudiantes elegidos al


azar en un grupo del primer semestre, de la Carrera de Estadística UATF, han
sido las siguientes, según el orden de selección en la muestra.

No. Orden 1 2 3 4 5 6 7 8
Estadística x 51 60 50 72 40 80 66 53
Matemáticas y 50 55 53 67 45 80 75 51

a) Representar la nube de puntos, y comentar que tipo de curva se puede


ajustar.
b) Estime los parámetros de la recta de regresión de “ y ” con “ x ” y la
recta de regresión “ x ” con “ y ”
c) Represente las dos recta de regresión junto a la nube de puntos
d) Calcule el coeficiente de determinación y el coeficiente de correlación
lineal de de “ y ” con “ x ”
e) Para un alumno que haya obtenido un 78 en matemáticas ¿qué nota le
pronosticaría en estadística?
f) Para un alumno que haya obtenido un 57 en estadística ¿qué nota le
pronosticaría en matemáticas?

6. En una cuenca como se muestra en la figura se tiene dos estaciones A y B,


en los que se midieron los caudales medios en m 3/s para los primeros 8
meses del año 2008.

B
A
264 ESTADÍSTICA APLICADA I Lic. Mario Soto

Mes 1 2 3 4 5 6 7 8
A 150 - 179 182 195 182 195 200
B 110 120 180 200 205 190 - 202

a) Calcular el coeficiente de correlación y determinación.


b) Determinar la matriz de varianza-covarianza y correlación.
c) Calcular la ecuación de la línea estimada.
d) Estimar o pronosticar el caudal de la estación A para el segundo mes y el
caudal de la estación B para séptimo mes.
e) Interpretar los resultados en todos los caso
APÉNDICE 283

También podría gustarte