Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. CONCEPTO Y APLICACIONES.
A menudo se encuentra en la práctica que existe una relación entre dos o más va-
riables. Por ejemplo, supongamos que la variable (X) define el precio anual del arroz y
la variable (Y) las hectáreas sembradas anualmente en la provincia. Si descubrimos la
relación que liga al precio del arroz con la cantidad de hectáreas sembradas, podremos
predecir cuantas hectáreas se sembrarán cuando se producen variaciones en los precios
del bien. Se trata de problemas con una distribución que tiene dos variables X e Y, es
decir que la distribución es bivariada.
En cambio, se dice que entre dos variables Xi e Yi existe una dependencia esta-
dística cuando se presupone que entre ambas hay algún tipo de relación y a determina-
dos valores de la variable Xi le corresponden indeterminados e indefinidos valores de la
variable Yi. Ejemplos de dependencia estadística son los siguientes:
la variable Xi es el ingreso y la variable Yi es el ahorro, en cuyo caso, si
bien se sabe por el imperio de las leyes económicas hay una relación directa entre el
ingreso y el ahorro, dos personas con iguales ingresos no ahorrarán lo mismo.
la variable Xi es el precio de un bien y la variable Yi es la demanda: entre
ambas variables sólo existe una dependencia estadística.
la variable Xi es el precio de un auto y la variable Yi es la edad del com-
prador: se supone que entre ambas variables sólo existe una dependencia estadística.
Cuando entre dos variables no existe dependencia estadística se dice que ellas
son estadísticamente independientes. Por ejemplo, no parece que exista dependencia
estadística alguna entre el precio del algodón en bruto y la producción de uva para el
consumo, por lo que estas dos variables serían estadísticamente independientes.
El análisis de regresión calcula una ecuación que produce valores de Y para va-
lores dados de X. Por ejemplo: para la concesionaria de autos, precio del auto y edad de
los compradores. La concesionaria que venda a personas de más edad probablemente
Introducción a la Estadística 79
venderá autos más caros y los que tengan clientes jóvenes autos más baratos. Esta rela-
ción es cierta solamente en promedios, pues ocasionalmente observaremos que hay au-
tos caros comprados por persona jóvenes y viceversa. El problema que se nos plantea es
establecer este tipo de relación en forma de ecuación, de tal manera que basados en la
edad de un cliente (X), podamos hallar una estimación promedio del precio del auto
comprado (Y).
Para encontrar la ecuación que relacione las variables, el primer paso es recoger
datos que muestren valores correspondientes a las variables bajo estudio. El próximo
paso es marcar los puntos sobre un sistema de coordenadas rectangulares.
A partir del diagrama de dispersión es posible, con frecuencia ver una curva sua-
ve que aproxima los datos, que se denomina curva de aproximación. El problema ge-
neral de hallar ecuaciones de curvas de aproximación que se ajusten a un conjunto de
datos se llama ajuste de curvas.
Observando ambos diagramas queda perfectamente claro que los puntos no siguen una
disposición lineal y que, por eso mismo, un ajuste de ese tipo no sería apropiado. Con
posterioridad se verá que existen algunas soluciones para aquellos casos de ajustamiento
en los cuales los diagramas de dispersión presentan una disposición no lineal.
Para cada una de las variables bajo análisis se obtiene n valores empíricos, es de-
cir, n datos provenientes de la realidad, que se ordenan en una tabla que tiene el siguien-
te formato:
Xi Yi
X1 Y1
X2 Y2
… …
Xn Yn
Con el diagrama de dispersión se puede tener una idea aproximada del tipo de re-
lación existente entre las variables. La naturaleza de la relación puede adoptar muchas
formas, que van desde funciones matemáticas sencillas hasta las muy complicadas. Es
posible representar una curva que se aproxime a los datos. Tal curva se llama curva de
aproximación.
ajustar linealmente los puntos del diagrama de dispersión, lo cual significa encon-
trar la ecuación de la función de primer grado (línea recta) que mejor explique la
dependencia estadística existente, es decir, que mejor explique el comportamiento
de los n puntos del diagrama.
En el gráfico se ve que los datos se aproximan bien a una línea recta, que es la
relación más simple, y se dice que entre las variables existe una relación lineal.
Por otro lado, además de describir linealmente la relación existente entre dos va-
riables, otro de los objetivos del ajustamiento es la estimación o el pronóstico, es decir
que una vez hallada la expresión de la función matemática de primer grado, ella puede
ser utilizada para estimar valores de la variable dependiente Yi para valores selec-
cionados de la variable independiente Xi.
tos y la edad de los compradores a fin de diseñar una campaña publicitaria, tomamos
una muestra de pares de datos, y construimos el diagrama de dispersión.
PRECIO
EDAD Precios de automóviles según la edad del
(en miles $)
Yi Xi 110 comprador
80,620 33 100
62,184 26 90
80
2. TIPOS DE AJUSTAMIENTO
El diagrama de dispersión nos puede dar una idea aproximada del tipo de rela-
ción que existe entre las variables. La naturaleza de la relación puede adoptar muchas
formas, que van desde las funciones matemáticas más sencillas hasta las muy complica-
das. La relación más simple es una línea recta o relación lineal.
RT PT
Y Y1 X i X1
i
X X1 Y2 Y1 Y Y2 Y1 X X Y
Yi Y1 i
Y2 Y1 X 2 X1 X 2 X1 X 2 X1
i i 1 1
QS PS
Introducción a la Estadística 85
Yi m X i X 1 Y1
Y2 Y1
donde m es la pendiente y representa el cambio de Y dividido por el cambio
X 2 X1
de X.
PRECIO
EDAD Precios de automóviles según la edad del
(en miles $)
Yi Xi 110 comprador
80,620 33 100
62,184 26 90
80
Precios (en miles $)
81,424 44
96,208 56 70
87,924 43 60 Yi 1,1341 X i 32,697
89,768 41 50
78,752 35 40
63,176 30 30
20
10
0
0 10 20 30 40 50 60
Edad
Y2 Y1
Yi X i X 1 Y1 96,208 62,184 X i 26 62,184 30,024 X i 26 62,184
X 2 X1 56 26 30
Yi 1,1341 X i 32,697
4. SEMIPROMEDIOS
Para aplicar este método, se ordena, en primer lugar, el grupo de n pares de datos
(Xi;Yi) en forma creciente, tomando como referencia la variable Xi.
en el que se desprecia el valor central y se trabaja con los restantes (n-1) da-
tos; y
en el que el valor central se lo incorpora a ambos subgrupos, es decir, tanto al
subgrupo que se encuentra a su izquierda como al que se encuentra a su dere-
cha.
Luego se obtienen los promedios para los primeros j valores de ambas variables,
haciendo:
X X ... X Y Y ... Y
X ; Y1
1 2 j 1 2 j
1 j j
La ecuación de la línea recta que pasa por esos puntos se encuentra aplicando la
expresión
Y 2 Y1
Yi Y 1 X i X 1
X 2 X1
Y Y XY
i
1
2 Y1
X1
X X 1 Y 71,183
i i
88,831 71,183
46 31
X 31 1,1765 X 31 71,183
i i
2
70
Y1 34,7105 1,1765 X i
60
50
40
30
20
10
0
0 10 20 30 40 50 60
Edad
i
i i
d 2 Y Yˆ Y a b X 2
2
i 1 1 i
Como ya se indicó, Gauss postula que la mejor recta es aquélla que minimiza
esos desvíos al cuadrado. Si bien en el plano existen infinitas rectas, cada una con un par
de parámetros a1 y b1, de todas ellas sólo una cumple con la condición impuesta por
Gauss. Se trata de encontrarla, y eso equivale a encontrar sus parámetros a1 y b1. De
acuerdo con los procedimientos del Análisis Matemático, eso se consigue minimizando
la función , es decir haciendo
Introducción a la Estadística 89
Y a b X
i 1 1 i
2
min.
Para eso, en primer lugar, debe calcularse la primera derivada de con respecto
al parámetro a1, e igualársela a cero.
Yi a1 b1 X i 2
1 2 Y a
2 Y a b X b X 0
a a i 1 1 i i 1 1 i
1 1
Yi a1 b1 X i
2
2 Y a b X X 2 Y X a X b X 2 0
b b i 1 1 i i i i 1 i 1 i
1 1
Como (-2) es distinto de cero, debe ser Yi Xi a1 Xi b1 Xi2 0 .A partir de esta
igualdad, se verifica que Yi Xi a1 Xi b1 Xi2 0 , por lo que finalmente, median-
te un pasaje de términos, se obtiene la siguiente expresión
Yi X i a1 X i b1 X i2
que se denomina Segunda ecuación normal de Gauss.
Yi X i
Yi X i X i2 Yi X i2 X i Yi X i
a
Xi n X 2 X
1 2
n
i i
X i X i2
Introducción a la Estadística 90
n Yi
Xi Yi X i n Y X X Yi
b
i i i
1 n Xi n X 2 X
i i
2
X i
X i2
Lo que quedaría por analizar es si el punto crítico obtenido corresponde a un
máximo o a un mínimo, para lo cual se debería obtener la segunda derivada y verificar
su signo. Sin embargo, en este caso eso no es necesario porque aquí ocurre algo similar
a lo visto en la tercera propiedad de la media aritmética. En su recorrido a través del
diagrama de dispersión, la recta de ajustamiento se comporta como una medida de
tendencia central aunque de carácter dinámico (no de carácter estático, como sería el
caso de una media aritmética) ya que cumple con esa propiedad (equivalente a la segun-
da propiedad de la media aritmética) de que Y Yˆ 0 , cuya verificación es senci-
i i
lla: aplicando sumatoria tenemos
Yi a1 b1 X i Yi na1 b1 X i 0
para la primera ecuación normal de Gauss.
con la cual se obtienen todos los términos involucrados en el cálculo de los parámetros.
Retomando el ejemplo de la concesionaria:
Xi Yi Xi2 Xi Yi Yi X i2 X i Yi X i
a
n X 2 X
33 80,620 1.089 2.660,460 1 2
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60
Edad
Este método parte del supuesto siguiente: si en las ecuaciones normales de Gauss
se consiguiera que X i 0 , las fórmulas para calcular los parámetros podrían reducir-
se significativamente. Para que se anule la sumatoria de la variable Xi, se la transforma
convenientemente, haciendo xi Xi X , con lo cual la xi X i X 0 por la
segunda propiedad de la media aritmética. De esa manera, si se efectuara el desarrollo
teórico para encontrar las fórmulas de los parámetros con las variables xi e Yi en lugar
de con las variables Xi e Yi, las ecuaciones normales que se obtendrían tendrían la si-
guiente forma:
Introducción a la Estadística 92
Y na b x na .
1 1 i 1
Y
i
a x b x 2 b x 2 , debido precisamente a que
1 i 1 i 1 i xi 0 .
Se observa que en las expresiones precedentes aparece la variable xi en lugar de
Xi, y que los parámetros se indican con una simbología modificada, a1 y b1 . Esto se
realiza por precaución, ya que la transformación de la variable Xi en xi podría eventual-
mente conducir a una modificación en el valor original de los parámetros y de esa mane-
ra se prevé esa alternativa.
Utilizando los nuevos parámetros la recta de ajustamiento puede ser escrita del
siguiente modo: Yˆ a b x . Sin embargo, si bien el método abreviado intenta calcu-
i 1 1 i
lar los parámetros mediante fórmulas más breves, al concluir el cálculo no se obtienen
a1 y b1 , los verdaderos parámetros. Para llegar a esos valores se parte de considerar que
existen dos expresiones posibles para la recta de ajustamiento, es decir, por un lado,
Yi a1 b1 Xi y por el otro, Yi a1 b1xi . Como además, se sabe que xi X i X , en la
segunda de esas expresiones se reemplaza xi, quedando
con lo cual se obtienen los verdaderos parámetros a1 y b1 a partir de los calculados a1 y
b1 .
Como correr los ejes hacia uno u otro lado no modifica la pendiente de la recta,
fácilmente puede comprenderse que b1 es igual a b1 (ambos valores son la tangente del
ángulo mientras que lo que sí se modifica con el corrimiento del eje Yi es la ordena-
da al origen de la recta de ajustamiento, por lo que a1 es diferente a a1 (en el gráfico se
indican las dos).
sen. a1 a1
Recordando que tg. b1 a1 a1 b1 X Y b1 X
cos. X
El caso inverso consiste en imaginar una alternativa que resulta sólo posible des-
de el punto de vista teórico: que en un problema de ajustamiento la variable inde-
pendiente sea Yi en lugar de Xi. Se reitera que esta posibilidad sólo puede presentarse
teóricamente porque en la vida real la solución de cualquier problema de ajustamiento
se encara definiendo siempre anticipadamente cuál es la variable independiente y a
ella normalmente se la simboliza con Xi. Sin embargo, una vez definida esta circunstan-
cia, puede pensarse que el conjunto particular de datos con el que se está trabajando
puede originar otro problema de ajustamiento, que llamaremos caso inverso, en el que
la variable independiente sea la simbolizada tradicionalmente con Yi. Gráficamente
esto da lugar a la aparición de una segunda recta de ajustamiento simbolizada co-
mo X a2 b2Yi la cual, en realidad, no es una segunda recta teóricamente hablan-
do, sino la misma recta Y observada desde un ángulo completamente diferente.
i
Por esa circunstancia puede resultar apropiado denominar “recta reflejo” a la recta de
ajustamiento X a2 b2Yi .
Finalmente, las fórmulas de los parámetros a2´ y b2´ del caso inverso, calculadas
mediante el método abreviado, son
a
Xi X b
yi X i
n
yi2
2 2
Yi na1 b1 Xi y X i na2 b2 Yi ,
n n n n n n
Y a1 b1 X y X a2 b2Y
Introducción a la Estadística 96
con lo cual se demuestra que el punto de coordenadas X ; Y satisface las dos ecua-
ciones correspondientes a las rectas de ajustamiento, por lo que ambas rectas pasan
por ese punto y por consiguiente, se cruzan en él.
Este punto por el que pasan las dos ecuaciones se llama centroide o centro de
gravedad de los datos.
c Yi Y minimo