Está en la página 1de 12

Antología de Probabilidad y Estadística II

Unidad IV
Introducción a la Regresión y Correlación

Última revisión: 25-0ctubre-2009

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 48


Antología de Probabilidad y Estadística II

IV.1 Conceptos fundamentales


En una distribución bidimensional puede ocurrir que las dos variables guarden algún
tipo de relación entre sí. Por ejemplo, si se analiza la estatura y el peso de los alumnos o
alumnas de una clase es muy posible que exista relación entre ambas variables: mientras
más alto sea el estudiante, cabe pensar que mayor será su peso.

En la práctica a menudo se desea estudiar más de una variable aislada. Por lo general, se
quiere determinar como una variable está relacionada con otras variables; lo que los
estadísticos denominan regresión.

La regresión como una técnica estadística, una de ellas la regresión lineal simple, analiza
la relación de dos o más variables continuas, cuando analiza las dos variables a esta se le
conoce como variables bivariantes que pueden corresponder a variables cualitativas, la
regresión nos permite el cambio en una de las variables llamadas respuesta y que
corresponde a otra conocida como variable explicativa, la regresión es una técnica
utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede
suceder.

Siendo así la regresión una técnica estadística, por lo tanto para interpretar situaciones
reales, pero a veces se manipula de mala manera por lo que es necesario realizar una
selección adecuada de las variables que van a construir las formulas matemáticas, que
representen a la regresión, por eso hay que tomar en cuenta variables que tiene relación,
de lo contraria se estaría matematizando un galimatías.

IV.2 El método de mínimos cuadrados


El objetivo es ajustar una recta cuya ecuación es de la forma:

𝑌 = 𝑎 + 𝑏𝑥

Es decir, se debe encontrar una fórmula para calcular la pendiente b y la ordenada al


origen a. La pregunta es: ¿cómo se eligen a y b de modo que se minimice al patrón
vertical de desviaciones Y (errores de predicción) en la gráfica 1 en la que se grafican los
datos de la tabla 1 que se encuentra mas adelante, donde

𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑑 = 𝑌 − 𝑌 ?

De primera impresión, se podría intentar minimizar Σd, la suma de todas las


desviaciones. Sin embargo, debido a que algunos de los puntos están arriba de la recta y
otros están abajo, algunas desviaciones serán positivas y otras negativas; en la medida en

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 49


Antología de Probabilidad y Estadística II

que se cancelen entre sí, pueden hacer que el total (Σd) sea engañosamente cercano a
cero. Para evitar este problema, primero podría tomarse el valor absoluto de cada
desviación y luego minimizar su suma:

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 Σ 𝑑 = Σ 𝑌 − 𝑌

Una alternativa conocida es elevar al cuadrado cada desviación y luego minimizar la


suma de todas ellas:
2
𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 Σ𝑑 2 = Σ 𝑌 − 𝑌

Lo anterior se denomina criterio de los mínimos cuadrados, mediante el cual se elige una
única recta de mínimos cuadrados.

Grafica 1. Relación observada de la producción de trigo con la aplicación de fertilizante en 35 parcelas


experimentales.

IV.3 Regresión lineal simple


Recuerde que la ecuación de la recta por ajustar es:

𝒀 = 𝒂 + 𝒃𝒙

La pendiente b se calcula a partir de la siguiente fórmula

Σ 𝑋 − 𝑋 (𝑌 − 𝑌 )
𝑏=
Σ(𝑋 − 𝑋 )2

Las desviaciones 𝑋 − 𝑋 y (𝑌 − 𝑌 ) aparecerán tan a menudo que se hace necesario


abreviarlas.

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 50


Antología de Probabilidad y Estadística II

Sean:
𝑥 = 𝑋−𝑋
𝑦 = (𝑌 − 𝑌)

La x (o la y) minúscula constituye un recordatorio de que las desviaciones x típicamente


son números mucho más pequeños que los valores originales de X. Con esta notación,
ahora se puede simplificar la fórmula para b:

Σ𝑥𝑦
𝑏=
Σ𝑥 2

Una vez que se ha calculado b, entonces se puede hallar ordenada al origen a a partir de
otra fórmula sencilla:
𝑎 = 𝑌 − 𝑏𝑋

Ejemplo: En un estudio de cómo la producción de trigo depende del fertilizante,


supóngase que se dispone de fondos para efectuar solamente siete observaciones
experimentales. Así, X se establece a siete deferentes niveles, con una observación Y en
cada caso, como se presenta en la tabla siguiente:

Tabla 1. Observaciones del fertilizante y de la producción

X Y
Fertilizante (kg/Ha) Producción (Ton/Ha)
100 40
200 50
300 50
400 70
500 65
600 65
700 80

Solución. En la tabla 2, se presentan los cálculos para a y b. Se calculan Σxy y Σx2 y se


sustituyen en la siguiente expresión que se comento antes:

𝚺𝐱𝐲 16 500
𝒃= = = 0.059
𝚺𝐱 𝟐 280 00

Luego se utiliza esta pendiente b (junto con 𝑋 y 𝑌 calculadas en las dos primeras
columnas de la tabla 2) para calcular la ordenada al origen a a partir de la fórmula:

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 51


Antología de Probabilidad y Estadística II

𝒂 = 𝒀 − 𝒃𝑿 = 60 − 0.059 400 = 36.5

Al introducir estos valores estimados de a y b en la ecuación 𝒀 = 𝒂 + 𝒃𝒙, que se vio


antes, se obtiene la ecuación de la recta de mínimos cuadrados:

𝒀 = 𝒂 + 𝒃𝒙 = 36.4 + 0.059𝑋

Tabla 2. Ajuste de la recta de mínimos cuadrados


Datos Forma de la desviación Productos
X Y 𝑥 = 𝑋−𝑋 𝑦 = (𝑌 − 𝑌 ) xy x2
= 𝑋 − 400 = (𝑌 − 60)
100 40 -300 -20 6000 90 000
200 50 -200 -10 2000 40 000
300 50 -100 -10 1000 10 000
400 70 0 10 0 0
500 65 100 5 500 10 000
600 65 200 5 1000 40 000
700 80 300 20 6000 90 000
𝑿=400 𝒀 = 𝟔𝟎 𝚺𝐱 = 𝟎 𝚺𝐲 = 𝟎 𝚺𝐱𝐲 = 𝟏𝟔 𝟓𝟎𝟎 𝚺𝐱 𝟐 = 𝟐𝟖𝟎 𝟎𝟎𝟎

IV.4 Regresión exponencial y logarítmica


Ahora sabemos cómo ajustar una recta a un conjunto de datos. ¿Que hay una curva
exponencial de la forma y=A·xr?

La idea es convertir una curva exponencial a una recta por medio de logaritmos, ya sea
naturales o de cualquier otra base, como sigue. Empiece con la función exponencial

y = A·xr

y tome el logaritmo de ambos lados:

Log10 y = Log10 (Axr)

Las propiedades de logaritmos nos dan entonces:

Log10 y = Log10 A + Log10 xr


Log10 = Log10 A + r Log10 x

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 52


Antología de Probabilidad y Estadística II

Esto expresa log y como una función lineal de x, de forma ecuación de la recta y = a + bx
con:

Log10 y = Log10 A + r Log10 x


y = a + b x

Pendiente = b =r
Intersección = a = Log10 A

Por lo tanto, si calculamos la recta de mejor ajuste usando Log10 y como una función de x,
entonces la pendiente y la intersección en y serían dados como más arriba, y después
podemos obtener los coeficientes r y A por

r =b
A = 10a

Ejemplo: Ventas de Compaq

Ingresos de ventas de computadores Compaq (una marca ahora extinguida) son


mostrados en la siguiente tabla, donde t representa años desde 1990.* Obtenga el
modelo exponencial de regresión para los datos.

* Datos son redondeados. Fuente: Informes de compañía/The New York Times, Enero 27, 1998, p. D1.

Solución. Pues necesitamos modelar Log10 R como una función lineal de t, primero
construimos una tabla con x = t y y = Log10 R, y entonces calculamos la recta de
regresión, y = a + bx.

Posteriormente se resuelve con los resultados anteriores como si de una regresión lineal
simple se tratara para encontrar la ecuación de la recta de mejor ajuste. Así, la recta de
regresión que obtenemos es:

y = 0.427+ 0.139 x

El modelo exponencial deseado solo cambia a x por t y y por R en la ecuación, es decir:

y = A·xr
R = A·tr

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 53


Antología de Probabilidad y Estadística II

Se resuelve mediante las siguientes igualdades que ya vimos antes donde:

Log10 y = Log10 A + r Log10 x


y = a + b x
y = 0.427 + 0.139 x

entonces:

a = log10 A = 0.427
b = r = 0.139
r = 0.139

𝐥𝐨𝐠 𝟏𝟎 𝑨 = 𝟎. 𝟒𝟐𝟕
𝟏𝟎(𝐥𝐨𝐠𝟏𝟎 𝑨) = 𝟏𝟎(𝟎.𝟒𝟐𝟕)
𝑨 = 𝟐. 𝟔𝟕𝟕

Por tanto se tiene que:


A = 2.677
r = 0.139

Y como nuestro modelo de ingresos para la compañía Compaq es de la forma R = A·tr, se


concluye por lo tanto que:

R = 2.6770·t0.139

IV.5 Correlación lineal


El objetivo primordial de la correlación es medir la intensidad de la relación entre dos
variables. Se llama variable a la característica o aspecto que se considera para cada
elemento de la muestra y puede tomar diferentes valores.

Supongamos que tenemos una muestra de N personas, a cada persona se le asignan dos
números, uno mide su estatura y otro mide su peso. El conjunto de valores X = {x 1, x2,
...,xN} representa las diferentes estaturas y el conjunto Y = {y 1, y2, ...,yN} representa los
diferentes pesos. De esta forma podemos crear el conjunto de pares ordenados P = {(x 1 ,
y1), (x2 , y2), ...,(xN , yN)} donde el par ordenado (xi , yi) representa el peso y la estatura de
la persona número i. Para este conjunto podemos investigar la correlación que existe
entre estatura y peso.

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 54


Antología de Probabilidad y Estadística II

En este artículo estudiaremos la correlación lineal. Esta correlación ocurre cuando dos
variables X,Y tiende a seguir un patrón lineal. Por ejemplo podemos investigar la relación
lineal que existe entre peso y estatura, promedio del CETEC-Jojutla y puntuación en el
examen de ingreso (examen de conocimientos), ingreso mensual y gastos mensuales,
coeficiente intelectual y promedio universitario, edad e ingreso mensual entre otras.

Se dice que existe una relación o correlación positiva entre dos variables X y Y, si al
aumentar los valores de X aumentan los valores de Y, o cuando al disminuir los valores
de X disminuyen los valores de Y. Por ejemplo:

Si la variable X toma los valores 2, 3, 3, 4, 4, 4, 5, 5, 6, 6, 6 y,


La variable Y toma los valores 1, 2, 3, 2, 3, 4, 4, 5, 3, 4, 5.

Si escribimos los valores de las variables X, Y en forma de pares ordenados obtenemos

P = {(2,1), (3,2), (3,3), (4,2), (4,3), (4,4), (5,4), (5,5), (6,3), (6,4), (6,5)}.

Si ubicamos estos puntos en un sistema de coordenadas obtenemos una gráfica llamada


diagrama de dispersión. El diagrama de dispersión del ejemplo anterior se muestra en
la figura 1.

Este es un ejemplo de una correlación positiva.

Se dice que existe una relación o correlación negativa entre dos variables X y Y, si al
aumentar los valores de X disminuyen los valores de Y, o cuando al disminuir los valores
de X aumentan los valores de Y. Por ejemplo para el conjunto de pares ordenados.

P = {(4,5), (5,3), (5,4), (5,5), (6,4), (6,4), (7,1), (7,2), (7,3), (8,1), (8,2)}.

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 55


Antología de Probabilidad y Estadística II

El diagrama de dispersión para este conjunto se muestra en la figura 2.

Este es un ejemplo de correlación negativa.

Cuando dos variables X y Y se correlacionan positivamente, los puntos en su diagrama de


dispersión quedan encerrados en una elipse inclinada como se muestra en la figura 3.

Si las variables X y Y se correlacionan negativamente, los puntos en su diagrama de


dispersión quedan encerrados en una elipse inclinada como se muestra en la figura 4.

Mientras mayor es el diámetro de la elipse que encierra los puntos de un diagrama de


dispersión menor es la relación de las variables que contiene. Cuando esto ocurre
decimos que la correlación es débil.

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 56


Antología de Probabilidad y Estadística II

La figura 5 muestra una correlación positiva débil.

Por el contrario mientras menor es el diámetro de la elipse que encierra los puntos de un
diagrama de dispersión mayor es la relación de las variables que contiene. Cuando esto
ocurre decimos que la correlación es fuerte. La figura 6 muestra una correlación
positiva fuerte.

Si las variables X, Y no se correlacionan linealmente los puntos de su diagrama de


dispersión no quedan encerrados en una elipse inclinada. La figura 7 muestra un ejemplo
donde no hay correlación.

La correlación lineal perfecta ocurre cuando todos los puntos del diagrama de dispersión
están exactamente sobre una recta inclinada, como se muestra en la figura 8.

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 57


Antología de Probabilidad y Estadística II

Si los datos forman una recta horizontal o vertical, no hay correlación ya que una
variable no afecta la otra como se muestra en las figuras 9 y 10.

Los diagramas de dispersión no siempre se presentan en alguna de las formas que vimos
anteriormente. Algunas veces sugieren relaciones que no son lineales, como se muestra
en la figura 11.

En este diagrama hay un patrón definido, sin embargo las dos variables no están
relacionadas linealmente, esto implica que no hay correlación lineal.

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 58


Antología de Probabilidad y Estadística II

Bibliografía:
 Introducción a la estadística; T. H. Wonnacott, R. J. Wonnacott; 2ª Ed.; Limusa
Wiley; 2004.

 Estadística aplicada a los negocios y la economía; Lind, Marchal, Wathen; 13ª Ed.;
Mc Graw Hill; 2008.

 Probabilidad y estadística aplicadas a la ingeniería; Douglas C. Montgomery,


George C. Runger; 1ª Ed.; Mc Graw Hill; 1994.

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 59

También podría gustarte