PyE2 U4 IntRegyCor

Antología de Probabilidad y Estadística II
Unidad IV
Introducción a la Regresión y Correlación
Última revisión: 25-0ctubre-2009
Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 48

IV.1 Conceptos fundamentales

En una distribución bidimensional puede ocurrir que las dos variables guarden algún
tipo de relación entre sí. Por ejemplo, si se analiza la estatura y el peso de los alumnos o
alumnas de una clase es muy posible que exista relación entre ambas variables: mientras
más alto sea el estudiante, cabe pensar que mayor será su peso.
En la práctica a menudo se desea estudiar más de una variable aislada. Por lo general, se
quiere determinar como una variable está relacionada con otras variables; lo que los
estadísticos denominan regresión.
La regresión como una técnica estadística, una de ellas la regresión lineal simple, analiza
la relación de dos o más variables continuas, cuando analiza las dos variables a esta se le
conoce como variables bivariantes que pueden corresponder a variables cualitativas, la
regresión nos permite el cambio en una de las variables llamadas respuesta y que
corresponde a otra conocida como variable explicativa, la regresión es una técnica
utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede
suceder.
Siendo así la regresión una técnica estadística, por lo tanto para interpretar situaciones
reales, pero a veces se manipula de mala manera por lo que es necesario realizar una
selección adecuada de las variables que van a construir las formulas matemáticas, que
representen a la regresión, por eso hay que tomar en cuenta variables que tiene relación,
de lo contraria se estaría matematizando un galimatías.
IV.2 El método de mínimos cuadrados

El objetivo es ajustar una recta cuya ecuación es de la forma:
𝑌 = 𝑎 + 𝑏𝑥
Es decir, se debe encontrar una fórmula para calcular la pendiente b y la ordenada al

origen a. La pregunta es: ¿cómo se eligen a y b de modo que se minimice al patrón
vertical de desviaciones Y (errores de predicción) en la gráfica 1 en la que se grafican los
datos de la tabla 1 que se encuentra mas adelante, donde
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑑 = 𝑌 − 𝑌 ?
De primera impresión, se podría intentar minimizar Σd, la suma de todas las

desviaciones. Sin embargo, debido a que algunos de los puntos están arriba de la recta y
otros están abajo, algunas desviaciones serán positivas y otras negativas; en la medida en

que se cancelen entre sí, pueden hacer que el total (Σd) sea engañosamente cercano a
cero. Para evitar este problema, primero podría tomarse el valor absoluto de cada
desviación y luego minimizar su suma:
𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 Σ 𝑑 = Σ 𝑌 − 𝑌
Una alternativa conocida es elevar al cuadrado cada desviación y luego minimizar la

suma de todas ellas:
2
𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 Σ𝑑 2 = Σ 𝑌 − 𝑌
Lo anterior se denomina criterio de los mínimos cuadrados, mediante el cual se elige una
única recta de mínimos cuadrados.
Grafica 1. Relación observada de la producción de trigo con la aplicación de fertilizante en 35 parcelas

experimentales.
IV.3 Regresión lineal simple

Recuerde que la ecuación de la recta por ajustar es:
𝒀 = 𝒂 + 𝒃𝒙
La pendiente b se calcula a partir de la siguiente fórmula
Σ 𝑋 − 𝑋 (𝑌 − 𝑌 )
𝑏=
Σ(𝑋 − 𝑋 )2
Las desviaciones 𝑋 − 𝑋 y (𝑌 − 𝑌 ) aparecerán tan a menudo que se hace necesario

abreviarlas.

Sean:
𝑥 = 𝑋−𝑋
𝑦 = (𝑌 − 𝑌)
La x (o la y) minúscula constituye un recordatorio de que las desviaciones x típicamente

son números mucho más pequeños que los valores originales de X. Con esta notación,
ahora se puede simplificar la fórmula para b:
Σ𝑥𝑦
𝑏=
Σ𝑥 2
Una vez que se ha calculado b, entonces se puede hallar ordenada al origen a a partir de
otra fórmula sencilla:
𝑎 = 𝑌 − 𝑏𝑋
Ejemplo: En un estudio de cómo la producción de trigo depende del fertilizante,

supóngase que se dispone de fondos para efectuar solamente siete observaciones
experimentales. Así, X se establece a siete deferentes niveles, con una observación Y en
cada caso, como se presenta en la tabla siguiente:
Tabla 1. Observaciones del fertilizante y de la producción
X Y
Fertilizante (kg/Ha) Producción (Ton/Ha)
100 40
200 50
300 50
400 70
500 65
600 65
700 80
Solución. En la tabla 2, se presentan los cálculos para a y b. Se calculan Σxy y Σx2 y se

sustituyen en la siguiente expresión que se comento antes:
𝚺𝐱𝐲 16 500
𝒃= = = 0.059
𝚺𝐱 𝟐 280 00
Luego se utiliza esta pendiente b (junto con 𝑋 y 𝑌 calculadas en las dos primeras
columnas de la tabla 2) para calcular la ordenada al origen a a partir de la fórmula:

𝒂 = 𝒀 − 𝒃𝑿 = 60 − 0.059 400 = 36.5
Al introducir estos valores estimados de a y b en la ecuación 𝒀 = 𝒂 + 𝒃𝒙, que se vio

antes, se obtiene la ecuación de la recta de mínimos cuadrados:
𝒀 = 𝒂 + 𝒃𝒙 = 36.4 + 0.059𝑋
Tabla 2. Ajuste de la recta de mínimos cuadrados

Datos Forma de la desviación Productos
X Y 𝑥 = 𝑋−𝑋 𝑦 = (𝑌 − 𝑌 ) xy x2
= 𝑋 − 400 = (𝑌 − 60)
100 40 -300 -20 6000 90 000
200 50 -200 -10 2000 40 000
300 50 -100 -10 1000 10 000
400 70 0 10 0 0
500 65 100 5 500 10 000
600 65 200 5 1000 40 000
700 80 300 20 6000 90 000
𝑿=400 𝒀 = 𝟔𝟎 𝚺𝐱 = 𝟎 𝚺𝐲 = 𝟎 𝚺𝐱𝐲 = 𝟏𝟔 𝟓𝟎𝟎 𝚺𝐱 𝟐 = 𝟐𝟖𝟎 𝟎𝟎𝟎
IV.4 Regresión exponencial y logarítmica

Ahora sabemos cómo ajustar una recta a un conjunto de datos. ¿Que hay una curva
exponencial de la forma y=A·xr?
La idea es convertir una curva exponencial a una recta por medio de logaritmos, ya sea
naturales o de cualquier otra base, como sigue. Empiece con la función exponencial
y = A·xr
y tome el logaritmo de ambos lados:
Log10 y = Log10 (Axr)
Las propiedades de logaritmos nos dan entonces:
Log10 y = Log10 A + Log10 xr

Log10 = Log10 A + r Log10 x

Esto expresa log y como una función lineal de x, de forma ecuación de la recta y = a + bx
con:
Log10 y = Log10 A + r Log10 x

y = a + b x
Pendiente = b =r
Intersección = a = Log10 A
Por lo tanto, si calculamos la recta de mejor ajuste usando Log10 y como una función de x,
entonces la pendiente y la intersección en y serían dados como más arriba, y después
podemos obtener los coeficientes r y A por
r =b
A = 10a
Ejemplo: Ventas de Compaq
Ingresos de ventas de computadores Compaq (una marca ahora extinguida) son

mostrados en la siguiente tabla, donde t representa años desde 1990.* Obtenga el
modelo exponencial de regresión para los datos.
* Datos son redondeados. Fuente: Informes de compañía/The New York Times, Enero 27, 1998, p. D1.
Solución. Pues necesitamos modelar Log10 R como una función lineal de t, primero
construimos una tabla con x = t y y = Log10 R, y entonces calculamos la recta de
regresión, y = a + bx.
Posteriormente se resuelve con los resultados anteriores como si de una regresión lineal
simple se tratara para encontrar la ecuación de la recta de mejor ajuste. Así, la recta de
regresión que obtenemos es:
y = 0.427+ 0.139 x
El modelo exponencial deseado solo cambia a x por t y y por R en la ecuación, es decir:
y = A·xr
R = A·tr

Se resuelve mediante las siguientes igualdades que ya vimos antes donde:
Log10 y = Log10 A + r Log10 x

y = a + b x
y = 0.427 + 0.139 x
entonces:
a = log10 A = 0.427
b = r = 0.139
r = 0.139
𝐥𝐨𝐠 𝟏𝟎 𝑨 = 𝟎. 𝟒𝟐𝟕
𝟏𝟎(𝐥𝐨𝐠𝟏𝟎 𝑨) = 𝟏𝟎(𝟎.𝟒𝟐𝟕)
𝑨 = 𝟐. 𝟔𝟕𝟕
Por tanto se tiene que:

A = 2.677
r = 0.139
Y como nuestro modelo de ingresos para la compañía Compaq es de la forma R = A·tr, se

concluye por lo tanto que:
R = 2.6770·t0.139
IV.5 Correlación lineal

El objetivo primordial de la correlación es medir la intensidad de la relación entre dos
variables. Se llama variable a la característica o aspecto que se considera para cada
elemento de la muestra y puede tomar diferentes valores.
Supongamos que tenemos una muestra de N personas, a cada persona se le asignan dos
números, uno mide su estatura y otro mide su peso. El conjunto de valores X = {x 1, x2,
...,xN} representa las diferentes estaturas y el conjunto Y = {y 1, y2, ...,yN} representa los
diferentes pesos. De esta forma podemos crear el conjunto de pares ordenados P = {(x 1 ,
y1), (x2 , y2), ...,(xN , yN)} donde el par ordenado (xi , yi) representa el peso y la estatura de
la persona número i. Para este conjunto podemos investigar la correlación que existe
entre estatura y peso.

En este artículo estudiaremos la correlación lineal. Esta correlación ocurre cuando dos
variables X,Y tiende a seguir un patrón lineal. Por ejemplo podemos investigar la relación
lineal que existe entre peso y estatura, promedio del CETEC-Jojutla y puntuación en el
examen de ingreso (examen de conocimientos), ingreso mensual y gastos mensuales,
coeficiente intelectual y promedio universitario, edad e ingreso mensual entre otras.
Se dice que existe una relación o correlación positiva entre dos variables X y Y, si al
aumentar los valores de X aumentan los valores de Y, o cuando al disminuir los valores
de X disminuyen los valores de Y. Por ejemplo:
Si la variable X toma los valores 2, 3, 3, 4, 4, 4, 5, 5, 6, 6, 6 y,

La variable Y toma los valores 1, 2, 3, 2, 3, 4, 4, 5, 3, 4, 5.
Si escribimos los valores de las variables X, Y en forma de pares ordenados obtenemos
P = {(2,1), (3,2), (3,3), (4,2), (4,3), (4,4), (5,4), (5,5), (6,3), (6,4), (6,5)}.
Si ubicamos estos puntos en un sistema de coordenadas obtenemos una gráfica llamada

diagrama de dispersión. El diagrama de dispersión del ejemplo anterior se muestra en
la figura 1.
Este es un ejemplo de una correlación positiva.
Se dice que existe una relación o correlación negativa entre dos variables X y Y, si al
aumentar los valores de X disminuyen los valores de Y, o cuando al disminuir los valores
de X aumentan los valores de Y. Por ejemplo para el conjunto de pares ordenados.
P = {(4,5), (5,3), (5,4), (5,5), (6,4), (6,4), (7,1), (7,2), (7,3), (8,1), (8,2)}.

El diagrama de dispersión para este conjunto se muestra en la figura 2.
Este es un ejemplo de correlación negativa.
Cuando dos variables X y Y se correlacionan positivamente, los puntos en su diagrama de

dispersión quedan encerrados en una elipse inclinada como se muestra en la figura 3.
Si las variables X y Y se correlacionan negativamente, los puntos en su diagrama de

dispersión quedan encerrados en una elipse inclinada como se muestra en la figura 4.
Mientras mayor es el diámetro de la elipse que encierra los puntos de un diagrama de

dispersión menor es la relación de las variables que contiene. Cuando esto ocurre
decimos que la correlación es débil.

La figura 5 muestra una correlación positiva débil.
Por el contrario mientras menor es el diámetro de la elipse que encierra los puntos de un
diagrama de dispersión mayor es la relación de las variables que contiene. Cuando esto
ocurre decimos que la correlación es fuerte. La figura 6 muestra una correlación
positiva fuerte.
Si las variables X, Y no se correlacionan linealmente los puntos de su diagrama de

dispersión no quedan encerrados en una elipse inclinada. La figura 7 muestra un ejemplo
donde no hay correlación.
La correlación lineal perfecta ocurre cuando todos los puntos del diagrama de dispersión
están exactamente sobre una recta inclinada, como se muestra en la figura 8.

Si los datos forman una recta horizontal o vertical, no hay correlación ya que una
variable no afecta la otra como se muestra en las figuras 9 y 10.
Los diagramas de dispersión no siempre se presentan en alguna de las formas que vimos
anteriormente. Algunas veces sugieren relaciones que no son lineales, como se muestra
en la figura 11.
En este diagrama hay un patrón definido, sin embargo las dos variables no están
relacionadas linealmente, esto implica que no hay correlación lineal.

Bibliografía:
 Introducción a la estadística; T. H. Wonnacott, R. J. Wonnacott; 2ª Ed.; Limusa
Wiley; 2004.
 Estadística aplicada a los negocios y la economía; Lind, Marchal, Wathen; 13ª Ed.;
Mc Graw Hill; 2008.
 Probabilidad y estadística aplicadas a la ingeniería; Douglas C. Montgomery,

George C. Runger; 1ª Ed.; Mc Graw Hill; 1994.

PyE2 U4 IntRegyCor

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

PyE2 U4 IntRegyCor

Cargado por

Copyright:

Formatos disponibles

Antología de Probabilidad y Estadística II

Última revisión: 25-0ctubre-2009

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 48

IV.1 Conceptos fundamentales

IV.2 El método de mínimos cuadrados

Es decir, se debe encontrar una fórmula para calcular la pendiente b y la ordenada al

De primera impresión, se podría intentar minimizar Σd, la suma de todas las

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 49

Una alternativa conocida es elevar al cuadrado cada desviación y luego minimizar la

Grafica 1. Relación observada de la producción de trigo con la aplicación de fertilizante en 35 parcelas

IV.3 Regresión lineal simple

La pendiente b se calcula a partir de la siguiente fórmula

Las desviaciones 𝑋 − 𝑋 y (𝑌 − 𝑌 ) aparecerán tan a menudo que se hace necesario

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 50

La x (o la y) minúscula constituye un recordatorio de que las desviaciones x típicamente

Ejemplo: En un estudio de cómo la producción de trigo depende del fertilizante,

Tabla 1. Observaciones del fertilizante y de la producción

Solución. En la tabla 2, se presentan los cálculos para a y b. Se calculan Σxy y Σx2 y se

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 51

𝒂 = 𝒀 − 𝒃𝑿 = 60 − 0.059 400 = 36.5

Al introducir estos valores estimados de a y b en la ecuación 𝒀 = 𝒂 + 𝒃𝒙, que se vio

Tabla 2. Ajuste de la recta de mínimos cuadrados

IV.4 Regresión exponencial y logarítmica

y tome el logaritmo de ambos lados:

Log10 y = Log10 (Axr)

Las propiedades de logaritmos nos dan entonces:

Log10 y = Log10 A + Log10 xr

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 52

Log10 y = Log10 A + r Log10 x

Ejemplo: Ventas de Compaq

Ingresos de ventas de computadores Compaq (una marca ahora extinguida) son

El modelo exponencial deseado solo cambia a x por t y y por R en la ecuación, es decir:

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 53

Se resuelve mediante las siguientes igualdades que ya vimos antes donde:

Log10 y = Log10 A + r Log10 x

Por tanto se tiene que:

Y como nuestro modelo de ingresos para la compañía Compaq es de la forma R = A·tr, se

IV.5 Correlación lineal

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 54

Si la variable X toma los valores 2, 3, 3, 4, 4, 4, 5, 5, 6, 6, 6 y,

Si escribimos los valores de las variables X, Y en forma de pares ordenados obtenemos

Si ubicamos estos puntos en un sistema de coordenadas obtenemos una gráfica llamada

Este es un ejemplo de una correlación positiva.

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 55

El diagrama de dispersión para este conjunto se muestra en la figura 2.

Este es un ejemplo de correlación negativa.

Cuando dos variables X y Y se correlacionan positivamente, los puntos en su diagrama de

Si las variables X y Y se correlacionan negativamente, los puntos en su diagrama de

Mientras mayor es el diámetro de la elipse que encierra los puntos de un diagrama de

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 56

La figura 5 muestra una correlación positiva débil.

Si las variables X, Y no se correlacionan linealmente los puntos de su diagrama de

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 57

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 58

 Probabilidad y estadística aplicadas a la ingeniería; Douglas C. Montgomery,

Elaboró: Ing. Víctor H. Alcalá-Octaviano Página 59

También podría gustarte