Está en la página 1de 11

REGRESIÓ N LINEAL Capítulo 3

Capítulo 3

REGRESIÓN LINEAL
REGRESIÓN LINEAL:
El término Regresión fue utilizado por primera vez como un concepto estadístico en 1877 por sir Francis
Galton, quien llevo a cabo un estudio que mostró que la estatura de los niños nacidos de padres altos
tienden a retroceder o regresar hacia la estatura media de la población. Designo la palabra regresión
como el nombre del proceso general de predecir una variable (estatura de los niños) a partir de otra (la
estatura del padre o de la madre). Más tarde, los estadísticos acuñaron el término regresión múltiple para
describir el proceso mediante el cual se utilizan varias variables para predecir otra.

En el análisis de regresión, desarrollaremos una ecuación de estimación, es decir una fórmula matemática que
relaciona la variable conocida con la variable desconocida.

¿Existe alguna relación entre los siguientes elementos?


Variable Conocida(independiente) x Variable desconocida(dependiente)y
1) Gastos de publicidad Ventas

2) Antigüedad de un auto Precio de venta


3) Área de inmueble Costo de calefacción
4) Número de anuncios transmitidos Ventas sábado y domingo
5) Antigüedad en el trabajo de un empleado Número de unidades que elabora
6) Desecho plástico en libras Tamaño del hogar (familia)
7) Ventas anuales de latas de aerosol Fluorocarburos liberados en la atmósfera

8) Investigación y desarrollo Ganancia anual de una empresa

9) Exposición a líneas eléctricas Cáncer

10) Longitud de un oso macho Peso

11) Rapidez de mezclado rpm Cantidad de impureza en una pintura %


12) Resistencia a la tensión de un producto de papel Cantidad de fibra(madera dura)en la pulpa en porcentaje %

ANÁLISIS DE CORRELACIÓN
Para responder la pregunta ¿Existe alguna relación entre los siguientes elementos? es necesario desarrollar el
análisis de correlación, el cual es el estudio de la relación que existe entre las variables. Es el conjunto de técnicas
estadísticas empleadas para medir la intensidad de la asociación entre dos variables.

DIAGRAMA DE DISPERSIÓN
Gráfica que representa la relación entre dos variables.

Ejemplo: Elaboremos un diagrama de dispersión con los datos que se muestran en la siguiente tabla; este
diagrama se realiza por puntos, en el eje x representamos el número de empleados, en el eje de las y
representamos la producción por hora.

Fábrica A

45
REGRESIÓ N LINEAL Capítulo 3

Ne= Número de empleados Ph= Producción


Por departamento por hora
2 $15
4 25
1 10
5 40
3 30

Lo que se desea en esta sección es obtener la ecuación de la recta que más se ajuste a los datos como se muestra
en la figura siguiente.

Pero antes de obtenerla, debemos de medir que tanto están relacionadas las variables, para esto tenemos el
coeficiente de correlación lineal.

COEFICIENTE DE CORRELACIÓN LÍNEAL


Es la medida de la intensidad de la relación lineal entre dos variables.

Con frecuencia se denomina r de Pearson o coeficiente de correlación producto-momento de Pearson, varia de –1 a


+1.
-1 ó +1 indica correlación perfecta.
Si no existe alguna relación entre las dos variables, la r de Person será cero.

Para calcular el coeficiente de correlación lineal o r de Pearson , tenemos la siguiente fórmula:

Ejemplo: Calculemos el coeficiente de regresión para el problema de la fábrica en el que se pregunta la


relación entre la variable Ne= número de empleados por departamento y la variable Ph= Producción por hora

Ne= Número de empleados Ph= Producción x2 y2 xy


Por departamento por hora
X y

46
REGRESIÓ N LINEAL Capítulo 3

2 15 4 225 30
4 25 16 625 100
1 10 1 100 10
5 40 25 1600 200
3 30 9 900 90
=15 =120 =5 =3450 =43
5 0
Determinemos el coeficiente de correlación

Tomemos la fórmula:

sustituyamos los valores en la fórmula:

Como el valor de r es muy próximo al valor 1 , se tiene una gran fuerza de correlación entre el número de
empleados por departamento y la producción por hora.

COEFICIENTE DE DETERMINACIÓN
Se toma el valor de r y se eleva al cuadrado r2

Ejercicio 1

Los datos que se muestran a continuación que representan el número de llamadas telefónicas publicitando
copiadoras y el número de unidades vendidas por cada vendedor
Resuelva lo siguiente:
a) Trace el diagrama de dispersión
b) Determine el coeficiente de correlación.
c) Interprete la fuerza del coeficiente de correlación.
d) Evalué el coeficiente de determinación.

No. De llamadas de ventas No.De


de copiadoras por Empleado unidades
Vendidas
20 30
40 60
20 40
30 60
10 30
10 40
20 40
20 50
20 30
30 70

UTILIZANDO LA CALCULADORA
Para ayudarnos a resolver los problemas de regresión lineal podemos utilizar la calculadora en modo regresión lineal.
Veamos las siguientes instrucciones para utilizar la calculadora.

BORRAR MEMORIA
SHIFT MODE MCL 1 =
47
REGRESIÓ N LINEAL Capítulo 3

REGRESIÓN LINEAL

MODE REG LIN

INGRESAR DATOS POR EJEMPLO INGRESEMOS x=7,y=12

7 , 12 introduce 7,12
M+
DT

5 , 26 ;4 introduce 5,26
M+ 4 veces
DT

Para calcular las sumas de la fórmula del coeficiente de correlación podemos utilizar:
S-SUM , para lo cual debemos seguir las siguientes instrucciones:

SHIFT… S-SUM

Podemos seleccionar las sumas oprimiendo el número que aparece debajo de la suma que deseamos utilizar:
n

REGRESIÓN LINEAL
Consideremos el problema de intentar predecir el valor de una respuesta basada en el valor de la variable
independiente x.

LA RECTA DE MEJOR AJUSTE


En la regresión simple hay una variable independiente. El proceso de análisis consiste en encontrar una mejor línea
recta a través de n puntos diseminados
y=A+Bx es un modelo determinista.

La variable “y” se conoce también como variable de respuesta .o dependiente

La variable “x” se conoce también como variable de predicción de entrada o independiente.

Una manera de modificar el modelo determinista es agregando un componente de error aleatorio e, así tenemos la
línea aproximada:

i=A+Bxi +ei
En la expresión i=A+Bxi +ei , tenemos el error ei, el cual indica la diferencia entre el valor verdadero y el
calculado.
Así ei = y- i es el error entre las ordenadas reales y las calculadas.

ei = y i - i es el error entre las ordenadas

48
REGRESIÓ N LINEAL Capítulo 3

reales y las calculadas.

ei = y i - i

MÉTODO DE MÍNIMOS CUADRADOS


El procedimiento estadístico para encontrar la recta del mejor ajuste para un conjunto de datos se basa en reducir al
mínimo las distancias verticales, la forma de la recta de mejor ajuste es: =A+Bx
La recta que minimiza la suma de los cuadrados de las desviaciones de los valores observados de y, respecto a los
valores predichos es la recta de mejor ajuste.
La suma de las desviaciones cuadradas se llama comúnmente suma de cuadrados del error y se define
como:

De esto obtenemos los valores de los coeficientes A, B de la recta de mejor ajuste


=A+Bx

Donde: B= A=

Ejemplo: Supongamos que se desea conocer la relación existente entre la edad de un camión
de basura y los gastos de reparación anual. En los que debe esperarse que se tengan.
NÚMERO DE EDAD DEL CAMIÓN Gastos de reparación
CAMIONES EN AÑOS(x) En cientos de $(y)
1 5 7
1 3 7
BASURA
1 3 6
1 1 4
n=4 =12 =24
Completemos la tabla, como se muestra:
NÚMERO DE EDAD DEL CAMIÓN Gastos de reparación xy x2
CAMION EN AÑOS(x) En cientos de $(y)
1 5 7 35 25
1 3 7 21 9
1 3 6 18 9
1 1 4 4 1
n=4 =12 =24 =7 =4
8 4

Sustituyendo en B, tenemos: B=

Ahora obtengamos A:

A=

Así tenemos la ecuación de la recta de mejor ajuste :


=A+Bx
=3.75+0.75x
Si se desea conocer por ejemplo el gasto que se tendra al reparar un camión de 2.5 años de antigüedad o de uno de 4
años, entonces podemos sustituir en la ecuación y tenemos:

49
REGRESIÓ N LINEAL Capítulo 3

x=2.5 años sustituyendo en =3.75+0.75x, tenemos =3.75+0.75(2.5)=5.625 como los elementos están en
cientos de pesos entonces pagaran $562.5 al año en reparaciones de camiones de 2.5 años.
x=4 años sustituyendo en =3.75+0.75x, tenemos =3.75+0.75(4)=6.75
como los elementos están en cientos de pesos entonces pagaran $675.00

Ejercicio 2

1.-Una empresa eléctrica analiza la relación entre el consumo de energía (en miles de
kilowatts-hora,kWh) y el número de habitantes en una manzana de casas. Una muestra de
10 casas produjo los siguientes resultados:
Número de Consumo Número de Consumo
Habitaciones x (miles de kWh) y Habitaciones x (miles de kWh) y
12 9 8 6
9 7 10 8
14 10 10 10
6 5 5 4
10 8 7 7
a)Obtenga la ecuación de la recta de mejor ajuste.
b)Calcule el consumo en miles de kWh, para una casa de seis habitaciones.

2.- Obtenga la ecuación de la recta de mejor ajuste; calcule el desperdicio de plástico si el tamaño del hogar es de 3
miembros, y si el desperdicio de plástico es de 0.58 libras ¿Cuál es el tamaño del hogar?
Tamaño del hogar 2 3 3 6 4 2 1 5
Numero de habitantes
Plástico (Lb) 0.27 1.41 2.19 2.83 2.19 1.81 0.85 3.05

50
REGRESIÓ N LINEAL Capítulo 3

3.-En la siguiente tabla se muestran la antigüedad de un auto y su precio actual.


a) Trace el diagrama de dispersión
Antigüedad del Precio Antigüedad del Precio
auto en años(x) en miles de $(y) auto en años(x) en miles de $(y)
9 18.1 7 20
7 16 8 17.6
11 13.6 11 18
12 14 10 18
8 19 12 16
6 18.6 6 18
b) Determine el coeficiente de correlación.
c) Interprete la fuerza del coeficiente de correlación.
d) Evalué el coeficiente de determinación.
e) Obtenga la ecuación de la recta de mejor ajuste.
f) Si el auto tiene 6.8 años de antigüedad ¿Cuál es su precio?
g) Si el auto tiene 9.5 años de antigüedad ¿Cuál es su precio?

4.-Se realizo un estudio para determinar el efecto que tiene la rapidez de mezclado sobre la cantidad de impureza
en una pintura producida mediante un proceso químico. El estudio arrojo los siguientes datos:
Rapidez de agitación, rpm(x) 20 22 24 26 28 30 32 34 36 38 40 42
Impurezas, % (y) 8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5
Resuelva lo siguiente:
a) Trace el diagrama de dispersión. b) Determine el coeficiente de correlación. c) Interprete la fuerza del coeficiente
de correlación. d) Evalué el coeficiente de determinación. e) Obtenga la ecuación de la recta de mejor
ajuste. f) Si la rapidez de agitación es de 25 rpm. ¿Qué porcentaje de impureza tendrá?

51
REGRESIÓ N LINEAL Capítulo 3

5.- A temperaturas cercanas al cero absoluto (273 grados centígrados bajo cero), el helio adquiere características que
desafían muchas leyes de la física convencional. Se realizó un experimento con helio en forma sólida a diversas
temperaturas cercanas al cero absoluto. El helio sólido se coloca en un refrigerador junto con una sustancia sólida
impura y se registra la proporción ( en peso) de la impureza que atraviesa el helio sólido. Este fenómeno de
sólidos que pasan directamente a través de sólidos se conoce como formación de túneles cuánticos. Los datos se
presentan en la siguiente tabla:
Proporción de impureza .315 .202 .204 .620 .715 .935 .957 .906 .985 .987
que atraviesa el helio y
Temperatura x -262 -265 -256 -267 -270 -272 -272 -272 -273 -273
a) Construya un diagrama de dispersión para los datos. b) Calcule el coeficiente de correlación para los datos dados.
c) Calcule el coeficiente de determinación. d) Calcule la proporción de impureza que atraviesa el helio cuando la
temperatura es de -270 °C.

MÍNIMOS CUADRADOS
Consideremos el error cuadrático:

Para obtener el mínimo tomaremos la derivada parcial y estas las igualamos a cero, tenemos:

Vamos a determinar el valor de A y el de B:


tenemos:

por lo que tenemos: ............( I )


.........( I I )

de la ecuación ( I) despejemos A:

, tenemos:

También podemos tener la ecuación en la forma:

52
REGRESIÓ N LINEAL Capítulo 3

Sustituyendo en la ecuación (II):

Tenemos:

Despejemos B:

Tenemos:

Podemos escribir:

Lo que podemos escribir como:

Nota: Por la deducción de estas fórmulas podemos ver que la línea de mínimos cuadrados siempre pasa por el punto
( )

Otros tipos de curvas de ajuste


Regresión lineal y=A+B x
Regresión cuadrática y=A+B x +C x2
Regresión logarítmica y=A+B Lnx
Regresión exponencial y=AeBx
Regresión de potencia y=A+xB
Regresión inversa y=A+B 1/x

Ejercicio 3

1) La tabla nos muestra la temperatura de un pastel. 20 minutos después de sacarlo del horno.
Tiempo 20.1 21.3 22.8 24.9 28.6 32.3
Temperatura 75 74 73 72 71 70.5
Resuelva lo siguiente: a) Trace el diagrama de dispersión. b) Obtenga la ecuación exponencial de mejor ajuste. c) Si
t=23.6minutos después de sacarlo del horno calcule su temperatura.

53
REGRESIÓ N LINEAL Capítulo 3

2) La tabla nos muestra el crecimiento en porcentaje de una población de bacterias por día.
t(día) 1 2 3 4 5 6 7 8
P 0.72 1.08 1.68 3.24 5.28 8.64 13.8 22.6
Resuelva lo siguiente: a) Trace el diagrama de dispersión. b) Obtenga la ecuación exponencial de mejor ajuste. c) Si
t=5.8 días calcule P. d) Si P=15 calcule t.

Determinación experimental de la gravedad

Texas instrument Calculatore Based Laboratory


Esperamos encontrar dos ecuaciones como las siguientes:
x=x0+v0t+ t2 , V=v0+gt

Galileo determino el valor de g, realizando experimentos en un plano inclinado y tomando el tiempo a través de su
pulso y posteriormente con un reloj de agua que el invento después de observar un día la campana de una iglesia
empezó a estudiar el péndulo con el fin de tomar el tiempo de un objeto que se desplazaba en el plano inclinado y así
determino la ley del movimiento que relaciona el tiempo y el espacio recorrido..
Tomemos los siguientes datos y ajustemos a una función cuadrática y la otra lineal:

Tiempo Altura Velocidad


(segundos) (metros (metros/segundos)
0.00 0.290864 -0.16405
0.02 0.284279 -0.32857
0.04 0.274400 -0.49403
0.06 0.260131 -0.71322
0.08 0.241472 -0.93309
0.10 0.219520 -1.09409
0.12 0.189885 -1.47655
0.14 0.160250 -1.47891
0.16 0.126224 -1.69994
0.18 0.086711 -1.96997
0.20 0.045002 -2.07747
0.22 0.00000 -2.25010

54
REGRESIÓ N LINEAL Capítulo 3

Puedes consultar el libro de Cálculo Integral de los autores Larson-Hostertler. Ed. Mc Graw Hill
NOTAS Y EJERCICIOS

55

Larson-Hostetler. Mc Graw-Hill

También podría gustarte