Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capítulo 3
REGRESIÓN LINEAL
REGRESIÓN LINEAL:
El término Regresión fue utilizado por primera vez como un concepto estadístico en 1877 por sir Francis
Galton, quien llevo a cabo un estudio que mostró que la estatura de los niños nacidos de padres altos
tienden a retroceder o regresar hacia la estatura media de la población. Designo la palabra regresión
como el nombre del proceso general de predecir una variable (estatura de los niños) a partir de otra (la
estatura del padre o de la madre). Más tarde, los estadísticos acuñaron el término regresión múltiple para
describir el proceso mediante el cual se utilizan varias variables para predecir otra.
En el análisis de regresión, desarrollaremos una ecuación de estimación, es decir una fórmula matemática que
relaciona la variable conocida con la variable desconocida.
ANÁLISIS DE CORRELACIÓN
Para responder la pregunta ¿Existe alguna relación entre los siguientes elementos? es necesario desarrollar el
análisis de correlación, el cual es el estudio de la relación que existe entre las variables. Es el conjunto de técnicas
estadísticas empleadas para medir la intensidad de la asociación entre dos variables.
DIAGRAMA DE DISPERSIÓN
Gráfica que representa la relación entre dos variables.
Ejemplo: Elaboremos un diagrama de dispersión con los datos que se muestran en la siguiente tabla; este
diagrama se realiza por puntos, en el eje x representamos el número de empleados, en el eje de las y
representamos la producción por hora.
Fábrica A
45
REGRESIÓ N LINEAL Capítulo 3
Lo que se desea en esta sección es obtener la ecuación de la recta que más se ajuste a los datos como se muestra
en la figura siguiente.
Pero antes de obtenerla, debemos de medir que tanto están relacionadas las variables, para esto tenemos el
coeficiente de correlación lineal.
46
REGRESIÓ N LINEAL Capítulo 3
2 15 4 225 30
4 25 16 625 100
1 10 1 100 10
5 40 25 1600 200
3 30 9 900 90
=15 =120 =5 =3450 =43
5 0
Determinemos el coeficiente de correlación
Tomemos la fórmula:
Como el valor de r es muy próximo al valor 1 , se tiene una gran fuerza de correlación entre el número de
empleados por departamento y la producción por hora.
COEFICIENTE DE DETERMINACIÓN
Se toma el valor de r y se eleva al cuadrado r2
Ejercicio 1
Los datos que se muestran a continuación que representan el número de llamadas telefónicas publicitando
copiadoras y el número de unidades vendidas por cada vendedor
Resuelva lo siguiente:
a) Trace el diagrama de dispersión
b) Determine el coeficiente de correlación.
c) Interprete la fuerza del coeficiente de correlación.
d) Evalué el coeficiente de determinación.
UTILIZANDO LA CALCULADORA
Para ayudarnos a resolver los problemas de regresión lineal podemos utilizar la calculadora en modo regresión lineal.
Veamos las siguientes instrucciones para utilizar la calculadora.
BORRAR MEMORIA
SHIFT MODE MCL 1 =
47
REGRESIÓ N LINEAL Capítulo 3
REGRESIÓN LINEAL
7 , 12 introduce 7,12
M+
DT
5 , 26 ;4 introduce 5,26
M+ 4 veces
DT
Para calcular las sumas de la fórmula del coeficiente de correlación podemos utilizar:
S-SUM , para lo cual debemos seguir las siguientes instrucciones:
SHIFT… S-SUM
Podemos seleccionar las sumas oprimiendo el número que aparece debajo de la suma que deseamos utilizar:
n
REGRESIÓN LINEAL
Consideremos el problema de intentar predecir el valor de una respuesta basada en el valor de la variable
independiente x.
Una manera de modificar el modelo determinista es agregando un componente de error aleatorio e, así tenemos la
línea aproximada:
i=A+Bxi +ei
En la expresión i=A+Bxi +ei , tenemos el error ei, el cual indica la diferencia entre el valor verdadero y el
calculado.
Así ei = y- i es el error entre las ordenadas reales y las calculadas.
48
REGRESIÓ N LINEAL Capítulo 3
ei = y i - i
Donde: B= A=
Ejemplo: Supongamos que se desea conocer la relación existente entre la edad de un camión
de basura y los gastos de reparación anual. En los que debe esperarse que se tengan.
NÚMERO DE EDAD DEL CAMIÓN Gastos de reparación
CAMIONES EN AÑOS(x) En cientos de $(y)
1 5 7
1 3 7
BASURA
1 3 6
1 1 4
n=4 =12 =24
Completemos la tabla, como se muestra:
NÚMERO DE EDAD DEL CAMIÓN Gastos de reparación xy x2
CAMION EN AÑOS(x) En cientos de $(y)
1 5 7 35 25
1 3 7 21 9
1 3 6 18 9
1 1 4 4 1
n=4 =12 =24 =7 =4
8 4
Sustituyendo en B, tenemos: B=
Ahora obtengamos A:
A=
49
REGRESIÓ N LINEAL Capítulo 3
x=2.5 años sustituyendo en =3.75+0.75x, tenemos =3.75+0.75(2.5)=5.625 como los elementos están en
cientos de pesos entonces pagaran $562.5 al año en reparaciones de camiones de 2.5 años.
x=4 años sustituyendo en =3.75+0.75x, tenemos =3.75+0.75(4)=6.75
como los elementos están en cientos de pesos entonces pagaran $675.00
Ejercicio 2
1.-Una empresa eléctrica analiza la relación entre el consumo de energía (en miles de
kilowatts-hora,kWh) y el número de habitantes en una manzana de casas. Una muestra de
10 casas produjo los siguientes resultados:
Número de Consumo Número de Consumo
Habitaciones x (miles de kWh) y Habitaciones x (miles de kWh) y
12 9 8 6
9 7 10 8
14 10 10 10
6 5 5 4
10 8 7 7
a)Obtenga la ecuación de la recta de mejor ajuste.
b)Calcule el consumo en miles de kWh, para una casa de seis habitaciones.
2.- Obtenga la ecuación de la recta de mejor ajuste; calcule el desperdicio de plástico si el tamaño del hogar es de 3
miembros, y si el desperdicio de plástico es de 0.58 libras ¿Cuál es el tamaño del hogar?
Tamaño del hogar 2 3 3 6 4 2 1 5
Numero de habitantes
Plástico (Lb) 0.27 1.41 2.19 2.83 2.19 1.81 0.85 3.05
50
REGRESIÓ N LINEAL Capítulo 3
4.-Se realizo un estudio para determinar el efecto que tiene la rapidez de mezclado sobre la cantidad de impureza
en una pintura producida mediante un proceso químico. El estudio arrojo los siguientes datos:
Rapidez de agitación, rpm(x) 20 22 24 26 28 30 32 34 36 38 40 42
Impurezas, % (y) 8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5
Resuelva lo siguiente:
a) Trace el diagrama de dispersión. b) Determine el coeficiente de correlación. c) Interprete la fuerza del coeficiente
de correlación. d) Evalué el coeficiente de determinación. e) Obtenga la ecuación de la recta de mejor
ajuste. f) Si la rapidez de agitación es de 25 rpm. ¿Qué porcentaje de impureza tendrá?
51
REGRESIÓ N LINEAL Capítulo 3
5.- A temperaturas cercanas al cero absoluto (273 grados centígrados bajo cero), el helio adquiere características que
desafían muchas leyes de la física convencional. Se realizó un experimento con helio en forma sólida a diversas
temperaturas cercanas al cero absoluto. El helio sólido se coloca en un refrigerador junto con una sustancia sólida
impura y se registra la proporción ( en peso) de la impureza que atraviesa el helio sólido. Este fenómeno de
sólidos que pasan directamente a través de sólidos se conoce como formación de túneles cuánticos. Los datos se
presentan en la siguiente tabla:
Proporción de impureza .315 .202 .204 .620 .715 .935 .957 .906 .985 .987
que atraviesa el helio y
Temperatura x -262 -265 -256 -267 -270 -272 -272 -272 -273 -273
a) Construya un diagrama de dispersión para los datos. b) Calcule el coeficiente de correlación para los datos dados.
c) Calcule el coeficiente de determinación. d) Calcule la proporción de impureza que atraviesa el helio cuando la
temperatura es de -270 °C.
MÍNIMOS CUADRADOS
Consideremos el error cuadrático:
Para obtener el mínimo tomaremos la derivada parcial y estas las igualamos a cero, tenemos:
de la ecuación ( I) despejemos A:
, tenemos:
52
REGRESIÓ N LINEAL Capítulo 3
Tenemos:
Despejemos B:
Tenemos:
Podemos escribir:
Nota: Por la deducción de estas fórmulas podemos ver que la línea de mínimos cuadrados siempre pasa por el punto
( )
Ejercicio 3
1) La tabla nos muestra la temperatura de un pastel. 20 minutos después de sacarlo del horno.
Tiempo 20.1 21.3 22.8 24.9 28.6 32.3
Temperatura 75 74 73 72 71 70.5
Resuelva lo siguiente: a) Trace el diagrama de dispersión. b) Obtenga la ecuación exponencial de mejor ajuste. c) Si
t=23.6minutos después de sacarlo del horno calcule su temperatura.
53
REGRESIÓ N LINEAL Capítulo 3
2) La tabla nos muestra el crecimiento en porcentaje de una población de bacterias por día.
t(día) 1 2 3 4 5 6 7 8
P 0.72 1.08 1.68 3.24 5.28 8.64 13.8 22.6
Resuelva lo siguiente: a) Trace el diagrama de dispersión. b) Obtenga la ecuación exponencial de mejor ajuste. c) Si
t=5.8 días calcule P. d) Si P=15 calcule t.
Galileo determino el valor de g, realizando experimentos en un plano inclinado y tomando el tiempo a través de su
pulso y posteriormente con un reloj de agua que el invento después de observar un día la campana de una iglesia
empezó a estudiar el péndulo con el fin de tomar el tiempo de un objeto que se desplazaba en el plano inclinado y así
determino la ley del movimiento que relaciona el tiempo y el espacio recorrido..
Tomemos los siguientes datos y ajustemos a una función cuadrática y la otra lineal:
54
REGRESIÓ N LINEAL Capítulo 3
Puedes consultar el libro de Cálculo Integral de los autores Larson-Hostertler. Ed. Mc Graw Hill
NOTAS Y EJERCICIOS
55
Larson-Hostetler. Mc Graw-Hill