Está en la página 1de 20

Instituto Tecnológico Superior de

Coatzacoalcos.
División de Ingeniería Industrial.

FEBRERO – JUNIO 2019.

Nombre del Alumno: Zapot Casanova Diana Guadalupe.


Apellido Paterno Apellido Materno Nombre(s)

ASIGNATURA: ESTADISTICA INFERENCIAL II


UNIDAD 1. ‘’ REGRESIÓN LINEAL MÚLTIPLE’’.

Nombre del Docente: Jiménez Ventura Bricio.


TRABAJO DE INVESTIGACIÓN
Apellido Paterno Apellido Materno Nombre(s)

Carrera: Ing. Industrial Semestre: 4° Grupo: ¨C¨

Fecha: 14 de febrero del 2019


ÍNDICE.

Introducción. 3

UNIDAD 1. ‘’ REGRESIÓN LINEAL MÚLTIPLE’’.

1.1 Regresión lineal múltiple. 4

1.1.1 Pruebas de hipótesis en regresión lineal múltiple. 7

1.1.2 Intervalos de confianza y predicción en regresión múltiple. 8

1.1.3 Uso de un software estadístico. 13

1.2 Regresión no lineal. 15


Conclusión. 19

Referencias bibliográficas. 20

2
INTRODUCCIÓN.

La palabra Estadística procede del vocablo “Estado”, pues era función principal de
los Gobiernos de los Estados establecer registros de población, nacimientos,
defunciones, impuestos, cosechas... fue una de las causas principales del
nacimiento de la misma.

Cada día, realizamos acciones y tomamos decisiones de pensamientos


estadísticos. Cuando no usamos el transporte público en horas pico se sabe que es
el momento para hacerlo. Esta decisión se toma a partir de experiencias e
información que hemos recopilado en situaciones anteriores. En áreas como
medicina, economía, ciencia, política etc., se recopila información que, tras ser
analizada, permita tomar decisiones en muchos casos para el mejoramiento de
alguna situación o aspecto relacionados.

3
UNIDAD 1. ‘’ REGRESIÓN LINEAL MÚLTIPLE’’.

1.1 REGRESIÓN LINEAL MÚLTIPLE.


En muchas situaciones prácticas existen varias variables independientes que se
cree que influyen o están relacionadas con una variable de respuesta , y por lo
tanto será necesario tomar en cuenta si se quiere predecir o entender mejor el
comportamiento de

. Por ejemplo, para explicar o predecir el consumo de electricidad en una casa


habitación tal vez sea necesario considerar el tipo de residencia, el número de
personas que la habitan, la temperatura promedio de la zona, etcétera.

Sea variables independientes o regresores, y sea una variable de


respuesta, entonces el modelo de regresión lineal múltiple con variables
independientes es el polinomio de primer orden:}

Donde los son los parámetros del modelo que se conocen como coeficientes de
regresión y es el error aleatorio, con media cero, . Si en la
ecuación (1.22) , estamos en el caso de regresión lineal simple y el modelo
es una línea recta; si , tal ecuación representa un plano. En general, la
ecuación (1.22) representa un hiperplano en el espacio de dimensiones generado
por las variables

}.

El término lineal del modelo de regresión se emplea debido a que la ecuación (1.22)
es función lineal de los parámetros desconocidos La interpretación de
éstos es muy similar a lo ya explicado para el caso de regresión lineal simple: es
4
la ordenada al origen, y mide el cambio esperado en por cambio unitario en
cuando el resto de las variables regresoras se mantienen fijas o constantes.

Para encontrar los coeficientes de regresión múltiple por el método de mínimos


cuadrados aplicamos el siguiente sistema de ecuaciones normales:

Estas ecuaciones se pueden resolver para , y mediante cualquier

método apropiado para resolver sistemas de ecuaciones lineales

Por ejemplo La siguiente tabla muestra los pesos Y a la libra más cercana, las estaturas X1 a la
pulgada más cercana y las edades X2 al año más cercano de 12 muchachos.

Peso Estatura Edad

64 57 8
71 59 10
53 49 6
67 62 11
55 51 8 Regresión lineal múltiple 31
58 50 7
10 Tabla 1.5 Peso, estatura y edad
77 55
57 48 9
56 52 10
6
51 42
12
76 61
9
68 57

5
Para encontrar los coeficientes de regresión ( , y ) múltiple mediante el
método de mínimos cuadrados seria de la siguiente manera

Tabla 1.6 Procedimiento para realizar los cálculos para la regresión múltiple
Y X1 X2 Y2 X12 X22 X1Y X2Y X1X2
64 57 8 4096 3249 64 3648 512 456
71 59 10 5041 3481 100 4189 710 590
53 49 6 2809 2401 36 2597 318 294
67 62 11 4489 3844 121 4154 737 682
55 51 8 3025 2601 64 2805 440 408
58 50 7 3364 2500 49 2900 406 350
77 55 10 5929 3025 100 4235 770 550
57 48 9 3249 2304 81 2736 513 432
56 52 10 3136 2704 100 2912 560 520
6 36
51 42 2601 1764 2142 306 252
12 144
76 61 5776 3721 4636 912 732
9 81
68 57 4624 3249 3876 612 513

y x1 x2 y2 x12 x22 x1y x2y x1x2


753 643 106 48,139 976 40,830 6,796 5,779

34,843

Al sustituir las sumatorias calculadas en las ecuaciones normales, se obtiene

Resolver este sistema de tres ecuaciones lineales para , y , es por lo menos


tedioso. Es común emplear matrices para simplificar el proceso. Hoy en día, esta
clase de cálculos son realizados por la computadora.

El resultado seria el siguiente por lo

tanto la ecuación de regresión es

La solución manual aplicando el sistema de tres ecuaciones lineales con tres


incógnitas (3x3) pudiera ser aplicando el métodos de eliminación de Gauss o bien

6
el método de Cramer. Para este tipo de planteamiento se recomienda el método
de Cramer el cual consiste en la siguiente secuencia:

1.1.1 PRUEBAS DE HIPÓTESIS EN REGRESIÓN LINEAL


MÚLTIPLE.

En cualquier análisis de regresión no basta hacer los cálculos que se explicaron


antes, sino que es necesario evaluar qué tan bien el modelo (la línea recta) explica
la relación entre y. Una primera forma de hacer esto es probar una serie hipótesis
sobre el modelo. Para ello es necesario suponer una distribución de probabilidad
para el término de error, Es usual suponer normalidad: se distribuye en forma
normal, independiente, con media cero y varianza.
Por lo general, la hipótesis de mayor interés plantea que la pendiente es
significativamente diferente de cero. Esto se logra al aprobar la siguiente hipótesis:

El estadístico de prueba es:

Si la hipótesis nula es verdadera él estadístico (1.10) tiene una distribución -Student


con n-2 grados de libertad. Se rechaza Ho si el valor absoluto de este estadístico
es mayor que el correspondiente valor crítico obtenido de tablas, es decir, se
rechaza Ho si:

7
En caso contrario no se rechaza Ho No rechazar que 𝛽1 = 0, en el caso del modelo
de regresión lineal simple, implica que no existe una relación lineal significativa entre
y ; por tanto, no existe relación entre estas variables o ésta es de otro tipo.
La suma de cuadrados de los residuos o suma de cuadrados del error ( y se utiliza
para estimar la varianza del error de ajuste de un modelo, y está dada por:

1.1.2 INTERVALOS DE CONFIANZA Y PREDICCIÓN EN


REGRESIÓN MÚLTIPLE.

En los modelos de regresión múltiple con frecuencia es conveniente construir


estimaciones de intervalos de confianza para los coeficientes de regresión . Por

ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada
coeficiente en lo individual está dado por:

También es posible obtener un intervalo de confianza con respecto a la respuesta media


en un punto particular, digamos está dado por:

Ejercicios de regresión lineal múltiple

8
13.- ¿Por qué se requiere la regresión lineal múltiple?

14.- Se realizo un estudio para investigar la relación de la resistencia al corte del terreno (
) con la profundidad en pies ( ) y el contenido de humedad . Se hicieron 10
observaciones, obteniéndose las siguientes cantidades resumidas

,
,
, , , , ,

a) Establezca las ecuaciones normales de mínimos cuadrados para el modelo

b) Estime los parámetros del modelo del inciso a)


c) ¿Cuál es la resistencia predicha cuando pies y ?

15.- En una empresa dedicada a anodizar artículos de aluminio (baterías de


cocina), el anodizado se logra con una solución hecha a base de ácidos (sulfúrico,
cítrico, bórico) y dicromato de aluminio. En este proceso se controla el pH de la
solución, la temperatura, la corriente y el tiempo de permanencia. Debido al poco
grosor del anodizado, han aumentado las quejas por la escasa resistencia y
durabilidad del producto. Para resolver este problema se decide estudiar, mediante
un experimento, la relación del pH y la temperatura con el grosor del anodizado.
Los datos se muestran en la siguiente tabla:

pH Temperatura Espesor

9
1,2 -8 9
1,8 -8 14
1,2 8 10
1,8 8 19 8
1,2 -8 12
1,8 -8 11
1,2 8 20
1,8 8 14
1,5 0 13
1,5 0

a) ¿Cuáles son las variables independientes y cuál la dependiente? Argumente


Intervalos de confianza y predicción en regresión
múltiple

b) Ajuste un modelo del tipo y anote la


ecuación del modelo ajustado
c) A partir del modelo ajustado, ¿cuál es el espesor estimado cuando se utiliza
un pH = 2 y una temperatura de 10 grados?
d) ¿El modelo es adecuado? Argumente con base en graficas de residuos,
pruebas de hipótesis y coeficientes de determinación.

16.- Se realizó un experimento para estudiar el sabor del queso panela en función
de la cantidad del cuajo y la sal. La variable de respuesta observada es el sabor
promedio reportado por un grupo de cinco panelistas que probaron todos los
quesos y los calificaron en una escala hedónica. Los datos obtenidos se muestran
a continuación:

10
Sal Cuajo Sabor
6 0,3 5,67
5,5 0,387 7,44
4,5 0,387 7,33
4 0,3 6,33
4,5 0,213 7,11
5,5 0,213 7,22
5 0,3 6,33
5 0,3 6,66

a) Ajuste el modelo
b) ¿El modelo explica la variación observada en el sabor? Argumente con base
en la significancia del modelo, los residuales y el coeficiente de
determinación.
c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la
calidad del ajuste aplique las pruebas de hipótesis

d) Compare el error estándar de estimación ( y los coeficientes de


determinación

) para ambos modelos


e) ¿Cuál modelo prefiere para explicar el sabor?

17.- Se piensa que la energía eléctrica consumida mensualmente por una planta
química se relaciona con la temperatura ambiente promedio ( , el número de
días laborales del mes ( , la pureza promedio del producto y las toneladas
del producto producidas

. Se cuenta con los datos del último año, los cuales se presentan en la tabla
siguiente:

11
240 25 24 91 100
236 31 21 90 95
290 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98

a) Ajuste un modelo de regresión lineal múltiple a estos datos


b) Prediga el consumo de electricidad para un mes en el que ,
días y toneladas
c) Calcule para este modelo. Interprete esta cantidad
d) Grafique los residuales contra . Interprete la grafica

12
1.1.3 USO DE UN SOFTWARE ESTADÍSTICO.

primeramente capturamos los datos en la hoja de cálculo, posteriormente


activamos Datos seguido de Análisis de datos y seleccionamos Regresión, y
aceptar

Datos Análisis de datos Regresión

En la ventana de captura se solicitará el rango de celdas donde se encuentran los


datos para la variable dependiente Rango de entrada y para la(s) variable(s)
regresora(s) Rango de entrada (para los datos de X1 y X2, se sombrean ambos
simultáneamente con el ratón, en este caso a partir de la columna 2)

13
Activamos la casilla de rótulos, por default está indicado en una hoja nueva,
seleccionamos además cualquiera de las opciones de residuos, grafica de
residuales, y curva de regresión ajustada y aceptar y tendremos el resultado.

Utilizando Minitab
En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la
hoja de cálculo una vez capturada las columnas de datos seleccionamos
Estadísticas luego Regresión seguida de Regresión nuevamente

Estadísticas Regresión Regresión

De la ventana desplegada en respuesta indicamos la variable de respuesta, en este


caso es resistencia y en predictor indicamos porcentaje de fibra activando también
cualquiera de las opciones posibles, terminando en aceptar.

14
Nota: De la ventana de captura aparecen automáticamente en el cuadro de la
izquierda la información de la tabla, en respuesta, se indica con un clic del ratón en
peso y este automáticamente se manifiesta, en predictores de igual manera se da
un clic a cada uno y estos se manifiestan en el recuadro.

1.2 REGRESIÓN NO LINEAL.

Si las dos variables X y Y se relacionan según un modelo de línea recta, se habla


de regresión lineal simple

Cuando las variables X y Y se relacionan según una línea curva, se habla de


regresión no lineal o curvilínea. Aquí se puede distinguir entre regresión parabólica,
exponencial, potencial etc.

15
Supongamos que al hacer la representación gráfica correspondiente la distribución
bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relación entre
las dos variables, pero desde luego, esa relación no es lineal.

Por tanto, debemos buscar la función que ha de describir la dependencia entre las
dos variables.
Nos limitaremos al estudio de las más utilizadas: la función parabólica, la
logarítmica, la exponencial y la potencial.

Parábola de Regresión
En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a
la situación real dada.

La expresión general de un polinomio de 2º grado es:

donde a, b y c son los parámetros.

El problema consiste, por tanto, en determinar dichos parámetros para una


distribución dada. Seguiremos para ello, un razonamiento similar al que hicimos en
el caso del modelo de regresión lineal simple, utilizando el procedimiento de ajuste
de los mínimos cuadrados, es decir, haciendo que la suma de los cuadrados de las
desviaciones con respecto a la curva de regresión sea mínima:

donde, siguiendo la notación habitual, yi son los valores observados de la variable


dependiente, e los valores estimados según el modelo; por tanto, podemos
escribir D de la forma:

16
Para encontrar los valores de a, b y c que hacen mínima la expresión anterior,
deberemos igualar las derivadas parciales de D con respecto a dichos parámetros
a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema
se conocen como ecuaciones normales de Gauss (igual que en el caso de la
regresión lineal simple).

Función Exponencial, Potencial y Logarítmica


El problema de ajustar un modelo potencial, de la forma y uno exponencial
se reduce al de la función lineal, con solo tomar logaritmos.

Modelo potencial:
Si tomamos logaritmos en la expresión de la función potencial, obtendremos:

Como vemos es la ecuación de una recta: , donde ahora


. De modo que el problema es sencillo, basta con transformar Y en y X en
y ajustar una recta a los valores transformados. El parámetro b del modelo

17
potencial coincide con el coeficiente de regresión de la recta ajustada a los datos
transformados, y A lo obtenemos mediante el antilog(a).

Modelo exponencial:
Tomando logaritmos en la expresión de la función exponencial, obtendremos:

También se trata de la ecuación de una recta , pero ahora ajustándola


a y a X; de modo que, para obtener el parámetro A del modelo exponencial,
basta con hacer antilog(a), y el parámetro B se obtiene tomando antilog(b).

Modelo logarítmico:
La curva logarítmica Y = a + b es también una recta, pero en lugar de estar
referida a las variables originales X e Y, está referida a y a Y.

Hemos visto, cómo, a pesar de ser inicialmente modelos mucho más complejos que
el de una recta, estos tres últimos se reducen al modelo lineal sin más que
transformar adecuadamente los datos de partida.

18
CONCLUSIÓN.

En las industrias es importante la estadística ya que gracias a ella se crean nuevas


mejoras en los productos, es decir se van mejorando según las calificaciones que
le asigne el consumidor, de esta manera buscan la mejora del producto.
La estadística es importante en nuestras vidas tanto que gracias a ellas se crean
nuevos medicamentos, ya que obtienen porcentajes cada día de enfermedades
nuevas que deben ser curadas con medicamentos para cada tipo de enfermedad.

19
REFERENCIAS BIBLIOGRÁFICAS.

 Estadística inferencial II
Raúl Jiménez González.
Agosto 2012.

 WALPOLE, R.; MAYERS, R.H.; MAYERS,


S.L. 1998. Sexta edición.
Probabilidad y Estadística Para Ingenieros.
Pearson Education

 ANDERSON, D.R.; SWEENEY, D.J.; WILLIAMS,


T.A.2005. Octava edición.
Estadística para Administración y Economía.
MATH LEARNING

 BERENSON, M.L.; LEVINE, D.M.; KREHBIEL,


T.C. 2001. Segunda edición.
Estadística para Administración.
Prentice Hall.

20