Está en la página 1de 28

INGENIERÍA INDUSTRIAL

MATERIA:
ESTADISTICA INFERENCIAL

NOMBRE DEL ALUMNO:


ABELARDO GARCIA MARTINEZ

PRODUCTO ACADÉMICO:
• UNIDAD 5: REGRESION LINEAL SIMPLE

DOCENTE:
VELIA DEL PILAR RUBI VALENCIA

FECHA DE ENTREGA:
9-DICIEMBRE-2021
INDICE GENERAL

Introducción 4

5.1 Prueba de hipótesis en la regresión línea simple 5

5.2 Calidad del ajuste en la regresión lineal simple 13

5.3 Estimación y predicción por intervalos en la regresión lineal simple 24

Conclusión 27

Fuentes de información 28
INDICE DE TABLAS Y GRAFICOS

5.1 Prueba de hipótesis en la regresión línea simple 7,10,11,12

5.2 Calidad del ajuste en la regresión lineal simple 15,20,23

5.3 Estimación y predicción por intervalos en la regresión lineal simple 27


INTRODUCION

REGRESIÓN LINEAL SIMPLE

En la práctica, es frecuente que se requiera resolver problemas que implican un conjunto de variables
de las cuales se sabe que tienen alguna relación inherente entre sí. Por ejemplo en una situación
industrial quizá se sepa que el contenido de alquitrán en la corriente de salida de un proceso químico
está relacionado con la temperatura en la entrada; otra situación mas podría marcar que un Gerente
de ventas se ha dado cuenta que la cantidad de llamadas de sus representantes de ventas influyen
significativamente con la cantidad de ventas en el mes. Lo anterior son algunos de tantos supuestos
donde se conoce que existe cierta relación entre las variables, aquí es donde entran dos conceptos
que han sido definidos con anterioridad (ver tema 0 coeficiente de correlación) y que se desea
recalcar, variable independiente y variable dependiente, pendiente de la recta e intersección con y.
Los cuales describiremos brevemente a continuación mediante una ecuación que representará la
Línea de regresión lineal.

´=+ Donde:

Y’= se lee Y prima, es el valor pronosticado de la variable Y la cual es la variable dependiente a = es


la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y cuando X=0, también se
le conoce como valor de offset.

b = es la pendiente de la recta, o el cambio promedio de Y’ por unidad de X X = es cualquier valor


seleccionado de la variable independiente.

De lo anterior en síntesis tenemos la siguiente definición de Ecuación de regresión lineal:

“es una ecuación que define la relación lineal entre dos variables”.

Para resolver el modelo de regresión lineal utilizaremos el método de los mínimos cuadrados, el cual
se define brevemente como: “técnica empleada para obtener la ecuación de regresión, minimizando
la suma de los cuadrados de las distancias verticales entre los valores verdaderos de Y de los valores
Y’ (pronosticados)”. A continuación se describirá brevemente la metodología simplificada del
método de los mínimos cuadrados.

4
Abelardo García 9/12/2021
Prueba de hipótesis en la regresión lineal simple

(UNA PRUEBA DE HIPÓTESIS)

Planteamiento de una hipótesis estadística Una hipótesis estadística es una afirmación sobre los valores de los
parámetros de una población o proceso, que es susceptible de probarse a partir de la información contenida en una
muestra representativa que es obtenida de la población sin embargo hablemos también y no me nos importante.

Estadístico de pruébala hipótesis nula es verdadera mientras no se demuestre lo contrario. El estadístico de prueba es
un número calculado a partir de los datos y la hipótesis nula, cuya magnitud permite discernir si se rechaza o no la H0.
Para probar hipótesis acerca de la pendiente y la ordenada en el origen del modelo de regresión, debe hacerse la
suposición adicional de que
termino del error εi esta normalmente distribuido. Por lo tanto, se supone que los errores εi son NID (0,σ2). Después se
pueden probar es
suposiciones mediante el análisis de residuos.
Supongamos que el experimentador desea probar la hipótesis de que la pendiente es igual a un cierto valor, por ejemplo
β1,0. Las hipótesis
Apropiadas son:
En donde t0 se calcula usando la Ecuación
Puede utilizarse un procedimiento similar para probar hipótesis acerca de la ordenada en el origen. Para probar:

H0: β0 = β0,0

H1: β0 ≠ β0,0
Se usa el estadístico:

5
Abelardo García 9/12/2021
6
Abelardo García 9/12/2021
7
Abelardo García 9/12/2021
8
Abelardo García 9/12/2021
9
Abelardo García 9/12/2021
10
Abelardo García 9/12/2021
11
Abelardo García 9/12/2021
12
Abelardo García 9/12/2021
5.2 Calidad del ajuste en regresión lineal
simple
En la sección anterior estudiamos pruebas de hipótesis para verificar que hay una
relación significativa entre y; sin embargo, no hemos visto si tal relación permite
hacer estimaciones con una precisión aceptable. Por ejemplo, es de interés saber qué
tanta de la variabilidad presente en fue explicada por el modelo, además si se
cumplen los supuestos de los residuos

Coeficiente de determinación Una vez ajustada la recta de regresión a la nube de


observaciones es importante disponer de una medida que mida la bondad del ajuste
realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar
modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de
determinaciónn, definido como sigue

O bien

Como scE < scG, se verifica que 0 < R2 < 1.

El coeficiente de determinación mide la proporción de variabilidad total de la variable


dependiente respecto a su media que es explicada por el modelo de regresión. Es
usual expresar esta medida en tanto por ciento, multiplicándola por cien.
Por otra parte, teniendo en cuenta que i- = 1, se
obtiene

13
Abelardo García 9/12/2021
Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relación lineal que
hay entre ambas variables es el coeficiente de correlación definido por

Donde representa la desviación típica de la variable X (análogamente para ).


Un buen estimador de este parámetro es el coeficiente de correlación lineal muestral (o
coeficiente de correlación de Pearson), definido por

Por tanto, r . Este coeficiente es una buena medida de la bondad del ajuste de la
recta de regresión. Evidentemente, existe una estrecha relación entre r y 1aunque
estos estimadores proporcionan diferentes interpretaciones del modelo:

14
Abelardo García 9/12/2021
* r es una medida de la relación lineal entre las variables X e Y.
* 1 mide el cambio producido en la variable Y al realizarse un cambio de una unidad
en la variable X.
De las definiciones anteriores se deduce que:

Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que el


modelo de regresión lineal es significativo. Desafortunadamente la distribución de r es
complicada pero para tamaños muestrales mayores que 30 su desviación típica es
1/ , y puede utilizarse la siguiente regla

En la interpretación del coeficiente de correlación se debe tener en cuenta que:


· r = ±1 indica una relación lineal exacta positiva (creciente) o negativa (decreciente),

· r = 0 indica la no existencia de relación lineal estocástica, pero no indica


independencia de las variables ya que puede existir una relación no lineal incluso
exacta,
· valores intermedios de r (0 < r < 1 ó -1 < r < 0) indican la existencia de una relación
lineal estocástica, más fuerte cuanto más próximo a +1 (ó -1) sea el valor de r.

Para poder interpretar con mayor facilidad el coeficiente de correlación muestral se


exponen varias nubes de observaciones y el ajuste lineal obtenido:

Figura 6.7. Existe una dependencia funcional lineal, las observaciones están sobre la
recta de regresión. r = R2 = 1, recta de regresión

Dependencia funcional lineal


Coeficiente de determinación ajustado

El coeficiente de determinación o coeficiente de correlación múltiple al


cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del
modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define

15
Abelardo García 9/12/2021
como el cociente entre la variabilidad explicada por la regresión y la variabilidad total,
esto es:

algunas otras formas de presentar el coeficiente de determinación son:

Algunas de las equivalencias anteriores pueden verse a partir de la

demostración de .

Coeficiente de correlación . Es bien conocido que el coeficiente de correlación, , mide la intensidad


de la relación lineal entre dos variables Si se tiene pares de datos de la forma ( , entonces este
coeficiente se obtiene de la siguiente manera
Se puede ver que ; si es próximo a , entonces tendremos una relación lineal negativa fuerte, y
si es próximo a cero, entonces diremos que no hay correlación lineal, y finalmente se es próximo a ,
entonces tendremos una relación lineal positiva fuerte. Por ejemplo, para los datos de la resistencia de
la pulpa (tabla 1.1), el coeficiente de correlación es;

Error estándar de estimación


El error estándar cuantifica4 las oscilaciones de la media muestral (media obtenida en los
datos) alrededor de la media poblacional (verdadero valor de la media). El EEM o SEM se
estima generalmente dividiendo la desviación estándar de la población entre la raíz cuadrada
del tamaño de la muestra (asumiendo independencia estadística de los valores en la muestra):

Donde

s es la desviación estándar (es decir, la estimación basada en la muestra de la


desviaciónj estándar de la población

16
Abelardo García 9/12/2021
n es el tamaño (número de individuos de la muestra)
Esta estimación puede ser comparada con la fórmula de la verdadera desviación
estándar de la media de la muestra:

donde σ es la verdadera desviación estándar de la

población.
Esta fórmula puede alcanzarse desde lo que ya conocemos sobre la varianza de la suma
de variables independientes aleatorias.5

• Si son observaciones independientes de una población que tiene una


media y una desviación estándar , entonces la varianza del total is

• La debe ser varianza de

• Y la debe ser desviación estándar


.

17
Abelardo García 9/12/2021
Análisis de residuos. Gráficos.

Como se ha indicado anteriormente, el análisis de los residuos es básico para


chequear si se verifican las hipótesis del modelo de regresión. Por ello, a continuación
se exponen las propiedades matemáticas de los mismos. Considérese el modelo de
regresión lineal múltiple

Los residuos mínimo-cuadráticos vienen dados por


o en
forma matricial

Como = H , siendo H = X -1Xt la matriz de proyección ortogonal. Es fácil probar


que la matriz H es idempotente y simétrica . En base a esto

El gráfico de dispersión matricial, de todas las variables del modelo (respuesta y


regresoras). En el estudio de un modelo de regresión lineal múltiple es el primer gráfico que
se debe observar. Proporciona una primera idea de la existencia de relación lineal o de otro
tipo entre la respuesta y las regresoras y también da una ideade posibles relaciones lineales
entre las variables regresoras, lo que crea problemas de multicolinealidad

18
Abelardo García 9/12/2021
Calidad del ajuste en regresión lineal simple
En la sección anterior estudiamos pruebas de hipótesis para verificar que hay una
relación significativa entre X y Y; sin embargo, no hemos visto si tal relación
permite hacer estimaciones con una precisión aceptable. Por ejemplo, es de
interés saber qué tanta de la variabilidad presente en Y fue explicada por el
modelo, además si se cumplen los supuestos de los residuos.

Coeficiente de determinación R^2.

Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el
modelo se ajustó a los datos. En el caso de la regresión lineal simple esto se
distingue al observar si los puntos tienden a ajustarse razonablemente bien a la
línea recta (véase la figura 1.3). Pero otro criterio más cuantitativo es el que
proporciona el coeficiente de determinación, el cual está definido por:

Es claro que . En general se interpreta como la proporción de la


variabilidad en los datos (Y) que es explicada por el modelo. En el caso de los
datos dela resistencia de la pulpa tenemos

Por lo tanto, podemos decir que 93% de la variación observada en la resistencia


es explicada por el modelo (línea recta), lo cual nos dice que la calidad del ajuste
es satisfactorio, y que por ello, la relación entre X y Y es descrita adecuadamente
por una línea recta.

Nota. El resultado arrojado por Excel o Minitab, incluye el análisis de varianza para
el modelo de regresión simple cuyo cuadro sintético es el siguiente:

19
Abelardo García 9/12/2021
Coeficiente de determinación ajustado . Este coeficiente se calcula de la
siguiente manera:

Donde el cuadrado medio tota, , se obtiene al dividir la suma de


cuadrados total, , entre sus grados d libertad. Cuando hay muchos términos en
un modelo, el estadístico se prefiere en lugar de , puesto que este último es

20
Abelardo García 9/12/2021
engañoso al incrementarse en forma artificial con cada término que se agrega al
modelo, aunque sea un término que no contribuya en nada a la explicación de la
respuesta. En cambio, el incluso baja de valor cuando el término que se
agrega no aporta nada.

Se cumple que . En general, para fines de predicción se


recomienda un coeficiente de determinación ajustado de al menos 0,7.En el caso
de los datos de la resistencia de la pulpa, el coeficiente de determinación ajustado
está dado por:

Estimación y predicción por intervalo en regresión lineal simple

Una de las aplicaciones más importantes en un análisis de regresión es hacer


estimaciones de la respuesta media para un valor dado de X. En el caso particular
de la regresión lineal simple, sabemos que un estimador puntual de la respuesta
media lo da la recta de regresión:

Además de esto, en ocasiones es de interés obtener una estimación por intervalos


para a partir de cualquier valor de X, para lo cual aplicamos la siguiente ecuación:

A este intervalo se le conoce como intervalo para la recta de regresión. Note que
su amplitud depende del y de la distancia entre y . La amplitud
es mínima cuando y se incrementa conforme se hace más
grande. Para ilustrar lo anterior consideremos el modelo ajustado a los datos del
ejemplo dela resistencia de la pulpa (tabla 1.1), y obtenemos el intervalo de
confianza para la respuesta media en = 12 (porcentaje de fibra)

Primeramente calculemos el estimador puntual par cuando = 12, está dado por

y un intervalo de confianza al 95% para

21
Abelardo García 9/12/2021
De aquí que el intervalo de confianza para la respuesta media en = 12 está dada
por:

demás de la estimación puntual para la pendiente y la ordenada al origen,


, es posible obtener estimaciones de los intervalos de confianza para estos
parámetros. La anchura de estos intervalos de confianza es una medida de la
calidad global de la recta de regresión. Si los términos del error, del modelo de
regresión tienen una distribución normal e independiente, entonces tienen ambos
una distribución igual a la de una variable aleatoria
Grados de libertad. Esto lleva a la siguiente definición de los intervalos de
confianza del para la pendiente y la ordenada al origen.

En el caso del intervalo de confianza para la pendiente de los datos del porcentaje
de fibra tenemos

Por lo que pendiente de forma puntual es 1,6242, y por intervalos con un 95%
denivel de confianza tenemos que esta se encuentra entre 1,3442 y 1,9042

22
Abelardo García 9/12/2021
Ejercicios1.- En un artículo se presentaron los datos de la concentración del licor
verde , y la producción de una máquina papelera . Los datos se
muestran en la tabla siguiente

a) Encuentre un intervalo de confianza de 99% para


b) La concentración media de cuando la producción es
/día
c) Encuentre un intervalo de predicción de 99% para la concentración de
cuando /día
2.- Remítase a los datos del ejercicio 3 (de la sección anterior) para
intrínseca del concreto y
a la compresión.
Encuentre un intervalo de confianza de 95% para: a) la pendiente b) la ordenada
al origen c) la permeabilidad media cuando
d) Encuentre un intervalo de predicción 95% para la permeabilidad cuando

3.- En el ejercicio 4 se presentaron los datos de la temperatura superficial de una


carretera x y la deflexión del pavimento y. Encuentre un intervalo de confianza de
99% para:

a) la pendiente
b) la ordenada al origen
c) la deflexión media cuando la temperatura es
d) Encuentre un intervalo de predicción de 99% para la deflexión del pavimento
cuando la temperatura es de .

23
Abelardo García 9/12/2021
24
Abelardo García 9/12/2021
25
Abelardo García 9/12/2021
26
Abelardo García 9/12/2021
CONCLUSIÓN

PROFESIONAL

A nosotros como futuros ingenieros conocer estos términos es de mucha ayuda

ya que en la industria con mucha frecuencia es necesario resolver problemas

que implican conjuntos de variables, cuando se sabe que existe alguna relación

inherente entre ellas. A partir de lo anterior, es necesario establecer modelos

que expliquen dicha relación.

PERSONAL

El análisis de regresión lineal constituye métodos que se emplean para conocer

las relaciones y significación entre series de datos, es de suma importancia

para la industria ya que es aquí en donde.se presentan variables de respuesta

e independientes las cuales interactúan para originar las características de un

proceso en particular y por ende, analizar, predecir valores de la variable

dependiente y examinar el grado de fuerza con que se relacionan dichas

variables,

27
Abelardo García 9/12/2021
FUENTES DE INFORMACION

https://vbook.pub/download/52-calidad-del-ajuste-en-regresion-lineal-simple-r2r318z6v426

https://www.academia.edu/32341685/Calidad_del_ajuste_en_regresi%C3%B3n_lineal_simple

https://es.scribd.com/document/457668196/5-2-Calidad-del-ajuste-en-regresion-lineal-simple

http://www.spentamexico.org/v7-n3/7(3)67-81.pdf

https://www.uv.es/ceaces/pdf/intervalos.pdf

28
Abelardo García 9/12/2021

También podría gustarte