Está en la página 1de 20

TEMA V.

REGRESIÓN LINEAL SIMPLE

AUTOR: GONZÁLEZ FRÍAS OMAR

TECNOLÓGICO NACIONAL DE MEXICO


INSTITUTO TECNOLÓGICO IZTAPALAPA II

INGENIERÍA EN LOGÍSTICA
3ER SEMESTRE

PROFESOR: RAFAEL RUIZ CASTILLO


Tabla de contenido
INTRODUCCIÓN ................................................................................................................................................................... 3
5.0 REGRESION LINEAL SIMPLE. ........................................................................................................................................... 4
IMPLEMENTACIÓN EN LOGÍSTICA: ................................................................................................................................... 6
5.1 PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL SIMPLE. ............................................................................................. 7
EJERCICIO DE PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL SIMPLE. ......................................................................... 9
5.2 CALIDAD DEL AJUSTE EN REGRESIÓN LINEAL SIMPLE. ................................................................................................. 11
EJERCICIO DE CALIDAD DEL AJUSTE EN REGRESIÓN LINEAL SIMPLE. .................................................................................. 12
5.3 ESTIMACIÓN Y PREDICCIÓN POR INTERVALO EN REGRESIÓN LINEAL SIMPLE ............................................................. 13
Glosario.............................................................................................................................................................................. 16
CONCLUSIÓN...................................................................................................................................................................... 18
BIBLIOGRAFIA ...................................................................................................................................................................... 2

2
INTRODUCCIÓN.

Bienvenido a la exploración fascinante de la estadística inferencial, un campo que trasciende la


mera descripción de datos para extraer conclusiones valiosas sobre poblaciones a partir de muestras.
En este trabajo de investigación, nos sumergiremos en los pilares fundamentales de la estadística
inferencial, destacando tres temas esenciales: las pruebas de hipótesis, que nos permiten realizar
afirmaciones respaldadas por evidencia; la estimación por intervalos, que arroja luz sobre los
parámetros poblacionales desconocidos; y la regresión, una herramienta poderosa para modelar y
entender relaciones entre variables. A medida que desentrañamos estos conceptos, exploraremos su
aplicabilidad, limitaciones y el papel crucial que desempeñan en la toma de decisiones basada en
datos. Listos para embarcarnos en un viaje de descubrimiento estadístico, donde la inferencia se
convierte en la brújula que guía nuestro entendimiento del mundo a través de la evidencia numérica.

En este viaje, también exploraremos la incertidumbre inherente en la inferencia estadística,


desafiando la idea de certeza absoluta y abrazando la variabilidad inherente a los datos. Analizaremos
cómo las pruebas de hipótesis actúan como guardianes de nuestras afirmaciones, proporcionando un
marco sólido para la toma de decisiones. Además, nos sumergiremos en la construcción de intervalos
de confianza, revelando la cautela necesaria al generalizar hallazgos de una muestra a toda una
población.

A medida que profundizamos, examinaremos la conexión entre la estadística inferencial y la


ciencia de datos, subrayando su papel en la validación de modelos y la interpretación de resultados. No
solo nos limitaremos a fórmulas y técnicas, sino que también reflexionaremos sobre la interpretación de
los resultados, reconociendo la delicada danza entre la significancia estadística y la relevancia práctica.

Así que, acompáñanos en este periplo por los intrincados caminos de la estadística inferencial,
donde cada prueba, intervalo y modelo nos acerca un paso más a desentrañar los misterios que yacen
detrás de los datos, transformando lo incierto en conocimiento sólido y aplicable. ¿Preparados para
explorar el fascinante mundo de la inferencia estadística?

3
5.0 REGRESION LINEAL SIMPLE.

Regresión lineal simple es un conjunto de técnicas que son usadas para establecer una relación
entre una variable cuantitativa llamada variable dependiente y una o más variables independientes
llamadas variables predictoras.

Las variables independientes también deberían ser cuantitativas, sin embargo, es permitido que
algunas de ellas sean cualitativas. La ecuación que representa la relación es llamada el modelo de
regresión. Si todas las variables independientes fueran cualitativas entonces el modelo de regresión se
convierte en un modelo de diseños experimentales.

Los modelos de regresión lineal simple son relativamente sencillos y proporcionan una fórmula
matemática fácil de interpretar que puede generar predicciones. Esta puede aplicarse a varias áreas de
la empresa y de los estudios académicos.

La Regresión Lineal Simple es una técnica paramétrica utilizada para predecir variables
continuas, dependientes, dado un conjunto de variables independientes. Es de naturaleza paramétrica
porque hace ciertas suposiciones basadas en el conjunto de datos. Si el conjunto de datos sigue esas
suposiciones, la regresión arroja resultados increíbles, de lo contrario, tiene dificultades para
proporcionar una precisión convincente.

La regresión lineal simple proporciona la línea que “mejor” se ajusta a los datos. Esta línea se
puede para: Examinar cómo cambia la variable de respuesta a medida que cambia la variable
predictora. Predecir el valor de una variable de respuesta (Y) para cualquier variable predictora (X).
Matemáticamente, la regresión lineal simple usa una función lineal para aproximar o predecir la
variable dependiente, esta está dada como:

4
Donde:

 Y – es la variable dependiente o la variable para predecir.

 A – es la pendiente o el valor que debe ser determinado, se le conoce como coeficiente y


es una especie de magnitud de cambio que pasa por y cuando x cambia.

 X – es la variable independiente o la variable que usamos para hacer una predicción.

 B – es la constante que debe ser determinada, se le conoce como intercepción porque


cuando x es igual a 0, entonces y = b.

El objetivo de un modelo de regresión lineal simple es tratar de explicar la relación que existe
entre una variable dependiente (variable respuesta) Y un conjunto de variables independientes
(variables explicativas).

En un modelo de regresión lineal simple tratamos de explicar la relación que existe entre la
variable respuesta Y y una única variable explicativa X.

Esta forma de análisis estima los coeficientes de la ecuación lineal, involucrando una o a más
variables independientes que mejor predicen el valor de la variable dependiente. La regresión lineal se
ajusta a una línea recta o a una superficie que minimiza las discrepancias entre los valores de salida
previstos y reales.

Mediante las técnicas de regresión de una variable Y sobre una variable X, buscamos una
función que sea una buena aproximación de una nube de puntos y esto se realiza mediante una gráfica
que lleva el nombre de gráfica de dispersión.

Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de regresión.


Consta de una dispersión de puntos tal que cada punto representa un valor de la variable
independiente (medido a lo largo del eje horizontal), y un valor asociado de la variable dependiente
(medido a lo largo del eje vertical). El diagrama de dispersión permite analizar si existe algún tipo de
relación entre dos variables.

5
IMPLEMENTACIÓN EN LOGÍSTICA:

En el ámbito logístico, la regresión lineal simple puede aplicarse para analizar cómo variables
como el tiempo de entrega o la distancia recorrida (X) impactan en la eficiencia operativa o los costos
(Y). La identificación de estas relaciones puede mejorar la planificación logística y la toma de
decisiones estratégicas.

Es importante destacar que, mientras que la regresión lineal simple es poderosa para modelar
relaciones lineales, en situaciones más complejas donde la relación es no lineal, la regresión logística
podría ser más apropiada. La regresión logística se emplea para problemas de clasificación, donde la
variable dependiente es binaria (sí/no, 0/1). Por ejemplo, predecir si un cliente realizará una compra (1)
o no (0) basándose en variables predictoras como el historial de compras o la edad.

En resumen, la regresión lineal simple es una herramienta valiosa para explorar y entender
relaciones lineales entre variables, siendo aplicable en diversos campos, incluyendo la logística,
mientras que la regresión logística se destaca en problemas de clasificación. Ambas técnicas
desempeñan un papel crucial en el análisis estadístico y la toma de decisiones basada en datos.

6
5.1 PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL SIMPLE.

Una hipótesis estadística en la regresión lineal simple es una afirmación sobre los valores de los
parámetros de una población o proceso, que es susceptible de probarse a partir de la información
contenida en una muestra representativa que es obtenida de la población sin embargo hablemos
también y no me nos importante.

En el estadístico de prueba la hipótesis nula es verdadera mientras no se demuestre lo


contrario. El estadístico de prueba es un número calculado a partir de los datos y la hipótesis nula,
cuya magnitud permite discernir si se rechaza o no la H0.

H0: p = 0.08 ← Hipótesis Nula

HA p < 0.08 ← Hipótesis Alternativa

Para probar hipótesis acerca de la pendiente y la ordenada en el origen del modelo de


regresión, debe hacerse la suposición adicional de que término del error ·i esta normalmente
distribuido. Por lo tanto, se supone que los errores ·i son NID (0,Ã2). Después se pueden probar es
suposiciones mediante el análisis de residuos.

Supongamos que el experimentador desea probar la hipótesis de que la pendiente es igual a un

cierto valor, por ejemplo, β1,0. Las hipótesis apropiadas son:

En donde t0 se calcula usando la Ecuación

Puede utilizarse un procedimiento similar para probar hipótesis acerca de la ordenada en el


origen. Para probar.

H0: β0 = β0,0 H1: β0 ≠ β0,0

Se usa el estadístico:

7
se rechaza la hipótesis nula si:

Un caso especial muy importante de la hipótesis

H0: β1 = 0 H1: β1 ≠ 0

Esta hipótesis se relaciona con la significación de la regresión. No rechazar H0:β1=0 equivale a


concluir que no existe una relación lineal entre y. En muchos casos esto puede indicar que no hay una
relación causal entre x y y, o que la relación real no es lineal. El procedimiento para probar H0β1 = 0 se
puede deducir usando dos enfoques. El primo consiste en descomponer la suma total de cuadrados
corregida de y:

Los dos componentes de Syy miden, respectivamente, la variabilidad de yi explicada por la recta
de regresión y la variación residual, no explica por la recta de regresión:

Se conoce como la suma de cuadrados del error o residual y:

8
EJERCICIO DE PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL SIMPLE.

Supongamos que el experimentador desea probar la hipótesis de que la pendiente es igual a un


cierto valor, por ejemplo 𝛽 1,0 Las hipótesis Apropiadas son:

𝐻1 : 𝛽1 ≠ 𝛽1,0 𝐻0 : 𝛽1 = 𝛽1,0

En donde t0 se calcula usando la Ecuación.

Puede utilizarse un procedimiento similar para probar hipótesis acerca de la ordenada en el


origen. Para probar

𝐻0 : 𝛽0 = 𝛽0,0 𝐻1 : 𝛽0 ≠ 𝛽0,0

(Ꞵ0 −𝛽0,0 )
Se usa el estadístico: 𝑡0 =
̅̅̅̅
2
√𝑀𝑆𝐸 ( 1 + 𝑥 )
𝑛 𝑆𝑥𝑥

Y se rechaza la hipótesis nula si |𝑓0 | > 𝑓𝑎,𝑛−2


2

Un caso muy especial de la hipótesis

𝐻0 : 𝛽1 = 0 𝐻1 : 𝛽1 ≠ 0

Esta hipótesis se relaciona con la significación de la regresión. No rechazar H0: B1=0 equivale a
concluir que no existe una relación lineal entre y: En otras palabras, el mejor estimado de yi para
cualquier valor de xj es yi= En muchos casos esto puede indicar que no hay relación.

Causal entre x y y, o que la relación real no es lineal. El procedimiento para probar H0B1=0 se
puede deducir usando dos enfoques. El primo consiste en descomponer la suma total de cuadrados
corregida de y:

Los dos componentes de Syy miden, respectivamente, la variabilidad de yi explicada por la recta
de regresión y la variación residual, no explica.
9
Por la recta de regresión.

se conoce como la suma de cuadrados del error residual y

Denomina suma de cuadrados de regresión. Por lo tanto, la ecuación se transforma en:

Syy=SSR+SSE

De la ecuación. 𝑆𝑆𝐸 = 𝑆𝑆𝑌𝑌 − 𝐵1 𝑆𝑋𝑌

Se obtiene que la fórmula para calcular SSR es: 𝑆𝑆𝑅 = 𝐵1 𝑆𝑥𝑦

10
5.2 CALIDAD DEL AJUSTE EN REGRESIÓN LINEAL SIMPLE.
La calidad del ajuste en regresión lineal simple se centra en evaluar cuán bien el modelo se
adapta a los datos observados. Aquí están los elementos clave relacionados con esta evaluación:

 Coeficiente de Determinación (R^2): El (R^2) es una métrica fundamental que indica la


proporción de variabilidad en la variable dependiente (Y) que es explicada por la variable
independiente (X).

Varía entre 0 y 1, donde 1 indica un ajuste perfecto y 0 sugiere que el modelo no explica
ninguna variabilidad.

 Interpretación de (R^2): Un \(R^2\) alto implica que una gran parte de la variación en la variable
dependiente está siendo capturada por el modelo, lo que sugiere una mejor calidad de ajuste.
Sin embargo, (R^2) no indica la dirección o forma de la relación, solo cuánta variabilidad se
explica.

 Limitaciones de (R^2): (R^2) puede sobrevalorarse en modelos con muchas variables


predictoras. No revela si la relación es lineal o no.

 Análisis Residual: Los residuos (diferencias entre los valores observados y predichos)
proporcionan información sobre la calidad del ajuste.

Un patrón sistemático en los residuos puede indicar que el modelo no captura completamente la
estructura de los datos.

 Pruebas Adicionales: Pruebas estadísticas como la prueba F pueden proporcionar más


información sobre si el modelo en su conjunto es significativo. Pruebas de normalidad de los
residuos y homocedasticidad (constancia de la varianza de los residuos) también son
consideraciones importantes.

Evaluar la calidad del ajuste es crucial para determinar la utilidad y confiabilidad del modelo de
regresión lineal simple. El \(R^2\) y el análisis de residuos ofrecen una visión integral de la eficacia del
modelo en describir y predecir la relación entre las variables.

11
EJERCICIO DE CALIDAD DEL AJUSTE EN REGRESIÓN LINEAL SIMPLE.
En la sección anterior estudiamos pruebas de hipótesis para verificar que hay una relación
significativa entre y; sin embargo, no hemos visto si tal relación permite hacer estimaciones con una
precisión aceptable. Por ejemplo, es de interés saber qué tanta de la variabilidad presente en fue
explicada por el modelo, además si se cumplen los supuestos de los residuos.

Coeficiente de determinación Una vez ajustada la recta de regresión a la nube de observaciones


es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si
el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del
ajuste se utiliza el coeficiente de determinación, definido como sigue

O bien

Como scE < scG, se verifica que 0 < R2 < 1.

El coeficiente de determinación mide la proporción de variabilidad total de la variable


dependiente respecto a su media que es explicada por el modelo de regresión. Es usual expresar
esta medida en tanto por ciento, multiplicándola por cien.

Por otra parte, teniendo en. cuenta que: i - = 1, se obtiene

Dadas dos variables aleatorias cualesquiera X e Y, una medida de la relación lineal que hay
entre ambas variables es el coeficiente de correlación definido por

Donde representa la desviación típica de la variable X (análogamente para ). Un buen


estimador de este parámetro es el coeficiente de correlación lineal muestral (o coeficiente de correlación
de Pearson), definido por

12
Por tanto, r

Este coeficiente es una buena medida de la bondad del ajuste de la recta de regresión.
Evidentemente, existe una estrecha relación entre r y 1aunque estos estimadores proporcionan
diferentes interpretaciones del modelo.

5.3 ESTIMACIÓN Y PREDICCIÓN POR INTERVALO EN REGRESIÓN LINEAL SIMPLE


Una de las aplicaciones más importantes en un análisis de regresión es hacer estimaciones de
la respuesta media para un valor dado de X. En el caso particular de la regresión lineal simple,
sabemos que un estimador puntual de la respuesta media lo da la recta de regresión:

Los parámetros del modelo lineal se estiman a través del método de mínimos cuadrados.
Llamamos β o ˆ y 1 βˆ a los estimadores de mínimos cuadrados de β o y β1, para obtenerlos no es
necesario hacer los supuestos 1,2 y 4, sólo el de LINEALIDAD.

Β o ˆ es un estimador insesgado de β o.

1 βˆ es un estimador insesgado de β1.

Esto significa que:

Β o ˆ tiene una distribución de muestreo con media βo y ♦ 1 βˆ tiene una

Distribución de muestreo con media β1.

Un intervalo de confianza de nivel (1 – α) para el parámetro β1 (pendiente de la

Recta de regresión poblacional) está dado por:

13
En estadística, la probabilidad que asociamos con una estimación de intervalo se conoce como
el nivel de confianza. Esta probabilidad nos indica que tanta confianza tenemos en que la estimación
del intervalo incluya al parámetro de la población. Una probabilidad más alta significa más confianza.

El intervalo de confianza es el alcance de la estimación que estamos haciendo, pero a menudo


hacemos el intervalo de confianza en términos de errores estándar, para esto debemos calcular el error
estándar de la media así:

Para estimar la línea de regresión poblacional a partir de la nube de puntos se utiliza el método de
los mínimos cuadrados ordinarios (MCO), que considera como recta que mejor se ajusta a la que
minimiza la suma de los cuadrados de los residuos.

Si la recta de mejor ajuste es los errores o residuos se definen como:

y los estimadores por MCO de la ordenada en el origen, , y de la pendiente, , son:

Para evaluar la bondad del ajuste se calcula el coeficiente de determinación R2 y, para medir la

14
dispersión de los puntos alrededor de la recta estimada, el error típico de la estimación Su. Estas
medidas se definen como:

Donde SCT o suma total de cuadrados es la variación total de Y en la muestra y SCR o suma de
cuadrados de la regresión es la parte de la variación total explicada por la recta ajustada. Por lo tanto,
R2 indica la proporción de variación total explicada mediante la relación lineal entre X e Y, y toma
valores entre 0 y 1. Un valor de R2 próximo a 1 indica que la recta ajustada es un buen modelo para
explicar el comportamiento de la variable Y, y por lo tanto existe relación lineal entre X e Y. Por el
contrario, un valor próximo a 0 indica que la recta ajustada no explica la variación observada en Y.

Para establecer el intervalo de confianza para la pendiente de la recta de regresión,

, y contrastar si el valor de este parámetro es o no significativamente diferente a cero es


necesario calcular el error típico de b que se define como:

El estadístico de prueba del contraste es que presenta una distribución de probabilidad t


de Student con n-2 grados de libertad.

15
Glosario
Variable: Magnitud que puede tener un valor cualquiera de los comprendidos en un conjunto.

Estimación: La estimación es la determinación de un elemento o factor. Esto, usualmente


tomando como referencia una base o conjunto de datos.

Hipótesis: Es la transformación de las hipótesis de investigación, nulas y alternativas en


símbolos estadísticos. Se pueden formular solamente cuando los datos del estudio que se van a
recolectar y analizar para aprobar o desaprobar las hipótesis son cuantitativos.

Binomial: Es una distribución de probabilidad discreta que describe el número de éxitos al


realizar n experimentos independientes entre sí, acerca de una variable aleatoria.

Predicción: La predicción en estadística es el anuncio de lo que se espera que pueda suceder.


Es un elemento importante de las ciencias, en general, pues permiten iniciar experimentos y contrastar
el hecho esperado con la realidad.

Estimación: La estimación es la determinación de un elemento o factor. Esto, usualmente


tomando como referencia una base o conjunto de datos.

Intervalo: Es cada uno de los rangos de valores en que se ha decidido agrupar parcialmente los
datos con el propósito de hacer un resumen de ellos.

Rango: Es el intervalo entre el valor máximo y el valor mínimo; por ello, comparte unidades con los
datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, aún más
dispersos están los datos (sin considerar la afectación de los valores extremos).

Contraste: Es un tipo de modelo utilizado en inferencia estadística cuyo objetivo es comprobar si


una estimación se adapta a los valores poblacionales

16
17
CONCLUSIÓN.
La regresión lineal simple se revela como una herramienta estadística poderosa con aplicaciones
diversificadas en la modelización de relaciones entre variables. A través de la prueba de hipótesis,
obtenemos una ventana crítica para evaluar la significancia de estas relaciones, fundamentando
nuestras afirmaciones con evidencia estadística. La calidad del ajuste, medida por el \(R^2\) y el
análisis de residuos, proporciona un lente adicional para examinar la eficacia del modelo en explicar la
variabilidad observada.

En este viaje estadístico, descubrimos que la regresión lineal simple no solo desentraña relaciones
numéricas, sino que también sirve como una brújula confiable para la toma de decisiones informada.
Ya sea en la predicción de ventas, la optimización logística o la comprensión de fenómenos complejos,
la regresión lineal simple se erige como un cimiento sólido en el análisis de datos. Su utilidad
trasciende disciplinas, brindando un marco robusto para transformar la incertidumbre en conocimiento
cuantitativo, empoderando así la toma de decisiones basada en datos en el mundo moderno.

18
1

1 19
2

BIBLIOGRAFIA
iChávez, E. A. (13 de Julio de 2017). Regresión Lineal. Obtenido de Regresión Lineal Simple:
https://es.scribd.com/document/318230107/Regrecion-lineal- pdf

Minitab 18. (10 de Agosto de 2019). Minitab.com. Obtenido de ¿Qué es una prueba de hipótesis?:
https://support.minitab.com/es-mx/minitab/18/help- and-how-to/statistics/basic-
statistics/supporting-topics/basics/what-is-a- hypothesis-test/

Ríos, A. (21 de Agosto de 2019). SCRIBD. Obtenido de Unidad 5 Estadistica Inferencial 1:


https://es.scribd.com/document/422706251/Unidad-5- Estadistica-Inferencial-1

Ríos, J. (22 de Abril de 2020). SCRIBD. Obtenido de Estimación y Predicción Por Intervalo en
Regresión Lineal: https://es.scribd.com/document/457667697/5-3-Estimacion-y-prediccion- por-
intervalo-en-regresion-lineal-simple

Tun, S. (2017). StuDocu. Obtenido de Unidad 5 estadistica inferencial: https://www.studocu.com/es-


mx/document/universidad- iberomexicana/conocimiento-de-la-infancia/unidad-5-estadistica-
inferencial/10490130

Universidad de Guanajuato. (29 de Marzo de 2018). NODO Universitario. Obtenido de Unidad didáctica
3: Las pruebas de hipótesis: https://blogs.ugto.mx/enfermeriaenlinea/unidad-didactica-3-las-
pruebas-de- hipotesis/

20

También podría gustarte