Está en la página 1de 33

REGRESIÓN LINEAL

MÚLTIPLE
UNIDAD 1 “REGRESIÓN LINEAL MÚLTIPLE”
MATERIA: “ESTADÍSTICA INFERENCIAL 2”
1.1 Regresión lineal múltiple.
1.1.1 Pruebas de hipótesis en regresión lineal múltiple.
1.1.2 Intervalos de confianza y predicción en regresión múltiple.
1.1.3 Uso de un software estadístico
1.1.1 Pruebas de hipótesis en regresión lineal múltiple.
¿qué es una hipótesis?

Una hipótesis en estadística es una afirmación sobre los valores de los parámetros
de una población o de un proceso. Esta población o proceso va a ser susceptible a
probarse a partir de información contenida en una muestra representativa que es
obtenida de la población.
En la regresión lineal múltiple vamos a tener dos tipos de hipótesis:

Hipótesis nula (H0): se deriva del hecho que comúnmente se plantea como una
igualdad. La estrategia que se debe seguir para probar una hipótesis es suponer
primero que la hipótesis nula es verdadera. Y en caso de ser rechazada por la
evidencia que aportan ciertos datos se aceptará la hipótesis alternativa que es
nuestro segundo tipo de hipótesis y se representa con HA.
En otras palabras,
“La hipótesis nula es verdadera mientras no se demuestre lo contrario”
Para esto nosotros debemos utilizar el estadístico de prueba que es un número
calculado a partir de los datos la hipótesis nula, cuya magnitud permite discernir si
se rechaza o no esta hipótesis.
¿Cómo se calcula una ANOVA y la información que esta proporciona con respecto
al análisis de regresión?
El Análisis de la Varianza (ANOVA) es una técnica estadística que se utiliza para
comparar la media de tres o más grupos y determinar si existen diferencias
significativas entre ellas.
Con respecto al análisis de regresión podemos conocer el “efecto que una o varias
variables pueden causar sobre otra y predecir en mayor o menor grado valores de
una variable a partir de otra”
ANOVA (Análisis de la varianza)
Es importante conocer dos aspectos relevantes en el ANOVA en la regresión lineal
múltiple.
El primero de ellos es que el ANOVA es una generalización de la
prueba de student. Entonces, el conocimiento de la distribución
de los estimadores del coeficiente individual facilita al
experimentador construir intervalos de confianza de los
coeficientes y hacer pruebas de hipótesis acerca de ellos. Para
entender esto, nosotros debemos recordar que, en este
estadístico nosotros tenemos bj, donde bj va desde 0, 1, 2, hasta
infinito. Esto se distribuye en forma norma con media de βj y
varianza cjj de esta manera se puede utilizar este estadítico “t”,
con n menos k menos 1 grado de libertad para probar hipótesis y
probar intervalos de confianza sobre βj. Esto es, si queremos
probar la hipótesis nula o en su caso la hipótesis alternativa, que
ya se tienen planteadas, se calcula el estadístico t y no se rechaza
h0 si se cumple este criterio, recordando que este estadístico
tiene n-k menos 1 grado de libertad
El segundo aspecto es que en la ANOVA se debe utilizar la distribución F de Fisher.
Esta distribución de Fisher (Esta es la distribución de probabilidad de la razón de
dos varianzas provenientes de dos poblaciones diferentes. Por medido de esta
distribución es posible determinar la probabilidad de ocurrencia de una razón
especifica con v1=n1-1 y v2=n2-1 grados de libertad en muestras de tamaño n1 y
n2.) utiliza un criterio de aceptación. Estos criterios son:
1.1.2 Intervalos de confianza y predicción en regresión múltiple.
Intervalo de predicción: Proporciona un rango de valores probables para una
respuesta individual.
Intervalo de confianza de la predicción. Proporciona un rango de valores probables
para la respuesta media.
¿Cuándo se utiliza el intervalo de predicción?
Los intervalos de predicción se usan comúnmente como definiciones de rangos de
referencia, como los utilizados en los exámenes de sangre comunes para dar una
idea de si un examen de sangre es normal o no.
Los intervalos de confianza nos permiten aproximar, una vez calculado el valor de la
variable en la muestra, entre qué rango de valores se encuentra el valor real
inaccesible de la variable en la población, con un grado de incertidumbre que
podemos determinar.
Regresión lineal múltiple.
Estudia la relación de una variable dependiente, llamada y, con dos o mas variables
independientes (x1, x2, …, xk)
La forma general de una ecuación múltiple es:

Donde:
= valor estimado de la variable dependiente y
= Intersección
= son estimadores muestrales de los coeficientes de las variables independientes
= son las variables independientes
El análisis de Regresión lineal múltiple.
La regresión lineal múltiple es una técnica estadística diseñada para explorar
la relación entre dos o más variables (X e Y). Es útil para identificar factores
importantes (X,) que afectarán una variable dependiente (Y) y la naturaleza
de la relación entre cada uno de los factores y la variable dependiente.
Un modelo de regresión lineal múltiple es un modelo estadístico versátil para
evaluar las relaciones entre un destino continuo y los predictores.
Los predictores pueden ser campos continuos, categóricos o derivados, de
modo que las relaciones no lineales también estén soportadas. El modelo es
lineal porque consiste en términos de aditivos en los que cada término es un
predictor que se multiplica por un coeficiente estimado. El término de
constante (intercepción) también se añade normalmente al modelo.
¿Cómo puede ser útil la regresión lineal múltiple para el análisis empresarial?
Si consideramos los casos de uso siguientes, podemos ver el valor del análisis de regresión
lineal múltiple.
• Caso de uso – 1
Problema empresarial: una empresa de comercio electrónico quiere medir el impacto del
precio del producto, las promociones de productos y la estacionalidad de las fiestas en las
ventas de productos.
Datos de entrada: Las variables predictoras/independientes incluyen datos de precios de
productos, datos de promociones de productos como descuentos, banderas que
representan presencia/ausencia de estacionalidad. La variable dependiente son los datos
de ventas de productos.
Beneficio empresarial: un gerente de ventas de productos puede descubrir qué
predictores incluidos en el análisis tendrán un impacto significativo en las ventas de
productos. Para los predictores con mayor impacto, el equipo puede tomar decisiones
estratégicas importantes para cumplir los objetivos de ventas de productos. Por ejemplo,
si las promociones y las temporadas navideñas son factores importantes, se debe prestar
más atención a estos factores al diseñar una estrategia de marketing.
• Caso de uso – 2
Problema empresarial: una empresa de producción agrícola quiere predecir el impacto
de la cantidad de lluvia, humedad y temperatura en el rendimiento de un cultivo en
particular.
Datos de entrada: Las variables predictivas/independientes incluyen la cantidad de lluvia
durante los meses del monzón, los niveles/mediciones de humedad y las mediciones de
temperatura. La variable dependiente es la producción de cultivos.
Beneficio empresarial: una empresa agrícola puede comprender el impacto de cada uno
de estos predictores en la variable objetivo. Por ejemplo, si la temperatura y las
precipitaciones tienen un impacto positivo significativo pero los niveles de humedad
tienen un impacto negativo significativo en el rendimiento de los cultivos, entonces se
puede esperar que la producción de cultivos se produzca durante niveles altos de
temperatura y lluvia junto con niveles bajos de humedad.
Los modelos de regresión lineal múltiple son útiles para ayudar a una empresa a
considerar el impacto de múltiples predictores y variables independientes en una
variable dependiente, y pueden ser beneficiosos para pronosticar y predecir resultados.
Ejemplo.
Se realizó un estudio a 12 estudiantes para ver como influyen las calificaciones del examen y el
número de clases que los estudiantes pierden, en la calificación de la materia de estadística. Los
datos completos registrados se muestran a continuación:
Calificación de Calificación del Clases
Estudiante estadística examen perdidas
1 85 65 1
2 74 50 7
3 76 55 5
4 90 65 2
5 85 55 6
6 87 70 3
7 94 65 2
8 98 70 5
9 81 55 4
10 91 70 3
11 76 50 1
12 74 55 4
y x1 x2
y x1 x2

x1² x2² x1·x2 x1·y x2·y


y x1 x2

x1² x2² x1·x2 x1·y x2·y

4225 1 65 5525 85
2500 49 350 3700 518
3025 25 275 4180 380
4225 4 130 5850 180
3025 36 330 4675 510
4900 9 210 6090 261
4225 4 130 6110 188
4900 25 350 6860 490
3025 16 220 4455 324
4900 9 210 6370 273
2500 1 50 3800 76
3025 16 220 4070 296
y x1 x2

x1² x2² x1·x2 x1·y x2·y

4225 1 65 5525 85
2500 49 350 3700 518
3025 25 275 4180 380
4225 4 130 5850 180
3025 36 330 4675 510
4900 9 210 6090 261
4225 4 130 6110 188
4900 25 350 6860 490
3025 16 220 4455 324
4900 9 210 6370 273
2500 1 50 3800 76
3025 16 220 4070 296
Σ = 1011 Σ = 725 Σ = 43 Σ = 44475 Σ = 195 Σ = 2540 Σ = 61685 Σ = 3581
y x1 x2

x1² x2² x1·x2 x1·y x2·y

4225 1 65 5525 85
2500 49 350 3700 518
3025 25 275 4180 380
4225 4 130 5850 180
3025 36 330 4675 510
4900 9 210 6090 261
4225 4 130 6110 188
4900 25 350 6860 490
3025 16 220 4455 324
4900 9 210 6370 273
2500 1 50 3800 76
3025 16 220 4070 296
Σ = 1011 Σ = 725 Σ = 43 Σ = 44475 Σ = 195 Σ = 2540 Σ = 61685 Σ = 3581
ŷ =27.5467001+0.921678427 𝑥 1+ 0.28424951 𝑥 2

Donde,
x1 es la calificación del examen
x2 son las clases perdidas
ŷ =27.5467001+0.921678427 𝑥 1+ 0.28424951 𝑥 2
y x1 x2

Ya con esta ecuación podemos estimar la calificación de


estadística.

Por ejemplo,
Para un estudiante que tiene una calificación en un examen de
60 y pierde 4 clases, estime la calificación de estadística.
Solución:
Sustituyendo valores, tenemos que:
Donde,
n = Es el número de observaciones en la muestra.
k = Es el numero de variables independientes.
SCE = Es la suma de los cuadrados del erro o residuo.
e=y· SCE

87.74004737 -2.740047365 7.507859562


75.62036802 -1.62036802 2.62559252
79.66026114 -3.660261135 13.39751158
88.02429688 1.975703125 3.903402838
79.94451065 5.055489355 25.55797262
92.91693852 -5.91693852 35.01016145
88.02429688 5.975703125 35.70902784
93.48543754 4.51456246 20.38127421
79.37601163 1.623988375 2.637338242
92.91693852 -1.91693852 3.674553289
73.9048.7096 2.08512904 4.347763113
79.37601163 -5.376011625 28.90150099

183.6540582
El error estándar es de 4.51 de calificación.

Las características del Coeficiente de Determinación Múltiple son:


1. Se representa por una letra R mayúscula al cuadrado (R²).
2. Puede variar de 0 a 1. Un valor cercano a 0 indica poca asociación entre el conjunto de variables
independientes y la variable dependiente. Un valor cercano a 1 significa una asociación fuerte.
3. No puede adoptar valores negativos.

Se puede emplear la fórmula para calcular el coeficiente de determinación múltiple:


SCR
Σ(ȳ-)²
12.18043061
74.47054811
21.06570285
14.2453169
18.5372385
75.11582331
14.2453169
85.29330656
23.75576268
75.11582331
106.8148923
23.75576268
183.6540582 544.5959248
ȳ=84.25
STC=SCE+SCR 728.249983
• Aplicando la ecuación con la sustitución de los datos:

Esto indica que el 74.78% de la variación de la calificación de la materia de


estadística puede explicarse por la calificación del examen y las clases perdidas. En
otras palabras, 25.22% de la variación se debe a otras fuentes, como el erros
aleatorio o variables no incluidas en el análisis.
Sustituyendo valores:
𝑅 2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑎=1− ( 1− 0.7478 ) ( 12 −1
12 −2 −1 )
=0.6917

Esto es que el 69.17% de la variación de la calificación de la materia de estadística puede explicarse por la
calificación del examen y las clases perdidas. El 30.83% de la variación se debe a otras fuentes, como el error
aleatorio o variables no incluidas en el análisis.
Esta R de 0.86 parece ser una correlación positiva fuerte y
ayuda a confirmar que hay una relación estrecha entre las
variables
Conclusión
La regresión lineal describe la relación entre varias variables: la variable
dependiente y una o varias variables independientes. Por su rapidez de creación y
su facilidad de interpretación, los modelos de regresión lineal se han utilizado con
éxito en diversos ámbitos, desde la medicina hasta la agronomía, tanto para hacer
previsiones como para describir sistemas. Existen programas gratuitos que explican
cómo hacer para que aplicar el análisis de regresión sea fácil y eficaz.

También podría gustarte