Está en la página 1de 31

Regresión

lineal múltiple
y regresión
logística
Robles Saravia Irianko Josué
Muñoz Vilela Algemiro Julio
CONTENIDO
1.-REGRESION LINEAL
MULTIPLE

2.- REGRESION LOGISTICA


1
REGRESION LINAL MULTIPLE
INTRODUCCION
En el modelo de regresión lineal hay de 2 tipos; de regresión lineal
simple, donde se analizaba la influencia de una variable explicativa X
en los valores que toma otra variable denominada dependiente (Y).

Y la regresión lineal múltiple donde se utiliza más de una variable


explicativa; esto nos va a ofrecer la ventaja de utilizar más
información en la construcción del modelo y, consecuentemente,
realizar estimaciones más precisas.
Un modelo de regresión lineal múltiple es un modelo estadístico versátil para evaluar las relaciones entre un destino
continuo y los predictores. Los predictores pueden ser campos continuos, categóricos o derivados, de modo que las relaciones
no lineales también estén soportadas.

Modelo de regresión simple:

Modelo de regresión múltiple:

Estudia la relación de una variable dependiente con dos más variables independiente (
La formula general de una ecuación múltiple es:

Donde:
EJEMPLO
Se realizo un estudio de 12 estudiantes para ver como influyen las calificaciones del examen y el número de clases que los estudiantes pierden,
en la calificación de la materia de estadística. Los datos completos se registran a continuación:

𝑦 𝑥1 𝑥2
Estudiante Calificación de estadística Calificación del examen Clases perdidas

1 85 65 1

2 74 50 7

3 76 55 5

4 90 65 2

5 85 55 6

6 87 70 3 MATRIZ

7 94 65 2

8 98 70 5

9 81 55 4

10 91 70 3

11 76 50 1

12 74 55 4
𝑦 𝑥1 𝑥2
Calificación de Calificación del Clases
Estudiante
estadística examen perdidas

1 85 65 1 4225 1 65 5525 85

2 74 50 7 2500 49 350 3700 518

3 76 55 5 3025 25 275 4180 380

4 90 65 2 4225 4 130 5850 180

5 85 55 6 3025 36 330 4675 510

6 87 70 3 4900 9 210 6090 261

7 94 65 2 4225 4 130 6110 188

8 98 70 5 4900 25 350 6860 490

9 81 55 4 3025 16 220 4455 324

10 91 70 3 4900 9 210 3670 273

11 76 50 1 2500 1 50 3800 76

12 74 55 4 3025 16 220 4070 296


Se construye el sistema de ecuaciones MATRIZ

MATRIZ
MATRIZ R1/12 1 725/12 43/12 1/12 0 0

-725(R1)+R2 725 4475 2540 0 1 0

-43(R1)+R3 43 2540 195 0 0 1

-725/12R2+R1 1 725/12 43/12 1/12 0 0

R1 12 725 43 1 0 0
8075/12→R2 0 1 -139/1615 -29/323 12/8075 0

R2 725 4475 2540 0 1 0 695/12(R2)+R3 0 -695/12 491/12 -43/2 0 1

-2837/323(R3)+R1 1 0 2837/323 1779/323 -29/323 0


R3 43 2540 195 0 0 1

139/1615(R3)+R2 0 1 -139/1615 -29/323 12/8075 0

11606/323→R3 0 0 1 -2837/11606 139/58030 323/11606

R1 1 0 0 7.6547 6431/58030 -2837/11606

R2 0 1 0 -6431/58030 491/290150 139/58030

R3 0 0 1 -2837/11606 139/58030 323/11606


R1 1 0 0 7.6547 6431/58030 -2837/11606

R2 0 1 0 -6431/58030 491/290150 139/58030

R3 0 0 1 -2837/11606 139/58030 323/11606

^
𝑦 =𝑎 +𝑏1 𝑥 1+ 𝑏2 𝑥 2 +…+𝑏𝑛 𝑥 𝑛
^
𝑦 =2 7 . 5467001+ 0 . 92167842 𝑥 1+ 0 .2842495 𝑥 2
E R R O R E S TA N D A R D E L A E S T I M A C I Ó N
M Ú LT I P L E
Es el error típico cuando se emplea la ecuación de regresión múltiple
para precedir la calificación.

Donde:
Calific. de Calific. del Clases
Estdt.
estadística examen perdidas

1 85 65 1

2 74 50 7

3 76 55 5

4 90 65 2

5 85 55 6

6 87 70 3

7 94 65 2

8 98 70 5

9 81 55 4

10 91 70 3

11 76 50 1

12 74 55 4

183 . 6540582
COEFICIENTE DE DETERMINACIÓN
M Ú LT I P L E
Las características del coeficiente de determinación múltiple son:
1. Se representa por una letra R mayúscula al cuadrado ()
2. Puede variar de 0 a 1. Un valor cercano a 0 indica poca asociación entre el conjunto de
variables independientes y la variable dependiente. Un valor cercano a 1 significa una
asociación fuerte.
3. No puede adoptar valores negativos

Se puede emplear la fórmula para calcular el coeficiente de determinación múltiple:

Indica que el 74.78% de la variación de


la calificación de la materia de
estadística puede explicarse para la
calificación del examen y las clases
perdidas, 25.22% de la variación se debe
a otras fuentes, como el error aleatorio o
variables no incluidas en el análisis
𝑦 𝑥1 𝑥2 𝐸𝑟𝑟𝑜𝑟 𝑆𝐶𝐸 𝑆𝐶𝑅

Calific. de Calific. del Clases


Estdt.
estadística examen perdidas

1 85 65 1

2 74 50 7

3 76 55 5

4 90 65 2

5 85 55 6

6 87 70 3

7 94 65 2

8 98 70 5

9 81 55 4

10 91 70 3

11 76 50 1

12 74 55 4

183 .6540582 544 .5959248


𝑦 =84 .25
𝑆𝑇𝐶 728 . 249983
C O E F I C I E N T E D E A J U S TA D O D E T E R M I N A C I Ó N M Ú LT I P L E
Es el coeficiente múltiple de determinación modificado para justificar el número de variables y el tamaño de la
muestra.

12−1 11
¿1− (1−0.7478) =1− ( 0.2522) =0.6917=69.17% EL 69.17% de la variación de la calificación de

12−2−1 9 la materia de estadística puede explicarse por la


clasificación del examen y las clases perdidas.
El 30.83% de la variación se debe a otras
fuentes, como el error aleatorio o variables no
incluidas en el análisis.
C O E F I C I E N T E D E C O R R E L A C I Ó N M Ú LT I P L E
Es un indicador de la precisión y confiabilidad de la
relación entre las variables y puede tomar valores de -1 a 1.

Es una correlación positiva fuerte ya que


R es 0.86.
2
REGRESION LOGISTICA
La regresión logística es un modelo estadístico que se utiliza para determinar la probabilidad de que ocurra un
evento. Muestra la relación entre características y luego calcula la probabilidad de un resultado determinado.

La regresión logística se utiliza en Machine Lear Ning


(ML) para ayudar a crear predicciones precisas. Es
similar a la regresión lineal, excepto que, en lugar de un
resultado gráfico, la variable objetivo es binaria; el valor
es 1 o 0.

Existen dos tipos de variables medibles, las variables o


características explicativas (elemento que se mide) y la
variable de respuesta o variable binaria objetivo, que
corresponde al resultado.
¿Por qué regresión logística y no lineal?
Si una variable cualitativa con dos niveles se codifica como 1 y 0, matemáticamente es posible ajustar un modelo de regresión
lineal por mínimos cuadrados β0+β1x. El problema de esta aproximación es que, al tratarse de una recta, para valores extremos
del predictor, se obtienen valores de Y menores que 0 o mayores que 1, lo que entra en contradicción con el hecho de que las
probabilidades siempre están dentro del rango [0,1].

Lla regresión logística transforma el valor devuelto por la regresión lineal (β0+β1X) empleando una función cuyo resultado está
siempre comprendido entre 0 y 1. Existen varias funciones que cumplen esta descripción, una de las más utilizadas es la
función logística (también conocida como función sigmoide):

1
𝜎 ( 𝑥 )= −𝑥
1+ 𝑒
Para valores de x muy grandes positivos, el valor de es aproximadamente 0 por lo que el valor de la función
sigmoide es 1. Para valores de x muy grandes negativos, el valor tiende a infinito por lo que el valor de la función
sigmoide es 0.
Sustituyendo la x de la ecuación 1 por la función lineal (β0+β1X) se obtiene que:

(
𝛽 0+ 𝛽 1 𝑥 1
1 1 𝑒
𝑃 𝑌 =𝐾 | 𝑋 = 𝑥 )= − ( 𝛽 0+ 𝛽 1 𝑥 1)
= 𝛽 0+ 𝛽 1 𝑥 1
= 𝛽 +𝛽 1 𝑥 1
1+𝑒 𝑒 1 1+𝑒 0

𝛽 +𝛽 𝑥1
+ 𝛽 0+ 𝛽 1 𝑥 1
𝑒 0 1
𝑒
TIPOS DE REGRESIÓN LOGÍSTICA
➢ Regresión logística binaria: Aquí solo existen dos resultados posibles para la respuesta categórica.

➢ Regresión logística multinomial: Aquí es donde las variables de respuesta pueden incluir tres o más variables, que no estarán
en ningún orden. Asumiendo K clases y un vector X de características, el modelo de un regresor logístico multinomial nos permite
obtener la probabilidad P1 de tener clase i.

Para tres clases(k=3)


➢ Regresión logística ordinal:
al igual que la regresión multinomial, puede haber tres o más variables. Sin embargo, existe un
orden en el que siguen las medidas. Un ejemplo es calificar un hotel en una escala del 1 al 5.

DATOS CURIOSOS
-En la regresión logística binaria, es necesario que la variable de respuesta sea binaria.
El resultado es una cosa u otra.

-El resultado deseado debe estar representado por el nivel de factor 1 de la variable de
respuesta, el no deseado es 0.

-Solo deberán incluirse las variables que sean significativas.

-Las variables independientes tienen que ser esencialmente independientes entre sí. -
Deberá haber poca o ninguna multicolinealidad.
-Las funciones logita y las variables independientes deben estar relacionadas
linealmente.
MODELO DE LA REGRESIÓN LOGISTICO
Sea Y una variable dependiente binaria (con dos posibles valores: (0 y 1). Sean un conjunto de k variables
independientes, (X1, X2, X3, …, XK), observadas con el fin de predecir/explicar el valor de Y.

El objetivo consiste en determinar:


MODELO DE REGRESIÓN LOGÍSTICA BINARIA
El modelo logístico establece la siguiente relación entre la probabilidad de que ocurra el suceso, dado que el
individuo presenta los valores (X=X1, X=X2, …, X=XK)

El objetivo es hallar los coeficientes (𝛽0,𝛽1,… ,𝛽𝐾) que mejor se ajusten a la expresión funcional. Se conoce como
odds (ratio del riesgo) al cociente de probabilidades:

se toma como primera variable explicativa a la variable constante que vale 1


En medicina, por ejemplo, la ratio del riesgo, habitualmente, indica la presencia de una determinada enfermedad
objeto de análisis.
Tomando logaritmos neperianos en la expresión anterior, se obtiene una expresión lineal para el modelo:

EJEMPLO:
Se desea evaluar la satisfacción con la enseñanza pública de 1.027 estudiantes mediante la variable Satisfecho
(Si=0, No=1) y tres variables independientes Nacionalidad (España=1, Rumania=2, Colombia=3), Género
(Hombre=1, Mujer=2) y Estudios (ESO=1, Primaria=2).
Al introducir los datos en una tabla de contingencia de 4 entradas, ponderando las respectivas frecuencias, se

tendrán (2.3.2.2 = 24 configuraciones).


De esta manera efectuamos y construimos la tabla:
La variable Nacionalidad de tipo
nominal tiene más de dos
categorías, es razonable plantear
que sea manejada como una
variable dummy.
Se ajusta un modelo que incluya una
variable nominal con 3 clases, ésta
debe ser sustituida por las (3−1)
variables dummy, y a cada una de
ellas corresponderá su respectivo
coeficiente.
Si el contexto es predictivo, la probabilidad del suceso para un perfil de entrada dado ha de computarse
independientemente empleando los coeficientes estimados. Si se quiere saber cuál es la probabilidad de que un
alumno esté insatisfecho, hay que aplicar el modelo ajustado:

Para una alumna colombiana de primaria, los valores de las variables son: Género=2, Nacionalidad (Z1=0, Z2=1),
Estudios=2.

Para un alumno rumano de primaria, los valores de las variables son: Género=1, Nacionalidad (Z1=1, Z2=0),
Estudios=2:
Para una alumna española de primaria, los valores de las variables son: Género=2, Nacionalidad (Z1=0, Z2=0),
Estudios=2: 34

Adviértase que, en las variables de la ecuación, por el Método Introducir (entran todas las variables en el análisis), no se ha
analizado el intervalo de confianza (IC) de los coeficientes.

De haberlo hecho, los coeficientes de las variables (Z1, Género y Estudios), respectivamente, tienen un intervalo de confianza
que cubre el 1, es decir, hay un riesgo de 1, por lo que debían salir estas variables de la ecuación y volver a realizar el análisis.
En el caso de haber utilizado el Método Adelante RV (método automático por pasos, hacia delante, que utiliza la prueba de la
Razón de Verosimilitud para comprobar las covariables a incluir o excluir), estas variables hubiera salid o de la ecuación:
MUCHAS
GRACIAS

También podría gustarte