Documentos de Académico
Documentos de Profesional
Documentos de Cultura
lineal múltiple
y regresión
logística
Robles Saravia Irianko Josué
Muñoz Vilela Algemiro Julio
CONTENIDO
1.-REGRESION LINEAL
MULTIPLE
Estudia la relación de una variable dependiente con dos más variables independiente (
La formula general de una ecuación múltiple es:
Donde:
EJEMPLO
Se realizo un estudio de 12 estudiantes para ver como influyen las calificaciones del examen y el número de clases que los estudiantes pierden,
en la calificación de la materia de estadística. Los datos completos se registran a continuación:
𝑦 𝑥1 𝑥2
Estudiante Calificación de estadística Calificación del examen Clases perdidas
1 85 65 1
2 74 50 7
3 76 55 5
4 90 65 2
5 85 55 6
6 87 70 3 MATRIZ
7 94 65 2
8 98 70 5
9 81 55 4
10 91 70 3
11 76 50 1
12 74 55 4
𝑦 𝑥1 𝑥2
Calificación de Calificación del Clases
Estudiante
estadística examen perdidas
1 85 65 1 4225 1 65 5525 85
11 76 50 1 2500 1 50 3800 76
MATRIZ
MATRIZ R1/12 1 725/12 43/12 1/12 0 0
R1 12 725 43 1 0 0
8075/12→R2 0 1 -139/1615 -29/323 12/8075 0
^
𝑦 =𝑎 +𝑏1 𝑥 1+ 𝑏2 𝑥 2 +…+𝑏𝑛 𝑥 𝑛
^
𝑦 =2 7 . 5467001+ 0 . 92167842 𝑥 1+ 0 .2842495 𝑥 2
E R R O R E S TA N D A R D E L A E S T I M A C I Ó N
M Ú LT I P L E
Es el error típico cuando se emplea la ecuación de regresión múltiple
para precedir la calificación.
Donde:
Calific. de Calific. del Clases
Estdt.
estadística examen perdidas
1 85 65 1
2 74 50 7
3 76 55 5
4 90 65 2
5 85 55 6
6 87 70 3
7 94 65 2
8 98 70 5
9 81 55 4
10 91 70 3
11 76 50 1
12 74 55 4
183 . 6540582
COEFICIENTE DE DETERMINACIÓN
M Ú LT I P L E
Las características del coeficiente de determinación múltiple son:
1. Se representa por una letra R mayúscula al cuadrado ()
2. Puede variar de 0 a 1. Un valor cercano a 0 indica poca asociación entre el conjunto de
variables independientes y la variable dependiente. Un valor cercano a 1 significa una
asociación fuerte.
3. No puede adoptar valores negativos
1 85 65 1
2 74 50 7
3 76 55 5
4 90 65 2
5 85 55 6
6 87 70 3
7 94 65 2
8 98 70 5
9 81 55 4
10 91 70 3
11 76 50 1
12 74 55 4
12−1 11
¿1− (1−0.7478) =1− ( 0.2522) =0.6917=69.17% EL 69.17% de la variación de la calificación de
Lla regresión logística transforma el valor devuelto por la regresión lineal (β0+β1X) empleando una función cuyo resultado está
siempre comprendido entre 0 y 1. Existen varias funciones que cumplen esta descripción, una de las más utilizadas es la
función logística (también conocida como función sigmoide):
1
𝜎 ( 𝑥 )= −𝑥
1+ 𝑒
Para valores de x muy grandes positivos, el valor de es aproximadamente 0 por lo que el valor de la función
sigmoide es 1. Para valores de x muy grandes negativos, el valor tiende a infinito por lo que el valor de la función
sigmoide es 0.
Sustituyendo la x de la ecuación 1 por la función lineal (β0+β1X) se obtiene que:
(
𝛽 0+ 𝛽 1 𝑥 1
1 1 𝑒
𝑃 𝑌 =𝐾 | 𝑋 = 𝑥 )= − ( 𝛽 0+ 𝛽 1 𝑥 1)
= 𝛽 0+ 𝛽 1 𝑥 1
= 𝛽 +𝛽 1 𝑥 1
1+𝑒 𝑒 1 1+𝑒 0
𝛽 +𝛽 𝑥1
+ 𝛽 0+ 𝛽 1 𝑥 1
𝑒 0 1
𝑒
TIPOS DE REGRESIÓN LOGÍSTICA
➢ Regresión logística binaria: Aquí solo existen dos resultados posibles para la respuesta categórica.
➢ Regresión logística multinomial: Aquí es donde las variables de respuesta pueden incluir tres o más variables, que no estarán
en ningún orden. Asumiendo K clases y un vector X de características, el modelo de un regresor logístico multinomial nos permite
obtener la probabilidad P1 de tener clase i.
DATOS CURIOSOS
-En la regresión logística binaria, es necesario que la variable de respuesta sea binaria.
El resultado es una cosa u otra.
-El resultado deseado debe estar representado por el nivel de factor 1 de la variable de
respuesta, el no deseado es 0.
-Las variables independientes tienen que ser esencialmente independientes entre sí. -
Deberá haber poca o ninguna multicolinealidad.
-Las funciones logita y las variables independientes deben estar relacionadas
linealmente.
MODELO DE LA REGRESIÓN LOGISTICO
Sea Y una variable dependiente binaria (con dos posibles valores: (0 y 1). Sean un conjunto de k variables
independientes, (X1, X2, X3, …, XK), observadas con el fin de predecir/explicar el valor de Y.
El objetivo es hallar los coeficientes (𝛽0,𝛽1,… ,𝛽𝐾) que mejor se ajusten a la expresión funcional. Se conoce como
odds (ratio del riesgo) al cociente de probabilidades:
EJEMPLO:
Se desea evaluar la satisfacción con la enseñanza pública de 1.027 estudiantes mediante la variable Satisfecho
(Si=0, No=1) y tres variables independientes Nacionalidad (España=1, Rumania=2, Colombia=3), Género
(Hombre=1, Mujer=2) y Estudios (ESO=1, Primaria=2).
Al introducir los datos en una tabla de contingencia de 4 entradas, ponderando las respectivas frecuencias, se
Para una alumna colombiana de primaria, los valores de las variables son: Género=2, Nacionalidad (Z1=0, Z2=1),
Estudios=2.
Para un alumno rumano de primaria, los valores de las variables son: Género=1, Nacionalidad (Z1=1, Z2=0),
Estudios=2:
Para una alumna española de primaria, los valores de las variables son: Género=2, Nacionalidad (Z1=0, Z2=0),
Estudios=2: 34
Adviértase que, en las variables de la ecuación, por el Método Introducir (entran todas las variables en el análisis), no se ha
analizado el intervalo de confianza (IC) de los coeficientes.
De haberlo hecho, los coeficientes de las variables (Z1, Género y Estudios), respectivamente, tienen un intervalo de confianza
que cubre el 1, es decir, hay un riesgo de 1, por lo que debían salir estas variables de la ecuación y volver a realizar el análisis.
En el caso de haber utilizado el Método Adelante RV (método automático por pasos, hacia delante, que utiliza la prueba de la
Razón de Verosimilitud para comprobar las covariables a incluir o excluir), estas variables hubiera salid o de la ecuación:
MUCHAS
GRACIAS