Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Teoria Regresion 3 PDF
Teoria Regresion 3 PDF
RESUMEN ABSTRACT
Continuando con la serie dedicada a Regresión y Correlación, en este Continuing the series dedicated to Regression and Correlation, this
artículo se revisa la técnica de regresión lineal múltiple, explicando article reviews the multiple linear regression technique, explaining
cómo opera y cuándo se utiliza. Se analiza un ejemplo utilizando el how it operates and when it is used. An example is analysed using
Software Epi Info, detallando la información entregada por el Epi Info Software, detailing the information provided by the
programa, cuál es su explicación y cómo se interpreta. Se explica program, its explanation and how it is interpreted. An explanation
cómo introducir variables categóricas en el modelo de regresión lineal is given on how to introduce categorical variables in the multiple
múltiple mediante la creación de variables dummy. Finalmente, se linear regression model by creating dummy variables. Finally, an
explica la importancia de revisar los supuestos del modelo y asegurar explanation is provided on the importance of reviewing the
un tamaño de muestra adecuado para que la estimación de assumptions of the model and insure a sample size adequate for the
coeficientes del modelo sea correcta. estimation of the model coefficients to be correct.
(Salinas M, Silva C. 2007. Modelos de Regresión y Correlación II. Keywords: LINEAR MODELS; REPRODUCIBILITY OF RESULTS,
Regresión Lineal Múltiple. Cienc Trab, Ene-Mar.;9 (23):39-41) REGRESSION ANALYSIS.
Ciencia & Trabajo | AÑO 9 | NÚMERO 23 | ENERO / MARZO 2007 | www.cienciaytrabajo.cl | 39/41 39
Artículo Original | Salinas Mauricio
Los cálculos y valores de los estimadores que se requieren en los ponde al Coeficiente de Determinación; el coeficiente de correla-
ejemplos siguientes se pueden obtener mediante el programa Epi ción es la raíz cuadrada de éste).
Info, de distribución gratuita y que se puede descargar en la Por último, tenemos una tabla donde se presentan los valores de
dirección de Internet www.cdc.gov/epiinfo/. la suma y media de cuadrados, los grados de libertad (g.l.) y la
estadística F.
A continuación analizaremos un ejemplo. Las distintas pruebas de significación que se pueden aplicar en
Tenemos los siguientes datos obtenidos de una muestra aleatoria modelos de regresión las veremos en otro capítulo de esta serie,
de 19 individuos, en relación a Presión Arterial Sistólica (PAS), así que por el momento no analizaremos la estadística F, y sólo
edad y peso. utilizaremos el valor–p obtenido.
Tabla 1. Como se explicó en el artículo sobre regresión lineal simple, para
Presión Arterial Sistólica, Edad y Peso para una muestra de 19 individuos.. cada punto de la muestra tenemos asociados tres valores:
Σ (y – y)2: Corresponde a la variabilidad total de la respuesta PAS
Id Presión Arterial Sistólica Edad Peso hallada en la muestra, sin prestar atención a la relación que ella
(mmHg) (años) (Kg)
pueda tener con el predictor Edad. En el ejemplo corresponde al
1 118 35 89 valor 3874,632.
2 140 37 76
3 130 25 77 Σ (y – y)2: Se asocia a la ganancia en “variabilidad explicada” al
4 125 20 71 pasar nosotros de un modelo elemental que prediga para todas
5 137 40 89 las edades (xi ) el mismo valor y de PAS, a otro y que toma en
6 114 28 80 cuenta la influencia lineal que Edad parece tener sobre PAS. Ésta
7 105 23 75 es la variabilidad que está siendo explicada por el modelo de
8 139 39 85 regresión y en este caso equivale a 1959,484.
9 154 38 86
10 128 30 81 Σ (y – y)2: Se asocia a las diferencias entre cada PAS observada
11 111 20 75 (y) y la predicha (y) por el modelo de regresión lineal simple a
12 119 23 73 partir de la información Edad. Es la variabilidad de Y=PAS no
13 160 45 90 atribuible a las diferencias en Edad y se llama Residuo. El valor
14 131 48 91 de la suma de cuadrados de los 19 residuos es 1915,148.
15 127 37 90
16 119 31 83 Si dividimos la suma de cuadrados del modelo sobre la total, es
17 130 33 82 decir 1959,484/3874,32, obtenemos el valor del coeficiente de
18 142 38 84 determinación: 0,506 (r2)
19 149 38 90 El método para realizar pruebas de significación lo veremos en
otro capítulo, así que, por el momento, podemos concluir lo
Analicemos primero la relación entre la variable respuesta PAS siguiente de la información entregada respecto a la Edad:
y Edad mediante una regresión lineal simple. Definiremos como 1. Tiene una asociación positiva con la PAS, ya que la pendiente
significativa una relación con un valor-p menor a 0,05, que es muestral (el coeficiente 1,275) es de signo positivo.
una convención muy frecuente. 2. La asociación es estadísticamente significativa, de acuerdo a
Una vez digitados los datos en Epi Info, pedimos se estime a nuestra definición previa: valor–p de la edad 0,001.
partir de ellos una regresión lineal y obtenemos lo siguiente: 3. El r2 es 0,51, es decir, la edad explica el 51% de la variabilidad
de PAS, en nuestra muestra.
Variable Coeficiente Error Estándar F Valor-P
EDAD 1,275 0,306 17,3936 0,001 Veamos ahora la relación entre PAS y Peso. El Epi Info nos
INTERCEPTO 88,272 10,396 72,1004 0,000 entregará:
Podemos ver que el peso es también un predictor estadística-
Coeficiente de Determinación: r2= 0.51
Variable Coeficiente Error Estándar F Valor-P
gl Suma de Cuadrados Cuadrado Medio F PESO 1,193 0,464 6,6221 0,020
Modelo 1 1959,484 1959,484 17.394 INTERCEPTO 32,001 38,358 0,6960 0,416
Residuo 17 1915,148 112,656
Total 18 3874,632 Coeficiente de Determinación: r2= 0.28
40 39/41 | www.cienciaytrabajo.cl | AÑO 9 | NÚMERO 23 | ENERO / MARZO 2007 | Ciencia & Trabajo
Artículo Original | Modelos de Regresión y Correlación II. Regresión Lineal Múltiple
Considerando que tanto la Edad como el Peso son predictores de categorías en cuestión. Analicemos el ejemplo de la Tabla 2,
la PAS, podemos considerar utilizarlas en conjunto. Esto nos donde tenemos una variable predictora “Color de Ojos” que tiene
permitiría: tres categorías.
Mejorar nuestra predicción.
Disminuir el error o residuo del modelo. Tabla 2.
Cuantificar la importancia de cada predictor en conjunto. Ejemplo de creación de variables binarias para la variable categórica
“Color de Ojos”.
Entonces, procedemos a estimar un modelo que contiene los dos COLOR DE OJOS S1 S2 S3
predictores obteniendo lo siguiente: Verde 1 0 0
Azul 0 1 0
Variable Coeficiente Error Estándar F Valor-P
Marrón 0 0 1
EDAD 1,853 0,619 8,9693 0,009
PESO -0,834 0,777 1,1494 0,301 En este caso hemos creado tres variables binarias, denominadas
INTERCEPTO 137,934 47,465 8,4451 0,011 S1, S2 y S3 que permiten introducir la variable en el modelo de
regresión. S1 representa el color de ojos verde; S2 el color de ojos
Coeficiente de Determinación: r2= 0.54 azul y S3 el color de ojos marrón.
Generalmente se introducen dos de estas variables en el modelo
gl Suma de Cuadrados Cuadrado Medio F (S1 y S2, por ejemplo) y se deja una de ellas como valor de refe-
Modelo 2 2087,843 1043,922 9,348 rencia (S3, por ejemplo). Este tipo de variables binarias son
Residuo 16 1786,788 111,674 llamadas variables dummy.
Total 18 3874,632 Para variables categóricas con más de tres niveles, se opera de la
misma forma. En general, una variable categórica de k niveles
Al generar un modelo combinado, podemos ver que la Edad deberá representarse mediante k-1 variables binarias.
continúa siendo un predictor estadísticamente significativo, no
así el Peso. Esto quiere decir que la Edad logra una predicción
buena y mejor que la del Peso; la predicción de la Edad no logra SUPUESTOS
ser mejorada por la adición del Peso al modelo. De hecho, el r2
del modelo PAS vs. Edad es 0,51, apenas menor que el r2 de este El modelo de regresión lineal múltiple requiere que se satisfagan
modelo (0,54). básicamente los mismos supuestos que el modelo de regresión
lineal simple. Como se planteó en el primer artículo de esta serie,
tales supuestos deben ser verificados en cada situación problema
UTILIZACIÓN DE VARIABLES CUALITATIVAS para no provocar errores de modelación de la información reci-
bida (Gujarati 1997).
Frecuentemente, al utilizar regresión lineal múltiple, parece dese- Otro punto importante a tener en cuenta si se desea generar un
able tener en consideración una o más variables cualitativas modelo de regresión múltiple es el tamaño (n) de la muestra.
(nominales u ordinales). Cuando se utiliza una variable que tiene Mientras más predictores se quiera incorporar en el modelo
dos categorías posibles (sexo, por ejemplo), ella es ingresada en mayor será el valor de n necesario para poder estimar eficiente-
el modelo e interpretada de igual forma que las variables cuanti- mente los coeficientes de la regresión. En forma muy gruesa,
tativas, pero llevándola a valores binarios 0 y 1. podemos decir que se requiere al menos 10 observaciones por
Cuando se trata de una variable categórica X que tiene tres cate- cada predictor en el modelo. Sin embargo, existen métodos espe-
gorías, deberemos reemplazarla por variables binarias (valores 1 cíficos para estimar el tamaño muestral adecuado en el estudio
y 0), cuyas combinaciones identificarán inequívocamente las 3 de un modelo de regresión.
REFERENCIAS
Canavos G. 1988. Análisis de regresión: el modelo lineal simple. En: Investigación Científica en Ciencias de la Salud. 6a ed. México: Mc Graw
Probabilidad y estadística: aplicaciones y métodos. 1a ed. México: Mc Graw- Hill. p. 485 – 520.
Hill. p. 443-502. Silva C, Salinas M. 2007. Modelos de Regresión y Correlación. Revista Cienc
Gujarati D. 1997. Econometría. 3a ed. Colombia: Mc Graw Hill. Trab, Oct – Dic; 8 (22). 185 – 9.
Polit D, Hungler B, eds. 2000. Procedimientos estadísticos multivariados. En: Taucher E. 1997. Bioestadística. 1a ed. Santiago: Editorial Universitaria.
Ciencia & Trabajo | AÑO 9 | NÚMERO 23 | ENERO / MARZO 2007 | www.cienciaytrabajo.cl | 39/41 41