Documentos de Académico
Documentos de Profesional
Documentos de Cultura
17-9volcan Mauna Loa
17-9volcan Mauna Loa
64 EPISTEMUS Claudio Alfredo López Miranda et al.: UNISON / EPISTEMUS 17 / Año 8/ 2014/ pág.: 63-69
EL MODELO DE REGRESIÓN LINEAL error de estimación, denotado por . Los residuos
Los modelos de RL simple o bivariada, se utilizan como se representan gráficamente como el segmento vertical
modelos de predicción o pronóstico. El caso más típico es entre el punto correspondiente sobre la recta y el
cuando la variable predictora, regresora o independiente punto observado .
X es una variable controlada (no aleatoria), mientras que la
variable de respuesta o dependiente Y resulta una variable ANÁLISIS EXPLORATORIO DE DATOS
aleatoria que tiene una distribución aproximadamente Primeramente se debe de explorar si la distribución de los
normal para cada valor x de X, pero con varianza constante datos se aproxima a un patrón lineal. Si el comportamiento
. Dicha varianza se debe al error aleatorio en cada se aleja de una línea recta el modelo lineal se descarta.
medición. Los modelos de RL surgieron desde 1889 En la figura 2 se ilustra el comportamiento de
cuando Francis Galton [1] los utilizó para pronosticar la mediciones de densidad de CO2 en ppm en la atmósfera
estatura de los hijos a través de la estatura de los padres. sobre Mauna Loa, desde enero de 1965 hasta diciembre
El término “regresión” se usó en principio para indicar que de 1980. Observe la tendencia de crecimiento promedio
ciertos fenómenos presentan continuamente mediciones lineal a grandes intervalos. El tiempo representa la variable
altas y bajas, pero que dichas mediciones eventualmente explicativa X en meses, mientras que la concentración
“regresan” a un promedio desconocido pero esperado, de CO2 representa la variable de respuesta Y en ppm. Los
el cual depende del momento en que se mide x. Cuando datos se extrajeron del portal DataMarket.com usando la
el promedio indica un desempeño pobre, entonces se siguiente liga http://datamarket.com/data/set/22v1/co2-
dice que hay una regresión a la medianía, tal como lo ppm-mauna-loa-1965-1980#!ds=22v1&display=line; una
usó Francis Galton [1] en su artículo pionero “Regression vez en el portal hacer clic sobre la pestaña exportar para
towards mediocrity in hereditary stature”, donde establece extraer la serie de tiempo en el formato deseado (Excel por
que hijos de padres altos no son tan altos como sus padres, ejemplo).
e hijos de padres bajos no son tan bajos como sus padres. Aunque no se muestran todos los detalles, se puede
Por cuestiones didácticas en los cursos de estadística observar que la concentración de CO2 se mantiene a
comúnmente nos enseñan primero a estimar los la alza por un período de 5 a 6 meses, para después
parámetros y de la recta de regresión (1) sin tener un período de tiempo similar a la baja. Esta forma
necesidad de verificar los supuestos del modelo (aunque pseudosinusoidal que adquiere la concentración de CO2 es
en una aplicación real, el primer paso debe ser verificar muy similar al comportamiento oscilatorio de muchos de
la homocedasticidad de la varianza y la normalidad de los fenómenos de naturaleza geológica.
los residuos). Dichos parámetros se estiman mediante
el análisis de una muestra apareada de valores (x, y) y
aplicando el criterio de mínimos cuadrados:
(1)
Claudio Alfredo López Miranda et al.: Propuesta de proyecto de estadística: un modelo de… EPISTEMUS 65
tipificados (Figura 3). Si la varianza es constante la gráfica deben a la oscilación de la serie de tiempo y algunos picos
no debe mostrar ningún patrón entre los residuos, como en la concentración de CO2.
argumenta Lattin [2, p. 59]; por el contrario, si existe
1.0
heterogeneidad en la varianza (i.e. la varianza depende del
valor observado), la gráfica puede mostrar anchos distintos
en la variabilidad, típicamente una gráfica en forma de
2.0 0.4
1.0
0.2
Residuos Estandarizados
0.0
0.0
0.0 0.2 0.4 0.6 0.8 10
Probabilidad acumulada observada
-1.0
Figura 4. Gráfica de probabilidad normal P-P de residuos
estandarizados.
-2.0
66 EPISTEMUS Claudio Alfredo López Miranda et al.: UNISON / EPISTEMUS 17 / Año 8/ 2014/ pág.: 63-69
estimación de los parámetros se realiza mediante un
paquete de cómputo estadístico, por ejemplo, Excel, (6)
SPSS, R, Matlab, o Calc de Open Office, los cuales realizan
el proceso automáticamente. La ecuación estimada de la Nota: Cuando se utiliza un paquete de cómputo,
recta resultó: debemos especificar si la constante tiene significado
práctico, ya que de ello depende con que fórmula se
ŷ =0.10095x + 318.82 (2) estima el parámetro . Se recomienda tener cuidado con
su elección, nosotros supusimos .
Lo anterior nos dice que al inicio de las mediciones
(tiempo x = 0) la densidad de CO2 se estima alrededor de COEFICIENTE DE DETERMINACIÓN
ppm; mientras que la pendiente positiva de El coeficiente de determinación es utilizado para
la recta nos indica que la concentración estuvo creciendo medir que tanta variación de la concentración de CO2 es
aproximadamente (estimación) a ppm por mes. explicada por el modelo de regresión, es decir que tanto
No esperamos que la concentración siempre suba 0.1 de la variación se atribuye al crecimiento lineal (y no al
ppm cada mes, en ocasiones estará por debajo de su valor error aleatorio en cada medición, ya que dicho error hace
esperado debido a la oscilación. Lo que estamos estimando que varíe por sí misma la concentración). Para calcular
con esta RL es la tendencia, la cual tiene sentido a grandes definimos la suma total de los cuadrados de Y como:
intervalos de tiempo. Dicho de otra forma, vemos que la
serie de datos oscila alrededor de una media; y lo que la (7)
regresión lineal nos dice es cómo crece esta media.
La estimación de los parámetros del modelo de y obtenemos (tal como lo utiliza Devore [5, p. 463]),
regresión y de otros valores de interés, se realiza a través
de un conjunto típico de estadísticas, las cuales se resumen . (8)
a continuación para referencias posteriores, entre ellas
están , la suma de los cuadrados Se observa en (8) que el numerador representa la
(Sxx y Sxy) y la suma de productos Sxy: diferencia entre la desviación total y la desviación del
error, por lo que en realidad este numerador representa la
(3) desviación atribuida a la regresión, lo que nos indica que
el 88.54% de la variación encontrada en la concentración
Donde: de CO2 es explicada por el modelo de regresión.
Esto se corrobora con el coeficiente de correlación
y (4) , que mide el grado de dependencia
lineal entre el tiempo X y la concentración de CO2 Y. Vemos
Para propósitos didácticos, a continuación una dependencia lineal positiva muy fuerte al quedar r
mostraremos las fórmulas para obtener las cantidades de próximo a uno.
interés. Estas fórmulas se pueden consultar en cualquier
libro de estadística como el de Devore [5, p.456] o el de ANÁLISIS DE LA PENDIENTE ESTIMADA
Draper [3, pp. 23-33].
Comenzamos calculando que representa la Una vez analizada la variabilidad y dependencia
pendiente estimada de la recta, es decir, la razón de cambio lineal, así como la estimación de la pendiente de la recta,
mensual de CO2 ; y su ordenada en el origen que estima es necesario discutir la precisión de como estimación
la concentración inicial de CO2: puntual de dicha pendiente y dar un intervalo de
confianza. Recordemos que es una variable aleatoria
(5) ya que depende de la muestra. Por lo tanto, además de la
estimación puntual es necesario estimar su variabilidad
Con estos valores se obtiene la ecuación de la esperada , así como un intervalo de confianza para
recta . Así, y representará la concentración inferir el rango de valores en el que se espera la tasa
observada real mientras será la concentración ajustada o mensual de CO2.
pronosticada; recordando que a la diferencia entre ellas se La desviación estándar estimada y su coeficiente
le conoce como el residuo o error de estimación, denotado de variación , ver Jay L. Devore [5, p.470] son:
por , el cual es muy importante ya que se utiliza para
estimar el error de estimación y para el análisis residual (9)
anterior. Elevando al cuadrado los residuos y sumándolos
obtenemos la suma de cuadrados del error (SCE), tal que
. Con esta SCE se obtiene en (6), que (10)
representa una estimación de la varianza del “error de
estimación” y que se denota por : De donde observamos una desviación estándar y un
Claudio Alfredo López Miranda et al.: Propuesta de proyecto de estadística: un modelo de… EPISTEMUS 67
coeficiente de variación bastante pequeño, indicando que prácticos el no rechazar quiere decir que la relación
la estimación es de muy buena precisión. lineal será significativa, aun cuando pudiera no existir
En cuanto a la distribución de como variable necesariamente una condición de causalidad, como por
aleatoria, sabemos que es un estimador insesgado ejemplo cuando una variable oculta correlaciona a dos
(i.e., ) con distribución normal; por lo tanto, variables entre sí.
al tener una desviación estándar desconocida, usamos
el estadístico T a continuación (11), el cual tiene una PRONÓSTICO DE CONCENTRACIÓN
distribución t con grados de libertad, esto se debe a PROMEDIO DE CO2 Y VALORES Y
que es el divisor de en (6), y representa el número El análisis estadístico de las secciones anteriores nos
de grados de libertad asociado con la estimación (o la suma permite confirmar en primer lugar que el modelo lineal
de cuadrados del error). Como lo explica Devore [5, p. 461], es adecuado, que el modelo explica gran porcentaje de
para obtener primero se deben estimar los parámetros la variabilidad de CO2 y que además conocemos el error
y , lo que hace que se pierdan 2 grados de libertad. de estimación, por lo tanto, aplicaremos el modelo como
Para más detalles ver las exposiciones de Devore [5, pp. herramienta confiable de pronóstico. Lo que haremos
468-482], y Daper y Smith [3, pp.35-38]. es fijar un tiempo determinado y calcular el ajuste
, el cual puede ser considerado como
(11) una estimación puntual de la concentración promedio
esperada en ese momento, es decir , o como una
A partir de este estadístico el intervalo de confianza predicción individual y de la concentración de CO2 que
para es resultará de una observación puntual en el tiempo
. Las dos afirmaciones anteriores se justifican mediante el
(12) siguiente cálculo:
Sustituyendo valores obtenemos el intervalo bastante (13)
angosto [0.0958, 0.1061], lo cual indica que estimamos a
con precisión y buen nivel de confianza del 95%. ya que se supone que el error aleatorio tiene valor
esperado igual a cero, además de varianza constante
PRUEBA DE HIPÓTESIS DE UTILIDAD DEL MODELO . Por lo tanto, una estimación natural de sería
Después de estudiar la precisión en la estimación, , que como se ve en el lado
haremos un análisis inferencial respecto a la pendiente derecho es en sí misma es una estimación de y. Entonces,
a través de su valor estimado , lo que algunos conocen si tratamos a como variable aleatoria (pues depende de
como prueba de utilidad del modelo. Esta prueba consiste y ), sabemos que hereda la distribución normal (al ser
en establecer como hipótesis nula y como y vv.aa. normales), de acuerdo a Devore [5, p. 469],
alternativa como lo explica Devore [5, p. 474], en cuyo valor esperado es ; por tanto es
otras palabras, proponer demuestra que la pendiente un estimador insesgado de , tal que su varianza
es significativa en el modelo, y por tanto, la variable resulta, para los detalles ver el desarrollo presentado por
predictora X debe incluirse. Si es cierta, el estadístico Devore [5, p. 478].
de prueba de (11) resulta . Con n=192 este
estadístico resulta y el valor crítico de la región (14)
de rechazo está dado por El
estadístico está muy alejado del valor crítico, por lo tanto, La raíz cuadrada de (14) arroja la desviación estándar
con 95% de confianza rechazamos contundentemente de , sin embargo, al sustituir por lo que obtendremos
y concluimos que nuestro modelo de regresión tiene es su estimación denotada por :
pendiente significativamente distinta de cero, por lo que
se dice que el modelo lineal es útil y adecuado. Aunque
en nuestro caso de estudio la relación lineal es evidente (15)
(Figura 2), esta prueba se debe realizar en muchas
aplicaciones para confirmar o rechazar la utilidad del La desviación estándar estimada se utiliza para
modelo lineal. Es importante mencionar que para fines construir los intervalos de confianza y de predicción. Por
68 EPISTEMUS Claudio Alfredo López Miranda et al.: UNISON / EPISTEMUS 17 / Año 8/ 2014/ pág.: 63-69
ejemplo, el intervalo de confianza para el valor esperado La figura 5 nos permite comparar el comportamiento
de la concentración de CO2 cuando se de los intervalos de confianza en los distintos tiempos x’s.
estima como lo presenta Devore [5, p. 479]: Vemos que a medida que el tiempo se aleja del centro,
ambos intervalos se expanden, siendo el intervalo de
(16) confianza para el promedio mucho más estrecho que el de
predicción, tal como se dijo previamente. Las longitudes
el cual está basado en el siguiente estadístico mínimas y máximas de los intervalos de confianza y de
presentado por Devore [5, p. 478] que tiene distribución t predicción resultaron respectivamente 0.5733, 1.1356,
con grados de libertad: 7.9642 y 8.0243, las cuales se incluyeron en este análisis.
(17) CONCLUSIONES
Este trabajo presentó una aplicación de los modelos
Por otra parte, para calcular un Intervalo de predicción de regresión lineal para estimar y pronosticar la tendencia
para una observación y futura de la concentración de CO2 de la concentración de CO2 emitida por el volcán Mauna
cuando tenemos la ecuación: Loa con respecto al tiempo. Se mostró que la técnica de
regresión es útil y adecuada como modelo pronosticador.
, (18) Además, se presentó el error de estimación y se analizó
el comportamiento de un intervalo de confianza para
el cual está basado en el siguiente estadístico que la concentración promedio de CO2 y de un valor
también tiene una distribución t con grados de de predicción en cualquier momento. El trabajo fue
libertad, revisar Devore [5, p. 482]: presentado de manera didáctica para estudiantes de
ciencias exactas y naturales, como prototipo de artículo
de investigación donde se aplique el modelo de regresión
(19) lineal simple, aunque también puede servir para orientar
a estudiantes de algunas áreas donde se enseñen tanto la
parte descriptiva como de inferencia de este modelo de
En la figura 4 aparecen los intervalos de confianza regresión.
para la concentración promedio esperada y un valor
de predicción y. Observe que el intervalo de confianza BIBLIOGRAFÍA
para la concentración promedio esperada es mucho más
estrecho que el intervalo de confianza para la predicción 1) F. Galton, «Regression towards mediocrity in hereditary
stature,» Anthropological Miscellanea, 1889.
de observaciones, ya que a medida que el valor x se acerca 2) J. Lattin, J. D. Carroll, P. E. Green, «Analyzing Multivariate
al promedio de los datos ( ) la desviación del estadístico Data,» Belmont, CA: Duxbury Applied Series, 2002.
utilizado es menor (15). 3) N. R. Draper, H. Smith, «Applied Regression Analysis,» New
York: 3rd Ed., Wiley, 1998.
4) C. Pérez, «Técnicas de Análisis de Datos con SPSS,» Madrid:
345 Pearson Prentice Hall, 2009.
5) J. L. Devore, «Probabilidad y Estadística para Ingeniería y
Ciencias,» México: Séptima Edición, Cengage Learning, 2008.
340
335
CO2 ( ppm )
330
325
Recta de regresión
Intervalo de confianza
320
data3
Intervalo de predicción
data5
315 Datos observados
310
0 20 40 60 80 100 120 140 160 180 200
x tiempo en meses
Claudio Alfredo López Miranda et al.: Propuesta de proyecto de estadística: un modelo de… EPISTEMUS 69