Está en la página 1de 8

Introducción

Se adapta a una amplia variedad de situaciones. En la investigación


social, el análisis de regresión se utiliza para predecir un amplio rango de
fenómenos, desde medidas económicas hasta diferentes aspectos del
comportamiento humano. En el contexto de la investigación de mercados
puede utilizarse para determinar en cuál de diferentes medios de
comunicación puede resultar más eficaz invertir; o para predecir el número
de ventas de un determinado producto. En física se utiliza para
caracterizar la relación entre variables o para calibrar medidas. Etc.
Tanto en el caso de dos variables (regresión simple) como en el de
más de dos variables (regresión múltiple), el análisis de regresión lineal
puede utilizarse para explorar y cuantificar la relación entre una variable
llamada dependiente o criterio (Y) y una o más variables llamadas
independientes o predictoras (X1, X2, ..., Xk), así como para desarrollar una
ecuación lineal con fines predictivos. Además, el análisis de regresión lleva
asociados una serie de procedimientos de diagnóstico (análisis de los
residuos, puntos de influencia) que informan sobre la estabilidad e
idoneidad del análisis y que proporcionan pistas sobre cómo
perfeccionarlo.
Nuestro objetivo es el de proporcionar los fundamentos del análisis de
regresión. Al igual que en los capítulos precedentes, no haremos hincapié
en los aspectos más técnicos del análisis, sino que intentaremos fomentar
la compresión de cuándo y cómo utilizar el análisis de regresión lineal, y
cómo interpretar los resultados. También prestaremos atención a otras
cuestiones como el chequeo de los supuestos del análisis de regresión y la
forma de proceder cuando se incumplen.
Parte 1: Regresión

1. Investigar una problemática referida a un problema de regresión:

En estadística, el análisis de la regresión es un proceso estadístico para


estimar las relaciones entre variables. Nosotros analizaremos en este caso las
calificaciones de los estudiantes están relacionadas con el tiempo que dedican
al estudio, el gasto familiar está relacionado con el ingreso familiar. Existen
muchas variables, en especial cuantitativas, que se relacionan en algún grado
con otras; entonces, es posible que una de las variables pueda expresarse
matemáticamente en función de la otra. Frecuentemente se nos formulan las
siguientes preguntas: ¿El peso de las personas está relacionado con la
estatura? ¿El tiempo de servicio de trabajo activo tiene relación con la edad?
¿El ingreso o salario está relacionado con el nivel educativo? ¿El ahorro
familiar tiene relación con los ingresos? ¿La demanda de un producto
dependerá de los precios?, etc. Estadísticamente nos interesa analizar la
relación entre dos o más variables, siempre que se tenga un indicio de que
entre ellas existe por lo menos cierto grado de dependencia o asociación. Lo
importante es medir y expresar funcionalmente esta relación mediante una
función o modelo matemático. Estudiaremos el análisis de regresión entre dos
variables X e Y, y el grado de relación entre ellas mediante el análisis de
correlación.

2. Realizar un análisis de correlación:


Nos proponemos investigar si dos variables son independientes o covarían,
esto es, si varían conjuntamente. No expresamos una variable como función de
la otra, así como tampoco hacemos distinción alguna entre variables
dependientes e independientes. Puede muy bien suceder que, de una pareja
de variables cuya correlación se estudia, una sea causa de la otra, aunque
nosotros no lo sepamos ni lo sospechemos. Una hipótesis importante, aunque
no esencial, es que las dos variables sean efectos de una causa común y lo
que se desea conocer es el grado en el que ambas variables varían
conjuntamente. Así, podríamos estar interesados en la correlación entre las
longitudes de las extremidades superiores y extremidades inferiores en una
población de estudiantes, o entre el peso y la estatura de un grupo de
estudiantes, o entre los días necesarios para la madurez y el número de
semillas en una siembra. La correlación lineal mide el grado de la asociación
lineal entre dos variables denotadas con X e Y. Analizando el diagrama de
dispersión o nube de puntos podemos visualizar el tipo de correlación lineal
entre las variables involucradas.

Ilustración 1 : tipo de correlación

3. Ajustar el modelo de regresión. Realizar el análisis de las variables


que ingresan o no al modelo

Coeficiente de determinación

El coeficiente de determinación 2 R, multiplicado por 100, indica

el porcentaje de la variación de la variable dependiente y que es

explicado por las variaciones de las variables independientes del

modelo.

También se dice que mide la bondad del ajuste o de la recta de


regresión ajustada por el método de mínimos cuadrados.

Se puede demostrar que la variabilidad de Y , expresada por

la suma de cuadrados total, SST = ( )2

i ∑ y y −, se puede dividir en dos componentes: la suma de cuadrados debido a


la regresión, ( )2

ˆ SSR y y = − ∑ i , y la suma de cuadrados debido a los

residuos, ( )2

ˆ SSE = − ∑ y y i i . Es decir: , donde:

SST : suma de cuadrados del total

SSR : suma de cuadrados debido a la regresión

SSE : suma de cuadrados debido a los residuos

La ecuación de regresión lineal simple estudiada en la sección anterior, se puede


generalizar a una ecuación de regresión lineal múltiple, cuando se tenga dos o más
variables independientes o regresoras 1 2 , ,...., XX Xk , y una variable independiente o
respuesta Y . Explicaremos el análisis de regresión lineal múltiple con los datos del
ejemplo 10, en el que se muestran los coeficientes de inteligencia (IQ), los promedios
de las calificaciones y el tiempo que dedican al estudio 12 estudiantes. Se desea
predecir el promedio de las calificaciones de estos estudiantes en función de sus
coeficientes de inteligencia y de los tiempos que dedican al estudio. Se tienen dos
variables regresoras: coeficiente de inteligencia, X1 y tiempo dedicado al estudio, X2 ,
para explicar el comportamiento de la variable dependiente o respuesta Y : calificación
promedio de los estudiantes.

Para el problema descrito se postula la forma general de la

ecuación de regresión lineal múltiple:

1 2 ˆ ˆ Y a bX cX =+ + ˆ ˆ (5.7)

donde:

Yˆ : valores estimados de la variable dependiente o respuesta,

aˆ , ˆ
b , cˆ: coeficiente de regresión de la ecuacuón de regresión lineal múltiple,

X1 , X2 : variables independientes o regresoras,

Esta ecuación es muy similar a la utilizada en la regresión

lineal simple, excepto que agregamos otra variable independiente.

Para hallar los valores de aˆ , ˆ

b , cˆ, se toma una muestra de los

valores ( i y , 1i x 2i x ) i n = 1,..., , y para cada punto se tiene el

sistema de ecuaciones, y a bx cx i ii =+ + 1 2 , donde i y es el

i-ésimo valor de la variable Y , 1i x , 2i x , los i-ésimos valores

de las variables independientes X1 , X2 , .

Ilustración 2: promedio de calificaciones intelectual y tiempo dedicado al estudio

4. Realizar un análisis de bondad de ajuste

Además de acompañar la recta con su fórmula, podría resultar útil


disponer de alguna indicación precisa del grado en el que la recta se ajusta
a la nube de puntos. De hecho, la mejor recta posible no tiene por qué ser
buena.
Imaginemos una situación como la presentada en el diagrama de la
figura 1, en el que la recta consigue un ajuste bastante más pobre que en
el caso . Ahora hemos representado el porcentaje de alcohol de las
cervezas (eje horizontal) y el precio de las mismas (eje vertical). Y no
parece existir la misma pauta de asociación detectada entre las variables
de la situación anterior.
Así pues, aunque siempre resulta posible, cualquiera que sea la nube
de puntos, obtener la recta mínimo-cuadrática, necesitamos información
adicional para determinar el grado de fidelidad con que esa recta describe la
pauta de relación existente en los datos.

Parte II: Series de tiempo

1. Investigar una serie de tiempos que sea de su interés

Se establecen resultados de la tipificación climática basada en algunas de las


clasificaciones más utilizadas por la comunidad científica luego de haber analizado
series temporales desde el año 2012 hasta el año 2017 de variables climáticas cuyos
datos fueron facilitados por EPM y la página oficial de la Nasa, con el objetivo de
identificar el comportamiento de las variables meteorológicas físicas que
describen el clima en Chile .

La interacción entre la radiación solar, la atmosfera y la superficie terrestre


representan un ciclo dinámico que al ser determinado en un rango de tiempo y
un área definida generan un efecto llamado clima, debido a que la superficie
terrestre se encuentra conformada por cuerpos de agua como por zonas de tierra
firme ,pero ninguna de estas dos tiene un área fija, entonces el clima resulta ser un
efecto versátil que estará definido por variables meteorológicas como lo son: la
nubosidad, la precipitación, la velocidad y dirección del viento y humedad relativa.

La interacción entre la radiación solar, la atmosfera y la superficie terrestre


representan un ciclo dinámico que al ser determinado en un rango de tiempo y
un área definida generan un efecto llamado clima, debido a que la superficie
terrestre se encuentra conformada por cuerpos de agua como por zonas de tierra
firme ,pero ninguna de estas dos tiene un área fija, entonces el clima resulta ser un
efecto versátil que estará definido por variables meteorológicas como lo son: la
nubosidad, la precipitación, la velocidad y dirección del viento y humedad relativa.
motivo es válido afirmar que el clima representa un papel muy importante para los
seres vivos ya que este es participe directo en la mayoría de los procesos fisiológicos
existentes, pero igualmente sucede en la dirección contraria, es decir, que algunas
actividades humanas como por ejemplo la explotación desmedida de recursos
naturales, las emisiones de gases contaminantes, la tala de selvas tropicales o la
ganadería excesiva pueden incidir negativamente en este fenómeno aumentando el
efecto invernadero y el calentamiento global

2. Realizar una presentación de la serie de tiempo. Contexto y


descriptivamente

Ventas
ïndice
Año t Trimestre Ventas Desestacionalizada
estacional
s
2012 1 Invierno 6.7 0.7667 8.7390
2 Primavera 4.6 0.5760 7.9856
3 Verano 10 1.1440 8.7409
4 Otoño 12.7 1.5225 8.3416
2013 5 Invierno 6.5 0.7667 8.4781
6 Primavera 4.6 0.5760 7.9856
7 Verano 9.8 1.1440 8.5661
8 Otoño 13.6 1.5225 8.9327
2014 9 Invierno 6.9 0.7667 8.9999
10 Primavera 5 0.5760 8.6800
11 Verano 10.4 1.1440 9.0905
12 Otoño 14.1 1.5225 9.2611
2015 13 Invierno 7 0.7667 9.1303
14 Primavera 5.5 0.5760 9.5481
15 Verano 10.8 1.1440 9.4402
16 Otoño 15 1.5225 9.8523
2016 17 Invierno 7.1 0.7667 9.2607
18 Primavera 5.7 0.5760 9.8953
19 Verano 11.1 1.1440 9.7024
20 Otoño 14.5 1.5225 9.5239
2017 21 Invierno 8 0.7667 10.4346
22 Primavera 6.2 0.5760 10.7633
23 Verano 11.4 1.1440 9.9646
24 Otoño 14.9 1.5225 9.7866
3. Aplicar suavizamientos que nos puedan ayudar a observar
características de las series de tiempo. También, mostrar todos los
componentes que esta serie pueda tener.

La tendencia es el movimiento de los datos hacia arriba o hacia abajo a lo largo del
tiempo. También, ocurre que los datos se mantienen estables, esto significa que las
ventas no aumentan ni disminuyen conforme pasa el tiempo.
La estacionalidad se identifica como el patrón que muestran los datos en intervalos
regulares, por encima o por debajo de la estación promedio. Una estación con un
factor estacional igual a uno de interpreta como una estación promedio; una estación
con factor estacional mayor que uno se interpreta como una estación por encima del
promedio y, una estación con un factor estacional menor que uno se interpreta como
una estación por debajo del promedio.
La ciclicidad son los patrones que se identifican en ciertos intervalos de tiempo, se
asocia la ciclicidad al cilco económico.
La diferencia entre estacionalidad y ciclicidad es que la estacionalidad ocurre a
intervalos de tiempo conocidos y los intervalos de tiempo en los que ocurre la
ciclicidad no se pueden determinar con precisión.

Las variaciones aleatorias son irregularidades que se suponen explica el azar. No


muestran un patrón y presentan una distribución normal con media igual a cero.

  Invierno Primavera Verano Otonño


2012     1.180 1.503
2013 0.772 0.540 1.130 1.550
2014 0.775 0.553 1.141 1.535
2015 0.753 0.581 1.126 1.558
2016 0.733 0.590 1.143 1.466
2017 0.801 0.615    
Media 0.7667 0.5760 1.1440 1.5225

También podría gustarte