Está en la página 1de 50

UNIDAD

VII
INDICE

7.1.Modelos Simples.
7.2 Método de Mínimos Cuadrados.
7.3 Inferencias Relativas a la Pendiente de la Regla
de Regresión.
7.4 Predicción de un Valor Particular de Y para un
Valor de X.
7.5 Coeficiente de Correlación y Coeficiente de
Determinación.
7.6 Inferencias Relativas al Coeficiente de
Correlación.
INTRODUCCION

Los análisis de regresión y correlación


nos mostraran como determinar la
naturaleza como la fuerza de una
relación entre dos variables.
INTRODUCCION
El término regresión fue introducido por Galton en su libro
“Natural inheritance” (1889) refiriéndose a la “ley de la regresión
universal”:

“Cada peculiaridad en un hombre es compartida por sus


descendientes, pero en media, en un grado menor.”
Regresión a la media
Su trabajo se centraba en la descripción de los rasgos físicos de
los descendientes (una variable) a partir de los de sus padres
(otra variable).
Pearson (un amigo suyo) realizó un estudio con más de 1000
registros de grupos familiares observando una relación del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.) Francis Galton
•Primo de Darwin
Conclusión: los padres muy altos tienen tendencia a tener hijos •Estadístico y Fundador
que heredan parte de esta altura, aunque tienen tendencia a (con otros) de la
acercarse (regresar) a la media. Lo mismo puede decirse de los estadística Moderna para
padres muy bajos. explicar las teorías de
Darwin.
Hoy en día el sentido de regresión es el de predicción de una
medida basándonos en el conocimiento de otra.
.
INTRODUCCION

Una de las aplicaciones mas


importantes de la estadística implica la
estimación del valor medio de una
variable y o la predicción de algún valor
futuro de y con base el conocimiento de
un conjunto de variables
independientes relacionadas, x1, x2, . . .
xk.
INTRODUCCION

Los modelos que se emplean para relacionar una


variable dependiente y con las variables
independientes x1, x2, . . . xk se denominan
modelos de regresión o modelos estadísticos
lineales porque expresan el valor medio de y para
valores dados de x1, x2, . . . xk como una función
lineal de un conjunto de parámetros
desconocidos.
INTRODUCCION

La relación directa entre dos variables describe


una relación simple entre dos variables, donde
decimos que al incrementarse la variable
independiente también lo hace la variable
dependiente, y viceversa.

La relación inversa entre dos variables describe


una relación simple entre dos variables, donde
decimos que al incrementarse la variable
independiente la variable dependiente disminuye,
y viceversa.
RELACION TIPO ESTADISTICO ENTRE DOS VARIABLES.
EJEMPLOS

Horas de estudio (x) Calificación obtenida (y)


Libros leídos (x) Errores ortográficos (y)
Medidas preventivas (x) Núm. Lesiones (y)
Edad (x) Respuestas inadecuadas (y)
Contaminación (x) Enfermedades (y)
CORRELACIÓN

DIAGRAMAS DE DISPERSIÓN

El DIAGRAMA DE DISPERSIÓN permite formarse una primera


impresión sobre el tipo de relación existente entre variables

Intentar cuantificar esa relación tiene inconvenientes porque la


relación entre dos variables no siempre es perfecta o nula

Normalmente ni lo uno ni lo otro


DIAGRAMAS DE DISPERSIÓN

Un DIAGRAMA DE DISPERSIÓN ofrece una idea bastante


aproximada sobre el tipo de relación existente entre dos variables

Un DIAGRAMA DE DISPERSIÓN también puede utilizarse como


una forma de cuantificar el grado de relación lineal existente entre
dos variables
REPRESENTACIÓN GRÁFICA
REPRESENTACIÓN GRÁFICA
REPRESENTACIÓN GRÁFICA
REPRESENTACIÓN GRÁFICA
Estudio conjunto de dos variables

A la derecha tenemos una posible manera de recoger los


datos obtenido observando dos variables en varios
individuos de una muestra.
Altura Peso en
 En cada fila tenemos los datos de un individuo en cm. Kg.
162 61
 Cada columna representa los valores que toma una 154 60
variable sobre los mismos.
180 78
 Las individuos no se muestran en ningún orden 158 62
particular. 171 66
169 60
Dichas observaciones pueden ser representadas en un 166 54
diagrama de dispersión. En ellos, cada individuos es un
punto cuyas coordenadas son los valores de las variables. 176 84
163 68
Nuestro objetivo será intentar reconocer a partir del mismo ... ...
si hay relación entre las variables, de qué tipo, y si es
posible predecir el valor de una de ellas en función de la
otra.
Diagramas de dispersión o nube de puntos

Tenemos las alturas y los pesos de 30 individuos representados en un


diagrama de dispersión.

100
90
80 Pesa 76 kg.
70
60

Mide 187 cm.


Pesa 50 kg.
50
40 Mide 161 cm.

30
140 150 160 170 180 190 200
Relación entre variables

Tenemos las alturas y los pesos de 30 individuos representados en un


diagrama de dispersión.

100
n la
90 co
ent a
80 aum
es o
70 el p
que
60 r e ce
Pa ra
50 altu
40
30
140 150 160 170 180 190 200
Predicción de una variable en función de la otra

Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea, el


peso aumenta en una unidad por cada unidad de altura.

100
90
80
70
10 kg.
60
50
40 10 cm.

30
140 150 160 170 180 190 200
Relación directa e inversa

330 100

Incorrelación 90 Fuerte relación


280
80 directa.
230
70
180
60
130 50
80 40

30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Para valores de X por encima de la • Para los valores de X mayores que la media
media tenemos valores de Y por le corresponden valores de Y mayores
encima y por debajo en proporciones también.
similares. Incorrelación. • Para los valores de X menores que la media
le corresponden valores de Y menores
80 también.
70 Cierta relación Esto se llama relación directa.
60 inversa
50
40
30 Para los valores de X mayores que la
20 media le corresponden valores de Y
10
0
menores. Esto es relación inversa o
140 150 160 170 180 190 200 decreciente.
¿Cuándo es bueno un modelo de regresión?

r= 0.415
420

r^2 = 0.172
Lo adecuado del modelo depende de la relación
400

entre:
 la dispersión marginal de Y
380

 La dispersión de Y condicionada a X
y

360

Es decir, fijando valores de X, vemos cómo se


340

distribuye Y
320

La distribución de Y, para valores fijados de X,


150 160 170 180 190
se denomina distribución condicionada.
r= 0.984
390

r^2 = 0.969
La distribución de Y, independientemente del
valor de X, se denomina distribución marginal.
380

Si la dispersión se reduce notablemente, el modelo


de regresión será adecuado.
370
y

360
350

150 160 170 180 190


MODELOS DE REGRESIÓN

Una vez que sabemos que dos variables están


relacionadas…

¿Cómo averiguar qué tipo de relación tienen?

Para esto utilizamos los modelos de regresión


REGRESIÓN LINEAL SIMPLE

CONCEPTO DE REGRESIÓN

La regresión como técnica estadística analiza la


¿QUÉ ES?
relación de dos o más variables continuas.

La regresión se utiliza para inferir datos a


¿PARA QUÉ
partir de otros y hallar una respuesta a lo
SIRVE?
que pueda suceder
REGRESIÓN LINEAL SIMPLE

VARIABLES DE LA REGRESIÓN
Las variables del modelo de regresión deben ser cuantitativas

Dada la robustez de la regresión es frecuente encontrar incluidas


como variable independiente variables nominales transformadas

La variable dependiente debe ser siempre cuantitativa

Robustez: un estadístico se dice que es


robusto cuando es válido aunque no se
cumpla alguno de sus supuestos
REGRESIÓN LINEAL SIMPLE

TIPOS DE REGRESIÓN

Se pueden encontrar distintos tipos de regresión

1 Regresión Lineal

2 Regresión Múltiple

3 Regresión Logística
REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL

Consideremos una variable aleatoria (dependiente) Y,


relacionada con otra variable que llamaremos (independiente) X

Supongamos una muestra de n individuos para los que se


conocen los valores de ambas variables

Y Variable dependiente
Hacemos una representación
gráfica:
X Variable independiente
 en el eje X la variable
independiente. Muestra
n
 en el Y la dependiente.
REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL

OBJETIVO Encontrar una recta que se ajuste a la nube de puntos

A partir de esa recta podemos usar los valores de X para predecir


los de Y

Normalmente se utiliza el “método de los mínimos cuadrados” que


minimiza la distancia de las observaciones a la recta
REGRESIÓN LINEAL SIMPLE

REPRESENTACIÓN GRÁFICA

Una recta tiene una ecuación muy simple:

Y=a+bX
b
Habría que calcular los
coeficientes a,b.

b es la pendiente de la recta

a es el punto en que la recta corta el eje vertical


REGRESIÓN LINEAL SIMPLE

Para el cálculo de la recta de regresión se aplica el método de mínimos


cuadrados entre dos variables. Esta línea es la que hace mínima la suma de
los cuadrados de los residuos, es decir, es aquella recta en la que las
diferencias elevadas al cuadrado entre los valores calculados por la ecuación
de la recta y los valores reales de la serie, son las menores posibles.

y = a + bx Recta de Regresión
REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL

Conociendo los valores de estos dos coeficientes podríamos


reproducir la recta y describir con ella la relación entre las variables

Además de representar la recta con su fórmula también es útil


disponer de alguna información sobre el grado en que la recta se
ajusta a la nube de puntos
REGRESIÓN LINEAL SIMPLE

El método más empleado para describir una


tendencia lineal es el de mínimos cuadrados,
para encontrar una línea de mejor ajuste para
un conjunto de puntos.
Y´ = a + bX

Y´ = valor pronosticado para la variable X


a = valor de la tendencia cuando X = 0
b = pendiente de la recta de tendencia
X = valor de la Variable independiente.
Formulas de Regresión Lineal

n xy   x  y
b
n x    x 
2 2

a
 y
b
 x
n n
EJEMPLO

Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y,
kg) de una muestra de 12 hombres adultos. Para cada estatura fijada
previamente se observó el peso de una persona seleccionada de entre el grupo
con dicha estatura, resultando:

Con estos datos vamos a plantear una ecuación de regresión simple que nos
permita pronosticar los pesos conociendo las tallas.

X 152 155 152 155 157 152 157 165 162 178 183 178

Y 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82

Si una persona mide 180 cms. ¿Cuál sería su peso aproximado?


DEFINICIÓN DE CORRELACIÓN

Se considera que dos variables cuantitativas


están relacionadas entre sí cuando los
valores de una de ellas varían de forma
sistemática conforme a los valores de la otra.
COEFICIENTE DE CORRELACIÓN

EL COEFICIENTE DE CORRELACIÓN DE PEARSON

 El coeficiente de correlación de Pearson es un


índice estadístico que permite definir de forma más
concisa la relación entre las variables
 Es una medida de la relación lineal entre dos variables
medidas con escala numérica
COEFICIENTE DE CORRELACIÓN

EL COEFICIENTE DE CORRELACIÓN DE PEARSON

Su resultado es un valor que fluctúa entre -1 y +1…


COEFICIENTE DE CORRELACIÓN

El valor del coeficiente de correlación está


muy influenciado por los valores extremos,
igual que la desviación estándar.

Por tanto la correlación no describe bien la


relación entre dos variables cuando cada
una de ellas tiene valores extremos

En estos casos debe hacerse una transformación


de los datos o usarse la correlación de Spearman
COEFICIENTE DE CORRELACIÓN

Finalmente, correlación no es igual a causa

Correlación = Causa

El juicio de que una característica causa otra debe justificarse


con argumentos, no sólo con el coeficiente de correlación
COEFICIENTE DE CORRELACIÓN
DE PEARSON

Sirve para medir la relación existente entre las variables correlacionadas.


Se agregan tres columnas más.
x y xy x2 y2

Σx Σy Σxy Σx2 Σy2

Se sustituyen los valores en el coeficiente Pearson.


Ejercicios. Calcula el coeficiente de correlación Pearson
Edad Respuestas
(x) inadecuadas
(y)
2 11
3 12
4 10
5 11
5 9
7 3
9 8
10 3
11 6
11 5
DIFERENCIA ENTRE CORRELACIÓN Y REGRESIÓN:

La correlación es independiente de la escala pero


no la regresión

La correlación entre estatura y peso es la misma


EJEMPLO sin importar que la estatura se mida en metros o
centímetros.

La ecuación de regresión entre el peso y la


SIN EMBARGO…
estatura depende de las unidades que utilicemos.
SIMILITUDES ENTRE CORRELACIÓN Y REGRESIÓN:

La pendiente de la línea de regresión tiene el


mismo signo que el coeficiente de correlación

¡OJO!
La correlación y la regresión sólo describen relaciones lineales.
Si los coeficientes de correlación y las ecuaciones de regresión
se calculan a ciegas, sin examinar las gráficas, los
investigadores pasarán por alto relaciones muy estrechas pero
no lineales
BONDAD DEL AJUSTE

Una medida de ajuste muy


Cuadrado del coeficiente de
aceptada es el coeficiente
correlación lineal
de determinación R2

Se trata de una medida estandarizada que toma valores entre 0 y 1

La recta explica un 86% de la variabilidad


R2=0.86
de Y en función de X
Coeficiente de Determinación

Denominamos coeficiente de determinación R2 como el


coeficiente que nos indica el porcentaje del ajuste que se
ha conseguido con el modelo lineal, es decir el porcentaje
de la variación de Y que se explica a través del modelo
lineal que se ha estimado, es decir a través del
comportamiento de X. A mayor porcentaje mejor es
nuestro modelo para predecir el comportamiento de la
variable Y.

También se puede entender este coeficiente de


determinación como el porcentaje de varianza explicada
por la recta de regresión y su valor siempre estará entre 0
y 1 y siempre es igual al cuadrado del coeficiente de
correlación (r).
Modelos de Regresión Lineal
Función Lineal de Regresión

Una pregunta importante que se plantea en el


análisis de regresión es la siguiente: ¿Qué parte de
la variación total en Y se debe a la variación en X?
¿Cuánto de la variación de Y no explica X?

El estadístico que mide esta proporción o


porcentaje se denomina coeficiente de
determinación (R2). Si por ejemplo, al hacer los
cálculos respectivos se obtiene un valor de 0.846.
Esto significa que el modelo explica el 84.6 % de la
variación de la variable dependiente.
REGRESIÓN LINEAL SIMPLE PRONOSTICOS

El método más empleado para describir una


tendencia lineal es el de mínimos cuadrados,
para encontrar una línea de mejor ajuste para un
conjunto de puntos.
Y´ = a + bX
Y´ = valor pronosticado en un periodo X
a = valor de la tendencia cuando X = 0
b = pendiente de la recta de tendencia
X = periodo (codificado)
Regresión Lineal: Ejemplo Pronostico

X Y X*Y X²

2004 35

2005 42

2006 48

2007 51

2008 54

2009 60

2010 71

2011 75

Sumas
Regresión Lineal: Ejemplo

t Yt Y´t et
1 35

2 42
3 48
4 51
5 54
6 60
7 71
8 75
9
Regresión Lineal: Fórmulas de medición del error en el Pronostico

Yt  valor de una serie de tiempo en el periodo t


Yˆt  valor del pronóstico para Yt
Error del pronóstico o residual :
et  Yt  Yˆt
Regresión Lineal: Fórmulas de medición del error en el Pronóstico

Error medio cuadrado :


n

 Y  Yˆt 
2
t
EMC  t 1
n

También podría gustarte