Está en la página 1de 9

7.

- ANÁLISIS DE REGRESIÓN Y CORRELACIÓN SIMPLES

Son métodos estadísticos que estudian la relación ( forma e intensidad o grado) entre 2 variables
estadísticas cuantitativas que se estudian simultáneamente, con el objeto de hacer pronósticos.
Observación : El término correlación es usado, en general, para referirse a la relación de dependencia
entre variables estadísticas.

1. CONCEPTOS GENERALES

1.1. NOTACIÓN

Definidas dos variables estadísticas, que serán estudiadas simultáneamente, tendremos el


vector ( X , Y ) cuyas respuestas, valores o mediciones; ( x1, y1), (x2, y2), . . . , (xn, yn) se
obtendrán de la misma unidad estadística respectivamente, esto es :

Unidad estadística Observación X Observación Y

A1 x1 y1

A2 x2 y2

⋮ ⋮ ⋮

. . .

An xn yn

Donde n es el tamaño de la muestra.

Observación : 1. La muestra tomada de esta manera es llamada muestra apareada.

2. N es el tamaño de la población.

1.2. NUBE DE PUNTOS O DIAGRAMA DE DISPERSIÓN


Figura que hace corresponder a cada par observado de valores (𝑥𝑖 , 𝑦𝑖 ) un punto en el plano
cartesiano.

Y Y Y

◦ ◦ ◦ ◦

◦ ◦ ◦ ◦
◦ ◦
◦ ◦ ◦ ◦

X X X
(a) (b) (c)

En ( a ) hay dependencia funcional ( Matemática )


En ( b ) hay dependencia estadística ( ∃ correlación )
En ( c ) no hay dependencia estadística ( ∄ correlación )

1.3. DEFINICIÓN DE LA VARIABLE DEPENDIENTE


Dadas las variables X e Y, puede suceder :
1. LA VARIABLE DEPENDIENTE ES Y

Y 𝑌̂ = 𝑓(𝑥)
° ◦
𝑦̂ - - - - - - - - ∘ - - - - - - - - - - ◦ (𝑥, 𝑦̂)
⋮ °
° ⋮

𝑥 X
𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑜

2. LA VARIABLE DEPENDIENTE ES X

Y 𝑋̂ = 𝑓(𝑦)

𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑜 ° °
𝑦 - - - - - - - - - - - - - - - - - ◦ (𝑥̂, 𝑦) °

° ⋮

𝑥̂ X

1.4. METODO DE MINIMOS CUADRADOS

Método que consiste en determinar la función matemática que mejor se “ajuste” a los datos,
haciendo mínima la suma de los cuadrados de los desvíos de los valores observados respecto a
los valores ajustados ( considerando Y como variable dependiente ). Esto es:

∑𝑛𝑖=1( 𝑦𝑖 − 𝑦̂)
𝑖
2
= 𝑚í𝑛𝑖𝑚𝑜
donde 𝑦𝑖 es el i-ésimo valor observado
𝑦̂𝑖 es el i-ésimo valor ajustado.

Observaciones:
1. Los 𝑦𝑖 son los segundos componentes de los pares ( 𝑥𝑖 , 𝑦𝑖 ) y los 𝑦̂𝑖 son los valores
obtenidos al reemplazar 𝑥𝑖 ( el primer componente del par ) en la función matemática
ajustada.
2. El mínimo se hallará usando el criterio de la derivada.

1.5. DESCOMPOSICIÓN DE LA VARIACIÓN TOTAL DE LA VARIABLE DEPENDIENTE

Para la variable dependiente Y se tiene, gráficamente:


Y
𝑌̂ = 𝑓(𝑥)

𝑦𝑖 ◦ ( 𝑥𝑖 , 𝑦𝑖 )
( 𝑦𝑖 − 𝑦̂𝑖 ) {

𝑦̂𝑖 (𝑦𝑖 − 𝑌) − − − − − − − − − − ◦ (𝑥𝑖 , 𝑦̂)


𝑖

( 𝑦̂𝑖 − 𝑌 ) {
̅
{
𝒀

𝑥𝑖 X

SUMA DE CUADRADOS TOTAL : Expresa la variación total en Y


2
∑𝑛
𝑖=1( 𝑦𝑖 − 𝑌 )
𝑆𝐶𝑇 = 𝑛

= 𝐸𝑅𝑅𝑂𝑅 𝑇𝑂𝑇𝐴𝐿

SUMA DE CUADRADOS DEBIDA A LA REGRESION : Proporción de la SCT que ha sido


explicada por la regresión de Y sobre X ( función matemática ajustada)
2
∑𝑛
𝑖=1( 𝑦
̂𝑖 − 𝑌 )
𝑆𝐶𝑅 = 𝑛

= 𝐸𝑅𝑅𝑂𝑅 𝐸𝑋𝑃𝐿𝐼𝐶𝐴𝐷𝑂

SUMA DE CUADRADOS DEL ERROR : Representa aquella parte de la SCT que no ha sido
explicada por la variable independiente X

∑𝑛 ̂𝑖 )2
𝑖=1( 𝑦𝑖 − 𝑦
𝑆𝐶𝐸 = 𝑛

= 𝐸𝑅𝑅𝑂𝑅 𝑁𝑂 𝐸𝑋𝑃𝐿𝐼𝐶𝐴𝐷𝑂

∴ 𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸

2.- REGRESION SIMPLE


Estudia la relación de tipo funcional ( función matemática entre dos variables estadísticas) y puede
ser :
• Simple lineal
• Simple no lineal

2.1. REGRESIÓN SIMPLE LINEAL


Si la nube de puntos tiene un comportamiento elíptico,
Y ° Y
◦ ◦ ° °
◦ ◦ ◦ ◦ ◦ °

X X

Entonces los datos pueden ser representados por una línea recta y sabemos que el tipo
de función a “ ajustar “ será el polinomio de primer grado :

𝑌̂ = 𝑎 + 𝑏𝑥

𝑑𝑜𝑛𝑑𝑒 𝑎 = 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑐𝑖ó𝑛 𝑐𝑜𝑛 𝑒𝑙 𝑒𝑗𝑒 𝑌


𝑏 = 𝑈𝑛𝑖𝑑𝑎𝑑𝑒𝑠 𝑒𝑛 𝑙𝑜𝑠 𝑞𝑢𝑒 𝑎𝑢𝑚𝑒𝑛𝑡𝑎 ( 𝑑𝑖𝑠𝑚𝑖𝑛𝑢𝑦𝑒 ) 𝑌 𝑝𝑜𝑟 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑢𝑛𝑖𝑡𝑎𝑟𝑖𝑎 𝑑𝑒 𝑋
𝐴𝑑𝑒𝑚á𝑠 𝑎 𝑦 𝑏 𝑠𝑜𝑛 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑐𝑡𝑎.

Por el método de Mínimos cuadrados se debe cumplir :

∑𝑛𝑖=1( 𝑦𝑖 − 𝑦̂)
𝑖
2
= ∑𝑛𝑖=1( 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2 = 𝑓( 𝑎 , 𝑏 ) = 𝑚𝑖𝑛𝑖𝑚𝑜

Por el criterio de la derivada, debemos resolver el siguiente sistema de ecuaciones,


llamadas Ecuaciones Normales :

𝝏 𝒇(𝒂,𝒃)
=𝟎
𝝏𝒂
{
𝝏 𝒇(𝒂,𝒃)
=𝟎
𝝏𝒃

∑𝒏𝒊=𝟏 𝒚𝒊 = 𝒏𝒂 + 𝒃 ∑𝒏𝒊=𝟏 𝒙𝒊
{
∑𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊 = 𝒂 ∑𝒏𝒊=𝟏 𝒙𝒊 + 𝒃 ∑𝒏𝒊=𝟏 𝒙𝟐𝒊

Resolviendo, se tiene :

𝑎 = 𝑌 − 𝑏𝑋
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 − ∑𝑖=1 𝑥𝑖 ∑𝑖=1 𝑦𝑖
𝑏= 2
𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑥𝑖 −( ∑𝑖=1 𝑥𝑖 )

Ejemplo 1.- Para el siguiente conjunto de datos bidimensionales ( X, Y ) ; (1,1), (2,2), (3,2) y
(4,3).
a). Estime el valor de 𝑦5 𝑠𝑖 𝑥 = 3,5
b). Estime el valor de 𝑥5 𝑠𝑖 𝑦 = 4

Solución a) :

1º Graficamos el diagrama de dispersión o nube de puntos


Y

3 ◦

2 ◦ ◦

1 ◦

1 2 3 4 X

2º La recta de regresión “ajustada” a los datos será :


𝑌̂ = 𝑎 + 𝑏𝑥
Por el método de mínimos cuadrados, se tienen las ecuaciones normales :

∑𝒏𝒊=𝟏 𝒚𝒊 = 𝒏𝒂 + 𝒃 ∑𝒏𝒊=𝟏 𝒙𝒊
{
∑𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊 = 𝒂 ∑𝒏𝒊=𝟏 𝒙𝒊 + 𝒃 ∑𝒏𝒊=𝟏 𝒙𝟐𝒊

donde :
𝑎 = 𝑌 − 𝑏𝑋
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 − ∑𝑖=1 𝑥𝑖 ∑𝑖=1 𝑦𝑖
𝑏= 2
𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑥𝑖 − ( ∑𝑖=1 𝑥𝑖 )

de los datos, se tiene :

i U.E 𝑥𝑖 𝑦𝑖 𝑥𝑖2 𝑥𝑖 𝑦𝑗
1 𝐴1 1 1 1 1
2 𝐴2 2 2 4 4
3 𝐴3 3 2 9 6
4 𝐴4 4 3 16 12
∑ =10 8 30 23
4(23)−10(8) 92−80 12 3
𝑏 = 4 (30)−(10)2 = 120−100
= 20 = 5

3 5 1
𝑎 = 2 − (5) 2 = 2

1 3
⟹ 𝑌̂ = 2 + 5 𝑥
1 3 1 3 7 13
∴ 𝑦
̂5 =
2
+5 𝑥5 ⟹ 𝑦̂5 = 2
+ 5 (2) ⟹ 𝑦̂5 = 5
= 2,6

2.2. REGRESIÒN SIMPLE NO LINEAL

Llamada también función de regresión curvilínea, entre las de mayor importancia


están:
- La regresión parabólica
- La regresión exponencial
- La regresión potencial
1.- REGRESION PARABOLICA
Si la nube de puntos tiene el siguiente comportamiento:
Y

◦ ◦ ◦

◦ ◦ ◦

Entonces los datos pueden ser representados por una curva y sabemos que el
tipo de función a “ ajustar “ será el polinomio de segundo grado :

𝑌̂ = 𝑎 + 𝑏𝑥 + 𝑐𝑥 2

donde 𝑎 = Intersección con la ordenada


𝑏 = Pendiente
c = Velocidad de cambio en la pendiente
Por el método de Mínimos cuadrados se debe cumplir que :

∑𝑛𝑖=1 ( 𝑦𝑖 − 𝑦̂𝑖 )2 = ∑𝑛𝑖=1 ( 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 − 𝑐𝑥𝑖2 ) 2 = 𝑓(𝑎, 𝑏, 𝑐) sea minimo .

Usando el criterio de la derivada se obtienen las sgtes. ecuaciones normales:


𝜕𝑓(𝑎,𝑏,𝑐)
=0
𝜕𝑎
𝜕𝑓(𝑎,𝑏,𝑐)
=0
𝜕𝑏
𝜕𝑓(𝑎,𝑏,𝑐)
{ =0
𝜕𝑐

∑𝑛𝑖=1 𝑦𝑖 = 𝑛𝑎 + 𝑏 ∑𝑛𝑖=1 𝑥𝑖 + 𝑐 ∑𝑛𝑖=1 𝑥𝑖2

∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 = 𝑎 ∑𝑛𝑖=1 𝑥𝑖 + 𝑏 ∑𝑛𝑖=1 𝑥𝑖2 + 𝑐 ∑𝑛𝑖=1 𝑥𝑖3

{ ∑𝑛𝑖=1 𝑥𝑖2 𝑦𝑖 = 𝑎 ∑𝑛1 𝑥𝑖2 + 𝑏 ∑𝑛𝑖=1 𝑥𝑖3 + 𝑐 ∑𝑛𝑖=1 𝑥𝑖4

Resolviendo el sistema por el método de determinantes ( regla de kramer) :


Sea M la matriz del sistema, esto es:

𝑛 ∑ 𝑥𝑖 ∑ 𝑥𝑖2
M = [ ∑ 𝑥𝑖 ∑ 𝑥𝑖2 ∑ 𝑥𝑖3 ]
∑ 𝑥𝑖2 ∑ 𝑥𝑖3 ∑ 𝑥𝑖4

Se tiene que
∑ 𝑦𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖2
| ∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖2 ∑ 𝑥𝑖3 |
∑ 𝑥𝑖2 𝑦𝑖 ∑ 𝑥𝑖3 ∑ 𝑥𝑖4
𝑎= |𝑀|
𝑛 ∑ 𝑦𝑖 ∑ 𝑥𝑖2
| ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖3 |
∑ 𝑥𝑖2 ∑ 𝑥𝑖2 𝑦𝑖 ∑ 𝑥𝑖4
𝑏= |𝑀|

𝑛 ∑ 𝑥𝑖 ∑ 𝑦𝑖
2
| ∑ 𝑥𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖 |
∑ 𝑥𝑖 ∑ 𝑥𝑖3
2 ∑ 𝑥𝑖2 𝑦𝑖
𝑐= |𝑀|

Las siguientes funciones de regresión simple no línea podrán ser reducidas a formas
lineales:
2.- REGRESIÓN EXPONENCIAL
Para datos que puedan ser representados por una curva y cuya función a “ajustar”
está dada por :
𝑌̂ = 𝑎𝑏 𝑥
Aplicando logaritmo a ambos miembros se tendrá la siguiente expresión lineal :
log 𝑌̂ = log 𝑎 + 𝑥 log 𝑏
Por el método de Mínimos cuadrados se debe cumplir :

∑𝑛𝑖=1( 𝑙𝑜𝑔 𝑦𝑖 − log 𝑦̂𝑖 )2 = ∑𝑛𝑖=1(log 𝑦𝑖 − log 𝑎 − 𝑥𝑖 log 𝑏)2 = 𝑓( log 𝑎 , log 𝑏 ) = 𝑚𝑖𝑛𝑖𝑚𝑜

Por el criterio de la derivada, debemos resolver el siguiente sistema de


ecuaciones, llamadas Ecuaciones Normales :
𝝏𝑓( log 𝑎,log 𝑏 )
=𝟎
𝝏 log 𝑎

𝝏 𝑓( log 𝑎,log 𝑏 )
{ =𝟎
𝝏 log 𝑏

∑𝑛𝑖=1 log 𝑦𝑖 = 𝑛 log 𝑎 + log 𝑏 ∑𝑛𝑖=1 𝑥𝑖


{
∑𝑛𝑖=1 𝑥𝑖 log 𝑦𝑖 = log 𝑎 ∑𝑛𝑖=1 𝑥𝑖 + log 𝑏 ∑𝑛𝑖=1 𝑥𝑖2

Cuya solución nos dará los valores de los coeficientes de la recta;


log 𝑎 𝑦 log 𝑏 , para posteriormente mediante antilogaritmos ( 10log 𝑎 𝑦 10log 𝑏 ) volver
al modelo exponencial

3.- REGRESIÓN POTENCIAL


Para datos que puedan ser representados por una curva y cuya función a “ajustar”
está dada por :
𝑌̂ = 𝑎𝑥 𝑏
Aplicando logaritmo a ambos miembros se tendrá la siguiente expresión lineal :
log 𝑌̂ = log 𝑎 + 𝑏 log 𝑥
Por el método de Mínimos cuadrados se debe cumplir :
∑𝑛𝑖=1( 𝑙𝑜𝑔 𝑦𝑖 − log 𝑦̂𝑖 )2 = ∑𝑛𝑖=1(log 𝑦𝑖 − log 𝑎 − 𝑏 log 𝑥)2 = 𝑓( log 𝑎 , 𝑏 ) = 𝑚𝑖𝑛𝑖𝑚𝑜

Por el criterio de la derivada, debemos resolver el siguiente sistema de


ecuaciones, llamadas Ecuaciones Normales :
𝝏𝑓( log 𝑎 ,𝑏 )
=𝟎
𝝏 log 𝑎

𝝏 𝑓( log 𝑎,𝑏 )
{ =𝟎
𝝏𝑏

∑𝑛𝑖=1 log 𝑦𝑖 = 𝑛 log 𝑎 + 𝑏 ∑𝑛𝑖=1 log 𝑥𝑖


{
∑𝑛𝑖=1 log 𝑥𝑖 log 𝑦𝑖 = log 𝑎 ∑𝑛𝑖=1 log 𝑥𝑖 + 𝑏 ∑𝑛𝑖=1 (log 𝑥𝑖 )2

cuya solución nos dará los valores de los coeficientes de la recta;


log 𝑎 𝑦 𝑏 , para posteriormente mediante antilogaritmos ( 10log 𝑎 ) volver al
modelo potencial.

3.- ANÁLISIS DE CORRELACIÓN


Estudia el grado o intensidad de la relación que existe entre dos o más variables
estadísticas, definiendo para cada modelo de regresión valores numéricos que
cuantifiquen que tan bien se “ajusta” a los datos el modelo elegido. Estas medidas están
dadas por:

1.- COEFICIENTE DE CORRELACIÓN


Notación :
Para una población : 𝜌 ( rho )
Para una muestra : 𝑟
𝑆𝐶𝑅
𝑟 = √𝑆𝐶𝑇

donde −1 ≤ 𝑟 ≤ +1

2.- COEFICIENTE DE DETERMINACIÓN


Notación :
Para una población : 𝜌2
Para una muestra : 𝑟 2
𝑆𝐶𝑅
𝑟 2 = 𝑆𝐶𝑇

donde 0 ≤ 𝑟2 ≤ 1

3.1.- CORRELACION SIMPLE


Estudia el grado o intensidad de la relación entre dos variables estadísticas, y
puede ser:
- Simple Lineal
- Simple No Lineal
1.- CORRELACIÓN SIMPLE LINEAL
Para el modelo de regresión lineal 𝑌̂ = 𝑎 + 𝑏𝑥
COEFICIENTE DE CORRELACIÓN
Por definición de
2 2
𝑆𝐶𝑅 ∑𝑛 ̂𝑖 − 𝑌)
𝑖=1(𝑦 ∑𝑛
𝑖=1(𝑦𝑖
̂ − 𝑌)
𝑟 = √𝑆𝐶𝑇 = =√ 2 ⇒ 𝑟 = 2
2
∑𝑛
𝑖=1(𝑦𝑖 − 𝑌) ∑𝑛 (𝑦𝑖 − 𝑌)
𝑖=1

desarrollando las formas cuadráticas y sustituyendo el modelo de regresión


donde corresponda, se tiene:
2
2 𝑎 ∑𝑛 𝑛
𝑖=1 𝑦𝑖 + 𝑏 ∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 𝑌
𝑟 = 2
∑𝑛 2
𝑖=1 𝑦𝑖 − 𝑛 𝑌

2.- CORRELACIÓN SIMPLE NO LINEAL


2.2. Para el modelo de regresión parabólico 𝑌̂ = 𝑎 + 𝑏𝑥 + 𝑐𝑥 2
COEFICIENTE DE CORRELACIÓN
Por definición de

2 2
𝑆𝐶𝑅 ∑𝑛 ̂𝑖 − 𝑌)
𝑖=1(𝑦 ∑𝑛
𝑖=1(𝑦𝑖
̂ − 𝑌)
𝑟 = √𝑆𝐶𝑇 =√ 2 ⇒ 𝑟 = 2
2
∑𝑛
𝑖=1(𝑦𝑖 − 𝑌) ∑𝑛 (𝑦𝑖 − 𝑌)
𝑖=1

desarrollando las formas cuadráticas y sustituyendo el modelo de


regresión donde corresponda, se tiene:
2
2 𝑎 ∑𝑛 𝑛 𝑛 2
𝑖=1 𝑦𝑖 + 𝑏 ∑𝑖=1 𝑥𝑖 𝑦𝑖 + 𝑐 ∑𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 𝑌
𝑟 = 2
∑𝑛 2
𝑖=1 𝑦𝑖 − 𝑛 𝑌

2.3. Para el modelo de regresión exponencial 𝑌̂ = 𝑎𝑏 𝑥


COEFICIENTE DE CORRELACIÓN
Por definición de

2 2
𝑆𝐶𝑅 ∑𝑛 ̂𝑖 − 𝑌)
𝑖=1(𝑦 ∑𝑛
𝑖=1(𝑦𝑖
̂ − 𝑌)
𝑟 = √𝑆𝐶𝑇 = =√ 2 ⇒ 𝑟2 = 2
∑𝑛
𝑖=1(𝑦𝑖 − 𝑌) ∑𝑛
𝑖=1(𝑦𝑖 − 𝑌)

desarrollando las formas cuadráticas y sustituyendo el modelo de


regresión donde corresponda, se tiene:
2
2 log 𝑎 ∑𝑛 𝑛
𝑖=1 log 𝑦𝑖 + log 𝑏 ∑𝑖=1 𝑥𝑖 log 𝑦𝑖 − 𝑛 log 𝑌
𝑟 = 2
∑𝑛 2
𝑖=1(log 𝑦𝑖 ) − 𝑛 log 𝑌

También podría gustarte