Está en la página 1de 9

UNIVERSIDAD MAYOR DE SAN SIMON

FACULTAD DE CIENCIAS ECONÓMICAS


CARRERA DE INGENIERIA COMERCIAL
CARRERA DE INGENIERIA FINANCIERA

ESTADÍSTICA I
Curso Intersemestral de Verano

Docente: Mgr. Verónica Alba Ortuño


1. Correlación y Tipos de Correlación

La correlación señala el grado de covariación (asociación) entre


UNIDAD VI ANALISIS DE dos o más variables, sin exigir ningún tipo de relación especial
CORRELACION entre ellas. Solo permite, pues conocer o describir la existencia de
covariación. Si no hay una relación lógica entre las variables no
puede ser utilizada para obtener predicciones.
 
El análisis de correlación expresa el grado de asociación de las
Objetivos de la unidad
variables, a través de una función, sin exigir ningún tipo de
• Calcular y aplicar indicadores y coeficientes de correlación
relación especial entre ellas. La correlación no cuantifica una
• Evaluar el modelo de regresión utilizado a través de la medición del
relación de causa a efecto. El valor obtenido señala únicamente
grado de asociación entre las variables.
correlación funcional en un determinado conjunto de datos.
 
Las ilustraciones graficas siguientes, muestran diversos casos de
asociación de variables.
Contenido
• Correlación y Tipos de Correlación
• Relación entre la Varianza Total, la Varianza Explicada y la
Varianza Residual.
• Error Estándar de Estimación
• Coeficiente de Determinación.
• Coeficiente de Correlación Lineal Simple.
Tipos de Correlación: los tipos de correlación existentes están 2. Relación entre la Varianza Total, la Varianza Explicada y la
asociados al número de variables, a la forma de la función y a la Varianza Residual
relación de variables.
  Teniendo en cuenta que las variaciones de una variable se miden por su
a) En base al número de variables, se tiene: varianza, resulta que la variación de las Yi se puede medir por Sy2, la
  variación de las Yc por Syc2 y la variación de las ei por Se2.
La correlación simple, cuando se estudia el grado de asociación entre
dos variables. Σ ( Yi - Ȳ )2
 
La correlación múltiple, cuando se estudia el grado de asociación entre Sy2 = -------------- ; Varianza total
la variable dependiente y dos o más variables independientes. n
 
La correlación parcial, que constituye un caso particular de la Σ ( Yc - Ȳ )2
correlación múltiple, cuando se elimina estadísticamente la influencia Syc2 = -------------- ; Varianza explicada
de las otras variables independientes y se estudia la variable
n
dependiente y una variable independiente.
 
Σ ( Yi - Yc )2
b) Considerando la forma de la función Se2 = -------------- ; Varianza no explicada o residual
En este caso se tiene la correlación rectilínea, correlación potencial, n
correlación exponencial, correlación logarítmica,…
 
 
En tal caso se cumple la siguiente relación, la misma que tiene validez
c) Considerando la relación entre variables
general, cualquiera sea la función analítica estudiada y ajustada.
En este caso se tiene la correlación directa o positiva cuando las
 
variables varían en el mismo sentido, y la correlación inversa o
Varianza Total = Varianza Explicada + Varianza no Explicada,
negativa, cuando al variar una variable en un sentido positivo la otra
simbólicamente equivalente a:
variable varia en sentido negativo
Sy2 = Syc2 + Se2.
“La variación total de la variable dependiente, es decir la variación que
se quiere explicar, es igual a la variación debida a la variable La medida de dispersión más utilizada, cuando la regresión se
explicativa, según cierto modelo, más la variación de los errores ajusta por mínimos cuadrados, es la varianza no explicada. Esta
aleatorios”. varianza recibe el nombre específico de varianza residual por que
  los errores ei se denominan residuos. Por ello, si la varianza
  residual resulta ser grande, quiere decir que los residuos son
Para cuantificar el mayor o menor grado en que los puntos están grandes y consecuentemente la representatividad es pequeña.
concentrados alrededor de la función de ajuste, es necesario determinar
un coeficiente e indicadores. A continuación se presentan varias Una medida de dispersión de las Yi observadas con respecto a las
medidas o coeficientes que permiten cuantificar el grado de asociación “medias” Yc, es un instrumento complementario valioso e
de las variables. imprescindible en el análisis de regresión. El error estándar de
estimación es la raíz cuadrada de la varianza no explicada; este
error da un promedio de los errores o residuos, por lo tanto lo que
mide es el tamaño medio de dichos errores o residuos y viene
expresado en la misma unidad que la variable independiente. S e es
3. Error Estándar de Estimación (Se) un valor mayor o igual a cero.
Se es pequeña: si los errores son pequeños, en este caso la
La línea de regresión que se obtiene, tiene categoría de "Línea Media", representatividad es grande.
que discurre por entre la nube de puntos y que trata de sintetizarlos o Se es grande: si los errores son grandes, en este caso la
resumirlos. A un valor de Xi le pueden corresponder varios valores de representatividad es pequeña.
Yi, pero solo le corresponde un valor de Yc dado por la línea.
Ahora bien, ¿cuán representativa es esta línea de regresión con respecto
a la nube de puntos? 4. El Coeficiente de Determinación (R2)
En los hechos, la variable X no explica todas las variaciones de Y,
sino solamente una parte; la parte que no explica, la restante, es el
error o residuo.
Teniendo en cuenta que las variaciones de una variable se miden por su Conviene señalar una propiedad muy importante del coeficiente de
varianza, resulta que la variación de las Yi se puede medir por Sy2, la de determinación que aparece implícita en lo anterior. Se trata de que
las Yc por Syc2 y la de las ei por Se2. este solo toma valores comprendidos entre 0 y 1. ¿Cuando el valor
  de R2 seria igual a 1?; cuando no hay errores o residuos y
Es decir que la variación total de la variable dependiente –o sea la absolutamente todas las variaciones de Y vienen explicadas por X.
variación que se desea explicar- es igual a la variación debida a la Cuando las variaciones de X no explican en absoluto nada las
variable explicativa, (según cierto modelo de ajuste) más la variación de variaciones de Y, entonces el valor de R2 es 0.
los errores aleatorios.

Por lo tanto, si Syc2 (un sumando) se divide por Sy2 (el total), se tendrá la
parte relativa de la variación total que viene explicada por el modelo. 5. Coeficiente de Correlación Simple Lineal.
Este cociente se denomina coeficiente de determinación y se
representa genéricamente por R2 . Su fórmula de definición es por tanto: Mediante la correlación, lo que se busca es un número,
denominado coeficiente de correlación, para indicar
Syc2 Se2 objetivamente el grado de variación conjunta que tienen las
variables.
R2 = -------- ; R2 = 1 - -------  
Sy 2 S y2 Para el caso de dos variables X e Y, y de covariación lineal (de ahí
el nombre de simple y lineal), el coeficiente de correlación que se
  representa por r, se define así:
Es una medida de la proporción en que la variación total indicada por
Sy2 viene explicada por uno de sus componentes S yc2, y está definido por
el cociente entre esta parte y el todo. En la segunda fórmula, el
coeficiente de determinación queda expresado en función de la varianza Donde Sxy, es la covarianza, Sx es la desviación estándar de la
total y de la varianza residual. Por tanto es un indicador independiente
variable X y Sy es la desviación estándar de la variable Y.
de toda unidad de medida.
Si bien las varianzas son siempre positivas, y consecuentemente las • Si r = 1, la correlación lineal es perfecta y directa, o sea la
desviaciones estándar, la covarianza puede ser positiva o negativa. Es nube de puntos está sobre una recta creciente.
positiva, cuando las dos variables se mueven en el mismo sentido, es • Si r = -1, la correlación lineal es perfecta e inversa, o sea, los
decir cuando al aumentar una aumenta la otra, y es negativa si se puntos de la nube están todos sobre una recta decreciente.
mueven en sentido contrario. Cuando la covarianza es positiva se dice • Si hay alto grado de asociación entre las variables, en forma
que la covariación de las dos variables es positiva o directa; cuando es directa o inversa, entonces: r tiende a +1 , o r tiende a -1.
negativa la covariación es negativa o inversa, y si es nula, no hay • Si r = 0, no existe en absoluto correlación lineal, en cuyo caso
covariación. puede ocurrir que no exista covariación entre las dos
variables o bien que exista otra no lineal.
• Si r es próximo a 0, entonces no existe correlación lineal,
Es posible demostrar que el cuadrado del coeficiente de correlación
pero puede haber otro tipo de covariación.
(lineal simple) es igual al coeficiente de determinación cuando se utiliza
• En los casos intermedios se puede hablar de una correlación
como modelo una línea recta.
lineal débil.
Es decir, r es igual a la raíz cuadrada de R2:

Los análisis precedentes permiten concluir que cuando existe


escasa dispersión de los puntos alrededor de su tendencia, se dice
Por tanto, las conclusiones que se pueden obtener en base a lo anterior que hay alta correlación. Cuando hay mucha dispersión, existirá
son las siguientes: poca correlación.
R. Función de regresión: Yc = 56 +1,6 Xi (Ver primer ejemplo de
Analisis de Regresión).
 
Ejemplo. Un economista selecciona al azar una muestra de cinco
R. Varianza Explicada; Varianza no explicada (o Residual);
fabricas de un cierto sector de producción industrial para estudiar
Varianza total
la relación entre el costo total de producción (Y) y el volumen de
producción (X). Obtiene la siguiente información: ∑ Yi 600
M (Y) = Ȳ = ---------- = -------- = 120 Bs.
n 5
 
Xi Yi Yi Xi Xi2 Yc Yc - ( Yc - Yi - Yc (Yi - Yc)2 Σ ( Yc - Ȳ ) 2 2560
(miles Ȳ Ȳ )2 Syc2 = --------------- = --------- = 512
Bs.)
n 5

Σ ( Yi - Yc )2 40
                 
20 90 1800 400 88 -32 1024 2 4 Se2 = ------------------ = ------- = 8
120 4800 9000
1600 120 0 0 2560 0 0 40 0
200 600
150
25600
9000 3600 152 32 1024 -2 4 n 5
140 7000 2500 136 16 256 4 16  
100 3000 900 104 -16 256 -4 16
a) Determine la función de regresión, haciendo el ajuste a una línea Sy2 = Syc2 + Se2 = 512 + 8 = 520
recta.
b) Determine la varianza explicada, la varianza residual y la varianza
40 R. Error estándar de estimación, Se , se define como la raíz cuadrada
total.
c) Calcule el error estándar de estimación e interprete de la varianza no explicada o residual
d) Calcule el coeficiente de determinación e interprete.  
e) Calcule el coeficiente de correlación lineal simple e interprete Se = = = 2,8284 Los errores son pequeños, por tanto la
representatividad es grande.
60  
f) Grafique la función de regresión hallada.
R: Coeficiente de Determinacion, R2 Precio en $us. Yi Cantidad      
Se2 demandada, Yi / Xi X
i
2
1 / Xi 2
unidades, Xi
R2 = 1 - -------
Sy2 40 2 20 4 0,25
8 20 4 5 16 0,0625
R2 = 1 - -------- = 0,9846 16 5 3,2 25 0,04
10 8 1,25 64 0,015625
520
8 10 0,80 100 0,01
Las variaciones del volumen de produccion explican en un 98,46 %, las  
variaciones del costo de producción, a través del modelo de regresión 30,25 0,378125
Yc = 56 + 1,6 Xi . Yc Yc - Ȳ ( Yc - Yi - Yc (Yi - Yc) 2

Ȳ )2
R. Coeficiente de Correlación (lineal simple), r. Este coeficiente es          
igual a la raíz cuadrada del coeficiente de determinación, R2, cuando se 40 21,20 449,44 0 0
utiliza como modelo una línea recta. 20 1,20 1,44 0 0
  16 - 2,80 7,84 0 0
10 - 8,80 77,44 0 0
R2 = ; por tanto r = = 0,9923 significa que existe alto grado de 8 -10,80 116,64 0 0
asociación positiva(b es positivo) entre las variables, volumen de  
652,80 0
producción y costo total de producción.  

Ejemplo. Dada la siguiente relación de precios y cantidades R: Función de regresión,


demandadas de un producto: Ajustando a la hipérbola equilátera, Y= a / X ,se tiene la función de
  regresión:
a) Determine la función de regresión, ajustando a la hipérbola 80
equilátera, Y= a / X .
b) Determine la varianza explicada, la varianza residual y la Yc = ---------
varianza total. Xi
c) Calcule el error estándar de estimación e interprete.

d) Calcule el coeficiente de determinación e interprete.


e)Grafique la función de regresión hallada.
R. Varianza Explicada, Varianza Residual y Varianza Total.
  0
∑ Yi 94 R = 1 - ---------- = 1
2

M (Y) = Ȳ = ---------- = ------- =18,80 $us. 130,56


n 5  
  Las variaciones de las cantidades demandadas explican en un 100
Σ ( Yc - Ȳ )2 652,80 %, las variaciones del precio, a través del modelo de regresión,
Syc2 = --------------- = ------------ = 130,56 80
n 5 Yc = ---------
  Xi
Σ ( Yi - Yc )2 0
Se2 = ------------------ = -------- = 0 Ejemplo. Se relacionan las variables, gastos anuales de consumo
n 5 (Y) e ingresos anuales de hogares familiares (X), donde el
  coeficiente de determinación es igual a 0.81 y donde la función de
Sy2 = Syc2 + Se2. = 130,56 + 0 = 130,56 regresión es igual a: Yc = 15.000 + 0.40 Xi . ¿Cómo explicaría la
variabilidad de los gastos de consumo?
Respuesta. Las variaciones de los ingresos anuales de hogares
 R. Error estándar de estimación, Se , se define como la raíz familiares, explican las variaciones de los gastos anuales de
consumo, en un 81% (R2 = , a través del modelo de regresión,
cuadrada de la varianza no explicada o residual
Yc = 15.000 + 0.40 Xi
 
Se = = 0 ; Los errores o residuos son iguales a cero, por tanto la  
representatividad es perfecta.
 
R: Coeficiente de Determinacion, R2
Se2
R2 = 1 - -------
Sy 2

También podría gustarte