Está en la página 1de 4

COEFICIENTES DETERMINACION Y CORRELACION

El coeficiente de correlación lineal mide el grado de intensidad de esta posible


relación entre las variables. Este coeficiente se aplica cuando la relación que
puede existir entre las variables es lineal (es decir, si representáramos en un
gráfico los pares de valores de las dos variables la nube de puntos se aproximaría
a una recta).
No obstante, puede que exista una relación que no sea lineal, sino exponencial,
parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la
intensidad de la relación las variables, por lo que convendría utilizar otro tipo de
coeficiente más apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor
es representar los pares de valores en un gráfico y ver qué forma describe.
El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:
Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada
par de valores (x,y) se multiplica la “x” menos su media, por la “y” menos su
media. Se suma el resultado obtenido de todos los pares de valores y este
resultado se divide por el tamaño de la muestra. Denominador se calcula el
producto de las varianzas de “x” y de “y”, y a este producto se le calcula la raíz
cuadrada.
Los valores que puede tomar el coeficiente de correlación “r” son: −1 < r < 1Si “r” >
0, la correlación lineal es positiva (si sube el valor de una variable sube el de la
otra). La correlación es tanto más fuerte cuanto más se aproxime a 1.
En estadística, el coeficiente de determinación, denominado R² y pronunciado R
cuadrado, es un estadístico usado en el contexto de un modelo estadístico cuyo
principal propósito es predecir futuros resultados o testear una hipótesis. El
coeficiente determina la calidad del modelo para replicar los resultados, y la
proporción de variación de los resultados que puede explicarse por el modelo.
Hay varias definiciones diferentes para R² que son algunas veces equivalentes.
Las más comunes se refieren a la regresión lineal. En este caso, el R² es
simplemente el cuadrado del coeficiente de correlación de Pearson, lo cual es sólo
cierto para la regresión lineal simple. Si existen varios resultados para una única
variable, es decir, para una X existe una Y, Z... el coeficiente de determinación
resulta del cuadrado del coeficiente de determinación múltiple. En ambos casos el
R² adquiere valores entre 0 y 1. Existen casos dentro de la definición
computacional de R² donde este valor puede tomar valores negativos.
Un modelo estadístico se construye para explicar una variable aleatoria que
llamaremos dependiente a través de otras variables aleatorias a las que
llamaremos factores. Dado que podemos predecir una variable aleatoria mediante
su media y que, en este caso, el error cuadrático medio es su varianza, el máximo
error cuadrático medio que podemos aceptar en un modelo para una variable
aleatoria que posea los dos primeros momentos es la varianza. Para estimar el
modelo haremos varias observaciones de la variable a predecir y de los factores.
A la diferencia entre el valor observado de la variable y el valor predicho la
llamaremos residuo. La media cuadrática de los residuos es la varianza residual.
Si representamos por la varianza de la variable dependiente y la varianza
residual por , el coeficiente de determinación viene dado por la siguiente
ecuación:

Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el


100% de valor de la variable; si coincide con la varianza de la variable
dependiente, el modelo no explica nada y el coeficiente de determinación es del
0%. En variables económicas y financieras, suele ser difícil conseguir un
coeficiente de determinación mayor de un 30%.
Para la regresión lineal
Para la regresión basta con hacer el cuadrado del coeficiente de correlación de
Pearson.

Dónde:

 es la covarianza de
 es la desviación típica de la variable
 es la desviación típica de la variable

El coeficiente de determinación o coeficiente de correlación múltiple al


cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste
del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado.
Se define como el cociente entre la variabilidad explicada por la regresión y la
variabilidad total, esto es:
Algunas otras formas de presentar el coeficiente de determinación son:

Algunas de las equivalencias anteriores pueden verse a partir de la demostración

de .

El coeficiente de determinación múltiple, es una generalización del valor


de definida en la lección de R cuadrado definida para una línea recta.

Utilidad

Se utiliza para medir la reducción en la variabilidad total de debido a la inclusión


de las variables regresoras . Un valor grande de no
necesariamente implica que el modelo es bueno. Adicionar variables al modelo
siempre incrementa el valor de , ya sea que las variables contribuyan o no al
modelo. Es posible que modelos con valor de grande sean malos en la
predicción o estimación.

OBSERVACIONES
1. mide la correlación entre y y .
2. Si existe error puro, es imposible que alcance el valor de . La única
manera en que podría dar , sería que se tuviera un perfecto ajuste
de los datos en el cual , lo cual es un improbable evento en la
práctica,
3. Si , esto es si (suponiendo que el
modelo ha sido ajustado), entonces .
4. es

Una medida de la utilidad de los términos en el modelo diferentes de


La estadística R2 ajustada

Como alternativa al uso de como medida de la idoneidad de un modelo, es


común que se informe el coeficiente de determinación múltiple ajustado, denotado
por . Esta dado por

Se observa que toma en cuenta ("ajusta por") tanto el tamaño de la


muestra como el número de parámetros del modelo. Siempre es menor
que y lo que es más importante, no puede "forzarse" hacia con sólo agregar
más y más variables independientes al modelo. Por ello, algunos analistas
prefieren el valor más conservador de cuando deben elegir una medida de la
idoneidad de un modelo.

Tenga en cuenta que: La estadística y son medidas descriptivas, y no


debemos depender únicamente de sus valores para decidir si un modelo es útil o
no para predecir la variable respuesta

Ejemplo
Para los datos del ejemplo se tiene que

Lo cual significa que el de la variabilidad total es explicada por el modelo.


Ahora el valor de es

También podría gustarte