Está en la página 1de 11

Coeficiente de determinación(R al cuadrado)

El coeficiente de determinación es la proporción de la varianza total de la variable explicada


por la regresión. El coeficiente de determinación, también llamado R cuadrado, refleja la
bondad del ajuste de un modelo a la variable que pretender explicar.

R² muestra qué tan bien los términos (puntos de datos) se ajustan a una curva o línea.
¿Cuándo utilizarla?

Bondad del ajuste


Limitaciones del R-Cuadrado
Interpretación del R-Cuadrado
Supongamos que queremos explicar la cantidad de goles que anota Cristiano Ronaldo según la cantidad
de partidos que juega. Suponemos que, a mayor cantidad de partidos jugados, más goles meterá. Los
datos pertenecen a las últimas 8 temporadas. De tal manera, tras extraer los datos, el modelo arroja la
siguiente estimación:
Coeficiente de determinación ajustado
(R al cuadrado ajustado)
El coeficiente de determinación ajustado (R cuadrado ajustado) es la medida que define el porcentaje
explicado por la varianza de la regresión en relación con la varianza de la variable explicada. Es decir,
lo mismo que el R cuadrado, pero con una diferencia: El coeficiente de determinación ajustado
penaliza la inclusión de variables.

Como hemos dicho anteriormente, el coeficiente de determinación de un modelo aumenta aunque


las variables que incluyamos no sean relevantes. Ya que esto supone un problema, para intentar
solventarlo, el R cuadrado ajustado queda tal que:
Diferencia principal entre R² ajustado y R²

R 2 𝟐
 

´𝑹  
DIAPOSITIVA 2
-El coeficiente de determinación tiene un objetivo, y la vamos a usar cuando queremos medir
como de bueno es un modelo.
-y de ahí comúnmente se conozca a esta medida como bondad del ajuste.
- un ajuste que puede ser lineal.
-o no y que además.
-puede tener distintas variables explicativas, también hay varias formas de expresar esta medida.
- pero quizá la mas sencilla sea esta.
-la que lo expresa como el cociente entre la varianza de los datos estimados por el modelo.
-y la varianza de los datos observados.
-o de forma equivalente como 1 menos el cociente.
- entre la varianza de los residuos.
- y la varianza de los datos observados.
- Es intuitivo ver que el r cuadrado representa la proporción de varianza explicada por el modelo
y esta medida se suele expresar.
- esta vez en tanto por ciento, asi cuanto mas cerca estemos de 100, mas varianza de la variable
dependiente conseguimos explicar con nuestro modelo y será en teoría un modelo mejor.
- Aquí el coeficiente de determinación tiene un pequeño handicap, y es que cuanto mas
variables explicativas, significativas o no, tenga nuestro modelo, mas alta va a ser la medida.

Concretando, el coeficiente de determinación o bondad del ajuste mide cuanta varianza explica un
modelo cualquiera( no necesariamente lineal, y no necesariamente con una variable explicativa)
DIAPOSITIVA 3
Sin embargo, el problema con R-cuadrado como mencioné anteriormente es
que permanecerá igual o aumentará con la adición de más variables, incluso si
no tienen ninguna relación con las variables de salida.

Aquí es donde viene a ayudar el "Cuadrado R ajustado". El cuadrado R ajustado


añade a esta medida una pequeña penalización, dependiente del numero de
variables independientes y de la cantidad de datos observados

Por lo tanto, si está construyendo una regresión lineal en múltiples variables,


siempre se sugiere que use R cuadrado ajustado para juzgar la bondad del
modelo. En caso de que solo tenga una variable de entrada, R cuadrado y R
cuadrado ajustado serían exactamente iguales.

Por lo general, cuantas más variables no significativas agregue al modelo,


aumentará la brecha en R-cuadrado y R-cuadrado ajustado.
DIAPOSITIVA 4
Cómo podemos ver en el gráfico, la relación es positiva. A más partidos jugados,
como es lógico, más goles anota en la temporada. El ajuste, según el cálculo del R
cuadrado, es de 0,835. Esto quiere decir que es un modelo cuyas estimaciones se
ajustan bastante bien a la variable real. Aunque técnicamente no sería correcto,
podríamos decir algo así como que el modelo explica en un 83,5% a la variable
real.

El problema del coeficiente de determinación, y razón por el cual surge el


coeficiente de determinación ajustado, radica en que no penaliza la inclusión de
variables explicativas no significativas. Es decir, si al modelo se añaden cinco
variables explicativas que guardan poca relación con los goles que anota Cristiano
Ronaldo en una temporada, el R cuadrado aumentará. Es por ello que muchos
expertos económetras, estadísticos y matemáticos se oponen al uso del R
cuadrado como medida representativa de la bondad del ajuste real.
 DIAPOSITIVA 5
En la formula vemos que:
→ R cuadrado ajustado o coeficiente de determinación ajustado

R2 → R cuadrado o coeficiente de determinación

N → Número de observaciones de la muestra

k → Número de variables independientes

Teniendo en cuenta que 1- R2 es un número constante y que N es mayor que k, a medida que añadimos variables al
modelo, el cociente entre paréntesis se hace más grande. Consecuentemente. también el resultado de multiplicar este por
1- R2 . Con lo cual vemos que la fórmula está construida para ajustar y penalizar la inclusión de coeficientes en el modelo.

Además de la ventaja anterior, el ajuste empleado en la fórmula, nos permite también comparar modelos con distinto
número de variables independientes. De nuevo, la fórmula ajusta el número de variables entre un modelo y otro y nos
permite realizar una comparación homogénea.

En conclusión, podemos deducir que el coeficiente de determinación ajustado será siempre igual o menor(inferior) que el
coeficiente de determinación R2. Al contrario que el coeficiente de determinación que varía entre 0 y 1, el coeficiente de
determinación ajustado podría ser negativo por 2 motivos:
• Cuanto más se aproxime k a n.
• Cuanto menor sea el coeficiente de determinación.
DIAPOSITIVA 6

tanto R² como el R² ajustado le dan una idea de cuántos puntos de datos caen dentro de la línea de ecuación de
regresión . Sin embargo, R2 asume que cada variable individual explica la variación en la variable dependiente . El R²
ajustado le indica el porcentaje de variación explicado solo por las variables independientes que realmente afectan a
la variable dependiente.

En realidad, R² ajustado lo penalizará por agregar variables independientes (K en el ecuación) que no se ajustan al
modelo. ¿Por qué? En análisis de regresión puede ser tentador agregar más variables a los datos a medida que los
piense. Algunas de esas variables serán significativas, pero no puede estar seguro de que la importancia sea solo por
casualidad. El R² ajustado lo compensará con la penalización de esas variables adicionales.

TAMBIEN PODEMOS CONCLUIR CUALES SON LOS PROBLEMAS CON R² QUE SE CORRIGEN CON R² AJUSTADO:

1. R² aumenta con cada predictor agregado a un modelo . Como R² siempre aumenta y nunca disminuye, puede
parecer que se ajusta mejor con más términos que agregue al modelo. Esto puede ser completamente engañoso.

2. Del mismo modo, si su modelo tiene demasiados términos y demasiados polinomios de alto orden, puede tener
problemas para ajustar los datos. Cuando se ajusta demasiado a los datos, un valor R² engañosamente alto puede
conducir a proyecciones engañosas.

También podría gustarte