Está en la página 1de 16

INTERPRETACIÓN DE

TABLAS DE REGRESIÓN
2
https://stephanievazquezg.com/
Objetivo
◦ Hacer una revisión de los resultados del análisis de datos que
presenta Excel en las tablas de regresión.

2
Contenido
◦ Introducción
◦ Componente DF
◦ Suma de cuadrados
◦ Suma media de cuadrados
◦ Estadístico F
◦ Significancia de F
◦ Referencias

3
Introducción
◦ La segunda parte del resultado resumido es el análisis de varianza, también conocido como
Anova.
◦ En general, la tabla divide la suma de cuadrados en componentes individuales que brindan
información sobre los niveles de variabilidad dentro del modelo de regresión.
◦ Vamos a recapitular los tres determinantes principales de una buena regresión según Anova.
Estos son SST que significa la suma de cuadrados total, SSR que denota la suma de
cuadrados debido a la regresión y, por supuesto, SSE o error de suma de cuadrados.
◦ Aunque es posible que encuentre varias notaciones de los términos, nos apegaremos a estas
abreviaturas.

4
Componente DF
◦ El primer componente que vemos en la tabla es DF.
◦ Simplemente representa los grados de libertad asociados con la fuente de variación. Piense
en ello como la cantidad de datos independientes que utiliza para estimar la línea de
regresión. Tenga en cuenta que DF no es lo mismo que el número de observaciones de la
muestra.
◦ Ahora bien, ¿de dónde viene la libertad? En cierto modo, este componente nos muestra
cuántos valores pueden variar libremente en un conjunto de datos.
◦ Supongamos que se pide que elija tres números aleatorios cuyo promedio debe ser cinco.
Entonces puedes elegir 4, 5 y 6 o 3, 5 y 7. Incluso pueden ser 10, 1 y 4. Simplemente,
cualquier valor que tenga un promedio de cinco servirá. Pero aquí está el truco. Una vez que
eliges los dos primeros números, el tercero queda fijo.

5
Componente DF
◦ En pocas palabras, no eres libre de elegir el tercer número. Sólo los dos primeros pueden
variar. Puedes elegir 1 y 6 o 2 y 4, pero una vez que hayas tomado esa decisión, debes
encontrar ese número que te dé la media deseada de 5 cuando se combina con los otros
dos.
◦ Entonces decimos que los grados de libertad de los tres números son tres menos uno, lo
que nos da dos.
◦ Si en su lugar eligiéramos cinco números, el DF sería cinco menos uno o cuatro. Para obtener
la suma total de cuadrados de grados de libertad, seguimos el mismo razonamiento.
Entonces sólo necesitas restar uno del número de observaciones.
◦ En nuestro caso, tenemos una muestra de 20 puntos de datos, por lo que DF es igual a 19.

6
Suma de cuadrados
◦ Cuando se trata de la suma de cuadrados de regresión o SSR, podemos ver que tiene solo
un grado de libertad. Esto se debe a que es igual al número de coeficientes, que en nuestro
caso es uno.
◦ Y, por supuesto, la suma residual de los grados de libertad de los cuadrados es la diferencia
entre diecinueve y uno.
◦ La siguiente medida es SS, que significa suma de cuadrados. Como ya comentamos en el
tema anterior, SST = SSR + SSE.
◦ La suma de cuadrados total, que se ve en la parte inferior de esta tabla, denota las
diferencias al cuadrado entre la variable dependiente observada y su media.
◦ Básicamente es una medida de la variabilidad total del conjunto de datos.

7
Suma de cuadrados
◦ Ahora, echemos un vistazo a la suma de cuadrados debida a la regresión. Es la suma de
las diferencias entre el valor predicho y la media de la variable dependiente. Piense en
ello como una medida que describe qué tan bien se ajusta su línea a los datos.
◦ Si el valor de SSR es igual a la suma total de cuadrados, esto significa que su modelo de
regresión captura toda la variabilidad observada y es perfecto.
◦ Obviamente, este no es el caso aquí, simplemente porque la suma total de cuadrados
es mayor que SSR.
◦ Por el contrario, SSE, o error de suma de cuadrados, es la diferencia entre el valor
observado y el valor predicho.
◦ Cuanto menor sea el error, mejor será el poder de estimación de la regresión.
◦ De hecho, puede estimar el R al cuadrado usando SSC y SST.
8
Suma de cuadrados
◦ La medida es igual a 1 - la suma residual de cuadrados dividida por la suma total de
cuadrados.
◦ En nuestro caso, tenemos (1 – 853.77) / 3340.55 = 0.74. El mismo valor que obtuvimos en la
tabla de estadísticas de regresión.

9
Suma media de cuadrados y estadístico F
◦ La siguiente medida que vemos en la tabla es MS, que significa suma media de cuadrados.
Aquí, la regresión MS es igual a la suma de cuadrados de la regresión dividida entre los
grados de libertad de la regresión.
◦ De manera similar, el MS residual es igual a los activos residuales divididos por 18 (n-2).
◦ Una de las medidas de las que aún no hemos hablado es la estadística F. Intentemos explicar
su esencia y ver cómo puede resultarnos útil.
◦ Al igual que el estadístico Z que sigue una distribución normal y el estadístico T que sigue
una distribución T de Student, el estadístico F sigue una distribución F. Se le llama
estadística, por eso se usa para pruebas.
◦ Es una forma específica de prueba para la significancia general del modelo. Aquí, la
hipótesis nula es que ß = 0. Y la hipótesis alternativa es que ß ≠ 0.

10
Estadístico F

11
Estadístico F y significancia de F
◦ Entonces, ¿cómo interpretamos los resultados? Si ß = 0, la variable independiente no
importa. Por tanto, nuestro modelo no tiene mérito.
◦ La estadística se calcula dividiendo la suma de cuadrados media de la regresión entre la
suma de cuadrados media residual. Para determinar si su resultado es significativo, deberá
encontrar el valor crítico en la tabla de F.
◦ Aquí, la regla establece que si su estadístico F es mayor que el valor crítico en un nivel de
significancia determinado, puede rechazar la hipótesis nula.
◦ En pocas palabras, cuanto menor sea el estadístico F, más cerca estará de un modelo no
significativo. En nuestro caso, tenemos un grado de libertad de regresión, o DF1 = 1, y DF2 =
18 grados de libertad residuales. Esto corresponde a un valor crítico de 4.41 con un nivel α=
0.05
◦ Entonces podemos simplemente rechazar la hipótesis nula, ya que 52.43 es mayor que 4.41.

12
Estadístico F y significancia de F

13
Significancia de F
◦ Al lado de la estadística, hay un valor P (P-value) que podemos usar en su lugar. Y es una
medida universal para todas las pruebas. Preste mucha atención, porque la significancia F de
la tabla Anova de Excel es la estadística más importante.
◦ Ahora es un buen momento para mencionar que usaremos los términos valor P y
significancia F indistintamente. Entonces, ¿qué nos dice realmente este número? Su valor
nos da una idea de la probabilidad de que no se pueda rechazar la hipótesis nula. En otras
palabras, puede averiguar qué tan estadísticamente significativos son sus resultados.
◦ Piense en ello como la probabilidad de que el modelo de regresión sea incorrecto y no
tenga mérito. A diferencia del valor estadístico, nos gustaría que esta probabilidad fuera lo
más pequeña posible.

14
Significancia de F
◦ Mirando la tabla podemos ver que el número es muy pequeño, 9.83789E-07. Está escrito en
notación científica porque es un valor diminuto. Es prácticamente cero. Aquí E-07 indica que
debemos mover el punto decimal siete lugares hacia la izquierda.
◦ En la práctica, establecemos un nivel de significancia y lo utilizamos como punto de corte. Es
común utilizar niveles de significancia del 1%, 5% o 10%.
◦ Si el valor P fue menor que eso, decimos que el modelo general es significativo. Y si es
mayor, probablemente será mejor que elija otra variable independiente.
◦ En nuestro caso, el valor de P fue menor que cualquier nivel de significancia razonable. Por
tanto, podemos concluir que nuestro modelo de regresión en su conjunto es
estadísticamente significativo.

15
Referencias
◦ Remenyi, D., Onofrei, G., English, J. (2011). An Introduction to Statistics Using Microsoft Excel: Research
Textbook Collection. Reino Unido: Academic Conferences Publishing International.
◦ Mount, G. (2021). Advancing Into Analytics. Estados Unidos: O'Reilly Media.

16

También podría gustarte