Está en la página 1de 7

Ciencia de Datos, 2018-1

Actividad N°8, grados de libertad, Regresión lineal y


Chi-cuadrado

Juan David Bohórquez, Dayana Bustamante, Ana Payares


Facultad de Ingeniería
Universidad del Magdalena
Cl. 32 #22-08, Santa Marta, Magdalena, Código postal No. 470004
Dayanabustamante28@gmail.com, juanboes12@gmail.com, prinsblue@gmail.com
I. GRADOS DE LIBERTAD

Los grados de libertad (GL) son la cantidad de información suministrada por los datos que se
puede "gastar" para estimar los valores de parámetros de población desconocidos y calcular la
variabilidad de esas estimaciones. Este valor se determina según el número de observaciones de
la muestra y el número de parámetros del modelo. a continuación, una definición que se encuentra
en un texto estadístico:

“La suma de los valores de las desviaciones de los valores individuales con respecto a su media
es igual a cero, hecho que puede demostrarse. Si se conocen los n-1 valores de los valores a
partir de la media, entonces se conoce el n-pésimo valor, ya que queda determinado
automáticamente debido a la restricción de 3 que todos los valores de n sumen cero”. (Daniel
Wayne 2007, p41)

Los grados de libertad también se utilizan para caracterizar una distribución específica. Diferentes
tipos de distribuciones, como t-Student, F y chi-cuadrado, utilizan los grados de libertad para
especificar cuál es la apropiada para diferentes tamaños de muestra y diferentes números de
parámetros del modelo [1].

II. REGRESIÓN LINEAL

La regresión lineal es una técnica estadística destinada a analizar las causas de por qué pasan las
cosas. La idea es tratar de establecer la relación entre las variables independientes y dependientes
por medio de ajustar una mejor línea recta con respecto a los puntos. A partir de los análisis de
regresión lineal múltiple podemos:

 identificar que variables independientes (causas) explican una variable dependiente


(resultado)

 comparar y comprobar modelos causales

 predecir valores de una variable, es decir, a partir de unas características predecir de forma
aproximada un comportamiento o estado.

 explicar o describir las salidas como una combinación lineal de los datos de entrada

Ejemplo en Python:
Supuestos del modelo de Regresión lineal
Los supuestos de un modelo estadístico se refieren a una serie de condiciones que deben darse
para garantizar la validez del modelo. Al efectuar aplicaciones prácticas del modelo de regresión
lineal, es necesario examinar muchos de esos supuestos [2]. De acuerdo con lo anterior la
regresión tiene 4 supuestos importantes que hay que seguir para hacer un análisis preciso y no
sesgado, los cuales son:

 Linealidad: Si no se tiene linealidad se presenta un error de especificación. Algunos


ejemplos son: Omisión de variables independientes importantes, inclusión de variables
independientes irrelevantes, parámetros cambiantes.

 Independencia: Los residuos son independientes entre sí, es decir, los residuos
constituyen una variable aleatoria (los residuos son la diferencia entre los valores
l0hobservados y pronosticados) Es frecuente encontrarse con residuos auto
correlacionados cuando se trabaja con series temporales.

 Homocedasticidad: Para cada valor de la variable independiente (o combinación de los


valores de las variables independientes), la varianza de los residuos es constante. Esta
condición se estudia utilizando las variables: ZPRED=pronósticos tipificados y
ZRESID=residuos tipificados. El supuesto de homocedasticidad implica que la variación
de los residuos sea uniforme en todo el rango de valores de los pronósticos.

 Normalidad: Esto se refiere a que todos los datos, tanto las variables independientes, así
como la variable dependiente, tienen que tener puntajes que están distribuidos
normalmente. Más específicamente los residuos (error) de estos puntajes deben tener una
distribución normal. Para cada valor de la variable independiente los residuos se
distribuyen con medio cero.

 No-colinealidad: Es decir la inexistencia de colinealidad. Esta puede ser: colinealidad


perfecta si una de las variables independientes tiene una relación lineal con otra/as
independientes, colinealidad parcial si entre las variables independientes existen altas
correlaciones. El incumplimiento de este supuesto da origen a multicolinealidad.

III. CHI-CUADRADO

¿En qué consiste esta prueba?


La prueba de Chi-cuadrado es usualmente utilizada en estadística para el análisis de una o más
variables de una determinada población, en este último caso, se quiere averiguar de qué manera
se encuentran relacionadas las variables o mirar si no existe tal relación, también en caso de ser
para estudios con variables cualitativas, esta prueba se usa para comparar sus proporciones
independientes. De esta manera, la frecuencia esperada de que ocurra un suceso se correlaciona
con la frecuencia observada.

A partir de esto, en caso de tener solo una variable a analizar, se realiza una prueba de bondad de
ajuste, la cual consiste en procedimientos donde se compara la distribución de la muestra contra
la distribución teórica que se supone representa a la población, y se quiere probar la hipótesis de
que una distribución en particular será un modelo satisfactorio para la misma. Ahora bien, en caso
de ser dos variables pueden realizarse dos tipos de prueba, en primer lugar, está la prueba de
homogeneidad, en la cual se extraen muestras independientes de varias poblaciones y se comparan
a ver si son iguales o semejantes con respecto a un criterio de homogeneidad. En segundo lugar,
está la prueba de independencia, es usada en variables de tipo cualitativa nominal para definir si
dos variables son independientes o no y para ello se analizan las frecuencias de ambas variables
múltiples, usando (por el tipo de variable) tablas de contingencia o tablas de clasificación cruzada
[3].

Esta prueba se utiliza esencialmente para: Probar la independencia o determinar la asociación


entre variables categóricas y para determinar si un modelo estadístico se ajusta adecuadamente a
los datos.

¿Qué tipo de hipótesis se plantean con este modelo?


Los contrastes de hipótesis especifican siempre una posibilidad, denominada:

 La Hipótesis Nula, que se simboliza por Ho, indica la hipótesis que se debe comprobar.
Es una afirmación en la que se dice que “no hay diferencia” alguna entre dos poblaciones,
entre dos parámetros poblacionales o entre el valor verdadero de algún parámetro y su
valor hipotético.

 La Hipótesis Alternativa, que se simboliza por H1, se establece como el “complemento”


de la hipótesis nula y representa la conclusión que se apoya si la hipótesis nula se rechaza.

Un suceso de probabilidad nula no debe estar incluido ni en la hipótesis nula ni en la hipótesis


alternativa. De este modo, la pregunta que un investigador debe hacerse cuando lleva a cabo un
contraste de hipótesis, es acerca de si se encuentra suficiente evidencia en la muestra en contra
de la hipótesis nula, como para rechazarla. Como la hipótesis nula refleja una creencia a priori,
sólo la rechazaremos en favor de la hipótesis alternativa si existe suficiente evidencia en su
contra. Hay que insistir, por tanto, en que sólo deben contrastarse hipótesis nulas en las que el
investigador está dispuesto a creer, y acerca de las cuales tiene fundada creencia a priori. La
contrastación de hipótesis no es algo que deba hacerse mecánica ni sistemáticamente. Sería
absurdo plantearse en una aplicación empírica un número elevado de contrastes de hipótesis,
con objeto de ver cuáles se rechazan y cuáles no [4]. Todo contraste de hipótesis se desarrolla en
varias etapas:

 Planteamiento de la hipótesis nula H0 y de la hipótesis alternativa H1, ambas referentes


a valores posibles de un parámetro desconocido.
 Decisión acerca de un estadístico que resuma adecuadamente la información muestral,
en relación con el parámetro acerca del cual se va a llevar a cabo el contraste.
 División del espacio muestral en dos regiones: región crítica y región de aceptación.
Ambas constituyen una partición del espacio muestral.
 Obtención de una muestra de un determinado tamaño, en la que medir la característica
de interés.
 Cálculo del valor del estadístico en la muestra recogida.
 Resolución del contraste: si el valor muestral del estadístico cae en la región crítica, se
rechaza la hipótesis nula H0 en favor de la alternativa H1; si el valor muestra del
estadístico cae en la región de aceptación, no se rechaza la hipótesis nula.
Referencias

[1] «Minitab 18,» [En línea]. Available: https://support.minitab.com/es-mx/minitab/18/help-and-how-


to/statistics/basic-statistics/supporting-topics/tests-of-means/what-are-degrees-of-freedom/. [Último acceso:
07 Mayo 2018].

[2] U. C. I. d. Madrid, «Análisis de Regresión lineal,» [En línea]. Available:


http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/18reglin.pdf. [Último acceso: 07 Mayo
2018].

[3] «Scribd,» [En línea]. Available: https://es.scribd.com/document/264077351/formula-chi-cuadrado. [Último


acceso: 07 Mayo 2018].

[4] U. c. Madrid, «Universidad complutense Madrid,» [En línea]. Available:


https://www.ucm.es/data/cont/docs/518-2013-11-13-tests.pdf. [Último acceso: 07 Mayo 2018].