Guía 1, Unidad 3, Regresión Lineal (Estadística)

Regresión Lineal Simple

Javiera Errázuriz Díaz


Técnico de nivel superior en Administración

General
Estadística

Antofagasta, marzo de 2020

Unidad 1 Estadística descriptiva
Resultado Aplica herramientas de la estadística descriptiva para el procesamiento
de Aprendizaje e interpretación de la información para la toma de decisiones en problemas
asociados a su entorno laboral.

INSTITUTO PROFESIONAL IPG»1


UNIDAD III: REGRESIÓN LINEAL SIMPLE

Corresponde al análisis de la relación o dependencia entre variables junto al coeficiente de
correlación.

El objetivo de tener un modelo de regresión es tratar de explicar la relación existente entre
una variable dependiente (variable respuesta) y un conjunto de variales independietnes (variables
explicativas). En un modelo de regresión lineal simple se trata de explicar esta relación entre las
variables X e Y.
• X: Variable independiente o explicativa
• Y: variables dependiente o respuesta

Ejemplos:
o Estudiar como influye la estatura de un padre sobre la estatura de su hijo.
o Predecir el tiempo de computación de un programa en función de la velocidad del
procesador.
o Estimar el precio de una casa en relación a su superficie.

Puede ser determinística: Ocurre cuando se concoe el valor de X, el valor de Y queda perfectamente
establecido:
Y= f(x)

Ejemplo: La relación existente entre la temperatura en grados centígrados (X) y grados Fahrenheit
(Y) es:
Y= 1,8X + 32

No determiística: Conocido el valor de X, el valor de Y no queda establecido, siendo del tipo:
Y = f(x) + u

En donde u es una variable aleatoria.
Ejemplo: Se tiene una muestra del volumen de producción (X) y el costo total (Y) asociado a un
producto en un grupo de empresas.
Hay relación pero no es exacta.


Los diagramas anteriores o nubes de puntos, permiten obtener información sobre el tipo de
relación que hay entre las dos variables en estudio (X e Y), además cuáles son los valores anómalos
presentes. De forma explicativa se presenta el siguiente gráfico de dispersión, en donde se
representan las alturas y los pesos de 30 individuos, se evidencia que a mayor altura (variable X)
aumenta la variable peso (Y). Se grafican las variabales como (X,Y)

El coeficiente de correlación determina el grado de asociación lineal entre X e Y, sin
establecer a priori ninguna direccionalidad en la relación entre ambas variables.
La regresión lineal simple, permite cuantificar el cambio en el nivel medio de la variable Y a medida
que varía X, asumiendo que X es la variable explicativa o independiente e Y como la variable
respuesta o dependiente.


La relación entre las variables puede ser directa (pendiente positiva) o inversa (pendiente negativa):

Coeficiente de correlación Lineal de Pearson (r)

Corresponde al estimador muestral más usado para evaluar la asocicación lineal entre dos
variables (X e Y). Se simboliza con la letra r, y es otra medida de asociación que proporciona el grado
de relación lineal que existe entre las variables, esto es, mide si los puntos tienen tendencia a
ubicarse en una línea recta. Los valores que toma van entre -‐1 y 1.
Es un método estadístico paramétrico, por utilizar la media, varianza y, por tanto, necesitar
criterior de normalidad para las variables. e calcula de la siguiente forma:

La ecuación simplificada queda como:


Si r > 0, existe relación lineal directa entre las variables.
Si r < 0, existe relación lineal inversa entre las variables.
Si r = 1, existe relación lineal directa entre las variables, están sobre una línea recta con pendiente
positiva.
Si r = -‐1, existe una relación lineal inversa entre las variables, esto quiere decir que están en una
línea recta con pendiente negativa.
Si r = 0, no existe dependencia lineal entre las variables. Son incorreladas.

Cuando r es próximo a 1 (recta lineal creciente de izquierda a derecha) o r es cercano a -‐1 (recta
lineal decreciente). Hay una relación fuerte entre las variables.

Ejemplos:



Figura: Tomada desde Laguna, C., Instituto Aragonés de Ciencias de la Salud.

Se considera que una correlación es baja por debajo de 0,3 en valor absoluto, que es moderada
entre 0,3 y 0,7 y, de carácter alto si está por sobre los 0,7.

Covarianza

Esta medida entrega información de cómo varían dos variables de manera conjunta, es
decir, como covarían. Si las dos variables varían en forma conjunta y en el mismo sentido, ambas
aumentan o disminuyen, están relacionadas de forma directa. En cambio, si las variables varían en
sentido contrario, o sea una de las variables aumenta mientras que la otra disminuye, ambas están
relacionadas de forma inversa.

• Si la Cov = 0, no existe relación entre las variables.
• Si la Cov > 0, hay una relación directa entre las variables, es decir, si una aumenta, la otra
también.
• Si la Cov < 0, existe una relación inversa entre las variables, es decir, si una disminuye, la
otra aumenta.
El signo de la covarianza indica la posición de la nube, si es creciente o decreciente. Como se indica
en la siguiente figura.



Medidas de variabilidad relativa

Las medidas de dispersión son absolutas y con un único dato de su valor no es posible decir
si tenemos una dispersión importante o no. Para dar solución a este problema, se definen medidas
de dispersión relativas, independientes de las unidades usadas. Estas dispersiones relativas
permitirán comparar la dispersión entre diferentes muestras (con diferentes unidades). La más
destacada corresponde al coeficiente de variación de Pearson.

Coeficiente de variación

Se define como el cociente entre la desviación típica y la media aritmética. Este coeficiente
no se puede calcular cuando la media aritmética es 0 o presenta valores negativos, normalmente el
CV, se expresa en porcentaje, a mayor CV, mayor será la dispersión de los datos.

Se presentan variaciones de este coeficiente, en donde se emplea la variación o desviación
media en vez de la media aritmética. Teniendo dos posibles cálculos, dependiendo de si se calcula
respecto de la media aritmética o respecto de la mediana.

Ejemplo: Cálculo del coeficiente de variación de los siguientes ejemplos.

Figura 3: Cálculo del coeficiente de variación de los siguientes ejemplos. Tomado desde Gorjas et
al., 2011.

Condiciones de la aplicación de la correlación:
• Para variables cuantitativas. SI tenemos variables ordinales, utilizar coeficiente de
Spearman.
• Normalidad de ambas variables.
• Independencia, sólo hay una observación de cada variable para cada individuo.

Coeficiente de asimetría de Fisher: Se define como el cociente entre el momento de orden 3
respecto a la media y el cubo de la desviación típica. En el caso de una disrtibución simétrica, las


desviaciones respecto de la media se anularían y el coeficiente de asimetría será nulo (g1=0). En caso
contrario, g1 tendrá valores positivos para una simetría positiva (hacia la derecha) y negativos (hacia
la izquierda). La división por el cubo de la desviación típica se hace para que el coeficiente sea
adimensional y, por lo tanto, comparable entre diferentes muestras.

Coeficiente de asimetría de Pearson: Este coeficiente, también es adimensional, similar al de Fisher,
es nulo para una distribución simétrica (media y moda coinciden) y tanto más positivo o negativo,
cuanto más sesgada esté la distribución hacia la derecha o hacia la izquierda. Está definido como:

Coeficiente de Curtosis: Una característica importante es también la forma en que se distribuyen
los datos de la muestra, esto es, cómo es el agrupamiento en torno al valor central. Los datos se
pueden distribuir en forma tal que tengamos una gran pico en el histograma alrededor del valor
central, en cuyo caso hay una distribución leptocúrtica, en caso contrario, el histograma puede estar
aplanado, correspondiendo a una distribución platicúrtica. En presencia de un caso intermedio, se
dice que es una distribución mesocúrtica y el agrupamiento es de una distribución normal o en
forma de campana de Gauss. Este agrupamiento de datos se llama curtosis y la forma de
cuantificarla es a través del coeficiente de curtosis, definido como el cociente entre el momento de
cuarto orden respecto a la media y la cuarta potencia de la desviación típica. Es un coeficiente
adimensional y sus mayores valores son cuanto más puntiaguda es la distribución, teniendo un valor
de 3 para la distribución mesocúrtica o normal, mayor que 3 para la leptocúrtica y menor a 3 para
la platicúrtica.



Figura 4: Distribuciones con diferente grado de apuntamiento para el coeficiente de curtosis, siendo
leptocúrtica con g2 > 3; mesocúrtica con g2=3 y platicúrtica con g2< 3. Tomado desde Gorjas et al.,
2011.

Criterios de homogeneidad: Un estudio estadístico de datos requiere que éstos sean de la misma
naturaleza, origen y obtenidos bajo procedimientos semejantes. Cuando la serie de datos presenta
una no homogeneidad se le deben hacer ajustes para que las estimaciones estadísticas estén lo más
cerca posible de las estimaciones de los parámetros observados.

Causas de pérdida de la homogeneidad:
• Mal estado en los instrumentos.
• Cambio del observador.
• Cambio del instrumento o condiciones de uso de éste.
• Cambio en los métodos de depuración de datos.
• Modificaciones del ambiente.
Para determinar si la muestra es homogénea se realizan test estadísticos:

• Test paramétrico: Estos test asumen distribuciones estadísticas subyacentes a los
datos y deben cumplir condiciones de validez, de modo que el resultado sea fiable.
• Test no paramétrico: Estos test no deben ajustarse a ninguna distribución, pueden
aplicarse aunque no se cumplan las condiciones de validez paramétricas. Validan un
rango más amplio de situaciones.
•
Coeficiente de determinación (r2):

Es otra medida de asociación e indica la proporción de la variación de y que se debe a la
relación lineal entre x e y. Este valor siempre es positivo y menor a 1. Para obtener en porcentaje,
se debe multiplicar por 100.

Regresión Lineal

Cuando se tiene una serie de datos graficados en un diagrama de dispersión, podemos saber
cuál es la tendencia de los datos, es decir, a qué tiende el comportamiente de los datos. Se
determina con una función lineal que aproxime los valores de la variable dependiente a partir de la
variable independiente. Se calcula de la siguiente forma:

y= a + bx



BIBLIOGRAFÍA

Canavos G., 2003. Probabilidades y Estadísticas, Aplicaciones y Métodos. McGraw-‐Hill,
Interamericana de México.
Levine, D., T.Krehbiel y M. Berenson, 2006. Estadística para la administración, 4ª edición,
Méximo, editorial Pearson.
Lind, D., M. Willima y S. Wathen, 2005. Estadísticas aplicadas a los negocios y a la economía,
12º edición, México, editorial McGraw-‐Hill
Gorgas J., Cardiel N., Zamorano J., 2011. Estadística básica para estudiantes de ciencias,
departamento de Astrofísica y Ciencias de la Atmósfera, Facultad de Ciencias Fïsicas, Universidad
Complutense de Madrid.


Guía 1, Unidad 3, Regresión Lineal (Estadística)

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guía 1, Unidad 3, Regresión Lineal (Estadística)

Cargado por

Copyright:

Formatos disponibles

Regresión Lineal Simple

Regresión Lineal Simple

Técnico de nivel superior en Administración

UNIDAD III: REGRESIÓN LINEAL SIMPLE

Coeficiente de correlación Lineal de Pearson (r)

INSTITUTO PROFESIONAL IPG»4

INSTITUTO PROFESIONAL IPG»10

También podría gustarte