Documentos de Académico
Documentos de Profesional
Documentos de Cultura
No determiística: Conocido el valor de X, el valor de Y no queda establecido, siendo del tipo:
Y = f(x) + u
En donde u es una variable aleatoria.
Ejemplo: Se tiene una muestra del volumen de producción (X) y el costo total (Y) asociado a un
producto en un grupo de empresas.
Hay relación pero no es exacta.
INSTITUTO PROFESIONAL IPG»2
Regresión Lineal Simple
Javiera Errázuriz Díaz
Los diagramas anteriores o nubes de puntos, permiten obtener información sobre el tipo de
relación que hay entre las dos variables en estudio (X e Y), además cuáles son los valores anómalos
presentes. De forma explicativa se presenta el siguiente gráfico de dispersión, en donde se
representan las alturas y los pesos de 30 individuos, se evidencia que a mayor altura (variable X)
aumenta la variable peso (Y). Se grafican las variabales como (X,Y)
El coeficiente de correlación determina el grado de asociación lineal entre X e Y, sin
establecer a priori ninguna direccionalidad en la relación entre ambas variables.
La regresión lineal simple, permite cuantificar el cambio en el nivel medio de la variable Y a medida
que varía X, asumiendo que X es la variable explicativa o independiente e Y como la variable
respuesta o dependiente.
INSTITUTO PROFESIONAL IPG»3
Regresión Lineal Simple
Javiera Errázuriz Díaz
La relación entre las variables puede ser directa (pendiente positiva) o inversa (pendiente negativa):
Si r > 0, existe relación lineal directa entre las variables.
Si r < 0, existe relación lineal inversa entre las variables.
Si r = 1, existe relación lineal directa entre las variables, están sobre una línea recta con pendiente
positiva.
Si r = -‐1, existe una relación lineal inversa entre las variables, esto quiere decir que están en una
línea recta con pendiente negativa.
Si r = 0, no existe dependencia lineal entre las variables. Son incorreladas.
Cuando r es próximo a 1 (recta lineal creciente de izquierda a derecha) o r es cercano a -‐1 (recta
lineal decreciente). Hay una relación fuerte entre las variables.
Ejemplos:
INSTITUTO PROFESIONAL IPG»5
Regresión Lineal Simple
Javiera Errázuriz Díaz
Figura: Tomada desde Laguna, C., Instituto Aragonés de Ciencias de la Salud.
Se considera que una correlación es baja por debajo de 0,3 en valor absoluto, que es moderada
entre 0,3 y 0,7 y, de carácter alto si está por sobre los 0,7.
Covarianza
Esta medida entrega información de cómo varían dos variables de manera conjunta, es
decir, como covarían. Si las dos variables varían en forma conjunta y en el mismo sentido, ambas
aumentan o disminuyen, están relacionadas de forma directa. En cambio, si las variables varían en
sentido contrario, o sea una de las variables aumenta mientras que la otra disminuye, ambas están
relacionadas de forma inversa.
• Si la Cov = 0, no existe relación entre las variables.
• Si la Cov > 0, hay una relación directa entre las variables, es decir, si una aumenta, la otra
también.
• Si la Cov < 0, existe una relación inversa entre las variables, es decir, si una disminuye, la
otra aumenta.
El signo de la covarianza indica la posición de la nube, si es creciente o decreciente. Como se indica
en la siguiente figura.
INSTITUTO PROFESIONAL IPG»6
Regresión Lineal Simple
Javiera Errázuriz Díaz
Medidas de variabilidad relativa
Las medidas de dispersión son absolutas y con un único dato de su valor no es posible decir
si tenemos una dispersión importante o no. Para dar solución a este problema, se definen medidas
de dispersión relativas, independientes de las unidades usadas. Estas dispersiones relativas
permitirán comparar la dispersión entre diferentes muestras (con diferentes unidades). La más
destacada corresponde al coeficiente de variación de Pearson.
Coeficiente de variación
Se define como el cociente entre la desviación típica y la media aritmética. Este coeficiente
no se puede calcular cuando la media aritmética es 0 o presenta valores negativos, normalmente el
CV, se expresa en porcentaje, a mayor CV, mayor será la dispersión de los datos.
Se presentan variaciones de este coeficiente, en donde se emplea la variación o desviación
media en vez de la media aritmética. Teniendo dos posibles cálculos, dependiendo de si se calcula
respecto de la media aritmética o respecto de la mediana.
Ejemplo: Cálculo del coeficiente de variación de los siguientes ejemplos.
Figura 3: Cálculo del coeficiente de variación de los siguientes ejemplos. Tomado desde Gorjas et
al., 2011.
Condiciones de la aplicación de la correlación:
• Para variables cuantitativas. SI tenemos variables ordinales, utilizar coeficiente de
Spearman.
• Normalidad de ambas variables.
• Independencia, sólo hay una observación de cada variable para cada individuo.
Coeficiente de asimetría de Fisher: Se define como el cociente entre el momento de orden 3
respecto a la media y el cubo de la desviación típica. En el caso de una disrtibución simétrica, las
INSTITUTO PROFESIONAL IPG»7
Regresión Lineal Simple
Javiera Errázuriz Díaz
desviaciones respecto de la media se anularían y el coeficiente de asimetría será nulo (g1=0). En caso
contrario, g1 tendrá valores positivos para una simetría positiva (hacia la derecha) y negativos (hacia
la izquierda). La división por el cubo de la desviación típica se hace para que el coeficiente sea
adimensional y, por lo tanto, comparable entre diferentes muestras.
Coeficiente de asimetría de Pearson: Este coeficiente, también es adimensional, similar al de Fisher,
es nulo para una distribución simétrica (media y moda coinciden) y tanto más positivo o negativo,
cuanto más sesgada esté la distribución hacia la derecha o hacia la izquierda. Está definido como:
Coeficiente de Curtosis: Una característica importante es también la forma en que se distribuyen
los datos de la muestra, esto es, cómo es el agrupamiento en torno al valor central. Los datos se
pueden distribuir en forma tal que tengamos una gran pico en el histograma alrededor del valor
central, en cuyo caso hay una distribución leptocúrtica, en caso contrario, el histograma puede estar
aplanado, correspondiendo a una distribución platicúrtica. En presencia de un caso intermedio, se
dice que es una distribución mesocúrtica y el agrupamiento es de una distribución normal o en
forma de campana de Gauss. Este agrupamiento de datos se llama curtosis y la forma de
cuantificarla es a través del coeficiente de curtosis, definido como el cociente entre el momento de
cuarto orden respecto a la media y la cuarta potencia de la desviación típica. Es un coeficiente
adimensional y sus mayores valores son cuanto más puntiaguda es la distribución, teniendo un valor
de 3 para la distribución mesocúrtica o normal, mayor que 3 para la leptocúrtica y menor a 3 para
la platicúrtica.
INSTITUTO PROFESIONAL IPG»8
Regresión Lineal Simple
Javiera Errázuriz Díaz
Figura 4: Distribuciones con diferente grado de apuntamiento para el coeficiente de curtosis, siendo
leptocúrtica con g2 > 3; mesocúrtica con g2=3 y platicúrtica con g2< 3. Tomado desde Gorjas et al.,
2011.
Criterios de homogeneidad: Un estudio estadístico de datos requiere que éstos sean de la misma
naturaleza, origen y obtenidos bajo procedimientos semejantes. Cuando la serie de datos presenta
una no homogeneidad se le deben hacer ajustes para que las estimaciones estadísticas estén lo más
cerca posible de las estimaciones de los parámetros observados.
Causas de pérdida de la homogeneidad:
• Mal estado en los instrumentos.
• Cambio del observador.
• Cambio del instrumento o condiciones de uso de éste.
• Cambio en los métodos de depuración de datos.
• Modificaciones del ambiente.
Para determinar si la muestra es homogénea se realizan test estadísticos:
• Test paramétrico: Estos test asumen distribuciones estadísticas subyacentes a los
datos y deben cumplir condiciones de validez, de modo que el resultado sea fiable.
• Test no paramétrico: Estos test no deben ajustarse a ninguna distribución, pueden
aplicarse aunque no se cumplan las condiciones de validez paramétricas. Validan un
rango más amplio de situaciones.
•
Coeficiente de determinación (r2):
Es otra medida de asociación e indica la proporción de la variación de y que se debe a la
relación lineal entre x e y. Este valor siempre es positivo y menor a 1. Para obtener en porcentaje,
se debe multiplicar por 100.
Regresión Lineal
Cuando se tiene una serie de datos graficados en un diagrama de dispersión, podemos saber
cuál es la tendencia de los datos, es decir, a qué tiende el comportamiente de los datos. Se
determina con una función lineal que aproxime los valores de la variable dependiente a partir de la
variable independiente. Se calcula de la siguiente forma:
y= a + bx
INSTITUTO PROFESIONAL IPG»9
Regresión Lineal Simple
Javiera Errázuriz Díaz
BIBLIOGRAFÍA
Canavos G., 2003. Probabilidades y Estadísticas, Aplicaciones y Métodos. McGraw-‐Hill,
Interamericana de México.
Levine, D., T.Krehbiel y M. Berenson, 2006. Estadística para la administración, 4ª edición,
Méximo, editorial Pearson.
Lind, D., M. Willima y S. Wathen, 2005. Estadísticas aplicadas a los negocios y a la economía,
12º edición, México, editorial McGraw-‐Hill
Gorgas J., Cardiel N., Zamorano J., 2011. Estadística básica para estudiantes de ciencias,
departamento de Astrofísica y Ciencias de la Atmósfera, Facultad de Ciencias Fïsicas, Universidad
Complutense de Madrid.