Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Simple
La simple constatación de la existencia de una asociación entre dos variables no permite
realizar predicciones sobre los valores que adoptará una variable al asignar valores a la otra.
Para ello, y una vez decidido si existe o no esa dependencia entre las variables es
importante saber si podemos encontrar una función (con forma de recta, parábola, etc.) que
nos dé una buena aproximación de la nube de puntos y que nos sirva, por tanto, para hacer
predicciones; esta función matemática se denomina ecuación de regresión.
La regresión de dos variables debe afrontar, pues, dos tipos de problemas: decidir qué
función se ajusta mejor a los datos disponibles y realizar dicho ajuste.
Para afrontar el primer problema una forma muy útil es acudir a la representación gráfica
de los datos; así, se comprueba, por ejemplo, que en la primera de las siguientes
distribuciones, la figura que mejor se ajusta a los datos disponibles es una recta, mientras
que la segunda queda bastante mejor explicada con una parábola.
Correlación Simple
Cuando tenemos dos variables cuantitativas una medida de la asociación o correlación entre
ellas viene dada por el Coeficiente de Correlación Lineal de Pearson, que se define como
Expresión en la que:
Sxy se corresponde con la covarianza entre X e Y.
Sx se corresponde a la desviación típica de X.
Sy se corresponde a la desviación típica de Y.
El valor de este parámetro está siempre comprendido entre -1 y +1 (-1 < rxy < 1), lo que
nos permite y facilita la interpretación de las relaciones en la siguiente forma:
Cuando Ir 1 = 1 se tiene una relación lineal perfecta entre las variables X e Y, por lo
que podemos calcular exactamente el valor de Y asociado con cada uno de los
Cuando r = 0 indica que no existe ninguna relación de tipo lineal entre las variables.
Ello no es óbice para que exista otra dependencia no lineal (cuadrática, por
ejemplo).
Cuando -1 < rxy <1 existe dependencia estadística; en general suele aceptarse la
siguiente clasificación:
Señalemos, por último, que, aunque viene expresado en términos numéricos, este
Autores: Ángel Muñoz Alamillos, Juan Antonio Vicente Virseda, Azahara Muñoz Martínez.
Estadística para Administración y Dirección de Empresas
Ejemplo:
Línea de regresión es el trazado gráfico de un bosquejo con criterio, el cual para aplicarlo,
debe ser una línea que pase por la mayoría de los puntos; un mayor acercamiento teórico es
la línea a trazar por en medio de la nube de los puntos, es decir, que aproximadamente esta
línea deje el mismo número de puntos por arriba (derecha) y por abajo (izquierda) de ella y
todavía permita visualizar que las distancias de los puntos hacia la línea sean lo más
pequeñas posibles. Se entiende que tal procedimiento es diferente en cada problema por la
posición de los puntos (coordenadas) que corresponden a los datos de las dos variables.
Por lo anterior, se pensaría que no hay límite para el número de líneas rectas que se
trazarían en un diagrama de dispersión o de puntos. Sin embargo, solo se necesita una recta
y que ésta sea la que mejor ajuste a los datos. Para esto, no se usa un criterio, sino un
procedimiento, y no visual, por el contrario analítico siendo el de mínimos cuadrados, el
cual posteriormente se enunciará.
Diferentes tipos de regresión, con la ejemplificación de las variables independiente y dependiente denotadas,
respectivamente, por X y Y.
En este sentido, tenemos que al proyectar la recta hacia ambos ejes coordenados estaremos
determinando tanto la intersección con el eje Y, llamada ordenada al origen, como el valor
de la pendiente, siendo esta última la razón de una variación o un incremento de la variable
independiente (X) en el denominador y una variación de la variable dependiente (Y) en el
numerador. En el caso de la variación de Y ocurren dos valores: de aumento o de
decremento, lo que se refleja en la operacionalización como un valor positivo o uno
negativo, respectivamente.
La nomenclatura es la siguiente:
= es la intersección real con el eje “Y” (el término real indica que la información es la
que arroja la población)
Además, hay que indicar que los valores de la variable dependiente, por estarse trabajando
una muestra, son estimados, lo que se indica en lenguaje simbólico con un gorrito.
Si ciertas suposiciones son válidas, la intersección con el eje “Y” de la muestra “a” y la
pendiente de la muestra “b” se utilizarían como estimaciones puntuales de los respectivos
Al análisis de regresión lineal simple le toca encontrar la recta que mejor “ajuste” con los
datos. Ubicar el mejor ajuste significa que se desea encontrar la línea recta para la cual la
diferencia entre el valor real de “Y”, en este caso Yi, y el valor que se predecirá con la línea
de regresión ajustada, que es Yi, sea lo más pequeña posible.
Luego, se tiene que debe ser mínima. En forma gráfica, estaríamos planteando
que las distancias verticales entre los puntos y la recta de regresión sean lo más pequeñas
posibles.
Para obtener las soluciones de las dos incógnitas, las constantes a y b denominadas en lo
ya que la segunda incógnita en cada una de las ecuaciones es b, mientras sus coeficientes
son X1, X2,…......, Xn
La ecuación de regresión que se ha ajustado a los datos se llega a utilizar para predecir el
valor de Y para un valor dado de X con
Con la información del ejemplo, es decir, con los datos muéstrales hipotéticos del recorrido
del automóvil en kilómetros y el precio de venta en pesos, determinar la ecuación de la
recta de regresión que mejor ajuste a los datos.
Iniciaremos por elaborar una tabla con las operaciones pertinentes de las variables, sin
ordenar bajo la variable independiente, para determinar los coeficientes de regresión y
sustituirlos en la ecuación de regresión ya deducida por el método de mínimos cuadrados.
Concentrado de operaciones de las variables, con escala indicada en base 10
También este último concepto se entendería como una generalización del primero.
Como en ella se requerirían los valores predichos de Y para cada valor X en la muestra, es
decir, los , por ello se prefiere aplicar el modelo que se encuentra establecido a partir de
los datos iniciales u originales, por lo que se expresa como sigue:
Nota: Se utiliza como divisor n − 2, no n, porque se perdieron dos grados de libertad al
estimar la línea de regresión.
El valor de Syx indica el recorrido del error de las estimaciones de valores individuales de
Y.
, donde Z = 1, 2, 3, 4
Las líneas de regresión llegan a ser determinadas calculando dos puntos cualesquiera para
cada línea.
Mientras más alto sea el valor de la desviación estándar de regresión, más amplio será el
esparcimiento de los puntos individuales con respecto a la línea de regresión y menor el
grado de dependencia de la relación. Sin embargo, como esto es laborioso, es posible usar
el concepto de correlación para medir tal grado de relación.
Para mostrar lo anterior, consideremos otra vez la información del ejemplo 11.3; con base
en ello, determinemos el error estándar de estimación Syx y su graficación correspondiente.