Está en la página 1de 15

Arqueo de información

Regresión Simple
La simple constatación de la existencia de una asociación entre dos variables no permite
realizar predicciones sobre los valores que adoptará una variable al asignar valores a la otra.
Para ello, y una vez decidido si existe o no esa dependencia entre las variables es
importante saber si podemos encontrar una función (con forma de recta, parábola, etc.) que
nos dé una buena aproximación de la nube de puntos y que nos sirva, por tanto, para hacer
predicciones; esta función matemática se denomina ecuación de regresión.

La regresión consiste en ajustar lo más posible la nube de puntos de un diagrama de


dispersión a una función. Cuando la función es una recta obtenemos la recta de regresión
lineal, cuando es una parábola, una regresión parabólica, cuando es una exponencial, una
regresión exponencial, etc.

La regresión de dos variables debe afrontar, pues, dos tipos de problemas: decidir qué
función se ajusta mejor a los datos disponibles y realizar dicho ajuste.

Para afrontar el primer problema una forma muy útil es acudir a la representación gráfica
de los datos; así, se comprueba, por ejemplo, que en la primera de las siguientes
distribuciones, la figura que mejor se ajusta a los datos disponibles es una recta, mientras
que la segunda queda bastante mejor explicada con una parábola.

Correlación Simple
Cuando tenemos dos variables cuantitativas una medida de la asociación o correlación entre
ellas viene dada por el Coeficiente de Correlación Lineal de Pearson, que se define como

Expresión en la que:
Sxy se corresponde con la covarianza entre X e Y.
Sx se corresponde a la desviación típica de X.
Sy se corresponde a la desviación típica de Y.

El valor de este parámetro está siempre comprendido entre -1 y +1 (-1 < rxy < 1), lo que
nos permite y facilita la interpretación de las relaciones en la siguiente forma:

 Cuando Ir 1 = 1 se tiene una relación lineal perfecta entre las variables X e Y, por lo
que podemos calcular exactamente el valor de Y asociado con cada uno de los

valores de X o viceversa. Si rxy= 1 la relación es positiva o directa, si rxy= -1, la


relación es negativa o inversa. El signo positivo o negativo se lo da el valor de la
covarianza.

 Cuando r = 0 indica que no existe ninguna relación de tipo lineal entre las variables.
Ello no es óbice para que exista otra dependencia no lineal (cuadrática, por
ejemplo).

 Cuando -1 < rxy <1 existe dependencia estadística; en general suele aceptarse la
siguiente clasificación:

 Valor de r de 0 a 0,25 implica que no existe correlación suficiente entre


ambas variables.
 Valor de r de 0,25 a 0,50 implica una correlación baja a moderada.
 Valor de r de 0,50 a 0,75 implica correlación moderada a buena.
 Valor de r de 0,75 o mayor, implica una muy buena a excelente correlación
Estos rangos de valores se pueden extrapolar también, lógicamente, a las correlaciones
negativas.

Señalemos, por último, que, aunque viene expresado en términos numéricos, este

coeficiente tiene carácter cualitativo, es decir que si en un caso se obtiene un r = 0,3 y en


otro un r = 0,6, sólo podemos afirmar que en el segundo caso la intensidad de la relación es
mayor que en el primero, pero no que es el doble que en el primero.

Autores: Ángel Muñoz Alamillos, Juan Antonio Vicente Virseda, Azahara Muñoz Martínez.
Estadística para Administración y Dirección de Empresas

Análisis de Regresión Simple

Ejemplo:

Con base en los datos muéstrales hipotéticos siguientes, referentes al recorrido en


kilometraje de automóviles y a su precio de venta, determinar el diagrama de dispersión
correspondiente.
Solución:

Al considerar las coordenadas (x, y) extraídas de la información en la tabla y estableciendo


un orden creciente en la variable independiente, se obtendría la siguiente tabla y en seguida
la gráfica solicitada.

Coordenadas indicadas de menor a mayor con respecto a la variable independiente (abscisa).


Diagrama de dispersión del ejemplo

Línea de regresión es el trazado gráfico de un bosquejo con criterio, el cual para aplicarlo,
debe ser una línea que pase por la mayoría de los puntos; un mayor acercamiento teórico es
la línea a trazar por en medio de la nube de los puntos, es decir, que aproximadamente esta
línea deje el mismo número de puntos por arriba (derecha) y por abajo (izquierda) de ella y
todavía permita visualizar que las distancias de los puntos hacia la línea sean lo más
pequeñas posibles. Se entiende que tal procedimiento es diferente en cada problema por la
posición de los puntos (coordenadas) que corresponden a los datos de las dos variables.

Por lo anterior, se pensaría que no hay límite para el número de líneas rectas que se
trazarían en un diagrama de dispersión o de puntos. Sin embargo, solo se necesita una recta
y que ésta sea la que mejor ajuste a los datos. Para esto, no se usa un criterio, sino un
procedimiento, y no visual, por el contrario analítico siendo el de mínimos cuadrados, el
cual posteriormente se enunciará.

Tipos de modelos de regresión


La naturaleza de la relación llega a adoptar varias formas gráficas y analíticas que van
desde líneas y funciones matemáticas muy sencillas hasta otras muy complicadas. La
relación más simple consiste en una línea recta o una relación lineal.

Diferentes tipos de regresión, con la ejemplificación de las variables independiente y dependiente denotadas,
respectivamente, por X y Y.

En el comportamiento lineal enunciado y el concepto de línea de regresión es de considerar


un conocimiento previo de geometría analítica, por los conceptos de abscisa y ordenada al
origen, conjuntamente con el de ángulo de inclinación de la línea con el eje de las abscisas
(horizontal) llamada pendiente.

En este sentido, tenemos que al proyectar la recta hacia ambos ejes coordenados estaremos
determinando tanto la intersección con el eje Y, llamada ordenada al origen, como el valor
de la pendiente, siendo esta última la razón de una variación o un incremento de la variable
independiente (X) en el denominador y una variación de la variable dependiente (Y) en el
numerador. En el caso de la variación de Y ocurren dos valores: de aumento o de
decremento, lo que se refleja en la operacionalización como un valor positivo o uno
negativo, respectivamente.

Estadística en el Área de las Ciencias Sociales y Administrativas-Aragón. ALFAOMEGA

Ecuación lineal de regresión por el método de mínimos cuadrados


Como el procedimiento descrito en el párrafo anterior exige primero graficar la línea, con el
mejor ajuste posible a la nube de puntos en el diagrama de dispersión, y después recabar el
valor de los elementos principales: ordenada al origen y pendiente, para establecer de
nuevo, por teoría de geometría analítica, la forma de la ecuación de una recta llamada punto
pendiente, que es expresada como y 5 m x 1 b. Ahora, si se lleva todo esto a la información
de la población en terrenos de la estadística, el modelo para la línea recta en regresión se
representaría con la siguiente expresión:

La nomenclatura es la siguiente:

= es la intersección real con el eje “Y” (el término real indica que la información es la
que arroja la población)

= es la pendiente de la información poblacional (real)

= es el error aleatorio en Yi para la observación i


Recordemos que en gran número de problemas no es posible contar con toda la
información, es decir, con todos los datos de la población, aunque ésta sea finita, o que
sería muy costoso y laborioso trabajar todos los datos poblacionales si se contara con ellos,
regresaremos luego al manejo de una muestra. Los conceptos enunciados en la ecuación de
la recta pasarán a ser representados con letras latinas donde a y b, respectivamente, son
constantes numéricas, dado que su valor no se altera cuando se trabaja una línea en
particular, al margen de que son la ordenada al origen y la pendiente; por consiguiente, se
establece como modelo matemático para la ecuación de la línea de regresión la siguiente
expresión.
Los diferentes elementos de una ecuación de regresión lineal

Además, hay que indicar que los valores de la variable dependiente, por estarse trabajando
una muestra, son estimados, lo que se indica en lenguaje simbólico con un gorrito.

Método de los mínimos cuadrados

Si ciertas suposiciones son válidas, la intersección con el eje “Y” de la muestra “a” y la
pendiente de la muestra “b” se utilizarían como estimaciones puntuales de los respectivos

parámetros y de la población. Entonces, = a + bXi es la ecuación de la recta de


regresión donde es el valor predicho de “Y” para la observación “i”.

Al análisis de regresión lineal simple le toca encontrar la recta que mejor “ajuste” con los
datos. Ubicar el mejor ajuste significa que se desea encontrar la línea recta para la cual la
diferencia entre el valor real de “Y”, en este caso Yi, y el valor que se predecirá con la línea
de regresión ajustada, que es Yi, sea lo más pequeña posible.

Luego, se tiene que debe ser mínima. En forma gráfica, estaríamos planteando
que las distancias verticales entre los puntos y la recta de regresión sean lo más pequeñas
posibles.

En forma general, si hay n pares de observaciones en la muestra, el criterio de mínimos


cuadrados exige que la suma de los cuadrados de las diferencias sea mínima; en lenguaje

simbólico, esto sería: como tenemos que = a+bX se establecería que


debe ser mínima.

Para obtener las soluciones de las dos incógnitas, las constantes a y b denominadas en lo

sucesivo coeficientes de regresión, en la ecuación de la recta de regresión hay

que considerar que las representan las variables Y y X,

respectivamente, donde se establece por consiguiente que

Al multiplicar cada una de las “n” ecuaciones de la forma Y = a + bX por el coeficiente de


la primera incógnita de la ecuación y sumar las ecuaciones resultantes, tenemos lo
siguiente:
ya que la primera incógnita en cada una de las ecuaciones es a y su coeficiente es 1.

Ahora, al multiplicar cada una de las “n” ecuaciones de la forma Y = a + bX por el


coeficiente de la segunda incógnita de cada una de las ecuaciones y al sumar las ecuaciones
resultantes, tenemos lo siguiente.

ya que la segunda incógnita en cada una de las ecuaciones es b, mientras sus coeficientes
son X1, X2,…......, Xn

Las ecuaciones resultantes, al resolverse, se ubican en la estadística como el método de


mínimos cuadrados.

Las ecuaciones que se obtuvieron como ecuaciones normales 1 y 2 se muestran enseguida


para su resolución
Puesto que hay dos ecuaciones con dos incógnitas, el sistema se resuelve por cualquiera de
los métodos de simultáneas. Así, al emplear el método de suma o resta, los pasos a
desarrollar son los siguientes:

Multiplicando la ecuación normal 1 por -1/n y la ecuación normal 2 por obtenemos


ecuaciones equivalentes que operamos con una suma algebraica.

Para despejar la incógnita o el coeficiente de regresión “b” de esta última ecuación, la


número 5, se llevan a cabo los siguientes pasos:

Si se aplica la factorización de un monomio por un polinomio, se obtendrá el penúltimo


paso para el despeje requerido.

si se indizan las variables para reconocer que todas las


operaciones indicadas son sobre todos los valores a trabajar de las variables X y Y.
Otras expresiones equivalentes, obtenidas por simplificación algebraica, son las que se
enuncian en seguida:

donde, como y se tiene que al sustituir tales expresiones, el coeficiente


queda establecido de la siguiente manera:

Ahora, si retomamos el sistema de ecuaciones simultáneas y el coeficiente de regresión ya


determinado “b”, sustituiremos éste en la ecuación normal 1 para despejar al otro
coeficiente de regresión, que es “a”, con lo que se establece lo siguiente:

si se indizan las variables para reconocer que todas las


operaciones indicadas son sobre todos los valores a trabajar de las variables X y Y.
De la ecuación normal 1, despejamos al coeficiente de regresión “a”, sin sustituir la
expresión correspondiente al coeficiente “b”, sino dejándolo solo para la sustitución de su
valor calculado aparte, para obtener lo siguiente:

si se indizan las variables para reconocer que todas las operaciones


indicadas son sobre todos los valores a trabajar de las variables X y Y.

donde, como , se tiene que al sustituir tales expresiones el coeficiente


queda de la siguiente manera:

La ecuación de regresión que se ha ajustado a los datos se llega a utilizar para predecir el
valor de Y para un valor dado de X con

Con la información del ejemplo, es decir, con los datos muéstrales hipotéticos del recorrido
del automóvil en kilómetros y el precio de venta en pesos, determinar la ecuación de la
recta de regresión que mejor ajuste a los datos.

Iniciaremos por elaborar una tabla con las operaciones pertinentes de las variables, sin
ordenar bajo la variable independiente, para determinar los coeficientes de regresión y
sustituirlos en la ecuación de regresión ya deducida por el método de mínimos cuadrados.
Concentrado de operaciones de las variables, con escala indicada en base 10

Si sustituimos los valores respectivos de en las ecuaciones de los


coeficientes de regresión a y b, obtenemos lo siguiente:

Al considerar tales valores de los coeficientes de regresión, se establece la ecuación de


estimación de la siguiente manera:

= − 2 933597.23- 38.56X con escala ya aplicada.

Estadística en el Área de las Ciencias Sociales y Administrativas-Aragón. ALFAOMEGA


Error estándar de estimación
En estos momentos, y para este tema, remarcaremos de nuevo que un gran número de
conocimientos de la estadística no son otros totalmente diferentes; por el contrario, en
esencia son los mismos, solo que sufren una transformación de acuerdo con el escenario
donde nos encontremos. Así, la desviación estándar de regresión es uno de esos casos al
que en estadística descriptiva se le llama desviación estándar, se identifica en un sistema
unidimensional bajo la recta numérica o eje de las X y se interpreta como un intervalo; en
cambio, para el caso de la desviación estándar de regresión o error estándar de estimación
se identifica en un sistema bidimensional por trabajar dos variables y se interpreta en el
plano como una o varias franjas paralelas a la línea de regresión.

También este último concepto se entendería como una generalización del primero.

La determinación de la exactitud del grado de dispersión de la población, cuanto más


dispersa esté menor será la exactitud de las estimaciones al considerar una muestra de toda
la información, es decir, el grado de dispersión en la población se logra estimar a partir del
grado de dispersión en las observaciones de la muestra con respecto a la línea de regresión
calculada.

La desviación estándar de los valores muéstrales Yi hacia la línea de regresión es


llamada desviación estándar de regresión o error estándar de estimación, ya que suele ser
usada para medir el error de las estimaciones de los valores individuales de Yi basados en
la línea de regresión. La fórmula general para la desviación estándar de regresión de los
valores de Y sobre X es:

Como en ella se requerirían los valores predichos de Y para cada valor X en la muestra, es

decir, los , por ello se prefiere aplicar el modelo que se encuentra establecido a partir de
los datos iniciales u originales, por lo que se expresa como sigue:
Nota: Se utiliza como divisor n − 2, no n, porque se perdieron dos grados de libertad al
estimar la línea de regresión.

El valor de Syx indica el recorrido del error de las estimaciones de valores individuales de
Y.

La interpretación de Syx con respecto a la línea es similar a la de con respecto a la ,


es decir, si los valores de Y están distribuidos normalmente, 68.26%, 95.44%, 99.74% y
99.98% de los valores estarán dentro de las distancias de ±1, ±2, ±3 y ±4 veces la
desviación estándar de regresión, respectivamente; entonces se tiene el siguiente modelo:

, donde Z = 1, 2, 3, 4

Las líneas de regresión llegan a ser determinadas calculando dos puntos cualesquiera para
cada línea.

Mientras más alto sea el valor de la desviación estándar de regresión, más amplio será el
esparcimiento de los puntos individuales con respecto a la línea de regresión y menor el
grado de dependencia de la relación. Sin embargo, como esto es laborioso, es posible usar
el concepto de correlación para medir tal grado de relación.

Para mostrar lo anterior, consideremos otra vez la información del ejemplo 11.3; con base
en ello, determinemos el error estándar de estimación Syx y su graficación correspondiente.

Estadística en el Área de las Ciencias Sociales y Administrativas-Aragón. ALFAOMEGA

También podría gustarte