Está en la página 1de 8

Análisis de Regresión y Correlación

El análisis de regresión es ampliamente utilizado para la predicción y previsión, donde su


uso tiene superposición sustancial en el campo de aprendizaje automático. El análisis de
regresión se utiliza también para comprender cuales de las variables independientes están
relacionadas con la variable dependiente, y explorar las formas de estas relaciones. En
circunstancias limitadas, el análisis de regresión puede utilizarse para inferir relaciones
causales entre las variables independientes y dependientes. Sin embargo, esto puede llevar a
ilusiones o relaciones falsas, por lo que se recomienda precaución,1 por ejemplo, la
correlación no implica causalidad.

Muchas técnicas han sido desarrolladas para llevar a cabo el análisis de regresión. Métodos
familiares tales como la regresión lineal y la regresión por cuadrados mínimos
ordinarios son paramétricos, en que la función de regresión se define en términos de un
número finito de parámetros desconocidos que se estiman a partir de los datos. La regresión
no paramétrica se refiere a las técnicas que permiten que la función de regresión consista en
un conjunto específico de funciones, que puede ser de dimensión infinita.

El desempeño de los métodos de análisis de regresión en la práctica depende de la forma


del proceso de generación de datos, y cómo se relaciona con el método de regresión que se
utiliza. Dado que la forma verdadera del proceso de generación de datos generalmente no
se conoce, el análisis de regresión depende a menudo hasta cierto punto de hacer
suposiciones acerca de este proceso. Estos supuestos son a veces comprobables si una
cantidad suficiente de datos está disponible. Los modelos de regresión para la predicción
son frecuentemente útiles aunque los supuestos sean violados moderamente, aunque no
pueden funcionar de manera óptima. Sin embargo, en muchas aplicaciones, sobre todo con
pequeños efectos o las cuestiones de causalidad sobre la base de datos observacionales, los
métodos de regresión pueden dar resultados engañosos

El análisis de regresión es una herramienta estadística que sirve para medir la asociación
entre una variable dependiente y una o más variables independientes. Cuando la relación es
entre una variable dependiente y una independiente se llama regresión simple; si la relación
es entre una variable dependiente y varias independientes, se denomina regresión múltiple.
Este análisis trata de mostrarnos la relación entre ambas variables y la manera-en que las
variables independientes repercuten en la dependiente, expresando dichos efectos en forma
de ecuación.
De manera más específica, el análisis de regresión y la correlación comprenden el análisis
de los datos muestrales para saber si y como se relacionan entre sí dos o más variables en
una población.
Para los fines de este curso trataremos principalmente el análisis para dos variables específicas.

El análisis de correlación produce un número que resume el grado de relación o asociación existente
entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha
relación o asociación.
Esta ecuación se puede usar para estimar o predecir los valores futuros que puede tener una variable
cuando se conocen o suponen los valores de otra variable. El análisis de correlación generalmente
resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que
variables son potencialmente importantes, y el Interés radica principalmente en la fuerza de la
relación.

Con frecuencia, en Educación y Psicología se le da mayor importancia a la determinación de la


fuerza de la relación. En otras disciplinas, como en Administración de Empresas, Economía,
Investigaciones médicas y Agricultura, se concentra mas la atención en la naturaleza de la
relación (es decir, la ecuación predictiva), y el análisis de regresión constituye el
instrumento principal.

Historia
La primera forma de regresión fue el método de mínimos cuadrados, que fue publicado por
Legendre en 1805,4 y por Gauss en 1809.5 Legendre y Gauss aplicaron el método para el
problema de determinar, a partir de observaciones astronómicas, las órbitas de los cuerpos
alrededor del Sol (principalmente cometas, pero también más tarde los entonces recién
descubiertos planetas menores). Gauss publicó un desarrollo posterior de la teoría de los
mínimos cuadrados en 1821,6 incluyendo una versión del teorema de Gauss-Markov.
El término "regresión" fue acuñado por Francis Galton en el siglo XIX para describir un
fenómeno biológico. El fenómeno fue que las alturas de los descendientes de ancestros
altos tienden a regresar hacia abajo, hacia un promedio normal (un fenómeno conocido
como regresión hacia la media ). Para Galton, la regresión sólo tenía este significado
biológico, pero su trabajo fue extendido más tarde por Udny Yule y Karl Pearson a un
contexto estadístico más general. En la obra de Yule y Pearson, la distribución conjunta de
la variable respuesta y las variables explicativas se supone que es Gaussiana. Esta
suposición fue debilitada por Ronald Fisher en sus obras de 1922 y 1925. Fisher supone
que la distribución condicional de la variable respuesta es Gaussiana, pero la distribución
conjunta no necesario que lo sea. A este respecto, la asunción de Fisher está más cerca de la
formulación de Gauss de 1821.
En los años 1950 y 1960, los economistas utilizaron calculadoras electromecánicas para
calcular las regresiones. Antes de 1970, a veces tomaba hasta 24 horas para recibir el
resultado de una regresión. Los métodos de regresión siguen siendo un área de
investigación activa. En las últimas décadas, nuevos métodos han sido desarrollados
para regresión robusta, regresión que implica respuestas correlacionadas, tales como series
de tiempo y las curvas de crecimiento, regresión en la que los predictores (variable
independiente) o las variables de respuesta son curvas, imágenes, gráficos y otros objetos
de datos complejos, métodos de regresión que aceptan varios tipos de datos faltantes,
regresión no paramétrica, métodos de regresión bayesianos, regresión en la que las
variables predictoras son medidas con error, regresión con más variables predictoras que
observaciones y la inferencia causal con regresión.
Regresión lineal
El objeto de un análisis de regresión es investigar la relación estadística que existe entre

una variable dependiente (Y) y una o más variables independientes ( X 1 , X 2 , X 3 ,...). Para
poder realizar esta investigación, se debe postular una relación funcional entre las variables.
Debido a su simplicidad analítica, la forma funcional que más se utiliza en la práctica es la
relación lineal. Cuando solo existe una variable independiente, esto se reduce a una línea
recta:
Y = a + b(x), donde los coeficientes a y b son parámetros que definen la posición e
inclinación de la recta.
El parámetro a, conocido como la “ordenada en el origen,” nos indica cuánto es Y cuando
El parámetro b, conocido como la “pendiente,” nos indica cuánto aumenta Y por cada
aumento de una unidad en X. Nuestro problema consiste en obtener estimaciones de estos
coeficientes a partir de una muestra de observaciones sobre las variables Y y X.
En el análisis de regresión, estas estimaciones se obtienen por medio del método de
mínimos cuadrados.
Como ejemplo, consideremos las cifras del Cuadro 1, que muestra las estaturas (Y) y y el
peso (X) de 10 jugadores de un equipo de baloncesto.

Diagrama de dispersión: Para poder visualizar el grado de relación que existe entre las
variables, como primer paso en el análisis es conveniente elaborar un diagrama de
dispersión, que es una representación en un sistema de coordenadas cartesianas de los datos
numéricos observados. En el diagrama resultante, en el eje X se mide el peso y en el eje Y
se miden las estaturas de los jugadores.
CUADRO 1

Las estatur as y pesos de 10 jugadores de baloncesto de un equipo son:

Es ta tura (X ) Pe s o (Y )

186 85

189 85

190 86

192 90

193 87

193 91

198 93

201 103

203 100

205 101

ECUACION DE REGRESION
El análisis de regresión es una herramienta estadística que sirve para medir la asociación
entre una variable dependiente y una o más variables independientes. Cuando la relación es
entre una variable dependiente y una independiente se llama regresión simple; si la relación
es entre una variable dependiente y varias independientes, se denomina regresión múltiple.

Este análisis trata de mostrarnos la relación entre ambas variables y la manera-en que las
variables independientes repercuten en la dependiente, expresando dichos efectos en forma
de ecuación.

Vamos a utilizar el análisis de regresión para calcular el comportamiento de las partes


variables y fijas de cualquier partida de costos. Una manera de expresar esta relación
simple es:

Y = a + bx

Donde Y = Peso (variable dependiente)

a = coeficiente de intercepción o punto donde la recta de regresión corta a la ordenada.

b = coeficiente de regresión o pendiente de la recta de regresión

x = Estatura (variable independiente)

El caso de regresión simple, la técnica de aplicación para encontrar los valores de ambas
variables es la de mínimos cuadrados. , cuya mecánica es la siguiente:

A través de esta herramienta se encuentra a y b, que permiten minimizar la distancia entre


las observaciones y los valores generados con la recta, cuya mecánica es la siguiente:

Así, b = (n (∑xy) – (∑x) (∑y)) / (n (∑ x2) – (∑x)2),

a = (∑y - b∑x) / n

Ejemplo

Veamos ahora un ejemplo en el cual se presentan las e sta tura s y pe sos de 10 juga dore s
de un e quipo de ba lonc e sto.

Estatura (X) Peso (Y)

186 85
189 85
190 86
192 90
193 87
193 91
198 93
201 103
203 100
205 101

C a lc ula r:
1. La ecu ación de r egresión .
2. El peso estimado de un jugador que mide 208 cm

Cálculos:
Observaciones Es ta tura (X ) Pe s o (Y ) X2 XY Y2

1 186 85 34 596 15 810 7 225

2 189 85 35 721 16 065 7 225

3 190 86 36 100 16 340 7 396

4 192 90 36 864 17 280 8 100

5 193 87 37 249 16 791 7 569

6 193 91 37 249 17563 8 281

7 198 93 39 204 18 414 8 649

8 201 103 40 401 20 703 10 609

9 203 100 41 209 20 300 10 000

10 205 101 42 025 20 705 10 201

Total 1 950 921 380 618 179 971 85 255


Sustituyendo los valores determinamos los diferentes indicadores y variables:

1. a = -106.8 , b = 1.02 , y = -106.8 + 1. 02(x)

2. El peso estimado será de 105.36 kg.

Es importante que esta técnica estadística sea bien comprendida porque es de mucha
aplicación en las áreas de contabilidad administrativa; por ejemplo: para simular las
decisiones con el modelo costo-volumen-utilidad, para elaborar el presupuesto de ventas,
para desarrollar el presupuesto flexible, etcétera.