Está en la página 1de 11

ANALISIS DE REGRESIÓN

Es un procedimiento estadístico que analiza la relación que existe entre una


variable dependiente (Y) y una o más variables independientes (X 1, X2, ..., Xk).

Si solo se utiliza una variable independiente se trataría de un análisis de regresión


simple y si se utiliza más de una variable independiente sería un análisis de
regresión múltiple.

Para poder estudiar la relación que existe entre dichas variables es necesario
establecer cuál es la relación funcional que existe entre ellas. Un primer paso para
determinar esta posible relación entre las variables es analizar el gráfico de datos
observados. Este gráfico
se llama gráfico de
dispersión y permite
determinar visualmente
si las variables están
relacionadas o no. En el
caso de que estén
relacionadas, se podrá
intuir la intensidad, el
sentido de la relación
entre las variables
(directa o inversa) y el
tipo de relación (lineal o
no lineal) existente entre
ellas.

Algunos ejemplos de la
relación que existe entre
las variables utilizando el
gráfico de dispersión son los siguientes:

Relación entre variables

Los procesos analíticos que relacionan, de manera muy simple, los resultados de
dos o más variables, constituyen un ejemplo de lo expresado en la Introducción a
este Anexo. La idea básica es el conocimiento de la relación existente entre
variables. Así, por ejemplo, la cantidad de demanda de un producto es
considerada función de su variable precio, los costos de producción son función de
la cantidad producida, los gastos de consumo son función del ingreso familiar, etc.
En otros casos, hay relaciones que se establecen no sólo entre dos sino entre tres
o más variables, como en el caso en que la demanda se considere función del
precio, del ingreso familiar, del precio de otros bienes de consumo, etc.

En el Sistema de Información hay una serie de variables que pueden ser


analizadas estadísticamente para llegar al establecimiento de ese tipo de
relaciones y conclusiones, que son importantes para el planificador; un ejemplo de
ello se presenta en este Anexo, al analizarse la relación entre el precio de
arrendamiento de la tierra y sus determinantes. Hay que anotar que al
establecerse ese tipo de análisis es posible hacer proyecciones de las posibles
situaciones futuras, extrapolando la continuidad de esas relaciones, característica
ésta que convierte al proceso de análisis en un valioso instrumento de
planificación.

El caso más elemental en el análisis de las relaciones económicas es el supuesto


de una relación simple entre dos variables, que se postula

Y = f(X)

y que indica que Y es una función o variable dependiente de la variable X.

El segundo paso es la especificación de la forma como esas dos variables se


relacionan, en su manera funcional precisa. La más simple de esas es una
relación lineal, donde

Y = a + bX

donde a y b son coeficientes que determinan la intercepción y la pendiente de la


función. Otro tipo de relaciones, no necesariamente lineales, pueden ser del tipo

Y = aebX

Y = aXb

y = a + b 1/x

Ahora bien, no todas las relaciones están definidas de manera precisa por las
vectas (o curvas) que representan esas relaciones, y hay que introducir elementos
estocásticos para los propósitos de análisis y experimentación. Este elemento (u)
se establece como condicionante de su utilización y valor cuando X adopta cierta
magnitud, convirtiendo a la relación inicial en
Y = a + bX + u.

Al analizar las relaciones entre variables, generalmente se habla de la


"correlación" entre esas variables. Ese coeficiente de correlación mide la
proporción en que una variable (Y) esta determinada o explicada por la influencia
lineal de otra variable (X) de modo que, por ejemplo, de existir una correlación
absoluta (r=1), las dos variables están posiblemente midiendo unas mismas
condiciones. El coeficiente de correlación entre las varias observaciones (x y y) de
las variables X y Y se mide de acuerdo a las siguientes relaciones:

donde

En el Proyecto no se hicieron análisis de relaciones no lineales, pero la relación


logarítmica o reciproca entre variables puede también llevar al establecimiento de
análisis como los descritos.

La situación que es más importante para los estudios realizados es la influencia de


más de una variable (X2, X3) como determinantes de una situación (Y). En esos
casos se observa, por ejemplo, el análisis que se debe hacer para determinar la
cantidad de demanda (Y) de un producto, como función del precio (X;?) de ese
producto, y del ingreso familiar (X3). En esa situación la relación lineal se
establece por las fórmulas equivalentes:

Yi = b1 + b2X2i + b3X3i + ui

o
En ese caso, la correlación entre la variable dependiente (1) y las variables
independientes (2 y 3) se conoce como coeficiente de correlación múltiple (R 1.23),
definido por las ecuaciones

donde

Un ejemplo de este tipo de análisis se hizo en el Proyecto, al buscar la relación o


las determinantes del precio de arrendamiento de cada lote de tierra de la zona
considerada, mediante las determinantes que expliquen el costo de ese
arrendamiento.

Regresión

Expresándolo en forma simple, la regresión lineal es una técnica que permite


cuantificar la relación que puede ser observada cuando se grafica un diagrama de
puntos dispersos correspondientes a dos variables, cuya tendencia general es
rectilínea (Figura la); relación que cabe compendiar mediante una ecuación “del
mejor ajuste” de la forma:

y = a + bx (1)

En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje
vertical en el gráfico (ordenada); en tanto que “x” indica la magnitud de la
coordenada sobre el eje horizontal (absisa). El valor de “a” (que puede ser
negativo, positivo o igual a cero) es llamado el intercepto; en tanto que el valor de
“b” (el cual puede ser negativo o positivo) se denomina la pendiente o coeficiente
de regresión.
Tabla 1

Serie de datos para el cálculo de una regresión (“a” y “b”) y del coeficiente de
correlación (“r”)

Número Valores de x Valores de y Número Valores de x Valores de y


1 9,0 0,50  7 6,7 1,00
2 9,4 0,50  8 8,4 0,50
3 7,4 1,23  9 8,0 0,50
4 9,7 1,00 10 10,0 0,50
5 10,4 0,30 11 9,2 0,50
6 5,0 1,50 12 6,2 1,00
  13 7,7 0,50

El procedimiento para obtener valores de “a” y “b” para una serie de pares de
datos de “x” y de “y” (tal como la presentada en la Figura 1 y/o en la Tabla 1) es
como sigue:

Paso 1 Calcule, para cada par de valores de “x” e “y”, las cantidades “x²”, “y²”, y
“x.y”.
Paso 2 Obtenga las sumas (∑) de estos valores para todos los pares de datos de
“x” e “y”, así como las sumas del total de los valores de “x” e “y”. Los
resultados de los Pasos 1 y 2 aparecerán en forma similar a la siguiente:
Número de pares de datos x x² y y² x.y
1 … … … … …
2 … … … … …
3 … … … … …
·          
·          
·          
n … … … … …
Monto de las sumas ∑x ∑x² ∑y ∑y² ∑x·y
Pas
Estime la pendiente (b) por medio de la relación:
o3

Pas
Estime el intercepto (a) por medio de la relación:
o4
 
A partir de esos valores de “a” y de “b” obtenidos mediante las Ecuaciones 2 y 3,
es posible trazar a lo largo de los puntos dispersos de un gráfico la línea recta
mejor ajustada a los mismos, y verificar visualmente si tales puntos están bien
“expresados” por la línea (Figura 1b).

Regresión simple por mínimos cuadrados

Hemos enfatizado sobre la importancia de las representaciones gráficas y hemos


visto la utilidad de las versiones linealizadas de los gráficos (X, Y) junto a las
distintas maneras de llevar a cabo la linealización. A menudo nos confrontamos
con situaciones en las que existe o suponemos que existe una relación lineal entre
las variables X e Y.

Surge de modo natural la pregunta: ¿cuál es la relación analítica que mejor se


ajusta a nuestros datos? El método de cuadrados mínimos es un procedimiento
general que nos permite responder esta pregunta. Cuando la relación entre las
variables X e Y es lineal, el método de ajuste por cuadrados mínimos se
denomina también método de regresión lineal.

Observamos o suponemos una tendencia lineal entre las variables y nos


preguntamos sobre cuál es lamejor recta:

 y(x) = a x + b

 Que representa este caso de interés. Es útil definir la función:

Que es una medida de la desviación total de los valores observados yi respecto


de los predichos por el modelo lineal a x + b. Los mejores valores de la
pendiente a y la ordenada al origen b son aquellos que minimizan esta desviación
total, o sea, son los valores que remplazados en la Ec.(1) minimizan la funciónc 2.
Ec.(2). Los parámetros a y b pueden obtenerse usando técnicas matemáticas que
hacen uso del cálculo diferencial. Aplicando estas técnicas, el problema de
minimización se reduce al de resolver el par de ecuaciones:
Actualmente, la mayoría de los programas de análisis de datos y planillas de
cálculo, realizan el proceso de minimización en forma automática y dan los
resultados de los mejores valores de a y b, o sea los valores indicados por las
ecuaciones.

Gráfico de datos asociados a un


modelo lineal. La cantidad yi - y(xi)
representa la desviación de cada
observación de yi respecto del
valor predicho por el modelo y(x).

El criterio de mínimos cuadrados


reemplaza el juicio personal de
quien mire los gráficos y defina
cuál es la mejor recta. En los
programas como Excel, se realiza
usando la herramienta “regresión
lineal” o “ajuste lineal”. Los resultados se aplican en el caso lineal cuando todos
los datos de la variable dependiente tienen la misma incertidumbre absoluta y la
incertidumbre de la variable independiente se considera despreciable.

Regresión múltiple

La regresión lineal es una técnica estadística destinada a analizar por qué pasan
las cosas o cuáles son las principales explicaciones de algún fenómeno. A partir
de los análisis de regresión lineal múltiple podemos:

 identificar que variables independientes (causas) explican una variable


dependiente (resultado)
 comparar y comprobar modelos explicativos
 predecir valores de una variable, es decir, a partir de unas características
predecir de forma aproximada un comportamiento o estado

Este tutorial enseña a analizar la regresión lineal múltiple en 4 sencillos pasos, sin
complicaciones ni lenguaje sofisticado, todo directo y claro para que seamos
capaces de entender investigaciones que aplican regresión lineal y ser capaces de
usarla en nuestros estudios cuando queramos averiguar las las causas de algún
fenómeno.

Qué es la regresión lineal múltiple

La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis


y relaciones explicativas. Ante de empezar, una serie de condiciones que se
deben cumplir para poder aplicar la regresión lineal múltiple:

 La variable dependiente (resultado) debe ser ordinal o escalar, es decir, que


las categorías de la variable tengan orden interno o jerarquía, p.ej. nivel de
ingresos, peso, número de hijos, justificación del aborto en una escala de 1-
nunca a 10-siempre.

 Las variables independientes (explicaciones) deben ser ordinales o


escalares o dummy

 Hay otras condiciones como: las variables independientes no puede estar


altamente correlacionadas entre sí, las relaciones entre las causas y el
resultado deben ser lineales, todas variables deben seguir la distribución
normal y deben tener varianzas iguales. Estas condiciones son importantes
pero hay maneras de tratar los datos si se incumple alguna de ellas. Sobre
ello volveremos en futuras entradas

Intervalo de confianza y prueba de hipótesis para los parámetros del modelo


Un intervalo de confianza es un rango de valores que es probable que contenga
un parámetro de población desconocido. Si se dibuja una muestra aleatoria
muchas veces, un cierto porcentaje de los intervalos de confianza contendrá a la
media de la población. Ese porcentaje es el nivel de confianza.

Con mayor frecuencia, se utilizarán los intervalos de configanza para delimitar la


media o la desviación estándar, pero también pueden obtenerse para los
coeficientes de regresión, las proporciones, las tasas de incidencia (Poisson) y las
diferencias entre poblaciones.

Un intervalo de confianza del 95%


indica que 19 de cada 20 muestras
(95%) de la misma población
producirá intervalos de confianza
que contienen el parámetro de la
población.

Del mismo modo que hay una idea


errónea de cómo interpretar los
valores de P, también hay una idea errónea de cómo interpretar los intervalos de
confianza. En este caso, el nivel de confianza no es la probabilidad de que un
intervalo de confianza específico contenga el parámetro de población.

El nivel de confianza representa la capacidad teórica del análisis para producir


intervalos precisos si se es capaz de calcular muchos intervalos y conoce el valor
del parámetro de población. Para un intervalo de confianza específico de un
estucio, el intervalo contiene el valor de la población o no, no hay posibilidad de
que existean probabilidades diferentes de 0 o 1. Y no se puede elegir entre estas
dos posibilidades porque no se conoce el valor del parámetro de población.

"El parámetro es una constante desconocida y no se puede hacer una afirmación


de probabilidad respecto su valor." —Jerzy Neyman, desarrollador original de los
intervalos de confianza.

Esto se comprenderá más fácilmente después de que hablemos de la gráfica más


abajo...

Con esto en mente, ¿cómo se interpretan los intervalos de confianza?

Los intervalos de confianza sirven como buenas estimaciones del parámetro de


población porque el procedimiento tiende a producir intervalos que contienen el
parámetro. Los intervalos de confianza se componene de la estimación puntual (el
valor más probable) y un margen de error en torno a esa estimación puntual. El
margen de error indica la cantidad de incertidumbre que rodea la estimación
muestral del parámetro de población.

En este sentido, pueden utilizarse los intervalos de confianza para evaluar la


precisión de la estimación de la muestra. Para una variable específica, uni
intervalo de confanza más estrecho [90 110] sugiere una estimación más precisa
del parámetro de población que un intervalo de confianza más amplio [50 150].
Bibliografía

https://www.guiasjuridicas.es/Content/Documento.aspx?
params=H4sIAAAAAAAEAMtMSbF1jTAAASNDSzNTtbLUouLM_DxbIwMDS0MDI
wuQQGZapUt-ckhlQaptWmJOcSoAOSON0zUAAAA=WKE
https://www.oas.org/dsd/publications/Unit/oea35s/ch39.htm
http://www.fao.org/3/X6845S/X6845S02.htm
https://sites.google.com/site/numerictron/unidad-4/4-3-regresion-por-minimos-
cuadrados-lineal-y-cuadratica
http://networkianos.com/regresion-lineal-multiple/
https://www.addlink.es/noticias/minitab/2846-comprendamos-las-pruebas-de-
hipotesis-intervalos-y-niveles-de-confianza

También podría gustarte