Analisis de Regresion

ANALISIS DE REGRESIÓN
Es un procedimiento estadístico que analiza la relación que existe entre una

variable dependiente (Y) y una o más variables independientes (X 1, X2, ..., Xk).
Si solo se utiliza una variable independiente se trataría de un análisis de regresión

simple y si se utiliza más de una variable independiente sería un análisis de
regresión múltiple.
Para poder estudiar la relación que existe entre dichas variables es necesario
establecer cuál es la relación funcional que existe entre ellas. Un primer paso para
determinar esta posible relación entre las variables es analizar el gráfico de datos
observados. Este gráfico
se llama gráfico de
dispersión y permite
determinar visualmente
si las variables están
relacionadas o no. En el
caso de que estén
relacionadas, se podrá
intuir la intensidad, el
sentido de la relación
entre las variables
(directa o inversa) y el
tipo de relación (lineal o
no lineal) existente entre
ellas.
Algunos ejemplos de la
relación que existe entre
las variables utilizando el
gráfico de dispersión son los siguientes:
Relación entre variables
Los procesos analíticos que relacionan, de manera muy simple, los resultados de
dos o más variables, constituyen un ejemplo de lo expresado en la Introducción a
este Anexo. La idea básica es el conocimiento de la relación existente entre
variables. Así, por ejemplo, la cantidad de demanda de un producto es
considerada función de su variable precio, los costos de producción son función de
la cantidad producida, los gastos de consumo son función del ingreso familiar, etc.
En otros casos, hay relaciones que se establecen no sólo entre dos sino entre tres
o más variables, como en el caso en que la demanda se considere función del
precio, del ingreso familiar, del precio de otros bienes de consumo, etc.
En el Sistema de Información hay una serie de variables que pueden ser

analizadas estadísticamente para llegar al establecimiento de ese tipo de
relaciones y conclusiones, que son importantes para el planificador; un ejemplo de
ello se presenta en este Anexo, al analizarse la relación entre el precio de
arrendamiento de la tierra y sus determinantes. Hay que anotar que al
establecerse ese tipo de análisis es posible hacer proyecciones de las posibles
situaciones futuras, extrapolando la continuidad de esas relaciones, característica
ésta que convierte al proceso de análisis en un valioso instrumento de
planificación.
El caso más elemental en el análisis de las relaciones económicas es el supuesto

de una relación simple entre dos variables, que se postula
Y = f(X)
y que indica que Y es una función o variable dependiente de la variable X.
El segundo paso es la especificación de la forma como esas dos variables se

relacionan, en su manera funcional precisa. La más simple de esas es una
relación lineal, donde
Y = a + bX
donde a y b son coeficientes que determinan la intercepción y la pendiente de la

función. Otro tipo de relaciones, no necesariamente lineales, pueden ser del tipo
Y = aebX
Y = aXb
y = a + b 1/x
Ahora bien, no todas las relaciones están definidas de manera precisa por las
vectas (o curvas) que representan esas relaciones, y hay que introducir elementos
estocásticos para los propósitos de análisis y experimentación. Este elemento (u)
se establece como condicionante de su utilización y valor cuando X adopta cierta
magnitud, convirtiendo a la relación inicial en
Y = a + bX + u.
Al analizar las relaciones entre variables, generalmente se habla de la

"correlación" entre esas variables. Ese coeficiente de correlación mide la
proporción en que una variable (Y) esta determinada o explicada por la influencia
lineal de otra variable (X) de modo que, por ejemplo, de existir una correlación
absoluta (r=1), las dos variables están posiblemente midiendo unas mismas
condiciones. El coeficiente de correlación entre las varias observaciones (x y y) de
las variables X y Y se mide de acuerdo a las siguientes relaciones:
donde
En el Proyecto no se hicieron análisis de relaciones no lineales, pero la relación

logarítmica o reciproca entre variables puede también llevar al establecimiento de
análisis como los descritos.
La situación que es más importante para los estudios realizados es la influencia de

más de una variable (X2, X3) como determinantes de una situación (Y). En esos
casos se observa, por ejemplo, el análisis que se debe hacer para determinar la
cantidad de demanda (Y) de un producto, como función del precio (X;?) de ese
producto, y del ingreso familiar (X3). En esa situación la relación lineal se
establece por las fórmulas equivalentes:
Yi = b1 + b2X2i + b3X3i + ui
o
En ese caso, la correlación entre la variable dependiente (1) y las variables
independientes (2 y 3) se conoce como coeficiente de correlación múltiple (R 1.23),
definido por las ecuaciones
donde
Un ejemplo de este tipo de análisis se hizo en el Proyecto, al buscar la relación o

las determinantes del precio de arrendamiento de cada lote de tierra de la zona
considerada, mediante las determinantes que expliquen el costo de ese
arrendamiento.
Regresión
Expresándolo en forma simple, la regresión lineal es una técnica que permite

cuantificar la relación que puede ser observada cuando se grafica un diagrama de
puntos dispersos correspondientes a dos variables, cuya tendencia general es
rectilínea (Figura la); relación que cabe compendiar mediante una ecuación “del
mejor ajuste” de la forma:
y = a + bx (1)
En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje
vertical en el gráfico (ordenada); en tanto que “x” indica la magnitud de la
coordenada sobre el eje horizontal (absisa). El valor de “a” (que puede ser
negativo, positivo o igual a cero) es llamado el intercepto; en tanto que el valor de
“b” (el cual puede ser negativo o positivo) se denomina la pendiente o coeficiente
de regresión.
Tabla 1
Serie de datos para el cálculo de una regresión (“a” y “b”) y del coeficiente de
correlación (“r”)
Número Valores de x Valores de y Número Valores de x Valores de y

1 9,0 0,50 7 6,7 1,00
2 9,4 0,50 8 8,4 0,50
3 7,4 1,23 9 8,0 0,50
4 9,7 1,00 10 10,0 0,50
5 10,4 0,30 11 9,2 0,50
6 5,0 1,50 12 6,2 1,00
13 7,7 0,50
El procedimiento para obtener valores de “a” y “b” para una serie de pares de
datos de “x” y de “y” (tal como la presentada en la Figura 1 y/o en la Tabla 1) es
como sigue:
Paso 1 Calcule, para cada par de valores de “x” e “y”, las cantidades “x²”, “y²”, y
“x.y”.
Paso 2 Obtenga las sumas (∑) de estos valores para todos los pares de datos de
“x” e “y”, así como las sumas del total de los valores de “x” e “y”. Los
resultados de los Pasos 1 y 2 aparecerán en forma similar a la siguiente:
Número de pares de datos x x² y y² x.y
1 … … … … …
2 … … … … …
3 … … … … …
·
·
·
n … … … … …
Monto de las sumas ∑x ∑x² ∑y ∑y² ∑x·y
Pas
Estime la pendiente (b) por medio de la relación:
o3
Pas
Estime el intercepto (a) por medio de la relación:
o4

A partir de esos valores de “a” y de “b” obtenidos mediante las Ecuaciones 2 y 3,
es posible trazar a lo largo de los puntos dispersos de un gráfico la línea recta
mejor ajustada a los mismos, y verificar visualmente si tales puntos están bien
“expresados” por la línea (Figura 1b).
Regresión simple por mínimos cuadrados
Hemos enfatizado sobre la importancia de las representaciones gráficas y hemos

visto la utilidad de las versiones linealizadas de los gráficos (X, Y) junto a las
distintas maneras de llevar a cabo la linealización. A menudo nos confrontamos
con situaciones en las que existe o suponemos que existe una relación lineal entre
las variables X e Y.
Surge de modo natural la pregunta: ¿cuál es la relación analítica que mejor se

ajusta a nuestros datos? El método de cuadrados mínimos es un procedimiento
general que nos permite responder esta pregunta. Cuando la relación entre las
variables X e Y es lineal, el método de ajuste por cuadrados mínimos se
denomina también método de regresión lineal.
Observamos o suponemos una tendencia lineal entre las variables y nos

preguntamos sobre cuál es lamejor recta:
y(x) = a x + b
Que representa este caso de interés. Es útil definir la función:
Que es una medida de la desviación total de los valores observados yi respecto

de los predichos por el modelo lineal a x + b. Los mejores valores de la
pendiente a y la ordenada al origen b son aquellos que minimizan esta desviación
total, o sea, son los valores que remplazados en la Ec.(1) minimizan la funciónc 2.
Ec.(2). Los parámetros a y b pueden obtenerse usando técnicas matemáticas que
hacen uso del cálculo diferencial. Aplicando estas técnicas, el problema de
minimización se reduce al de resolver el par de ecuaciones:
Actualmente, la mayoría de los programas de análisis de datos y planillas de
cálculo, realizan el proceso de minimización en forma automática y dan los
resultados de los mejores valores de a y b, o sea los valores indicados por las
ecuaciones.
Gráfico de datos asociados a un

modelo lineal. La cantidad yi - y(xi)
representa la desviación de cada
observación de yi respecto del
valor predicho por el modelo y(x).
El criterio de mínimos cuadrados

reemplaza el juicio personal de
quien mire los gráficos y defina
cuál es la mejor recta. En los
programas como Excel, se realiza
usando la herramienta “regresión
lineal” o “ajuste lineal”. Los resultados se aplican en el caso lineal cuando todos
los datos de la variable dependiente tienen la misma incertidumbre absoluta y la
incertidumbre de la variable independiente se considera despreciable.
Regresión múltiple
La regresión lineal es una técnica estadística destinada a analizar por qué pasan
las cosas o cuáles son las principales explicaciones de algún fenómeno. A partir
de los análisis de regresión lineal múltiple podemos:
 identificar que variables independientes (causas) explican una variable

dependiente (resultado)
 comparar y comprobar modelos explicativos
 predecir valores de una variable, es decir, a partir de unas características
predecir de forma aproximada un comportamiento o estado
Este tutorial enseña a analizar la regresión lineal múltiple en 4 sencillos pasos, sin
complicaciones ni lenguaje sofisticado, todo directo y claro para que seamos
capaces de entender investigaciones que aplican regresión lineal y ser capaces de
usarla en nuestros estudios cuando queramos averiguar las las causas de algún
fenómeno.
Qué es la regresión lineal múltiple
La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis

y relaciones explicativas. Ante de empezar, una serie de condiciones que se
deben cumplir para poder aplicar la regresión lineal múltiple:
 La variable dependiente (resultado) debe ser ordinal o escalar, es decir, que

las categorías de la variable tengan orden interno o jerarquía, p.ej. nivel de
ingresos, peso, número de hijos, justificación del aborto en una escala de 1-
nunca a 10-siempre.
 Las variables independientes (explicaciones) deben ser ordinales o

escalares o dummy
 Hay otras condiciones como: las variables independientes no puede estar

altamente correlacionadas entre sí, las relaciones entre las causas y el
resultado deben ser lineales, todas variables deben seguir la distribución
normal y deben tener varianzas iguales. Estas condiciones son importantes
pero hay maneras de tratar los datos si se incumple alguna de ellas. Sobre
ello volveremos en futuras entradas
Intervalo de confianza y prueba de hipótesis para los parámetros del modelo

Un intervalo de confianza es un rango de valores que es probable que contenga
un parámetro de población desconocido. Si se dibuja una muestra aleatoria
muchas veces, un cierto porcentaje de los intervalos de confianza contendrá a la
media de la población. Ese porcentaje es el nivel de confianza.
Con mayor frecuencia, se utilizarán los intervalos de configanza para delimitar la

media o la desviación estándar, pero también pueden obtenerse para los
coeficientes de regresión, las proporciones, las tasas de incidencia (Poisson) y las
diferencias entre poblaciones.
Un intervalo de confianza del 95%

indica que 19 de cada 20 muestras
(95%) de la misma población
producirá intervalos de confianza
que contienen el parámetro de la
población.
Del mismo modo que hay una idea

errónea de cómo interpretar los
valores de P, también hay una idea errónea de cómo interpretar los intervalos de
confianza. En este caso, el nivel de confianza no es la probabilidad de que un
intervalo de confianza específico contenga el parámetro de población.
El nivel de confianza representa la capacidad teórica del análisis para producir

intervalos precisos si se es capaz de calcular muchos intervalos y conoce el valor
del parámetro de población. Para un intervalo de confianza específico de un
estucio, el intervalo contiene el valor de la población o no, no hay posibilidad de
que existean probabilidades diferentes de 0 o 1. Y no se puede elegir entre estas
dos posibilidades porque no se conoce el valor del parámetro de población.
"El parámetro es una constante desconocida y no se puede hacer una afirmación

de probabilidad respecto su valor." —Jerzy Neyman, desarrollador original de los
intervalos de confianza.
Esto se comprenderá más fácilmente después de que hablemos de la gráfica más

abajo...
Con esto en mente, ¿cómo se interpretan los intervalos de confianza?
Los intervalos de confianza sirven como buenas estimaciones del parámetro de

población porque el procedimiento tiende a producir intervalos que contienen el
parámetro. Los intervalos de confianza se componene de la estimación puntual (el
valor más probable) y un margen de error en torno a esa estimación puntual. El
margen de error indica la cantidad de incertidumbre que rodea la estimación
muestral del parámetro de población.
En este sentido, pueden utilizarse los intervalos de confianza para evaluar la

precisión de la estimación de la muestra. Para una variable específica, uni
intervalo de confanza más estrecho [90 110] sugiere una estimación más precisa
del parámetro de población que un intervalo de confianza más amplio [50 150].
Bibliografía
https://www.guiasjuridicas.es/Content/Documento.aspx?
params=H4sIAAAAAAAEAMtMSbF1jTAAASNDSzNTtbLUouLM_DxbIwMDS0MDI
wuQQGZapUt-ckhlQaptWmJOcSoAOSON0zUAAAA=WKE
https://www.oas.org/dsd/publications/Unit/oea35s/ch39.htm
http://www.fao.org/3/X6845S/X6845S02.htm
https://sites.google.com/site/numerictron/unidad-4/4-3-regresion-por-minimos-
cuadrados-lineal-y-cuadratica
http://networkianos.com/regresion-lineal-multiple/
https://www.addlink.es/noticias/minitab/2846-comprendamos-las-pruebas-de-
hipotesis-intervalos-y-niveles-de-confianza

Analisis de Regresion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis de Regresion

Cargado por

Copyright:

Formatos disponibles

ANALISIS DE REGRESIÓN

Es un procedimiento estadístico que analiza la relación que existe entre una

Si solo se utiliza una variable independiente se trataría de un análisis de regresión

Relación entre variables

En el Sistema de Información hay una serie de variables que pueden ser

El caso más elemental en el análisis de las relaciones económicas es el supuesto

y que indica que Y es una función o variable dependiente de la variable X.

El segundo paso es la especificación de la forma como esas dos variables se

donde a y b son coeficientes que determinan la intercepción y la pendiente de la

Al analizar las relaciones entre variables, generalmente se habla de la

En el Proyecto no se hicieron análisis de relaciones no lineales, pero la relación

La situación que es más importante para los estudios realizados es la influencia de

Un ejemplo de este tipo de análisis se hizo en el Proyecto, al buscar la relación o

Expresándolo en forma simple, la regresión lineal es una técnica que permite

Número Valores de x Valores de y Número Valores de x Valores de y

Regresión simple por mínimos cuadrados

Hemos enfatizado sobre la importancia de las representaciones gráficas y hemos

Surge de modo natural la pregunta: ¿cuál es la relación analítica que mejor se

Observamos o suponemos una tendencia lineal entre las variables y nos

y(x) = a x + b

Que representa este caso de interés. Es útil definir la función:

Que es una medida de la desviación total de los valores observados yi respecto

Gráfico de datos asociados a un

El criterio de mínimos cuadrados

 identificar que variables independientes (causas) explican una variable

Qué es la regresión lineal múltiple

La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis

 La variable dependiente (resultado) debe ser ordinal o escalar, es decir, que

 Las variables independientes (explicaciones) deben ser ordinales o

 Hay otras condiciones como: las variables independientes no puede estar

Intervalo de confianza y prueba de hipótesis para los parámetros del modelo

Con mayor frecuencia, se utilizarán los intervalos de configanza para delimitar la

Un intervalo de confianza del 95%

Del mismo modo que hay una idea

El nivel de confianza representa la capacidad teórica del análisis para producir

"El parámetro es una constante desconocida y no se puede hacer una afirmación

Esto se comprenderá más fácilmente después de que hablemos de la gráfica más

Con esto en mente, ¿cómo se interpretan los intervalos de confianza?

Los intervalos de confianza sirven como buenas estimaciones del parámetro de

En este sentido, pueden utilizarse los intervalos de confianza para evaluar la

También podría gustarte