Está en la página 1de 27

FACULTAD DE CIENCIAS ECONOMICAS

ESCUELA PROFESIONAL DE ECONOMIA Y NEGOCIOS


INTERNACIONALES
REGRESION Y CORRELACION LINEAL SIMPLE.
ESTIMACIÓN DE PARÁMETROS
CURSO: Estadística y toma de decisiones

CICLO: V

PROF.: Alpaca Salvador, Hugo

AUTOR:

Bazalar Tam, Victor


Gonzales Villacorta, Enzo André
Martinez Chavez, Junnior
Medina Lopez, Yahn
Sánchez Gutierrez, Joselin
Serquen Quiroz, Brenda
Tapia Calla, Kevin
Vega Bocanegra, William

REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE


REGRESIÓN LINEAL SIMPLE
Es común que las personas tomen decisiones personales y profesionales basadas en
predicciones de sucesos futuros. Para hacer estos pronósticos, se basan en la relación
intuitiva y calculada entre lo que ya se sabe y lo que se debe estimar. Si los
responsables de la toma de decisiones pueden determinar cómo lo conocido se
relaciona con un evento futuro, pueden ayudar considerablemente al proceso de toma
de decisiones.
Cualquier método estadístico que busque establecer una ecuación que permita
estimar el valor desconocido de una variable a partir del valor conocido de una o más
variables, se denomina análisis de regresión.
Los análisis de regresión y correlación mostrarán como determinar la naturaleza y la
fuerza de una relación entre dos variables.
El término regresión fue utilizado por primera vez por el genetista y estadístico inglés
Francis Galton (1822-1911) en 1877 Galton efectúo un estudio que demostró que la
altura de los hijos de padres altos tendía a retroceder, o “regresar”, hacia la talla media
de la población. Regresión fue el nombre que le dio al proceso general de predecir una
variable, (la talla de los niños) a partir de otra (la talla de los padres).
Hoy en día, esta tendencia de miembros de cualquier población que están en una
posición extrema (arriba o debajo de la media poblacional) en un momento, y luego en
una posición menos extrema en otro momento, (ya sea por sí o por medio de sus
descendientes), se llama efecto de regresión.
El análisis de regresión se desarrolla una ecuación de estimación, es decir, una fórmula
matemática que relaciona las variables conocidas con las desconocidas. Luego de
obtener el patrón de dicha relación, se aplica el análisis de correlación para determinar
el grado de relación que hay entre las variables.
“Una técnica estadística que establece una ecuación para estimar el valor desconocido
de una variable, a partir del valor conocido de otra variable, (en vez de valores de
muchas otras variables) se denomina análisis de regresión simple.”
Por lo tanto el análisis de regresión lineal simple, es el proceso general de predecir una
variable (Y) a partir de otra (X).
Las relaciones entre las variables pueden ser directas o también inversas.

 Relación directa: la pendiente de esta línea es positiva, porque la variable Y


crece a medida que la variable X también lo hace.

 Relación inversa: La pendiente de esta línea es negativa, porque a medida que


aumenta el valor de la variable Y, el valor de la variable X disminuye.
VARIABLE INDEPENDIENTE (X)
En el análisis de regresión una variable cuyo valor se suponga conocido y que se utilice
para explicar o predecir el valor de otra variable de interés se llama variable
independiente; se simboliza con la letra X.
Otros nombres alternativos para la variable independiente (X), son variable
explicatoria, variable predictora y en ocasiones variable regresora.
VARIABLE DEPENDIENTE (Y)
En el análisis de regresión una variable cuyo valor se suponga desconocido y que se
explique o prediga con ayuda de otra se llama variable dependiente y se simboliza con
la letra Y.
La variable dependiente, al igual que la variable independiente es llamada de
diferentes maneras algunas de ellas son: variable explicada o variable pronosticada.

DIAGRAMAS DE DISPERSIÓN
Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de
regresión. Consta de una dispersión de puntos tal que cada punto representa un valor
de la variable independiente (medido a lo largo del eje horizontal), y un valor asociado
de la variable dependiente (medido a lo largo del eje vertical).
El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos de
información, visualmente se pueden determinar los patrones que indican como las
variables están relacionadas (lineal o mediante una curva) y por otro lado si existe una
relación entre ellas visualizando la clase de línea o ecuación de estimación que
describe a dicha relación.
A continuación se ilustran algunas relaciones en los diagramas de dispersión:

METODO DE MINIMOS CUADRADOS


El método que por lo común se utiliza para ajustar una línea a los datos muestrales
indicados en el diagrama de dispersión, se llama método de mínimos cuadrados. La
línea se deriva en forma tal que la suma de los cuadrados de las desviaciones verticales
entre la línea y los puntos individuales de datos se reduce al mínimo.
El método de mínimos cuadrados sirve para determinar la recta que mejor se ajuste a
los datos muestrales, y los supuestos de este método son:

 El error es cero.
 Los datos obtenidos de las muestra son estadísticamente independientes.
 La varianza del error es igual para todos los valores de X.
Una línea de regresión calculada a partir de los datos muestrales, por el método de
mínimos cuadrados se llama línea de regresión estimada o línea de regresión muestral.
Dicha línea recta es la que mejor se ajusta al conjunto de datos (X, Y) y es aquella en
que la distancia que hay entre los datos y la supuesta recta es la menor posible, y se
calcula mediante la siguiente formula:

Para calcular el valor de b (pendiente), que representa el grado de inclinación que


tiene la recta, se emplea la siguiente formula:

Para calcular el valor de a (ordenada al origen), que representa el punto en que la


recta corta al eje de las Y, se emplea la siguiente formula:

Las variables a y b son constantes numéricas que son las que se calculan mediante el
método de mínimos cuadrados.

ERROR ESTANDAR DE ESTIMACIÓN


El siguiente proceso que se necesita en el análisis de la regresión lineal simple es cómo
medir la confiabilidad de la ecuación de estimación que hemos desarrollado.
El error estándar de estimación mide la variabilidad o dispersión de los valores
observados alrededor de la línea de regresión y se representa como Se. Su fórmula es
la siguiente:
Cuanto mayor sea el error estándar de la estimación, más grande será la dispersión (o
esparcimiento) de puntos alrededor de la línea de regresión. Por el contrario, si Se= 0,
se espera que la ecuación de estimación sea un estimador “perfecto” de la variable
dependiente, en este caso todos los puntos caerían directamente sobre la línea de
regresión y no habría puntos dispersos, como se muestra en la siguiente figura:

El error estándar de estimación tiene la misma aplicación que de la desviación


estándar que se vio en los temas anteriores. Esto es, suponiendo que los puntos
observados tienen una distribución normal alrededor de la recta de regresión,
podemos esperar que:

 68% de los puntos están dentro de ± 1se


 95.5% de los puntos están dentro de ± 2se
 99.7% de los puntos están dentro de ± 3se
El error estándar de la estimación se mide a lo largo del eje “Y”, y no
perpendicularmente desde la recta de regresión.

Las suposiciones son:


1. Los valores observados para Y tienen distribución normal alrededor de cada valor
estimado de yˆ
2. La varianza de las distribuciones alrededor de cada valor posible de yˆ es la misma.
Si esta segunda suposición no fuera cierta, entonces el error estándar en un punto de
la recta de regresión podría diferir del error estándar en otro punto.

PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE REGRESIÓN LINEAL SIMPLE


1. Obtención de los datos muestrales

2. Los datos obtenidos se tabulan. (Tener cuidado en determinar correctamente quien

es la variable independiente y dependiente)

3. La información se gráfica en un diagrama de dispersión, estableciéndose la posible


relación entre las dos variables

4. Se calcula la pendiente.
5. Se calcula la ordenada al origen.

6. Se obtiene la ecuación que mejor se ajusta a la información obtenida. yˆ = a + bx

7. Se traza la línea estimada en el diagrama de dispersión.

8. Se calcula el error estándar de estimación.

Por ejemplo:
Una cadena de Pizzerías toma una muestra de diez de sus sucursales para tratar de
encontrar un modelo matemático que le permita predecir sus ventas y obtuvo los
siguientes datos: la población de personas en miles fue de 2, 6, 8, 8, 12, 16, 20, 20, 22,
26; y las ventas trimestrales en miles de pesos fue de: 58, 105, 88, 118, 117, 137, 157,
169, 169, 149, 202.
 Realice una regresión para estimar las ventas de dos sucursales que tienen 14,000 y
30,000 personas como potenciales clientes respectivamente.
Solución
Datos
n=10
X: Población de personas en miles
Y: Ventas trimestrales en miles de pesos

1. Tabular los datos obtenidos:

2. Graficar los datos en un diagrama de dispersión y determinar la posible relación


entre las variables X Y.
3. Realizar los cálculos correspondientes

4. Calculo de la pendiente.

5. Calculo de la ordenada al origen.

6. Obtener la ecuación que mejor se ajuste.


7. Trazar la línea estimada.

8. Calcular el error estándar de estimación.

Ejemplo 2:
Una empresa que fabrica cajas de cartón hace cajas para pizzas. El departamento de
planeación de operaciones sabe que un pronóstico adecuado y preciso de cajas para
pizza de un cliente está en relación estrecha con los gastos de promoción de éste, el
cual se puede obtener por adelantado antes de realizar el gasto. El departamento de
planeación de operaciones está interesado en establecer la relación entre la
promoción de la empresa de pizzas y las ventas. Una vez que eso se haya establecido,
las órdenes de compra de las cajas para pizzas, en dólares, pueden expresarse como
porcentaje fijo de las ventas.
Publicidad y ventas trimestrales

Publicidad y Ventas trimestrales

Trimes Publicidad Ventas


tre ($100,000) ($Millones)

1 4 1
2 10 4
3 15 5
4 12 4
5 8 3
6 16 4
7 5 2
8 7 1
9 9 4
10 10 2

Haciendo el cálculo de b y a, donde la publicidad es X, para el trimestre t, las ventas


son D, para el trimestre t e Y, es el pronóstico para el futuro periodo t.

Por tanto, la recta estimada de regresión, la relación entre las ventas futuras (Yt) y la
publicidad (Xt) es:
Y=.22 + .29X
En el ejemplo anterior, quien hace la planeación de las operaciones puede investigar
los gastes planeados en publicidad y sobre esas ventas puede hacer el pronóstico. Por
ejemplo, la publicidad del próximo trimestre se espera que tenga un monto de 1 100
000 dólares. Sustituyendo 11 para X 1 en la ecuación anterior se tendrá:
En el ejemplo anterior, quien hace la planeación de las operaciones puede investigar
los gastes planeados en publicidad y sobre esas ventas puede hacer el pronóstico. Por
ejemplo, la publicidad del próximo trimestre se espera que tenga un monto de 1 100
000 dólares. Sustituyendo 11 para X 1 en la ecuación anterior se tendrá:
YF=.22+.29(11)=3.41
El pronóstico de las ventas es de 3.41 millones de dólares. Si los pedidos de cajas
representan el 5 por ciento de las ventas, quien planea las operaciones podría esperar
que el monto total por concepto de pedidos sería de 170,500 dólares para el trimestre
(.05 X 3.41). Tal estimación puede ser de gran utilidad en la planeación global de las
operaciones.

CORRELACIÓN SIMPLE

Mientras que el análisis de regresión simple establece una ecuación precisa que enlaza
dos variables, el análisis de correlación es la herramienta estadística que podemos usar
para describir el grado o fuerza en el que una variable esta linealmente relacionada
con otra.

Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan
cercanamente se mueven dos variables, y por lo tanto, con cuanta confiabilidad se
puede estimar una variable con ayuda de la otra.

Una técnica estadística que establece un índice que proporciona, en un solo número,
una medida de la fuerza de asociación entre dos variables de interés, se llama análisis
de correlación simple.

El análisis de correlación es la herramienta estadística de que nos valemos para


describir el grado de relación que hay entre dos variables.

A menudo el análisis de correlación simple se utiliza junto con el análisis de regresión


lineal simple para medir la eficacia con que la línea de regresión explica la variación de
la variable dependiente, Y.
Diagramas de dispersión con correlación débil y fuerte.

Existen dos medidas para describir la correlación entre dos variables: el coeficiente de
determinación y el coeficiente de correlación.

COEFICIENTE MUESTRAL DE DETERMINACIÓN

La medida más importante de que también ajusta la línea de regresión estimada en los
datos muéstrales en los que está basada, es el coeficiente de determinación muestral,
este es igual a la proporción de la variación total de los valores de la variable
dependiente, “Y”, que puede explicarse por medio de la asociación de Y con X medida
por la línea de regresión estimada.

El coeficiente de determinación es la manera primaria de medir el grado, o fuerza, de


la relación que existe entre dos variables, X y Y.

El coeficiente de determinación muestral se representa como r 2, y mide


exclusivamente la fuerza de una relación lineal entre dos variables.

 El Cálculo del coeficiente de determinación se lleva a cabo con la siguiente


formula:
COEFICIENTE MUESTRAL DE CORRELACIÓN

La raíz cuadrada del coeficiente de determinación muestral, 2 r, es un índice


alternativo común del grado de asociación entre dos variables cuantitativas. Esta
mediad se llama coeficiente de correlación muestral (r) y es un estimador puntual del
coeficiente de correlación poblacional (ρ).

El coeficiente de correlación muestral es la segunda medida con que puede describirse


la eficacia con que una variable es explicada por otra, así pues el signo de r indica la
dirección de la relación entre las dos variables X y Y.

El siguiente esquema representa adecuadamente la intensidad y la dirección del


coeficiente de correlación muestral.
 El cálculo del coeficiente de correlación muestral se lleva a cavo con la
siguiente formula:

INTERALO DE CONFIANZA

Debido a que la recta estimada de regresión, no es del todo real, es necesario elaborar
un intervalo de confianza que le dé seguridad a nuestros cálculos.

Como se ha visto, cuando se utilice el método de mínimos cuadrados, los coeficientes


de regresión, a y b son estimadores insesgados, eficientes y consistentes de α y β,
también aquí es muchas ocasiones es deseable establecer intervalos de confianza.

 Los intervalos de confianza se calculan con la siguiente fórmula:


INTERVALO DE PREDICCIÓN

El intervalo de predicción, como su nombre lo indica, se utiliza para predecir un


intervalo de valores de Y, dado un valor de X.

 El intervalo de predicción se calcula con la siguiente fórmula:

PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE CORRELACIÓN LINEAL SIMPLE

1. Obtención y tabulación de los datos muestrales.

2. La información se gráfica en un diagrama de dispersión.

3. Calcular la pendiente y ordenada al origen.

4. Se obtiene la ecuación que mejor se ajusta a la información obtenida.

5. Se traza la línea estimada en el diagrama de dispersión.

6. Calcular el error estándar de estimación.

7. Calcular el coeficiente de determinación.

8. Determinar el coeficiente de correlación.

9. Determinar el intervalo de confianza.

10. Determinar el intervalo de predicción.


Por ejemplo:

Un gerente de ventas reunió los datos siguientes relacionados con las ventas
anuales en miles de pesos y los años de experiencia de diez vendedores. Estime las
ventas anuales para un vendedor con 7 años de experiencia.

Solución

1. Obtención y tabulación de los datos muestrales.

2. Diagrama de dispersión.
3. Realizar los cálculos correspondientes y determinar la pendiente y ordenada al
origen.

4. Ecuación que mejor se ajusta.


 Para un vendedor con 7 años de experiencia, sus ventas estimadas serían:

5. Trazo de la línea estimada en el diagrama de dispersión

6. Calcular el error estándar de estimación.

7. Calcular el Coeficiente de Determinación.


El 93% de las ventas anuales se deben a la experiencia de los vendedores y
el 7% restante de debe a otros factores.

8. Calcular el Coeficiente de Correlación

Este número
nos indica que las variables X Y tienen una correlación positiva intensa.

9. Determinar el intervalo de confianza al 95%.

Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 años de experiencia están entre 104.6 y 111.4 miles
pesos anuales.

10. Determinar el intervalo de predicción para un vendedor con 9 años de


experiencia se tiene

Se puede asegurar con un nivel de confianza del 95% que las ventas pronosticadas de
un vendedor con 9 años de experiencia están entre 96.71 y 119.3 miles pesos anuales.

ESTIMACIÓN DE PARÁMETROS
La inferencia estadística es un tipo de razonamiento que procede de lo concreto a lo
general: intenta extraer conclusiones sobre los parámetros de una población a partir
de la información contenida en los estadísticos de una muestra de esa población
(Pardo y San Martín, 1998).
¿Qué es una estimación?
Cuando queremos realizar un estudio de una población cualquiera de la que
desconocemos sus parámetros, por ejemplo su media poblacional o la probabilidad de
éxito si la población sigue una distribución binomial, debemos tomar una muestra
aleatoria de dicha población a través de la cual calcular una aproximación a dichos
parámetros que desconocemos y queremos estimar. Bien, pues esa aproximación se
llama estimación. Además, junto a esa estimación, y dado que muy
probablemente no coincida con el valor real del parámetro, acompañaremos el error
aproximado que se comete al realizarla.
1. La estimación de parámetros

La inferencia estadística asume que se cuenta con datos de una muestra y que se
desea conocer cuáles son las características (ya sea la media, la mediana o cualquier
otra que nos pueda interesar), no de esa muestra, sino de la población a la que esa
muestra pertenece. A los valores de esas características a nivel poblacional se les
conoce como parámetros
Podemos diferenciar dos grandes aproximaciones a la estimación de parámetros: la
estimación puntual y la estimación por intervalos. La diferencia básica entre ambas a la
hora de estimar un parámetro es que la primera proporciona una estimación
consistente en un valor concreto (puntual), mientras que la segunda ofrece como
estimación un rango de valores (intervalo). En realidad, la segunda aproximación
consiste en una extensión de la primera.

Estimación puntual
Una estimación puntual del valor de un parámetro poblacional desconocido (como
puede ser la media µ , o la desviación estándar σ , es un número que se utiliza para
aproximar el verdadero valor de dicho parámetro poblacional. A fin de realizar tal
estimación, tomaremos una muestra de la población y calcularemos el parámetro
muestral asociado ( x para la media, s para la desviación estándar, etc.). El valor de
este parámetro muestral será la estimación puntual del parámetro poblacional
Por ejemplo, supongamos que la compañía Sonytrump desea estimar la edad media de
los compradores de equipos de alta fidelidad. Seleccionan una muestra de 100
compradores y calculan la media de esta muestra, este valor será un estimador
puntual de la media de la población. ¿Qué propiedades debe cumplir todo buen
estimador?
- Insesgado: Un estimador es insesgado cuando la media de su distribución muestral
asociada coincide con la media de la población. Esto ocurre, por ejemplo, con el
estimador X, ya que µ x = µ y con estimador p´ ya que µp= P
- De varianza mínima: La variabilidad de un estimador viene determinada por el
cuadrado de su desviación estándar. En el caso del estimador x , su desviación
estándar es σX = σ/√n , también llamada error estándar de µ .
En el caso del error estándar de p´, σp =
Observar que cuanto mayor sea el tamaño de la muestra n , menor
será la variabilidad del estimador x y de p´, por tanto, mejor serán nuestras
estimaciones.

Estimación por intervalo


Dada una población X, que sigue una distribución cualquiera con media µ y desviación
estándar σ .
1. Sabemos que, para valores grandes de n , la media muestral x sigue una
distribución aproximadamente normal con media µ x = µ y desviación estándar

2. P o r o t r a p a r t e
normal, aproximadamente un 95% de los datos estaban situados a una
distancia inferior a dos desviaciones estándar de la media.

De lo anterior se deduce que: P(µ - 2σx < X < µ + 2σx) = 0.95

Por
tanto, ésta última fórmula nos da un intervalo de valores tal que la probabilidad de
que la media de la población µ esté contenida en él es de 0,95. Este tipo de intervalos
se llaman intervalos de confianza de un parámetro poblacional. El nivel de confianza (1
- α) del intervalo es la probabilidad de que éste contenga al parámetro poblacional. En
el ejemplo anterior, el nivel de confianza era del 95% (α = 0,05).
INTERVALOS DE CONFIANZA.
1. Intervalo de confianza para µ con σ conocida.
Un vendedor mayorista de partes automotrices necesita una estimación de la vida
media que puede esperar de los limpiaparabrisas en condiciones normales de manejo.
La administración de la empresa ya ha determinado que la desviación estándar de la
vida útil de la población es de seis meses. Supongamos que se selecciona una sola
muestra aleatoria de 100 limpiaparabrisas, y obtenemos que la vida media de estos
100 limpiaparabrisas es de 21 meses. Se pide calcular un intervalo de confianza del
95% para la vida media de la población de los limpiaparabrisas.
Tenemos X como la distribución de la vida útil en meses de la población de
limpiaparabrisas, no sabemos qué distribución tiene, al igual que desconocemos su
media. En este caso sí conocemos la desviación estándar poblacional.
X= (µ , σ = 6)
La media muestral X por el teorema central del límite se va a aproximar la distribución
normal:

Por lo tanto, el intervalo de confianza del 95% para la vida media en meses de toda la
población de limpiaparabrisas, es decir para µ

= 1.96 , es decir que el valor Z de la tabla de la normal estándar


que deja un área de 0,9 entre –Z Y +Z es Z=1,96.
O de otro modo, como el nivel de confianza es 0,9,
α = 0,05 , entonces el valor Z que deja su derecha un área de =
0,025 y a la izquierda de - Z un área de = 0,025 , es Z = 1,96
Con una confianza del 95%, la vida media de la población de
limpiaparabrisas que vende este mayorista está entre 19,824 meses y 22,176 meses.
Si extraemos varias muestras del mismo tamaño y calculamos un intervalo de
confianza para cada muestra, el 95% de todos los intervalos van a incluir a la vida
media poblacional en meses de todos los parabrisas que vende este mayorista.
Intervalo de confianza para µ con σ desconocida.
El administrador de una planta industrial generadora de energía desea estimar, por
intervalo, la cantidad de carbón que se consumió por término medio semanalmente
durante año pasado. Para ello toma una muestra de 10 semanas. El consumo medio
fue de 11.400 toneladas, la desviación estándar muestral 700 toneladas. ¿Cuál será el
intervalo de confianza del 95% para el consumo medio semanal durante el año
pasado?. (Supongamos normalidad).
Tenemos X como la distribución de toneladas de carbón consumidas cada semana del
año pasado por la planta de energía y su media y su desviación estándar desconocidas
X = (µ , σ)
Aunque n < 30, suponemos que la media muestral, X , sigue una distribución normal

Para estimar la desviación estándar poblacional


σ vamos a utilizar la desviación estándar muestral S que es 700 toneladas. Por lo tanto,
el intervalo de confianza del 95% para el consumo promedio de toneladas de carbón
en cada semana del año pasado, es decir para µ , será:
Utilizamos la tabla-Student porque la desviación estándar poblacional σ es
desconocida. En las tablas, = 2,262, una tabla-Student con 10 –
1 = 9 grados de libertad que deja
Su derecha un área de 0,025. α = 0,05 porque el nivel de confianza es de 1 − α = 0,95
Con una confianza del 95%, el consumo promedio semanal de carbón durante el año
pasado por esta planta de energía estará entre 10.899 toneladas y 11.901 toneladas. Si
extraemos varias muestras del mismo tamaño y calculamos un intervalo de confianza
para cada muestra, el 95% de todos los intervalos van a incluir al consumo promedio
poblacional de toneladas de carbón por semana durante el año pasado por la planta
de energía.

También podría gustarte