Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Lineal Simple
Regresión Lineal Simple
CICLO: V
AUTOR:
DIAGRAMAS DE DISPERSIÓN
Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de
regresión. Consta de una dispersión de puntos tal que cada punto representa un valor
de la variable independiente (medido a lo largo del eje horizontal), y un valor asociado
de la variable dependiente (medido a lo largo del eje vertical).
El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos de
información, visualmente se pueden determinar los patrones que indican como las
variables están relacionadas (lineal o mediante una curva) y por otro lado si existe una
relación entre ellas visualizando la clase de línea o ecuación de estimación que
describe a dicha relación.
A continuación se ilustran algunas relaciones en los diagramas de dispersión:
El error es cero.
Los datos obtenidos de las muestra son estadísticamente independientes.
La varianza del error es igual para todos los valores de X.
Una línea de regresión calculada a partir de los datos muestrales, por el método de
mínimos cuadrados se llama línea de regresión estimada o línea de regresión muestral.
Dicha línea recta es la que mejor se ajusta al conjunto de datos (X, Y) y es aquella en
que la distancia que hay entre los datos y la supuesta recta es la menor posible, y se
calcula mediante la siguiente formula:
Las variables a y b son constantes numéricas que son las que se calculan mediante el
método de mínimos cuadrados.
4. Se calcula la pendiente.
5. Se calcula la ordenada al origen.
Por ejemplo:
Una cadena de Pizzerías toma una muestra de diez de sus sucursales para tratar de
encontrar un modelo matemático que le permita predecir sus ventas y obtuvo los
siguientes datos: la población de personas en miles fue de 2, 6, 8, 8, 12, 16, 20, 20, 22,
26; y las ventas trimestrales en miles de pesos fue de: 58, 105, 88, 118, 117, 137, 157,
169, 169, 149, 202.
Realice una regresión para estimar las ventas de dos sucursales que tienen 14,000 y
30,000 personas como potenciales clientes respectivamente.
Solución
Datos
n=10
X: Población de personas en miles
Y: Ventas trimestrales en miles de pesos
4. Calculo de la pendiente.
Ejemplo 2:
Una empresa que fabrica cajas de cartón hace cajas para pizzas. El departamento de
planeación de operaciones sabe que un pronóstico adecuado y preciso de cajas para
pizza de un cliente está en relación estrecha con los gastos de promoción de éste, el
cual se puede obtener por adelantado antes de realizar el gasto. El departamento de
planeación de operaciones está interesado en establecer la relación entre la
promoción de la empresa de pizzas y las ventas. Una vez que eso se haya establecido,
las órdenes de compra de las cajas para pizzas, en dólares, pueden expresarse como
porcentaje fijo de las ventas.
Publicidad y ventas trimestrales
1 4 1
2 10 4
3 15 5
4 12 4
5 8 3
6 16 4
7 5 2
8 7 1
9 9 4
10 10 2
Por tanto, la recta estimada de regresión, la relación entre las ventas futuras (Yt) y la
publicidad (Xt) es:
Y=.22 + .29X
En el ejemplo anterior, quien hace la planeación de las operaciones puede investigar
los gastes planeados en publicidad y sobre esas ventas puede hacer el pronóstico. Por
ejemplo, la publicidad del próximo trimestre se espera que tenga un monto de 1 100
000 dólares. Sustituyendo 11 para X 1 en la ecuación anterior se tendrá:
En el ejemplo anterior, quien hace la planeación de las operaciones puede investigar
los gastes planeados en publicidad y sobre esas ventas puede hacer el pronóstico. Por
ejemplo, la publicidad del próximo trimestre se espera que tenga un monto de 1 100
000 dólares. Sustituyendo 11 para X 1 en la ecuación anterior se tendrá:
YF=.22+.29(11)=3.41
El pronóstico de las ventas es de 3.41 millones de dólares. Si los pedidos de cajas
representan el 5 por ciento de las ventas, quien planea las operaciones podría esperar
que el monto total por concepto de pedidos sería de 170,500 dólares para el trimestre
(.05 X 3.41). Tal estimación puede ser de gran utilidad en la planeación global de las
operaciones.
CORRELACIÓN SIMPLE
Mientras que el análisis de regresión simple establece una ecuación precisa que enlaza
dos variables, el análisis de correlación es la herramienta estadística que podemos usar
para describir el grado o fuerza en el que una variable esta linealmente relacionada
con otra.
Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan
cercanamente se mueven dos variables, y por lo tanto, con cuanta confiabilidad se
puede estimar una variable con ayuda de la otra.
Una técnica estadística que establece un índice que proporciona, en un solo número,
una medida de la fuerza de asociación entre dos variables de interés, se llama análisis
de correlación simple.
Existen dos medidas para describir la correlación entre dos variables: el coeficiente de
determinación y el coeficiente de correlación.
La medida más importante de que también ajusta la línea de regresión estimada en los
datos muéstrales en los que está basada, es el coeficiente de determinación muestral,
este es igual a la proporción de la variación total de los valores de la variable
dependiente, “Y”, que puede explicarse por medio de la asociación de Y con X medida
por la línea de regresión estimada.
INTERALO DE CONFIANZA
Debido a que la recta estimada de regresión, no es del todo real, es necesario elaborar
un intervalo de confianza que le dé seguridad a nuestros cálculos.
Un gerente de ventas reunió los datos siguientes relacionados con las ventas
anuales en miles de pesos y los años de experiencia de diez vendedores. Estime las
ventas anuales para un vendedor con 7 años de experiencia.
Solución
2. Diagrama de dispersión.
3. Realizar los cálculos correspondientes y determinar la pendiente y ordenada al
origen.
Este número
nos indica que las variables X Y tienen una correlación positiva intensa.
Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 años de experiencia están entre 104.6 y 111.4 miles
pesos anuales.
Se puede asegurar con un nivel de confianza del 95% que las ventas pronosticadas de
un vendedor con 9 años de experiencia están entre 96.71 y 119.3 miles pesos anuales.
ESTIMACIÓN DE PARÁMETROS
La inferencia estadística es un tipo de razonamiento que procede de lo concreto a lo
general: intenta extraer conclusiones sobre los parámetros de una población a partir
de la información contenida en los estadísticos de una muestra de esa población
(Pardo y San Martín, 1998).
¿Qué es una estimación?
Cuando queremos realizar un estudio de una población cualquiera de la que
desconocemos sus parámetros, por ejemplo su media poblacional o la probabilidad de
éxito si la población sigue una distribución binomial, debemos tomar una muestra
aleatoria de dicha población a través de la cual calcular una aproximación a dichos
parámetros que desconocemos y queremos estimar. Bien, pues esa aproximación se
llama estimación. Además, junto a esa estimación, y dado que muy
probablemente no coincida con el valor real del parámetro, acompañaremos el error
aproximado que se comete al realizarla.
1. La estimación de parámetros
La inferencia estadística asume que se cuenta con datos de una muestra y que se
desea conocer cuáles son las características (ya sea la media, la mediana o cualquier
otra que nos pueda interesar), no de esa muestra, sino de la población a la que esa
muestra pertenece. A los valores de esas características a nivel poblacional se les
conoce como parámetros
Podemos diferenciar dos grandes aproximaciones a la estimación de parámetros: la
estimación puntual y la estimación por intervalos. La diferencia básica entre ambas a la
hora de estimar un parámetro es que la primera proporciona una estimación
consistente en un valor concreto (puntual), mientras que la segunda ofrece como
estimación un rango de valores (intervalo). En realidad, la segunda aproximación
consiste en una extensión de la primera.
Estimación puntual
Una estimación puntual del valor de un parámetro poblacional desconocido (como
puede ser la media µ , o la desviación estándar σ , es un número que se utiliza para
aproximar el verdadero valor de dicho parámetro poblacional. A fin de realizar tal
estimación, tomaremos una muestra de la población y calcularemos el parámetro
muestral asociado ( x para la media, s para la desviación estándar, etc.). El valor de
este parámetro muestral será la estimación puntual del parámetro poblacional
Por ejemplo, supongamos que la compañía Sonytrump desea estimar la edad media de
los compradores de equipos de alta fidelidad. Seleccionan una muestra de 100
compradores y calculan la media de esta muestra, este valor será un estimador
puntual de la media de la población. ¿Qué propiedades debe cumplir todo buen
estimador?
- Insesgado: Un estimador es insesgado cuando la media de su distribución muestral
asociada coincide con la media de la población. Esto ocurre, por ejemplo, con el
estimador X, ya que µ x = µ y con estimador p´ ya que µp= P
- De varianza mínima: La variabilidad de un estimador viene determinada por el
cuadrado de su desviación estándar. En el caso del estimador x , su desviación
estándar es σX = σ/√n , también llamada error estándar de µ .
En el caso del error estándar de p´, σp =
Observar que cuanto mayor sea el tamaño de la muestra n , menor
será la variabilidad del estimador x y de p´, por tanto, mejor serán nuestras
estimaciones.
2. P o r o t r a p a r t e
normal, aproximadamente un 95% de los datos estaban situados a una
distancia inferior a dos desviaciones estándar de la media.
Por
tanto, ésta última fórmula nos da un intervalo de valores tal que la probabilidad de
que la media de la población µ esté contenida en él es de 0,95. Este tipo de intervalos
se llaman intervalos de confianza de un parámetro poblacional. El nivel de confianza (1
- α) del intervalo es la probabilidad de que éste contenga al parámetro poblacional. En
el ejemplo anterior, el nivel de confianza era del 95% (α = 0,05).
INTERVALOS DE CONFIANZA.
1. Intervalo de confianza para µ con σ conocida.
Un vendedor mayorista de partes automotrices necesita una estimación de la vida
media que puede esperar de los limpiaparabrisas en condiciones normales de manejo.
La administración de la empresa ya ha determinado que la desviación estándar de la
vida útil de la población es de seis meses. Supongamos que se selecciona una sola
muestra aleatoria de 100 limpiaparabrisas, y obtenemos que la vida media de estos
100 limpiaparabrisas es de 21 meses. Se pide calcular un intervalo de confianza del
95% para la vida media de la población de los limpiaparabrisas.
Tenemos X como la distribución de la vida útil en meses de la población de
limpiaparabrisas, no sabemos qué distribución tiene, al igual que desconocemos su
media. En este caso sí conocemos la desviación estándar poblacional.
X= (µ , σ = 6)
La media muestral X por el teorema central del límite se va a aproximar la distribución
normal:
Por lo tanto, el intervalo de confianza del 95% para la vida media en meses de toda la
población de limpiaparabrisas, es decir para µ