Documentos de Académico
Documentos de Profesional
Documentos de Cultura
0
+
2
= (
1
)
2
=1
La relacin entre x y la media y es lineal o suficientemente aproximada a una lnea recta, de tal forma
que la recta de mnimos cuadrados de prediccin es razonablemente acertada.
0
+
Unidad 2
Estadstica para Administracin II Pgina 3
1
=
0
=
S
yy
= y
2
(y)
2
n
S
xy
= xy
x y
n
S
xx
= x
2
(x)
2
n
0
es la interseccin, de y la tendencia, es decir cuando la variable independiente tiene un valor de cero
en promedio ese es el valor del pronstico.
1
es la pendiente, incremento que tiene el pronstico por cada unidad que aumenta la variable
independiente.
Calculo del error
El error es la diferencia entre el valor observado (dato proporcionado) y el valor ajustado a la lnea de
regresin (este valor se obtiene cuando ya tenemos la frmula de regresin lineal, se sustituye el valor de
x en la formula y obtenemos el pronstico lo que esperaramos que pasara si x tomara ese valor) a esto
se le llama residual. Esto es si sumamos todos los residuos obtendremos cero, como el mtodo de mnimos
cuadrados trata de minimizar el error se eleva al cuadrado el error.
Anlisis de correlacin
Creado por Karl Pearson en 1900, que tambin se le llama coeficiente de correlacin momento - producto de
Pearson (r de Pearson), describe la fuerza de la relacin entre dos variables. Los coeficientes de correlacin r
siempre oscilan entre valores de 1 y 1. El valor cero 0 significa que no existe correlacin entre ambas
variables. Un valor positivo indica que a incrementos en la variable A se producen incrementos
proporcionales en B y un valor negativo indica lo contrario.
}
y = 0 + 1X
yi
ei
Unidad 2
Estadstica para Administracin II Pgina 4
Podemos graficar la correlacin entre las dos variables a travs de una grfica de dos ejes (abscisas y
ordenadas) cartesianos.
Para interpretar el coeficiente de correlacin:
Valor de r de 0 a 0.25 implica que no existe correlacin entre ambas variables.
Valor de r de 0.25 a 0.50 implica una correlacin baja a moderada.
Valor de r de 0.50 a 0.75 implica correlacin moderada a buena.
Valor de r de 0.75 o mayor, implica una muy buena a excelente correlacin.
Estos rangos de valores se pueden extrapolar a correlaciones negativas tambin.
Un coeficiente de correlacin cercano a cero, digamos +0.08 o -0.08, muestra que la relacin entre las
variables es dbil. Coeficientes de -0.91 y +0.91 tienen igual fuerza, ambos indican una muy fuerte correlacin
entre las dos variables.
El siguiente dibujo resume la fuerza y direccin del coeficiente de correlacin.
El coeficiente de correlacin permite predecir si entre las dos variables que estamos existe o no una relacin
o dependencia matemtica.
Se debe tener cuidado al analizar la correlacin entre dos variables, de que ambas varen juntas
permanentemente. Esto parece redundante, pero es importante. Por ejemplo, supongamos que queremos
estudiar la correlacin existente entre peso y altura de un grupo de personas tomadas al azar. Sometemos
los datos recogidos de peso y altura al anlisis de correlacin y encontramos el coeficiente de correlacin
entre ambas, que se representa con la letra r. El r = 0.88. Esto significa que a mayor altura correspondera
mayor peso.
Cuando r = 1 existe una relacin funcional entre las dos variables de modo que el valor de cada variable se
puede obtener a partir de la otra. Los puntos de la nube estn todos situados sobre una recta de pendiente
positiva.
Unidad 2
Estadstica para Administracin II Pgina 5
Cuando r = -1 todos los puntos de la recta estn sobre una recta de pendiente negativa. Existe una relacin
funcional entre las dos variables.
Esto ocurre, por ejemplo, cuando una barra metlica se somete a distintas temperaturas, x1, x2,, xn, y se
miden con precisin sus correspondientes longitudes, y1, y2,, yn. Las longitudes se obtienen
funcionalmente a partir de las temperaturas de modo que, conociendo la temperatura a que se va a
calentar, se podra obtener la longitud que tendra la barra.
Es el caso de las estaturas, x1, x2,, xn, y los pesos, y1, y2,, yn, de diversos atletas de una misma
especialidad. A mayor estatura cabe esperar que tengan mayor peso, pero puede haber excepciones.
Cuando r es prximo a cero (por ejemplo, r = -0,12 o r = 0,08) se dice que la correlacin es muy dbil
(prcticamente no hay correlacin). La nube de puntos es amorfa.
Es lo que ocurrira si lanzramos simultneamente dos dados y anotramos sus resultados: puntuacin del
dado rojo, xi; puntuacin del dado verde, yi. No existe ninguna relacin entre las puntuaciones de los dados
en las diversas tiradas.
Cuando r es prximo a -1 (por ejemplo, r = -0,93) se dice que hay una correlacin fuerte y negativa. Los
valores de cada variable tienden a disminuir cuando aumentan los de la otra. Los puntos de la nube estn
prximos a una recta de pendiente negativa.
Unidad 2
Estadstica para Administracin II Pgina 6
Si se hiciera un estudio de los carros conforme pasa el tiempo, xi, y su devaluacin en unidades monetarias,
yi, se obtiene una distribucin de este tipo, pues suele ocurrir que, a grosso modo, puede suceder que entre
ms pasa el tiempo se va devaluando el valor del carro.
Los procedimientos de regresin y correlacin, establece una interrelacin entre las variables y es utilizado
como una herramienta de prediccin, la correlacin slo produce un coeficiente que mide el grado de
asociacin entre las variables y su sentido.
Para calcular el coeficiente de correlacin utilizaremos:
=
Se llama recta de regresin a una recta que marca la tendencia de la nube de puntos. Si la correlacin es
fuerte (tanto positiva como negativa) y, por tanto, los puntos de la nube estn prximos a una recta, sta es
la recta de regresin.
ANALISIS RESIDUAL
Cuando un modelo de regresin, tal como el modelo de regresin lineal se selecciona para su uso, uno no
puede estar seguro por adelantado que el modelo es apropiado. El analista debe realizar anlisis para
examinar cuan adecuado es el modelo que se propone de manera tentativa.
El ajuste de un modelo de regresin requiere varias suposiciones.
1. La estimacin de los parmetros del modelo requiere la suposicin de que los errores son variables
aleatorias independientes con media cero y varianza constante (0,
2
).
2. La pruebas de hiptesis y la estimacin de intervalos requiere que los errores estn distribuidos de
manera normal. (0,
2
).
3. Adems se supone que el grado del modelo es correcto; esto es, si se ajusta un modelo de
regresin lineal simple, entonces el fenmeno en realidad se comporta de una manera lineal o de
primer grado.
Hay algunos grficos que estudian la valides del modelo, as como algunas pruebas estadsticas formales.
Anlisis de Residuales es til para verifica la hiptesis de que los errores tienen una distribucin que es
aproximadamente normal con una varianza constante, as como para determinar la utilidad que tiene la
adicin de ms trminos al modelo.
Unidad 2
Estadstica para Administracin II Pgina 7
Los residuos de un modelo de regresin es la diferencia entre el valor observado y el valor ajustado a partir
del modelo.
= 1,2,3
Como tal corresponde al error observado, en diferencia con el error verdadero desconocido
en el modelo
de regresin.
)
Para el modelo de regresin se asume que
Propiedades de los residuales:
La media de los n residuales es:
=
= 0
Donde simboliza la media de los residuales. As, pues siempre es cero, no proporciona ninguna
informacin para los errores verdaderos, excepto si el valor esperado (
) = 0.
La varianza de los n residuales
2
=
(
)
2
2
=
2
2
=
2
=
Si el modelo es apropiado, el MSE es un estimador de la variacin de los errores en trminos de
2
.
ESTANDARIZACIN DE RESIDUALES
En ocasiones en el anlisis de residuales es conveniente hacer un anlisis de los residuales estandarizando,
puesto que la desviacin estndar del error es y es estimada por , definiremos el residual
estandarizado como sigue:
=
CONCLUSIONES DEL MODELO POR UN ESTUDIO DE RESIDUALES
Cuando usamos residuales, hay seis tipos importantes de conclusiones del modelo (hay seis tipos de
consideraciones importantes que tomar para concluir un modelo).
1. La funcin de regresin es no lineal.
2. Los trminos del error no tienen variacin constante
3. Los trminos del error no son independientes
4. El modelo presenta todas; si no una o varias observaciones extremas
5. Los trminos del error no se distribuyen normalmente
6. Una o varias variables importantes se han omitido del modelo.
Unidad 2
Estadstica para Administracin II Pgina 8
GRAFICO DE RESIDUALES
Los grficos de residuales se pueden analizar para proporcionar informacin si se cumple con cualquiera de
las seis consideraciones anteriores y eliminar el modelo.
Como comprobacin el experimento puede construir un histograma de frecuencias de los residuos o una
grfica de probabilidad normal de los residuos.
Puesto que los tamaos de las muestras en la regresin a menudo son pequeos como para el histograma
sea de utilidad, la grfica de probabilidad normal en el mtodo preferido.
Cuando se estandarizan los residuos, los errores tienen una distribucin normal si aproximadamente el 95%
de los residuos estandarizados deben caer en el intervalo (-2, +2).
Los residuos que se alejan mucho de este intervalo puede indicar la presencia de una observacin que no es
comn con respecto a los dems datos. Vale la pena analizarla, ver que ocurri.
Las grficas residuales a menudo se construyen:
1. Como una consecuencia en el tiempo (si se conoce).
2. Contra las
3. Contra la variable independiente x.
Un diagrama de residuales tiene ventajas sobre el diagrama de dispersin ya que muestra ms claramente
cualquier patrn sistemtico en las desviaciones alrededor de la lnea de regresin o cuando se presenta
una varianza del error no constante o tambin presentada de observaciones extremas.
Podemos tener los siguientes diagramas de residuales no lineal.
Indica que el modelo es inadecuado, se sugiere fuertemente una funcin de regresin lineal no es
apropiada, esto es que es necesario aadir al modelo trminos de orden superior, considerar una
transformacin de la variable x o y o considerar otro regresor.
,
2
1
0
-1
-2
Unidad 2
Estadstica para Administracin II Pgina 9
Otros diagramas que se pueden presentar son los de embudo:
En estos grficos la varianza de las observaciones puede aumentar con el tiempo o con la magnitud de
.
Esto tambin se puede eliminar con una transformacin.
Todos aquellos diagramas que presentan una tendencia, indican que el modelo no es apropiado.
El diagrama que se presenta con una tendencia ascendente o descendente indica que el error no es
independiente.
2
1
0
-1
-2
2
1
0
-1
-2
0
Unidad 2
Estadstica para Administracin II Pgina 10
El grafico que nos indica la distribucin de probabilidad de los errores es normal es que al graficar la
probabilidad acumulada normal centra los residuos nos da que los puntos se ubican de manera aproximada
a lo largo de una lnea recta.
Para detectar observaciones extremas hacemos el grafico estandarizado, si observamos algn punto que
est muy alejado ms all de la dispersin de los residuales restantes, puede ser a ms de 3 se marca ese
punto hay que identificar que paso con ese punto que pudo haber ocurrido un efecto extrao una vez
identificada la causa se desecha y volver a disear el modelo ya que ese punto puede desproporcionar la
suma de cuadrados error y podemos reducirla an ms.
La siguiente grafica representa la situacin ideal o satisfactoria para que se cumplan todas las suposiciones
del modelo.
Para nuestro ejemplo vamos a realizar el grafico de residuales.
,
Z
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
50
40
30
20
10
-1 0 1
Escriba aqu la ecuacin.
Unidad 2
Estadstica para Administracin II Pgina 11
INTERVALOS DE CONFIANZA PARA
1
[
/2,2
/2,2
] = 1
=
1
1
1
[
/2,2
1
1
1
+
/2,2
1
] = 1
1
2
=
Donde t/2 es un valor de la distribucin t con v=n-2 grados de libertad.
INTERVALO DE CONFIANZA PARA
0
Estimaremos el promedio de nuestra poblacin, es decir cuando x=0, obtenemos el valor de y.
[
/2,2
/2,2
] = 1
=
0
0
0
[
/2,2
0
0
0
+
/2,2
0
] = 1
0
2
=
2
[
1
]
INTERVALO DE CONFIANZA PARA LA ECUACIN DE REGRESIN
/
.
() =
/
=
()
=
2
[
1
+
(
)
2
]
= 2
[
()
/2,2
/
+
()
/2,2
] = 1
Unidad 2
Estadstica para Administracin II Pgina 12
ANLISIS DE REGRESIN MULTIPLE
En algunos problemas de investigacin no solo se presenta una variable independiente x y una
dependiente y, sino que influyen varias variables o elementos para hacer un pronstico ms acertado, es
decir si deseamos pronosticar el peso final de un animal buscamos las variables que pueden influir en el peso
final (y) por ejemplo:
1. Peso de animal cuando naci (X1)
2. La alimentacin, protenas, vitaminas (X2)
3. Semanas que ha sido alimentado (X3)
O si estamos interesados en saber cuntas ventas (y) tendremos
1. Cantidad de unidades vendidas (X1)
2. Nmero de anuncios colocados. (X2)
Se pueden tomar muchas variables como se crea que influyan en la respuesta, en este caso cuando tenemos
tres variables una dependiente y dos independientes podemos graficar tridimensionalmente como se
muestra en la siguiente figura:
Una de las ventajas de regresin mltiple es que utilizamos mayor informacin para obtener un pronstico
ms acertado y para ello debemos de definir la ecuacin de regresin mltiple ya que se pueden tener ms
de tres variables. El modelo de regresin lineal mltiple es:
1
,
2
,
3
,,
=
0
+
1
1
+
2
2
+
3
3
++
La ecuacin de regresin mltiple es:
=
0
+
1
+
2
+
3
+ +
+
Plano formado a
partir de los
puntos
muestrales:
= 0+ 1 X1 + 2 X2
a = interseccin en Y
Y
Punto
observado
Error
Punto
correspondiente
en el plano
X1
X2
Unidad 2
Estadstica para Administracin II Pgina 13
Para obtener los valores de
0
,
1
,
2
,
0
+
1
+
2
+. . . +
= y
1
+
1
2
+
2
1
2
+. . . +
=
1
y
. . . . .
. . . . .
. . . . .
1
+
2
+. . . +
2
=
y
Solucin del problema por medio de matrices en trminos generales.
Estimacin de parmetros
Para expresar el modelo en regresin mltiple general en trminos de matrices:
=
(
=
(
1
11
12
1
21
22
1
31
32
13
1
23
2
33
3
1
1
3
)
(1) (( + 1))
=
(
=
(
(1)1 (1)
Dnde:
() = 0
()
2
=
2
Consecuentemente el vector aleatorio y tiene un valor esperado
() =
Y la matriz de varianza- covarianza de y
()
2
=
2
Las ecuaciones normales de mnimos cuadrados para el modelo lineal general mltiple son:
=
2
=
= ( )
( )
= 0
Unidad 2
Estadstica para Administracin II Pgina 14
Las ecuaciones resultantes que es necesario resolver son:
(
Donde
= (
)
1
Estos estimadores tienen las propiedades de ser insesgado, con varianza mnima insesgado, consistente y
suficiente.
La matriz (
) es:
(
) =
[
1
2
2
2
3
1
3
2
2
]
=
[
= [
2
] = (
)
1
INFERENCIAS SOBRE EL MODELO
Primeramente estimamos
2
la variacin aleatoria. Al igual que en el caso de la regresin lineal simple la
estimacin de
2
est definida en trminos de la suma de cuadrados de los residuos (SSE):
= (
)
2
=
2
Un estimador insesgado de
2
esta dado por el cuadrado medio error (MSE):
2
= =
Unidad 2
Estadstica para Administracin II Pgina 15
PRUEBA DE SIGNIFICANCIA DE LA REGRESIN
Es una prueba para determinar si existe una relacin lineal entre la respuesta y y un subconjunto de las
variables de regresin
1
,
2
,
0
:
1
=
2
= =
= 0
1
:
0 "j"
.
El rechazo de
0
implica que a menos una de las variables de regresin
1
,
2
,
Regresin k-1
=
()
2
Error n-k =
Total n-1
=
()
2
= [
0
,
1
,
2
, ,
]
[
=1
COEFICIENTE DE DETERMINACIN MULTIPLE
.
=
El coeficiente de determinacin mltiple est definida por:
2
=
0
2
1
Como:
=
Dnde:
0
,
1
,
2
,
Unidad 2
Estadstica para Administracin II Pgina 16
2
=
=
COEFICIENTE DE DETERMINACIN
El coeficiente de determinacin mltiple est definida por:
2
=
0
2
1
INFERENCIAS PARA LOS PARAMETROS DE REGRESIN
Para poder hacer inferencias acerca de los parmetros de regresin primeramente debemos estimar la
varianza de las
2
()
1
son las varianzas de
0
,
1
,
2
() =
2
(
)
1
= (
)
1
2
(
) =
[
2
(
0
)
2
(
0
,
1
)
2
(
0
,
1
)
2
(
1
)
2
(
0
,
)
2
(
1
,
2
(
0
,
)
2
(
1
,
)
2
(
) ]
2
=
Donde
2
(
2 ,()
(
) (
+
2 ,()
(
)] = 1
Unidad 2
Estadstica para Administracin II Pgina 17
PROBLEMAS:
1. Un gerente de ventas planea transmitir un comercial para una cmara digital en estaciones de
televisin locales antes de la venta que empezara el sbado y terminara el domingo. El propsito es
determinar si existe relacin entre el nmero de veces que se transmiti el anuncio en las
estaciones de televisin y la venta de las cmaras digitales, en el siguiente cuadro se presenta la
informacin:
2. El gerente de ventas de una compaa que vende copiadoras, tiene una gran fuerza de ventas,
desea determinar si existe relacin entre el nmero de llamadas y la cantidad de copiadoras
vendidas durante ese lapso. Se selecciona al azar una muestra de los representantes y se determina
el nmero de llamadas que se hizo cada uno el mes anterior y la cantidad de copiadoras vendidas.
La informacin se muestra en la siguiente tabla:
3. Un comerciante realizo un estudio para determinar la relacin entre los gastos semanales por
concepto de publicidad y las ventas. Se registraron los siguientes datos son en miles:
a) Estime las ventas semanales cuando los costos de publicidad son de $35.00
Ubicacin
de la televisin
Nmero
de transmisiones
Ventas de sbado y domingo
(miles de dlares)
D.F 4 15
Guadalajara 2 8
Monterrey 5 21
Acapulco 6 24
Tijuana 3 17
Nmero del
representante
Nmero de
llamadas
Nmero de
copiadoras
1 20 30
2 40 60
3 20 40
4 30 60
5 10 30
6 10 40
7 20 40
8 20 50
9 20 30
10 30 70
Publicidad 40 20 25 20 30 50 40 20 50 40 25 50
Ventas 385 400 395 365 475 440 490 420 560 525 480 510
Unidad 2
Estadstica para Administracin II Pgina 18
4. En la siguiente tabla se muestran 9 pedidos hechos a una planta; las unidades producidas y sus
costos:
Pedido 1 2 3 4 5 6 7 8 9
Unidades producidas 400 320 250 106 700 453 565 620 200
Costo (miles) 53 41 37 28 102 58 76 83 24
a) Cul es el costo de produccin si se fabrican 1000 unidades?
b) Realice las estimaciones con un nivel de confianza del 99%
5. La Empresa Comercializadora e industrializadora Mexicana de Avestruz de Nayarit S.A de C.V. desea
saber la cantidad de paras de zapatos que se obtienen de cierta medida con cierta cantidad de m
2
de piel de avestruz.
Pares de Zapatos 5 12 6 10 12 3 2 11 8 9
Medida de zapatos en cm. 7 6 8 9 8.5 9 7 6.5 8 7.5
Metros cuadrados de piel 1 2 1.5 3 4 1 4 2.5 2 2
a) Cul sera la cantidad de pares si la medida es de 5 cm. y la cantidad de piel es de 2 m
2
6. Un alumno de CUI de la facultad de turismo de la UAN que estudia ingles quiere saber cul es su
calificacin final si entrego las 20 tareas que se solicitaron durante el curso y obtuvo un promedio
en sus exmenes de 87.
A continuacin se presenta informacin sobre calificaciones finales:
Calificacin Final 93 81 89 95 83 90 98 96 88 80
Promedio de Exmenes 90 79 80 94 83 89 92 95 85 79
Tareas Entregadas 19 16 20 14 8 10 18 15 19 15
a) Cual sera tu promedio final si entregaras 10 tareas y obtuvieras en tus exmenes finales
un promedio de 89.
7. Se piensa que la potencia elctrica consumida al mes por una planta qumica est relacionada con la
temperatura ambiente promedio
1
, el nmero de das al mes
2
, la pureza promedio del producto
3
y las toneladas de producto producidas
4
. Los datos correspondientes al ao pasado son los
siguientes:
Y
1
2
3
4
240 25 24 91 100
236 31 21 90 95
290 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98
Unidad 2
Estadstica para Administracin II Pgina 19
8. Un economista especializado en agricultura est estudiando la relacin entre el ingreso per cpita
de un distrito (variable dependiente) y el porcentaje de la poblacin que se dedica a la agricultura, y
el nmero medio de aos de educacin para las personas mayores de 25 aos de edad. Se
seleccionaron al azar 19 distritos rurales.
Ingreso per cpita
(millones de
dlares)
Y
Porcentaje de
personas
dedicadas a la
agricultura
X1
Educacin
(aos)
X2
19.6 10.2 10.6
19.4 13.4 16.9
16.0 10.2 15.1
19.8 10.8 14.9
21.8 10.3 15.0
18.2 13.3 16.0
21.4 12.6 16.0
19.2 12.8 10.4
26.4 9.7 13.7
25.8 9.5 14.0
20.2 10.5 10.2
15.2 13.0 13.8
18.2 11.3 16.0
21.4 10.3 15.1
15.2 12.7 12.9
24.8 8.5 10.1
19.8 10.6 13.0
24.8 8.4 15.2
13.3 9.6 13.8
a) Determine la ecuacin de regresin. El Distrito Warren se encuentra en Illinois. Tiene 12% de la
fuerza de trabajo dedicada a la agricultura y la media de aos de educacin es 15. Cul es el ingreso
estimado para el distrito?
9. Cellulon, fabricante de un nuevo tipo de aislantes trmicos para casas, desea desarrollar
lineamientos para constructores y consumidores en lo que se refiere a los efectos 1) del grueso del
aislante en el desvn de una casa, y 2) de la temperatura exterior en el consumo de gas natural. En
el laboratorio se variaron el espesor del aislamiento y la temperatura. Algunos resultados son:
Consumo
mensual de gas
natural (pies
cbicos)
Y
Espesor de
aislamiento
(pulgadas)
X1
Temperatura
exterior
(Fahrenheit)
X2
30.3 6 40
26.9 12 40
22.1 8 49
a) Obtener la ecuacin de regresin mltiple.
b) Cunto gas natural esperan consumir los dueos de la casa al mes, si 1) instalan
aislamiento de 6 in de grueso, y 2) la temperatura exterior es de 40F?
c) Qu efecto tendra sobre el consumo mensual de gas natural instalar 7 in de aislante en
vez de 6 in (considerando que la temperatura exterior permanece en 40F)?