Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Métodos Cuantitativos
4
Métodos Cuantitativos
Objetivo General:
Objetivos Específicos:
Contenido Página
I. Estadística Descriptiva 1
II. Introducción al manejo de SPSS para windows 17
III. Probabilidades 27
IV. Introducción al muestreo y la estimación 36
V. Análisis de regresión y correlación 65
Evaluaciones
INDICE DE CONTENIDO
Tema 1. Estadística descriptiva
1.1 Introducción…………………………………………………………..1
1.2 Conceptos básicos…………………………………………………….1
1.3 Procedimiento básico para realizar análisis estadístico………………3
1.4 Organización (resumen) de los datos…………………………………3
1.5 Caracterización ( análisis) de los datos………………………………7
1.6 Ejercicios de aplicación………………………………………………15
Tema 3. Probabilidades
3.1 Introducción……………………………………………………………27
3.2 Conceptos básicos……………………………………………………...27
3.3 Enfoques de probabilidades……………………………………………27
3.4 Reglas básicas de probabilidad………………………………………...28
3.5 Probabilidad condicional……………………………………………….29
3.6 Regla de la multiplicación……………………………………………..29
3.7 Independencia Estadística…………………………………………..…30
3.8 Teorema de Bayes…………………………………………………..…30
3.9 Ejercicios propuestos……………………………………………..……31
1.1 Introducción
¿Qué es la estadística?
La Estadística estudia los métodos y procedimientos para recopilar, organizar,
presentar y analizar datos, siempre y cuando la variabilidad e incertidumbre sea
una causa intrínsica de los mismos; así como de realizar inferencias a partir de
ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular
predicciones.
División de la estadística
Estadística descriptiva
Métodos Cuantitativos
Población
Es un conjunto de elementos de naturaleza cualquiera de los cuales estamos
interesados en estudiar al menos una característica común y observable de dichos
elementos en un determinado lugar y en un momento dado.
Muestra
Es una parte de la población que se espera sea representativa de ella. Con
frecuencia usaremos el término muestra para referirnos a los datos muestrales,
x1 , x2 , … , xn
Parámetros
Es una medida que proviene de todos los datos de la población. Los parámetros
son constantes que representan por lo general características de la población.
Generalmente se representan por letras griegas.
Estadístico o estimador
Es una medida que proviene de los datos muestrales. Las estimaciones varían de
una muestra a otra y representan características de las muestras.
Variables
Utilizaremos variables como X, Y, Z, etc. para representar las características de
los elementos
Existen básicamente 2 tipos de variables:
Variables cualitativas: Son las que producen respuestas categóricas. ( atributos o
modalidades )
Variables cuantitativas : Son las que producen respuestas numéricas. (valores)
Recopilación de datos
Organización de datos
Presentación de datos
Análisis simple de datos Inferencia Estadística
Recopilación de datos
Consiste en la utilización adecuada de técnicas que permitan recoger la
información de la manera más eficiente.
Los datos pueden ser recopilados de:
a) Registros internos
b) Publicaciones
c) Encuestas
Cuando a) y b) no son apropiados para el estudio que estamos haciendo
utilizamos la encuesta, esto es, un instrumento que nos permite recopilar la
información necesaria.
La encuesta está limitada por factores: tiempo, dinero, recursos materiales y
humanos disponibles.
Se puede llevar a cabo por dos formas:
a) Por muestreo
Métodos Cuantitativos
b) Por censo.
Hasta Ls
Más de Li
Amplitud o tamaño de un intervalo de clase
c = Ls – Li
Li +Ls
m j=
2 j = 1, 2, ....., g
EJEMPLO 1
Tiempo que tarda (en minutos) un grupo de expertos en auditar un proceso.
70 47 57 52 51 71 68 55 63 50
60 55 65 60 63 54 57 50 56 67
63 59 53 67 65 60 74 59 59 74
Métodos Cuantitativos
g
Criterio para determinar el número de clases: 2 ≥n
47 50 50 51 52 53 54 55 55 56
57 57 59 59 59 60 60 60 63 63
63 65 65 67 68 70 71 74 74 74
2. Determinar el rango
2g ≥ n
El límite inferior de la primera clase debe ser un número menor y cercano al dato
menor.
Métodos Cuantitativos
46 ------- 52 5
52 ------- 58 7
58 ------- 64 9
64 ------- 70 5
70 ------- 76 4
30
faj = f1 + f2 + … + fj
frj : frecuencia relativa de la clase j. Proporción de datos que corresponde a la
clase j .
fj
fr j =
n j=1,2,…,g
Cuando los datos están agrupados en clases diremos que forman una distribución
de frecuencias , la cual, puede ser presentada por una tabla estadística o una
gráfica estadística.
Prop. de auditores
POLÍGONO DE FRECUENCIAS
Se forman haciendo que cada marca de clase represente los datos de esa clase.
Luego se toman las frecuencias correspondientes a cada marca de clase para
después unir los puntos resultantes con segmentos. Algunos prolongan el
polígono hasta las marcas de clase imaginarias inferior y superior inmediata
Medidas de posición
Nos indican las posiciones o lugares alrededor de los cuales se distribuyen los
datos.
Medidas de dispersión
Nos informan sobre la variabilidad de los datos alrededor de las medidas de
posición.
a) La media aritmética
Si x1, x2,..........,xn representan datos muestrales entonces su media muestral se
denota y define así
n
∑ xi
.
x̄=
n
Datos repetidos
Métodos Cuantitativos
∑ xi f i
.
x̄=
n
b) La mediana
Para datos que contienen valores extremos es recomendable utilizar la mediana
porque ésta no es sensible a las observaciones extremas.
La mediana es el valor que se encuentra en el centro de una secuencia ordenada
de datos.
Si un conjunto de datos están ordenados según su magnitud en orden creciente o
decreciente entonces la mediana la determinamos así:
i. Si n es impar entonces la mediana es el valor central
n+1
Posición: 2
ii. Si n es par la mediana es el promedio de los dos valores centrales
n n
+1
Posiciones: 2 y 2
c) La moda
La moda de un conjunto de datos es aquel valor que se presenta con más
frecuencia.
La moda no es afectada por valores extremos. Sin embargo sólo se utiliza para
propósitos descriptivos porque es más variable para distintas muestras que las
demás medidas de posición.
Relacion entre media , mediana y moda.
Las diferencias entre los valores de la media, la mediana y la moda permiten
saber la forma de la distribución de frecuencias
Distribuciones simetricas
Si en una distribución de frecuencias, la media, la mediana y la moda coinciden
16 15 entonces decimos que la
14 distribución es simétrica.
12
10 10
10
8
6 5 5
4
2
0
Métodos Cuantitativos
Distribuciones asimetricas
45 40
40
35 33
28
Figura 1.9
30 26
25
La cola mayor se extiende a la
20 18 derecha o dirección positiva motivo
15 10
por el cual la media es la mayor de
10 5 las tres medidas.
5 Mo
0
< Me. < x̄
Mo Me Media
a)La media
Si los datos representados por la variable de interés X están agrupados en “g “
clases consideraremos que los valores de X serán las marcas de clase, motivo por
el cual escribiremos:
Para una muestra:
g
∑ mj f j
.
x̄=
n mj: marca de la clase j
Métodos Cuantitativos
f j: frecuencia de la clase j
Para una población:
g
∑mjf j
.
μ=
N
b)La mediana
2. Aplicar la fórmula
n
−fa k −1
2
Me=Li k +( )c
fk
donde:
2. Aplicar la fórmula
Δ1
Mo=Li k +( )c
Δ1 + Δ2
donde:
Lik es el límite inferior de la clase modal.
1 es la diferencia absoluta entre la frecuencia de la clase modal y la
frecuencia de la clase precedente.
2 es la diferencia absoluta entre la frecuencia de la clase modal y la
frecuencia de la clase siguiente.
Métodos Cuantitativos
Medidas de dispersion
σ =√ σ 2
Si x1, x2,..........,xn representan datos muestrales entonces su varianza muestral se
denota y define así
Fórmula
abreviada
n
∑ ( x i− x̄ )2
.
s2=
n−1
n
n ( ∑ x i )2
.
∑ x i2 − n
.
s2=
n−1
s
CV mtra = (100 )
Para una muestra x̄ Para una población
σ
CV pob = (100 )
μ
La regla empírica
En un conjunto de datos moderamente asimétricos aproximadamente el 67% de
los datos (la mayoría de los datos) están comprendidos dentro de la distancia de
una desviación estándar en torno a la media, y aproximadamente entre un 90%
y 95% de los datos están comprendidos dentro de la distancia de dos
desviaciones estándar en torno a la media.
m j es la marca de la clase j
g es en número de clases
g
∑ (m j−μ )2 f j
.
σ 2=
N fj es la frecuencia de la clase j
σ =√ σ 2
La varianza muestral se denota y define como
Fórmula abreviada.
g
g g ( ∑ m j f j )2
∑ (m j − x̄ )2 f j ∑ m j2 f j− .
n
. .
s 2= s 2=
n−1 n−1
s= √ s 2
El coeficiente de variación se denota y define así
Métodos Cuantitativos
s
CV mtra= (100 )
Para una muestra x̄ Para una población
σ
CV pob = (100 )
μ
Coeficiente de asimetría de Pearson
3( x̄−Me) 3( μ−Me )
P= P=
s para una muestra σ para una
población
EJEMPLO
Para el ejemplo de las unidades producidas por 30 obreros de una fábrica, durante
una semana, obtenga las medidas de posición, las de dispersión y clasifique la
distribución.
Ejercicio
Supongamos que tenemos los salarios mensuales (en dólares) de 100 obreros no
calificados, los cuales se dan en la siguiente tabla.
Salarios N° de Obreros
100
Primer Cuartil (Q1): Es el valor que corresponde al punto por debajo del
cual se encuentra el 25% de las observaciones. Si el número de
observaciones en n, Q1 se ubica en la posición (n + 1)/4.
Tercer Cuartil (Q3): Es el valor que corresponde al punto por encima del
cual se encuentra el 25% de las observaciones. Se localiza en la posición
3(n + 1)/4.
Centiles o Percentiles
2. Aplicar la fórmula
r
n( )−fa k−1
100
Pr =Li k +( )c
fk
donde
n es el número de datos
Lik es el límite inferior de la clase que contiene al Pr
r
n( )
100 es el r% de n
Métodos Cuantitativos
8. Una compañía de construcción paga a sus empleados $6.5, $7.5 y $8.5 por
hora, se toma una muestra de 26 empleados a 14 le pagan $6.5 por hora a 10 le
pagan $7.5 por hora y a 2 le pagan $8.5 por hora.
¿Cuál es el salario medio ponderado por hora pagado a los 26 empleados?
38 35 76 58 48 59 67 63 33 69
53 51 28 25 36 32 61 57 49 78
48 42 72 52 47 66 58 44 44 56
Métodos Cuantitativos
2.1 Introducción
Procedimiento
Luego siguiendo en la misma fila, bajo TIPO elegiremos el tipo de esta variable.
Para ver los tipos posibles se pulsa en el cuadradito con puntos suspensivos. Para
esta variable podemos elegir numérica con anchura 3 y con ningún decimal y
pulsamos el botón aceptar. Debajo de etiqueta pondremos “Número de
cuestionario”, las otra casillas se pueden quedar en blanco.
Al final de la lista de variables tiene que aparecer la nueva variable que acabamos
de definir. En la columna VALORES de esa nueva variable pincharemos para definir
las etiquetas.
Ejercicios
Razonamiento: 40, 38, 65, 56, 16, 55, 28, 62, 32, 48
Habilidad: 36, 18, 54, 47, 21, 56, 68, 70, 72, 38.
Para estudiar simultáneamente dos variables así como la relación entre las
mismas es adecuado usar las tablas de contingencia.
Una cuestión importante es llegar a conocer si las dos variables estudiadas son o
no estadísticamente independientes entre sí o si por el contrario existe entre ellas
alguna asociación. (Hipótesis nula: las variables son independientes). El
procedimiento es el siguiente:
Habrá que elegir una variable para las filas de la tabla y otra para las columnas. Es
conveniente que sean variables ordinales o nominales.
Métodos Cuantitativos
Para realizar estos análisis se elige: Analizar -> comparar medias y las posibles
opciones son: Medias, Pruebas T para una muestra, Pruebas T para muestras
independientes, pruebas T para muestras relacionadas y Anova de un factor.
La primera opción (Medias) nos permite una variable dependiente (por ejemplo
paga semanal) y una variable dependiente que haga subgrupos en la población
total, por ejemplo Nivel socioeconómico. Y da la media y la desviación típica de
las variables elegidas, en los subgrupos creados por el Nivel socioeconómico y en
la población completa. Así pues el procedimiento Medias calcula medias de
subgrupo y estadísticos univariados relacionados para variables dependientes
dentro de las categorías de una o más variables independientes.
Si se desea tener un intervalo de confianza para los hombres y otro para las
mujeres habrá que llevar la variable sexo al rectángulo "Factores"
Identificación de outliers
Los casos atípicos pueden identificarse desde una perspectiva univariante
o multivariante.
La perspectiva univariante examina la distribución de observaciones para
cada variable, seleccionando como casos atípicos aquellos casos cuyos valores
caigan fuera de los rangos de la distribución.
La cuestión principal consiste en el establecimiento de un umbral para la
designación de caso atípico. Esto se puede hacer gráficamente mediante
histogramas o diagramas de caja o bien numéricamente, mediante el
cálculo de puntuaciones tipificadas. Para muestras pequeñas (de 80 o incluso
menos observaciones),
las pautas sugeridas identifican como atípicos aquellos casos con valores
estándar de 2.5 o superiores. Cuando los tamaños muestrales son mayores, las
pautas sugieren que el valor umbral sea 3.
Para cambiar la escala del eje X, señalar escala eje X y aceptar. Cambiar a los
valores que deseemos y hacer lo mismo con el eje Y.
Para obtener el coeficiente de correlación y la ecuación de la recta de regresión ,
se elige: Analizar -> correlación -> bivariada
Llevar las variables Gastos en publicidad y volumen de ventas al rectángulo de
variables de la derecha y pulsar aceptar y obtendremos el valor 0.875 del
coeficiente de correlación
Analizar -> Regresión - > lineal
Llevaremos volumen de ventas a variable dependiente y gastos en publicidad
variable independiente y pulsamos en aceptar.
Del último cuadro de la salida del SPSS, podemos deducir la ecuación de la recta
de regresión de Y sobre X.
Recordemos que la ecuación de la recta que calculamos al hacer el problema era
Y== 52.5675 X + 43.4865 . Tanto la ordenada en el origen de la recta 43.4865
como la pendiente de la recta de regresión 43.4865 los podemos encontrar en la
última tabla de resultados, aparecen en el recuadro “Coeficientes no
estandariazados”, bajo la letra B.
Además R2 mide la capacidad de la variable independiente para predecir la
dependiente (cociente entre la varianza explicada y la varianza total)
Tema 3: Probabilidades
3.1 Introduccion
En la actualidad la teoría de la probabilidad constituye el fundamento de la
Estadística Inferencial, una rama de la Estadística con importantes aplicaciones a
situaciones en que interviene la incertidumbre. En tales circunstancias la
Estadística Inferencial permitirá hacer estimaciones de parámetros basados en la
información muestral.
P(A) = =
Número de resultados posibles del experimento #S
P( A B ) = P( A) + P( B )
4) Regla del complemento.
P(A) + P( A’ ) = 1 P( A’ ) = 1 – P( A )
5) Regla de la adición.
Sean A y B eventos cualesquiera
P( A B ) = P( A ) + P( B ) – P( A B )
Ejemplo
En una univversidad se seleccionó una muestra de 1590 estudiantes de
posgrados para determinar diversas informaciones relacionadas con el perfil de la
maestría seleccionada. Entre las preguntas hechas, se encontraba “¿Usted optó
por la maestría en Administración, en Finanzas o en Auditoria?. De 755 hombres
320 dijeron estar en Administración y 125 en Auditoría. De 835 mujeres 245
dijeron estar en Finanzas y 180 en auditoría.
P( A∩B )
P( A|B )=
P(B ) =
Probabilidad marginal de B
¿( A∩B )
P( A|B )=
Si B es finito entonces #B
P( A 1 A2 ) = P(A1 ) P(A2 )
i) Ai A j = para todo i j
P ( A i ) P( B|A i ) P( A i ) P(B|A i )
P( A i| B)= n
=
P( B)
∑ P( Ai )P (B|Ai )
.
Ejemplo
Un gerente de crédito clasifica las cuentas a su cargo en 3 tipos:
De los archivos se estima que el 75%, 20% y 5% de las cuentas caen en las
categorías 1, 2 y 3 respectivamente. Por experiencia en el trabajo el gerente
considera que el 90% de los clientes con cuentas del tipo 1 tienen casa propia,
Métodos Cuantitativos
mientras que el 50% de los clientes con cuentas del tipo 2 y el 20% de los clientes
con cuentas del tipo 3 tienen casa propia.
Ejercicio
El departamento de crédito de una tienda informó que el 30% de sus ventas son
en efectivo, el 30% se pagan con cheques y el 40% son al crédito. Se tiene
información de que las compras por más de C$ 500 en efectivo, con cheques y al
crédito son el 25%, 90% y 60% respectivamente. Una persona acaba de decidir
comprar un artículo cuyo precio es de C$ 800, ¿ cuál es la probabilidad de que
pague con cheque ?
1. Para cada uno de los siguientes casos, diga si los eventos que se crean son
(i) mutuamente excluyentes, (ii) colectivamente exhaustivos.
a) Sea hombre?
b) Disfrute comprar ropa?
c) Sea una mujer y disfrute comprar ropa?
d) Sea un hombre y no disfrute comprar ropa?
e) Sea una mujer o no disfrute comprar ropa’
12. Una empresa compra cierto tipo de pieza que es suministrada por tres
proveedores: el 45%de las piezas son compradas al primer proveedor resultando
defectuoso el 1%. El segundo proveedor suministra el 30% de las piezas, y de
ellas es defectuoso el 2%. Las restantes piezas provienen del tercer proveedor,
siendo defectuoso el 3% de la mismas. En un control de recepción de artículos se
selecciona una pieza al azar y es defectuosa. Calcular la probabilidad de que la
haya suministrado el segundo proveedor.
13. Ochenta por ciento de material de vinil que se recibe del vendedor A es de
calidad excepcional, en tanto que solo cincuenta por ciento de material de
vendedor B es de calidad excepcional. Sin embargo, la capacidad de fabricación
del vendedor A es limitada y, por esa razón, solo cuarenta por ciento del vinil que
la empresa adquiere proviene de este vendedor. El sesenta por ciento restante se
compra al vendedor B. Se inspecciona un embarque de vinil que acaba de llegar y
se encuentre que es de excepcional calidad. ¿Cuál es la probabilidad de que
provenga del vendedor A?
Distribución normal
Esta distribución es considerada la más importante por las siguientes razones:
f(x ) =
1
e
− (
2 σ ) , -∞ < x < ∞
σ√ 2 π
e = 2 . 71828 ⋯
1. Es una familia de distribuciones normales de tal forma que cada vez que se
especifican los parámetros y 2 se identifica al correspondiente miembro de la
familia, esto es, se produce una distribución normal particular.
2. Los dos parámetros y 2 conciden con la media (esperanza) y la varianza
respectivamente de X, esto es
E(X) =
Métodos Cuantitativos
V( X ) = 2 X = √ V( X )
Tiene forma de campana y el valor máximo de f ( x ) ocurre en x = .
También tiene puntos de inflexión que ocurren en x = - y x = +
- + X
La mediana y la moda coinciden con , y por lo tanto, es simétrica con respecto a
, así que
1
P(X ) = P(X ) = 2
B
Métodos Cuantitativos
A
C
1 2
Z = 1
Z = 0 Z
Cada vez que apliquemos una distribución normal a una situación dada será
necesario identificar un miembro de la familia, esto es, una variable aleatoria X
Métodos Cuantitativos
que tenga distribución normal con parámetros y , con el fin de poder calcular
las probabilidades solicitadas.
Lo anterior significa que cada situación o problemas tendría su propia distribución
normal, lo cual resulta muy incómodo.
X -μ
= Z
σ
Z
= 1
X Z = 0
Z
X - μ
X ~ N ( μ , σ) ⇒ = Z ~ N ( 0,1 )
σ
La funcion de distribucion acumulada de la variable aleatoria z
Suponga que f ( s ) es la función de densidad de probabilidad de Z.
Métodos Cuantitativos
z
F( z ) = P ( Z ≤z ) = ∫ -∞ f ( s ) d s = A
0 z Z
z 0 Z
Con el propósito de no recurrir a los métodos de integración se ha elaborado una
tabla para la función de distribución acumulada de Z, que nos permite leer
directamente el valor de F ( z ) para cualquier z.
Uso de la tabla
Note que la tabla consta de dos partes, una arriba, para los valores negativos de z
y otra abajo para los valores positivos de z.
Observe, para ambas partes de la tabla, que en el márgen izquierdo está el dígito
unitario y una décima de z, mientras que en el margen superior se encuentran las
centésimas de z.
Ejemplo
Encuentre P ( Z - 1.24 )
− 1. 24
P ( Z ≤ -1.24 ) = F (-1. 24) = ∫ -∞ f ( z) dz
Métodos Cuantitativos
0.1075
- 1.24 0 Z
Caso 1.
El evento tiene la forma X c donde c es un valor determinado, queremos
calcular P(Xc).
Lo primero que tenemos que hacer es estandarizar la variable aleatoria X y el
valor c.
A
1
x- μ
= Z
A σ
Métodos Cuantitativos
c−μ
c X 0 σ
Z
c−μ c−μ
P( X <c )=P( Z<
σ
)=F
σ ( )
=A
c-μ
Esta área acumulada a la izquierda de σ podemos leerla directamente en
la tabla
Caso 2.
El evento tiene la forma X c donde c es un valor determinado, queremos calcular
P ( X c ). Una ilustración gráfica sería la siguiente donde se ha sombreado el
área que representa P ( X c ).
c X
Caso 3.
A
Métodos Cuantitativos
a b X
b) Contrastes de Hipótesis
Métodos Cuantitativos
Ejemplo
2. Una empresa lleva a cabo una prueba para seleccionar nuevos empleados. Por
la experiencia de pruebas anteriores, se sabe que las puntuaciones siguen una
distribución normal de media 80 y desviación típica 25. ¿Qué porcentaje de
candidatos obtendrá entre 75 y 100 puntos?
Solución: 36,74 %
están distribuidos normalmente con una media de C$ 18 por hora y una desviación
estándar de C$ 3.
8)La demanda semanal de artículos que produce una empresa es una variable
aleatoria aproximadamente normal con una media de 20 artículos y una
desviación estándar de 2 artículos.
¿Cuál es la probabilidad de que cierta semana la demanda sea:
Métodos Cuantitativos
9)Una empresa de jabonería y perfumería usa una máquina para llenar cajas con
polvo facial. En un informe del departamento de control estadístico de la calidad,
se afirma que los pesos netos de las cajas están distribuidos normalmente con
una media igual a 15 onzas y desviación estándar igual a 0.8 onzas.
a) Se selecciona al azar una caja, ¿cuál es la probabilidad de que tenga un
peso neto mayor de 14.5 onzas?
b) Si cierto día la máquina llena 1500 cajas, ¿cuántas cajas tendrán pesos
netos menores que 14.5 onzas?
En todo muestreo lo deseable básicamente es obtener una muestra que sea una
buena representación de la población en miniatura y que además su costo sea el
menor posible, ya que a mayor representatividad de la muestra se espera mayor
precisión en las estimaciones de los parámetros.
Muestreo no probabilistico
- En este método no todos los elementos poblacionales tendrán posibilidad de
integrar la muestra, motivo por el cual se espera poca representatividad de la
muestra.
- Las unidades muestrales se seleccionan conforme a las leyes del azar en vez del
criterio personal.
EJEMPLO
No de 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16
super
Venta 8. 7. 5. 3. 6. 7. 8. 2. 1. 4. 3. 5. 4. 8. 9. 3.
s 1 5 4 0 2 0 0 5 8 3 8 5 6 3 0 6
diarias
(en
miles
donde
z α/2 es un valor de la normal estándar que tiene a su izquierda una área
α
1-
acumulada de 2 ,
σ N - n
X̄ ± z α /2
√n √ N - 1 para
cualquier n
53
σ N - n
N { X̄ ± z α/2 N
√n √ N - 1
¿
para cualquier n
Ejemplo
Una máquina empaca azúcar en bolsas plásticas. Se quiere estimar el peso
promedio de las bolsas de azúcar sabiendo por estudios anteriores que la
desviación estándar poblacional es de 0.10 lbs. Del flujo de producción se toma
una muestra aleatoria sistemática de 10 bolsas, obteniendo los siguientes pesos
en libras.
5.10, 4.90, 4.80, 5.15, 5.05, 4.95, 4.97, 4.85, 5.03, 5.00
Suponiendo que el peso de las bolsas de azúcar se distribuye normalmente:
Obtenga un intervalo de confianza del 80% para el peso promedio de las bolsas
de azúcar.
S
X̄ ± t α /2
√n siempre que n 30
donde t α/2 es un valor de la distribución t de Student que tiene a su derecha una
α
área de 2
y el límite inferior ( Li ) es la diferencia señalada por las expresiones anteriores y
el límite superior ( Ls ) es la suma señalada por las mismas expresiones.
S N-n
X̄ ± tα /2
√
√ n N-1 siempre que n 30
S N-n
N { X̄ ± t α /2 N
√
√ n N-1
¿
siempre que n 30
Notas:
α
t α/2 se obtiene de la expresión P(t t α /2 ) = 2
N-n
Si
n
N 0.05 podemos omitir el factor de corrección √ N-1
EJEMPLO 1
Un auditor quiere estimar el saldo promedio y el saldo total de una población de
1000 cuentas por cobrar. Con tal propósito selecciona al azar una muestra de 6
cuentas, obteniendo los siguientes resultados en miles de córdobas.
EJEMPLO 2
Se va a vender un nuevo cereal para desayuno como prueba de mercados
durante un mes en las tiendas de una cadena de autoservicio. Los resultados de
una muestra de 36 tiendas indicaron ventas promedio de C$ 1200 con una
desviación estándar de C$ 180.
a) Establezca un intervalo de confianza del 99% para las ventas promedios reales
de este nuevo cereal.
b) Si la cadena tiene 200 tiendas, establezca un intervalo de confianza del 99%
para las ventas promedios reales de este producto.
Puede demostrarse que las expresiones que definen los limites inferior y superior
de un intervalo de confianza para p y son:
1) Un estimador por intervalo de confianza del ( 1 - )100 % para p esta dado
así
donde
pS ± z α /2
z α/2
√ S
n
S
pS ( 1 - pS )
pS ± z α /2
√ n √ N-n
N-1
N-n
Si
n
N 0.05 , podemos omitir el factor de corrección √ N-1
pS ( 1 - pS )
N p S ± z α /2 N
√ n √ N-n
N-1
DISTRIBUCION DE LA POBLACION
2
z α /2 σ
n = [ ] E
2
z α /2 σ
no = [ ] E
no no N
> 0 . 05, n =
Si N n0 puede ser reducida a no + ( N - 1 )
Ejemplo
Se desea estimar el peso promedio de los sacos que son llenados por un nuevo
instrumento en una industria. Se conoce que el peso de un saco que se llena con
este instrumento es una variable aleatoria con distribución normal. Si se supone
que la desviación típica del peso es de 0.5 kg. Determine el tamaño de muestra
aleatoria necesaria para determinar una probabilidad igual a 0.95 de que el
estimado y el parámetro se diferencien modularmente en menos de 0.1 kg.
Solución:
Métodos Cuantitativos
E=0.1
σ =0.5
1−∝=0.95
∝
z =1.96
2
2 2
z α /2 σ 0.5*1 .96
n = [ ]E =
n=
[
0 .1 ] = 96.4
Evidentemente un tamaño de muestra no puede ser fraccionario por lo que se
debe aproximar por exceso. El tamaño de muestra sería de 97.
Si la varianza de la población es desconocida, que es lo mas frecuente se ve en la
práctica el tratamiento será diferente, no es posible encontrar una fórmula cuando
la varianza poblacional es desconocida por lo que para ello aconsejamos utilizar el
siguiente procedimiento-
Primeramente, se toma una pequeña muestra, que se le llama muestra piloto, con
ella se estima la varianza poblacional ( ) y con este valor se evalúa en la
formula (1), sustituyendo ( ) por su estimación ( ). El valor de obtenido será
aproximadamente el valor necesario, nuevamente con ese valor de se extrae
una muestra de este tamaño de la población se le determina la varianza a esa
muestra, como una segunda estimación de ( ) y se aplica de nuevo la formula
(1), tomando la muestra con el obtenido como muestra piloto para la siguiente
iteración, se llegará a cumplir con las restricciones prefijadas. Se puede plantear
esta afirmación ya que la de tiende a estabilizarse a medida que aumenta
alrededor de la por lo que llegará el momento en que se encuentre el
tamaño de muestra conveniente, sin embargo, en la práctica es mucho más
sencillo pues, a lo sumo con tres iteraciones se obtiene el tamaño de muestra
deseado, este procedimiento para obtener el tamaño de muestra deseado se
puede realizar utilizando en Microsoft Excel en la opción análisis de datos las
opciones estadística descriptiva para ir hallando la varianza de cada una de las
muestras y la opción muestra para ir determinado las muestras pilotos. Para
obtener el tamaño de la muestra utilizando este método recomendamos la
utilización de un paquete de computo como por ejemplo el Microsoft Excel,
aplicando las opciones muestra y estadística descriptiva.
2
z α /2
n0 = p(1− p ) ( )
E donde p puede ser estimado con pS
no
> 0 . 05,
Si N n0 puede ser reducida a
no N
n =
no + ( N - 1 )
EJEMPLO
El gerente de una cadena de tiendas de departamentos desea determinar la
proporción de poseedores de tarjetas de crédito que comprarían en las tiendas si
estuvieran abiertos los domingos. Con tal propósito decide seleccionar una
muestra aleatoria de 100 tarjetahabientes, la cual informó que 60 comprarían los
domingos.
4)Un fabricante de baterías para automóvil asegura que las baterías que produce
duran en promedio 2 años, con una desviación típica de 0.5 años. Si 5 de estas
baterías tienen duración 1.5, 2.5, 2.9, 3.2, 4 años, determine un intervalo de
confianza del 95% para la varianza e indique si es válida la afirmación del
fabricante.
3. Una máquina llena cajas con cierto cereal. El supervisor desea conocer con un
error de estimación de máximo 0.1 y un nivel de confianza del 90%, una media
estimada del peso. Como la varianza era desconocida se procedió a escoger una
muestra piloto. Los resultados fueron los siguientes: 11.02, 11.14, 10.78, 11.59,
Métodos Cuantitativos
11.58, 11.19, 11.71, 11.27, 10.93, 10.94. ¿Cuántas cajas debe escoger para que
se cumplan los requisitos propuestos?(Sol. Debemos tomar la varianza estimada y
al ser n<30 el valor de t, al sustituir en la fórmula obtenemos n=34).
Ejemplos Para H1: µ > valor aceptado, la región de rechazo está dada por:
(cola derecha, z ó t)
Métodos Cuantitativos
Para H1 : µ < valor aceptado, la región de rechazo está dada por:
(cola izquierda, z ó t)
7. a) z, si α = .05 b) t, si α = .025 y n = 9
8. a) z, si α = .01 b) t, si α = .05 y n
= 13
Métodos Cuantitativos
9. a) z, si α = .02 b) t, si α = .01 y n = 5
17.4, 18.9, 39.6, 34.4, 19.6, 33.7, 37.2, 27.5, 41.7, 24.1
Debido a que ha habido quejas de consumidores que dicen que las cajas
contienen un peso neto menor que el anunciado por la etiqueta del producto, se
tomó una muestra aleatoria de 20 cajas para aclarar el asunto obteniéndose un
peso neto promedio de 13.5 onzas y una desviación estándar de 1 onza.
5. Una tienda ha iniciado una promoción especial para su horno de gas propano
y piensa que la promoción deberá culminar en un cambio de precios. Sabe desde
antes de comenzar la promoción que el precio de menudeo de los hornos sigue
una distribución normal y que el precio promedio de menudeo de los hornos era de
C$ 419.50, con una desviación estándar de C$53.60. La tienda muestrea 16 de
sus detallistas una vez iniciada su promoción y descubre que el precio promedio al
menudeo de los hornos es de C$ 389.50. En un nivel de significación de 0.02.
¿ tiene motivos para pensar que el precio promedio al menudeo ha disminuido?
6 Un proceso industrial usado por una fábrica durante algunos años da una
producción promedio de 100 unidades por hora con una desviación estándar de 8
unidades. Acaba de ponerse en el mercado una nueva máquina para producir el
mismo producto. Aunque es muy costosa comparada con la que se usa
actualmente, su adopción sería muy lucrativa , si su producción promedio fuera
mayor de 150 unidades por hora. La gerencia de la fábrica compra una de las
nuevas máquinas como un experimento y la prueba durante 35 horas encontrando
una producción promedio de 160 unidades por hora.
10 Una persona que planea abrir un restaurante cerca de una zona residencial de
cierta ciudad, informa al banco al que desea pedir el capital necesario, que por lo
menos el 50% de los residentes en ese distrito patrocinarán su restaurante
esporádicamente cuando este abierto. Suponga que Ud. Es el encargado de
préstamos del banco y desea verificar si lo que dice la persona no es cierto con un
nivel de significación del 5%. Además suponga que de una muestra aleatoria de
50 residentes de ese distrito solamente el 44% indicaron su intención de
patrocinar el restaurante propuesto.
16. Un fabricante de salsa de tomate está a punto de decidir si producir una marca
nueva de mucho condimento. El departamento de investigación de la fabrica aplicó
una encuesta telefónica a nivel nacional a 6,000 familias y averiguó que la salsa
sería comprada por 335 de ellas. Un estudio mucho más exhaustivo hecho dos
años antes reveló que el 5% de las familias comprarían la marca. En un nivel de
significación de 1% ¿ Debería la compañía concluir que hay un mayor interés en el
sabor tan condimentado?
23. Un fabricante de azúcar que la empaca en bolsas de plástico dice que cuando
el proceso está bajo control cada bolsa debe contener 10 onzas como promedio.
Periódicamente se toma una muestra de 9 bolsas para comprobar el proceso. Se
acaba de tomar una muestra aleatoria de 9 bolsas y se encontró que el peso
promedio es de 10.3 onzas con una desviación estándar de 0.45 onzas.
Suponiendo que los pesos de las bolsas de azúcar siguen una distribución normal,
¿ podrá decirse que el proceso está fuera de control a un nivel de significación del
2%?
5.1 Introducción
Si sabemos que existe una relación entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las
estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes
utilizados, etc.), puede darse el problema de que la dependiente asuma múltiples
valores para una combinación de valores de las independientes.
Y = f(X)
Como Y depende de X,
Y es la variable dependiente, y
X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable
dependiente y cuál es la variable independiente.
Y = f (X)
El primer paso para determinar si existe o no una relación entre dos variables es
observar la grafica de datos observados. Esta grafica se llama diagrama de
dispersión.
Ahora que hemos visto como determinar la ecuación para una línea recta,
pensemos como podemos calcular una ecuación para una línea dibujada en medio
de un conjunto de puntos en un diagrama de dispersión. Para esto debemos
minimizar el error entre los puntos estimados en la línea y los verdaderos puntos
observados que se utilizaron para trazarla.
Para esto debemos introducir un nuevo símbolo, para simbolizar los valores
individuales de los puntos estimados, esto es, aquellos puntos que caen en la
línea de estimación. En consecuencia escribiremos la ecuación para la línea de
estimación como
Parece razonable que mientras más lejos este un punto de la línea e estimación,
mas serio seria el error, preferiríamos tener varios errores pequeños que uno
grande. En efecto, deseamos encontrar una forma de “penalizar” errores absolutos
grandes, de tal forma que podamos evitarlos. Puede lograr esto si cuadramos los
errores individuales antes de sumarlos. Con estos se logran dos objetivos:
Y =β 0 + β1 x 1 +ε i Donde:
β 0 : Es la ordenada al origen
β1 : Es la pendiente real de la población, representa el cambio unitario en y por
cambio unitario en x
poblacional
Y =β 0 + β1 x 1 +ε i con base en la función de regresión
muestra
y i=b0 +b1 x
Supuesto1: (Normalidad)
Para cada valor de x existe un grupo de valores de y, y estos valores de y se
distribuyen normalmente
Supuesto2:
Las medias de estas distribuciones normales de valores de y se encuentran todas
en la recta de regresión
Supuesto3: (Homocedasticidad)
Las desviaciones estándar de dichas distribuciones normales son iguales
Supuesto4: (Independencia del error)
El error (diferencia residual entre el valor observado y y uno predicho y ) debe ser
independiente para cada valor de x
Métodos Cuantitativos
n n
n ∑ x i ∑ Yi
. .
∑ xi Yi -
n
.
b1 = 2
n n n
∑
n
x2i -
(∑ )
.
xi
b0 =
∑ Yi -
.
b1 ∑ xi
.
. n y n
1.2 101
0.8 92
1.0 110
1.3 120
0.7 90
0.8 82
1.0 93
0.6 75
0.9 91
1.1 105
Fuente de variación SS GL MS
Regresión SSR 1 MSR = SSR/1
Error SSE n-2 MSE = SSE/n
-2
SST n-1
SST Será llamada suma de cuadrados total y representa una medida de
variación de las observaciones Yi alrededor de Ȳ . Esta medida tendrá
asociada n – 1 grados de libertad. Un grado de libertad es perdido debido a la
n
∑ ( Yi - { Ȳ )= 0 ¿
restricción . que tienen sus desviaciones.
n 2
SST=
n
∑ Y 2i -
(∑ ) Yi
n n n
SSE= ∑ Y 2i - b o ∑ Y i - b 1 ∑ xi Y i
SSR = SST - SSE
Métodos Cuantitativos
Los estadísticos han desarrollado dos medidas para describir la correlación entre
dos variables: el coeficiente de determinación y el coeficiente de correlación.
Coeficiente de determinación
su propia media
Podríamos considerar que SST es una medida de variación total de las
observaciones Yi que refleja la incertidumbre en estimar o predecir Y cuando
ninguna variable independiente X es tomada en cuenta. Cuando un modelo de
regresión que utilice la variable independiente X es utilizado SST se dividirá en
dos componentes SSE y SST tales que el cociente
SSE
SST
representará una medida de la proporción de la variación de Y no explicada por X
que aún queda y el complemento
SSE SST−SSE SSR
r2= 1 − = = donde 0 ≤ r 2≤1
SST SST SST
2
∑ ( Y i −^ Y i )2 = 0
Y i=Y i ^
1. r = 1 SSE = 0
Para el ejemplo anterior determine el coeficiente de determinación e interprételo.
Coeficiente de correlacion.
La raíz cuadrada de r2.
Horas 50 20 30 50 40 30 30 10 40 20
Costo 6.5 4.0 4.5 6.0 5.5 5.0 5.5 3.5 6.0 4.5
s
Métodos Cuantitativos
H0 : β 1 = 0
No hay relación entre X , Y
H 1 : β1 ≠ 0
Hay relación entre X , Y
H 0 : β 1= 0
donde esta suponiendo que no hay diferencia de 1 con respecto a
H 1 : β1 ≠ 0
cero, mientras que la hipótesis alterna supone que hay diferencia
de 1 con respecto a cero.
Observe que la prueba es bilateral porque nos interesan tanto las diferencias de 1
hacia la izquierda de cero como hacia la derecha de cero.
2. ELEGIR UN NIVEL DE SIGNIFICACION.
El error I consiste en decir que hay relación entre X , Y cuando en realidad no hay.
Controlaremos el error I suponiendo que P (error I )
3. Identificar el estadistico de prueba y establecer una regla de decision.
b1
σ^ b
puede demostrarse que 1 sigue una distribución t de Student con n – 2
grados de libertad.
Por tanto el estadístico de prueba será
b1 Pendiente estimada σ^ Y
t = = donde { σ^ = ¿
σ^ b El error estándar de b1 b1 n 2
√ (∑ )
1
n
xi
.
∑ xi2 -
. n
0 1
H :β = 0 H0 : β1 = 0
evidencia para rechazar , esto es, aceptamos .
Luego no hay relación lineal entre X , Y.
Ejercicio: Para el ejemplo anterior pruebe si hay una relación lineal significativa
entre el volumen de ventas y los gastos publicitarios con un nivel de significaciñon
del 5%.
5.7 Ejercicios del tema5: Análisis de regresión lineal.
Util. Anual 20 25 30 34 40 31
X 20.5 21.0 21.0 21.5 21.5 21.5 22.0 22.0 22.5 23.0
Y 4.5 4.0 4.7 3.5 3.0 4.0 3.5 2.5 2.0 1.8
3. El gerente de personal de una empresa intuye que quizás haya relación entre
el ausentismo en días (Y) y la edad en años (X) por lo que quiere tomar la edad
de un trabajador para desarrollar un modelo de predicción de días de ausencia
durante un año laboral. Se selecionó una muestra aleatoria de 10 trabajadores con
los resultados que se presentan a continuación:
X 27 61 37 23 46 58 29 36 64 40
Y 15 6 10 18 9 7 14 11 5 8
Y^ = - 200 + 0.10X
Y^ = 22.4 + 15.8 X
∑ x i= 15 ∑ x 2i σ^ Y2
con , = 27.45 , = 41.2
Y^ = 65.5812 + 0.3547X
∑ xi ∑ x 2i ∑ Yi
n = 5 , = 15 , = 55 , = 23 ,
∑ xi Y i ∑ Y i2
= 84.6 , = 130.98
Si con la información anterior se obtuvo la siguiente relación lineal estimada.
Y^ = - 0.08 + 1.56 X
Fuente SS G.L MS
25.180 4
i) Interprete la pendiente.
ii) ¿Qué proporción de la variación total del volumen de ventas puede ser
explicada por los años de experiencia?
iii) ¿Existe relación lineal significativa entre los años de experiencia y el volumen
de ventas a un nivel de significación del 1%?
Y^ = 9.6185 + 0.8124X
Y^ = 0.1181 + 0.0036X
Fuente SS G.L MS
3.1025 11
a) Interprete la pendiente.
Métodos Cuantitativos
iden hrstrab ocupa edad aescola sexo trabfa ingreso ingfam satif retiro1 carat1 Relcom1
tf 1 2 3 4 5 6 7 8 9 0 1 2
1 50 1 35 20 1 2 78.3 85.3 2 1 4 2
2 30 7 64 14 2 2 25.7 81.9 1 1 3 1
3 40 1 33 15 1 2 40.5 85.6 2 1 3 1
4 40 3 23 14 1 1 20.2 20.2 1 1 1 2
5 50 4 33 12 2 1 25.2 25.2 1 1 1 1
6 40 3 60 14 1 4 35.7 35.7 1 1 1 1
7 40 5 37 14 2 1 15 15 2 2 1 1
8 40 6 25 13 2 3 18 49.5 2 1 5 2
9 50 2 39 18 1 1 60.8 60.8 2 1 5 1
10 30 1 35 16 1 1 38.4 38.4 2 2 1 2
11 32 2 35 12 2 1 31 33.5 1 1 1 3
12 55 6 49 13 1 2 76.6 93.5 3 2 1 1
13 40 3 34 12 2 2 33.3 55.2 2 1 1 4
14 40 4 50 14 2 1 15.8 17.4 3 2 1 3
15 40 7 49 4 1 1 27.5 27.6 2 2 3 1
16 40 5 39 16 1 2 64.2 67.2 1 1 5 1
17 40 3 61 12 2 1 32 34.6 1 1 1 1
18 40 1 59 16 1 1 26.6 35.4 2 1 5 1
19 40 4 25 16 1 1 33.1 33.1 4 1 5 1
20 50 7 20 11 1 2 10.5 14.3 1 1 1 1
21 64 3 37 13 2 1 35.7 35.7 1 1 5 3
22 49 4 24 12 2 2 24.3 27.4 3 1 4 2
23 30 6 33 10 1 2 33.3 42.8 3 1 5 1
24 55 3 30 16 1 1 33.8 33.8 1 1 5 2
25 50 5 43 13 1 4 25.2 91.8 1 1 4 1
26 40 4 56 16 2 1 36.1 36.9 1 2 1 1
27 40 6 35 15 1 2 42.7 51.8 1 1 5 1
28 40 4 35 16 1 2 14.7 46.9 2 1 5 2
29 40 2 42 16 2 3 23.7 51.2 1 1 1 1
30 48 1 34 12 2 2 31.3 67.7 1 1 3 2
Métodos Cuantitativos
Métodos Cuantitativos
Actividad 1
Actividad 2
Actividad 3
Actividad 4
La siguiente tabla de valores críticos de “z” para contraste de uno o dos extremos
en varios niveles de significación.
Nivel de
0.10 0.05 0.01 0.005 0.02
significación
Valores críticos de
-1.645 o -2.33 o -2.58 o
“z” para Test -1.28 o 1.28 -2.88 o 2.88
1.645 2.33 2.58
Unilaterales
Valores Críticos de
- 1.645 y -2.58 y -2.81 y
“z” para Test - 1.96 y 1.96 -3.08 y 3.08
1.645 2.58 2.81
Bilaterales
BIBLIOGRAFIA