Está en la página 1de 45

ESTADÍSTICA

DESCRIPTIVA
E
INFERENCIAL

MSC. Isaac de Jesús Alvir Videa


Profesor
2025
1
CONTENIDO

Unidad IV: Muestreo y cálculo Muestral


Qué es el muestreo.
Tipos de muestreo
Ventajas de muestreo
Errores de muestreo
Estimación puntual
Estimación por intervalos de confianza
• Para la media poblacional
• Para el total.
• Para la proporción

Unidad V: Prueba de hipótesis.


Qué es una hipótesis.
Qué es una prueba de hipótesis.
Hipótesis nula y alternativa
Resolución de problemas.
• De una cola.
• De dos colas

Unidad VI: Análisis de series de tiempo


Definición de series de tiempo.
Estimación de la tendencia
Predicciones de ventas y producción
Correlación y regresión lineal simple.
Construcción e interpretación de gráficos
Calcular e interpretar el coeficiente de correlación r.
Calcular e interpretar el coeficiente de determinación r2
La regresión lineal:
La ecuación de la recta de regresión 𝑌̂ = a+bx
Interpretación de los parámetros, a y b.
Trazar la línea encontrada.
Realizar pronostico.
Análisis de varianza en la regresión lineal simple

2
Unidad IV: Muestreo y cálculo Muestral

4.1 Conceptos básicos.


Población: es un conjunto homogéneo de individuos sobre los que se estudia una o
varias características que son, de alguna forma, observables.
Población: es cualquier grupo de elementos o individuos que constituyen el universo
objeto de estudio. En términos prácticos, la población se refiere a un grupo finito que
representa el “el total” de elementos o individuos a ser considerados en el estudio

Ejemplo: La cantidad de plantas de café en una hectárea.

Muestra: es un subconjunto de la población. El número de elementos de la muestra


se denomina tamaño muestral, es representativa de una población cuando cada uno
de los elementos que la forman (con características comunes) se escoge de manera
aleatoria (al azar).

Variable: Es una característica que toma distintos valores cuando se observa en


diferentes individuos;

Ejemplo: La variedad de una semilla de frijol.

Ejemplo: El rendimiento de la leche por vaca en una hacienda ganadera.

Tenemos variables cualitativas como, por ejemplo, la variedad del frijol, el color de
las frutas, el sabor de una comida, etc.
También tenemos variables cuantitativas tales como la estatura de una persona,
los costos de los boletos en las aerolíneas, el peso de las maletas de los viajeros en
un aeropuerto, etc.

Parámetro: es cualquier característica medible de una población de la función de


distribución de la variable en estudio.
Es un valor constante, generalmente desconocido, que permite describir el
comportamiento de una población (cualquier característica de la población que sea
medible).

∑𝑵
𝟏𝑿
La media aritmética 𝝁 = Desviación estándar 𝝈 = √𝝈𝟐
𝑵

𝟐 ∑𝑵
𝟏 (𝑿−𝝁)
𝟐
La varianza 𝝈 = El total 𝜏 = ∑𝑋
𝑵

3
Ejemplo: El nivel promedio de colesterol sérico de adultos > 65 años de la X región,
Ejemplo: El peso promedio de los pollos de 2 meses de edad en una granja avícola,
etc

Estadístico: Es una medida que proviene de los datos de una muestra. Los
estadísticos son constantes que representan por lo general características numéricas
de una muestra.
Ejemplo

̅̅̅ ∑𝑵 𝑿
La media aritmética 𝑿= 𝟏
𝒏

𝟐 ̅̅̅ 𝟐
∑𝑵(𝑿−𝑿 )
La varianza 𝑺 = 𝟏
𝒏−𝟏

La desviación estándar S = √𝑺𝟐

Ejemplo: promedio de tomates por planta de una muestra de 100 plantas


seleccionadas al azar de un plantillo.

Espacio muestral: es el conjunto de muestras posibles que pueden obtenerse al


seleccionar una muestra aleatoria, de tamaño n, de una cierta población.

4.2 Muestreo: Conjunto de técnicas que nos ayudan a elegir, extraer una muestra
representativa, de una población.

El “Muestreo”, es el conjunto de operaciones que se realizan para estudiar la


distribución de determinadas características en la totalidad de una población, a
partir de la observación de una parte o subconjunto de la población, denominada
muestra.

4.3 Ventajas del muestreo


1. Rapidez y bajo costo de la información requerida.
El muestreo es una técnica que utiliza recursos materiales económicos y humanos
disponibles, para obtener en el menor tiempo, con el menor costo y con cierta
exactitud aceptable información necesaria acerca de algunos parámetros.

2. Es un procedimiento práctico cuando la población es muy grande o infinita.


Decimos que una población es finita cuando sabemos cuántos elementos existen
en ella,esto es, cuando posee un tamaño que denotaremos por N.

Existen poblaciones finitas tan grandes que resulta imposible observar sus
4
elementos en un período de tiempo razonable, por ejemplo, todas las familias de una
ciudad. Otras son tan inmensas que muchos de sus elementos son inaccesibles y
su tamaño puede ser desconocido, por ejemplo, todos los pequeños agricultores de
un país.

También existen poblaciones infinitamente grandes, esto es, con un número ilimitado
de elementos, razón por la cual le llamaremos poblaciones infinitas. Podríamos
considerar que los procesos continuos de producción de algún bien generan
poblaciones infinitas porque, teóricamente, podría suponerse que estos procesos
operan indefinidamente, por ejemplo, el proceso de producción de chips de
computadores.

3. Evita la destrucción de toda la población


Esta situación se da cuando la medición de la característica de interés destruye al
mismo elemento. Los catadores de vino pueden evaluarlo con unos cuántos sorbos
sin necesidad de consumir toda la producción.

En una compañía sólo se prueba la germinación de unas cuántas semillas antes de la


temporada de siembra.

4.4 Tipos de Muestreo

A) Muestreo no probabilístico
:
B) Muestreo probabilístico (azar)
A) Muestreo no probabilístico: Se caracteriza porque no todos los elementos de la
población tienen oportunidad de ser seleccionados para integrar la muestra. Este tipo
de muestreo se basa en:
• Conocimiento de expertos.
• Juicios.
• La conveniencia.
• La experiencia.
• Es intencional.

B) Muestreo probabilístico: Se caracteriza porque todos los elementos de la


población tienen alguna probabilidad conocida (no igual a cero) de ser seleccionados
para integrar la muestra. El muestreo probabilístico se subdivide en:
1) Muestreo Aleatorio Simple.
2) Muestreo Aleatorio Sistemático.
3) Muestreo Aleatorio Estratificado.
4) Muestreo Aleatorio por Conglomerados.

1) Muestreo Aleatorio Simple (MAS)


Se trata de un procedimiento de muestreo (sin reemplazamiento), en el que se
seleccionan n unidades de las N en la población, de forma que cualquier posible
muestra del mismo tamaño tiene la misma probabilidad de ser elegidas. Es decir,

5
“cada elemento de la población tiene igual probabilidad de ser incluidos en la
muestra”
El procedimiento habitual consiste en numerar todos los elementos de la población y
se seleccionan muestras del tamaño deseado utilizando una tabla de números
aleatorios o un programa de ordenador que proporcione números aleatorios

Ejemplo: Una población está formada por los números 1, 3, 5, 7, 9


a) ¿Cuántas muestras de tamaño 2 pueden formarse?
b) Cite las muestras.

Solución: El tamaño de la población es 5 y el tamaño de la muestra es 2.


a) Se usa la función nCr = 5C2 = 10. Habrá diez muestras en total.

b) 13 35 57 79
15 37 59
17 39
19

Ejemplo: Repita el ejemplo anterior tomando muestras de tamaño 3.


a) Se usa la función nCr = 5C3 = 10. Habrá diez muestras en total.
b) 135 357 579
137 359
139 379
157
159
179

Las Etapas para determinar el Tamaño de Muestra en el Muestreo Aleatorio


Simple, que es el más usual, son:
1) Determinar el nivel de confianza con que se desea trabajar:
X = 1 σ por encima y por debajo de la media (o el 68.26 % de confianza)
X = 2 σ por encima y por debajo de la media (o el 95.44 % de confianza).
X = 3 σ por encima y por debajo de la media (o el 99.73 % de confianza).

99.73%.
95.44%

68.26%

6
2) Muestreo Aleatorio Sistemático
Se ordenan los individuos de la población y se numeran. - Se divide la población en
tantos grupos como individuos se quieren tener en la muestra. Se selecciona uno al
azar en el primer grupo y se elige el que ocupa el mismo lugar en todos los grupos.

La ventaja principal es que es más sencillo y más barato que el muestreo aleatorio
simple, además, se comporta igual si no hay patrones o periodicidades en los datos.
La aparición de patrones desconocidos puede llevar a importantes errores en la
estimación de los parámetros.

El Muestreo Sistemático Consiste en elegir los elementos o individuos, aplicando un


Intervalo de selección, de modo que después de que ocurra cada intervalo se van
incluyendo los elementos en la muestra. El intervalo de Selección se calcula mediante
la fórmula:

N
K=
n

Ventajas del Muestreo Sistemático


1) Simplicidad y Fácil administración

Desventajas del Muestreo Sistemático


1) Pueden existir sesgos si las listas no están ordenadas o son ambiguas.

Ejemplo 1: Se quiere tomar una muestra sistemática de 200 agricultores de la región


del norte del país de una lista de 3,000 en total
𝐍 𝟑,𝟎𝟎𝟎
K= 𝐤= = 15
𝐧 𝟐𝟎𝟎

El primer elemento es r. r + k , es el segundo, .r + 2k será el siguiente y así


sucesivamente.
Si de forma aleatoria en la tabla se encuentra que el valor de r es 8, entonces los
elementos de la muestra son 8, 8 + 1(15), 8+2(15).......
Lo que resulta 8, 23, 38, 53, 68, 83, 98, 113, 128, 143, 158, 173, 188, 203, 218, 233,
248, 263, 278, 293, 308, 323, 338. . . . . El proceso se continúa hasta obtener los 200
números que formarán la, muestra.

Ejemplo 2. Tome una muestra aleatoria de 6 árboles de aguacate de los 78 que están
plantados en una finca, mediante el muestreo sistemático. Use la tabla de números
aleatorios entrando por la fila 2 columna 4 con dirección descendente.
Primero; Se enumeran los 78 árboles 1, 2, 3, 4 . . . . . . . 78

7
N 78
Después de busca el intervalo k = = = 13
n 6
En seguida, se determinan el punto de arranque r que estará comprendido entre 1 y
13, es decir, 1 < r < 13 usando la tabla, se encontró el número 07.
Por último, se encuentran los otros números que formarán la muestra a partir del punto
de arranque; 7, 7+13, 7+2(13), 7+3(13), 7+4(13), 7 + 5(13), lo que resulta: 7, 20, 33, 46,
59, y 72. Estos elementos formarán la muestra.

Ejemplo 3: A partir de una lista de 70 solicitudes de crédito agropecuario, tome una


muestra sistemática de 8 solicitudes usando la tabla de números aleatorios entrando
por la fila 28 columna 6 con una dirección de izquierda a derecha.
Primero se enumeran desde el 1 hasta 70.
N 70
Después de busca el intervalo k = = = 8.75 Como resulta un número con dos
n 8
cifras decimales, se pasan a entero multiplicando por 100, dando origen a un nuevo
valor de k = 875.
En seguida, se determinan el punto de arranque r que estará comprendido entre 1 y
875, es decir, 1 < r < 875 usando la tabla, se encontró el número 400.
Ahora se encuentran los otros números que formarán la muestra a partir del punto de
arranque 400; 400+875, 400+2(875), 400+3(875), 400+4(875), 400 + 5(875), 400 +
6(875), 400+7(875). lo que resulta: 400, 1,275, 2,150, 3,025, 3,900, 4,775, 5,650,
y 6,525
Finalmente, se dividen entre 100 y se eliminan los decimales.
4, 12, 21, 30, 39, 47, 56, y 65. Estas solicitudes son las que formarán la muestra.

Tamaño de la muestra para muestreo completamente aleatorizado.


Si la población total a estudiar es de N beneficiarios directos, la definición de la
muestra se calculará usando la fórmula de poblaciones finitas y muestreo
completamente aleatorio.

Ejemplo 1:
Z = 1.96, valor en la tabla de distribución Normal para el 95 % de confianza;
N = es la población total = 54,337 habitantes del municipio El Rama;
p y q = probabilidades complementarias de 0.5,
e = error de estimación = 0.05
n = tamaño de la muestra = ?

8
Z2 * p*q* N (1.96) 2 * (0.5) * (0.5) * 54,337
n= n=
N * e2 + Z 2 * p * q 54,337 * (0.05) 2 + (1.96) 2 * (0.5) * (0.5)

n = 381.46 o n = 382

Ejemplo 2:
Se desea determinar los estilos de liderazgo predominantes en las 382 empresas más
grandes de origen agropecuario del país, con un 95 % de confianza, por tanto, el error
de estimación “e” = 5 %, a través de la aplicación de una encuesta a ingenieros
agropecuarios.

Pasos a seguir
Primero: Calcular el tamaño de muestra:
donde:
Z = 1.96, para el nivel de confianza del 95%;
N = es la población objeto de estudio = 382;
p y q = probabilidades complementarias = 0.5,
e = error de estimación = 5 %.
n = tamaño de la muestra =?

Z2 * p*q* N 1.962 * 0.5 * 0.5 * 382


n= n= = 191.53
N * e2 + Z 2 * p * q 382 * 0.052 + 1.962 * 0.5 * 0.5

n = 192. Por tanto, sería necesario encuestar 192 empresas agropecuarias.

Se debe utilizar la tabla de los números aleatorios para seleccionar las 192 empresas
del marco muestral

Ejemplo 3.

9
Observe que: Si se requiere minimizar el error se debe aumentar el tamaño de la
muestra. Al aumentar el tamaño de la muestra, se incrementan los costos.

3) El muestreo estratificado
Se divide la población en grupos homogéneos (estratos) de acuerdo con las
características a estudiar. Por ejemplo, en un estudio de las características
socioeconómicas de una ciudad los estratos pueden ser los barrios de la misma, ya
que los barrios suelen presentar características diferenciales, parcelas cultivadas en
una comunidad etc.
Se selecciona una muestra aleatoria de cada estrato tratando de que todos los
estratos de la población queden representados.

El Muestreo Estratificado Consiste en dividir a la población en subgrupos o


estratos, y seleccionar una muestra aleatoria simple dentro de cada uno.

Ventajas del Muestreo Estratificado en comparación


con el Muestreo Aleatorio Simple
1) El costo de recolección y análisis de los datos se reduce al dividir los grupos con
elementos similares, pero que difieren de grupo a grupo.

10
2) La varianza del estimador de la media poblacional se reduce, debido a que la
variabilidad dentro de los grupos o estratos es generalmente menor que la variabilidad
de la población.

3) Se obtienen estimadores separados para los parámetros de cada grupo o estrato.

Pasos para calcular el Tamaño de Muestra por Estratos:

Cuando el número de elementos que integra cada estrato es diferente, la selección de


la muestra deberá realizarse de manera que el número de elementos de cada estrato
sea proporcional al tamaño de este.
Pasos a seguir
Primero: Calcular el tamaño de muestra.
Segundo: Definir los estratos o grupos que serán considerados.
Tercero: Aplicar el método de “números índices” para cada estrato, es decir, calcular
el tamaño de la sub muestra para cada estrato.

Tamaño de Muestra por Estratos:


Pasos a seguir
Primero: Definir los estratos o grupos que serán considerados.
Segundo: Se obtiene un listado de los ingenieros de las empresas elegidas

Ejemplo 1:

Estratos Número de elementos


N1) Directores: 534
(N2) Subdirectores: 173
(N3) Gerentes: 345
(N4) Vice gerentes: 15
(N5) Jefes de Departamento: 144
Total 1,211

Calcular el valor de la sub muestra en forma proporcional. Tomando como


referencia los datos de población y muestra del ejemplo (2), N = 382 y n =192
respectivamente.

11
Las sub muestras serían:
n1 = 268, que son los directores.
n2 = 87, que son los subdirectores.
n3 = 173 Gerentes.
n4 = 8 sub gerentes (o vice gerentes)
n5 =72 Jefes de departamento.

La muestra sería
n = n1 + n 2 + n 3 + n 4 + n 5
n = 268 + 87 + 173 + 8 + 72

n = 608

Ejemplo 2: Una empresa publicitaria está interesada en estimar el número promedio


de horas por semana que los hogares de un determinado municipio dedican a
ver televisión. La empresa en encontró que cuesta más obtener una información
del área rural que del pueblo A o del pueblo B. Este incremento se debe al costo
de traslado de un hogar rural a otro por la dispersión en la ubicación de las
viviendas.

El costo por observación en cada pueblo se estima en C$9 mientras que en el área
rural el costo es de C$16. En una encuesta previa se estimó que las varianzas de las
submuestras de los estratos 1, 2 y 3 son S12 = 25, S22 = 225 y S32 = 100.

12
El tamaño de cada estrato se presenta en la tabla que se da a continuación. Calcular
para un error aproximado de 2 horas:
a) El tamaño de la muestra requerida.
b) El tamaño de las muestras.

Estrato Ni Si 2 Si Ci Ni.Si / Ci Ni.Si . Ci Ni.Si.2


C$
1 155 25 5 9 258.3333 2,325 3,875
2 62 225 15 9 310.0000 2,790 13,950
3 93 100 10 16 232.5000 3,720 9,300
N = 310 800.8333 8,835 27,125

a)

n=
 N S i. i / Ci  N .S .
i i Ci  n=
800.83338,835
E 2
  22 
N 2   +  N i .S i 2 3102   + 27,125
 4   4 

7,075,362.206
n= = 57.418 n = 58 hogares. Tamaño de la muestra.
123,225

 Ni.Si / Ci 
b) ni = n   Fórmula para calcular el tamaño de la submuestra.
  N i S i / / Ci 
 258.3333
n1 = 58 = 18.71 = 19 hogares Submuestra del primer estrato
 800.8333
(Pueblo A)

 310 
n2 = 58 = 22.45 = 22 hogares Submuestra del segundo estrato
 800.8333
(Pueblo B)

 232.5 
n3 = 58 = 16.83 = 17 hogares Sub muestra del tercer estrato
 800.8333
(Área rural).
Total 58

El costo mínimo de la investigación es: Ci = 19 (9) + 22 (9) + 17 (16) = C$ 641.


Ejemplo 3:
Suponga que la empresa del ejercicio anterior solamente dispone de C$500 para
hacer el trabajo:
a) Calcular nuevamente el tamaño de la muestra.
b) Calcular el tamaño de las submuestras.

13
 258.3333
a) n1 = n  n1 = 0.32258 n
 800.8333

 310 
n2 = n  n2 = 0.38709 n
 800.8333

 232.5 
n3 = n  n3 = 0.2903 n
 800.8333

El costo es 9n1 + 9n2 + 16 n3 = 500.

Al sustituir los datos anteriores, resulta:


9(0.32258n) + 9(0.38709 n) + 16 (0.2903 n) = 500

2.90322 n + 3.48381 n + 4.6448 n = 500


11.03183 n = 500 n = 500 /11.03183 n = 46
hogares tamaños de la muestra.

b)
n1 = 0.32258 n n1 = 0.32258 (46) = 14.8 n1 = 15 hogares
submuestra estrato 1.

n2 = 0.38709 n n2 = 0.38709 (46) = 17.806 n2 = 18


hogares submuestra estrato 2.

n3 = 0.2903 n n3 = 0.2903 (46) = 13.3538 n3 = 13


hogares submuestra estrato 3.

4) El Muestreo por Conglomerado


Consiste en seleccionar aleatoriamente un conjunto de grupos de elementos
muestrales
llamados conglomerados y llevar a cabo “un censo” completo en cada uno de estos.

Ventajas del Muestreo por Conglomerado


1) Es útil cuando no existe lista de todos los elementos de la población.
2) Disminuye los Costos de la captura de la información, cuando la población es
grande y está dispersa en una región muy extensa.

Desventajas del Muestreo por Conglomerado


En ocasiones puede aumentar el error de muestreo “e”, debido a que los elementos
de un mismo conglomerado, por lo general tienen características comunes. La fórmula
para calcular el tamaño de la muestra es:

14
2
NS c
2E 
n= 2
N M   + Sc
2

 4 

Ejemplo 1: Se quiere estimar el ingreso anual promedio de los agricultores en cierta


localidad pequeña. Como no existe una lista de los productores, la localidad fue
dividida en 100 bloques rectangulares tomando cada rectángulo como un
conglomerado.

Suponga que se seleccionó una muestra aleatoria simple de 6 bloques rectangulares


y se entrevistó a las personas mayores de cada hogar dentro de cada conglomerado,
obteniendo los siguientes resultados:

Número de Número de agricultores Ingreso total (en miles de


bloques residentes córdobas)
1 18 36
2 14 40
3 15 60
4 16 48
5 17 50
6 10 27

Determinar el número necesario de bloques rectangulares en la muestra para estimar


el ingreso anual promedio por agricultor con un error máximo permitido de C$300.
Solución:

Número de bloques mi ti (ti – mi X )2


1 18 36 (36 – 18 * 2.9I2 = 262.44
2 14 40 (40 – 14 * 2.9I2 = 0.36
3 15 60 (60 – 15 * 2.9I2 = 272.25
4 16 48 (48 – 16 * 2.9I2 = 2.56
5 17 50 (50 – 17 * 2.9I2 = 0.49
6 10 27 (27 – 10 * 2.9I2 = 4.00
Total 90 261 542.10

X=  ti = 261 = 2.9 significa la media de los ingresos.


 mi 90
 (t − m X ) = 542.10 = 542.10 =
2
i
Sc2 = 108.42 significa la varianza.
n −1 6 −1 5
15
M =
 mi = 90 = 15 significa el número promedio de agricultores.
n 6
El error máximo permitido E es de C$300 pero se tiene que convertir a miles de
córdobas para estandarizar la unidad monetaria ya que los ingresos proporcionados
en el problema están dados en miles de córdobas.
300
Por eso se divide entre 1000 y resulta E = = 0.3
1,000

Entonces:
2
NS c 100(108.42)
n= n= = 17.6387
2E  2  (0.3) 
2 2
N M   + Sc 100(15)   + 108.42
2

 4   4 
En conclusión: Se deben muestrear n = 18 bloques rectangulares.

Ejercicio (Guía # 1)

I. Escriba cinco ejemplos relacionados a su carrera de:


a)-población.
b) muestra.

II. Elabore un mapa conceptual de los tipos de muestreo.

III. Explica la importancia de la estadística para su carrera como herramienta en


los experimentos y seguimiento en el campo agropecuario, agroindustrial, medio
ambiente y turismo.

IV Explique:
a) Importancia de aplicar muestreo en proyectos de Investigación.
b) ¿Funciones de la muestra y cuáles son sus etapas?
c) ¿Qué es población?
d) ¿Qué es muestra?
e) ¿Cuál es la importancia de la Estadística en su carrera?
f) ¿Qué es un estadístico?
g) ¿Cuál es la importancia de trabajar con muestra y no con la población en estudio?
h) ¿Cuáles son los tipos de muestreo probabilísticos?
i)¿Cuál es la diferencia entre muestra y muestreo?

II Lea y Analice:
1) En la región norte del país hay una población aproximada de 10 600 agricultores, se
quiere aplicar una semilla mejorada de maíz resistente a la sequía, plagas. Los

16
ingenieros quieren saber el tamaño de la muestra para saber la factibilidad del proyecto.
El nivel de confianza será el 90%. Use muestreo completamente aleatorio.
e = 0.10 Z = 0.645 p = 0.5 q = 0.5
Calcule el tamaño de la muestra.
2) En una finca hay 14 000 árboles frutales, el ingeniero debe realizar un estudio con
una muestra representativa de árboles para medir la calidad, cantidad de frutas, el nivel
de confianza será el 95%. La cantidad de arboledas está distribuida de la siguiente
manera:
Árboles de aguacate: 1 420 Árboles de cacao: 3 000
Árboles de jocote: 430 Árboles de naranjas: 3 850
Árboles de mango:1 200 Árboles de guayaba: ¿?
Árboles de limones ácidos: 1 400
Las varianzas son respectivamente: 16, 25, 9, 36, 49, 81 64
a) Calcular el tamaño de la muestra n.
b) Encuentre la submuestra utilizando el muestreo aleatorio estratificado.
3) En una finca hay 850 árboles frutales, se quiere obtener una muestra representativa,
estratificada con el objeto de estudiar la calidad y cantidad de frutos de cada uno de
ellos, la cantidad de árboles está distribuido de la siguiente manera:
a) arboles de zapote 380
b) arboles de mandarina 200
c) árboles de papaya 140
d) arboles de nancite 80
e) árboles de jícaro 50
Las varianzas son respectivamente 25, 9, 36, 49, 64

a) ¿Cuál será el tamaño de la muestra n?


b) Encontrar el tamaño de las submuestras. Para un error de 2.

4.5 Estimación
Se refiere a un cálculo aproximado del parámetro poblacional a partir de datos
muestrales.

4.5.1 - Precisión y exactitud de un estimador


Cuando se hacen investigaciones, los datos recopilados a través de un cuestionario
escrito o una entrevista personal o telefónica, lo cual da lugar a que se cometan dos
tipos de errores.

17
4.5.2 Errores de muestreo: Estos errores ocurren debido a que sólo se hace una
observación parcial de la población. El error de muestreo es la diferencia absoluta entre
resultado de la muestra y el parámetro. Estos errores no son medibles porque los
parámetros son desconocidos y aunque son aleatorios pueden ser controlados, de
manera que, a menor error de muestreo, mayor precisión tendrá la estimación.

4.5.3 Errores ajenos al muestreo


Estos errores no ocurren debido al muestreo en sí, sino a otras causas, motivo por el
cual este tipo de error puede ocurrir aun cuando se trate de un censo. Algunas causas
pueden ser:
• Los instrumentos de medida (cuestionarios, entrevistas, etc) no son precisos,
estoes, no miden lo que se pretende.
• Los entrevistados dan respuestas incorrectas.
• El entrevistador anota las respuestas en lugares inapropiados.

Estos errores no son medibles, pero pueden ser controlados evitando las causas que
los producen.

La exactitud de una estimación tiene que ver con lo que llamaremos el error total, esto
es la suma del error de muestreo más el error ajeno al muestreo.

4.5.4. Estimador puntual


Un estimador puntual de un parámetro es aquél que proporciona un único
estimado del parámetro al analizar los datos muestrales.

Ejemplo la media de la muestra 𝑋̅ es un estimador de la media poblacional 𝜇

4.6 Estimador por intervalos de confianza.

Es aquél que define un par de variables aleatorias Li y LS que llamaremos límite


inferior yílmite superior del intervalo entre los cuales diremos que hay una probabilidad
de 1 - ∝ (que llamaremos nivel de confianza) de que el parámetro se encuentre
entre dichoslimites; y también diremos que hay una probabilidad ∝ (que llamaremos
riesgo) de que el parámetro no se encuentre entre dichos límites.

18
Estadística y probabilidades

A) Intervalo de confianza para la media y el total cuando la muestra es grande


(n > 30)

𝝈 𝝈
̅ − 𝒁∝
𝑿 < 𝝁 ̅ + 𝒁∝
< 𝑿 Intervalo para la media
𝟐 √𝒏 𝟐 √𝒏
Población infinita y n > 30.

𝝈 𝝈 𝑵−𝒏 Intervalo para la media


𝑵−𝒏
̅ − 𝒁∝
𝑿 √ < 𝝁 ̅ + 𝒁∝
< 𝑿 √ Población finita y n > 30.
𝟐 √𝒏 𝑵−𝟏 𝟐 √𝒏 𝑵−𝟏

𝝈 𝑵−𝒏 𝝈 𝑵−𝒏 Intervalo para el total


̅ − 𝒁∝
N𝑿 ̅ + 𝒁∝ N
𝑵√𝑵−𝟏 < 𝑻 < N 𝑿 √ Población finita y n > 30.
𝟐 √𝒏 𝟐 √𝒏 𝑵−𝟏

Error estándar de la media

Población infinita.

𝝈 𝑵−𝒏 Población es finita.


𝝈𝑿̅ = √
√𝒏 𝑵−𝟏

Error máximo permitido


𝝈
E = + 𝒁∝ Población infinita n > 30
𝟐 √𝒏

𝝈 𝑵−𝒏
E= + 𝒁∝ √ Población finita.
𝟐 √𝒏 𝑵−𝟏

𝝈 𝑵−𝒏
𝐄 = + 𝒁∝ 𝑵√𝑵−𝟏 Para el total
𝟐 √𝒏

𝑵−𝒏 𝒏
Nota: El factor de corrección √ p u e d e omitirse si < 0.05
𝑵−𝟏 𝑵

Msc. Isaac de Jesús Alvir Videa


Estadística y probabilidades

Ejemplo 1:
Se va a vender ju nuevo cereal para desayuno como prueba de mercados durante un
mes en las tiendas de una cadena de autoservicio. Los resultados de una muestra de
36 tiendas indicaron ventas promedio de C$1,200 con una desviación estándar de
C$180.
a) Construya un intervalo de confianza del 99% para las ventas promedio reales de ese
nuevo cereal.
b) Si la cadena tiene 200 tiendas, establezca un intervalo de confianza del 99% de las
ventas promedio reales de ese producto.
Solución
a)

𝝈 𝝈
̅ − 𝒁∝
𝑿 < 𝝁 ̅ + 𝒁∝
< 𝑿
𝟐 √𝒏 𝟐 √𝒏
𝟏𝟖𝟎 𝟏𝟖𝟎
𝟏, 𝟐𝟎𝟎 − 𝟐. 𝟓𝟖 < 𝝁 < 𝟏. 𝟐𝟎𝟎 + 𝟐. 𝟓𝟖
√𝟑𝟔 √𝟑𝟔
1,200 – 77.4 < 𝝁 < 1,200 + 77.4
C$ 1,122.60 < 𝝁 < C$ 1,277.4 Intervalo de confianza
Interpretación “Se tiene un 99% de confianza de que las ventas promedio estarán
comprendida entre 1,122.60 y 1,277.40 córdobas”
b)
𝝈 𝑵−𝒏 𝝈 𝑵−𝒏
̅ − 𝒁∝
𝑿 √ < 𝝁 ̅ + 𝒁∝
< 𝑿 √
𝟐 √𝒏 𝑵−𝟏 𝟐 √𝒏 𝑵−𝟏

𝟏𝟖𝟎 𝟐𝟎𝟎−𝟑𝟔 𝟏𝟖𝟎 𝟐𝟎𝟎−𝟑𝟔


𝟏, 𝟐𝟎𝟎 − 𝟐. 𝟓𝟖 √ < 𝝁 < 𝟏, 𝟐𝟎𝟎 + 𝟐. 𝟓𝟖 √
√𝟑𝟔 𝟐𝟎𝟎−𝟏 √𝟑𝟔 𝟐𝟎𝟎−𝟏

1,200 – 70.26 < 𝝁 < 1,200 + 70.26


C$ 1,129.74 < 𝝁 < C$1,270.26 Intervalo de confianza

Interpretación “Se tiene un 99% de confianza de que las ventas promedio de las
200 tiendas, estarán comprendida entre 1,122.60 y 1,277.40 córdobas”
Nótese que este intervalo tiene una longitud menor que el anterior, esto significa
que proporciona mejor precisión con el mismo nivel de confianza.
En este inciso b) la población es finita con N = 200. Usamos el factor de corrección
𝒏
ya que la fracción es igual a 0.18 que es mayor que 0.05
𝑵

Msc. Isaac de Jesús Alvir Videa


Estadística y probabilidades

Ejemplo 2:
Consideremos el conjunto de todas las pequeñas industrias de un determinado
artículo. Se quiere determinar la producción anual total de todas las industrias y se
sabe en base a estudios anteriores que la desviación estándar poblacional de las
producciones anuales es igual a 2 en miles de unidades.

Con tal propósito se selecciona de un listado actualizado de826 industrias una muestra
aleatoria de 50 industrias obteniendo una ´producción anual promedio de 5.52 en miles
de unidades.
a) Encuentre un intervalo de confianza del 90% para la producción anual total de las
industrias.
b) Con una confianza del 95% calcule el valor del error máximo permitido en la
estimación de la producción anual total del inciso (a).
c) Si quiero estimar la producción anual promedio de las industrias con una
confiabilidad del 80% de que el error máximo permitido sea de 300 unidades ¿cuál
debe ser el tamaño de la muestra?

Solución:

a) 𝝈 𝑵−𝒏 𝝈 𝑵−𝒏
̅ − 𝒁∝
N𝑿 ̅ + 𝒁∝ N
𝑵√𝑵−𝟏 < 𝑻 < N 𝑿 √
𝟐 √𝒏 𝟐 √𝒏 𝑵−𝟏

𝟐 𝟖𝟐𝟔−𝟓𝟎
826(5.52) ± (1.645) (826) √
√𝟓𝟎 𝟖𝟐𝟔−𝟏

4,559.52 372.73 < T

4,559.52 - 372.73 < T < 4,559.52 + 372.73

4,186.79 < T < 4,932.25 en miles de unidades

𝝈 𝑵−𝒏
b) E = 𝒁∝ 𝑵√𝑵−𝟏
𝟐 √𝒏

𝟐 𝟖𝟐𝟔−𝟓𝟎
E = 1.96 (𝟖𝟐𝟔)√
√𝟓𝟎 𝟖𝟐𝟔−𝟏

E = 444.1051

Msc. Isaac de Jesús Alvir Videa


Estadística y probabilidades

c)
El error máximo dado es de 300 unidades. Estas se convierten a miles porque las
otras variables están en miles. Entonces E = 300 / 1,000 = 0.3

El valor de Z para el 70% de confianza es de 1.28
𝟐

𝒁∝. 𝟐
𝝈 𝟏.𝟐𝟖.(𝟐) 𝟐
n0 = [
𝟐
] n0 = [ ] n0 = 72.8178
𝑬 𝟎.𝟑

Veremos si es necesario usar el factor de corrección, dividiendo n0 entre N


𝒏𝟎 𝟕𝟐.𝟖𝟏𝟕𝟖
= = 0.088 que es mayor que 0.05 Por tanto, no se puede omitir.
𝑵 𝟖𝟐𝟔
𝒏𝟎.𝑵 (𝟕𝟐.𝟖𝟏𝟕𝟖)(𝟖𝟐𝟔)
n= n= n = 66.9930
𝒏𝟎 +(𝑵−𝟏) 𝟕𝟐.𝟖𝟏𝟕𝟖+(𝟖𝟐𝟔−𝟏)

n = 67 pequeñas industrias.

B) Intervalo de confianza cuando la muestra es pequeña (n < 30)

Distribución t de student.

Cuando la desviación estándar poblacional 𝜎 sea desconocida y 𝑋̅ tenga una


distribución normal o aproximadamente normal tendremos primero que estimar

 para poder estimar 𝜎𝑋̅

El error estándar de la media muestral se denota y escribe así:


𝑺
Para poblaciones infinitas
√𝒏

σX̅ =
𝑺 𝑵−𝒏
√ Para poblaciones finitas
√𝒏 𝑵−𝟏

22
Msc. Isaac de Jesús Alvir Videa
Estadística y probabilidades

El intervalo de confianza tiene la siguiente fórmula.

𝑺 𝑺
̅ − 𝒕∝
𝑿 ̅ + 𝒕∝
< 𝝁 < 𝑿
𝟐 √𝒏 𝟐 √𝒏

Se busca el valor de 𝒕∝ en la tabla t student,.


𝟐
Grados de libertad GL = n - 1

Ejemplo 3:
Una máquina empaca azúcar en bolsas plásticas. Se quiere estimar el peso promedio de
las bolsas de azúcar sabiendo por estudios anteriores que la desviación estándar
poblacional es de 0.10 libras. Del flujo de producción se toma una muestra aleatoria
sistemática de 10 bolsas obteniendo los pesos en libras.

5.10, 4.90, 4.80, 5.15, 5.05, 4.95, 4.97, 4.85, 5.03, 5.00

a) Obtenga un intervalo de confianza del 80% para el peso promedio de las bolsas de
azúcar.
b) Identifique el error muestral promedio en la estimación del intervalo del inciso (a).
c) Con la misma muestra anterior, obtenga un intervalo de confianza para el peso
promedio de las bolsas de azúcar para un nivel de confianza del 97%. Compare la
longitud de este intervalo con el obtenido en el inciso (a)
d) Identifique el error máximo permitido con una confianza del 80% en la estimación del
inciso (a)
e) Se quiere estimar el peso promedio de las bolsas de azúcar con una confiabilidad de
90% de que el error máximo permitido sea de 0.0313 libras ¿Cuál debe ser el
tamaño de la muestra?

Solución
a)
Datos n = 10, ̅ = 4.98 libras Desviación Estándar S = 0.10 libras.
media muestral 𝑿
NC = 80%
∝ 𝟎.𝟐𝟎
∝ = 1 – 0.80 = 0.20 = = 0.10
𝟐 𝟐
Grados de libertad GL = n – 1 = 10 – 1 = 9

La tabla t student proporciona el valor 𝒕∝ = 1.383


𝟐
23
Msc. Isaac de Jesús Alvir Videa
Estadística y probabilidades

𝑺 𝑺
̅ − 𝒕∝
𝑿 < 𝝁 ̅ + 𝒕∝
< 𝑿
𝟐 √𝒏 𝟐 √𝒏

𝟎.𝟏𝟎
𝟒. 𝟗𝟖 + 𝟏. 𝟑𝟖𝟑 < 𝝁
√𝟏𝟎

4.98 − 0.0437    4.98 + 0.0437

4.9363   5.0237

b)
𝑺 𝟎.𝟏𝟎
σX̅ = σX̅ = σX̅ = 0.0316 libras.
√𝒏 √𝟏𝟎

c)
∝ 𝟎.𝟎𝟑
∝ = 1 – 0.97 = 0.03 = = 0.015
𝟐 𝟐
Grados de libertad GL = n – 1 = 10 – 1 = 9

La tabla t student proporciona el valor 𝒕∝ = 2.574


𝟐

𝟎.𝟏𝟎 𝟎.𝟏𝟎
𝟒. 𝟗𝟖 − 𝟐. 𝟓𝟕𝟒 < 𝝁 < 𝟒. 𝟗𝟖 + 𝟐. 𝟓𝟕𝟒
√𝟏𝟎 √𝟏𝟎

𝟒. 𝟗𝟖 − 𝟎. 𝟎𝟖𝟏𝟒 < 𝝁 < 4.98 + 0.0814

4.8986 < 𝝁 < 5.0614

d)
E = 0.0487 libras

e)
∝ 𝟎.𝟏𝟎
∝ = 1 – 0.90 = 0.10 = = 0.05
𝟐 𝟐
Grados de libertad GL = n – 1 = 10 – 1 = 9
24
Msc. Isaac de Jesús Alvir Videa
Estadística y probabilidades

La tabla t student proporciona el valor 𝒕∝ = 1.833


𝟐

(𝟏.𝟖𝟑𝟑)(𝟎.𝟏𝟎)
𝟐
n = [ ] n = 34.29 n = 34 bolsas de azúcar.
𝟎.𝟎𝟑𝟏𝟑

C) Intervalo de confianza para las proporciones


El estimador de P será la proporción muestral que denotaremos y definiremos
así.

𝒙 𝐍ú𝐦𝐞𝐫𝐨 𝐭𝐨𝐭𝐚𝐥 𝐝𝐞 é𝐱𝐢𝐭𝐨𝐬 𝐞𝐧 𝐥𝐚 𝐦𝐮𝐞𝐬𝐭𝐫𝐚


Ps = =
𝒏 𝐓𝐚𝐦𝐚ñ𝐨 𝐝𝐞 𝐥𝐚 𝐦𝐮𝐞𝐬𝐭𝐫𝐚

𝑃𝑠(1−𝑃𝑠) 𝑃𝑠(1−𝑃𝑠)
Ps - 𝒁∝ √
𝑛
< P < Ps + 𝐙∝ √
𝑛
Para una población infinita
𝟐 𝟐

𝑃𝑠(1−𝑃𝑠) 𝑁−𝑛 𝑃𝑠(1−𝑃𝑠) 𝑁−𝑛


Ps - 𝒁∝ √
𝑛

𝑁−1
< P < Ps + 𝐙∝ √
𝑛

𝑁−1
Si es finita.
𝟐 𝟐

𝑃𝑠(1−𝑃𝑠) 𝑁−𝑛 𝑃𝑠(1−𝑃𝑠) 𝑁−𝑛


 Ps - 𝒁∝𝑵 √
𝑛

𝑁−1
< T < NPs + 𝐙∝ 𝑵√ 𝑛

𝑁−1
Total
𝟐 𝟐

𝑁−𝑛 𝒏
Nota: El factor de corrección √ puede omitirse si < 0.05
𝑁−1 𝑵

Tamaño de la muestra

∝ 𝟐
𝒁
𝟐
n = Ps (1 – Ps) [ ] Para una población infinita.
𝑬

∝ 𝟐
𝒁 𝒏𝟎 𝑵
𝟐
n0 = Ps (1 – Ps) [ ] y n = Para una población finita.
𝑬 𝒏𝟎 +(𝑵−𝟏)
25
Msc. Isaac de Jesús Alvir Videa
Estadística y probabilidades

𝒏𝟎 𝑵
La expresión n = se llama factor de corrección y puede omitirse
𝒏𝟎 +(𝑵−𝟏)
𝒏𝟎
si la fracción < 0.05
𝑵

Ejemplo 1:

El gerente de una cadena de hoteles desea determinar la proporción de poseedores


de tarjetas de crédito que visitan periódicamente los hoteles si estuvieran abiertos los
días domingo
Con tal propósito decide seleccionar una muestra aleatoria de 100 clientes
poseedores de tarjetas de crédito lo cual informó que 60 estarían dispuestos a visitar
los días domingo.
a) Encuentre un intervalo de confianza del 99 % para la proporción real de
tarjetahabientes que visitarían los domingos.

Solución:
𝑿 𝟔𝟎
Ps = Ps = Ps = 0.60
𝒏 𝟏𝟎𝟎
∝ 𝟎.𝟎𝟏
∝ = 1 – 0.99 = 0.01 = = 0.005
𝟐 𝟐
Buscando este valor en la tabla de la distribución normal (de adentro hacia
afuera) así determinamos la fila y la columna. En tal caso el valor de 𝒁∝ = 2.58
𝟐

𝑃𝑠(1−𝑃𝑠) 𝑃𝑠(1−𝑃𝑠)
Ps - 𝒁∝ √
𝑛
< P < Ps + 𝐙∝ √
𝑛
𝟐 𝟐

0.60(1−0.60) 0.60(1−0.60)
0.60 - 𝟐. 𝟓𝟖√
100
< P < 0.60 + 𝟐. 𝟓𝟖√
100

 −  () < P < 0.60 + 𝟐. 𝟓𝟖 ()

0.60 - 0.1264 < P < 0.60 + 0.1264

0.4736 < P < 0.7264

26
Msc. Isaac de Jesús Alvir Videa
Estadística y probabilidades

b) Identifique el valor del error máximo permitido en la estimación de la proporción real


de tarjetahabientes que asistirían los domingos, resultado del inciso a).

E = 0.1264

c) Si el gerente quiere estimar la proporción real de tarjetahabientes que visitarían los


domingos con un 99% de tener una tolerancia de + 0.025 ¿qué tamaño de la muestra
se requiere?

∝ 𝟐
𝒁
𝟐 𝟐.𝟓𝟖 𝟐
n = Ps (1 – Ps) [ ] n = 0.60 (1 – 0.60) [ ]
𝑬 𝟎.𝟎𝟐𝟓
n = 2,556.0576 n = 2,557 clientes tarjetahabientes.

Nota: Observe que la muestra de tamaño 100 del inciso a) tiene el mismo nivel de
confianza (99%) pero tiene alrededor de cinco veces más error muestral que el
permitido aquí.

Ejemplo 2:

Suponga para el ejemplo anterior que la cadena de hoteles cuenta con 10,000
poseedores de tarjetas de crédito.
a) Encuentre un intervalo de confianza del 95% para el total de tarjetahabientes que
visitarían los hoteles los domingos.

𝑃𝑠(1−𝑃𝑠) 𝑁−𝑛 𝑃𝑠(1−𝑃𝑠) 𝑁−𝑛


 Ps - 𝒁∝ 𝑵√
𝑛

𝑁−1
< T < NPs + 𝐙∝ 𝑵√ 𝑛

𝑁−1
𝟐 𝟐

𝒏 𝟏𝟎𝟎 𝑁−𝑛
Probamos = 0.01 < 0.05 Se omite el factor de corrección. √
𝑵 𝟏𝟎,𝟎𝟎𝟎 𝑁−1

La fórmula a utilizar queda así:

𝑃𝑠(1−𝑃𝑠) 𝑃𝑠(1−𝑃𝑠)
 Ps - 𝒁∝ 𝑵√
𝑛
< T < NPs + 𝐙∝ 𝑵√ 𝑛
𝟐 𝟐

27
Msc. Isaac de Jesús Alvir Videa
Estadística y probabilidades

 () + 𝟏. 𝟗𝟔(𝟏𝟎, 𝟎𝟎𝟎)√0.60(1−0.60)


100
< T

6,000 + 1.96 (10,000) (0.049) < T Solamente trabajamos el lado izquierdo.


6,000 + 960.40 < T Ahora separamos la resta y la suma.
6,000 – 960.40 < T < 6,000 + 960.40
5,039.60 < T < 6,960.40

Interpretación Se tiene un 95% de confianza que la cantidad de clientes que


asistirán los domingos a los hoteles está entre 5,040 y 6,96
b) Determine el tamaño de la muestra necesario para estimar la proporción real de
tarjetahabientes que asistirían los domingos con un 95% de confianza de tener una
tolerancia de 0.025

∝ 𝟐
𝒁
𝟐 𝟏.𝟗𝟔 𝟐
n = Ps (1 – Ps) [ ] n = 0.60 (1 – 0.60) [ ]
𝑬 𝟎.𝟎𝟐𝟓
n = 1,475.1744
𝒏 𝟏,𝟒𝟕𝟓.𝟏𝟕𝟒𝟒
Probamos = 0.1475 > 0.05 Se tiene que usar el factor de
𝑵 𝟏𝟎,𝟎𝟎𝟎
corrección.
𝒏𝟎 𝑵 𝟏,𝟒𝟕𝟓.𝟏𝟕𝟒𝟒(𝟏𝟎,𝟎𝟎𝟎)
n = n = = 1,285.64
𝒏𝟎 +(𝑵−𝟏) 𝟏,𝟒𝟕𝟓.𝟏𝟕𝟒𝟒+(𝟏𝟎,𝟎𝟎𝟎−𝟏)

n = 1,286 tarjetahabientes.

Ejercicio (Gruía #2)


1) Un auditor quiere tomar una muestra de 20 documentos de un total de 280 que
tieneen su poder. Use muestreo sistemático mediante la tabla de números aleatorios
entrando en la fila 16 columna 7.

2) Una empresa comercializadora de granos básicos está estudiando la posibilidad


de comprar 1000 sacos de frijol. Con el fin de determinar el peso promedio de
materias extrañas por saco., tomó una muestra aleatoria de 40 sacos obteniendo un
promediode 2.4 libras y una desviación estándar de 0.62 libras de materias extrañas.
28
Msc. Isaac de Jesús Alvir Videa
Estadística y probabilidades

a) Obtenga un intervalo de confianza del 95% para el peso promedio de materias


extrañas por saco.

b) Construya un intervalo de confianza del 90% para el total de materias


extrañas
en los 1000 sacos.
c) Si se quiere estimar el peso promedio de las materias extrañas por saco con una
confiabilidad del 98% de que el error máximo permitido sea de E = + 0.10
libras ¿Cuál debe ser el tamaño de la muestra?

3) Los ingresos del impuesto sobre ventas en una comunidad particular se recogen
cada trimestre. Los siguientes datos representan los ingresos (en miles de
córdobas), cobrados durante el primer trimestre en una muestra de 9
establecimientos de menudeo en la comunidad.

16, 18, 11, 17, 13, 10, 22, 15, 16


Suponiendo que los ingresos trimestrales del impuesto sobre ventas se
d ist ribu yen ap roximadam ente no rma l.
a) Establezca un intervalo de confianza del 98% para el ingreso trimestral
promediodel impuesto sobre ventas para el establecimiento de menudeo.
b) ¿Cuál es el error muestral?
c) Si hay un total de 300 establecimientos de menudeo en esta comunidad
establezca un intervalo de confianza del 95% de los ingresos totales por impuestos
sobre ventas que se lograrán en este trimestre.
d) Si quiero estimar el ingreso trimestral promedio del impuesto sobre ventas de los
establecimientos con una confianza del 95% de que el error máximo permitido sea
de C$1,000 ¿Qué tamaño de muestra se requiere?

4) El gerente de una sucursal bancaria en una ciudad pequeña quiere determinar la


proporción de sus cuentahabientes a los cuales se les paga el interés por trimestre.
Se selecciona una muestra aleatoria de 100 cuentahabientes, de los cuales 30
indicaron que se les paga por trimestre.
a) Establezca un intervalo de confianza del 90% para la proporción real de
cuentahabientes a quienes se les paga por trimestre.
b) Con un 96% de confianza calcule el error máximo permitido en la estimación de la
proporción de cuentahabientes del inciso (a)

5) Una compañía de televisión por cable quiere estimar la proporción de los


suscriptores que estarían dispuestos a comprar la tarjeta con la programación. La
compañía quiere tener 95%n de confianza de que su estimación está correcta con
aproximación de +0.05 de la proporción real. La experiencia previa en otras áreas
indica que el 30% de los suscriptores comprarían la revista. ¿qué tamaño de muestra
se requiere?
29
Msc. Isaac de Jesús Alvir Videa
Estadística y probabilidades

Unidad V: Prueba de hipótesis

5.1 Hipótesis: Es un supuesto que se hace acerca del valor de un parámetro de una
población o acerca de parámetros de varias poblaciones.

5.2 Tipos de hipótesis

Hipótesis nula: La hipótesis nula será generalmente la que afirma en los problemas
ausencia de efecto alguno para determinada acción o tratamiento Se representa por
H0.

Hipótesis alternativa: Es cualquier hipótesis que es contraria a la hipótesis nula. Esto


es, que hay presencia de efecto para determinada acción o tratamiento. Se representa
por H1

En el procedimiento de prueba de hipótesis pueden presentarse cuatro situaciones las


que se indican en el cuadro siguiente.

Alternativas Estados de la Naturaleza


H0 es verdadera H0 es Falsa
Aceptarla H0 Decisión correcta Error tipo II
Rechazar H0 Error tipo I Decisión correcta

5.3 Prueba de hipótesis: Es un procedimiento que consiste en plantear hipótesis y


contrastarlas para analizar las diferentes alternativas de tal manera que nos
conduzcan a la toma de decisiones.

La prueba de hipótesis requiere de cinco pasos

Paso 1. Plantear hipótesis nula e hipótesis alternativa


H0
H1

Paso 2. Seleccionar un nivel de significación, alfa (expresado en %)


Este valor es reconocido como nivel de riesgo.

30
Estadística y probabilidades

Paso 3. Identificar el estadístico de prueba, puede ser:


x−
Z=

n Si la población es infinita y n > 30
x−
Z=
 N −n
n N −1 Si la población es finita y n > 30
x−
t=
s
n Si la población es infinita y n < 30

Puede haber otros estadísticos de prueba: Chi cuadrada, Kruskall Wallis,


Kolmogorov, Signos, Kendal, Fisher, etc.

Paso 4. Formular las reglas de decisión


En este paso se busca en la tabla el valor critico que es el punto que separa
la región de aceptación de la región de rechazo en la campana de la curva
normal. Luego se compara el posible valor de z con el valor crítico para
formulas las reglas ya sea de aceptación o de rechazo de la hipótesis nula.

Paso 5. Conclusión o toma de decisiones. Puede ser:


• Aceptar la hipótesis nula o rechazar la hipótesis nula.
• En caso de que se rechace la hipótesis nula, se tiene que
aceptar la hipótesis alternativa.

31
Estadística y probabilidades

5.4 Problemas de pruebas de hipótesis


A) Pruebas de una cola (o unilaterales)

Por la derecha Por la izquierda


Cuando H1 :   0 Cuando H1 :   0

Z - z

Área de aceptación Área de rechazo Área de rechazo Área de aceptación

B) Pruebas de dos colas (o bilaterales)

Cuando H1 :   0

− Z Z
2 2

Área de rechazo Área de rechazo


Área de aceptación

Ejemplo 1: Prueba de una cola con muestras grandes n > 30


Suponga que cierta región del País cuenta con 200 plantaciones donde se cultiva maíz
sin hacer uso de ningún abono. Por muchos años el rendimiento ha sido de 44 quintales
por manzana. El MAG está tratando de convencer a los agricultores de la aplicación
de un nuevo fertilizante. A manera de prueba los agricultores usaron el fertilizante en
36 plantaciones seleccionadas aleatoriamente obteniendo un rendimiento promedio de
47.30 quintales por manzana y una desviación estándar de 6.6 quintales por manzana.
¿Se debe aplicar el nuevo fertilizante a un nivel de significación del 5%?
32
Estadística y probabilidades

Solución

Paso 1. H0:  = 44 Hipótesis nula


H1:  > 44 Hipótesis alternativa Es prueba de una cola pues la
hipótesis alternativa apunta hacia la derecha.

Paso 2.  = 0.05

Paso 3.
x−
Z=
 N −n
n N −1 Muestra grande (n > 30) Población finita.

Paso 4 Z  = 1.645 (Valor crítico)

0 1.645
A R

Reglas de decisión
Si Z < 1.645se acepta H0
Si Z > 1.645se Rechaza H0

47.30 − 44
Z=
6.6 200 − 36 3 .3
Z=
36 200 − 1 0.9986 = 3.30

Paso 5. Puesto que Z = 3.30 > 1.645 cae en la región de rechazo. Se rechaza la
hipótesis nula H0 (que dice que el rendimiento es 44 quintales por manzana) y se acepta
la hipótesis alternativa (H1 > 44.quintales por manzana).Se concluye que el rendimiento
es mayor de 44 quintales por manzana, por tanto se recomienda el uso del nuevo
fertilizante.

33
Estadística y probabilidades
Ejemplo 2: Prueba de dos colas muestras grandes n > 30
Suponga que una empresa tiene una cantidad muy grande de cuentas por cobrar y
que los saldos de esas cuentas tienen aproximadamente una distribución normal. En
los libros de la empresa aparece registrado un saldo promedio de C$ 25, 850.

Un auditor, utiliza muestreo estadístico para seleccionar una muestra de 100 cuentas,
donde se obtuvo un saldo promedio de C$ 27,550 y una desviación estándar de
C$ 1,200 ¿Debe el auditor concluir que el saldo es distinto a C$ 25, 850 y que por lo
tanto debe hacer un asiento de ajuste al valor en libros a un nivel de significancia del
2%?

Solución
Paso 1. H0:  = 25,850 Hipótesis nula
H1:  ≠ 25,850 Hipótesis alternativa

Es una prueba de dos colas pues la hipótesis alternativa dice “distinto que”. O
sea que puede ser mayor o puede ser menor.

Paso 2.  = 0.02

Paso 3.
x−
Z =

n Muestra grande (n > 30) Población infinita.
Paso 4. Z  = 2.33 (Valor crítico)
2
Reglas de decisión

Si Z < - 2.33 se rechaza H0

Si - 2.33 < Z <2.33 se acepta H0

Si Z > 2.33 se rechaza H0

-2.33 2.33
R A R

34
Estadística y probabilidades

27,550 − 25,850
Z=
1,200
100 1,700
Z= Z = 14.1667
120

Paso 5. Puesto que Z = 14.1667 > 2.33 cae en la región de rechazo. Se rechaza la
hipótesis nula H0 (que dice que el saldo promedio es de C$ 25,850) y se acepta la
hipótesis alternativa (H1 el saldo promedio es distinto que C$ 25,850) Se concluye
que el auditor debe hacer un asiento de ajuste al valor en libros.

Ejemplo 3: Prueba de una cola muestras pequeñas n < 30


Suponga que se tiene un proceso de producción de llenado de cajas de cereal el
cual se supone que el peso neto de cereal en las cajas tiene una distribución normal
y que además proporciona un peso promedio de real en las cajas de 2 libras. Puesto
que este proceso está sujeto a inspecciones periódicas por parte de la Oficina local
de protección a los consumidores, quienes únicamente les interesa la “falta de peso
“en los productos. Se tomó una muestra aleatoria de 6 cajas obteniendo los
siguientes pesos en libras:

1.85, 2.10, 1.95, 1.83, 2.18, 1.97 libras

¿Existe suficientes evidencias para decir que el proceso no está funcionando


correctamente a un nivel de significación del 1%?

Solución.
Paso 1. H0:  = 2 libras El proceso está funcionando correctamente.
H1:  < 2 libras El proceso no está funcionando correctamente.

Paso 2.  = 0.01

Paso 3
x−
t=
s
n Muestra pequeña (n < 30) población infinita.

Paso 4
(Valor crítico)
G. L. = n – 1 = 6 – 1 = 5

35
Estadística y probabilidades

Se busca en la tabla t student (Fila 5 columna de 0.01)

t = - 3.365
Reglas de decisión

Si Z < - 3.365 se rechaza H0


Si Z > - 3.365 se acepta H0 - 3.365 0
R A

1.98 − 2
t=
0.1377
6

t = - 0.355

Paso 5.
Como el valor de t = - 0.355 > - 3.365 cae en la región de aceptación. Se
dice que no hay suficiente evidencia para rechazar la hipótesis nula
H0:  = 2. Se concluye que el proceso de producción está funcionando
correctamente.

Prueba acerca de las proporciones


El estadístico de prueba que se usa es:
Ps − Po
Z= Si la población es infinita y n > 30
Po (1 − Po )
n

Ps − Po
Z= Si la población es finita y n > 30
Po (1 − Po ) N − n
n N −1

x
Ps es la proporción de casos de la muestra. Ps =
n

36
Estadística y probabilidades

Ejemplo 4: Prueba con proporciones con muestras grandes n > 30


Una empresa tiene 1,500 cuentas por cobrar. En los libros de la empresa aparece
registrado que sólo el 2% de los documentos no satisfacen los requisitos
establecidos. Un auditor selecciona una muestra aleatoria de 300 y verifica que 12
no satisfacen los requisitos establecidos. ¿Hay evidencia suficiente para que el
auditor declare a un nivel de significación del 1% que más del 2% de las cuentas no
satisfacen los requisitos establecidos por la institución?

Solución
Paso 1. H0: P0 = 0.02 Declarar que el 2% de las cuentas no satisfacen los requisitos.
H1: P0> 0.02 Más del 2% de las cuentas no satisfacen los requisitos

Paso 2.  = 0.01

Ps − Po
Paso 3. Z = Población finita y muestra grande.
Po (1 − Po ) N − n
n N −1

Paso 4. Z  = 2.33 (Valor crítico)


Reglas de decisión 0 2.33
Si Z < 2.33 se acepta H0 A R
Si Z > 2.33 se Rechaza H0

x 12
Ps = Ps = = 0.04
n 300

0.04 − 0.02
Z= Z = 2.765
0.02(1 − 0.02) 1500 − 300
300 1500 − 1

Paso 5. Puesto que Z = 2.765 > 2.33 cae en la región de rechazo. Se rechaza la
hipótesis nula H0 (que dice que el 2% de las cuentas no satisfacen los requisitos) y se
acepta la hipótesis alternativa (H1que más del 2% de las cuentas no satisfacen los
requisitos) Se concluye que el auditor debe declara que más del 2% de las cuentas
no satisfacen los requisitos institucionales.

37
Estadística y probabilidades

Ejercicio (Guía # 3)

1) Suponga, según registros históricos de la industria de la langosta en Nicaragua,


que la captura de langosta por trampa tiene una distribución normal con un
promedio de 30.31 libras, sin embargo, debido a protección y conservación de
estas especies por las medidas gubernamentales, este promedio se ha disminuido
notablemente.
Una muestra aleatoria de 10 trampas para langostas, desde que la restricción entró
en vigor, proporciona los siguientes resultados: 17.4, 18.9, 39.6, 34.4,
19.6, 33.7, 37.2, 27.5, 41.7, 24.1 libras.
¿Ha disminuido la captura promedio de la langosta por trampa a un nivel de
significación del1?

2) El rendimiento promedio de maíz en las plantaciones hace un tiempo era de 50


quintales por manzana con una desviación estándar de 4 quintales por manzana. Se
utilizó un nuevo fertilizante a un grupo de 52 plantaciones seleccionadas al azar
obteniendo un rendimiento promedio de 55 quintales por manzana. Suponiendo que
la desviación estándar de los rendimientos con el nuevo fertilizante sigue siendo la
misma, ¿Se puede afirmar que ha habido un incremento significativo en el
rendimiento? Use un nivel de significación del 5%.

3) Un vendedor de neumático está interesado en comprar unidades cuya duración


promedio sea mayor de 15,000 millas. Una firma productora le informa que posee
neumáticos que cumplen con este requisito. El vendedor selecciona una muestra
aleatoria de 25 unidades y determina que la media X = 25, 000 millas y una varianza
S2 = 625,000 millas2.Suponga que la duración de los neumáticos sigue una
distribución normal, ¿Habrá acuerdo entre la firma productora y el vendedor a un
nivel de significación del 10?

4) El gerente de una Compañía financiera se queja de que el 7% de los pagos parciales


de pestanos hechos a consumidores no se cubren a tiempo, ¿Podríamos afirmar que
esa cifra es diferente, si 80 de 1,500 pagos de préstamos no se hacen a tiempo?
Utilice un nivel de significación del 1%.

5) Un nuevo sistema de capacitación a los empleados de una fábrica asegura que


proporciona un rendimiento promedio de 75 puntos. En una muestra aleatoria de 10
estudiantes se comprobó que las calificaciones fueron:70, 80, 75, 55, 65,85,
90, 60, 75,55. Suponga que la distribución de las calificaciones es normal.
¿Podemos decir que el nuevo sistema no alcanza el rendimiento promedio que
asegura? Use un nivel de significación del 5%

38
Estadística y probabilidades

Unidad VI: Análisis de series de tiempo

6.1 ¿Qué es un diagrama de dispersión?

Dispersión se define como el grado de distanciamiento de un conjunto de


valores respecto a su valor medio.

Gráfico de dispersión o gráfico de correlación consiste en la representación gráfica


de dos variables para un conjunto de datos. En otras palabras, analizamos la relación
entre dos variables, conociendo qué tanto se afectan entre sí o qué tan independientes
son una de la otra.

En este sentido, ambas variables se representan como un punto en el plano cartesiano


y de acuerdo a la relación que exista entre ellas, definimos su tipo de correlación.

Ejemplos de diagrama de dispersión

39
Estadística y probabilidades

6.2 Coeficiente de correlación


Mide el grado de relación que hay entre dos variables. El coeficiente está
comprendido entre -1 y 1.
Si r está bien cerca de 1, diremos que la relación es positiva muy fuerte.
Si r es igual a 1, la relación es positiva perfecta.
Si r es muy cercano a -1, se dice que la relación es negativa muy fuerte.
Si r toma el valor de -1, la relación es negativa perfecta.
Si r = 0, diremos que no hay relación entre las dos variables.

40
Estadística y probabilidades

El coeficiente se puede calcular mediante la expresión.

(∑ 𝑿)(∑ 𝒀)
∑ 𝑿𝒀−
𝒏
r=
(∑ 𝑿)𝟐 (∑ 𝒀)𝟐
√[∑ 𝑿𝟐 − ][∑ 𝒀𝟐 − 𝒏 ]
𝒏

Ejemplo:
La gerente de una compañía desea estimar la relación que hay entre los costos
usados en el proceso de producción (Y) y las horas de operación (X). Con esta
información espera ser capaz de preparar un presupuesto más preciso y tener
un mejor control sobre los costos.

Datos sobre los costos en centenas de dólares para varias horas de operación
del proceso se presentan abajo.

N X Y
1 50 6.5
2 20 4
3 30 4.5
4 50 6
5 40 5.5
6 30 5
7 30 5.5
8 10 3.5
9 40 6
10 20 4.5

a) Construir el diagrama de dispersión.

41
Estadística y probabilidades

Relación entre los costos y las


horas de operación
Costos (cientos de $) 7
6
5
4
3
2
y = 0.0692x + 2.8846
1
R² = 0.8901
0
0 10 20 30 40 50 60
Horas de operación

b) Calcular e interpretar el coeficiente de correlación r.

N X Y Xy x cuad Y cuad.
1 50 6.5 325 2500 42.25
2 20 4 80 400 16
3 30 4.5 135 900 20.25
4 50 6 300 2500 36
5 40 5.5 220 1600 30.25
6 30 5 150 900 25
7 30 5.5 165 900 30.25
8 10 3.5 35 100 12.25
9 40 6 240 1600 36
10 20 4.5 90 400 20.25
320 51 1,740 11,800 268.5

(∑ 𝑿)(∑ 𝒀)
∑ 𝑿𝒀−
𝒏
r=
(∑ 𝑿)𝟐 (∑ 𝒀)𝟐
√[∑ 𝑿𝟐 − ][∑ 𝒀𝟐 − 𝒏 ]
𝒏

42
Estadística y probabilidades

(𝟑𝟐𝟎)(𝟓𝟏)
𝟏,𝟕𝟒𝟎− 𝟏𝟎𝟖
r=
𝟏𝟎
r= r = 0.9434
(𝟑𝟐𝟎)𝟐 (𝟓𝟏)𝟐
√[𝟏,𝟓𝟔𝟎][𝟖.𝟒]
√[𝟏𝟏,𝟖𝟎𝟎− ][𝟐𝟔𝟖.𝟓− 𝟏𝟎 ]
𝟏𝟎

6.3 Interpretación del coeficiente r


Esto quiere decir que hay una relación positiva muy fuerte entre las horas de
operación y los costos.

6.4 Coeficiente de determinación


El coeficiente de determinación r2 está comprendido entre 0 y 1.
r2= (0.9434)2 r2 = 0.89

6.5 Interpretación del coeficiente de determinación r2


Esto significa que el 89% de la variación de los costos se explican por las horas
de operación.

6.6 Ecuación de la recta de regresión


La recta de regresión está dada por 𝒀 ⏞ = a + bX donde a puede representar los
costos fijos y b (llamada pendiente de la recta) puede significar los costos variables.

(∑ 𝑿)(∑ 𝒀) (𝟑𝟐𝟎)(𝟓𝟏)
∑ 𝑿𝒀− 𝟏,𝟕𝟒𝟎− 𝟏𝟎𝟖
b=
𝒏 𝟏𝟎
b= b= b = 0.0692
(∑ 𝑿)𝟐 (𝟑𝟐𝟎)𝟐 𝟏,𝟓𝟔𝟎
∑ 𝑿𝟐 − 𝟏𝟏,𝟖𝟎𝟎− 𝟏𝟎
𝒏

∑ 𝒀−𝒃 ∑ 𝑿 𝟓𝟏−(𝟎.𝟎𝟔𝟗𝟐)(𝟑𝟐𝟎)
a= a= a = 2.8856
𝒏 𝟏𝟎

Entonces ecuación de la recta de regresión es ⏞


𝒀 = a + bX, o sea:

𝒀 = 2.8856 + 0.0692X

43
Estadística y probabilidades

6.7 Interpretación de los parámetros a y b


La interpretación de los parámetros a y b es la siguiente:
a = 2.8856 significa el costo que se produce, aunque no haya ninguna hora
de operación, es decir cuando x = 0 horas. Es también el intercepto con el
eje Y.
b = 0.0692 significa que, por cada hora adicional de operación, el costo se
incrementa en 0.0692 centenas de dólares.

6.8 Pronostico
Se trata de predecir el valor de la variable Y a partir que se conoce el valor de la
variable X.
Suponga que se desea saber cuál es el costo cuando se trabajan 60 horas.
Tomamos la ecuación de regresión y sustituimos el valor de x = 60


𝒀 = 2.8856 + 0.0692X
⏞ = 2.8856 + 0.0692(60)
𝒀 ⏞ = 7.0376
𝒀
Se espera que los costos sean aproximadamente 7.0376 cientos de dólares
cuando se trabajen 60 horas.

Siguiendo este mismo procedimiento del pronóstico, se toman dos valores de x


cualesquiera y se determina el valor de la variable Y. Esto es con el fin de trazar
la recta. Esta recta se traza en el mismo diagrama de dispersión.

Ejercicio (Guía # 4)

1) Se realiza una investigación sobre el efecto de los filtros purificadores de gases


CO2 fabricados por 7 compañías. En los datos que se dan a continuación, X
representa la cantidad de días después de que se instaló el filtro y Y representa
la cantidad de dióxido de carbono CO2.

44
Estadística y probabilidades

N X Y
1 5 5.2
2 10 4.8
3 15 4.6
4 20 4.5
5 25 4.3
6 30 4.0
7 35 3.8

a) Construya el diagrama de dispersión.


b) Calcular e interpretar el coeficiente de correlación r.
c) Calcular e interpretar el coeficiente de determinación r2.
d) Determinar la ecuación de regresión.
e) Trazar sobre el diagrama de dispersión, la recta de regresión.
f) Interpretar los parámetros a y b.
g) Realizar el pronóstico de Y para cuando han pasado x = 10 días.

2) El Banco Central quiere estimar la relación entre la cantidad de dinero circulante


(X) y el ingreso nacional (Y) Suponga que dispone de los siguientes datos
históricos en millones de dólares.

Año Cantidad Ingreso


circulante nacional
1 3.3 7.2
2 4.0 7.3
3 4.2 8.4
4 4.6 9.0
5 4.8 9.7
6 5.0 10.0

a) Construya el diagrama de dispersión.


b) Calcular e interpretar el coeficiente de correlación r.
c) Calcular e interpretar el coeficiente de determinación r2.
d) Determinar la ecuación de regresión.
e) Trazar sobre el diagrama de dispersión, la recta de regresión.
f) Interpretar los parámetros a y b.
g) Realizar el pronóstico de Y para cuando hay un circulante de x = 7.

45

También podría gustarte