Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Para obtener la información buscada, se obtuvo los datos de la variable gasto diario en pasajes, que
fueron 28368, a partir de estos se construyó el histograma o polígono de frecuencias, el cual nos
permitió conocer la forma de la distribución de los datos del gasto diario en pasajes, asimismo, el gasto
medio diario en pasaje y la variabilidad de los datos del gasto diario en pasaje.
Supongamos que la siguiente gráfica muestra la forma de la distribución de los datos del gasto diario
en pasajes.
su distribucion es una normal
Homogeneo = muestreo aleatorio
90
60
Frequency
50
40
30
20
si es casi simetrica se aproxima a una distribucion normal
10
0 5 10 15
docima de hipotesis : se puede rechaza o aceptar
C1
Y que el gasto diario medio es X = 8 soles y la variabilidad del gasto diario, X = 1.5 soles
Con la forma de la distribución de los datos y los valores de X y X se tiene toda la información
necesaria correspondiente a la variable X, gasto diario
Generalmente no se cuenta con el total de datos poblacionales de una cierta variable de interés, ya
sea porque la población de unidades de observación es muy grande o por el costo o por el tiempo o
porque la observación produce la destrucción del elemento a observarse, por lo que no es posible
conocer la forma de la distribución de los datos, ni el valor de X y X , para tener información
aproximada respecto a la forma de la distribución de todos los datos poblacionales y el valor que puede
tomar tanto X y X , necesitamos contar con la información de una muestra.
La información que se obtenga a partir de la muestra está en situación de incertidumbre, por lo que,
tendrá que usarse los métodos inferenciales para que dicha información sea generalizada para toda la
población.
➢ Respecto a la forma de la distribución de todos los datos poblacionales, tendrá que hacerse
una suposición o hipótesis, y para aceptar o rechazar la hipótesis, se usará la “Dócima de
hipótesis”
➢ Respecto al valor de los parámetros: Media poblacional X y varianza poblacional 𝜎𝑋2 , se hará:
- La Estimación de parámetros
ESTIMACIÓN DE UN PARAMETRO
Para estimar un parámetro se debe contar con un ESTIMADOR, previo a definir este concepto, se
definirá los conceptos básicos necesarios.
CONCEPTOS BÁSICOS
MUESTRA ALEATORIA
Antes de dar la definición de muestra aleatoria, consideraremos lo siguiente:
t est
est e e t i si p e est e t i
est e e t i p e est p e s
S SS S S
e e
e
Bajo el supuesto que ya se determinó el tamaño de muestra y que se utilizara el muestreo aleatorio
simple.
Se “ ” e t ñ e est
Forma 1.
2. Se elaboran fichas del mismo tamaño y del mismo material y en estas se registran los números del
1 al N, y se depositan en una urna.
a. Con reposición.
Se selecciona una ficha, se devuelve esta ficha a la urna de donde se está seleccionando y así
sucesivamente hasta obtener las n fichas.
Cada ficha representa a un individuo, esta forma de selección, hace que cada individuo tenga la
misma probabilidad de selección, es decir 1/N. A la muestra de individuos así obtenida se le
llama, Muestra Aleatoria.
. .
. .
Entonces al conjunto de variables (X1, X2, … , Xn) se le llama muestra aleatoria de la variable X.
b. Sin reposición.
Cada ficha se selecciona una después de otra, hasta obtener n fichas, pero con esta forma de
selección cada individuo no tiene la misma probabilidad de ser seleccionado, por lo tanto la
muestra de n individuos así seleccionada, no constituye una muestra aleatoria, pero, si N es
muy grande en relación a n, si, n/N <= 0.05(fracción de muestreo), entonces la muestra de n
individuos obtenida sin reposición se considera Muestra Aleatoria.
Forma 2.
Ejemplo.
De los 42 estudiantes matriculados en el curso de Estadística II, seleccione una muestra de tamaño 8.
Esta muestra de individuos ¿es una muestra aleatoria?
Solución.
Ejemplos de Casos reales donde están presente algunos conceptos básicos de ESTADÍSTICA
DESCRIPTIVA E INFERENCIAL
Caso 1
Una directiva obliga a la policía a resguardar las calles con los serenazgos, pero las cifras del INEI
revelan que no se cumple.
Aunque existen 1.397 comisarías en el país, solo 594 delegan policías para el patrullaje integrado en
las calles junto con los serenos de los municipios donde aquellas se ubican, ha revelado el I Censo
Nacional de Comisarías 2012 del Instituto Nacional de Estadística e Informática (INEI). Es decir, solo el
43% de las dependencias policiales cumple con la resolución que emitió la Policía Nacional en el 2009.
Veremos en este caso la presencia del parámetro PROPORCIÓN POBLACIONAL, a través de las fases
siguientes:
Xi fi
1 594
0 803
CUADRO 1
CLASIFICACIÓN DE LAS COMISARIAS EN PERU DE ACUERDO AL CUMPLIMIENTO
DE LA RESOLUCION EMITIDA POR LA PNP EN 2009
En términos de medidas resumen, solo el 43% de las comisarias cumple con la resolución emitida por
la PNP, esta medida resumen es un parámetro, su nombre es PROPORCION POBLACIONAL y se denota
por P = 0.43
Caso 2
a. Conceptos básicos
Individuo: ciudadano británico
Muestra: 2000 ciudadanos británicos
Variable x: pre juicio racial
Tipo de variable: categórica
El 30 % de los ciudadanos británicos de esta muestra del año 2012 tiene prejuicio racial. Esta
información está en situación de incertidumbre, pues se ha obtenido a partir de una muestra.
Esta medida resumen es un estadígrafo, su nombre es PROPORCIÓN MUESTRAL y se denota por 𝑝̅
Para generalizar esta información para toda la población se debió utilizar los métodos de la estadística
inferencial
Nota.
Esta proporción muestral de valor 30 %, lo está generalizando para toda la población, eso es posible
hacer, si:
Caso 3
La edad media de los enfermos de cáncer, diagnosticados el año 2012 en el Hospital Neoplásicas fue
de 70 años.
a. Conceptos básicos
UO: Paciente del hospital Neoplásicas año 2012
Población: Todos los pacientes del hospital neoplásicas del año 2012
Variable, X: edad
Tipo de variable: cuantitativa discreta
Medida resumen
𝜇𝑋 = 70 𝑎ñ𝑜𝑠 , edad media de los enfermos de cáncer
d. Información
De la mayoría de los pacientes del hospital neoplásicas del año 2012, su edad está en torno a los 70
años.
Esta medida resumen se ha obtenido a partir de todos pacientes entonces es un parámetro y su
nombre es media poblacional y se denota con 𝝁𝑿
Muestra
Estadígrafo
a. Conceptos básicos
UO: Mujer peruana en edad fértil
Muestra: 27843 mujeres peruanas en edad fértil.
Variable 1, X: talla de las mujeres en edad fertil (cm)
Tipo de variable: Cuantitativa continua
Variable 2, Y: peso de las mujeres en edad fértil (kilos)
Tipo de variable: Ambas cuantitativa continua
Conjunto de datos: Muestrales.
b. Procedimientos estadísticos usados
Medidas resumen
➢ Estatura promedio (media) = 151 cm
➢ Peso promedio (media) = 57 Kg
c.Información.
La mayoría de las mujeres en edad fértil de la muestra seleccionada tiene una estatura media de 151
cm. Esta medida resumen se ha obtenido a partir de una muestra de las mujeres en edad fértil del
Perú, del año 2000, entonces es un estadígrafo y su nombre es media muestral y se denota con 𝑥̅
La mayoría de las mujeres en edad fértil de la muestra seleccionada tiene un peso medio de57 kg. Esta
medida resumen se ha obtenido a partir de una muestra de las mujeres en edad fértil del Perú, del año
2000, entonces es un estadígrafo y su nombre es media muestral y se denota con 𝑦̅
Observación
De los dos párrafos siguientes al título “Nutrición de las Mujeres”, las siguientes expresiones: “El
promedio de estatura de la mujer peruana es de 151 cm” y “Por otro lado, el peso promedio de las
mujeres en el país es de 57 kilos” cabe hacer notar, que la estatura promedio y el peso promedio NO
CORRESPONDE A LA MUJER PERUANA sino a la MUJER PERUANA EN EDAD FÉRTIL, por otro lado, el
ENIE está generalizando el valor 151 cm y 57 kl para todas las mujeres peruanas en edad fértil, sin
embargo debe tenerse en cuenta lo siguiente:
ENDES, es una encuesta por muestreo que lleva a cabo el INEI, éste usa uno de los métodos del
MUESTREO PROBABILISTICO, eso da la garantía de que puedan generalizar una estimación puntual
para toda la población, sin embargo, lo correcto es que la generalización sea a través de un intervalo
de confianza
Lo que ha hecho el INEI es ESTIMAR la estatura media de todas las mujeres peruanas en edad fértil,
y el peso medio de todas las mujeres peruanas en edad fértil.
En los casos 2 y 4, vemos que se obtiene información a partir de una muestra, hacen uso de la
estimación puntual y la generalizan para toda la población, debieron haber usado estimación por
intervalos, ya que a ésta le acompaña un valor de probabilidad, que indica el nivel de confianza en la
estimación.
Definición: es una variable aleatoria que está en función de n variables aleatorias, cuya función de
cuantía o función de densidad de probabilidad está en términos del parámetro a estimar.
Población finita: es aquella cuya cantidad de elementos es posible de determinar. Ejemplo: conjunto
de universidades públicas del Perú
Población infinita: es aquella cuya cantidad de elementos es imposible de determinar, por lo que no
se conoce el tamaño ni se puede elaborar el marco muestral. Ejemplo: conjunto de estrellas
Ejemplo
Consideremos una población constituida por las secretarias, a, b, c y d a quienes se les pidió que digiten
una carta y se observó el número de palabras mal digitadas y los resultados fueron 2, 3, 3, 4
respectivamente.
Conceptos básicos:
Ind: La secretaria
Variable (X): Número de palabras mal digitadas. (A esta se le considera la variable poblacional)
xi h(xi)
2 0.25
3 0.5
4 0.25
El número medio de palabras mal digitadas y la varianza de palabras mal digitadas, es: X = 12 4 = 3
palabras mal digitadas, X2 = 38 4 − 9 = 0.5 palabras mal digitadas 2
Ya se tiene información poblacional respecto a la forma de la distribución de los datos, pues muestra
que el número de palabras mal digitadas está en torno al valor 3, también nos dice que el número
medio de palabras mal digitadas es 3, con una dispersión de 1.71 palabras mal digitadas.
Exp. Aleatorio.
Ω= X = { 1, 2, 3 }.
xi p(xi)
2 0.25
3 0.5
4 0.25
Asimismo, su media y varianza son:
A partir de esto, podemos hablar de la variable aleatoria poblacional, es decir, Número de palabras
mal digitadas (X), con su correspondiente función de cuantía cuya expresión matemática en este caso
no se conoce, pero se tiene la tabla que muestra la distribución de probabilidades y ésta es igual a la
distribución de frecuencias relativas de los datos poblacionales, la esperanza y la varianza son iguales
a la media y varianza poblacional obtenidas a partir de los datos poblacionales. En situaciones reales
la información poblacional no se conoce, es decir, 𝜇𝑋 , 𝜎𝑋2 ni la forma de la distribución de los datos
poblacionales, por lo que se tendrá que estimar esos parámetros y hacer una suposición respecto a la
forma de la distribución de los datos
Veamos que ocurre, en cuanto al valor de la media muestral, cuando se selecciona una muestra de
tamaño 2.
A partir de esta población de secretarias seleccionemos todas las posibles muestras de tamaño 2 de
secretarias. Todas esas posibles muestras se pueden obtener de las siguientes formas:
a. Con reposición.
El procedimiento a seguir es, en fichas iguales se registra el nombre de cada una de las secretarias, se
depositan las fichas en una caja, se mezclan las fichas y se selecciona una ficha, se repone la ficha a la
caja, se mezclan las fichas y se selecciona otra ficha.
Exp. Aleat.
Acción: seleccionar dos fichas con reposición. (se genera las posibles muestras de tamaño 2)
Sea la variable:
𝑋̅(𝑎, 𝑎) = 𝑋̅(2,2) = 2
• .
• .
• .
Datos Media
Número de Elementos o individuos
muestrales (X) Muestral
posibles integrantes de la muestra
Muestras (espacio muestral Ω) X1 X2 𝑋̅
1 a a 2 2 2
2 a b 2 3 2,5
3 a c 2 3 2,5
4 a d 2 4 3
5 b a 3 2 2,5
6 b b 3 3 3
7 b c 3 3 3
8 b d 3 4 3,5
9 c a 3 2 2,5
10 c b 3 3 3
11 c c 3 3 3
12 c d 3 4 3,5
13 d a 4 2 3
14 d b 4 3 3,5
15 d c 4 3 3,5
16 d d 4 4 4
Probabilidad
0.3
3.5 "4/16 0.25
0.2
4 "1/16 0.0625
0.1
0
2 2.5 3 3.5 4
Media muestral
𝐸( 𝑋̅ ) = 3
𝑉(𝑋̅) = 0.25
Esta tabla muestra el comportamiento probabilístico del número medio de palabras mal digitadas, es decir,
está indicando que es poco probable que el número medio de palabras mal digitadas sea 2 o 4, es
más probable que el número medio de palabras mal digitadas este en torno a 3 o tome el valor 3.
Previo a estos cálculos, habíamos obtenido, que el número medio de palabras mal digitadas a partir
de los datos poblacionales era 3, ahora la distribución de probabilidades del número medio de
palabras mal digitadas 𝑋̅ , indica qué, cuando se seleccioné una sola muestra es más probable que el
valor medio de esa muestra de datos este cerca de 3, esa probabilidad nos da una garantía de que el
valor de la media muestral, estará muy cerca del valor del parámetro.
X i
de X. Sea la variable X = i =1
cuyas propiedades son:
n
a. ( )
E X = X , (la esperanza de la media muestral es igual a la media poblacional).
X2
b. V X = ( )n
, (la varianza de la media muestral es igual a la varianza poblacional dividida
X i
X2 N − n
Sea la variable X = i =1
, cuya E ( X ) = X y V(X )= ,
n n N −1
N −n
donde es llamado factor de corrección por finitud, y puede o no ser considerado para
N −1
hallar V( X ), dependiendo de la relación entre el tamaño de la muestra, n, respecto al tamaño de la
población, N, para esto hallamos lo que se llama fracción de muestreo que está definido como n / N.
- Si n/N <= 0.05 el factor de corrección por finitud se acerca a 1 y la varianza se aproxima a
X2
V( X ) =
n
- Sí (n / N)> 0.05 se considera el factor de corrección por finitud.
𝜎𝑋
𝑥̅0 = 𝜇 + 𝑘
√𝑛
𝜎𝑋
E = 𝑥̅0 − 𝜇𝑋 = 𝑘
√𝑛
𝜎𝑋
Donde E = k ( ) (a)
√𝑛
𝑋̅ −𝜇
𝑃 (− k < 𝜎 <k )= 𝛾 𝛾 = 0.95
( 𝑋)
√𝑛
-k k
𝜎𝑋 𝑁−𝑛
Para el caso de poblaciones Finitas, E = k √( ) (𝑁−1 )
√ 𝑛
2
𝑁𝑘 2 𝜎𝑋
Despejando n, se tiene: n = (𝑁−1)𝐸2 2
+𝑘 2 𝜎𝑋
Ejemplo
El gerente de control de calidad de una fábrica de focos necesita estimar la vida media de un gran
embarque para lo cual requiere utilizar una muestra de focos. Determine el tamaño de muestra,
sabiendo que la desviación estándar del tiempo de vida de los focos es de 100 horas, el error de
estimación es de 20 horas y el nivel de confianza es 95 %.
Solución
No se conoce 𝜇𝑋 , por lo que se desea estimar, para lo cual se determinará el tamaño de muestra.
Se sabe que: 𝜎𝑋 = 100, E = 20 𝛾 = 0.95 por lo que P(𝑍̅ < k) = 0.975 luego k = 1.96
2
𝑘 2 𝜎𝑋 10000∗1.962
n= = = 96.04 focos
𝐸2 400
Ejemplo
Considere el ejemplo anterior, pero el embarque contiene 2000 focos
2
𝑁𝑘 2 𝜎𝑋 2000∗10000∗1096∗1.96
n = (𝑁−1)𝐸2 2
+𝑘 2 𝜎𝑋
= 1999∗400+1.96∗1.96∗10000 = 91.68 focos
𝑃(1−𝑃)
El tamaño de nuestra se obtiene a partir de la fórmula: E = 𝑘 √ 𝑛
𝑘 2 𝑃(1−𝑃)
n= 𝐸2