Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Investigación de la unidad I y II
2.2 Características
INSESGADO
Un estimador puntual es insesgado si la media de la distribución muestral del estadístico
(esperanza matemática del estadístico)
Es igual al parámetro por estimar.
Diremos que θ es un estimador insesgado de θ si:
SUFICIENTE
Se dice que un estimador es suficiente cuando resume toda la información relevante
contenida en la muestra, de forma que ningún otro estimador pueda proporcionar
información adicional sobre el
parámetro desconocido de la población
Diremos θ es un estimador sufieciente
del parámetro θ si dicho estimador
basta por si solo para estimar θ. Si el
conocimiento pormenorizado de los
elementos la nuestras no añade
ninguna información sobre θ.
2.3 Distribuciones de muestreo.
Con la estimación puntual se estima el valor del parámetro poblacional desconocido, a partir
de una muestra. Para cada muestra se tendrá un valor que estima el parámetro. Esta
estimación no es muy útil si desconocemos el grado de aproximación de la estimación al
parámetro.
Por tanto, una definición más matemática de un estimador y las propiedades que debe de
cumplir un estimador para ser bueno.
Las propiedades o criterios para seleccionar un buen estimador son los siguientes:
El demostrar que un cierto estimador cumple estas propiedades puede ser complicado en
determinadas ocasiones. Existen varios métodos que nos van a permitir obtener los
estimadores puntuales. Los más importantes son:
y en consecuencia donde
Por lo que
De donde el intervalo de confianza de dos lados para la media con un nivel de confianza de
, cuando la muestra es grande es:
Y los límites son:
Cuando la muestra es pequeña (n < 30) y la población tiene una distribución normal con
variancia conocida, entonces puede emplearse.
Y por tanto, si las distribuciones de la variables son normales, cualesquiera que sean los
También se sabe que para muestras independientes se puede asegurar que la distribución
Si las varianzas poblacionales se pueden suponer iguales se estima la varianza común por
Donde
Donde
Existen algunos casos especiales para los intervalos de confianza de diferencia de medias.
El primero de ellos es cuando se tienen datos apareados, o en pares, es decir, las muestras
aleatorias no son independientes y tienen el mismo tamaño. El segundo de ellos, que queda
un poco más allá del objetivo del presente curso, se tiene cuando las muestras son
pequeñas, independientes, con distribuciones aproximadamente normales con varianzas
desconocidas y diferentes.
Datos en pares
Cuando se observan datos en pares y se espera que exista una fuerte correlación entre
cada pareja de datos, se debe generar una nueva variable aleatoria para construir el
intervalo de confianza.
Cuando el problema consiste en encontrar una estimación por intervalos para diferencia de
medias , las muestras son pequeñas, las poblaciones son aproximadamente
normales y las varianzas desconocidas no pueden considerarse iguales, entonces no existe
un estadístico exacto para el problema; sin embargo, algunos autores han encontrado muy
buenas aproximaciones utilizando el estadístico:
el cual tiene una distribución aproximadamente t, con v grados de libertad, los cuales se
aproximan mediante:
O bien mediante
Puesto que v difícilmente es entero se aproxima al entero más cercano.
El intervalo de confianza de dos lados queda entonces:
el estadístico empleado es
Donde
Donde
Resolución
Finalmente:
- - - - - - - - -- - - - - - - -- - - -- - - -- - - - -- - - - - - -
probabilidad .
en tablas y dado que es en valor absoluto será la probabilidad comprendida entre -1,83 y
1,83 de la tabla de la t de student con 9 gl. ; ( ir a script de la t de student ) siendo dicho
valor 0,9
- - -- - - - - - -
Establecida una muestra con m.a.s de tamaño 81 la media muestral se distribuirá según:
Por tanto la probabilidad de que dicha muestre supere los 31 cm. será
2.13 Conclusión (Reflexión)
Otra manera de hacer inferencia es haciendo una afirmación acerca del valor que el
parámetro de la población bajo estudio puede tomar. Esta afirmación puede estar basada
en alguna creencia o experiencia pasada que será contrastada con la evidencia que
nosotros obtengamos a través de la información contenida en la muestra. Esto es a lo que
llamamos Prueba de Hipótesis.
Las secciones anteriores han mostrado cómo puede estimarse un parámetro a partir de los
datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador
puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos
problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión
entre aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el
nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística,
puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en
el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis.
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o
más poblaciones.
Los puntos básicos del Contraste de Hipótesis estadístico son: a)
Definir características hipotéticas de las poblaciones.
Donde
2.17 Errores tipo I y error tipo II
Tipos de error
El contraste bilateral sitúa la región de rechazo en los dos extremos (colas) de la distribución
muestral. En cambio, el contraste unilateral sitúa la región de rechazo en uno de los dos extremos
(colas) de la distribución muestral. El contraste bilateral (o de dos colas) se utiliza cuando la
Hipótesis Alternativa asigna al parámetro cualquier valor diferente al establecido en la Hipótesis
Nula.
El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera.
También es conocido como ó nivel de significancia.
Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería del 5%.
Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia
sería del 10%.
También puede utilizar las pruebas Z para determinar si las variables predictoras en los
análisis probit y en la regresión logística tienen un efecto significativo en la respuesta. La
hipótesis nula indica que el predictor no es significativo.
También tiene la opción de utilizar una prueba Z para realizar una aproximación a la
normal para las pruebas de tasa de Poisson y las pruebas de proporciones. Estas
aproximaciones a la normal son válidas cuando el tamaño de la muestra y el número de
eventos son adecuadamente grandes.
2.19 Pruebas para proporciones
Las pruebas de proporciones son adecuadas cuando los datos que se están analizando constan
de cuentas o frecuencias de elementos de dos o más clases. El objetivo de estas pruebas es
evaluar las afirmaciones con respecto a una proporción (o Porcentaje) de población. Las pruebas
se basan en la premisa de que una proporción muestral (es decir, x ocurrencias en n
observaciones, o x/n) será igual a la proporción verdadera de la población si se toman márgenes
o tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse en la diferencia entre
un número esperado de ocurrencias, suponiendo que una afirmación es verdadera, y el número
observado realmente. La diferencia se compara con la variabilidad prescrita mediante
una distribución de muestreo que tiene como base el supuesto de que es realmente
verdadera.
En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de medias, excepto
que, en el caso de las primeras, los datos muestrales se consideran como cuentas en lugar de
como mediciones. Por ejemplo, las pruebas para medias y proporciones se pueden utilizar para
evaluar afirmaciones con respecto a:
1) Un parámetro de población único (prueba de una muestra)
2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras), y
3) La igualdad de parámetros de más de dos poblaciones (prueba de k muestras). Además, para
tamaños grandes de muestras, la distribución de muestreo adecuada para pruebas de
proporciones de una y dos muestras es aproximadamente normal, justo como sucede en el caso
de pruebas de medias de una y dos muestras.
La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la tercera,
una prueba de dos colas.
Por lo tanto el valor estadístico de prueba para este caso es la prueba ji cuadrado o
conocida también como chi cuadrado
Como sucede con las distribuciones t y F, la distribución ji cuadrado tiene una forma que
depende del número de grados de libertad asociados a un determinado problema.
Para obtener un valor crítico (valor que deja un determinado porcentaje de área en la cola) a
partir de una tabla de ji cuadrado, se debe seleccionar un nivel de significación y determinar
los grados de libertad para el problema que se esté resolviendo.
2.20 Selección del tamaño de muestra (para estimar la
media poblacional)
¿Qué tan grande debe ser una muestra si la media muestral se va a usar para estimar la media
poblacional?. La respuesta depende del error estándar de la media, si este fuera cero, entonces se
necesitaría una sola media que será igual necesariamente a la media poblacional desconocida m,
porque s = 0. Este caso extremo no se encuentra en la práctica, pero refuerza el hecho de que
mientras menor sea el error estándar de la media, menor es el tamaño de muestra necesario para
lograr un cierto grado de precisión. Se estableció antes que una forma de disminuir el error de
estimación es aumentar el tamaño de la muestra, si éste incluye el total de la población, entonces x
- m sería igual a cero. Con esto en mente, parece razonable que para un nivel de confianza fijo, sea
posible determinar un tamaño de la muestra tal que el error de estimación sea tan pequeño como
queramos, para ser mas preciso, dado un nivel de confianza y un error fijo de estimación e, se
puede escoger un tamaño de muestra n tal que P( x - m
2.21 Selección del tamaño de muestra (para estimar la
proporción poblacional)
Se desea saber que tan grande se requiere que sea una muestra para asegurar que el error al
estimar P sea menor que una cantidad específica
Esta fórmula está algo engañosa, pues debemos utilizar p para determinar el tamaño de la muestra,
pero p se calcula a partir de la muestra. Existen ocasiones en las cuales se tiene una idea del
comportamiento de la proporción de la población y ese valor se puede sustituir en la fórmula, pero
si no se sabe nada referente a esa proporción entonces se tienen dos opciones: · Tomar una
muestra preliminar mayor o igual a 30 para proporcionar una estimación de P. Después con el uso
de la fórmula se podría determinar de forma aproximada cuántas observaciones se necesitan para
proporcionar el grado de precisión que se desea. · Tomar el valor de p como 0.5 ya que
sustituyendo este en la fórmula se obtiene el tamaño de muestra mayor posible.
Ejercicios resueltos de prueba de hipótesis
1) Una empresa está interesada en lanzar un nuevo producto al mercado. Tras realizar una
campaña publicitaria, se toma la muestra de 1 000 habitantes, de los cuales, 25 no conocían
el producto. A un nivel de significación del 1% ¿apoya el estudio las siguientes hipótesis?
a. Más del 3% de la población no conoce el nuevo producto.
b. Menos del 2% de la población no conoce el nuevo producto
Datos:
n = 1000
x = 25
Donde:
x = ocurrencias
n = observaciones
= proporción de la muestra
= proporción propuesta
Solución:
a)
a = 0,01
H0 es aceptada, ya que zprueba (-0,93) es menor que ztabla (2,326), por lo que no es cierto
que más del 3% de la población no conoce el nuevo producto.
En Excel
b)
a = 0,01
H0 es rechazada, ya que zprueba (1,13) es menor que ztabla (2,326), por lo que es cierto
que menos del 2% de la población no conoce el nuevo producto.
2) Cuando las ventas medias, por establecimiento autorizado, de una marca de relojes caen
por debajo de las 170,000 unidades mensuales, se considera razón suficiente para lanzar
una campaña publicitaria que active las ventas de esta marca. Para conocer la evolución de
las ventas, el departamento de marketing realiza una encuesta a 51 establecimientos
autorizados, seleccionados aleatoriamente, que facilitan la cifra de ventas del último mes en
relojes de esta marca. A partir de estas cifras se obtienen los siguientes resultados: media =
169.411,8 unidades., desviación estándar = 32.827,5 unidades. Suponiendo que las ventas
mensuales por establecimiento se distribuyen normalmente; con un nivel de significación del
5 % y en vista a la situación reflejada en los datos. ¿Se considerará oportuno lanzar una
nueva campaña publicitaria?
Datos:
n = 51
Solución:
H0: ( = 170000
H1: ( < 170000
a = 0,05
Se rechaza Ho, porque zprueba (-0,12) es menor que ztabla (1,645), por lo tanto se acepta
H1: ( < 170000, y se debe considerar oportuno lanzar una nueva campaña publicitaria.
En Excel
n=8
Solución:
H0: ( = 40
H1: ( > 40
Grados de libertad: n-1 = 8-1 =7
a = 0,005
H0 es aceptada, ya que tprueba (2,83) es menor que ttabla (3,499), por lo que no es
acertado pensar que están realizando un número de visitas promedio superior a 40.
En Excel
2.22 Conclusión (reflexión)
Si se condensan los resultados hasta aquí obtenidos, a manera de conclusiones se puede
abordar, que todo problema de prueba de hipótesis consiste en lo siguiente:
1. Identificar una variable aleatoria X que tiene una distribución conocida, es decir,
que pertenece a una clase determinada, por ejemplo a las del tipo normal, y con relación
a la cual se quiere tomar una decisión respecto al valor de un parámetro desconocido,
pero asociado a ella, digamos (, (, ...,etc
2. Se plantea una hipótesis nula, donde se asume un valor para el parámetro; y una
hipótesis alternativa donde se contradice lo expresado en la hipótesis nula.
3. Se escoge el nivel de significación a, que es la probabilidad de rechazar la
hipótesis nula siendo esta cierta.
4. Se selecciona una muestra de tamaño n para estimar el parámetro desconocido
y poder posteriormente decidir si se rechaza o no H0.
5. Se define la región crítica para la prueba de hipótesis de interés.
6. Se toma la decisión de rechazar H0, con un nivel de significación a si el valor
estimado del parámetro está en la región crítica y de no rechazar H0 si este valor no está
en la región crítica.
2.23 BIBLIOGRAFIAS