Está en la página 1de 39

INSTITUTO TECNOLÓGICO SUPERIOR DE

COSAMALOAPAN EXTENSIÓN CARLOS .A.C”

Investigación de la unidad I y II

URIEL CARRERA TALARICO


4º. SEMESTRE “4-CCA”
ESTADISTICA INFERENCIAL
ING. RAFAEL GALAN MOJICA

CARLOS A.C, VER, 27 DE ABRIL DEL 2020.


INDICE
INTRODUCCION
2.1 Conceptos básicos
2.2 Características
2.3 Distribuciones de muestreo.
2.4 Estimación puntual.
2.4.1 Métodos para obtener estimadores
2.5 Estimación de intervalo.
2.6 Intervalos de confianza para medias

2.7 Intervalos de confianza para diferencia entre medias.

2.8 Intervalos de confianza para proporciones.


2.9 Intervalos de confianza para diferencias entre proporciones.
2.9.1Tópicos especiales
2.9.2 Variancias diferentes muestras pequeñas
2.10 Intervalos de confianza para varianzas
2.11 Intervalos de confianza para razones de dos varianzas
2.12 Ejercicios
2.13 Conclusión (Reflexión)
2.14 Introducción
2.15 Metodología
2.16 Hipótesis nula y alternativa
2.17 Errores tipo I y error tipo II
2.18 pruebas de hipótesis z para la media (desviación estándar poblacional
conocida)
2.19 Pruebas para proporciones
2.19.1Prueba de proporciones de una muestra
2.19.2Prueba de proporciones de dos muestras
2.19.3Prueba de proporciones de k muestras
2.20 Selección del tamaño de muestra (para estimar la media poblacional)
2.21 Selección del tamaño de muestra (para estimar la proporción poblacional)
2.22 Conclusión (reflexión)
2.23 BIBLIOGRAFIAS
INTRODUCCION
La teoría de estimación estadística estudia cómo obtener información sobre una población, mediante
muestras extraídas de ella puede emplearse para obtener información acerca de muestras obtenidas
aleatoriamente de una población conocida. Sin embargo, desde un punto de vista práctico, suele ser más
importante y ser capaz de inferir información acerca de una población a partir de muestras de ellas. Dichos
problemas son tratados por la inferencia estadística que utiliza principios de muestreo. Un
problema importante de la inferencia estadística es la estimación de parámetros poblacionales o
simplemente parámetros (como la media y la varianza poblacionales),a partir de los estadísticos
muéstrales correspondientes o estadísticos.

2.1 Conceptos básicos


Estimar qué va a ocurrir respecto a algo (o qué está ocurriendo, o qué ocurrió), a pesar de
ser un elemento muy claramente estadístico, está muy enraizado en nuestra cotidianidad.
Dentro de ello, además hacemos estimaciones dentro de un intervalo de posibilidades.
Estimación puntual: Se busca un estimador, que con base a los datos muéstrales dé
origen a un valor puntual que utilizamos como estimación del parámetro.
Contraste de hipótesis. Enunciada una hipótesis sobre una característica poblacional (y su
contraria), su objetivo es, en principio, aceptar (no rechazar) la hipótesis más acorde con los
datos.
Estimación por intervalos: Se determina un intervalo aleatorio que, de forma probable,
contiene el verdadero valor del parámetro. Este intervalo recibe el nombre de intervalo de
confianza Intervalo de confianza. Su objetivo es obtener un intervalo de posibles valores de
la característica poblacional en el que confiamos, en cierta medida, que se encuentre su
verdadero valor, esto es, un intervalo que cubra al verdadero valor con una determinada
probabilidad/confianza.
Población: conjunto de elementos sobre los que se observa un carácter común. Se
representa con la letra n.
Muestra: conjunto de unidades de una población. Cuanto más significativa sea, mejor será
la muestra. Se representa con la letra n.
Unidad de muestreo: está formada por uno o más elementos de la población. El total de
unidades de muestreo constituyen la población. Estas unidades son disjuntas entre sí y cada
elemento de la población pertenece a una unidad de muestreo.
Parámetro: es un resumen numérico de alguna variable observada de la población. Los
parámetros normales que se estudian son: - la media poblacional: x - total poblacional: x -
proporción: p
Estimador: un estimador θ * de un parámetro θ, es un estadístico que se emplea para
conocer el parámetro θ desconocido.
Estadístico: es una función de los valores de la muestra. Es una variable aleatoria, cuyos
valores dependen de la muestra seleccionada. Su distribución de probabilidad, se conoce
como “distribución muestra del estadístico”.
Estimación: este término indica que a partir de lo observado en una muestra (un resumen
estadístico con las medidas que conocemos de descriptiva) se extrapola o generaliza dicho
resultado muestra a la población total, de modo que lo estimado es el valor generalizado a la
población. Consiste en la búsqueda del valor de los parámetros poblacionales objeto de
estudio. Puede ser puntual o por intervalo de confianza:

 Puntual: cuando buscamos un valor concreto.


 Intervalo de confianza: cuando determinamos un intervalo, dentro del cual se
supone que va a estar el valor del parámetro que se busca con una cierta
probabilidad.
Contrate de hipótesis: consiste en determinar si es aceptable, partiendo de datos
muéstrales, que la característica o el parámetro poblacional estudiado tome un determinado
valor o esté dentro de unos determinados valores.
Nivel de confianza: indica la proporción de veces que acertaríamos al afirmar que el
parámetro θ está dentro del intervalo al seleccionar muchas muestras.

2.2 Características
INSESGADO
Un estimador puntual es insesgado si la media de la distribución muestral del estadístico
(esperanza matemática del estadístico)
Es igual al parámetro por estimar.
Diremos que θ es un estimador insesgado de θ si:

Vimos que la medida muestral es un estimador insesgado de


la media poblacional

Vimos que la varianza muestral no es un estimador insesgado de la varianza poblacional, es


sesgado.
Recuerda que construimos la cuasivarianza que si es un
estimador insesgado de la varianza poblacional
CONSISTENTE
Si no es posible emplear estimadores de mínima varianza, el requisito mínimo deseable
para un estimador es que a medida que el tamaño de la muestra crece, el valor del
estimador tienda a ser el valor del parámetro, propiedad que se denomina consistencia.
Se dice que un estimador es
consistente si se cumple que

Es decir, a medida que se


incrementa el tamaño muestral,
el estimador se acerca más y más al valor del parámetro. La consistencia es una propiedad
asintótica.
Tanto la medida muestral como la cuasivarianza son estimadores consistentes. La varianza
muestrales un estimador consiste de la varianza poblacional , dado que a medida que el
tamaño muestral se incrementa , el sesgo disminuye
EFICIENTE
Diremos que un estimador es más eficiente o más preciso que otro estimador, si la varianza
del primero es menor que la del segundo.
Utiliza las varianzas de los estimadores insesgados como una forma de elegir entre ellos.
La varianza de una variable aleatoria mide la dispercion alrededor de la media. Menor
varianza para una variable aleatoria significa que , en promedio , sus valores fluctúan poco
alrededor de la medida comparados con los valores de otra variable aleatoria con la misma
media y mayor precisión . Menor
varianza implica mayor precisión y
entonces el estimador que tenga
menor varianza es claramente más
deseable porque , en promedio, estas
más cerca de verdadero valor de θ.

SUFICIENTE
Se dice que un estimador es suficiente cuando resume toda la información relevante
contenida en la muestra, de forma que ningún otro estimador pueda proporcionar
información adicional sobre el
parámetro desconocido de la población
Diremos θ es un estimador sufieciente
del parámetro θ si dicho estimador
basta por si solo para estimar θ. Si el
conocimiento pormenorizado de los
elementos la nuestras no añade
ninguna información sobre θ.
2.3 Distribuciones de muestreo.

La inferencia estadística es el proceso que permite hacer inferencias (predicciones,


suposiciones, …) acerca de los parámetros de la población a partir de los estimadores
obtenidos con una muestra. Utiliza como base el muestreo aleatorio simple.
La distribución muestral de un estimador es la distribución de la probabilidad de la variable
que recoge los distintos valores del estimador obtenidos al analizar diferentes muestras.
Una población con cualquier distribución de frecuencias, que tiene una µ y σ concretas,
tiene una distribución muestral de la x (las medias de infinitas muestras obtenidas de dicha
población):
 Con una media igual a la media de la población
 Una desviación estándar, denominada error típico o estándar, igual
a σ, desviación estándar de la población, dividida entre la raíz
cuadrada del tamaño de la muestra,
 y sigue una distribución normal (si n es suficientemente grande).

Ejemplo: Población: Distribución muestral x: Histograma de x en 1000 muestras de 11


elementos.
2.4 Estimación puntual.

Con la estimación puntual se estima el valor del parámetro poblacional desconocido, a partir
de una muestra. Para cada muestra se tendrá un valor que estima el parámetro. Esta
estimación no es muy útil si desconocemos el grado de aproximación de la estimación al
parámetro.

Un estimador de un parámetro poblacional es una función de los datos muéstrales. En


pocas palabras, es una fórmula que depende de los valores obtenidos de una muestra, para
realizar estimaciones. Lo que se pretende obtener es el valor exacto de un parámetro. Por
ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede
extraerse una muestra y ofrecer como estimación puntual la talla media de los individuos de
la muestra.

La media de la muestra puede ser un estimador de la media de la población, la


cuasivarianza muestral es un buen estimador de la varianza poblacional y el total muestral
es un buen estimador del total poblacional.

Por tanto, una definición más matemática de un estimador y las propiedades que debe de
cumplir un estimador para ser bueno.

Sea X1......Xn, una m.a.s. de tamaño n, decimos que es un estimador θ* de un parámetro θ


si el estadístico que se emplea para conocer dicho parámetro desconocido es este.

Propiedades deseables de un estimador

Las propiedades o criterios para seleccionar un buen estimador son los siguientes:

A) Insesgadez: Diremos que un estimador θ* de un parámetro θ es insesgado si su


esperanza coincide con el verdadero valor del parámetro.

En el caso de que no coincidan, diremos que el estimador es sesgado.


B) Eficiencia: Dados dos estimadores θ1* y θ2* para un mismo parámetro θ, se dice que
θ1* es más eficiente que θ2* si:

C) Suficiencia: Se dice que un estimador de un parámetro es suficiente cuando para su


cálculo utiliza toda la información de la muestra.

D) Consistencia: Decimos que un estimador θ* de un parámetro θ es consistente si la


distribución del estimador tiende a concentrarse en un cierto punto cuando el tamaño de la
muestra tiende a infinito.

2.4.1 Métodos para obtener estimadores

El demostrar que un cierto estimador cumple estas propiedades puede ser complicado en
determinadas ocasiones. Existen varios métodos que nos van a permitir obtener los
estimadores puntuales. Los más importantes son:

MÉTODO DE LOS MOMENTOS: se basa en que los momentos poblacionales y se estiman


mediante los momentos muéstrales. Suelen dar estimadores consistentes.
MÉTODO DE MÍNIMOS CUADRADOS: consiste en obtener un estimador que hace mínima
una determinada función.
MÉTODO DE MÁXIMA VEROSIMILITUD: consiste en tomar como parámetro poblacional el
valor de la muestra que sea más probable, es decir, que tenga mayor probabilidad. Se
suelen obtener estimadores consistentes y eficientes. Es el más utilizado.

La probabilidad de que la media muestral sea igual a la media poblacional es cero,

, es decir, que será bastante complicado obtener un estimador puntual, por


ello se utiliza más el Intervalo de Confianza y el Contraste de Hipótesis.

2.5 Estimación de intervalo.


Es deseable conocer un método que nos permita saber donde se encuentra el parámetro
con un cierto grado de certeza. Este método va a ser la determinación de un intervalo donde
estará el parámetro con un nivel de confianza.
Estimación de intervalo expresa la amplitud dentro de la cual probablemente se encuentra
un parámetro poblacional.
El intervalo se construye a partir de una muestra, entonces, para cada muestra se tendrá un
intervalo distinto. Llamaremos al error que se permite al dar el intervalo y el nivel de
confianza será 1- . Un intervalo tiene un nivel de confianza 1- cuando el 100·(1- )% de los
intervalos que se construyen para el parámetro lo contienen.
Es deseable para un intervalo de confianza que tenga la menor amplitud posible, esta
amplitud dependerá de:

 El tamaño de la muestra, mientras mayor sea el tamaño mejor será la estimación,


aunque se incurre en un aumento de costes
 Nivel de confianza, si se pide mayor nivel de confianza, el intervalo será mayor.

2.6 Intervalos de confianza para medias.


En los capítulos anteriores se estudió el estadístico

Como estimador de la media poblacional , y si se considera una muestra grande ,


extraída de una población con conocida, entonces del teorema del límite central

y en consecuencia donde

Por lo que

De donde el intervalo de confianza de dos lados para la media con un nivel de confianza de
, cuando la muestra es grande es:
Y los límites son:

El valor se obtiene de tablas de distribución normal estándar de forma que

Al denotar a z como es una notación común en estadística, pero no esta completamente


generalizada.

Cuando la muestra es pequeña (n < 30) y la población tiene una distribución normal con
variancia conocida, entonces puede emplearse.

2.7 Intervalos de confianza para diferencia entre medias.

Para construir intervalos de confianza para la diferencia de medias poblacionales se hace


uso de la distribución en el muestreo de la diferencia de medias muéstrales.
Se sabe que si son variables aleatorias independientes,
entonces:

Y por tanto, si las distribuciones de la variables son normales, cualesquiera que sean los

Tamaños muéstrales, se verificara que

También se sabe que para muestras independientes se puede asegurar que la distribución

de la diferencia de medias muéstrales es si las


distribuciones de las variables son normales.

Y a partir del intervalo de


probabilidad con para la
diferencia de medias
muéstrales se construye el
intervalo de confianza con
coeficiente de confianza (1- ) para la diferencia de medias poblacionales:

Si no se conocen las varianzas poblacionales pero se pueden suponer iguales

Siempre que y las muestras sean independientes la distribución de


la diferencia de medias muéstrales es
.

Si las varianzas poblacionales se pueden suponer iguales se estima la varianza común por

y en este caso la distribución del estadístico no

es normal sino y por ello, el intervalo de confianza, con coeficiente de confianza


1- será en este caso

Si no se conocen las varianzas poblaciones y no se pueden suponer iguales

Si las varianzas poblacionales no se pueden suponer iguales, se estiman por las


cuasivarianzas de las muestras correspondientes, y es este caso el estadístico

sigue una distribución t de Student con g grados de libertad, siendo el

numero natural mas próximo a

El intervalo de confianza será:

2.8 Intervalos de confianza para proporciones.


Si se toma una muestra de tamaño n de una población muy grande (o infinita), y X

observaciones pertenecen a la clase de interés, entonces es un estimador puntual de


la proporción de la población que pertenece a la clase en cuestión, y la distribución de
muestreo es

Donde

Y p y n son los parámetros de la distribución binomial.

Utilizando el estimador y aproximando la cantidad p(1-p) mediante su

estimador puntual se obtiene el intervalo de confianza de dos lados con un


coeficiente para la proporción p es

2.9 Intervalos de confianza para diferencias entre


proporciones.
Si dos muestras independientes de tamaño se extraen de poblaciones infinitas con
distribuciones binomiales, X representa el numero de observaciones de la primera muestra
que corresponden a la clase en cuestión, entonces la distribución de muestreo para la
diferencia de proporciones esta dada por

Donde

De la definición se obtiene el intervalo de confianza de dos lados para la diferencia de


proporciones, con un nivel de confianza de ( , el cual es
2.9.1Tópicos especiales:
Intervalo de confianza para la diferencia de medias, casos
especiales.

Existen algunos casos especiales para los intervalos de confianza de diferencia de medias.
El primero de ellos es cuando se tienen datos apareados, o en pares, es decir, las muestras
aleatorias no son independientes y tienen el mismo tamaño. El segundo de ellos, que queda
un poco más allá del objetivo del presente curso, se tiene cuando las muestras son
pequeñas, independientes, con distribuciones aproximadamente normales con varianzas
desconocidas y diferentes.

Datos en pares

Cuando se observan datos en pares y se espera que exista una fuerte correlación entre
cada pareja de datos, se debe generar una nueva variable aleatoria para construir el
intervalo de confianza.

Sea la variable aleatoria , donde i =1, 2, … , n, entonces:

Y el intervalo se puede generar mediante:


2.9.2 Variancias diferentes muestras pequeñas

Cuando el problema consiste en encontrar una estimación por intervalos para diferencia de
medias , las muestras son pequeñas, las poblaciones son aproximadamente
normales y las varianzas desconocidas no pueden considerarse iguales, entonces no existe
un estadístico exacto para el problema; sin embargo, algunos autores han encontrado muy
buenas aproximaciones utilizando el estadístico:

el cual tiene una distribución aproximadamente t, con v grados de libertad, los cuales se
aproximan mediante:

O bien mediante
Puesto que v difícilmente es entero se aproxima al entero más cercano.
El intervalo de confianza de dos lados queda entonces:

2.10 Intervalos de confianza para varianzas.


Si X es una v.a. con distribución normal con media y varianza desconocidas, entonces

el estadístico empleado es
Donde

Utilizando el estadístico se obtiene el intervalo de confianza de dos lados con un


coeficiente de confianza de para , el cual es

2.11 Intervalos de confianza para razones de dos


varianzas.
Si X y Y son vv.aa. independientes con distribuciones normales con medidas
desconocidas y variancias desconocidas, respectivamente, entonces el estadístico
empleado es

Donde

Utilizando el estadístico se obtiene el intervalo de confianza de dos lados con un

coeficiente de confianza de para la relación de las variancias , el cual es


2.12 Ejercicios
En una muestra al azar de 60 secciones de tubo en una planta química, 8 de ellos mostraron señales
de corrosión seria. Construir un intervalo de confianza del 95 % para la proporción de los tramos de
tubo con corrosión seria.

Resolución

Utilizando la formula (3.7), con de tablas, y recordando que , se tiene:

Finalmente:

- - - - - - - - -- - - - - - - -- - - -- - - -- - - - -- - - - - - -

Se ha realizado una muestra aleatoria simple (m.a.s) de tamaño 10 a una población


considerada normal . Llegando a la conclusión que su varianza muestral es 4 . Calcular la

probabilidad .

 conocemos relacionado con lo planteado que 

                                    dado que conocemos n=10 y S=2


podemos llevar a cabo los correspondientes cambios en ambas partes de la inecuación y
así :

                                                     

en tablas y dado que es en valor absoluto será la probabilidad comprendida entre -1,83 y
1,83 de la tabla de la t de student con 9 gl. ; ( ir a script de la t de student )   siendo dicho
valor 0,9

- - -- - - - - - - 

La longitud de los pepinos que se producen en el campo almeriense se ha estimado y es


por tanto conocida siguiendo una Normal de media 20 cm y varianza 36 , escogida una
muestra aleatoria simple de tamaño 81 . Calcular la probabilidad de que la media de dicha
muestra supere los 31 cm.

La longitud de los pepinos es conocida siendo L → N[20;6] cm

Establecida una muestra con m.a.s  de tamaño 81 la media muestral se distribuirá según:

     

Por tanto la probabilidad de que dicha muestre supere los 31 cm. será

  

 
2.13 Conclusión (Reflexión)

Se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un


parámetro de una población a partir de los datos proporcionados por una muestra. Nuestro
estudio de la estimación lo hemos hasta ahora en el supuesto que la distribución de un
estimador por muestra esta normalmente distribuido. En tanto que muchas distribuciones
por muestreo son solo aproximadamente normales.
2.14 Introducción
Las pruebas de hipótesis junto a los intervalos de confianza constituyen dos enfoques
fundamentales de la inferencia estadística, es decir a ese proceso de estudiar muestras y usar la
información obtenida en estas y obtener conclusiones acerca de la población (Blair & Taylor, 2008).
El proceso de inferencia estadística a partir de las pruebas de hipótesis se basa en hacer
suposiciones respecto a características o fenómenos de interés en una población (o varias
poblaciones) y tomando una muestra representativa de datos de esa población (muestra aleatoria),
de manera que estos datos muéstrales sirvan para contrastar la validez de nuestra hipótesis
2.15 Metodología

Otra manera de hacer inferencia es haciendo una afirmación acerca del valor que el
parámetro de la población bajo estudio puede tomar. Esta afirmación puede estar basada
en alguna creencia o experiencia pasada que será contrastada con la evidencia que
nosotros obtengamos a través de la información contenida en la muestra. Esto es a lo que
llamamos Prueba de Hipótesis.
Las secciones anteriores han mostrado cómo puede estimarse un parámetro a partir de los
datos contenidos en una muestra. Puede encontrarse ya sea un sólo número (estimador
puntual) o un intervalo de valores posibles (intervalo de confianza). Sin embargo, muchos
problemas de ingeniería, ciencia, y administración, requieren que se tome una decisión
entre aceptar o rechazar una proposición sobre algún parámetro. Esta proposición recibe el
nombre de hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística,
puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en
el mundo de la ingeniería, pueden formularse como problemas de prueba de hipótesis.

Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o
más poblaciones.
Los puntos básicos del Contraste de Hipótesis estadístico son: a)
Definir características hipotéticas de las poblaciones.

b) Obtener las características observadas en las muestras.


c) Establecer la coherencia de lo observado en las muestras con las hipótesis iniciales.
d) Si lo observado en las muestras es poco probable bajo el supuesto de que las hipótesis
son verdaderas se concluye que están equivocadas y las poblaciones son diferentes a lo
establecido inicialmente. En caso contrario se mantiene las hipótesis.
Los puntos anteriores son explicados con mayor detalle en los apartados del tema:
Apartado 2: Elementos fundamentales del contraste de hipótesis.
Apartado 3: Errores en el Contraste de Hipótesis
Apartado 4: Probabilidades de error
Apartado 5: Probabilidad de detectar efectos significativos
Apartado 6: Contrastes bilaterales

2.16 Hipótesis nula y alternativa


La Hipótesis Nula, denotada como H0 siempre especifica un solo valor del parámetro de la
población si la hipótesis es simple o un conjunto de valores si es compuesta (es lo que queremos
desacreditar).

La Hipótesis Alternativa, denotada como H1 es la que responde nuestra pregunta, la que se


establece en base a la evidencia que tenemos. Puede tener cuatro formas:

La hipótesis nula se rechaza en favor de la hipótesis alternativa, sólo si la evidencia


muestral sugiere que Ho es falsa. Si la muestra no contradice decididamente a Ho, se
continúa creyendo en la validez de la hipótesis nula. Entonces, las dos conclusiones
posibles de un análisis por prueba de hipótesis son rechazar Ho o no rechazar Ho.
Las Hipótesis Nula y Alternativa son simbolizadas de la siguiente forma:

Donde
2.17 Errores tipo I y error tipo II

Tipos de error

El Contraste de Hipótesis no garantiza que la decisión (rechazar o no la Hipótesis Nula) sea


correcta. Como ejemplo, consideremos que la moneda es insesgada, y que obtenemos nueve caras
en diez lanzamientos. Es un resultado dentro del conjunto de resultados poco probables (p<=
0.05), y por ello rechazamos la Hipótesis Nula, es decir, rechazamos la hipótesis inicial de que la
moneda está "bien hecha". El error ha consistido en rechazar la Hipótesis Nula cuando es correcta,
y diremos que es un error de tipo I.

Contrastes unilaterales y bilaterales

El contraste bilateral sitúa la región de rechazo en los dos extremos (colas) de la distribución
muestral. En cambio, el contraste unilateral sitúa la región de rechazo en uno de los dos extremos
(colas) de la distribución muestral. El contraste bilateral (o de dos colas) se utiliza cuando la
Hipótesis Alternativa asigna al parámetro cualquier valor diferente al establecido en la Hipótesis
Nula.

El error tipo I se define como el rechazo de la hipótesis nula Ho cuando ésta es verdadera.
También es conocido como ó nivel de significancia.

Si tuviéramos un nivel de confianza del 95% entonces el nivel de significancia sería del 5%.
Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de significancia
sería del 10%.

Ahora supóngase que la verdadera rapidez promedio de combustión es diferente de 50


cm/s, aunque la media muestral caiga dentro de la región de aceptación. En este caso se
acepta Ho cuando ésta es falsa. Este tipo de conclusión recibe el nombre de error tipo II.
El error tipo II ó error se define como la aceptación de la hipótesis nula cuando ésta es
falsa.
Por tanto, al probar cualquier hipótesis estadística, existen cuatro situaciones diferentes
que determinan si la decisión final es correcta o errónea.
Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno
por lo general tiene como resultado un aumento en la probabilidad del otro.
El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I,
siempre se puede reducir al ajustar el o los valores críticos.
Un aumento en el tamaño maestral n reducirá y de forma simultánea.
Si la hipótesis nula es falsa, es un máximo cuando el valor real del parámetro se aproxima
al hipotético. Entre más grande sea la distancia entre el valor real y el valor hipotético, será
menor.

2.18 pruebas de hipótesis z para la media (desviación


estándar poblacional conocida)
Una prueba Z es una prueba de hipótesis basada en el estadístico Z, que sigue la
distribución normal estándar bajo la hipótesis nula.

La prueba Z más simple es la prueba Z de 1 muestra, la cual evalúa la media de una


población normalmente distribuida con varianza conocida. Por ejemplo, el gerente de una
fábrica de caramelos desea saber si el peso medio de un lote de cajas de caramelos es
igual al valor objetivo de 10 onzas. Partiendo de datos históricos, el gerente sabe que la
máquina de llenado tiene una desviación estándar de 0.5 onzas, así que utiliza este valor
como la desviación estándar de la población en una prueba Z de 1 muestra.

También puede utilizar las pruebas Z para determinar si las variables predictoras en los
análisis probit y en la regresión logística tienen un efecto significativo en la respuesta. La
hipótesis nula indica que el predictor no es significativo.

También tiene la opción de utilizar una prueba Z para realizar una aproximación a la
normal para las pruebas de tasa de Poisson y las pruebas de proporciones. Estas
aproximaciones a la normal son válidas cuando el tamaño de la muestra y el número de
eventos son adecuadamente grandes.
2.19 Pruebas para proporciones
Las pruebas de proporciones son adecuadas cuando los datos que se están analizando constan
de cuentas o frecuencias de elementos de dos o más clases. El objetivo de estas pruebas es
evaluar las afirmaciones con respecto a una proporción (o Porcentaje) de población. Las pruebas
se basan en la premisa de que una proporción muestral (es decir, x ocurrencias en n
observaciones, o x/n) será igual a la proporción verdadera de la población si se toman márgenes
o tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse en la diferencia entre
un número esperado de ocurrencias, suponiendo que una afirmación es verdadera, y el número
observado realmente. La diferencia se compara con la variabilidad prescrita mediante
una distribución de muestreo que tiene como base el supuesto de que   es realmente
verdadera.
En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de medias, excepto
que, en el caso de las primeras, los datos muestrales se consideran como cuentas en lugar de
como mediciones. Por ejemplo, las pruebas para medias y proporciones se pueden utilizar para
evaluar afirmaciones con respecto a:
1) Un parámetro de población único (prueba de una muestra)
2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras), y
3) La igualdad de parámetros de más de dos poblaciones (prueba de k muestras). Además, para
tamaños grandes de muestras, la distribución de muestreo adecuada para pruebas de
proporciones de una y dos muestras es aproximadamente normal, justo como sucede en el caso
de pruebas de medias de una y dos muestras.

2.19.1Prueba de proporciones de una muestra


Cuando el objetivo del muestreo es evaluar la validez de una afirmación con respecto a la
proporción de una población, es adecuado utilizar una prueba de una muestra.
La metodología de prueba depende de si el número de observaciones de la muestra es grande o
pequeño.
Como se habrá observado anteriormente, las pruebas de grandes muestras de medias y
proporciones son bastante semejantes. De este modo, los valores estadísticos de prueba miden
la desviación de un valor estadístico de muestra a partir de un valor propuesto. Y ambas pruebas
se basan en la distribución normal estándar para valores críticos. Quizá la única diferencia real
entre las ambas radica en la forma corno se obtiene la desviación estándar de la distribución de
muestreo.
Esta prueba comprende el cálculo del valor estadístico de prueba Z
Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una tabla normal
a un nivel de significación seleccionado.
Como ocurrió con la prueba de medias de una muestra, las pruebas de proporciones pueden ser
de una o dos colas.

La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la tercera,
una prueba de dos colas.

2.19.2Prueba de proporciones de dos muestras


El objetivo de una prueba de dos muestras es determinar si las dos muestras
independientes fueron tomadas de dos poblaciones, las cuales presentan la misma
proporción de elementos con determinada característica. La prueba se concentra en la
diferencia relativa (diferencia dividida entre la desviación estándar de la distribución de
muestreo) entre las dos proporciones muestrales. Diferencias pequeñas denotan
únicamente la variación casual producto del muestreo (se acepta H0), en tanto que grandes
diferencias significan lo contrario (se rechaza H0). El valor estadístico de prueba (diferencia
relativa) es comparado con un valor tabular de la distribución normal, a fin de decidir si H0
es aceptada o rechazada. Una vez más, esta prueba se asemeja considerablemente a la
prueba de medias de dos muestras.
La hipótesis nula en una prueba de dos muestras es

2.19.3Prueba de proporciones de k muestras


La finalidad de una prueba de k muestras es evaluar la aseveración que establece que todas
las k muestras independientes provienen de poblaciones que presentan la misma proporción
de algún elemento. De acuerdo con esto, las hipótesis nula y alternativa son
En una muestra se puede dar un conjunto de sucesos, los cuales ocurren con frecuencias
observadas "o"(las que se observa directamente) y frecuencias esperadas o teóricas "e" (las
que se calculan de acuerdo a las leyes de probabilidad).

Por lo tanto el valor estadístico de prueba para este caso es la prueba ji cuadrado o
conocida también como chi cuadrado
Como sucede con las distribuciones t y F, la distribución ji cuadrado tiene una forma que
depende del número de grados de libertad asociados a un determinado problema.
Para obtener un valor crítico (valor que deja un determinado porcentaje de área en la cola) a
partir de una tabla de ji cuadrado, se debe seleccionar un nivel de significación y determinar
los grados de libertad para el problema que se esté resolviendo.
2.20 Selección del tamaño de muestra (para estimar la
media poblacional)
¿Qué tan grande debe ser una muestra si la media muestral se va a usar para estimar la media
poblacional?. La respuesta depende del error estándar de la media, si este fuera cero, entonces se
necesitaría una sola media que será igual necesariamente a la media poblacional desconocida m,
porque s = 0. Este caso extremo no se encuentra en la práctica, pero refuerza el hecho de que
mientras menor sea el error estándar de la media, menor es el tamaño de muestra necesario para
lograr un cierto grado de precisión. Se estableció antes que una forma de disminuir el error de
estimación es aumentar el tamaño de la muestra, si éste incluye el total de la población, entonces x
- m sería igual a cero. Con esto en mente, parece razonable que para un nivel de confianza fijo, sea
posible determinar un tamaño de la muestra tal que el error de estimación sea tan pequeño como
queramos, para ser mas preciso, dado un nivel de confianza y un error fijo de estimación e, se
puede escoger un tamaño de muestra n tal que P( x - m
2.21 Selección del tamaño de muestra (para estimar la
proporción poblacional)
Se desea saber que tan grande se requiere que sea una muestra para asegurar que el error al
estimar P sea menor que una cantidad específica

Esta fórmula está algo engañosa, pues debemos utilizar p para determinar el tamaño de la muestra,
pero p se calcula a partir de la muestra. Existen ocasiones en las cuales se tiene una idea del
comportamiento de la proporción de la población y ese valor se puede sustituir en la fórmula, pero
si no se sabe nada referente a esa proporción entonces se tienen dos opciones: · Tomar una
muestra preliminar mayor o igual a 30 para proporcionar una estimación de P. Después con el uso
de la fórmula se podría determinar de forma aproximada cuántas observaciones se necesitan para
proporcionar el grado de precisión que se desea. · Tomar el valor de p como 0.5 ya que
sustituyendo este en la fórmula se obtiene el tamaño de muestra mayor posible.
Ejercicios resueltos de prueba de hipótesis
1) Una empresa está interesada en lanzar un nuevo producto al mercado. Tras realizar una
campaña publicitaria, se toma la muestra de 1 000 habitantes, de los cuales, 25 no conocían
el producto. A un nivel de significación del 1% ¿apoya el estudio las siguientes hipótesis?
 a. Más del 3% de la población no conoce el nuevo producto.
 b. Menos del 2% de la población no conoce el nuevo producto
Datos:
n = 1000
x = 25

Donde:
x = ocurrencias
n = observaciones

= proporción de la muestra

= proporción propuesta
Solución:
a)

a = 0,01 
H0 es aceptada, ya que zprueba (-0,93) es menor que ztabla (2,326), por lo que no es cierto
que más del 3% de la población no conoce el nuevo producto.
En Excel

b)

a = 0,01 
H0 es rechazada, ya que zprueba (1,13) es menor que ztabla (2,326), por lo que es cierto
que menos del 2% de la población no conoce el nuevo producto.
2) Cuando las ventas medias, por establecimiento autorizado, de una marca de relojes caen
por debajo de las 170,000 unidades mensuales, se considera razón suficiente para lanzar
una campaña publicitaria que active las ventas de esta marca. Para conocer la evolución de
las ventas, el departamento de marketing realiza una encuesta a 51 establecimientos
autorizados, seleccionados aleatoriamente, que facilitan la cifra de ventas del último mes en
relojes de esta marca. A partir de estas cifras se obtienen los siguientes resultados: media =
169.411,8 unidades., desviación estándar = 32.827,5 unidades. Suponiendo que las ventas
mensuales por establecimiento se distribuyen normalmente; con un nivel de significación del
5 % y en vista a la situación reflejada en los datos. ¿Se considerará oportuno lanzar una
nueva campaña publicitaria?
Datos:

n = 51

Solución:
H0: ( = 170000
H1: ( < 170000

a = 0,05 
Se rechaza Ho, porque zprueba (-0,12) es menor que ztabla (1,645), por lo tanto se acepta
H1: ( < 170000, y se debe considerar oportuno lanzar una nueva campaña publicitaria.
En Excel

3) Un gerente de ventas de libros universitarios afirma que en promedio sus representantes


de ventas realiza 40 visitas a profesores por semana. Varios de estos representantes
piensan que realizan un número de visitas promedio superior a 40. Una muestra tomada al
azar durante 8 semanas reveló un promedio de 42 visitas semanales y una desviación
estándar de 2 visitas. Utilice un nivel de confianza del 99% para aclarar esta cuestión.
Datos:
( = 40

n=8

Nivel de confianza del 99%


Nivel de significación = (100%-99%)/2 = 0,5% = 0,005

Solución:
H0: ( = 40
H1: ( > 40
Grados de libertad: n-1 = 8-1 =7

a = 0,005 

H0 es aceptada, ya que tprueba (2,83) es menor que ttabla (3,499), por lo que no es
acertado pensar que están realizando un número de visitas promedio superior a 40.
En Excel
2.22 Conclusión (reflexión)
Si se condensan los resultados hasta aquí obtenidos, a manera de conclusiones se puede
abordar, que todo problema de prueba de hipótesis consiste en lo siguiente:
 1. Identificar una variable aleatoria X que tiene una distribución conocida, es decir,
que pertenece a una clase determinada, por ejemplo a las del tipo normal, y con relación
a la cual se quiere tomar una decisión respecto al valor de un parámetro desconocido,
pero asociado a ella, digamos (, (, ...,etc
 2. Se plantea una hipótesis nula, donde se asume un valor para el parámetro; y una
hipótesis alternativa donde se contradice lo expresado en la hipótesis nula.
 3. Se escoge el nivel de significación a, que es la probabilidad de rechazar la
hipótesis nula siendo esta cierta.
 4. Se selecciona una muestra de tamaño n para estimar el parámetro desconocido
y poder posteriormente decidir si se rechaza o no H0.
 5. Se define la región crítica para la prueba de hipótesis de interés.
 6. Se toma la decisión de rechazar H0, con un nivel de significación a si el valor
estimado del parámetro está en la región crítica y de no rechazar H0 si este valor no está
en la región crítica.
2.23 BIBLIOGRAFIAS

APIA B María Antonieta. APUNTES Metodología de la Investigación. INACAP. Ingeniería en


Gestión Informática. Sede Temuco. Santiago, 2000.
CÓRDOVA MARTÍNEZ, Carlos A. Consideraciones sobre la Metodología de la
Investigación. Centro de Estudios sobre la Cultura e Identidad. Universidad de Holguín
"Oscar Lucero Moya". Holguín.
Hines, William W. y Montgomery, Douglas C., et al.- Probabilidad y Estadística para
Ingeniería y Administración, Cuarta Edición..-CECSA.- México, 2004.
 María Teresa González.- Estadística Aplicada una Visión Instrumental, Díaz de Santos.-
España, 2009
.  Scheaffer, Richard L y McClave, James T. Probabilidad y Estadística para Ingeniería.-
Grupo Editorial Iberoamérica.- México 1993.

También podría gustarte