Está en la página 1de 35

Elementos de inferencia

estadística
Parte 2
2 Estimación puntual y por intervalo
 Una distribución de probabilidad de una variable que representa cierta
característica de una población se define completamente cuando se conocen sus
parámetros
 cuando los parámetros no se conocen, será necesario estimarlos con base en los
datos muestrales para hacer inferencias sobre la población.

 Por ejemplo, los parámetros de una distribución normal son la media, µ, y la


desviación estándar σ.
 en caso de desconocerse será necesario estimarlos a partir de los datos en la muestra.

Hay dos tipos de estimación: puntual y por intervalo


Estimación puntual

 Un estimador puntual de un parámetro desconocido es un estadístico


que genera un valor numérico simple
se utiliza para hacer una estimación del valor del parámetro desconocido.

 Por ejemplo:
Tres parámetros sobre los que con frecuencia se desea hacer inferencia son:

 La media µ del proceso (población).

 La varianza σ2 o la desviación estándar σ del proceso.

 La proporción p de elementos que tienen cierta característica.


4  Los estimadores puntuales (estadísticos) más
recomendados para estimar estos parámetros son,
respectivamente:

 La media muestral =

 La varianza muestral 2 = S 2.

 La proporción muestral, = x/n, donde x es el número de elementos


que tienen la característica en la muestra de tamaño n.
Para ilustrar el concepto de estimación puntual en inferencia
estadística, podemos considerar el siguiente ejemplo utilizando la
6 media muestral:

 Supongamos que eres el gerente de una tienda minorista y quieres


estimar la cantidad promedio de ventas diarias de un producto en
particular durante un mes determinado.

 Para hacer esto se toma una muestra de 30 días y registras las ventas
diarias del producto durante ese período.

Ahora se estima la cantidad promedio de ventas diarias de ese producto


durante ese mes en toda la población.

Para realizar una estimación puntual se calcula la media de las ventas


diarias de la muestra
7
Media = (Suma de las ventas diarias en la muestra) / (Tamaño de la muestra)

Media = (10 + 15 + 8 + ... + 9) / 30

Media ≈ 13.2 unidades

Entonces, la estimación puntual para la cantidad promedio de ventas diarias del producto en toda la
población para ese mes es de aproximadamente 13.2 unidades.

Es importante tener en cuenta que esta es solo una estimación puntual basada en una muestra
específica. La estimación puede variar si se toma una muestra diferente.

Este valor puede usarse como una estimación puntual de µ (la media del proceso).

Colocar un acento ˆ(llamado gorro o tongo) sobre un parámetro es una manera general de denotar un
estimador puntual del correspondiente parámetro, puesto que los estimadores no son únicos.
La estimación de la media, , podría hacerse con el uso de la media muestral
8 la mediana , o la moda, dado que las tres son diferentes medidas de la
tendencia central de unos datos.

La estimación puntual de un parámetro se genera a través de un estadístico:


 como el valor de éste es aleatorio (depende de los elementos que fueron
seleccionados en la muestra)

 entonces la estimación que se hace sobre el parámetro dependerá y variará de


una muestra a otra.

Por ello es necesario saber qué tan precisa es la estimación puntual, y esto
tiene que ver con la varianza del correspondiente estimador.
Para saber qué tan precisa es la estimación puntual, se tiene que ver con la
varianza del correspondiente estimador.
9

Se calcula la media, que ya habíamos obtenido anteriormente:

Media = (10 + 15 + 8 + ... + 9) / 30 ≈ 13.2 unidades

Ahora, calculamos la varianza muestral utilizando la siguiente fórmula:

Varianza muestral = Sumatoria de (Valor - Media)^2 /


(Tamaño de la muestra - 1)

Varianza muestral = [(10 - 13.2)^2 + (15 - 13.2)^2 + (8 - 13.2)^2 + ... + (9 -


13.2)^2] / 29

Varianza muestral ≈ 23.86 unidades cuadradas


10

 La varianza muestral nos proporciona una medida de la dispersión


de las ventas diarias en la muestra.
• En este caso, un valor de varianza muestral de aproximadamente
23.86 unidades cuadradas indica que las ventas diarias varían
considerablemente en torno a la media de 13.2 unidades.

 Es importante recordar que la varianza muestral también es una


estimación basada en una muestra específica y puede variar si se
toma una muestra diferente.

 Para obtener un intervalo de confianza y tener una idea de la precisión


de esta estimación de varianza, se requerirían técnicas adicionales en
inferencia estadística.
11 Estimación por intervalo

 Una forma de saber qué tan variable es el estimador, consiste en calcular la desviación
estándar o error estándar del estadístico, visto como una variable aleatoria.
 Por ejemplo, sea la desviación estándar S y la media de una muestra de tamaño n, puesto que
es una variable aleatoria, ésta tiene su propia desviación o error estándar, que se puede
estimar mediante

=S/

 Una forma operativa de saber qué tan precisa es la estimación consiste en calcular un intervalo de
confianza que indique un rango “en el que puede estar el parámetro” con cierto nivel de
seguridad o confianza.
 Construir un intervalo al 100(1 – α)% de confianza para un parámetro desconocido θ, consiste en
12
estimar dos números (estadísticos) L y U, de manera que la probabilidad de que θ se encuentre entre
ellos sea 1 – a, es decir:
P(L ≤ θ ≤ U) = 1 – a
 Donde L y U forman el intervalo de confianza buscado [L, U].

 Por lo tanto la interpretación de un intervalo de confianza es:

Si se obtuvieran 100 muestras independientes de la misma población o proceso, cada una de tamaño n,
 para cada muestra se calculará el intervalo de confianza al 95%: (a = 0.05), para el mismo
parámetro
 entonces se espera que 95 de los 100 intervalos contengan el verdadero valor de dicho parámetro.
 En la práctica se obtiene sólo un intervalo y se dice que el intervalo [L, U] tiene una
13 confianza de 100(1 – α)%;

 Es decir que el parámetro estará en el intervalo el 100(1 – α)% de las veces que se aplique el
procedimiento.

 La longitud del intervalo de confianza es una medida de la precisión de la estimación.

 De aquí que es deseable que la longitud de los intervalos sea pequeña y con alto nivel de confianza.

 El ancho de los intervalos es mayor a medida que sea mayor la varianza de la población y el nivel
de confianza exigido.

 El ancho del intervalo es menor si se incrementa el tamaño de la muestra.


16  Si suponemos que la muestra original constaba de 30 días (tamaño de muestra = 30),
entonces:

Margen de error ≈ 1.96 * (4.884 / √30) ≈ 1.787 unidades

 Finalmente, podemos construir el intervalo de confianza del 95% para la cantidad promedio
de ventas diarias:

Intervalo de confianza = 13.2 ± 1.787

Intervalo de confianza ≈ (11.413, 14.987)

 Esto significa que estamos 95% seguros de que el promedio real de ventas diarias del
producto en toda la población cae dentro del intervalo (11.413, 14.987) unidades.
17 Conceptos básicos de pruebas de hipótesis

 Un estudio experimental o una investigación por lo general tiene como último


objetivo responder en forma segura a ciertas preguntas y/o tomar decisiones.

 En este contexto, el experimentador tiene ciertas ideas o planteamientos que desea


comprobar. Por ejemplo:

 Los tres proveedores del material x tienen el mismo nivel de calidad.

 Los dos tratamientos o procedimientos dan en promedio los mismos resultados.


18  Una hipótesis de investigación es una proposición o declaración realizada por el
investigador cuando éste especula acerca del resultado final de una investigación o
experimento.

 La idea de la investigación es generar evidencia en favor de su hipótesis, aunque puede


darse el caso de que la evidencia lleve a rechazar la afirmación original.

 Usualmente la hipótesis es generada a partir de ciertos elementos observados y de un


proceso de razonamiento inductivo.

 Es deseable que la hipótesis sea realista y comprobable, para así facilitar el diseño de la
investigación.
19  En este contexto, cuando en la investigación se recolectan datos, es posible
formular hipótesis un tanto más operativas sobre las características estadísticas de
tales datos.

 Así, al verificar estas hipótesis estadísticas se agregue evidencia a favor o en


contra de la hipótesis de investigación.

 De esta manera las hipótesis estadísticas son una especie de transformación o


despliegue de la afirmación de la investigación.
20 Planteamiento de una hipótesis estadística

 Una hipótesis estadística es una afirmación sobre los valores de los parámetros de una
población o proceso, que es susceptible de probarse a partir de la información
contenida en una muestra representativa que es obtenida de la población.

 Por ejemplo, la afirmación “este proceso produce menos de 8% de defectuosos” se


puede plantear estadísticamente, en términos de la proporción p desconocida de
artículos defectuosos que genera el proceso, como se hace a continuación.

H0 : p = 0.08 (la proporción de defectuosos es 0.08)


HA : p < 0.08 (la proporción es menor que 0.08)
21
H0 : p = 0.08 (la proporción de defectuosos es 0.08)
HA : p < 0.08 (la proporción es menor que 0.08)

La expresión H0 : p = 0.08 se le conoce como hipótesis nula y a HA : p < 0.08 se le llama


hipótesis alternativa.

El nombre de hipótesis nula se deriva del hecho de que comúnmente se plantea como una
igualdad, lo cual facilita el tener una distribución de probabilidad de referencia específica.

El experimentador está interesado en concluir que una de las dos hipótesis se cumple. Por
ejemplo, en el caso de las proposiciones se quiere verificar que se cumple la hipótesis
alternativa.
22  Supongamos ahora que la afirmación a probar es “este proceso produce 8% de
defectuosos”.

 La afirmación señala que su falsedad se da tanto si se observan menos de 8% de


defectuosos como si se observan más de 8% de defectuosos.

 En este sentido, el planteamiento estadístico debe ser:

H0 : p = 0.08 (la proporción de defectuosos es 0.08)

HA : p ≠ 0.08 (la proporción es diferente a 0.08)


 Ahora, lo que se desea concluir es la hipótesis nula. Nótese la diferencia entre las hipótesis alternativas.
23

HA se conoce como hipótesis alternativa de un solo HA se llama hipótesis alternativa de dos lados
lado (unilateral) (bilateral)
ya que la única manera de rechazar H0 es teniendo ya que la evidencia en contra de H0 se obtiene con
valores de la proporción muestral significativamente valores pequeños o grandes de la proporción
más pequeños que 0.08. muestral .

Así, la elección de la hipótesis alternativa en cuanto a


si debe ser unilateral o bilateral depende de la
afirmación que se quiera probar.
25 Estadístico de prueba
 Probar una hipótesis consiste en investigar si lo afirmado por la hipótesis nula es verdad o no. La
estrategia de prueba parte del supuesto de que H0 es verdadera, y si los resultados de la
investigación contradicen en forma suficiente dicho supuesto, entonces se rechaza H0 y se acepta la
hipótesis alternativa.

 En caso de que los resultados de la investigación no demuestren claramente la falsedad de H0, ésta
no se rechaza. Es decir, la hipótesis nula es verdadera mientras no se demuestre lo contrario.
26

 Una vez planteada la hipótesis, se toma una muestra aleatoria de la población de estudio o se
obtienen datos mediante un experimento planeado de acuerdo con la hipótesis.

 El estadístico de prueba es un número calculado a partir de los datos y la hipótesis nula,


cuya magnitud permite discernir si se rechaza o no la hipótesis nula H0.

 Al conjunto de posibles valores del estadístico de prueba que llevan a rechazar H0 se le llama región
o intervalo de rechazo para la prueba, y a los posibles valores donde no se rechaza H0 se les llama
región o intervalo de aceptación.
Criterio de rechazo
27
 El estadístico de prueba, construido bajo el supuesto de que H0 es verdad, es una variable
aleatoria con distribución conocida. Si efectivamente H0 es verdad, el valor del estadístico de
prueba debería caer dentro del rango de valores más probables de su distribución asociada, el
cual se conoce como región de aceptación.

 Si cae en una de las colas de su distribución asociada, fuera del rango de valores más
probables (en la región de rechazo), es evidencia en contra de que este valor pertenece a dicha
distribución. De aquí se deduce que debe estar mal el supuesto bajo el cual se construyó, es
decir, H0 debe ser falsa.
28 Pruebas de una y dos colas (unilaterales y
bilaterales)
 La ubicación de la región o intervalo de rechazo depende de si la hipótesis es bilateral o
unilateral.

 Como se vio en el caso de las proporciones, una hipótesis es bilateral cuando la hipótesis
alternativa (HA) es del tipo “no es igual” (≠); y es unilateral cuando la alternativa es del tipo “mayor
que” (>) o “menor que” (<)
Pruebas de una y dos colas (unilaterales y
29
bilaterales)
 Cuando es bilateral, la región de rechazo está repartida de manera equitativa entre ambas colas
de la distribución del estadístico de prueba.

 Si la hipótesis es unilateral, la evidencia en contra de la hipótesis nula se ubica en un solo lado de


la distribución, esto es, la región de rechazo sólo se concentra en una de las colas.
 Ejemplo 1 - Prueba de una cola:
 Supongamos que una empresa de telecomunicaciones afirma que el tiempo promedio de
30
respuesta al servicio al cliente es menor o igual a 5 minutos. Para probar esta afirmación, se
puede realizar una prueba de una cola con las siguientes hipótesis:

 Hipótesis nula (H0): El tiempo promedio de respuesta al servicio al cliente es mayor que 5
minutos.

 Hipótesis alternativa (HA): El tiempo promedio de respuesta al servicio al cliente es menor o


igual a 5 minutos.

 En este caso, se seleccionaría una muestra y se calcularía el estadístico de prueba para


determinar si hay suficiente evidencia para rechazar H 0 y concluir que el tiempo promedio de
respuesta es menor o igual a 5 minutos.
31
 Ejemplo 2 - Prueba de dos colas:
 Supongamos que una compañía de juguetes afirma que la duración promedio de la batería
de su nuevo juguete es de 10 horas. Para probar esta afirmación, se puede realizar una
prueba de dos colas con las siguientes hipótesis:

 Hipótesis nula (H0): La duración promedio de la batería es diferente de 10 horas.

 Hipótesis alternativa (HA): La duración promedio de la batería es igual a 10 horas.

 En este escenario, se tomaría una muestra y se calcularía el estadístico de prueba para


determinar si hay suficiente evidencia para rechazar H 0 y concluir que la duración
promedio de la batería es diferente de 10 horas.
32

 Es importante tener en cuenta que la elección entre una prueba de una cola o una prueba de
dos colas depende de la afirmación específica que se quiere probar y de la pregunta de
investigación.
 Las pruebas de una cola son adecuadas cuando estamos interesados en demostrar si un
valor es mayor o menor que cierto valor, mientras que las pruebas de dos colas son más
apropiadas cuando estamos interesados en determinar si un valor es simplemente diferente
de cierto valor sin tener una dirección específica en mente.
33 Errores tipo I y tipo II
 Probar una hipótesis estadística es una decisión probabilística, por lo que existe el riesgo
de cometer un error tipo I o un error tipo II.
 Error tipo I ocurre si se rechaza H0 cuando ésta es verdadera,
 Error tipo II es cuando se acepta H0 y ésta es falsa.
 En toda prueba de hipótesis cada tipo de error tiene una probabilidad de ocurrir.
 Con a y b se denotan las probabilidades de los errores tipo I y II, respectivamente.

 α = P{error tipo I} = probabilidad de rechazar H0 siendo verdadera

 β = P{error tipo II} = probabilidad de aceptar H0 siendo falsa


 A 1 – β se le llama potencia de la prueba, y es la probabilidad
34 de rechazar H0 cuando es falsa.

 A α también se le conoce como la significancia dada de la


prueba y es la probabilidad de la región o intervalo de
rechazo; su valor se especifica por parte del investigador
desde que planea el estudio.

 Por lo general se utilizan los valores α = 0.05 o 0.01, dependiendo del


riesgo que se quiera admitir en la conclusión.

 Mientras más pequeño es el valor de α, se requiere más evidencia en


los datos para rechazar H0.
35

 Por lo general, en las pruebas de hipótesis se especifica el valor de α y se diseña


la prueba de tal forma que el valor de b sea pequeño.

 Esto es, la probabilidad del error tipo I se controla directamente.

 La probabilidad del error tipo II se controla de manera indirecta con el tamaño de


la muestra, ya que a más datos, b será menor.

En otras palabras, con una muestra grande es mayor la potencia de la prueba.


Ejemplo
 Supongamos que una empresa de alimentos quiere evaluar si un nuevo método de producción
36 de yogures ha mejorado la vida útil del producto en comparación con el método anterior.

 Hipótesis nula (H0): El nuevo método de producción no tiene ningún efecto


significativo en la vida útil del yogur.
 Hipótesis alternativa (HA): El nuevo método de producción ha mejorado
significativamente la vida útil del yogur.

 Ahora, se realizan las pruebas de hipótesis utilizando una muestra de yogures y se obtienen
los siguientes resultados:

 Error Tipo 1 (Falso positivo):


 Decisión: Se rechaza H0 (se acepta HA).
 Interpretación: La empresa concluye que el nuevo método de producción ha mejorado
significativamente la vida útil del yogur.
 Realidad: En realidad, el nuevo método de producción no tiene ningún efecto significativo en la vida
útil del yogur (H0 es verdadera).
 El error tipo 1 ocurre cuando se rechaza incorrectamente la hipótesis nula cuando es
37 verdadera. Es decir, se llega a una conclusión afirmativa cuando no hay suficiente evidencia
para respaldarla.

 Error Tipo 2 (Falso negativo):


 Decisión: No se rechaza H0.
 Interpretación: La empresa no encuentra evidencia suficiente para afirmar que el nuevo método de
producción ha mejorado significativamente la vida útil del yogur.
 Realidad: En realidad, el nuevo método de producción ha mejorado significativamente la vida útil
del yogur (H1 es verdadera).

 El error tipo 2 ocurre cuando no se rechaza incorrectamente la hipótesis nula cuando es


falsa. Es decir, se llega a una conclusión negativa cuando hay suficiente evidencia para
respaldar la hipótesis alternativa.

 En resumen, el error tipo 1 implica llegar a una conclusión positiva falsa, mientras que el
error tipo 2 implica llegar a una conclusión negativa falsa. Ambos tipos de errores son
importantes considerar al realizar pruebas de hipótesis, y el objetivo es minimizarlos a través
del diseño adecuado de la prueba y el tamaño de la muestra.
38 Prueba de media y varianza
 Cuando se estudia el comportamiento de un proceso o un fenómeno, a través de una
variable aleatoria continua, suele interesar su media y varianza (o desviación estándar).
 En particular, al estudiar la media µ, es de interés preguntarse si ésta es igual, mayor o
menor que cierto valor µ0, donde µ0, es un número conocido.
 Por ejemplo, puede ser de interés investigar si el rendimiento promedio del proceso
durante esta semana es igual, mayor o menor que el de la semana anterior, µ 0,. Cualquiera
de estas tres preguntas se responden planteando una hipótesis estadística adecuada.
 Las hipótesis se pueden probar suponiendo la varianza poblacional s 2 conocida o
desconocida.
 Sin embargo, como en la mayoría de los problemas es irreal suponer de antemano que se
39 conoce la varianza, nos limitamos a describir el caso cuando s 2 no se conoce.

 Sea X una variable aleatoria con distribución normal con media m y varianza s 2, ambas
desconocidas. Se quiere probar la hipótesis de que la media es igual a cierto valor m0. Es
decir, la hipótesis a probar es

H0 : µ = µ0
HA : µ ≠ µ0

También podría gustarte