Está en la página 1de 32

Distribución muestral de medias

Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del
límite central) que la fdp de la media muestral es también normal con media m y
varianza s2/n. Esto es exacto para poblaciones normales y aproximado (buena
aproximación con n>30) para poblaciones cualesquiera. Es decir es el error
típico, o error estándar de la media.

¿Cómo usamos esto en nuestro problema de estimación?


1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1 (la
llamada z); pero haciendo la transformación (llamada tipificación)

una normal de media m y desviación s se transforma en una z.

Llamando za al valor de una


variable normal tipificada que deja
a su derecha un área bajo la curva
de a, es decir, que la probabilidad
que la variable sea mayor que ese
valor es a(estos son los valores
que ofrece la tabla de la normal)

podremos construir intervalos de


la forma

para los que la probabilidad es 1


- .

(DURA PEIRó, 1992)


DISTRIBUCION MUESTRAL DE LA PROPORCION

Las distribuciones muestrales que se han presentado centran su atención


en la distribución de la media de las variables cuantitativas, por otro lado, al
examinar las variables cualitativas la característica que se suele tomar en cuenta
es la proporción de éxitos. Probablemente en algunos casos se desee hacer una
encuesta donde se estuviese interesado en estimar la proporción de familias que
tengan un auto económico (4 cilindros); o a un político quizá le interese estimar la
verdadera proporción de votos que obtendrá un determinado candidato; en control
de calidad quizá al investigador le interese determinar la tasa real de ocurrencia
de un defecto en particular.
Para hacer un análisis de este tipo de estadísticos (características) se
define lo siguiente:

Proporción de éxitos en la población.

Numero de resultados
exitosos
p 
Numero total de resultado

La desviación de la proporción


 p


(cortez, 2012)
DISTRIBUCION T-STUDENT

En probabilidad y estadística, la distribución t-Student es una distribución de


probabilidad que surge del problema de estimar la media de una población
normalmente distribuida cuando el tamaño de la muestra es pequeño.

Una variable aleatoria se distribuye según el modelo de t-Student con n grados de


libertad, donde n es un entero positivo,
Z

DISTRIBUCION MUESTRAL DE LA VARIANZA


Ahora estudiaremos la distribución de muestreo teórica de la
varianzasmuestral de muestras aleatorias de poblaciones normales. Como la
varianza muestral S2 no puede ser negativa, deberíamos sospechar que esta
distribución de muestreo no es una curva normal; en efecto, se relaciona con la
distribución chi-cuadrada, y se tiene lo siguiente

Si S2es la varianza de una muestra aleatoria de tamaño n tomada de una población normal con la
varianza 2, entonces:

 x x 
2

 n 1 2 n

 2 s  i 1
 
2 2

Es la variable aleatoria con la distribución chi-cuadrada con el parámetro =n-1(grados de libertad).


Características de un estimador

1) Sesgo. Se dice que un estimador es insesgado si la Media de la distribución del


estimador es igual al parámetro.
Estimadores insesgados son la Media muestral (estimador de la Media de la
población) y la Varianza (estimador de la Varianza de la población):

Ejemplo
En una población de 500 puntuaciones cuya Media (m) es igual a 5.09 han hecho
un muestreo aleatorio (número de muestras= 10000, tamaño de las muestras= 100)
y hallan que la Media de las Medias muestrales es igual a 5.09, (la media
poblacional y la media de las medias muestrales coinciden). En cambio, la Mediana
de la población es igual a 5 y la Media de las Medianas es igual a 5.1 esto es, hay
diferencia ya que la Mediana es un estimador sesgado.
La Varianza es un estimador sesgado. Ejemplo: La Media de las Varianzas
obtenidas con la Varianza

en un muestreo de 1000 muestras (n=25) en que la Varianza de la población es


igual a 9.56 ha resultado igual a 9.12, esto es, no coinciden. En cambio, al utilizar la
Cuasi varianza

la Media de las Varianzas muestrales es igual a 9.5, esto es, coincide con la
Varianza de la población ya que la Cuasi varianza es un estimador insesgado.

2) Consistencia. Un estimador es consistente si aproxima el valor del parámetro


cuanto mayor es n (tamaño de la muestra).
Algunos estimadores consistentes son:
Ejemplo
En una población de 500 puntuaciones cuya Media (m) es igual a 4.9 han hecho
tres muestreos aleatorios (número de muestras= 100) con los siguientes resultados:

vemos que el muestreo en que n=100 la Media de las Medias muestrales toma el
mismo valor que la Media de la población.

3) Eficiencia. Diremos que un estimador es más eficiente que otro si la Varianza de


la distribución muestral del estimador es menor a la del otro estimador. Cuanto
menor es la eficiencia, menor es la confianza de que el estadístico obtenido en la
muestra aproxime al parámetro poblacional.
Ejemplo
La Varianza de la distribución muestral de la Media en un muestreo aleatorio
(número de muestras: 1000, n=25) ha resultado igual a 0.4. La Varianza de la
distribución de Medianas ha resultado, en el mismo muestreo, igual a 1.12, (este
resultado muestra que la Media es un estimador más eficiente que la Mediana).

Estimación puntual

La estimación de parámetros tiene por finalidad asignar valores a los parámetros


poblacionales a partir de los estadísticos obtenidos en las muestras. Dicho de otra
manera, la finalidad de la estimación de parámetros es caracterizar las poblaciones
a partir de la información de las muestras (por ejemplo, inferir el valor de la Media
de la población a partir de los datos de la muestra).

Estimación por intervalos

La estimación por intervalos consiste en establecer el intervalo de valores donde es más


probable se encuentre el parámetro. La obtención del intervalo se basa en las siguientes
consideraciones:
a) Si conocemos la distribución muestral del estimador podemos obtener las
probabilidades de ocurrencia de los estadísticos muestrales.
b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la
probabilidad de que el estimador se halle dentro de los intervalos de la distribución
muestral.
c) El problema es que el parámetro poblacional es desconocido, y por ello el
intervalo se establece alrededor del estimador. Si repetimos el muestreo un gran
número de veces y definimos un intervalo alrededor de cada valor del estadístico
muestral, el parámetro se sitúa dentro de cada intervalo en un porcentaje conocido
de ocasiones. Este intervalo es denominado "intervalo de confianza".

Ejemplo
Se generan 100000 muestras aleatorias (n=25) de una población que sigue la
distribución Normal, y resulta:

La distribución de las Medias muestrales aproxima al modelo Normal:

En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias


muestrales es

(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución


muestral son los valores cuya función de distribución es igual a 0.975 y 0.025
respectivamente y se pueden obtener en las tablas de la distribución Normal
estandarizada o de funciones en aplicaciones informáticas como Excel).
Seguidamente generamos una muestra de la población y obtenemos su Media, que
es igual a 4.5. Si establecemos el intervalo alrededor de la Media muestral, el
parámetro poblacional (5.1) está incluido dentro de sus límites:

Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por


esa razón, la distancia desde m a la Media muestral es la misma que va de la Media
muestral a m. En consecuencia, si hacemos un muestreo con un número grande de
muestras observamos que el 95% de las veces (aproximadamente) el valor de la
Media de la población (m) se encuentra dentro del intervalo definido alrededor
de cada uno de los valores de la Media muestral. El porcentaje de veces que el
valor de m se halla dentro de alguno de los intervalos de confianza es del 95%, y
es denominado nivel de confianza.
Si queremos establecer un intervalo de confianza en que el % de veces que m se
halle dentro del intervalo sea igual al 99%, la expresión anterior es:

(Obtenemos el valor +-2.58 que multiplica la Desviación Típica de la distribución


muestral en las tablas de la distribución Normal estandarizada o de funciones en
aplicaciones informáticas como Excel), y son los valores cuya función de
probabilidad es igual a 0.995 y 0.005 respectivamente).

Ejemplo
La siguiente imagen muestra la distribución de las Medias muestrales obtenidas de
100000 muestras aleatorias y los intervalos alrededor de cada una de las Medias
obtenidas de diez de las muestras:

donde ls y le simbolizan los límites superior e inferior del intervalo de confianza al


95%.
Nueve de los diez intervalos (salvo el definido alrededor de la Media muestral igual
a 3.7) incluyen el valor del parámetro dentro sus límites.

Intervalo de confianza para la media

Dada una variable aleatoria con distribución Normal N(μ, σ), el objetivo es la construcción
de un intervalo de confianza para el parámetro μ, basado en una muestra de tamaño n de
la variable.
Desde el punto de vista didáctico hemos de considerar dos posibilidades sobre la
desviación típica de la variable: que sea conocida o que sea desconocida y
tengamos que estimarla a partir de la muestra. El caso de σ conocida, ya comentado
anteriormente, no pasa de ser un caso académico con poca aplicación en la
práctica, sin embargo es útil desde del punto de vista didáctico.

Caso de varianza conocida


Dada una muestra X1, ..., Xn, el estadístico
se distribuye según una Normal estándar. Por tanto, aplicando el método del pivote
podemos construir la expresión

donde zα/2 es el valor de una distribución Normal estándar que deja a su derecha
una probabilidad de α/2, de la que se deduce el intervalo de confianza

Puede repasarse la construcción más detallada.

Caso de varianza desconocida


Dada una muestra X1, ..., Xn, el estadístico

se distribuye según una t de Student de n − 1 grados de libertad. Por tanto, y


siguiendo pasos similares a los del apartado anterior, el intervalo de confianza
resultante es

donde tα/2 es el valor de una distribución t de Student con n − 1 grados de libertad


que deja a su derecha una probabilidad de α/2.
Con el programa siguiente podemos calcular el intervalo de confianza para la media
de una distribución Normal con desviación típica desconocida.
Intervalos de confianza para la proporción

Dada una variable aleatoria con distribución Binomial B (n, p), el objetivo es la
construcción de un intervalo de confianza para el parámetro p, basada en una
observación de la variable que ha dado como valor x. El mismo caso se aplica si
estudiamos una Binomial B (1, p) y consideramos el número de veces que ocurre el
suceso que define la variable al repetir el experimento n veces en condiciones
de independencia.

Existen dos alternativas a la hora de construir un intervalo de confianza para p:

 Considerar la aproximación asintótica de la distribución Binomial en la


distribución Normal.

 Utilizar un método exacto.

Aproximación asintótica

Tiene la ventaja de la simplicidad en la expresión y en los cálculos, y es la más


referenciada en la mayoría de textos de estadística. Se basa en la aproximación

que, trasladada a la frecuencia relativa, resulta

Tomando como estadístico pivote

que sigue una distribución N(0, 1), y añadiendo una corrección por continuidad al
pasar de una variable discreta a una continua, se obtiene el intervalo de confianza
asintótico:
donde zα/2 es el valor de una distribución Normal estándar que deja a su derecha
una probabilidad de α/2 para un intervalo de confianza de (1 − α) · 100 %. Las
condiciones generalmente aceptadas para considerar válida la aproximación
asintótica anterior son:

El intervalo obtenido es un intervalo asintótico y por tanto condicionado a la validez


de la aproximación utilizada. Una información más general sobre los intervalos de
confianza asintóticos puede encontrase.

Intervalo exacto

Aun cuando las condiciones anteriores no se verifiquen, es posible la construcción


de un intervalo exacto, válido siempre, pero algo más complicado en los cálculos.
Es posible demostrar que un intervalo exacto para el parámetro p viene dado por
los valores siguientes:

donde Fα/2,a,b es el valor de una distribución F de Fisher-Snedecor con a y b grados


de libertad que deja a su derecha una probabilidad de α/2 para un intervalo de
confianza de (1 − α) · 100 %.

Una justificación de los intervalos de confianza exactos para distribuciones discretas


puede encontrarse.

En el programa siguiente se pueden calcular los intervalos de confianza asintótico


y, si n es menor de 100, también el exacto para una proporción.

Determinación del tamaño de la muestra.


Si deseamos estimar una proporción, debemos saber: a) El nivel de confianza o
seguridad (1-α). El nivel de confianza prefijado da lugar a un coeficiente (Zα). Para
una seguridad del 95% = 1.96, para una seguridad del 99% = 2.58. b) La precisión
que deseamos para nuestro estudio. c) Una idea del valor aproximado del parámetro
que queremos medir (en este caso una proporción). Esta idea se puede obtener
revisando la literatura, por estudio pilotos previos. En caso de no tener dicha
información utilizaremos el valor p = 0.5 (50%). Investigación: Determinación del
tamaño muestral 2/6 www.fisterra.com Atención Primaria en la Red Ejemplo: ¿A
cuantas personas tendríamos que estudiar para conocer la prevalencia de
diabetes? Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que
puede ser próxima al 5%; si no tuviésemos ninguna idea de dicha proporción
utilizaríamos el valor p = 0,5 (50%) que maximiza el tamaño muestral: donde: • Zα
2 = 1.962 (ya que la seguridad es del 95%) • p = proporción esperada (en este caso
5% = 0.05) • q = 1 – p (en este caso 1 – 0.05 = 0.95) • d = precisión (en este caso
deseamos un 3%) Si la población es finita, es decir conocemos el total de la
población y deseásemos saber cuántos del total tendremos que estudiar la
respuesta seria: donde: • N = Total de la población • Zα 2 = 1.962 (si la seguridad
es del 95%) • p = proporción esperada (en este caso 5% = 0.05) • q = 1 – p (en este
caso 1-0.05 = 0.95) • d = precisión (en este caso deseamos un 3%). ¿A cuántas
personas tendría que estudiar de una población de 15.000 habitantes para conocer
la prevalencia de diabetes? Seguridad = 95%; Precisión = 3%; proporción esperada
= asumamos que puede ser próxima al 5% ; si no tuviese ninguna idea de dicha
proporción utilizaríamos el valor p = 0.5 (50%) que maximiza el tamaño muestral.
Según diferentes seguridades el coeficiente de Zα varía, así: • Si la seguridad Zα
fuese del 90% el coeficiente sería 1.645 • Si la seguridad Zα fuese del 95% el
coeficiente sería 1.96 • Si la seguridad Zα fuese del 97.5% el coeficiente sería 2.24
• Si la seguridad Zα fuese del 99% el coeficiente sería 2.576.

Basado en la media de población.

Consideremos una población, con una distribución normal respecto de una variable
aleatoria; extraemos una muestra por alguno de los procedimientos del epígrafe
anterior.
Para la variable aleatoria que estamos considerando podemos calcular la media y
la desviación típica en la muestra, que en general serán distintas a las
correspondientes de la población :

Si la muestra tiene n individuos y los valores concretos que toma la variable


aleatoria X son : x1 , x2 , ...,xn , los parámetros que se calculan en la muestra son :
La media muestral :
La varianza muestral y la desviación típica muestral :

La cuasivarianza muestral y la cuasidesviación típica muestral :

Consideremos una población, con una variable aleatoria X que se distribuye


normalmente, y donde conocemos que la desviación típica es σ ; sólo
desconocemos la media de la población, μ.
Tomamos muestras de tamaño n y calculamos la media muestral para cada
muestra :

El valor que toma la media muestral dependerá de la muestra seleccionada, como


la toma de la muestra es aleatoria, la media muestral es una variable aleatoria ;
como cada valor que toma esta variable aleatoria, depende de la suma de n valores,
por el Teorema Central del Límite, sabemos que además se distribuye
normalmente.
Estimación puntual de la media
Hemos visto como las medias de las muestras se distribuyen normalmente en torno
a la media de la población, con una desviación típica que disminuye cuando
aumenta el tamaño de la muestra.
Por tener estas cualidades, se dice que la media muestral
es centrada y consistente para estimar la media de la población, es decir es un
buen estimador puntual para conocer la media de una población, en el caso de
que ésta se desconozca.
La media muestral nos da una buena aproximación de la media de la población,
cuando ésta se desconoce; pero no da ninguna otra información, nada acerca de si
la aproximación ha sido buena o si por el contrario ha sido mala, ni de los
porcentajes o probabilidades de que sea buena o mala.
Este inconveniente lo evitamos utilizando la estimación de la media por intervalos
de confianza.
Estimación de la media de la población por intervalos de confianza
Sabemos como se distribuyen las medias muestrales, sólo desconocemos la media
de la población. Si supiéramos la media de la población, podríamos calcular un
intervalo, alrededor de la media, tal que con una probabilidad dada, las medias de
las muestras estuvieran dentro de ese intervalo.
Por ejemplo, supongamos que queremos que la probabilidad de que la media de
una muestra esté dentro del intervalo a calcular, sea de 0,95; sólo tenemos que
tipificar y mediante la tabla de la distribución normal estándar, calcular tα para α =
1-0,95=0,05

Como no conocemos la media de la población, μ, la sustituimos por la media de la


muestra, con lo cual el intervalo será diferente para cada muestra, pero, con
probabilidad 1-α , la media de la población, estará dentro del intervalo así calculado.

Así, basándonos en la media de la muestra, damos un intervalo en el que podemos


suponer que se encuentra la media de la población con una confianza del 1-α.

Intervalo de confianza para la media de la población


El intervalo de confianza, para la media de una población, con un nivel de confianza
de 1- α , siendo X la media de una muestra de tamaño n y σ la desviación típica de
la población, es:

Error máximo
El error maximo en la estimación, que se comete con una confianza del 1-α, es:

De las variables que intervienen en la estimación, error máximo, confianza y tamaño


de la muestra N, siempre podremos fijar dos y calcular la tercera, por tanto en
ocasiones, fijamos el error máximo, la confianza y calculamos el tamaño de la
muestra:

Tamaño de la muestra

Observación
Estamos suponiendo que la desviación típica de la población es conocida, pero es
raro que no se conozca la media y se conozca la desviación típica; lo normal, será
que no se conozca ni la media ni la desviación típica de la población.
La varianza de la muestra no es un estimador centrado de la varianza de la
población, y sin embargo, la cuasi varianza de la muestra, sí es un estimador
centrado de la varianza de la población; por tanto, es mejor estimador de la varianza
de la población, la cuasi varianza de la muestra.
Como :

Para valores grandes de n es prácticamente igual, tomar como estimador de la


varianza de la población, la varianza o la cuasi varianza de la muestra; pero, para
valores pequeños de n (en la práctica se considera pequeño n ≤ 30), es mejor
estimar la varianza de la población, mediante la cuasi varianza.
Basado en la proporción de la población.

En poblaciones dicotómicas con una proporción de éxitos el estimador puntual del


parámetro es la proporción muestral
de éxitos, p, que coincide con la media de la muestra cuando se codifica como 1 la
característica que se considera como éxito y 0 la que se considera no éxito. A partir
de un tamaño muestral moderadamente grande el estadístico p tiene una
distribución aproximadamente normal. El intervalo de confianza para la proporción
poblacional está centrado en la proporción muestral; siendo sus límites superior e
inferior donde z/2 es el valor crítico correspondiente al grado de confianza 1- de la
distribución normal tipificada y es el error típico de la proporción.

Para obtener el intervalo de confianza y contrastar hipótesis sobre la proporción una


alternativa consiste en tratar a la proporción como la media poblacional de una
variable dicotómica codificada como se ha descrito anteriormente (éxito=1, no
éxito=0) y la secuencia es:

Para el intervalo de confianza:


Analizar estadísticos Descriptivos Explorar para contrastar la hipótesis nula analizar
comparar medias prueba T para una muestra

Utilizando este criterio los resultados numéricos no coinciden exactamente con los
que se obtendrían aplicando la expresión del error típico de la proporción; no
obstante, la discrepancia es despreciable si el número de observaciones es
suficientemente grande.
Otras alternativas para realizar este contraste son de naturaleza no paramétrica.
PRUEBA BINOMIAL
La prueba binomial prueba binomial analiza variables dicotómicas y compara las
frecuencias observadas en cada categoría con las que cabría esperar según una
distribución binomial de parámetro especificado en la hipótesis nula. El nivel de
significación crítico de esta prueba indica la probabilidad de obtener una
discrepancia igual o superior a la observada a partir de la muestra si la distribución
es la postulada por la hipótesis nula.
El nivel de significación crítico (bilateral) de este contraste debe interpretarse como:
el número de éxitos en la muestra.
Cuando n es suficientemente grande se calcula esta probabilidad aproximando la
distribución binomial a la normal con corrección de continuidad.
PRUEBA DE HIPÓTESIS PARA LA MEDIA
En vez de estimar el valor de un parámetro, a veces se debe decidir si una
afirmación relativa a un parámetro es verdadera o falsa. Es decir, probar una
hipótesis relativa a un parámetro. Se realiza una prueba de hipótesis cuando se
desea probar una afirmación realizada acerca de un parámetro o parámetros de una
población.
Una hipótesis es un enunciado acerca del valor de un parámetro (media, proporción,
etc.).
Prueba de Hipótesis es un procedimiento basado en evidencia muestral
(estadístico) y en la teoría de probabilidad (distribución muestral del estadístico)
para determinar si una hipótesis es razonable y no debe rechazarse, o si es
irrazonable y debe ser rechazada.
La hipótesis de que el parámetro de la población es igual a un valor determinado se
conoce como hipótesis nula. Una hipótesis nula es siempre una de status quo o de
no diferencia.

En toda prueba de hipótesis se presentan 3 casos de zonas críticas o llamadas


también zonas de rechazo de la hipótesis nula, estos casos son los siguientes:
En toda prueba de hipótesis se pueden cometer 2 tipos de errores:
Se utiliza una prueba de una muestra para probar una afirmación con respecto a
una media de una población única.

Nota: Se considera práctico utilizar la distribución t solamente cuando se requiera


que el tamaño de la muestra sea menor de 30, ya que para muestras más grandes
los valores t y z son aproximadamente iguales, y es posible emplear la distribución
normal en lugar de la distribución t.

Ejemplos ilustrativos:
1) La duración media de una muestra de 300 focos producidos por una compañía
resulta ser de 1620 horas.
Como se tiene como dato el tamaño de la población se tiene que verificar si cumple
con la condición para utilizar el factor finito de corrección.
Los cálculos en Excel se muestran en la siguiente imagen:

El gráfico elaborado con Winstats y Paint se muestra en la siguiente imagen:


(Ibujes, 2012)

PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN


Existe gran cantidad de variables que, por su naturaleza, no pueden ser trabajadas
como variables continuas, es decir, los valores que toman son meramente
cualitativos, en específico se ajustan a una distribución binomial. Las variables
binomiales son aquellas que solamente pueden ser separadas en dos
clasificaciones distintas, son del tipo pasa o no pasa, éxito o fracaso, defectuoso o
no defectuoso.
La prueba para la proporción poblacional contrasta la diferencia de la proporción
obtenida en la muestra con la hipotética poblacional. Anderson y otros explican que
los métodos para realizar la prueba de hipótesis son semejantes a los usados para
las pruebas de hipótesis para la media poblacional. La única diferencia es que para
calcular el estadístico de prueba se usa la proporción muestral y su error estándar.
Hipótesis nula Hipótesis alterna Región de rechazo
𝐻1 : 𝑃 < 𝑃0 Cola inferior (izquierda)
𝐻0 : 𝑃 = 𝑃0 𝐻1 : 𝑃 ≠ 𝑃0 Ambas colas (bilateral)
𝐻1 : 𝑃 > 𝑃0 Cola superior (derecha)

El estadístico de prueba supone que la distribución de la proporción poblacional se


aproxima a la distribución normal, debido a que los tamaños poblacionales son
suficientemente grandes. Es por ello que el valor que se calcula es:

𝑃̂ − 𝑝0
𝑍=
√𝑝0 (1 − 𝑝0 )
𝑛
Donde 𝑝̂ es la proporción estimada a partir de los datos muestrales y se obtiene al
dividir el número de éxitos o eventos ocurridos entre el numero total de elementos
inspeccionados, es decir:
𝑥
𝑝̂ =
𝑛
La regla de decisión ya la conocemos y el valor critico es obtenido de la tabla de
áreas bajo la curva normal estándar.
(morales, 2017)
PRUEBA DE HIPÓTESIS PARA LA VARIANZA
Para variables continuas, en muchas ocasiones resulta ser de interés aplicar
pruebas acerca del comportamiento que puede tener la varianza o la desviación
estándar poblacional. Resulta ser un buen complementó para las pruebas de
hipótesis de la media, ya que con la hipótesis que se presenta en este tema se
evalúa la variabilidad que puede tener un proceso. Siendo 𝜎02 la varianza
hipotética poblacional, las hipótesis que se evalúan son las de la tabla:
Hipótesis nula Hipótesis alterna Región de rechazo
𝐻1 : 𝜎 2 < 𝜎02 Cola inferior (izquierda)
𝐻0 : 𝜎 2 − 𝜎02 𝐻1 : 𝜎 2 ≠ 𝜎02 Ambas colas (bilateral)
𝐻1 : 𝜎 2 > 𝜎02 Cola superior (derecha)

Es importante considerar que es mucho mas fácil entender un valor expresado en


desviación estándar que en varianza; por lo tanto, las hipótesis pueden ser
modificadas eliminando a ambos lados de las desigualdades la potencia cuadrada,
de esa forma se convierten en hipótesis para la desviación estándar. La operación
a realizar sigue siendo la misma, sin importar si es hipótesis para varianza o
desvío estándar.

2
(𝑛 − 1)𝑆 2
𝑥 =
𝜎02
Se recomienda observar bien los datos con los que se esta trabajando, ya que la
formula anterior pide varianzas, así que si se tienen varianzas en los datos de un
problema no hace falta elevarlos al cuadrado. El valor critico sigue una distribución
𝑥 2 con v= n-1 grados de libertad y se obtienen de la tabla de valores críticos de la
distribución ji-cuadrada.
(morales, 2017)
PRUEVA DE KOLMOGOROV
En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una
prueba no paramétrica que determina la bondad de ajuste de dos distribuciones de
probabilidad entre sí.
En el caso de que queramos verificar la normalidad de una distribución, la prueba
de Lilliefors conlleva algunas mejoras con respecto a la de Kolmogórov-Smirnov; y,
en general, el test de Shapiro–Wilk o la prueba de Anderson-Darling son alternativas
más potentes.
Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los
valores cercanos a la mediana que a los extremos de la distribución. La prueba de
Anderson-Darling proporciona igual sensibilidad con valores extremos.
. La prueba de Kolmogorov es una prueba de bondad de ajuste, es decir, del grado
en que la distribución observada difiere de otra distribución. Es una alternativa a la
prueba Ji Cuadrado de bondad de ajuste cuanto el número de datos es pequeño.
La prueba no debe ser aplicada si hay muchos empates.
a) Supuestos. Los datos están medidos al menos a nivel ordinal.
b) Hipótesis Nula: No hay diferencias entre las distribuciones comparadas.
c) Estadístico de contraste: D (mayor diferencia entre las frecuencias relativas de
las distribuciones).
d) Distribución del estadístico de contraste: Específico dependiendo de la
distribución con que se compare la distribución observada.
Ejemplo
Desean saber si una muestra de debe datos pertenece a una población
normalmente distribuida. Los datos (ordenados de menor a mayor) son:

b) Hipótesis Nula: No hay diferencia estadísticamente significativa entre la


distribución de la población a que pertenece la muestra y la distribución Normal.
Hipótesis Alternativa: Hay diferencia estadísticamente significativa entre la
distribución de la población a que pertenece la muestra y la distribución Normal.
c) Estadístico de contraste. Obtención del estadístico de contraste:
Tipificar la muestra:
Obtener los valores típicos que corresponden a diez intervalos de una distribución
Normal:
-1.28, -0.84, -0.52, -0.25, 0, 0.25, 0.52, 0.84, 1.28
(Valores que corresponden a los puntos cuya función de distribución Normal
estandarizada son 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8 y 0.9)
Emparejar las distribuciones tipificadas hipotética (Normal en el ejemplo) y
observada:

(Notas:
* F(X) se refiere al límite superior del intervalo.
* Los valores en la columna F(X)obs son funciones de la distribución Normal
estandarizada y son los que correspondería a las puntuaciones
observadas si ajustaran a la distribución Normal, es decir, si la Hipótesis Nula fuera
verdadera)
D=0.2
e) Significación del estadístico de contraste: De acuerdo con las tablas de la prueba
es igual a 0.81
f) Se acepta la Hipótesis Nula por ser mayor la significación del estadístico de
contraste que el nivel previamente establecido (alfa= 0.05)
(MENDOZA, 2003)
La prueba de kolmogorov es una prueba no paramétrica más, su uso es para
evaluar si la distribución que sigue una variable se ajusta a alguna distribución
teórica conocida. Nótese que su uso es igual que el de las pruebas de bondad de
ajuste de la ji-cuadrada, es un método sencillo que mide las diferencias entre las
frecuencias relativas acumuladas de la distribución de la variable y de la distribución
teórica con la que se está contrastando, también se mencionan las ventajas que
tiene la prueba de KS con la 𝑥 2 , que son:
 Prueba más poderosa
 Más fácil de usar
 No requiere que los datos se agrupen de alguna manera
 De especial interés para muestras pequeñas.
La hipótesis nula que se plantea parte del supuesto de igualdad entre las dos
distribuciones de probabilidad y su contraparte rechaza esa igualdad.
El estadístico de prueba se obtiene por:
Dn = Max|EA − OA |
Donde |EA − OA | es la desviación absoluta, EA es la frecuencia esperada acumulada
y OA es la frecuencia observada acumulada. El Dn se compara con el valor crítico
de la tabla Dα, n, si el valor calculado es mayor que el valor de tabla se rechaza Ho,
lo que implica que no existe evidencia estadística para pensar que las distribuciones
son iguales. (morales, 2017)
PRUEBA DE ANDERSON- DARLING.
El estadístico de Anderson-Darling (AD) mide qué tan bien siguen los datos una
distribución en particular. Por lo general, mientras mejor se ajuste la distribución a
los datos, menor será el estadístico AD.
El estadístico AD se utiliza para calcular el valor p para la prueba de bondad de
ajuste, que ayuda a determinar qué distribución se ajusta mejor a los datos. Por
ejemplo, el estadístico AD se calcula para cada distribución cuando usted realiza
Identificación de distribución individual. Los valores p calculados a partir del
estadístico ayudan a determinar qué modelo de distribución se debe utilizar para
un análisis de capacidad o un análisis de fiabilidad. El estadístico AD también se
usa para comprobar si una muestra de datos proviene de una población con una
distribución especificada. Por ejemplo, tal vez tenga que comprobar si sus datos
cumplen con el supuesto de normalidad para una prueba t.
Las hipótesis para la prueba de Anderson-Darling son:
H0: Los datos siguen una distribución especificada.
H1: Los datos no siguen una distribución especificada.
Si el valor p para la prueba de Anderson-Darling es menor que el nivel de
significancia seleccionado (por lo general 0.05 o 0.10), concluya que los datos no
siguen la distribución especificada. Minitab no siempre muestra un valor p para la
prueba de Anderson-Darling, porque este no existe matemáticamente para ciertos
casos.
Si está comparando el ajuste de varias distribuciones, la distribución con el valor p
más grande por lo general se ajusta más estrechamente a los datos. Si las
distribuciones tienen valores p similares, escoja una de las distribuciones con base
en el conocimiento práctico.
Algunos comandos generan un estadístico de Anderson-Darling, o AD*, ajustado.
El estadístico de Anderson-Darling no ajustado utiliza la función de paso no
paramétrica basada en el método de Kaplan-Meier para calcular los puntos de la
gráfica, mientras que el estadístico de Anderson-Darling ajustado utiliza otros
métodos para calcular los puntos de la gráfica. (GONZALES, 2012)
Bibliografía
Ibujes, M. O. (2012). Interaprendizaje de Probabilidades y Estadística Inferencial con Excel,
Winstats y Graph. Ibarra, Ecuador.: M & V. Obtenido de Interaprendizaje de
Probabilidades y Estadística Inferencial con Excel, Winstats y Graph.

morales, h. ,. (2017). estadistica inferencia 1. En j. a. morales, estadistica inferencia 1 (pág. 142).


tierra blanca.

Bibliografías
(valencia, 2000)
(desconocido, 2006)
(desconocido, 2006)
(S., 2001)
(desconocido, estadistica inferencial, s.f.)
(desconocido, estadisdica inferencial 1, 2003)

BIBLIOGRAFIA:
GONZALES, J. (22 de JUNIO de 2012). SUPPORT.MINITAP.COM. Obtenido de
SUPPORT.MINITAP.COM: https://support.minitab.com/es-mx/minitab/18/help-and-how-
to/quality-and-process-improvement/capability-analysis/supporting-topics/distributions-
and-transformations-for-nonnormal-data/anderson-darling-and-distribution-fit/

MENDOZA, P. C. (12 de SEPTIEMBRE de 2003). UV (UNIVERSIDAD DE VALENCIA). Obtenido de UV


(UNIVERSIDAD DE VALENCIA):
https://www.uv.es/webgid/Inferencial/22_kolmogorov.html

morales, j. a. (2017). estadistica inferencial para 1 para ingenieros en logistica e industrial.


tierrablanca ver: instituto tecnologico superior de tierrablanca.

También podría gustarte