Tema 4 Estadistica

4.1.
2 Prueba de independencia
La prueba de independencia, nos permite determinar si existe una relación entre
dos variables categóricas. Esta prueba nos indica si existe o no una relación entre
las variables, pero no indica el grado o el tipo de relación; es decir, no indica el
porcentaje de influencia de una variable sobre la otra o la variable que causa la
influencia.
Debemos de conocer cuáles son los eventos independientes y los eventos

dependientes:
a) Son eventos independientes si la probabilidad de un evento no está afectada

por la ocurrencia del otro evento,
b) Son eventos dependientes los que la probabilidad de un evento está afectada
por la ocurrencia del otro.
En esta prueba se pregunta si la ocurrencia del evento X es independiente a la

ocurrencia del evento Y, por lo que se plantea las hipótesis siguientes:
a) Ho= La ocurrencia del evento X es independiente del evento Y.

b) H1= La ocurrencia del evento X no es independiente del evento Y.
Procedimiento para elaborar una prueba de independencia.
1. Obtener la frecuencia observada (F.O), obtenida de una encuesta,

experimento, etc.
2. Resumir la frecuencia observada en un cuadro de contingencia.
3. Calcular la frecuencia esperada (F.E), usando la siguiente formula:

4. Determinar el nivel de significancia (α), y los grados de libertad, con la
siguiente formula:
5. Plantear la hipótesis.
H0: Independencia
H1: Dependencia
6. Construir las áreas de aceptación y rechazo.
7. Calcular ji-Cuadrada
F.O= es una frecuencia observada en una categoría determinada.

F.E= es una frecuencia esperada en una categoría determinada.
8. Tomar una decisión y emitir una conclusión en términos del problema.
Ejemplo:
Una agencia de publicidad desea saber si el género de los consumidores es

independiente de sus preferencias de cuatro marcas de café. La respuesta
determinará si se deben diseñar diferentes anuncios dirigidos a los hombres y otros
diferentes para las mujeres. Realice la prueba con un nivel de significancia del 5%.
1. Los resultados obtenidos de la encuesta realizada a 139 personas fueron:
MARCA HOMBRE MUJERES

A 18 32
B 25 15
C 15 10
D 12 12
2. Elaboración de la tabla de contingencia.
3. Calcular la frecuencia esperada.
4. Calcular los grados de libertad
5. Plantear la hipótesis.
H0= La marca de café que se consume es independiente del sexo de una persona.
H1= La marca de café que se consume depende del sexi de una persona.
6. Construcción de las áreas de aceptación y rechazo
7. Calcular ji-Cuadrada
8. Tomar una decisión y concluir.

*Aceptar Ho
Con un nivel de confianza del 5% se encontró que la marca de café es
independiente del sexo de la persona. Por lo que se recomienda elaborar un
sólo tipo de anuncio
4.1.3 Prueba de bondad de ajuste

Frecuencias esperadas iguales
La prueba de bondad de ajuste se trata de utilizar la prueba de ji-cuadrada para

decidir si una distribución de probabilidad es la distribución apropiada, así mismo
nos permite cuestionar para probar si existe una diferencia significativa entre una
distribución observada y de frecuencia y una distribución teórica de frecuencias.
En otras palabras, podemos precisar hasta qué punto encaja en la distribución de

los datos que hemos observado. Así pues, podemos determinar si debemos creer
que los datos observados constituyen una muestra extraída de la supuesta
distribución teórica.
Procedimiento para elaborar una prueba de bondad y ajuste.
1. Se establecen las hipótesis nula y alternativa. La hipótesis nula, H0, es

que no existe diferencia entre el conjunto de frecuencias observadas y el
conjunto de frecuencias esperadas. La hipótesis alternativa, H 1, es que si
existe una diferencia entre los dos conjuntos de frecuencias.
2. Se selecciona el nivel de significancia.
3. Se escoge el estadístico de prueba. El estadístico de prueba es la

distribución ji-cuadrada, que se denota por x2:
Con K – 1 grados de libertad, donde:

K= es el número de categorías.
F.O= es una frecuencia observada en una categoría determinada.
F.E= es una frecuencia esperada en una categoría determinada.
4. Se formula la regla de decisión. A este número se le denomina el valor

crítico, este valor se encuentras en la tabla de ji-cuadrada.
5. Se calcula el valor de ji-cuadrada, y se toma una decisión.
Ejemplo:
Un dado se lanzó 36 veces, haga una prueba con un nivel de significancia del 5%,
para comprobar si el dado es legal o no. Los resultados obtenidos del ejercicio
fueron los siguientes:
Número de puntos 1 2 3 4 5 6
Frecuencia observada 2 5 8 7 6 7
Frecuencia esperada:
Paso 1: Se establece las hipótesis nula y alternativa.
H0: La frecuencia observada en el lanzamiento del dado es igual a la frecuencia esperada,

de dicho lanzamiento.
H1: La frecuencia observada en el lanzamiento del dado es diferente a la frecuencia

esperada de dicho lanzamiento.
Paso 2: Se selecciona el nivel de significancia. Se elige el nivel 0.05, que es igual

a la probabilidad de cometer un error tipo 1. Por tanto, 0.05 es la probabilidad de
rechazar la hipótesis nula verdadera.
Paso 3: Se realiza el estadístico de prueba.
Paso 4: Se formula la regla de decisión

Paso 5: Se calcula el valor de ji-cuadrada y se toma una decisión.
Aceptar H0:
Se encontró evidencia estadística, que un nivel de significancia del 5%, que es dado
es legal.
Frecuencias esperadas diferentes
La prueba de bondad de ajuste también puede ser utilizada si las frecuencias

esperadas no son iguales. En este caso también se utilizan los mismos pasos
mencionados en el ejercicio de frecuencias esperadas iguales para obtener el
resultado.
Ejemplo:
Un estudio a nivel nacional de las admisiones en hospital, durante en periodo de

dos años, presentó los siguientes estadísticos respecto s los adultos mayores
residentes en centros de asistencia y que fueron hospitalizados en cualquier
momento durante el periodo. Se tiene que un 40% fueron admitidos sólo una vez en
el periodo de dos años. Que 14% fueron admitidos tres veces, y así sucesivamente.
La administradora del hospital local desea comparar la experiencia del Bartow
Country Hospital con el patrón de asistencia nacional. Selecciono a 400 adultos
mayores. ¿Cómo pueden compararse las frecuencias locales observadas del
estudio nacional con los porcentajes del estudio local? Se usará la significancia del
0.05
Estudio nacional Estudio local
Veces Porcentaje Veces Número de
admitidas del total admitidas personas
1 40 1 165
2 20 2 79
3 14 3 50
4 10 4 44
5 8 5 32
6 6 6 20
7 2 7 10
100 400
Veces Fo Fe
admitidas
1 165 160
2 79 80
3 50 56
4 44 40
5 32 32
6 20 24
7 10 8
400 400
Paso 1: Se establece la hipótesis nula y alternativa.
H0= No existe diferencia entre la situación local y la situación nacional.

H1= Si existe diferencia entre las situaciones local y nacional.
Paso 2: Se selecciona nivel de significancia. En este caso será el 0.05

Paso 3: Se escoge el estadístico de prueba.
Paso 4: Se formula la regla de decisión. Existen 7 categorías de admisión, por lo

que los grados de libertad son gl = k-7 = 7-1 = 6. El valor critico obtenido de la tabla
es 12.592.
Paso 5: Se calcula el valor de ji cuadrada y se toma una decisión. El valor de X2=

2.379, por tanto, se acepta la hipótesis nula de que no existe diferencia entre los
hospitales.
4.1.3 Tablas de contingencia

La información proporcionada por una tabla bidimensional puede expresarse en
términos diversos: frecuencias absolutas conjuntas, relativas conjuntas,
condicionadas de una variable a valores de la otra. Además, puede derivarse el
comportamiento unidimensional de las variables implicadas mediante las
distribuciones marginales.
La tabla bidimensional recibe el nombre de tabla de contingencia cuando las

características en estudio no son cuantitativas.
Una tabla de doble entrada para las variables X e Y con p filas y k columnas:
La tabla de contingencia clasifica datos de acuerdo a dos o más categorías,

relacionadas con cada una de las variables cualitativas, que pueden ser o no
estadísticamente independientes. Esta tabla muestra todas las posibles
combinaciones de categorías o contingencias.
Distribuciones condicionales de Y a los valores de X
Son distribuciones unidimensionales para la variable Y en distintas condiciones

(valores de X). Se obtiene dividiendo cada casilla por el total de la columna.
Distribuciones condicionales de X a los valores de Y
Son distribuciones unidimensionales para la variable y en distintas condiciones

(valores de Y). Se obtiene de la tabla anterior dividiendo cada casilla por el total de
la fila.
Distribuciones marginales:
Marginal de Y
Distribución unidimensional formada por los valores Yi (i=1, …, p) cuya frecuencia

asociada se obtiene sumando las casillas correspondientes de la fila i-ésima.
Marginal de X
Distribución unidimensional formada por los valores Xj (j=1, …, k) cuya frecuencia

asociada se obtiene sumando las casillas correspondientes a la columna j-ésima.
Ejemplo:
Supongamos que, en cuatro regiones, la Compañía Nacional de Cuidado de la

Salud, de Estados Unidos, muestrea las actitudes de los empleados que sus
hospitales respecto a la evaluación del desempeño en el trabajo. Los trabajadores
eligen entre el método actual (dos evaluaciones al año) y un nuevo método
propuesto (evaluación trimestral).
Noreste Sureste Central Costa oeste TOTAL

Número de empleados
que prefieren el método 68 75 57 79 279
actual
Número de empleados
que prefieren el nuevo 32 45 33 31 141
método
TOTAL 100 120 90 110 420
Frecuencias observadas y esperadas
Supongamos que ahora simbolizamos las proporciones verdaderas de la población

total de empleados que prefieren el plan actual como:
PN= Proporción de empleados en el noreste que prefieren el plan actual.
PS= Proporción de empleados en el sureste que prefieren el plan actual.
PC= Proporción de empleados de la región central que prefieren el plan actual.
PW= Proporción de empleados de la región de la costa oeste que prefieren el plan

actual.
Utilizando estos símbolos, podemos establecer las hipótesis nula y alternativa de la

siguiente manera:
H0: PN=PC=PW=PS
H1: PN,PC,PW,PS no son iguales
Si la hipótesis nula es verdadera, podemos combinar los datos de las cuatro

muestras y luego estimar la proporción dela fuerza de trabajo (la población total)
que prefieren el método de evaluación actual:
68+75+57+79
=
100+120+90+110
279
=270
=0.6643
Obviamente, si el valor 0.6643 estima la proporción de población esperada que
prefieren el método presente de evaluación, entonces 0.3357 (=1 – 0.6643) es la
estimación de la proporción esperada de la población que prefiere el nuevo método
propuesto. Con los valores obtenidos podemos estimar el número de empleados de
la muestra de cada región que podríamos esperar que prefieran cada uno de los
métodos de evaluación.
Costa
Noreste Sureste Central oeste
Número total 100 120 90 110
muestreado
Proporción estimada que
prefiere el método X 0.6643 X 0.6643 X 0.6643 X 0.6643
actual
Número que se espera
prefiera el método 66.43 79.72 59.79 73.07
actual
Número total
muestreado 100 120 90 110
Proporción estimada que
prefiere el nuevo X0.3357 X0.3357 X0.3357 X0.3357
método
Número que se espera
prefiera el nuevo 33.57 40.28 30.21 36.93
método
Noreste Sureste Central Costa oeste

FRECUENCIA CON QUE PREFIEREN EL
MÉTODO ACTUAL:
Frecuencia observada (real) 68 75 57 79
Frecuencia esperada (teórica) 66.43 79.72 59.79 73.07
FRECUENCIA CON QUE PREFIEREN EL

NUEVO MÉTODO:
Frecuencia observada (real) 32 45 33 31
Frecuencia esperada (teórica) 33.57 40.28 30.21 36.93
Para probar la hipótesis nula H0: PN=PC=PW=PS debemos comparar las frecuencias
que se observaron con las frecuencias que esperaríamos si la hipótesis nula fuera
verdadera. Si los conjuntos de frecuencias observadas y esperadas son casi
iguales, podemos razonar de manera intuitiva que la hipótesis nula se acepta. Si
existe una diferencia grande entre frecuencias, podemos rechazar la hipótesis nula
intuitivamente y concluir que existen diferencias significativas en las proporciones
de empleados de las cuatro regiones que prefieren el nuevo método.
4.2 Pruebas no paramétricas
La mayoría de las pruebas de hipótesis hacen inferencias respecto a los parámetros

de la población, como la media y la proporción. Estas pruebas paramétricas usan la
estadística paramétrica de muestras que provinieron de la población que se está
probando. Para formular estas pruebas se hacen suposiciones restrictivas sobre las
poblaciones de las que se extraen las muestras. Algunas muestras son muy grandes
o previenen de poblaciones de distribución normal, pero las poblaciones no siempre
son normales. Para estos casos, requerimos alternativas a la estadística
paramétrica. Es aquí donde entran las pruebas no paramétricas, las cuales no
hacen suposiciones restrictivas respecto a la forma de las distribuciones de la
población.
Las hipótesis de una prueba no paramétrica se refieren a algo distinto del valor de
un parámetro de población. Existe un gran número de pruebas de este tipo, pero en
este trabajo solo veremos a fondo las siguientes: prueba de Kolmogorov Smirnov,
prueba de Anderson Darling, prueba de Ryab Joiner y prueba de Shappiro Wilk.
Ventajas de los métodos no paramétricos
Los métodos no paramétricos tienen ciertas ventajas claras sobre los métodos
paramétricos:
1. No requieren la suposición de que una población está distribuida en forma de

curva norma u otra forma específica.
2. Generalmente, es más sencillo realizarlas y entenderlas. La mayor parte de
las pruebas no paramétricas no exigen el tipo de cálculos laboriosos a
menudo necesarios.
3. Algunas veces no se requiere un ordenamiento o clasificación formal.
Desventajas de los métodos no paramétricos
Dos desventajas acompañan al uso de pruebas no paramétricas:
1. Ignoran cierta cantidad de información.

2. No son tan eficientes o “claras” como las pruebas paramétricas.
4.2.2 Métodos estadísticos contra no paramétricos
Las técnicas estadísticas de estimación de parámetros, intervalos de confianza y

prueba de hipótesis son, en conjunto, denominadas estadística paramétrica y son
aplicadas básicamente a variables continuas. Estas técnicas se basan en
especificar una forma de distribución de la variable aleatoria y de los estadísticos
derivados de datos. En estadística paramétrica se asume que la población de la
cual la muestra es extraída es normal o aproximadamente normal. Esta propiedad
es necesaria para que la prueba de hipótesis sea válida. Sin embargo, en un gran
número de casos no se pueden determinar la distribución original ni la distribución
de los estadísticos por lo que en realidad no tenemos parámetros a estimar.
Tenemos solo distribuciones que comparar. Esto se llama estadística no
paramétrica. La hipótesis de una prueba no paramétrica se refiere a algo distinto del
valor de un parámetro de la población.
Las principales pruebas no paramétricas son las siguientes:
a. Prueba de X2 de Pearson.
b. Prueba binomial.
c. Prueba de Anderson-Darling
d. Prueba de Cochrane
e. Prueba de Cohen Kappa
f. Prueba de Friedman
g. Prueba de Kolmogorov-Smimov
h. Prueba de Kruskal-Wallis
i. Prueba de Siegel-Tukey
j. Prueba de Wald-Wolfowitz
k. Prueba de los signos de Wilcoxon
l. Prueba de Ryan Joiner
m. Prueba de Shapiro Wilk

Tema 4 Estadistica

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 4 Estadistica

Cargado por

Copyright:

Formatos disponibles

4.1.

Debemos de conocer cuáles son los eventos independientes y los eventos

a) Son eventos independientes si la probabilidad de un evento no está afectada

En esta prueba se pregunta si la ocurrencia del evento X es independiente a la

a) Ho= La ocurrencia del evento X es independiente del evento Y.

Procedimiento para elaborar una prueba de independencia.

1. Obtener la frecuencia observada (F.O), obtenida de una encuesta,

2. Resumir la frecuencia observada en un cuadro de contingencia.

3. Calcular la frecuencia esperada (F.E), usando la siguiente formula:

6. Construir las áreas de aceptación y rechazo.

F.O= es una frecuencia observada en una categoría determinada.

8. Tomar una decisión y emitir una conclusión en términos del problema.

Una agencia de publicidad desea saber si el género de los consumidores es

1. Los resultados obtenidos de la encuesta realizada a 139 personas fueron:

MARCA HOMBRE MUJERES

3. Calcular la frecuencia esperada.

4. Calcular los grados de libertad

8. Tomar una decisión y concluir.

4.1.3 Prueba de bondad de ajuste

La prueba de bondad de ajuste se trata de utilizar la prueba de ji-cuadrada para

En otras palabras, podemos precisar hasta qué punto encaja en la distribución de

Procedimiento para elaborar una prueba de bondad y ajuste.

1. Se establecen las hipótesis nula y alternativa. La hipótesis nula, H0, es

2. Se selecciona el nivel de significancia.

3. Se escoge el estadístico de prueba. El estadístico de prueba es la

Con K – 1 grados de libertad, donde:

4. Se formula la regla de decisión. A este número se le denomina el valor

5. Se calcula el valor de ji-cuadrada, y se toma una decisión.

Paso 1: Se establece las hipótesis nula y alternativa.

H0: La frecuencia observada en el lanzamiento del dado es igual a la frecuencia esperada,

H1: La frecuencia observada en el lanzamiento del dado es diferente a la frecuencia

Paso 2: Se selecciona el nivel de significancia. Se elige el nivel 0.05, que es igual

Paso 3: Se realiza el estadístico de prueba.

Paso 4: Se formula la regla de decisión

Frecuencias esperadas diferentes

La prueba de bondad de ajuste también puede ser utilizada si las frecuencias

Un estudio a nivel nacional de las admisiones en hospital, durante en periodo de

Paso 1: Se establece la hipótesis nula y alternativa.

H0= No existe diferencia entre la situación local y la situación nacional.

Paso 2: Se selecciona nivel de significancia. En este caso será el 0.05

Paso 4: Se formula la regla de decisión. Existen 7 categorías de admisión, por lo

Paso 5: Se calcula el valor de ji cuadrada y se toma una decisión. El valor de X2=

4.1.3 Tablas de contingencia

La tabla bidimensional recibe el nombre de tabla de contingencia cuando las

La tabla de contingencia clasifica datos de acuerdo a dos o más categorías,

Son distribuciones unidimensionales para la variable Y en distintas condiciones

Distribuciones condicionales de X a los valores de Y

Son distribuciones unidimensionales para la variable y en distintas condiciones

Distribución unidimensional formada por los valores Yi (i=1, …, p) cuya frecuencia

Distribución unidimensional formada por los valores Xj (j=1, …, k) cuya frecuencia

Supongamos que, en cuatro regiones, la Compañía Nacional de Cuidado de la

Noreste Sureste Central Costa oeste TOTAL

Supongamos que ahora simbolizamos las proporciones verdaderas de la población

PN= Proporción de empleados en el noreste que prefieren el plan actual.

PS= Proporción de empleados en el sureste que prefieren el plan actual.

PC= Proporción de empleados de la región central que prefieren el plan actual.

PW= Proporción de empleados de la región de la costa oeste que prefieren el plan

Utilizando estos símbolos, podemos establecer las hipótesis nula y alternativa de la

H1: PN,PC,PW,PS no son iguales

Si la hipótesis nula es verdadera, podemos combinar los datos de las cuatro

Noreste Sureste Central Costa oeste

Frecuencia observada (real) 68 75 57 79