Está en la página 1de 10

Apunte Académico

Pruebas para K muestras


independientes

Clase 4: Independencia de las muestras / Determinación de distribuciones de


probabilidades.

Unidad 2: Análisis de Datos de Entrada.


Asignatura: Modelos de Simulación.
Facultad: Ingeniería y Negocios.
1. Introducción:
Muchos estudios tienen objetivos como los siguientes:
a) Determinar si el lugar de residencia de los que compran automóviles guarda
alguna relación con sus preferencias por las marcas.
b) Un sociólogo tiene como objetivo determinar si el estatus socioeconómico de los
ciudadanos influye en su actitud frente a la corrupción en el país.
c) Determinar si existe relación entre la edad de los ciudadanos y sus preferencias
por las marcas de gaseosa.
d) Determinar si existe relación entre tipo de vuelo con el tipo de boleto que usan
para sus viajes.
e) Determinar la relación entre la edad de las personas con su hábito de lectura.
f) Conocer si la participación de una determinada marca de gas propano en el
mercado del gas en cuatro ciudades se da en la misma proporción.
g) Una empresa encuestadora tiene como objetivo estudiar si los afiliados a los
diferentes partidos políticos se dan de una manera homogénea.
h) Determinar si la proporción de amas de casa que compran detergente de la
marca A es la misma en las ciudades de Trujillo, Chiclayo y Piura.
i) Se observa claramente que en los casos a), b), c), d), e), se busca determinar la
posible relación entre dos variables cualitativas o categóricas. Que en forma
general podemos simbolizar por las letras A y B. La técnica estadística para
realizar el análisis de la relación entre dos variables cualitativas o categóricas es
la denominada Prueba de Independencia.
En cambio, en los casos f), g) y h) el propósito es analizar la homogeneidad de
la distribución de una variable en varias poblaciones. La técnica estadística para
estos casos es la Prueba de Homogeneidad.
Para llevar a cabo estas pruebas se construye una tabla de contingencia.

2. Tabla de contingencia.
Con mucha frecuencia el análisis estadístico se orienta a la evaluación de la
existencia o no de una relación entre dos variables a partir de una muestra aleatoria
de tamaño n. Cuando ambas variables son cuantitativas y se realizan mediciones
de los valores en cada uno de n elementos o individuos, usando una escala de
ordinal, de intervalo o de razón, el análisis se realiza a través de alguno de los
coeficientes de correlación.
Cuando se trata de analizar la relación entre dos variables cualitativas, medidas en
escala nominal u ordinal, o cuando una o ambas variables cuantitativas han sido
categorizadas, para llevar a cabo el análisis de la relación entre dichas variables se
obtiene una muestra de tamaño n y se construye una tabla de frecuencias conjunta
con una estructura similar a la tabla 1. Dicha tabla se denomina tabla de clasificación
cruzada, tabla bivariante, tabla bidimensional, etc. La denominación más utilizada
es la de tabla de contingencia, que tiene la siguiente estructura.

Tabla de contingencia

Variable Variable B Total


A B1 B2 Bj Bc ni.

A1 n11 n12 … n1j … n1c n1.


A2 n21 n22 … n2j … n2c n2.
: : : … : … : :
Ai ni1 ni2 … nij … nic ni.
: : : … : … : :
Ar nr1 nr2 … nrj … nrc nr.
n=
Total n.j n.1 n.2 … n.j … n.c n..

En esta tabla:
nij es la frecuencia conjunta de la fila i y columna j de la tabla de contingencia y
ni. es el total de la fila (renglón) de la tabla de contingencia
n.j es el total de la columna j en la tabla de contingencia
n es la cantidad total de datos o tamaño de la muestra

3. Prueba de Independencia
Esta tabla de contingencia permite analizar la relación entre las variables A y B.
Las hipótesis estadísticas que se formulan son:
Hipótesis Nula Ho: Las variables A y B. Que es lo mismo que decir que No existe
relación entre las variables A y B.
Hipótesis Alternativa H1: Las variables A y B no son independientes (Existe
relación entre las variables A y B).

Estadístico de prueba (Prueba Ji-Cuadrado)


El estadístico que se usa para probar esta hipótesis es el conocido estadístico Ji-
Cuadrado que está dado por,

c r (nij − eij ) 2
χ = ∑∑2

j =1 i =1 eij

Cuando la hipótesis nula es cierta este estadístico tiene una distribución que se
aproxima a una Chi-Cuadrado con grados de libertad igual a (r-1)*(c-1).

Las nij son las frecuencias observadas y las

eij son las frecuencias esperadas bajo la hipótesis de independencia. Estas


frecuencias esperadas se calculan mediante la relación:

ni . * n. j
eij =
n

Dado que la tabla de contingencia es una tabla de r filas y c columnas se suele


llamar tabla r*c. Nótese que para calcular el valor del estadístico es necesario
calculas las r*c frecuencias esperadas.

3.1 Región crítica.


Es una prueba unilateral, de extremo derecho y la región crítica o región de rechazo
es:

χ 2 ≥ χ [21−α , ( r −1)( c −1)]

χ[21−α , ( r −1)(c −1)]


El valor crítico se obtiene de la tabla de la distribución acumulativa
de la distribución Chi-Cuadrado. Obsérvese que valores grandes de Chi-Cuadrado
calculado con los datos muestrales llevan a la decisión de rechazar la hipótesis nula,
por el contrario, valores bajos de Chi-Cuadrado conducirán al no rechazo de la
hipótesis nula.

Ejemplo
Un administrados lleva adelante un estudio con el objetivo de descubrir la posible
relación que puede existir entre las fallas de que presentan cinco máquinas y el
turno de operación de dichas máquinas. Se han obtenidos datos de 160 fallas y se
han clasificado en la siguiente tabla de contingencia.

Máquina
Máquina Máquina Máquina Máquina
Turno A B C D Total
Mañana 12 6 12 13 43
Tarde 10 12 19 22 63
Noche 13 10 13 18 54
Total 35 28 44 53 160

Vamos a realizar la Prueba de independencia para las dos variables involucradas


en este caso.
El objetivo del estudio es descubrir la posible relación entre las fallas de las
máquinas y el turno de trabajo.

1) La hipótesis nula y alternativa son:


Ho: Las fallas de las máquinas son independientes del turno de trabajo.
H1: Las fallas de las máquinas no son independientes del turno de trabajo.

2) La prueba se hará con un 5% de significancia.


3) El estadístico de prueba es el Chi-Cuadrado,
c r (nij − eij ) 2
χ = ∑∑
2

j =1 i =1 eij

4) La región crítica. Α = 0.05, r = 3, c = 4, Grados de libertad es:


(r-1) *(c-1) = 2*3 = 6

χ 2 ≥ χ [21−α , ( r −1)(c −1)] χ [20.95, 6 ] = 12.59

χ 2 ≥ 12.59

Se calculan las frecuencias esperadas para cada celda de la tabla y se obtiene la


siguiente tabla:
Máquina A
Máquina Máquina Máquina Máquina
Turno A B C D Total
Mañana 9.41 7.53 11.83 14.24 43
Tarde 13.78 11.03 17.33 20.87 63
Noche 11.81 9.45 14.85 17.89 54
Total 35 28 44 53 160

Se puede observar que no hay frecuencias esperadas menores que cinco, por lo
que procedemos a calcular el valor del estadístico.
c r (nij − eij ) 2
χ = ∑∑
2

j =1 i =1 eij
=
(12 − 9.41) 2 (6 − 7.53) 2 (18 − 17.89) 2
χ2 = + + ... + = 2.87
9.41 7.53 17.89

5) Decisión. Dado que 2.87 es menor que 12.59, no se rechaza la hipótesis nula.
6) Se concluye que no hay relación entre las fallas de las máquinas y el turno de
trabajo de estas.
4. Prueba de Homogeneidad

Objetivo.
La prueba de Homogeneidad tiene como objetivo analizar si una variable cualitativa
o categórica se distribuye de manera uniforme en k poblaciones.
Sea A una variable cualitativa con k categorías: A1, A2, …, Ar.

Hipótesis.
Las hipótesis nula y alternativa de una prueba de homogeneidad son:
Ho: La variable A se distribuye de manera uniforme en las k poblaciones.
H1: La variable A no se distribuye de manera uniforme en las k poblaciones.

Estadístico de prueba

c r (nij − eij ) 2
χ = ∑∑
2

j =1 i =1 eij

Si la hipótesis nula es cierta, el estadístico tiene distribución Chi-cuadrad con grados


libertad = (r-1) *(c-1).
El procedimiento para calcular el valor experimental del estadístico de prueba Chi-
cuadrado es exactamente igual al cálculo de Chi-cuadrado en la prueba de
independencia.

1. Se toman muestras aleatorias de tamaños n1, n2, …, nk, respectivamente, de


las k poblaciones.

2. Se forma una tabla de contingencia con las distribuciones de frecuencias de


cada muestra.
Variable Muestra Muestra Muestra Muestra
A 1 2 j k
A1 n11 n12 … n1j … n1c
A2 n21 n22 … n2j … n2c
: : : … : … :
Ai ni1 ni2 … nij … nic
: : : … : … :
Ar nr1 nr2 … nrj … nrc
Tamaño
de
n1 n2 … nj … nc
muestra
nj

La estructura de esta tabla es similar a la tabla que se construye para la prueba de


independencia, la diferencia está en que en la prueba de Independencia se toma
una muestra aleatoria de n sujetos u objetos y se clasifican según dos criterios, las
frecuencias marginales (totales de filas y columnas) se conocen después de hacer
la tabulación cruzada. En la tabla de contingencia de la prueba de homogeneidad,
una de las frecuencias marginales es conocidas con antelación (son los tamaños de
muestra), de acuerdo con la estructura de la tabla anterior, se conocen los totales
de cada comuna, que no son otra cosa que los tamaños de muestra.

3. Se calculan las frecuencias esperadas, eij, finalmente se calcula el valor del


estadístico Chi-cuadrado y p-valor asociado y se toma la decisión de rechazar o
no rechazar la hipótesis nula usando la regla general.

Ejemplo.
Un empresario desea saber si los consumidores de cinco marcas de gaseosa:
Coca-Cola, Pepsi, Inca cola, Kola real y Fanta se distribuyen de manera uniforme
en las ciudades de Piusa, Chiclayo, Trujillo y Lima. Con tal propósito realiza una
encuesta a sendas muestras de consumidores de gaseosa en las cuatro ciudades.
Los resultados se presentan en la tabla de contingencia siguiente.
Marca de
gaseosa Piura Chiclayo Trujillo Lima
Coca-Cola 60 90 122 138
Pepsi 120 130 102 162
Inca Kola 104 100 114 152
Kola real 72 50 38 46
Fanta 44 130 74 102
Tamaño de
400 500 450 600
muestra (nj)

¿Es posible concluir que las proporciones de consumidores de las cinco marcas de
gaseosa no son homogéneas en las cuatro ciudades? Use un nivel de significancia
del 5%.

Solución. Para responder a la pregunta anterior es necesario realizar una prueba


de homogeneidad.
Realizar la prueba respectiva siguiendo los pasos de una prueba de hipótesis.

Resumen Gráfico:
Conclusiones:

Dos pruebas que permiten contrastar si k >2 muestras aleatorias e independientes


proceden de una misma población, es decir, si un factor que subdivide la población
de origen incide de forma significativa sobre el valor central de la población. Estos
contrastes son alternativas no paramétricas al análisis de la varianza cuando se
incumple alguno de los supuestos básicos de dicho análisis. El único requisito para
aplicar estos contrastes es que la variable esté medida al menos en una escala
ordinal.
La pregunta que surge es: ¿Cuándo dos muestras son independientes o son
pareadas?

• Muestras Independientes: Diremos que dos muestras son independientes


cuando no se establece ninguna relación previa al análisis entre las unidades de
una y otra muestra. Por ejemplo, sujetos de uno y otro curso, enfermos de dos
consultorios, hombres comparados con mujeres.

• Muestras Pareadas: Si suponemos dos variables o poblaciones X e Y, pero no


independientes, estaremos en el caso recoge el ejemplo del estudio de
tratamiento: para saber si un nuevo tratamiento es efectivo sobre sobre un cierto
factor (dolor, temperatura, movilidad), se prueba n un grupo de personas y se
miden los efectos antes y después del mismo. La variable X representa la
medición del factor de interés en una muestra de n pacientes antes del
tratamiento, y la variable Y representa la medición del mismo factor después de
realizado el tratamiento.

Referencias:

• DownieNM, HearthRW. Métodos estadísticos aplicados. 5ta ed. España: Harla;


1973.
• Lipschutz. S., Schiller. J., Introducción a la Probabilidad y Estadística.2001
Editorial Mc Graw Hill.
• Evans. M., Rosenthal. J. Probabilidad y Estadística. 2005 editorial Reverte.

También podría gustarte