Está en la página 1de 8

INSTITUTO POLITÉCNICO NACIONAL.

ESCUELA SUPERIOR DE COMERCIO Y ADMINISTRACIÓN.


UNIDAD TEPEPAN.

UNIDAD DE APRENDIZAJE.
ESTADÍSTICA APLICADA.

EQUIPO 3

MAESTRA:

INTEGRANTES:
VALDESPINO HERNANDEZ NAIDELIN TERESITA.
VELASCO ANDRADE NANCY.
MIRANDA APOLINAR FERNANDO.

TAREA:
DISTRIBUCIÓN JI CUADRADA.
CONCEPTOS TEÓRICOS,
DISTRIBUCIÓN JI CUADRADA.
La distribución ji cuadrado es una distribución teórica de valores de una población. Se usa para comprobar hipótesis
sobre si ciertos datos son como se esperaba. Dado que la ji-cuadrada es l suma de variables aleatorias independientes,
por el teorema del límite central, esta distribución se aproxima a un normal conforme k crece.

El único parámetro de la distribución ji-cuadrada son los grados de libertad (el parámetro k) que corresponde al número
de variables aleatorias independientes en la suma que define la variable. La variable ji-cuadrada siempre es positiva,
pues corresponde a la suma de variables al cuadrado.

Se utiliza para pruebas estadísticas en las que la estadística de la prueba sigue una distribución ji cuadrado. Dos pruebas
comunes que se basan en la distribución ji cuadrado son la prueba de bondad de ajuste de ji cuadrado y la prueba de
independencia de ji cuadrado.

CONSTRUCCIÓN DEL ESTADÍSTICO JI CUADRADA


PARTIR DE FRECUENCIAS OBSERVADAS Y ESPERADAS.
- Pruebas de hipótesis de independencia utilizando Ji cuadrada.
- Pruebas de bondad de ajuste.

PRUEBAS DE HIPÓTESIS DE INDEPENDENCIA UTILIZANDO JI


CUADRADO.
¿Qué es la prueba de independencia ji cuadrado? La prueba de independencia de ji cuadrado es una prueba
estadística de hipótesis que se usa para determinar si dos variables categóricas o nominales pueden estar o no
relacionadas.
¿Cuándo puedo usar esta prueba? Puede usar esta prueba cuando tenga conteos de valores de dos variables
categóricas.
¿Puedo usar esta prueba si tengo los conteos de frecuencia en una tabla? Sí. Si solo tiene una tabla de valores con
los conteos de frecuencia, puede usar esta prueba.
Usar la prueba de independencia ji cuadrado: La prueba de independencia ji cuadrado comprueba si es probable que
dos variables estén o no relacionadas. Tenemos conteos de dos variables nominales o categóricas. También tenemos la
noción de que ambas no están relacionadas. Esta prueba nos da una forma de decidir si esta noción es plausible o no.
Las siguientes secciones repasan lo que necesitamos para la prueba, cómo llevarla a cabo, cómo entender los
resultados, detalles estadísticos y cómo interpretar valores p.
¿Qué necesito? Para la prueba de independencia de ji cuadrado necesitamos dos variables. Nuestra idea es que ambas
no guardan relación. He aquí un par de ejemplos:
- Tenemos una lista de géneros cinematográficos; es nuestra primera variable. La segunda variable es si los
espectadores de estos géneros compran snacks en el cine o no. Nuestra idea (o en términos estadísticos,
nuestra hipótesis nula) es que el tipo de película y la compra de snacks no guardan relación. El propietario del
cine quiere estimar cuántos snacks comprar. Si género y snacks son independientes, la estimación será más
sencilla que si el tipo de película afecta a las ventas de aperitivos.
- Una clínica veterinaria tiene una lista de las razas de perros que atienden. La segunda variable es si sus dueños
les dan comida seca, enlatada o una combinación de ambas. Nuestra idea es que la raza de perro y el tipo de
dieta son independientes. Si es el caso, la clínica puede hacer pedidos de alimento solo en función del número
de perros, sin atender a su raza.

Para realizar una prueba válida necesitamos:


- Valores de datos que son una muestra aleatoria simple de la población de interés.
- Dos variables categóricas o nominales. No use la prueba de independencia en variables continuas que definen
las combinaciones de categoría. Sin embargo, los conteos de combinaciones de las dos variables categóricas
serán continuos.
- Para cada combinación de niveles de las dos variables, necesitamos por lo menos cinco valores esperados.
Cuando tenemos menos de cinco valores para cualquier combinación, los resultados de la prueba no son fiables.

Ejemplo de prueba de independencia de ji cuadrado:


Vamos a examinar con más atención el ejemplo de los snacks en el cine. Supongamos que recogemos datos de 600
personas en nuestro cine. Para cada persona, sabemos el tipo de película que vieron y si compraron snacks o no.
Vamos a empezar por responder a esto: ¿Es la prueba de independencia de ji cuadrado un método apropiado para
evaluar la relación entre el tipo de película y las compras de snacks?
- Tenemos una muestra aleatoria simple de 600 personas que han visto una película en nuestro cine. Cumplimos
este requisito.
- Nuestras variables son el tipo de película y si se compraron o no snacks. Ambas variables son categóricas.
Cumplimos este requisito.
- El último requisito es que haya más de cinco valores esperados para cada combinación de las dos variables.
Para confirmarlo, tenemos que saber los conteos totales para cada tipo de película y los de si se compraron o no
snacks. Por ahora, supondremos que cumplimos este requisito y lo comprobaremos más adelante.

Parece que, en efecto, hemos seleccionado un método válido. (Aún tenemos que comprobar que se esperen más de
cinco valores para cada combinación.)
He aquí nuestros datos resumidos en una tabla de contingencia:
Tabla 1: Tabla de contingencia para datos de películas y snacks

Tipo de película Snacks No snacks

Acción 50 75

Comedia 125 175

Familiar 90 30

Terror 45 10
Antes de ir más allá, vamos a comprobar la suposición de cinco valores esperados en cada categoría. Los datos tienen
más de cinco conteos en cada combinación de tipo de película y snacks. Pero ¿cuáles son los conteos esperados si el
tipo de película y las compras de snacks son independientes?

Hallar conteos esperados


Para hallar los conteos esperados para cada combinación película-snacks primero necesitamos los totales de fila y de
columna, que se muestran a continuación:
Tabla 2: Tabla de contingencia para datos de películas y snacks con totales de fila y de columna

Tipo de película Snacks No snacks Totales de fila

Acción 50 75 125

Comedia 125 175 300

Familiar 90 30 120

Terror 45 10 55

Totales de columna 310 290 SUMA TOTAL = 600


Los conteos esperados para cada combinación de película-snack se basan en los totales de fila y columna. Multiplicamos
el total de fila por el de columna y luego dividimos por la suma total. Esto nos da el conteo esperado para cada celda de
la tabla. Por ejemplo, para la celda Acción-Snacks, tenemos:
125×310600=38,750600=65125×310600=38,750600=65

Hemos redondeado la respuesta al número entero más próximo. Si no hay relación entre el tipo de película y la compra
de snacks, esperaríamos que 65 personas hubiesen visto una película de acción con snacks.
He aquí los conteos reales y esperados para cada combinación de película-snack. En cada celda de la Tabla 3, que se
muestra a continuación, el conteo esperado aparece en negrita debajo del conteo real. Los conteos esperados están
redondeados al número entero más próximo.
Tabla 3: Tabla de contingencia para los datos de películas y snacks, que muestran el conteo real comparado con
el esperado

Tipo de película Snacks No snacks Totales de fila

50 75
Acción 125
65 60

125 175
Comedia 300
155 145

90 30
Familiar 120
62 58

45 10
Terror 55
28 27

Totales de columna 310 290 SUMA TOTAL = 600


Al utilizar software, estos valores calculados se etiquetarán como “valores esperados” “conteos de celdas esperados" o
algún término similar. Todos los conteos esperados para nuestros datos son mayores que cinco, de manera que
cumplimos el requisito para aplicar la prueba de independencia.

Antes de calcular la estadística de la prueba, vamos a echar un vistazo de nuevo a la tabla de contingencia. Los conteos
esperados utilizan los totales de fila y de columna. Si miramos cada una de las celdas, veremos que algunos de los
conteos esperados son próximos a los reales, pero la mayoría no. Si no hay relación alguna entre el tipo de película y las
compras de snacks, los conteos real y esperado serán similares. Si hay relación, los conteos real y esperado serán
diferentes.

Un error habitual con los conteos esperados es limitarse a dividir la suma total por el número de celdas. En el caso de
nuestros datos de películas, es 600 / 8 = 75. Esto no es correcto. Sabemos los totales de fila y de columna. Estos son
fijos y no pueden cambiar para nuestros datos. Los valores esperados se basan en los totales de fila y columna, no solo
en la suma total.

Hacer la prueba
La idea básica al calcular la estadística de la prueba es comparar los resultados esperados y los reales, en función de los
totales de fila y columna que tenemos en los datos. Primero calculamos la diferencia entre conteos reales y esperados
para cada combinación de película-snacks. Luego calculamos su cuadrado. Elevarlos al cuadrado le da la misma
importancia a las combinaciones con más y con menos valores reales que los esperados. A continuación, dividimos por
el valor esperado de la combinación. Sumamos estos valores para cada combinación película-snacks. Esto nos da la
estadística de la prueba.

Esto es mucho más fácil de seguir si usamos los datos de nuestro ejemplo. La tabla 4 a continuación muestra los
cálculos para cada combinación película-snacks hasta el segundo decimal.
Tabla 4: Preparación para calcular la estadística de la prueba
Tipo de película Snacks No snacks

Real: 50 Real: 75
Esperado: 64,58 Esperado: 60,42
Acción
Diferencia: 50 – 64,58 = -14,58 Diferencia: 75 – 60,42 = 14,58
Diferencia al cuadrado: 212,67 Diferencia al cuadrado: 212,67
Dividir por esperado: 212,67/64,58 = 3,29 Dividir por esperado: 212,67/60,42 = 3,52

Real: 125 Real: 175


Esperado: 155 Esperado: 145
Comedia
Diferencia: 125 – 155 = -30 Diferencia: 175 – 145 = 30
Diferencia al cuadrado: 900 Diferencia al cuadrado: 900
Dividir por esperado: 900/155 = 5,81 Dividir por esperado: 900/145 = 6,21

Real: 90 Real: 30
Esperado: 62 Esperado: 58
Familiar
Diferencia: 90 – 62 = 28 Diferencia: 30 – 58 = -28
Diferencia al cuadrado: 784 Diferencia al cuadrado: 784
Dividir por esperado: 784/62 = 12,65 Dividir por esperado: 784/58 = 13,52

Real: 45 Real: 10
Esperado: 28,42 Esperado: 26,58
Terror
Diferencia: 45 – 28,42 = 16,58 Diferencia: 10 – 26,58 = -16,58
Diferencia al cuadrado: 275,01 Diferencia al cuadrado: 275,01
Dividir por esperado: 275,01/28,42 = 9,68 Dividir por esperado: 275,01/26,58 = 10,35
Por último, para obtener la estadística de la prueba, sumamos los números de la última fila para cada celda:
3,29 + 3,52 + 5,81 + 6,21 + 12,65 + 13,52 + 9,68 + 10,35 = 65,03
Para tomar nuestra decisión, comparamos la estadística de la prueba con un valor de la distribución ji cuadrado. Esta
actividad tiene cinco fases:

- En primer lugar, decidimos qué riesgo estamos dispuestos a asumir de extraer la conclusión de que las dos
variables no son independientes. Para los datos de las películas, hemos decidido antes de nuestra recopilación
de datos que estamos dispuestos a asumir un riesgo del 5 % de decir que las dos variables –Tipo de película y
Compra de snacks– no son independientes cuando en realidad sí lo son. En lenguaje de estadísticas,
establecemos el nivel de significación, α , en 0,05.
- Calculamos una estadística de prueba. Como se muestra arriba, nuestra estadística de prueba es 65,03.
- Hallamos el valor crítico de la distribución ji cuadrado según nuestros grados de libertad y nuestro nivel de
significación. Este es el valor esperado si las dos variables son independientes.
- Los grados de libertad dependen del número de filas y de columnas que tengamos. Los grados de libertad (gl) se
calculan como:
df=(r−1)×(c−1)df=(�−1)×(�−1)

En la fórmula, r es el número de filas, y c es el número de columnas de nuestra tabla de contingencia. A partir de nuestro
ejemplo, con Tipo de película en la filas y Compra de snacks en las columnas, tenemos:
df=(4−1)×(2−1)=3×1=3df=(4−1)×(2−1)=3×1=3
El valor de ji cuadrado con α = 0,05 y tres grados de libertad es 7,815.

- Comparamos el valor de nuestra estadística de prueba (65,03) con el valor de ji cuadrado. Como 65,03 > 7,815,
rechazamos la idea de que el tipo de película y las compras de snacks son independientes.
Llegamos a la conclusión de que hay alguna relación entre el tipo de película y las compras de snacks. El propietario del
cine no puede hacer una estimación de la cantidad de snacks que debe comprar independientemente del tipo de
películas que se proyecten. En vez de eso, el propietario debe pensar en el tipo de películas que se proyectan al estimar
las compras de snacks.

Es importante señalar que no podemos llegar a la conclusión de que el tipo de película causa una compra de snacks. La
prueba de independencia solo nos indica si hay o no una relación; no nos dice que una variable sea la causa de la otra.

Compare los conteos real y esperado para las películas de Terror. Verá que más personas de las esperadas han
comprado snacks, y que menos de las esperadas optaron por no comprarlos.
Si examina los cuatro tipos de películas y el hecho de si las personas compraron snacks, verá que hay una diferencia
bastante grande entre los conteos reales y los esperados para la mayor parte de combinaciones. La prueba de
independencia comprueba si los datos reales son “lo bastante próximos” a los conteos esperados que ocurrirían si las
dos variables son independientes. Aún sin una prueba estadística, la mayor parte de personas dirían que las dos
variables no son independientes. La prueba estadística ofrece un método común para tomar la decisión, de manera que
todas las personas tomen la misma decisión según los datos específicos.

Detalles estadísticos: Echemos un vistazo a los datos de compra de aperitivos y la prueba de ji cuadrado de
independencia en términos estadísticos.

Nuestra hipótesis nula es que el tipo de película y la compra de snacks son independientes. La hipótesis nula se escribe
así:
H0:El tipo de película y la compra de snacks son independientes�0:El tipo de película y la compra de snacks son
independientes

La hipótesis alternativa es la contraria.


Ha:El tipo de película y la compra de snacks no son independientes��:El tipo de película y la compra de snacks no son
independientes

Antes de calcular la estadística de la prueba, hallamos los conteos esperados.

La fórmula es para una tabla de contingencia de i x j. Es una tabla con i columnas y j filas. Por ejemplo, E11 es el conteo
esperado para la celda de la primera fila y primera columna. La fórmula muestra Ri como el total de la fila i y Cj como total
de la columna j. El tamaño muestral total es N.

En la fórmula anterior, tenemos n combinaciones de filas y columnas. El símbolo Σ representa el sumatorio de los
cálculos de cada combinación. (Hemos dado estos mismos pasos en el ejemplo sobre snacks en el cine que empieza en
la tabla 4)

La fórmula muestra Oij como conteo observado de la combinación ij y Eij como conteo esperado para dicha combinación.
Para el ejemplo de snacks en el cine, tenemos cuatro filas y dos columnas, lo que da ocho combinaciones.

A continuación comparamos la estadística de la prueba con el valor crítico ji cuadrado que corresponde al valor alfa que
hemos definido y a los grados de libertad de nuestros datos. Con los datos sobre los snacks en el cine como ejemplo,
hemos definido α =0,05 y tres grados de libertad. Para los datos de los snacks, el valor de ji cuadrado se escribe como:
χ20.05,3 χ0.05,32

Nuestra comparación tiene dos posibles resultados:


- La estadística de la prueba es menor que el valor de ji cuadrado. No puede rechazar la hipótesis de
independencia. En este ejemplo sobre snacks en el cine, el propietario del cine puede seguir asumiendo que el
tipo de película que va a ver alguien no guarda relación con si compra o no snacks.
- La estadística de la prueba es mayor que el valor de ji cuadrado. Rechaza la hipótesis de independencia. En este
ejemplo sobre snacks en el cine, el propietario del cine no puede seguir asumiendo que el tipo de película que va
a ver alguien no guarda relación con si compra o no snacks.
Comprender los valores p: Vamos a utilizar un gráfico de la distribución ji cuadrado para entender mejor los valores p.
Está comprobando si la estadística de la prueba es un valor más extremo de la distribución que el valor crítico. A
continuación se muestra el gráfico de una distribución ji cuadrado con tres grados de libertad. Muestra cómo un valor de
7,815 "excluye" un 95 % de los datos. Solo el 5 % de los datos de una distribución ji cuadrado con tres grados de libertad
es mayor que 7,815.

PRUEBAS DE BONDAD DE AJUSTE.


Se utiliza para decidir cuando un conjunto de datos se ajusta a una distribución dada:
Considérese la hipótesis nula:
H0: F(x)=F0(x)

En donde el modelo de probabilidad propuesto F0(x) se encuentra especificado de manera completa, con respecto a
todos los parámetros. Es posible, pues, calcular p i: probabilidad de obtener una observación en la i-ésima clase, bajo H 0.
Es obvio, también, que

Sea ni la realización de Ni para i = 1,2,…, k de manera que

La probabilidad de obtener de manera exacta ni observaciones en la i-ésima clase es

Dado que existen k categorías mutuamente excluyentes con probabilidades p1, p2, …, pk;
entonces bajo la hipótesis nula la probabilidad de la muestra agrupada es igual a la función
de probabilidad de una distribución multinomial determinada.

Para deducir una prueba estadística para H0, considérese el caso de k = 2. Este es el caso de la distribución binomial con
x = n1, p = p1, n-x =n2 y 1-p =p2. Sea la variable aleatoria estandarizada:

para n grande, esta variable aleatoria se distribuye según una N(0;1). Además sabemos que el
cuadrado de una variable aleatoria N(0,1) se distribuye según una chi-cuadrado con un grado de
libertad. Entonces el estadístico

Si se sigue este
razonamiento, puede
demostrarse que para
k≥2 categorías distintas

Nótese que Ni es la frecuencia observada en la i-ésima clase y npi la esperada bajo la


hipótesis nula.

Esta estadística recibe el nombre de prueba de bondad de ajuste chi-cuadrada de Pearson. Si existe una concordancia
perfecta entre las frecuencias observadas y las esperadas, el estadístico tendrá un valor igual a cero; por otra parte si las
discrepancias entre estas frecuencias son grandes, el estadístico tomará un valor, también muy grande. Por ello se
desprende que para un valor dado del error de tipo I, la región crítica estará en el extremo superior la distribución chi-
cuadrada con k-1 grado de libertad.

Una ventaja de la prueba de bondad de ajuste chi-cuadrada es que para valores grandes de n, la distribución límite chi-
cuadrada de la estadística, es independiente de la forma que tenga la distribución F 0(x) propuesta en la hipótesis H0.
Como consecuencia de esto se tiene que la prueba de bondad se utiliza también para distribuciones de probabilidad en
las que F0(x) es continua. Sin embargo, debe insistirse en que la prueba de bondad es discreta, en el sentido de que ésta
compara frecuencias que se observan y se esperan para un número finito de categorías.

De acuerdo con lo anterior, si F 0(x) es continua, la prueba no compara las frecuencias que se observan aisladas con la
función de densidad propuesta tal y como implica la hipótesis nula; sino, más bien, la comparación se lleva a cabo
aproximando la distribución continua bajo H0 con un número finito de intervalos de clase.

No obstante, esta prueba es un procedimiento razonablemente adecuado para probar suposiciones de normalidad
siempre y cuando el tamaño de la muestra sea suficientemente grande.

¿Qué tan grande debe ser el tamaño de la muestra? Se ha encontrado que con n igual a 5 veces el número de clases,
los resultados son aceptables. Una regla conservadora es que ninguna clase tenga una frecuencia inferior a 5; si esto
sucediera, se agruparían clases vecinas. A menos que se especifique una hipótesis alternativa que consista en un
modelo alternativo particular F1(x), la potencia de la prueba (probabilidad de que un valor se encuentre en la región crítica
cuando H0 es falsa) es muy difícil de determinar. Por otra parte, puede demostrarse que la potencia tiende a 1
cuando n tiende a infinito. Esto implica que cuando n es muy grande es casi seguro que se rechaza H0, pues es muy
difícil especificar una F0(x) lo suficientemente cercana a la distribución. Por tanto esta prueba es cuestionable para
muestras muy grandes.

Recuérdese que el modelo de probabilidad propuesto F0(x) se especificó completamente. Por regla general, solo se
conoce la normalidad de F0(x), necesitándose estimar la media y la varianza, en consecuencia las frecuencias esperadas
npi; i =1,2,…,k no pueden determinarse. Sea T el estadístico del parámetro desconocido θ de F 0(x). Tanto Ni (frecuencias
observadas) como npi(T) frecuencias esperadas son variables aleatorias, donde pi(T) indica que la probabilidad bajo la
hipótesis nula es función del estadístico T de θ.

Puede demostrarse que si T es el estimador de máxima verosimilitud de θ, entonces:

en donde r es el número de parámetros que se está intentando estimar.

También podría gustarte