Está en la página 1de 13

COMPARACIÓN DE VARIANZAS Y PRUEBAS CON

EL ESTADISTICO CHI-CUADRADO

ESTADÍSTICA PARA LA ANALÍTICA DE DATOS

ÍNDICE
1. Iniciemos
2. Organiza tus ideas: Conceptos clave
3. Profundiza tus conocimientos: Comparación de varianzas poblacionales
4. Fortalece tus conocimientos: Pruebas multinomiales
5. Visualiza: Pruebas chi-cuadrada para la independencia
6. Conclusiones/Para terminar
Iniciemos
¡Bienvenido a comparación de varianzas y pruebas con el estadístico chi-
cuadrado!

Aquí vamos a ver algunas aplicaciones que se le dan en la estadística a la


distribución F de Fisher y a la distribución chi-cuadrada

Al cumplir con el desarrollo de la presente unidad estarás en capacidad


de:

Comprender como se realiza una comparación entre varianzas


poblacionales.
Identificar las principales pruebas que se pueden hacer con el
estadístico chi-cuadrado.

¡Acompáñame!

Organiza tus ideas: Conceptos clave


A continuación, se presentan algunos conceptos importantes en el área
de la estadística.

• Estadística: Es la ciencia que se encarga de recolectar, organizar,


analizar e interpretar datos.

• Estadísticas: Son números obtenidos de un conjunto o colección de


datos.

• Estadística descriptiva: Es la rama de la estadística que comprende


todos los métodos y técnicas usados para organizar y describir
información.

• Estadística inferencial: Es la rama de la estadística que comprende


todos los métodos y técnicas usados para hacer inferencias,
estimaciones o predicciones sobre poblaciones a partir de una
muestra.

• Dato: Es una porción de información.

• Datos: Sinónimo de muestra.

• Población: Es el conjunto de todos los elementos de interés para un


investigador.

• Muestra: Es cualquier subconjunto de la población.

• Parámetro: Cualquier característica numérica de una población.

• Estadístico: Cualquier característica numérica de una muestra.

• Big Data: Termino utilizado para describir conjuntos de datos tan


grandes que los tradicionales y típicos procesos de almacenamiento,
gestión, búsqueda, análisis, entre otros han convertido en un reto
debido a su tamaño.

• Datos cualitativos: Información categórica.

• Datos cuantitativos: Información numérica. Se puede clasificar en


continuos y discretos.

• Datos cuantitativos discretos: Son obtenidos de un proceso de


conteo. Números naturales, enteros o racionales.

• Medida: Es un valor representativo de un conjunto de datos.

• Valor atípico (o outlier): Es una medida con un valor extremo en un


conjunto de datos. Puede indicar un error de anotación o una medida
muy poco común en la población.

• Distribución de frecuencias: Es sinónimo de tabla de frecuencias y


puede ser representada gráficamente con ayuda de histogramas.

• Evento simple: Es el evento que corresponde a un solo punto


muestral y se nota por
• E con un subíndice.

• Evento vacío: El evento vacío se nota por ∅ y es el evento que no tiene


elementos.

• Error muestral: Es la variación natural que existe entre las muestras


de una misma población, cuando las muestras no son copias exactas
de la población.

• Errores no muestrales: Son los errores que surgen al tomar una


muestra.

• Sesgo muestral: Es un tipo de error no muestral y es una tendencia


sistemática inherente a un método de muestreo que da estimaciones
de un parámetro. El sesgo es negativo si las estimaciones son
menores y positivo si las estimaciones son mayores.

• Aleatorización: Proceso de selección de muestras donde la selección


es imparcial o no está sesgada.

• Muestra aleatoria: Es una muestra elegida con procedimientos


aleatorios.

• Hipótesis estadística: Es una afirmación o una declaración que se


hace acerca de una propiedad de una población.

• Fuente: Es una persona, cosa, objeto o algo que produce datos.

¡Y bien! Ya conociste los conceptos que necesitas en tu camino


de aprendizaje. Continuemos, es hora de viajar a Profundizar tus
conocimientos

Profundiza tus conocimientos:


Comparación de varianzas
poblacionales
Para hacer comparaciones entre dos varianzas se toma la forma
equivalente de un cociente que puede ser menor, igual o mayor que
uno. Es decir,

Se tienen dos poblaciones normales con varianzas iguales

y se toman muestras aleatorias independientes de cada población con


tamaños n1 y n2 y en para esas muestras se obtienen las varianzas
muestrales s12 y s22 respectivamente.

El estadístico de prueba es

La distribución del estadístico de prueba F es una distribución F definida


como

donde v1=n1 - 1 y v2 = n2 - 1 son grados de libertad.


Si siempre se coloca la varianza muestral más grande en el numerador
del estadístico F, entonces siempre se obtendrá una prueba de cola
derecha.

Por ejemplo, para v1 = 20 y v2 = 10 la distribución será


Y para v1 = 5 y v2 = 10 se obtiene

El valor critico de F se notará como fa ( v 1,v 2) y por ejemplo se tiene que


f0.05 ( 10,20) = 2.34788

El valor critico fa ( v1,v2) , satisface la siguiente propiedad

Para el ejemplo anterior se tiene que

Intervalo de confianza para el cociente de dos varianzas poblacionales y


de dos desviaciones estándar
El intervalo del ( 1 - a) 100% para esta notado por ( LI, LS ) donde

El intervalo del ( 1 - a ) 100% para esta definido por donde LI


y LS son los límites de las varianzas.

Ejemplo [Intervalos de confianza y prueba de hipótesis]

Se tienen dos poblaciones normales. De la población 1 se selecciona la


muestra 1 de tamaño n1 = 11 y con varianza muestral s12=35.

De la población 2 se selecciona una muestra 2 de tamaño n2= 21 y


varianza muestral s22=17.

Para a=0.1 realice una prueba para

Entonces no se rechaza H0 y por tanto no hay evidencia estadística


suficiente para decir que las varianzas no son iguales.

Calculando ahora los intervalos de confianza se tiene.

Como 1 está contenido en el intervalo para el 90% de confianza


LI, LS=(0.87,5.64) entonces no se rechaza la hipótesis nula. Lo cual
concuerda con el resultado anterior.
Ver (Pérez et al., 2015), (Weimer, 1993) y (Walpole, 2007)

¡Excelente! ¿Verdad? Ahora ¿quieres conocer acerca de las Pruebas


multinomiales?

¡Vamos a descubrirlo en el próximo recurso!

Fortalece tus conocimientos: Pruebas


multinomiales
Se tiene una tabla de contingencia de r renglones y n columnas o tabla
de contingencia de tamaño r×c.

Por ejemplo, la siguiente tabla de contingencia de tamaño 2×3

El número de celdas (en azul) es igual a

r×c=2×3=6 celdas

Toda celda en la tabla tiene dos frecuencias asociadas:


• Frecuencias observadas.
• Frecuencias esperadas.

Los valores en las celdas son las frecuencias absolutas (o frecuencias


observadas) de las personas que satisfacen los dos atributos dados en
las filas y las columnas, y esas frecuencias observadas se notan por
Oıȷ donde i representa la fila y j representa la columna de la tabla de
contingencia.

Por ejemplo, hay 4 personas que son mujeres y solteras y esa frecuencia
observada se nota por
O21 = 4
porque corresponde a la frecuencia observada en la fila 2 y columna 1.

Además, se tiene que

donde n es el tamaño de la muestra.

Las frecuencias esperadas por su parte se notan por Eij y se definen


como

donde p es una probabilidad y se tiene que

Experimentos multinomiales: Bondad de ajuste

________________________________________________________________________
Experimento multinomial

Un experimento es un experimento multinomial si satisface las


siguientes condiciones.

i. El experimento consta de n ensayos.


ii. Cada ensayo da lugar a uno de m resultados.
iii. Los resultados de los ensayos individuales se clasifican en una y solo
una de varias categorías distintas.
iv. Las probabilidades de las distintas categorías son contantes.

________________________________________________________________________

Lo que nos interesa saber es si la diferencia entre las frecuencias


observadas Oij y las frecuencias esperadas Eij son estadísticamente
significativas y para eso se introduce el estadístico de prueba

El estadístico x2 tiene una distribución chi-cuadrada con grados de


libertad v=(c-1) × (r-1) y estas pruebas siempre son de cola derecha.

Esto nos permite poner a prueba hipótesis de la forma

H0: p1 = p1 =∙∙∙ = pK H1: Al menos dos de las proporciones poblacionales


son distintas.

Ejemplo

Un dado se lanza con los siguientes resultados

Para un nivel de significancia del 5% ¿los datos indican que el dado esta
cargado?

La hipótesis nula es que el dado es legal

H0: P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=16 H1: Al menos una de las


probabilidades es distinta a 16.

El dado se lanzo

n=45+37+38+40+37+43=240
Luego

Esto implica x2=1.4

Con grado de libertad v=6-1=5.

El valor critico es x2 0.052(5)=11.070

Como el estadístico de prueba es menor que el valor critico no se


rechaza la hipótesis nula,

Por tanto, no hay evidencia estadística que el dado este cargado.


¡No olvides tener en cuenta la distribución chi-cuadrada!

¡Vamos al siguiente recurso!

Visualiza: Pruebas chi-cuadrada para la


independencia
¿Quieres conocer acerca de la Pruebas chi-cuadrada para la
independencia?

¡Vamos!

Se podría decir informalmente que dos variables son independientes si


no están relacionadas (o no se afectan entre sí).

Así pues, en las pruebas de independencia las hipótesis son:

H0: Las dos variables de clasificación son independientes. H1: Las dos
variables de clasificación son dependientes.

El estadístico de prueba es

El estadístico x2 tiene una distribución chi-cuadrada con grados de


libertad v=(c-1)×(r-1) y estas pruebas siempre son de cola derecha.

Ejemplo

En la tabla siguiente se tiene una tabla de contingencia del género y el


estado civil de profesionales en una determinada empresa.
Para un nivel de significancia del 5% poner a prueba

H0: El genero y el estado civil son independientes. H1: El genero y el


estado civil son dependientes.

Calculando las frecuencias observadas se tiene

Entonces

Con grados de libertad v=(2-1)×(3-1)=2

Luego, el valor critico es

x2 0.052(5)=11.070

Como el estadístico de prueba es menor que el valor critico no se


rechaza la hipótesis nula. Por lo tanto, se puede afirmar que el género y
el estado civil son independientes.

¡Y bien! Ahora que ya conocemos un poco más acerca de las pruebas


chi-cuadrada para la independencia, te invito a repasar el tema e ir al
siguiente recurso

¡Vamos!
Conclusiones: Para terminar
De la temática vista hasta el momento podemos sacar las siguientes
conclusiones:

• El estadístico chi-cuadrado puede ser usado para hacer pruebas


de varias proporciones poblacionales, así como pruebas de
independencia entre variables.
• Las comparaciones entre varianzas se realizan por medio de un
cociente que puede ser menor, igual y mayor que uno y el estadístico
de prueba tiene una distribución F de Fisher.

¡Genial! Hemos llegado al final de esta temática, recuerda realizar


todas las actividades que encuentras en la plataforma.
Nos vemos en la próxima unidad para continuar aprendiendo más

¡Hasta pronto!

Bibliografía o Referencias
• Pérez, J. H., Shin, S., Eksioglu, B., & Triola, M. F. (2015). Mario F. Triola. En
International Journal of Production Economics (Vol. 163, Número 50).
http://dx.doi.org/10.1016/j.ijpe.2015.02.016%0Ahttp://revistaeconomia.
unam.mx/index.php/ecu/article/view/524

• Walpole, R. E. (2007). Probabilidad Y Estadistica Para Ingenieria


Y Ciencias. Pearson Educación. https://books.google.com.co/
books?id=jBnRMQAACAAJ

• Weimer, R. C. (1993). Statistics. Wm. C. Brown Publishers. https://books.


google.com.co/books?id=%5C_O4JAQAAMAAJ

También podría gustarte