Está en la página 1de 65

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Facultad de Economía y Planificación


Departamento de Estadística e Informática

MÉTODOS ESTADÍSTICOS PARA LA


INVESTIGACIÓN I

Aplicaciones Chi-Cuadrado
Semana 1 y 2

Profesores del curso

2020-II
OBJETIVOS

Identificar variables de naturaleza Binomial, Poisson y


Multinomial utilizando ejemplos.

Reconocer las características de las pruebas estadísticas


asociadas a la distribución Chi-Cuadrado

Aplicar las pruebas estadísticas asociadas a la distribución Chi


Cuadrado

Métodos Estadísticos para la Investigación I 2020-II


INTRODUCCIÓN

� En la inferencia estadística existen procedimientos


paramétricos y no paramétricos.
� Las pruebas paramétricas exigen el conocimiento de la
distribución teórica de los datos. Mientras que las pruebas no
paramétricas no lo requiere.
� Una variable aleatoria Chi- Cuadrado es de naturaleza
continua y su rango va de 0 a ∞.

Métodos Estadísticos para la Investigación I 2020-II


LA DISTRIBUCIÓN CHI-CUADRADO

� Es asimétrica positiva
� Los grados de libertad controlan la asimetría.
Métodos Estadísticos para la Investigación I 2020-II
APLICACIONES DE LA DISTRIBUCIÓN CHI
CUADRADO

� Pearson (1900) demostró que la distribución


Chi-Cuadrado puede aplicarse para verificar la similitud entre
los datos de conteo resultados de una observación y los
hipotéticos.
� Esta aplicación esta basada en la comparación de las
frecuencias observadas (muestrales) con las frecuencias
esperadas (poblacionales), las cuales pueden provenir de una
tabla de frecuencias o de contingencia.
� Existen otras aplicaciones de la distribución
Chi-Cuadrado tales como la verificación de la homogeneidad
de varianzas en dos o más grupos.

Métodos Estadísticos para la Investigación I 2020-II


PRUEBAS BASADAS EN LA
DISTRIBUCIÓN CHI CUADRADO
• Multinomial
Pruebas de Bondad de Ajuste • Poisson
• Binomial
• Normal, etc

No Paramétricas Prueba de Independencia

Prueba de Homogeneidad de
Subpoblaciones

Prueba de Homogeneidad de
Paramétrica
Varianzas

Métodos Estadísticos para la Investigación I 2020-II


PRUEBA DE BONDAD DE AJUSTE A UNA
MULTINOMIAL

Métodos Estadísticos para la Investigación I 2020-II


PRUEBA DE BONDAD DE AJUSTE A
UNA MULTINOMIAL
P3) Cálculo del estadístico de Prueba
Frecuencia
Frecuencia
Categoría de la variable Probabilidad esperada
N° observada
cualitativa teórica (πi) (ei)
(oi)
1 A1 o1 π1 e1
2 A2 o2 π2 e2
… … … … …
k Ak ok πk ek
Total n 1 n

Donde:
� n: tamaño de muestra
� ei= nπi

Métodos Estadísticos para la Investigación I 2020-II


PROCEDIMIENTO

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN I
Una fábrica cuenta con tres máquinas para la producción de un mismo
producto. Durante la última semana de producción se han producido 135
artículos. El jefe de producción cree que las máquinas no producen en
cantidades similares. Por lo que ha solicitado clasifiquen cada producto según
la máquina que la ha producido. A continuación se presenta la tabla de
frecuencia de las cantidades producidas por cada máquina:

Máquina A B C
Producción 43 53 39

Use nivel de significación 5% para probar si la cantidad producida es la misma


en las 3 máquinas.

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN I

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN I

� P3) Cálculo del estadístico de Prueba

Frecuencia
Frecuencia esperada
Categoría de la variable Probabilidad
N° observada
cualitativa (Máquina) teórica (πi) (ei = nπi)
(oi)
1 A 43 1/3 45 0,08888889
2 B 53 1/3 45 1,42222222
k=3 C 39 1/3 45 0,80000000
Total n=135 1 135

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN I

A un nivel de 0.05 de
significación no existe evidencia
estadística para rechazar Ho.

No se puede afirmar que las tres máquinas no producen en


igual proporción.

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN I
Reporte de Minitab

Prueba Chi-cuadrada de bondad de ajuste para conteos ... producción


Conteos observados y esperados
Proporción Contribución a
Categoría Observado de prueba Esperado chi-cuadrada
A 43 0.333333 45 0.08889
B 53 0.333333 45 1.42222
C 39 0.333333 45 0.80000

Prueba de chi-cuadrada
N GL Chi-cuad. Valor p
135 2 2.31111 0.315

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN I

Métodos Estadísticos para la Investigación I 2020-II


LA DISTRIBUCIÓN BINOMIAL
Sea X = número de éxitos en r ensayos independientes, y si
X~Binomial(r,p) entonces:

Donde:
� r es el número de ensayos
� p es la probabilidad de éxito
Métodos Estadísticos para la Investigación I 2020-II
LA DISTRIBUCIÓN POISSON
Sea X = número de sucesos que ocurren en intervalos de
tamaño t, con promedio de sucesos por unidad de intervalo
(t=1) igual a v; si X~Poisson(vt=λ) entonces:

E(X) = λ = vt V(X) = λ = vt
Donde:
� t es el tamaño del intervalo
� v es el promedio de sucesos por unidad de intervalo (t=1)
� vt es el promedio de sucesos por intervalo de tamaño t
Métodos Estadísticos para la Investigación I 2020-II
PRUEBAS DE BONDAD DE AJUSTE A UNA
BINOMIAL O POISSON
P1) Planteamiento de hipótesis:
H0: La variable X se ajusta a una distribución “A”
H1: La variable X no se ajusta a una distribución “A”

P2) Nivel de significación: α

P3) Cálculo del estadístico de Prueba

Métodos Estadísticos para la Investigación I 2020-II


PRUEBAS DE BONDAD DE AJUSTE A UNA
BINOMIAL O POISSON
P3) Cálculo del estadístico de Prueba
Frecuencia
Frecuencia
Valor de la variable Probabilidad esperada
N° observada
cuantitativa teórica (πi) (ei)
(oi)
1 x1 o1 π1 e1
2 x2 o2 π2 e2
… … … … …
k xk ok πk ek
Total n 1 n

Donde:
� n: tamaño de muestra
� ei= nπi
� πi = P(x=xi) , usando la función de probabilidad de la distribución especificada en
la hipótesis nula.
Métodos Estadísticos para la Investigación I 2020-II
PRUEBAS DE BONDAD DE AJUSTE A UNA
BINOMIAL O POISSON

Métodos Estadísticos para la Investigación I 2020-I


APLICACIÓN II
Con el fin de realizar afiliaciones a un seguro médico, un vendedor de pólizas
de seguros hace cuatro llamadas diarias. Una muestra de 210 días da como
resultado las frecuencias del número de ventas realizadas tal como se muestra
en la siguiente tabla:
N° de ventas
realizadas
0 50
1 75
2 65
3 15
4 5
Se desea verificar si el número de ventas realizadas diariamente sigue una
distribución Binomial a un nivel de significación del 5%.

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN II

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN II

Número de

días (oi)
1 0 50 0
2 1 75 75
3 2 65 130
4 3 15 45
k=5 4 5 20
Total 210 270

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN II
� Esta probabilidad de éxito será utiliza para calcular las probabilidades teóricas que a
la vez servirán para calcular las frecuencias esperadas:
.
.
.

Frecuencia
Número de días Probabilidad
N° esperada
(oi) teórica (πi)
(ei = nπi)
1 0 50 0.212023 44.5247586
2 1 75 0.401727 84.3627004
3 2 65 0.285438 59.9419187
4 3 15 0.090138 18.929027
k=5 4 o más 5 0.010674 2.2415953
Total n=210 1.0000 210

La frecuencia observada de la última clase es menor que cinco.


Métodos Estadísticos para la Investigación I 2020-II
APLICACIÓN II
� La tabla final quedaría con los siguientes resultados:

Frecuencia
Frecuencia Probabilidad
N° esperada
observada (oi) teórica (πi)
(ei = nπi)
1 0 50 0.212023 44.5247586 0.673294359
2 1 75 0.401727 84.3627004 1.039086694
3 2 65 0.285438 59.9419187 0.426816269
k=4 3y4 20 0.1008125 21.1706223 0.064729155
Total n=210 1.0000 210.00

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN II

A un nivel de 0.05 de
significación no existe evidencia
estadística para rechazar Ho.

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN II
� P5) Conclusión
No se puede afirmar que la variable número de ventas realizadas tenga una
distribución distinta a la Binomial.

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN III
Se cree que el número de accidentes automovilísticos diarios en un cruce de
dos avenidas de determinada ciudad tiene una distribución de Poisson. En una
muestra de 80 días del año pasado se obtuvieron los datos de la tabla adjunta.
¿Apoyan estos datos la hipótesis de que el número diario de accidentes tiene
una distribución de Poisson? Use nivel de significación 0.05 y concluya usando
p-valor y el estadístico de prueba

N° accidentes
0 34
1 25
2 11
3 7
4 3

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN III

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN III
� P3) Cálculo del estadístico de prueba

Frecuencia
N° observada
(oi)
1 0 34 0
2 1 25 25
3 2 11 22
4 3 7 21
k=5 4 3 12
Total n=80 80

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN III

Frecuencia
Frecuencia Probabilidad
N° esperada
observada (oi) teórica (πi)
(ei = nπi)
1 0 34 0.3679 29.43
2 1 25 0.3679 29.43
3 2 11 0.1839 14.72
4 3 7 0.0613 4.90
k=5 4 o más 3 0.0190 1.52
Total n=80 1.0000 80.00

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN III
� La tabla final quedaría con los siguientes resultados:

Frecuencia
Frecuencia Probabilidad
N° esperada
observada (oi) teórica (πi)
(ei = nπi)
1 0 34 0.3679 29.43 0.7096
2 1 25 0.3679 29.43 0.6668
3 2 11 0.1839 14.72 0.9401
0.0613+0.019=
k=4 3 o más 10 6.42 1.9963
0.0803
Total n=80 1.0000 80.00

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN III

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN III

Métodos Estadísticos para la Investigación I 2020-II


PREGUNTA 1
En un estudio para determinar la opinión de los agricultores
sobre un nuevo tipo de insecticida se tomó una muestra
aleatoria de 400 agricultores en una región, obteniéndose los
siguientes resultados:

Opinión muy bueno bueno regular malo muy malo total


Frecuencia 25 60 175 120 20 400

Probar si la opinión de los agricultores respecto al nuevo tipo de


insecticida no se distribuye en la proporción: 2:4:6:5:3. Use α =
0.01

Métodos Estadísticos para la Investigación I 2020-II


PREGUNTA 2
Un vendedor de semillas hace cuatro llamadas diarias. Una
muestra aleatoria de 100 días da como resultado las frecuencias
de ventas que vemos a continuación:

Número de ventas 0 1 2 3 4
Número de días 30 32 25 10 3

En los registros históricos se conoce que el 30% de las llamadas


se concretaron en una venta. Suponga que las llamadas son
independientes, ¿El número de ventas que se concretan por día
sigue una distribución binomial? Use α = 0.01.

Métodos Estadísticos para la Investigación I 2020-II


PREGUNTA 3
Una empresa estudia el número de defectos en unas tarjetas de
video que se fabrican para unos equipos de meteorología. Se
obtiene una muestra aleatoria de las tarjetas y se observa el
número de defectos que hay. Los resultados obtenidos se
muestran a continuación

Número de defectos 0 1 2 3 4
Frecuencia 17 13 9 5 7

Probar si los datos se ajustan a una distribución teórica.


Use α= 0.05

Métodos Estadísticos para la Investigación I 2020-II


PRUEBAS EN TABLAS DE CONTINGENCIA
Tabla de Contingencia cxf

Característica A
Total
a1 a2 … ac
b1 o11 o12 … o1c n1.
b2 o21 o22 … o2c n2.
Carac. B
… … … … … …
bf of1 of2 … ofc nr.
Total n.1 n.2 n.c n..

Donde:
� oij es una frecuencia observada conjunta
� ni. y n.j son frecuencias marginales fila y columna, respectivamente
� n.. es el tamaño de muestra
Métodos Estadísticos para la Investigación I 2020-II
PRUEBAS EN TABLAS DE CONTINGENCIA

� Utiliza una muestra


Prueba de Independencia � Evalúa dos características
� Las frecuencias marginales son
aleatorias.

� Utiliza dos o más muestras


� Evalúa una característica Prueba de Homogeneidad
� Una de las frecuencias marginales de Subpoblaciones
es fija y la otra aleatoria.

Métodos Estadísticos para la Investigación I 2020-II


PRUEBA DE INDEPENDENCIA

Métodos Estadísticos para la Investigación I 2020-II


PRUEBA DE INDEPENDENCIA
P3) Cálculo del estadístico de Prueba
Tabla de Contingencia para frecuencias observadas y esperadas
Característica A
Total
a1 a2 … ac
b1 o11 o12 … o1c n1.
(e11) (e12) (e1c)
b2 o21 o22 … o2c n2.
Carac. B (e21) (e22) (e2c)
… … … … … …
bf of1 of2 … ofc nr.
(ef1) (ef2) (efc)
Total n.1 n.2 n.c n..
Donde:
� eij es una frecuencia esperada conjunta
� .

Métodos Estadísticos para la Investigación I 2020-II


PRUEBA DE INDEPENDENCIA

Métodos Estadísticos para la Investigación I 2020-II


COEFICIENTE DE CONTINGENCIA

0 1

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN IV
El jefe de una planta industrial desea determinar si existe relación entre el
rendimiento en el trabajo y turno laboral del empleado. Se tomó una muestra
aleatoria de 400 empleados y se obtuvo los siguientes resultados:

Rendimiento Turno laboral


en el trabajo Mañana Tarde Noche Total
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400

Con el nivel de significación 0.01


� a) ¿La calificación del rendimiento del trabajador está asociada con el turno
en el que labora el empleado? Analice la magnitud de la asociación, si la
hubiera

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN IV

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN IV

Rendimiento en Turno laboral


el trabajo Mañana Tarde Noche Total
Deficiente 23 60 29
112
(16.80) (52.64) (42.56)
Promedio 28 79 60
167
(25.05) (78.49) (63.46)
Muy bueno 9 49 63
121
(18.15) (56.87) (45.98)
Total 60 188 152 400

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN IV

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN IV
� b) El grado de asociación entre estas dos variables es:

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN IV
Estadísticas tabuladas: Rendimiento, Turno
Usando frecuencias en Frecuencia
Filas: Rendimiento Columnas: Turno
Mañana Tarde Noche Todo

Deficiente 23 60 29 112
16.80 52.64 42.56
Prueba de chi-cuadrada
Promedio 28 79 60 167 Chi-cuadrada GL Valor p
25.05 78.49 63.46 Pearson 20.179 4 0.000
Relación de 20.892 4 0.000
Muy 9 49 63 121 verosimilitud
Bueno
18.15 56.87 45.98

Todo 60 188 152 400

Contenido de la
celda
Conteo
Conteo esperado

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN IV

Métodos Estadísticos para la Investigación I 2020-II


PRUEBA DE HOMOGENEIDAD DE
SUBPOBLACIONES

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN V
Muestras de tres tipos de materiales, sujetos a cambios extremos de
temperatura (desintegración), produjeron los resultados que se muestran en
la siguiente tabla:

Materiales
Condición Material A Material B Material C Total
Desintegrados 41 27 22 90
Permanecieron
79 53 78 210
intactos
Total 120 80 100 300

Use un nivel de significancia de 0.05 para probar si, en las condiciones


establecidas, la probabilidad de desintegración es diferente en al menos uno
de los tres tipos de materiales. Use el valor P y prueba estadística.

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN V

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN V
� P3) Cálculo del estadístico de Prueba

Materiales
Condición Material A Material B Material C Total
Desintegrados 41 27 22
90
(36) (24) (30)
Permanecieron 79 53 78
210
intactos (84) (56) (70)
Total 120 80 100 300

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN V

A un nivel de 0.05 de significación


no existe evidencia estadística para
rechazar Ho.

No se puede afirma que las condiciones de desintegración no se distribuya


homogéneamente en los tipos de materiales.

Métodos Estadísticos para la Investigación I 2020-II


PRUEBA DE HOMOGENEIDAD DE
VARIANZAS

� Evalúa si la variabilidad de una variable continua es homogénea


en dos o más poblaciones.
� A diferencia de las anteriores, esta prueba es de tipo
paramétrica
� Requiere de los siguientes supuestos:
o Las muestras son aleatorias
o Las muestras son independientes
o Los datos que provienen de las muestras son normales

Métodos Estadísticos para la Investigación I 2020-II


PRUEBA DE HOMOGENEIDAD DE
VARIANZAS

Métodos Estadísticos para la Investigación I 2020-II


PRUEBA DE HOMOGENEIDAD DE
VARIANZAS

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN VI
Una empresa usa 4 máquinas para el llenado de bolsas de detergente. Todas las
máquinas son de la misma marca y modelo. Dichas máquinas están programadas para
llenar 250 gr. en cada bolsa de detergente. El jefe de producción se ha quejado de que
las 4 máquinas presentan cierto nivel de variabilidad en la cantidad de detergente de
cada bolsa. Un especialista encargado por la compañía selecciona al azar 6 bolsas de
c/u de las máquinas y posteriormente pesa las bolsas. Los resultados obtenidos se
muestran a continuación:

Máquinas
Repetición
A B C D
1 250.3 249.3 250 251.1
2 250.2 246.8 251.1 250.1
3 249.9 248.3 250.9 248.9
4 249.3 247.9 248.3 249.3
5 250.6 249.7 248.9 251
6 250.3 249.9 249.9 249.9
Total 1500.6 1491.9 1499.1 1500.3
Promedio 250.10 248.65 249.85 250.05
0.2 1.44 1.2 0.78
Métodos Estadísticos para la Investigación I 2020-II
APLICACIÓN VI
a. Pruebe el supuesto de normalidad utilizando los reportes. Use α=0.05

p-valor= 0.254 p-valor= 0.576

p-valor= 0.630 p-valor= 0.621


Métodos Estadísticos para la Investigación I 2020-II
APLICACIÓN VI

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN VI
� P3) Cálculo del estadístico de Prueba

0.20 1.44 1.20 0.78


-1.6094 0.3646 0.1823 -0.2485
5 5 5 5 20

Métodos Estadísticos para la Investigación I 2020-II


APLICACIÓN VI

Métodos Estadísticos para la Investigación I 2020-II


FÓRMULAS

Métodos Estadísticos para la Investigación I 2020-II


Referencias
� R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y
Procedimientos. McGraw Hill, ed Bogotá, Colombia.

� Porras, J. (2017). Pruebas No Paramétricas Usando R. Lima.


UNALM .

� Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A


course in methods of data analysis. Australia:
Duxbury/Thomson Learning

� Agresti, A. (2002) Categorical Data Analysis, (2nd Ed). Wiley-


Interscience. New Yersey

También podría gustarte