Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de Datos - Prueba de La Hipotesis
Analisis de Datos - Prueba de La Hipotesis
Anlisis estadstico
1. 2. 3. 4. 5. Pruebas de significancia Comparacin de dos medias Anlisis de Ji cuadrada Anlisis de varianza Anlisis de regresin y correlacin
Significado estadstico
Las inferencias estadsticas se realizan a fin de generalizar los resultados de la muestra como caractersticas de la poblacin. Hay tres tipos de diferencias importantes:
Diferencias matemticas: cuando las cifras no son iguales, esto no sugiere que la diferencia sea importante. Significado estadstico: si determinada diferencia es suficientemente grande y es poco probable que se deba al azar o a un error de muestreo. Diferencias administrativas: Las respuestas diferentes de los consumidores ante dos empaques distintos en una prueba de mercado puede tener s.e. Pero ser tan pequea que tenga poco o ningn significado prctico.
Hiptesis
Es una suposicin o teora que el investigador o gerente propone sobre alguna caracterstica de la poblacin que se investiga. Mediante pruebas se determina si la hiptesis es vlida. Las pruebas estadsticas de la hiptesis permiten calcular la probabilidad de obtener un resultado especfico si la hiptesis formulada es verdadera.
Pruebas de hiptesis
Primero es necesario especificarla y luego elegir una tcnica estadstica adecuada para probarla. Se especifica una regla de decisin que sirva como base para determinar si se va a rechazar la hiptesis o no (nivel de significado ). Esto significa que se rechazar si la prueba indica que la probabilidad de que ocurra el resultado observado, por probabilidad o por error de muestreo es inferior al 5% Rechazar Ho equivale a apoyar la hiptesis alterna.
Pruebas de hiptesis
Las pruebas de hiptesis estn sujetas a dos tipos de errores: Error tipo I (error ): consiste en rechazar la hiptesis nula cuando es verdadera. Error tipo II (error ): consiste en no rechazar la hiptesis nula cuando la alterna es verdadera.
Pruebas de hiptesis
Por ltimo se calcula el valor estadstico de prueba y se compara con el valor crtico de la prueba estadstica (tomado de la tabla adecuada) Se formula una conclusin que resume los resultados de la prueba.
Tablas cruzadas
Los investigadores de mercado con frecuencia desarrollan tablas cruzadas para descubrir interrelaciones entre las variables. Con frecuencia se desea determinar si el nmero de sujetos, objetos o respuestas de algn conjunto de categoras difiere por casualidad.
Tablas cruzadas
Para ello, se prueba la calidad del ajuste de la distribucin observada a la distribucin esperada. Dos pruebas comunes para probar dicho ajuste son:
Chi cuadrada Kolmogorov-Smirnov
Hiptesis nula
1. Formulacin de la hiptesis nula. La hiptesis nula es un enunciado que se hace para realizar las pruebas cuando hay datos numricos. Es un enunciado generalmente negativo y de carcter escptico que reta al investigador a que demuestre que el enunciado es errneo.
Hiptesis nula
El principio de las pruebas estadsticas es tal, que se acepta la hiptesis nula y obtiene el beneficio de la duda mientras no se recabe informacin estadsticamente abrumadora que la refute.
Nivel de significancia
Cada vez que el anlisis nos lleva a rechazar la hiptesis nula, hay la posibilidad de que nos equivoquemos al hacerlo. Podemos incurrir en el error de rechazar una proposicin que es verdadera. La probabilidad de cometerlo recibe el nombre de nivel de significancia y se representa como alfa ().
Nivel de significancia
Error tipo I: rechazar una proposicin verdadera. Error tipo II: aceptar una hiptesis falsa. .05 tiende a ser el valor ms usado, si hemos realizado una prueba a este nivel y hemos rechazado la hiptesis nula, existe apenas una probabilidad del 5% de que nuestra conclusin sea errnea.
Nivel de significancia
Los niveles de significancia numricamente inferiores (.01) significan que habr menos probabilidades de rechazar una hiptesis verdadera. Si a 1.00 se le resta el nivel de significancia, el resultado es el nivel de confianza generalmente expresado como porcentaje.
Nivel de significancia
Si el nivel de significancia es de .05, el nivel de confianza correspondiente ser de 95%. Cuando ms alto sea este ltimo, mayor seguridad habr de haber tomado la decisin correcta.
Grados de libertad
Muchas pruebas estadsticas requieren que el investigador especifique los grados de libertad para encontrar el valor crtico de la prueba estadstica. Los grados de libertad son el nmero de observaciones no restringidas o con libertad de variar en un problema estadstico.
Grados de libertad
El nmero de grados de libertad (gl) es igual a la cantidad de observaciones menos las suposiciones o restricciones necesarias para calcular el valor estadstico. Considere el problema de sumar cinco nmeros cuando su media es 20.
Anlisis de ji cuadrada
Al calcular el estadstico , obtenemos una medida de cunta discrepancia existe entre las dos tablas. Si el valor de ese estadstico es mayor que el valor crtico del tamao de la tabla y nivel de significancia deseado, se rechaza la hiptesis de independencia y se concluye que las variables estn relacionadas.
En este caso, slo cuatro de las cinco cifras pueden variar porque una vez que se conocen
Grados de libertad
Se sabe que cuatro de los cinco nmeros son 14, 23, 24 y 18, entonces el quinto nmero debe ser 21 para dar una media de 20. Se dice que la muestra tiene n-1 gl y es como si se efectuara una observacin menos.
Anlisis de ji cuadrada
til en varias formas siempre que los datos se compendien en forma tabular, con las categoras nominales y sus frecuencias asociadas. Tenemos tres tipos de aplicaciones: 1. Prueba de independencia de dos variables nominales. 2. Comparacin de dos o ms proporciones muestrales. 3. Comparacin de una tabla de frecuencias reales con otra hipottica o supuesta.
Anlisis de ji cuadrada
Tiene su inicio en una tabulacin cruzada de las dos variables con al menos cinco datos. La finalidad es determinar estadsticamente si las variables son independientes. La prueba comienza con la tabla de frecuencias observadas y luego se genera otra tabla (con los mismos totales de renglones y columnas) que supone que las variables son independientes. An cuando las variables no estn relacionadas habr diferencias fortuitas entre la tabla real y la que se supone.
Solucin
Ho : la cantidad de clientes que visitan la tienda en el curso de las ofertas es igual. Ha : Hay una diferencia significativa en dicha cantidad. Se determina el nmero de visitantes esperados de cada categora, si la hiptesis nula fuera correcta (Ei).
Solucin
E = TV N TV = total de visitas N = nmero de meses E = 35 580 = 11,860 3
Solucin
X2 = (Oi Ei)2 Ei
Oi = nmero observado en la isima categora Ei = nmero esperado en la isima categora k = nmero de categoras
X2 = 7.55
Solucin
Para el nivel de significancia = .05, el valor tabulado de X2 con dos grados de libertad es 5.99 Como el valor calculado para X2 (7.55) es ms alto que el valor tabulado (5.99), por lo tanto se rechazar la hiptesis nula. Se concluye con 95% de confianza que la respuesta de los consumidores a las ofertas fue significativamente distinta.
Ejemplo de ji cuadrada
Se ha reunido informacin sobre la edad frente a la asistencia al cine. Nos interesa saber si puede haber un nexo entre la edad del individuo y la seleccin que se hace entre tres pelculas que se exhiben en ciertos cines. Hemos observado a 8 individuos que parecen ser de menos de 21, quienes asisten al Vuelo del Fnix, 9 entre 21 y 60 aos quienes ven Porky y as sucesivamente.
Ejemplo de ji cuadrada
El vuelo Porky del Fnix Menos de 21 21-60 Ms de 60 Total
La conquista de Mongo
Total
8 7 10 25
18 9 8 35
13 30 17 60
39 46 35 120
Ejemplo de ji cuadrada
Lo siguiente es construir una tabla similar suponiendo que las variables no guarden relacin entre s. 1. Identificacin de la Hiptesis nula: No hay relacin entre edad y la seleccin de pelculas
Ejemplo de ji cuadrada
2. Construccin de la tabla de frecuencias tericas.- Se construye la 2a. Tabla y se supone que las variables no guardan ningn nexo entre s. Los totales de renglones y columnas son los mismos. La distribucin ser tal que la pertenencia a los renglones no depender de la pertenencia a las columnas.
Ejemplo de ji cuadrada
Por ejemplo 60/120 o sea una mitad de los que fueron al cine vieron La conquista de Mongo. Nuestra tabla terica tendr una mitad de cada grupo de edad que asiste a esa pelcula. 25 de los 120 que van al cine vieron El vuelo del Fnix. Por lo tanto, suponemos que, si las variables son independientes, 25/120 del grupo de edad de 20 a 60 aos (9.58) ver esta pelcula
Ejemplo de ji cuadrada
El vuelo del Fnix Porky
La conquista de Mongo 60/120 * 39 60/120 * 46 60/120 * 35
Total
39 46 35 120
25
35
60
Ejemplo de ji cuadrada
El vuelo Porky del Fnix
La conquista de Mongo
Total
19.50 23 17.50 60
39 46 35 120
Ejemplo de ji cuadrada
= (f0 ft) ft
= (8-8.13) + (18-11.37) + (13-19.50)
+ (7-9.58)
9.58
11.37
19.50
= 11.82
Anlisis de ji cuadrada
4. Determinacin del valor estadstico de ji cuadrada. El valor crtico se obtiene a partir de una tabla de la distribucin de ji cuadrada. Se debe determinar el nmero de grados de libertad (g.l) asociados con esta prueba. gl = (no. renglones 1) x (no. columnas-1)
Ejemplo de ji cuadrada
gl = (3-1) x (3-1) = 4 Suponiendo que queremos probar la hiptesis al nivel de .05, tenemos que el valor crtico es 9.49 para este no. de grados de libertad.
Anlisis de ji cuadrada
5. Comparacin de ji cuadrada con el valor crtico. Como el valor calculado (11.82) rebasa el valor crtico (9.49), estamos en condiciones de rechazar la hiptesis de independencia al nivel de .05 de significancia. Concluimos que parece haber cierta relacin entre la edad de una persona que va al cine y la pelcula que prefiere ver.
Solucin
Ho : M3 Ha : M3 =.05 Valor tabulado de Z (valor crtico)= 1.64 t=Z para muestras mayores de 30 La desviacin estndar de la muestra (S) es S=1.90
Solucin
Calculamos el error estndar estimado de la media: Sx= S/n = 1.9/ 200 =0.13 Se calcula el valor estadstico de la prueba:
Z = (media de la muestra) (media de la poblacin esp.Ho) error estndar estimado de la media = 3.4-3 = 3.07 0.13
Solucin
La hiptesis nula se rechaza porque el valor calculado para Z (3.07) es mayor que el valor crtico de Z (1.64). Por lo tanto, la gerencia de Video Connection puede inferir con una confianza del 95% que la calificacin media de sus tiendas de video es significativamente mayor de 3.
Prueba t
Funciona en inferencia estadstica con muestras pequeas (n<30). En teora tambin funciona para muestras de mayor tamao (n>30), pues se aproxima a una distribucin normal y se hace idntica a ella para muestras de 30 o ms observaciones.
Prueba t
Considere el caso de un fabricante de refrescos que planea efectuar una prueba de mercado con un refresco nuevo en Denver. Elige 12 supermercados de esa ciudad al azar y en ellos ofrece el refresco al pblico durante un periodo limitado. La compaa estima que es necesario vender 1000 cajas por semana en cada tienda para considerar que la marca produce buenos ingresos y conviene introducirla a gran escala.
Prueba t
Tienda 1 2 3 4 5 6 7 8 9 10 11 12 Ventas promedio por semana (Xi) 870 910 1050 1200 860 1400 1305 890 1250 1100 950 1260