Está en la página 1de 55

Anlisis de datos: Pruebas de Hiptesis

Act. Lyssett Bellato Gil

Anlisis estadstico
1. 2. 3. 4. 5. Pruebas de significancia Comparacin de dos medias Anlisis de Ji cuadrada Anlisis de varianza Anlisis de regresin y correlacin

Significado estadstico
Las inferencias estadsticas se realizan a fin de generalizar los resultados de la muestra como caractersticas de la poblacin. Hay tres tipos de diferencias importantes:
Diferencias matemticas: cuando las cifras no son iguales, esto no sugiere que la diferencia sea importante. Significado estadstico: si determinada diferencia es suficientemente grande y es poco probable que se deba al azar o a un error de muestreo. Diferencias administrativas: Las respuestas diferentes de los consumidores ante dos empaques distintos en una prueba de mercado puede tener s.e. Pero ser tan pequea que tenga poco o ningn significado prctico.

Hiptesis
Es una suposicin o teora que el investigador o gerente propone sobre alguna caracterstica de la poblacin que se investiga. Mediante pruebas se determina si la hiptesis es vlida. Las pruebas estadsticas de la hiptesis permiten calcular la probabilidad de obtener un resultado especfico si la hiptesis formulada es verdadera.

Pruebas de hiptesis
Primero es necesario especificarla y luego elegir una tcnica estadstica adecuada para probarla. Se especifica una regla de decisin que sirva como base para determinar si se va a rechazar la hiptesis o no (nivel de significado ). Esto significa que se rechazar si la prueba indica que la probabilidad de que ocurra el resultado observado, por probabilidad o por error de muestreo es inferior al 5% Rechazar Ho equivale a apoyar la hiptesis alterna.

Pruebas de hiptesis
Las pruebas de hiptesis estn sujetas a dos tipos de errores: Error tipo I (error ): consiste en rechazar la hiptesis nula cuando es verdadera. Error tipo II (error ): consiste en no rechazar la hiptesis nula cuando la alterna es verdadera.

Pruebas de hiptesis
Por ltimo se calcula el valor estadstico de prueba y se compara con el valor crtico de la prueba estadstica (tomado de la tabla adecuada) Se formula una conclusin que resume los resultados de la prueba.

Tablas cruzadas
Los investigadores de mercado con frecuencia desarrollan tablas cruzadas para descubrir interrelaciones entre las variables. Con frecuencia se desea determinar si el nmero de sujetos, objetos o respuestas de algn conjunto de categoras difiere por casualidad.

Tablas cruzadas
Para ello, se prueba la calidad del ajuste de la distribucin observada a la distribucin esperada. Dos pruebas comunes para probar dicho ajuste son:
Chi cuadrada Kolmogorov-Smirnov

Hiptesis nula
1. Formulacin de la hiptesis nula. La hiptesis nula es un enunciado que se hace para realizar las pruebas cuando hay datos numricos. Es un enunciado generalmente negativo y de carcter escptico que reta al investigador a que demuestre que el enunciado es errneo.

Hiptesis nula
El principio de las pruebas estadsticas es tal, que se acepta la hiptesis nula y obtiene el beneficio de la duda mientras no se recabe informacin estadsticamente abrumadora que la refute.

Ejemplos de hiptesis nulas


Los dueos de automviles nacionales e importados tienen la misma tasa de uso del cinturn de seguridad. No existe relacin entre el sexo y la fidelidad a la marca para nuestro producto. No se da diferencia de actitud entre los grupos que reciben tres tratamientos promocionales.

Nivel de significancia
Cada vez que el anlisis nos lleva a rechazar la hiptesis nula, hay la posibilidad de que nos equivoquemos al hacerlo. Podemos incurrir en el error de rechazar una proposicin que es verdadera. La probabilidad de cometerlo recibe el nombre de nivel de significancia y se representa como alfa ().

Nivel de significancia
Error tipo I: rechazar una proposicin verdadera. Error tipo II: aceptar una hiptesis falsa. .05 tiende a ser el valor ms usado, si hemos realizado una prueba a este nivel y hemos rechazado la hiptesis nula, existe apenas una probabilidad del 5% de que nuestra conclusin sea errnea.

Nivel de significancia
Los niveles de significancia numricamente inferiores (.01) significan que habr menos probabilidades de rechazar una hiptesis verdadera. Si a 1.00 se le resta el nivel de significancia, el resultado es el nivel de confianza generalmente expresado como porcentaje.

Nivel de significancia
Si el nivel de significancia es de .05, el nivel de confianza correspondiente ser de 95%. Cuando ms alto sea este ltimo, mayor seguridad habr de haber tomado la decisin correcta.

Comparacin de dos muestras o proporciones muestrales


En inv. de mercados conviene averiguar si dos muestras probabilsticas independientes difieren significativamente en relacin con alguna medida o caracterstica. La hiptesis nula casi siempre se expresa como Ho: las medias (proporciones) de la poblacin son iguales en los dos grupos.

Muestras independientes o relacionadas


Muestras independientes: muestras en las cuales la medicin de una variable en cierta poblacin no ejerce efecto sobre la medicin de esa variable en otra poblacin. Muestras relacionadas: muestras en las cuales la medicin de una variable en la poblacin puede influir en la medicin de la variable en otra poblacin.

Muestras independientes o relacionadas


Ejemplo de muestras independientes. Si al entrevistar a hombres y mujeres durante determinada encuesta para investigar con qu frecuencia comen en restaurantes, la respuesta de los hombres no afecta ni modifica la manera en que las mujeres respondan dicha pregunta.

Muestras independientes o relacionadas


Se requiere establecer el efecto de una nueva campaa publicitaria en la conciencia que tienen los consumidores respecto a cierta marca. Se puede efectuar una encuesta aleatoria de consumidores antes de introducir la campaa y realizar otra con la misma muestra 90 das despus de introducirla. Estas muestras no son indep. ya que la medicin del conocimiento 90 das despus de iniciar la campaa probablemente se vea afectada por la primera medicin.

Grados de libertad
Muchas pruebas estadsticas requieren que el investigador especifique los grados de libertad para encontrar el valor crtico de la prueba estadstica. Los grados de libertad son el nmero de observaciones no restringidas o con libertad de variar en un problema estadstico.

Grados de libertad
El nmero de grados de libertad (gl) es igual a la cantidad de observaciones menos las suposiciones o restricciones necesarias para calcular el valor estadstico. Considere el problema de sumar cinco nmeros cuando su media es 20.

Anlisis de ji cuadrada
Al calcular el estadstico , obtenemos una medida de cunta discrepancia existe entre las dos tablas. Si el valor de ese estadstico es mayor que el valor crtico del tamao de la tabla y nivel de significancia deseado, se rechaza la hiptesis de independencia y se concluye que las variables estn relacionadas.
En este caso, slo cuatro de las cinco cifras pueden variar porque una vez que se conocen

Grados de libertad
Se sabe que cuatro de los cinco nmeros son 14, 23, 24 y 18, entonces el quinto nmero debe ser 21 para dar una media de 20. Se dice que la muestra tiene n-1 gl y es como si se efectuara una observacin menos.

Anlisis de ji cuadrada
til en varias formas siempre que los datos se compendien en forma tabular, con las categoras nominales y sus frecuencias asociadas. Tenemos tres tipos de aplicaciones: 1. Prueba de independencia de dos variables nominales. 2. Comparacin de dos o ms proporciones muestrales. 3. Comparacin de una tabla de frecuencias reales con otra hipottica o supuesta.

Anlisis de ji cuadrada
Tiene su inicio en una tabulacin cruzada de las dos variables con al menos cinco datos. La finalidad es determinar estadsticamente si las variables son independientes. La prueba comienza con la tabla de frecuencias observadas y luego se genera otra tabla (con los mismos totales de renglones y columnas) que supone que las variables son independientes. An cuando las variables no estn relacionadas habr diferencias fortuitas entre la tabla real y la que se supone.

Chi cuadrada para una muestra nica


Considere un gerente de mercadotecnia de una cadena de tiendas detallistas de electrnica que necesita probar la eficacia de tres ofertas especiales (oferta 1, oferta 2, oferta 3), cada una ser vlida un mes. El gerente desea medir el efecto de cada oferta en los clientes que visitan una tienda de prueba durante el tiempo en que la oferta es vlida. El nmero de dichos clientes es:

Chi cuadrada para una muestra nica


Oferta 1 2 3 Total Mes Abril Mayo Junio Clientes por mes 11 700 12 100 11 780 35 580

Chi cuadrada para una muestra nica


El gerente necesita saber si el nmero de clientes que visit la tienda durante el periodo en que estuvo vigente cada oferta difiere en forma significativa.

Solucin
Ho : la cantidad de clientes que visitan la tienda en el curso de las ofertas es igual. Ha : Hay una diferencia significativa en dicha cantidad. Se determina el nmero de visitantes esperados de cada categora, si la hiptesis nula fuera correcta (Ei).

Solucin
E = TV N TV = total de visitas N = nmero de meses E = 35 580 = 11,860 3

Solucin
X2 = (Oi Ei)2 Ei
Oi = nmero observado en la isima categora Ei = nmero esperado en la isima categora k = nmero de categoras

X2 =(11700 11860)2 + (12100 11860)2 + (11780 11860)2


11 860 11 860 11 860

X2 = 7.55

Solucin
Para el nivel de significancia = .05, el valor tabulado de X2 con dos grados de libertad es 5.99 Como el valor calculado para X2 (7.55) es ms alto que el valor tabulado (5.99), por lo tanto se rechazar la hiptesis nula. Se concluye con 95% de confianza que la respuesta de los consumidores a las ofertas fue significativamente distinta.

Chi cuadrada para dos muestras independientes


Los inv. de mercados a menudo necesitan determinar si dos o ms variables estn asociadas. Hombres y mujeres se dividen de igual manera entre las categoras de usuarios fuertes, intermedios y ligeros? Los compradores y no compradores se distinguen de igual modo en grupos de ingresos bajos, intermedios y altos? En estos casos es adecuado aplicar la prueba de X2 para dos muestras independientes.

Ejemplo de ji cuadrada
Se ha reunido informacin sobre la edad frente a la asistencia al cine. Nos interesa saber si puede haber un nexo entre la edad del individuo y la seleccin que se hace entre tres pelculas que se exhiben en ciertos cines. Hemos observado a 8 individuos que parecen ser de menos de 21, quienes asisten al Vuelo del Fnix, 9 entre 21 y 60 aos quienes ven Porky y as sucesivamente.

Ejemplo de ji cuadrada
El vuelo Porky del Fnix Menos de 21 21-60 Ms de 60 Total
La conquista de Mongo

Total

8 7 10 25

18 9 8 35

13 30 17 60

39 46 35 120

Ejemplo de ji cuadrada
Lo siguiente es construir una tabla similar suponiendo que las variables no guarden relacin entre s. 1. Identificacin de la Hiptesis nula: No hay relacin entre edad y la seleccin de pelculas

Ejemplo de ji cuadrada
2. Construccin de la tabla de frecuencias tericas.- Se construye la 2a. Tabla y se supone que las variables no guardan ningn nexo entre s. Los totales de renglones y columnas son los mismos. La distribucin ser tal que la pertenencia a los renglones no depender de la pertenencia a las columnas.

Ejemplo de ji cuadrada
Por ejemplo 60/120 o sea una mitad de los que fueron al cine vieron La conquista de Mongo. Nuestra tabla terica tendr una mitad de cada grupo de edad que asiste a esa pelcula. 25 de los 120 que van al cine vieron El vuelo del Fnix. Por lo tanto, suponemos que, si las variables son independientes, 25/120 del grupo de edad de 20 a 60 aos (9.58) ver esta pelcula

Ejemplo de ji cuadrada
El vuelo del Fnix Porky
La conquista de Mongo 60/120 * 39 60/120 * 46 60/120 * 35

Total

Menos de 21 21-60 Ms de 60 Total

25/120 * 39 25/120 * 46 25/120 * 35

35/120 * 39 35/120 * 46 35/120 * 35

39 46 35 120

25

35

60

Ejemplo de ji cuadrada
El vuelo Porky del Fnix
La conquista de Mongo

Total

Menos de 21 21-60 Ms de 60 Total

8.13 9.58 7.29 25

11.37 13.42 10.21 35

19.50 23 17.50 60

39 46 35 120

Ejemplo de ji cuadrada
= (f0 ft) ft
= (8-8.13) + (18-11.37) + (13-19.50)

+ (7-9.58)
9.58

8.13 (9-13.42) 13.42 (17-17.50) 17.50

11.37

19.50

+ (30-23) + (10-7.29) + (8-10.21) +


23 7.29 10.21

= 11.82

Anlisis de ji cuadrada
4. Determinacin del valor estadstico de ji cuadrada. El valor crtico se obtiene a partir de una tabla de la distribucin de ji cuadrada. Se debe determinar el nmero de grados de libertad (g.l) asociados con esta prueba. gl = (no. renglones 1) x (no. columnas-1)

Ejemplo de ji cuadrada
gl = (3-1) x (3-1) = 4 Suponiendo que queremos probar la hiptesis al nivel de .05, tenemos que el valor crtico es 9.49 para este no. de grados de libertad.

Anlisis de ji cuadrada
5. Comparacin de ji cuadrada con el valor crtico. Como el valor calculado (11.82) rebasa el valor crtico (9.49), estamos en condiciones de rechazar la hiptesis de independencia al nivel de .05 de significancia. Concluimos que parece haber cierta relacin entre la edad de una persona que va al cine y la pelcula que prefiere ver.

Hiptesis sobre medias: Prueba Z


Por lo regular, los inv. de mercados realizan inferencias acerca de la media de la poblacin. La prueba estadstica adecuada para hiptesis sobre medias es la prueba Z para un tamao de muestra igual o mayor a 30 y una poblacin con distribucin normal.

Hiptesis sobre medias: Prueba Z


Video Connection, Una cadena de tiendas de video, termin recientemente una encuesta entre 200 consumidores en su rea de mercado. Una de las preguntas fue: En comparacin con otras tiendas de videos del rea, dira usted que Video Connection es mucho mejor que el promedio, un poco mejor del promedio, un poco peor que el promedio o mucho peor que el promedio?

Hiptesis sobre medias: Prueba Z


Las respuestas se codificaron como sigue:
Respuesta Mucho mejor Un poco mejor Promedio Un poco peor Mucho peor Cdigo 5 4 3 2 1

Hiptesis sobre medias: Prueba Z


Calificacin media = 3.4 Desv. estndar = 1.9 La gerencia de Video Connection puede confiar en que la calificacin media de sus tiendas de videos es significativamente mayor de 3 (el promedio en la escala de calificacin)?

Solucin
Ho : M3 Ha : M3 =.05 Valor tabulado de Z (valor crtico)= 1.64 t=Z para muestras mayores de 30 La desviacin estndar de la muestra (S) es S=1.90

Solucin
Calculamos el error estndar estimado de la media: Sx= S/n = 1.9/ 200 =0.13 Se calcula el valor estadstico de la prueba:
Z = (media de la muestra) (media de la poblacin esp.Ho) error estndar estimado de la media = 3.4-3 = 3.07 0.13

Solucin
La hiptesis nula se rechaza porque el valor calculado para Z (3.07) es mayor que el valor crtico de Z (1.64). Por lo tanto, la gerencia de Video Connection puede inferir con una confianza del 95% que la calificacin media de sus tiendas de video es significativamente mayor de 3.

Prueba t
Funciona en inferencia estadstica con muestras pequeas (n<30). En teora tambin funciona para muestras de mayor tamao (n>30), pues se aproxima a una distribucin normal y se hace idntica a ella para muestras de 30 o ms observaciones.

Prueba t
Considere el caso de un fabricante de refrescos que planea efectuar una prueba de mercado con un refresco nuevo en Denver. Elige 12 supermercados de esa ciudad al azar y en ellos ofrece el refresco al pblico durante un periodo limitado. La compaa estima que es necesario vender 1000 cajas por semana en cada tienda para considerar que la marca produce buenos ingresos y conviene introducirla a gran escala.

Prueba t
Tienda 1 2 3 4 5 6 7 8 9 10 11 12 Ventas promedio por semana (Xi) 870 910 1050 1200 860 1400 1305 890 1250 1100 950 1260

También podría gustarte