P. 1
unidad 4 canul

unidad 4 canul

|Views: 1.658|Likes:

More info:

Published by: Barrios Rodriguez Irving Arturo on May 25, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOCX, PDF, TXT or read online from Scribd
See more
See less

06/01/2013

pdf

text

original

4 PRUEBAS DE HIPÓTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS.

4.existe una formación de pares de las observaciones correspondientes. 1.. Como consiguiente tenemos que el número de grados de libertad en la prueba es igual al número total de elementos muestreados. test of hypothesis). llamadas también de <<libre distribución>>.2 distribuciones normal y t de estudent. menos el número de muestras. Existen casos en que las muestras no son independiente sino son dependientes o que a su ves estas están relacionadas entre si Por tal razón puedo entender que existen dos tipos de muestras dependientes. si las diferencias observadas entre dos muestras significan que las poblaciones de las que se han obtenido las muestras son realmente diferentes. se esperara que la media entre las dos medias muéstrales sea cero. 2º determinar. Las primeras establecen un buen número de restricciones sobre la naturaleza de la población de la que se obtiene los datos. Por ende las muestras deben ser suficientemente grandes para que la distribución de las medias muéstrales siga una distribución normal. en base a la observación de una muestra obtenida de ellos. La prueba de hipótesis para dos muestras es casi semejante a la prueba de una sola muestra es decir que este capítulo se tomaran dos muestras aleatorias para determinar si proviene de una misma población o a su vez de poblaciones iguales. a partir de la evidencia que suministra las muestras. no exigen tantas restricciones sobre la naturaleza de la población. Las segundas.1 PRUEBA DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS. . Existen dos tipos de técnicas estadísticas inferenciales: las paramétricas y las aparamétricas. de igual manera las desviaciones estándar de las dos poblaciones son iguales. La inferencia estadística se ocupa de la obtención de conclusiones en relación a un gran número de sucesos. Así mismo puedo entender que en el caso de que se den las dos poblaciones iguales. estas son iguales a la suma de dos variables individuales. Los métodos de la estadística inferencial señalan los procedimientos que se han de seguir para poder extraer conclusiones válidas y fiables. Así mismo constituyo que para realizar una comparación de poblaciones con muestras pequeñas es necesario tener en cuanta las siguientes suposiciones: las dos muestras provienen de poblaciones independientes. 2. ya que atienden más a la ordenación de los datos que a su valor numérico. así mismo las poblaciones muestreadas siguen una distribución normal. siendo los <<parámetros>> los valores numéricos de la población. 4. Dos son los problemas que trata de resolver la estadística inferencial en torno a las pruebas estadísticas: 1º determinar si es probable que un valor obtenido a partir de una muestra pertenece realmente a una población. En el caso que existan poblaciones independientes. A partir de ambas determinaciones se desarrollan los fundamentos de las pruebas de decisión estadísticas o pruebas de hipótesis (en inglés. una intervención de cierto tipo y esta a su ves otra medición.las que se caracterizan por una medición.. en términos de probabilidad.

Su propio nombre indica su extendida utilización. grado de adaptación a un medio. tallas.) de una especie.Distribución Normal DISTRIBUCION NORMAL La distribución normal es muy importante por lo siguiente: Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. se ve que sus polígonos de frecuencias se aproximan a una curva en "forma de campana".. perímetros. envergaduras. pesos. Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana.. Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra.. justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución. Caracteres psicológicos. diámetros.p)... Errores cometidos al medir ciertas magnitudes. la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño... p. plantas. En resumen. Caracteres sociológicos. puntuaciones de examen. por ejemplo : la media.. por ejemplo: cociente intelectual. En probabilidad y estadística. animales. Caracteres fisiológicos. al considerar distribuciones binomiales. Y en general cualquier característica que se obtenga como suma de muchos factores. .. por ejemplo: efecto de una misma dosis de un fármaco..ejm.. Otras distribuciones como la binomial o la de Poisson son aproximaciones normales. o de una misma cantidad de abono. por ejemplo: consumo de cierto producto por un mismo grupo de individuos. Valores estadísticos muestrales. la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal Caracteres morfológicos de individuos (personas. En otras ocasiones. tipo B(n. . para un mismo valor de p y valores de n cada vez mayores.

un resultado se denomina estadísticamente significativo cuando no es probable que haya sido debido al azar. El nivel de significación de un test es un concepto estadístico asociado a la verificación de una hipótesis. En pocas palabras. Una "diferencia estadísticamente significativa" solamente significa que hay evidencias estadísticas de que hay una diferencia. entonces la hipótesis nula es rechazada. aquellas variables sobre las que se va a contrastar si hay o no.no es mayor que P. De ahí que muchas veces se asume la diferencia en el valor de un indicador. Para comparar las medias de dos muestras procedentes de dos poblaciones normales e independientes. Si el valor de la variable para un individuo es menor o igual que el valor especificado. o significativa en el sentido estricto de la palabra. el individuo pertenecerá al primer grupo. Cuanto menor sea el valor P.3 pruebas de significancia Las pruebas de significancia estadística son un procedimiento que brinda un criterio objetivo para calificar las diferencias que se presentan al comparar los resultados de dos muestras. Estas pruebas son importantes porque con frecuencia se tiende a analizar los datos de una encuesta por muestreo probabilístico como si fueran los datos provenientes de un censo. diferencias de grupos.cuando ésta es verdadera . se utiliza el procedimiento Prueba T para muestras independientes. La decisión se toma a menudo utilizando el valor P (o p-valor): si el valor P es inferior al nivel de significación. o el valor de la variable que hará de corte para definir dichos grupos. no significa que la diferencia sea grande.4. es decir. por el contrario. Variable de agrupación: aquí se debe introducir la variable que se utiliza para definir los grupos de sujetos sobre los que se estudian las diferencias.4 comparación de dos muestras independientes: pruebas t para las diferencias entre dos medias. al segundo. el nivel de significatividad de un contraste de hipótesis es una probabilidad P tal que la probabilidad de tomar la decisión de rechazar la hipótesis nula . 4. con el objetivo de explicar si dichas diferencias se mantienen dentro de los límites previstos por el diseño estadístico (un error y una confianza esperados) o si. más significativo será el resultado. de un trimestre con respecto a otro. se define como la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando ésta es verdadera (decisión conocida como error de tipo I. En otros términos. . como si fuera una diferencia real cuando no necesariamente es así. importante. o "falso positivo"). En estadística. la diferencia entre ellas resulta lo suficientemente grande como para inferir que ha ocurrido un cambio real en el indicador. se selecciona: A continuación se abre una ventana con los siguientes campos: Contrastar variables: donde se han de introducir las variables que se van a analizar. Entonces el sistema activa el botón definir grupos y al presionarlo aparece una ventana donde se introducen los valores de la variable que definen los dos grupos de sujetos a comparar. y para ello. y en caso contrario.

por lo tanto: H0: La media de peso inicial es igual en ambos grupos Se denotará por {X1. y tecleamos un 1 en el primer grupo y un 3 en el segundo. por último pulsamos continuar y aceptar para ejecutar el procedimiento. Uno de los análisis estadísticos más comunes en la práctica es probablemente el utilizado para comparar dos grupos independientes de observaciones con respecto a una variable numérica. Para ello. no obstante.Xn} e {Y1. El t test para dos muestras independientes se basa en el estadístico: . Un número suficiente de observaciones (digamos mayor de 30) como ocurre en el ejemplo planteado justifica. este tipo de metodología exigirá que la varianza en ambos grupos de observaciones sea la misma. Como ejemplo. consideremos los datos que se muestran en la correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias distintas.Ym} al peso observado en cada uno de los sujetos sometidos a la dieta A y a la dieta B respectivamente.. para los profesores asociados y los titulares de universidad de profesores2.. . de modo que en el ejemplo planteado la hipótesis de partida será. Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos puede realizarse en términos de un único parámetro como el valor medio. de modo que en el ejemplo n=40 y m=35. Seguidamente seleccionamos como variable agrupación la variable categoría..Opciones: presionando este botón se obtiene una ventana donde se especifica igual que en la sección anterior el nivel de confianza para el intervalo y la forma de tratar los valores missing. presionamos el botón definir grupos. la aplicación de un contraste paramétrico requiere la normalidad de las observaciones para cada uno de los grupos.. la utilización del mismo test.Y2... discutiendo posteriormente el modo de abordar formalmente el caso en el que las varianzas no sean similares. La comprobación de esta hipótesis puede realizarse tanto por métodos gráficos (por medio de histogramas.sav. y elegimos la variable tiemdoc para llevarla al campo contrastar variables. Vamos a comprobar si existen diferencias significativas entre los tiempos medios de dedicación a la docencia. X2. seleccionamos el procedimiento prueba t para muestras independientes. En general no se exigirá que coincida el número de observaciones en cada uno de los grupos que se comparan. de modo que se desea comparar el peso de los individuos que iniciaron cada una de las dietas. test de Shapiro-Wilks). Así mismo. Como ya se ha adelantado. diagramas de cajas o gráficos de normalidad) como mediante tests estadísticos5 (test de Kolmogorov-Smirnov. En primer lugar se desarrollará el test t de Student para el caso en el que se verifiquen ambas condiciones...

4.25.95 / 0. 4. calificando con puntos las respuestas de los clientes (desde ³0´ grado de aceptación. Ahora podemos establecer la relación entre las varianzas para estimar la F empírica: F = 3.0.25. porque es mayor que 6. Cuando el valor de F calculado para las muestras es superior al valor F de la Tabla de Fisher. que es un parámetro de dispersión. hasta el grado ³10´ el cual indica un máximo puntaje de aceptación). entonces se trabaja con el test ³ F ³ de R. 4.1% Valor crítico de F: 2. A. o sea: el número de datos menos la unidad. Para ello se ejecutan 5 pruebas con el Menú A y 7 pruebas con el Menú B. la cual diría que las dos varianzas son diferentes.0.6 comparaciones de dos muestras pareadas. para saber si existe diferencia significativa entre sus dos varianzas (si son las mismas o son diferentes) y tomar una decisión de venta más racional. a fin de observar el nivel de significación.16. por lo que es necesario primero estimar las desviaciones típicas o estándar. según los números de grados de libertad. Ejemplos para comparar varianzas Cuando la comparación es entre varianzas.16. 4. se puede admitir que el resultado es más significativo que el nivel de significación elegido.6.2 y menor que 15. 2) Ahora se debe comparar el valor calculado de F con los valores de la Tabla de Fisher. En seguida aplicaremos el método con un ejemplo: Se utilizan dos menús en un restaurante urbano para medir el grado de aceptación por parte de los comensales y saber si los dos menús se pueden o no utilizar indiferentemente.5 = 7.50 y para el Menú B nos arroja 3. 5.2.2.0.5. También se pueden comparar datos de venta de un mismo producto turístico en dos países emisivos distintos.0) Al estimar la varianza para el Menú A nos arroja 0. 15.5 pruebas de Fisher para varianzas y de igualdad de las varianzas de dos poblaciones normales.5 ( y llevados al cuadrado son. 4.90.5. se establece una relación dividiendo la que tenga mayor valor con la que tenga menor valor y esa es la relación F.4. Las muestras apareadas se obtienen usualmente como distintas observaciones realizadas sobre los mismos individuos. debido a la baja probabilidad de que sean las mismas. 16. Si se tienen dos muestras y se quiere determinar si sus dispersiones se pueden considerar como idénticas o como diferentes. Fisher.25).25. Igualmente para cada muestra se calcula su grado de libertad . . podemos rechazar la Hipótesis Nula que diría que las dos varianzas son iguales.2. 1) Luego que se conocen las dos varianzas de las muestras. Veamos los datos siguientes: Valores para las cinco pruebas con el menú A. ya que la varianza es el cuadrado de la desviación típica. Un ejemplo de observaciones pareadas consiste en considerar a un conjunto de n personas a las que se le aplica un tratamiento médico y se mide por ejemplo el nivel de insulina en la sangre antes (X) y después del mismo (Y). Vamos a la Tabla F de Fisher y observamos los diferentes niveles de significación para Valores Críticos de F.98.0 (y sus valores al cuadrado son: 9. o sea: Niveles de significación: 20% 10% 5% 1% 0.5 Ahora bien si comparamos el valor obtenido de las muestras igual a F=7. En este ejemplo no es posible considerar aX eY como variables independientes ya que va a existir una dependencia clara entre las dos variables. y admitir la Hipótesis Alternativa o de Trabajo. el método que se debe seguir es como sigue: Se calculan las varianzas respectivas de las dos muestras. para poder aceptar o no la hipótesis nula. Entonces.5. podemos decir que se ubicaría en la Tabla de Fisher entre 5% y 1%.2.95. 50. El dueño del restaurante tendría que saber que puede utilizar los dos menús de una manera indiferente.36.4. los valores para las siete pruebas con el Menú B son: 3. 6.

teóricamente infinitos. Este modelo se supone cuando el investigador está interesado por una población de niveles. El fundamento en el que se basan es en suponer que el bloque es más homogéneo que el conjunto. Hablaremos de este tipo de diseños más adelante. el análisis de la varianza (ANOVA. siendo por tanto una pareja un caso particular de bloque de 2 elementos. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher". El Anova requiere el cumplimiento los siguientes supuestos: .7 modelo totalmente aleatorio: análisis de varianza de un factor. de los que únicamente una muestra al azar (t niveles) están presentes en el experimento. desde la agricultura donde se inició. frente a la hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. y es una metodología de gran utilidad en muchos tipos de trabajos de investigación en diversas áreas. llamemos di a la diferencia entre las observaciones ³antes´ y ³después´. Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. El concepto de prueba pareada se puede extender a comparaciones de más de dos grupos y hablaremos entonces de bloques de m elementos (tantos elementos por bloque como grupos o tratamientos). en los que interesa comparar los resultados de K 'tratamientos' o 'factores' con respecto a la variable dependiente o de interés. Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. a la medicina. El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales. El ejemplo más simple es el de estimar la media desconocida de una población compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medición. en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas. según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados. e ingeniería. En estas técnicas de formación de bloques el investigador deja de ser un mero observador. por lo que restringiendo las comparaciones entre tratamientos al interior de los bloques se espera obtener una mayor precisión. para pasar a "diseñar" el estudio o experimento. del factor de estudio. Este contraste es fundamental en el análisis de resultados experimentales. biología. que es la prueba que se utiliza para comparar más de dos grupos.Si se quiere contrastar si hay diferencia entre las poblaciones. 4. cuando dediquemos algún artículo al análisis de la varianza. debido al uso de la distribución F de Fisher como parte del contraste de hipótesis. A. En estadística.

como ya se ha visto anteriormente. Si las varianzas poblacionales no pueden suponerse iguales los límites del intervalo de confianza son: . En la práctica si n1 y n2 son moderadamente grandes. Variación entre muestras (SCE) o Inter-grupos. cuantifica la dispersión de las medias de las muestras con respecto a la media global.Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente a cada factor) son normales. en dos partes: obtenida a partir de toda la Variación dentro de las muestras (SCD) o Intra-grupos. Las poblaciones tienen todas igual varianza (homoscedasticidad).de la distribución t de Student con n1+ n2-2 grados de libertad y es una estimación de la desviación típica común a ambas poblaciones obtenida a partir de las varianzas de las dos muestras. El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global (SCT). siendo sus límites superior e inferior: t /2 es el valor crítico correspondiente al grado de confianza 1. que bajo el supuesto de que H0 es cierta es una estimación de información muestral. En ocasiones interesa definir un intervalo de valores tal que permita establecer cuáles son los valores mínimo y máximo aceptables para la diferencia entre las medias de dos poblaciones. el valor crítico t /2 se aproxima. el intervalo de confianza para la diferencia de medias poblacionales está centrado en la diferencia de las medias muestrales. siendo en ambos casos condición necesaria que las poblaciones de origen sean normales o aproximadamente normales: MUESTRAS INDEPENDIENTES Si puede suponerse que las varianzas de ambas poblaciones son iguales. 4. Pueden darse dos situaciones según las muestras sean o no independientes.8 selección del tamaño de muestra para estimar la diferencia de dos medias. Las K muestras sobre las que se aplican los tratamientos son independientes. cuantifica la dispersión de los valores de cada muestra con respecto a sus correspondientes medias. a los valores de la distribución normal.

El valor crítico t /2 corresponde a una distribución t cuyos grados de libertad se calculan en base a ambos tamaños muestrales y a las desviaciones típicas de cada grupo según la corrección propuesta por Dixon y Massey: Para obtener el intervalo de confianza en ambos casos la secuencia es: Analizar Comparar medias Prueba T para muestras independientes Los grupos pueden definirse en función de una variable cuantitativa o de una cualitativa. Si se quiere cambiar el grado de confianza del intervalo. uno de los cuales estará formado por todos los casos con valores menores que el especificado y el otro por el resto de casos. En este caso las muestras están formadas por parejas de valores. MUESTRAS DEPENDIENTES. Si la variable tiene más de 2 valores o modalidades se elige la opción Punto de corte indicando el valor de la variable que induce una partición en dos grupos. entonces se debe seleccionar Usar valores especificados e indicar la modalidad que define el grupo 1 y la del grupo 2. Para contrastar la hipótesis de igualdad de medias y obtener el intervalo de confianza la secuencia es: Analizar Comparar medias Prueba T para muestras independientes * .resultados de la prueba de Levene para contrastar la igualdad de varianzas . antes de aceptar hay que modificarlo con el botón Opciones. Si la variable de agrupación presenta sólo dos valores o modalidades.intervalo de confianza para la diferencia de medias al 95% por defecto. uno de cada población y el estadístico se obtiene a partir de las diferencias de los valores de las dos variables correspondientes a cada caso o di que se define como di= xi-yi.resultados de la prueba T para contrastar la igualdad de medias . Al aceptar se obtienen: .

9 aplicaciones .4.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->