Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Una de las distribuciones de probabilidad más utilizada es la F, denominada así en honor de Sir Ronald
Fisher, uno de los fundadores y propulsores del estudio de la ciencia estadística.
Esta distribución sirve entre otras, para probar si dos muestras provienen de poblaciones con varianzas
iguales o para comparar simultáneamente varias medias poblacionales, está comparación simultanea se
denomina análisis de varianza (ANOVA), acrónimo que proviene del idioma inglés “Analysis of variance” o
también como una técnica usada ampliamente en el diseño de experimentos donde tiene su origen en la
agricultura.
El análisis de la varianza parte de los conceptos de regresión lineal. Un análisis de la varianza permite
determinar si diferentes tratamientos o experimentos presentan diferencias significativas entre ellos o por el
contrario puede suponerse que sus medias poblacionales no difieren. El análisis de la varianza permite superar
las limitaciones de hacer contrastes bilaterales por parejas que son un mal método para determinar si un
conjunto de variables con n > 2 difieren entre sí, cuando se trabaja con pruebas de hipótesis para dos muestras
El Modelo de efectos fijos asume que los datos provienen de poblaciones normales las cuales podrían
diferir únicamente en sus medias.
El Modelo de efectos aleatorios asume que los datos describen una jerarquía de diferentes poblaciones
cuyas diferencias quedan restringidas por la jerarquía. Ejemplo: El experimentador ha aprendido y ha
considerado en el experimento sólo tres de muchos más métodos posibles, el método de enseñanza
es un factor aleatorio en el experimento, y
El Modelo de efectos mixtos describen situaciones que éste puede tomar. Ejemplo: Si el método de
enseñanza es analizado como un factor que puede influir donde están presentes ambos tipos de
factores: fijos y aleatorios.
Cuando se cumplen las anteriores condiciones la distribución de Fisher, F, se utiliza como un valor
estadístico de prueba.
En el ANOVA, uno de los términos más usados es Tratamiento, que se emplea para identificar las
poblaciones que se examinan o determina la causa o fuente específica de variación en un conjunto de
datos.
El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la media global
(SCT), que bajo el supuesto de que H0 es cierta es una estimación obtenida a partir de toda la información
muestral, en dos fuentes: Variación dentro de las muestras (SCE) o Intra-grupos, que cuantifica la
dispersión de los valores de cada muestra con respecto a sus correspondientes medias. Variación entre
muestras (SEt) o Inter-grupos, cuantifica la dispersión de las medias de las muestras con respecto a la
media global.
El siguiente ejemplo mostrara que es un análisis de varianza a una vía. Abrahán Tirado propietario de un
cultivo de yuca desea fertilizar su terreno con un producto que produzca el máximo rendimiento de yuca por
hectárea. Para ello tiene tres marcas de fertilizantes A, B y C; las cuales aplica en su terreno, el cual
previamente lo divide en 12 lotes de igual tamaño. Después siembra la yuca al mismo tiempo y de la misma
forma.
1
Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.
La única diferencia en las parcelas es que asigna al azar la marca A del fertilizante para cuatro lotes, el B
para otros cuatro y el C a los cuatro restantes lotes. Al momento de la cosecha se registra la producción de
yuca (en arrobas) en cada lote. Para este ejemplo hay 3 tratamientos, esto es las tres clases de fertilizantes
A, B y C. El resultado de la producción de yuca en miles de arrobas es:
TRATAMIENT
OS
A B C
5 66 47
5
5 76 51
4
5 67 46
9
5 71 48
6
La pregunta es: ¿existen diferencias significativas entre los tratamientos? . Para responder está pregunta se
plantea la siguiente hipótesis:
2
Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.
Donde:
Cuando la hipótesis nula es cierta la SCt/k-1 y SCE/n-k son dos estimadores insesgados de la varianza
poblacional y el cociente entre ambos se distribuye según una distribución F de Snedecor con k-1 grados
de libertad en el numerador y n - k grados de libertad en el denominador. Por lo tanto, si H0 es cierta es de
esperar que el cociente entre ambas estimaciones será aproximadamente igual a 1, de forma que se
rechazará H0 si dicho cociente difiere significativamente de 1. Es decir, a valores extremos existirán
diferencias para rechazar H0.
La distribución F
La distribución de probabilidad que se utiliza en ANAVA es la distribución F. Recibió este nombre en honor a sir
Ronald Fisher, uno de los fundadores de la estadística moderna. Esta distribución de probabilidad se usa como
estadística de prueba en varias situaciones. Se emplea para probar si dos muestras provienen de poblaciones
que poseen varianzas iguales, y también se aplica cuando se trata de comparar simultáneamente varias
medias poblacionales. La comparación simultánea de varias medias poblacionales se conoce como análisis de
varianza (ANOVA). En ambas situaciones, las poblaciones deben ser normales y los datos tener al menos la
escala de los intervalos.
AI nivel de significancia de 0.05, ¿existe una diferencia en el tiempo medio de viaje a lo largo de las cuatro
rutas? Si se elimina el efecto de los conductores, ¿habrá una diferencia en el tiempo promedio del trayecto?
Para comenzar, se realiza una prueba de hipótesis usando un ANOVA en una dirección. Es decir, se
consideran sólo las cuatro rutas. En estas condiciones la variación se debe a los tratamientos o al azar. La
hipótesis nula y la hipótesis alternativa para comparar el tiempo medio del recorrido a lo largo de las cuatro
rutas son: H0: µ1 = µ2 = µ3 Vs H1: AI menos una es diferente. Existen cuatro rutas, así que los grados de
libertad en el numerador es k - 1 = 4 - 1 = 3. Hay 20 observaciones; de este modo los grados de libertad en
el denominador son n - k = 20 - 4 = 16. En la tabla de Fisher se ve que con el nivel de significancia de 0.05,
el valor crítico de F es 3.24. La regla de decisión es rechazar la hipótesis nula si el valor F calculado es
mayor que 3.24. Los elementos para la tabla ANOVA se calculan como sigue. Primero, usando SCT, se
determina la variación total: SCT = 10904 – (464)²/20 = 139.2
Después, mediante SCt se calcula la variación de tratamiento: (110²+ ….+119²)/5 – 464²/20 = 32.4
Por último, por substracción, se determina la variación de error.
SSE = SCT - SCt = 139.2 - 32.4 = 106.8. AI introducir estos valores en una tabla ANOVA y calculando el
valor de F, resulta:
Debido a que el valor F calculado de 1 .618 es menor que el valor crítico de 3.24, no se rechaza la hipótesis
nula. Transmilenio puede concluir que no hay diferencia en el tiempo medio del recorrido entre las cuatro
rutas. No hay razón para seleccionar una de ellas como más rápida que las otras.
En el ejemplo anterior se consideró la variación causada por los tratamientos (rutas) y se supuso que la
variación restante era aleatoria. Sin embargo, se establecieron pruebas para que cada uno de los cinco
conductores manejara por las cuatro vías. Si se pudiera considerar el efecto de los diversos conductores,
esto permitiría reducir término SCE, lo que podría llevar a un valor de F más grande. La segunda variable --
los conductores en este caso- se conoce como variable de bloqueo.
Variable de bloqueo: Una segunda variable de tratamiento que cuando se, incluye en el ANOVA, tendrá el
efecto de reducir SCE. En este caso se dejó que los conductores fueran la variable de bloqueo, y al eliminar
del SCE el efecto de aquéllos, cambiará la razón F para la variable de tratamiento.
Primero se necesita determinar la suma de cuadrados debida a los bloques. La ecuación para evaluar los
bloques de suma de cuadrados es muy similar a la ecuación para la suma de cuadrados para tratamientos.
BLOQUES DE SUMA CUADRADOS SCB = B²r /k – T..²/n
Donde B, se refiere al total de bloque, esto es, el total para la fila, y k es el número de elementos en cada
bloque. Se utiliza el mismo formato en la tabla ANOVA de dos direcciones, que, en el caso de dicha tabla
para una dirección, con la excepción de que hay una fila adicional para la variable de bloqueo. Se tiene que
Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.
SCt y SST se calculan como antes, y SCB se evalúa con se indicó antes. El término SCE se encuentra por
substracción. ERROR DE SUMA DE CUADRADOS, SSE = SS total - SST – SSB. Los valores para los
diversos componentes de la tabla ANOVA se calculan como sigue.
Existe un desacuerdo en este punto. Si el propósito de la variable de bloqueo (los conductores, en este
ejemplo) era sólo reducir la variación de error, no se debe realizar una prueba de hipótesis para la
diferencia en las medias de bloques. Es decir, sí el objetivo es disminuir el valor de SCME, entonces no se
debe probar una hipótesis con relación a la variable de bloqueo. Por otra parte, tal vez se desearía dar a los
bloques el mismo status que a los tratamientos, y realizar una prueba de hipótesis. En el último caso,
cuando los bloques son lo suficientemente importantes para ser considerados como un segundo factor, esto
se conoce como experimento de dos factores.
En muchos casos, la decisión no es clara. En el ejemplo existe la preocupación acerca de las diferencias
en el tiempo del recorrido para los diferentes conductores, así que se realizará la prueba de hipótesis.
La hipótesis nula se rechaza y se acepta la alternativa. Se concluye que el medio de viaje no es el mismo
para todas las rutas. Así que Transmilenio deseará realizar algunas pruebas para determinar qué media de
tratamiento difieren.
A continuación, se hace una prueba para determinar si el tiempo del trayecto es igual para los diferentes
conductores. Los grados de libertad en el numerador correspondiente a bloques es b - 1 = 5 - 1 = 4. Los
grados de libertad para el denominador son los mismos que antes (b- 1 )(k- 1 ) = (5 -1 )(4 - 1 ) = 12. Las
hipótesis nulas de medias de bloque son iguales se rechaza si la razón F es mayor que 3.26.
Se rechaza la hipótesis nula y se acepta la alternativa. El tiempo medio no es igual los diversos
conductores. Así que la gerencia de Transmilenio puede con base en los resultados maestrales indicar, que
existe una diferencia en las rutas y en los conductores.
Notas N ANÁLISIS DE VARIANZA A UNA Y DOS VÍAS (Un y dos Factores) - ANOVA
Notas de Clase Alberto Boada Rodríguez, Ph.D.
Taller No. 2
1. ¿Existen diferencias entre las cuatro semillas? Se desea comparar el rendimiento de cuatro
semillas A, B, C y D. Un terreno se divide en 24 parcelas similares y se asigna al azar cada semilla
a 6 parcelas.
Las ventas resultantes, en unidades, son las que se presentan en la siguiente tabla.
4. En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos distintos
(A,B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha realizado un control de
calidad a una muestra tomada para cada modelo. El número de defectos encontrados para cinco
vehículos del modelo A son 5,4,6,6 y 7; para seis vehículos del modelo B son 7,8,6,7,6 y 5; y para ocho
vehículos del modelo C: 9,7,8,9,10,11,10 y 10. Contrastar si existen diferencias en el tratamiento que
se da a los distintos modelos.
5. Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan con métodos
diferentes. El primer grupo realiza largos recorridos a ritmo pausado, el segundo grupo realiza series
cortas de alta intensidad y el tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de
alta frecuencia. Después de un mes de entrenamiento se realiza una prueba de rendimiento
consistente en un recorrido cronometrado de 9 Km. Los tiempos empleados fueron los siguientes:
A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen resultados
equivalentes? O por el contrario ¿Hay algún método superior a los demás?
Experto Nacional 12
Inexperto Veredal 16
Inexperto Veredal 27
Inexperto Veredal 23
Inexperto Veredal 14
Experto Veredal 20
Experto Veredal 15
Experto Veredal 8
Experto Veredal 17