Está en la página 1de 5

Guía de estudio de Estadística Analítica:

DCA - 2da Parte

La presente guía de estudio es un camino que lo invita a recorrer ciertos tópicos de la


siguiente bibliografía:

● Guía de Trabajos Prácticos de Estadística Analítica


● Bioestadística, Wayne Daniel
● Probabilidad y estadística para ingeniería y ciencias, Jay L. Devore

Le proponemos no avanzar en la lectura del presente documento hasta completar los


tópicos pedidos en cada inciso. Resuelva paso a paso, pensando en contestar cada
pregunta antes de seguir avanzando.

En la primera parte de la guía de estudio de DCA recorrimos el camino de la elección del


diseño por las características del problema que se está estudiando y los objetivos que se
persiguen. Se concluyó que para poder testear la hipótesis que habíamos propuesto, la
técnica análisis de varianza era la indicada por ser la más potente y eficaz. Sin embargo
cabe preguntarse lo siguiente, ...

... ¿Ante cualquier conjunto de datos se puede realizar el análisis de varianza con la misma
potencia?
... ¿No existirán condiciones teóricas mínimas que se deban pedir para que las
conclusiones a las que arribe el análisis de la varianza sean fiables?
… ¿Cómo se prueba si mi conjunto de datos cumple con dichas condiciones teóricas?
… ¿Existirá una técnica más potente en el caso de que algunas de esas condiciones no se
cumplieran?

La presente guía de estudio abordará las respuestas a las preguntas precedentes.

Empecemos con recordar el modelo de DCA expuesto en la sección Modelo que inicia en
la página 349 de Bioestadística, Wayne Daniel.

1. Exprese la ecuación del modelo teórico que se propone en sus dos formas.

Nota: tenga en cuenta que el libro citado para resolver el inciso anterior, al igual que Probabilidad y
estadística para ingeniería y ciencias, Jay L. Devore, utilizan la notación X para referirse a la variable
respuesta y en la guía de trabajos prácticos utilizamos la letra Y para ello. En consecuencia, 𝑥𝑖𝑗 𝑠𝑒𝑟í𝑎 𝑦𝑖𝑗 para
nosotros, así como cambiaría la notación para ̅̅̅𝑥𝑖. 𝑦 𝑥̅.. .

1
2. Para interpretar mejor la idea que propone la ecuación expresada en el punto
anterior, indique cuál de las opciones es la que más se ajusta a la información que
otorga el modelo:
a. Cada observación de la variable respuesta coincide con la media de su
tratamiento.
b. La media de cada tratamiento no necesariamente coincide con cada
observación de la variable respuesta. En la mayoría de los casos existe una
diferencia entre ellas que se denomina error.

La idea es que los errores sean lo más pequeños posible para que eso determine que las
medias sean buenas representantes de la población. Pero además deben cumplir con otras
condiciones.

3. Enumere las condiciones sobre los errores que están expresadas en la sección 10.3
Mas sobre ANOVA de un solo factor de Probabilidad y estadística para
ingeniería y ciencias, Jay L. Devore en las páginas 392-393.

Habrá notado que se pide que los errores sean variables aleatorias independientes y que
𝜀𝑖𝑗 ∼ 𝑁(0; 𝜎 2 ) , siendo la varianza denotada la misma varianza que tratamos en la guía de
estudio DCA 1ra parte, es decir, la varianza poblacional de la variable respuesta en general
(sin tener en cuenta las distinciones de los tratamientos).

Ahora bien, si rememoramos una propiedad de las distribuciones normales observamos


que:
● Si 𝑋 ∼ 𝑁(𝜇; 𝜎 2 ) 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 (𝑋 + 𝑘) ∼ 𝑁(𝜇 + 𝑘; 𝜎 2 ) siendo k una constante.

Si empleamos la propiedad en la ecuación del modelo…

4. ¿Cómo se distribuirán 𝑌𝑖𝑗 y con qué parámetros?

Aquí tenemos la primera condición que debe cumplir la variable respuesta.

5. Complete la siguiente frase:


Dentro de cada uno de los tratamientos, la variable respuesta se distribuye
………………………………………… con parámetros……… y ……………………....

En cuanto a la independencia de los errores, resulta una de las condiciones más difíciles
de analizar. Lo único que podremos decir, en nuestra posición de analista de datos ya
recabados, es que confiamos en que el diseño del experimento tomó en cuenta la
aleatorización necesaria y fue llevado a cabo de una forma que, no asegura, pero garantiza
el mejor esfuerzo por cumplirla.

Entonces tenemos la segunda condición:

6. Complete la siguiente frase:


Las observaciones de …………………………………………………… son
independientes entre sí, dentro y entre los tratamientos.
2
Por último, para que nuestro análisis recaiga sobre las medias poblacionales como fue
expresado en las hipótesis estadísticas de la guía de estudio DCA 1ra Parte, debemos
asegurarnos de que, si existe alguna diferencia en las distribuciones descritas en los
puntos 4 y 5, sea sólo por su posición central, es decir, su media. Por lo tanto…

7. ¿Qué puede concluir acerca de la relación entre las varianzas poblacionales


𝜎1 2 , 𝜎2 2 , 𝜎3 2 , . . . , 𝜎𝑘 2 ?

A la última condición se la denomina homocedasticidad.

8. Lea la sección Suposiciones del modelo de la página 352 de Bioestadística,


Wayne Daniel y chequee sus respuestas.

La pregunta a contestar ahora es la tercera planteada: ¿De qué manera se prueba si el


conjunto de datos cumple con las condiciones teóricas descritas en los puntos 5, 6 y 7?

Para abordar la respuesta, conteste las siguientes preguntas:

9. ¿Qué prueba conoce para testear la normalidad de una variable?

Tomando como ejemplo al ejercicio resuelto 1, que inicia en la página 42 de la guía de


trabajos prácticos de Estadística Analítica…

10. Si se lee cuidadosamente la respuesta dada en el punto 5, ¿cuántas pruebas de


normalidad debería hacer?

Es un poco engorroso realizar tantas pruebas, también habíamos nombrado que dicha
condición resulta equivalente a 𝜀𝑖𝑗 ∼ 𝑁(0; 𝜎 2 ) lo que reduce el número de pruebas a SOLO
UNA, pero con los errores provenientes del modelo de DCA propuesto.

Analizando la siguiente condición, habíamos dicho que de la independencia no íbamos a


poder asegurar nada más que confiar en el buen diseño y desempeño del productor de
datos.

Finalmente, para probar que las varianzas poblacionales de la variable respuesta en cada
tratamiento son iguales entre sí, ...

11. ...lo invitamos a releer los propósitos del análisis de varianza que aparecen en la
Introducción del capítulo 7 Análisis de la variancia de Bioestadística, Wayne
Daniel.

En el texto nombrado se menciona que la técnica del Análisis de Varianza también se utiliza
para poner a prueba la igualdad de tres o más varianzas.
Para poder ver un ejemplo de su empleo y del detalle que hace falta para este cambio de
objetivo en la denominada Prueba de Levene, además de un ejemplo de prueba de
normalidad…

3
12. ...lea cuidadosamente el inciso e de la resolución del ejercicio resuelto 1 de la guía
de trabajos prácticos de Estadística Analítica que inicia en la página 44.

Por último, debemos contestar la cuarta pregunta: ¿qué otra técnica es más potente en el
caso de que alguna de las condiciones teóricas no se cumpla?

Para ello existen diversas opciones, en nuestro curso estudiaremos una prueba que se
denomina Kruskal-Wallis, especialmente diseñada en el caso de que falle la normalidad
de los errores. Igualmente, nosotros también la utilizaremos en el caso que falle la prueba
de homocedasticidad.

Recordemos el concepto de Modelos libres de distribución o No paramétricos:


Llamamos modelos paramétricos a aquellos en los cuales hay un número finito de
parámetros desconocidos.

Ejemplos:
● Distribución Binomial con parámetros n y p
● Distribución normal con parámetros µ y σ2

Cuando se conoce el valor de estos parámetros, la distribución queda totalmente


especificada. Llamamos modelo no paramétrico a aquel en el cual no hacemos ninguna
suposición acerca de la distribución.

13. Rememore los casos de pruebas no paramétricas vistas en la unidad anterior y


exprese sus correspondientes variables pivotales.

Los modelos no paramétricos o de libre distribución son más generales, es decir se hace
un menor número de suposiciones.
Los test no paramétricos, como ya hemos visto, son una alternativa de los tests
paramétricos cuando falla alguna de las condiciones, pero aun cuando se cumplen todas
las condiciones también es posible utilizarlos, aunque, los test paramétricos son más
potentes y eficientes. Sin embargo, si los supuestos de normalidad no se cumplen, los tests
no paramétricos son una gran opción.

En el caso especial del TEST DE KRUSKAL WALLIS (test no paramétrico o de libre


distribución, para Poblaciones independientes), …

14. ...lea la sección 11.8 Análisis unilateral de varianza, por rangos, de Kruskal-Wallis
de Probabilidad y estadística para ingeniería y ciencias, Jay L. Devore en las
páginas 729-730

Como pudo leer, es el método más adecuado para comparar k poblaciones cuyas
distribuciones no son normales o no son homocedásticas, vale decir, cuando alguno de los
supuestos del análisis paramétrico de la varianza no se satisface. Contrasta la hipótesis
nula de que las muestras independientes proceden de la misma población y, en particular,
todas ellas tienen la misma posición central.

Para poder conocer sobre las condiciones necesarias y el procedimiento práctico…


4
15. ...lo invitamos a leer la resolución del ejercicio resuelto 2 que inicia en la página 47
de la guía de trabajo práctico de Estadística Analítica 2020.

También podría gustarte