Está en la página 1de 39

DISEOS DE INVESTIGACIN Y ANLISIS DE DATOS

INTRODUCCIN. CONSEJOS BSICOS DE ESTUDIO

I.- El examen consta de tres situaciones, cada una de las cuales comprende un mnimo
de 7 preguntas y un mximo de 10, para un total de 25:

- La primera comprende los temas 1-4: Teora de la inferencia estadstica, clculo de


intervalos de confianza, contraste de hiptesis, valor y nivel crtico sobre la media, la
proporcin y la varianza. El tema 1 es el ms largo y es el fundamental, expresa los
fundamentos tericos de toda la asignatura. Los dems son desarrollos, en los temas 1-2
para diseos con una muestra y los temas 3 y 4, para diseos con dos muestras.
- La segunda, los temas 5-7: Comprende los anlisis de varianza (ANOVA) con varias
muestras. El tema 5 es el equivalente al tema 1.
- La tercera, slo el tema 8: Anlisis de regresin lineal y mltiple.

En consecuencia lo lgico es dedicar la mayor parte del tiempo a estudiar y asimilar


bien los conceptos de los temas 1 y 5 (fundamentos tericos de la asignatura y los ANOVA)
y el tema 8 (anlisis de regresin). Los ANOVA son clculos muy complejos; en el examen
dan los datos intermedios y se trata de completar los que faltan, para lo cual hay que tener
en cuenta las relaciones entre sumas y medias cuadrticas y los grados de libertad para
comparar el valor de F con los valores de las tablas al hacer el contraste de hiptesis. Y para
los diseos ms complejos las preguntas suelen ser de teora.

II.- Aproximadamente entre 2/5 y la mitad de las preguntas son de teora. Es


fundamental dominarla, porque si se contestan bien las preguntas de teora, supone 2/3 del
aprobado y si se contestan mal, es imposible aprobar aunque se hagan bien los problemas.
Adems su dominio permite plantear y resolverlos correctamente. Es muy importante
fijarse bien en lo que piden y los datos que nos ofrecen para identificar el problema:
Distinto o diferente, implica contraste bilateral (dos colas); mayor o menor que,
unilateral (una cola). Cuando se habla de un parmetro genrico, se estn refiriendo a la
media; porcentaje es lo mismo que proporcin y variabilidad es varianza o desviacin
tpica.

La tcnica o procedimiento para el contraste de hiptesis es siempre la misma:

1.- Determinacin de los supuestos del problema (tipos de diseo y de contraste).


2.- Formulacin de las hiptesis estadsticas (nula y alternativa).
3.- Eleccin y clculo del estadstico de contraste (EC), eligiendo la frmula correcta.
4.- Decisin sobre el rechazo o no de la hiptesis nula planteada para el nivel de
significacin deseado o que nos den, mediante la comparacin entre el (o los) valor(es)
crtico(s), clculo del nivel p crtico, tamao del efecto y a veces, potencia del contraste.
6.- Conclusin e interpretacin de los resultados en el contexto de la investigacin.

1
TEMA 1: ESTIMACIN DE PARMETROS Y CONTRASTE DE HIPTESIS

1.- Conceptos bsicos.

La inferencia estadstica es la parte de la ciencia estadstica que estudia los


procedimientos a travs de los cuales se puede:
Estimar con un elevado grado de probabilidad determinadas propiedades o
parmetros de una poblacin, partiendo de los estadsticos disponibles o calculados en
una muestra de la misma obtenida de forma aleatoria.
A la inversa, estudiar si determinados valores muestrales se apartan significativamente
de los parmetros poblacionales.

En esta asignatura los estadsticos sobre los que se va a trabajar son la media, la
proporcin, la varianza (o su raz cuadrada, la desviacin tpica) y los coeficientes de
regresin, correlacin y determinacin, aunque la inferencia puede realizarse sobre
cualquier otro estadstico (mediana, moda, rango, etc.), existiendo un procedimiento o
frmula diferente para cada estadstico.

- El error muestral es la diferencia entre el resultado obtenido en la muestra y el que


habramos obtenido si se hubiese trabajado con toda la poblacin.
- El error tpico es la desviacin tpica del estadstico.

Si obtenemos distintas muestras aleatorias de una poblacin, los estadsticos de cada


una de ellas tomarn valores diferentes. La distribucin de los estadsticos muestrales se
comporta como una variable aleatoria, conocida como distribucin muestral. Es muy
importante distinguir y no confundir los siguientes conceptos:

a) Distribucin de (o en) la muestra: Son los datos o valores (distribucin de


frecuencias) que toma la variable en una muestra concreta. La media, mediana,
proporcin, desviacin tpica, correlacin, etc. de la muestra, son los estadsticos.
b) Distribucin poblacional: Son los datos o valores (distribucin de frecuencias) que
toma una variable en el conjunto de la poblacin. Su media, mediana, proporcin,
desviacin tpicas, etc. son los parmetros poblacionales.
c) Distribucin muestral de un estadstico: Son los datos o valores (distribucin de
frecuencias) que toma una variable o estadstico en el conjunto de todas las
infinitas muestras que pueden obtenerse de una poblacin. Como en toda
distribucin, tambin de la distribucin muestral, podemos obtener su media y su
desviacin tpica o error tpico del estadstico.

Cuando los estadsticos (muestrales) se refieren a una muestra concreta, se designan


con letras latinas maysculas (Media de la muestra = , Varianza de la muestra = S2,
Proporcin de la muestra = P). Los mismos parmetros referidos a la poblacin, se indican
con los caracteres griegos equivalentes en minsculas (, , 2).
2
2. Distribucin muestral de la MEDIA.

Hay que distinguir tres supuestos:

1.- Si la distribucin poblacional de la variable de estudio es normal con media


y varianza o desviacin tpica conocidas, con independencia del tamao de la muestra,
la distribucin muestral del estadstico media es tambin normal, siendo su media y
desviacin tpica (o error tpico de la media), respectivamente Y y / (frmula 1, pg.
9 del formulario). Si tipificamos las medidas, ser N (0,1).

2.- Si se desconoce la varianza (o la forma de la distribucin poblacional), el


estadstico media se distribuye como una T de Student, con n-1 grados de libertad y
usaremos la desviacin tpica insesgada o cuasidesviacin tpica de la muestra (frmula 2,
pgina 9 del formulario, ojo siempre n-1 en vez de n).

3.- En el supuesto 2, si la muestra es lo suficientemente grande (n>30 o n>100, segn


los autores), aunque el estadstico media seguir distribuyndose segn la T de Student,
por el Teorema Central del Lmite tender a una distribucin normal y podremos usar
la primera frmula del cuadernillo siempre que se utilicen la desviacin tpica insesgada o
cuasidesviacin tpica de la muestra con n-1 en vez de n, si n. Si no, saldr mal (problema
1 del examen de septiembre-2016).

3. Distribucin muestral de la PROPORCIN.

En las variables dicotmicas o dicotomizadas (las que slo pueden tomar dos valores),
la proporcin es el porcentaje de elementos que tienen una determinada propiedad (xito)
en relacin con el total. Las probabilidades asociadas a cada valor concreto se distribuyen
segn la distribucin binomial con parmetros n y . Con muestras grandes la binomial
tiende a aproximarse a la normal N (, p), (frmula 3, pgina 9 del cuadernillo). En esta
asignatura para resolver los problemas slo se usa la distribucin normal.

4. Distribucin muestral de la VARIANZA.

La distribucin muestral de la varianza se ajusta a una 2 (chi-cuadrado), con n-1


grados de libertad. Cuando la muestra es mayor de 100, la 2 tiende a la normal, aunque
la varianza sigue distribuyndose segn la 2.

Es muy importante retener que cada estadstico se distribuye con su propia funcin
de distribucin que no cambia con el tamao de la muestra; cuestin diferente es que
por el TCL cuanto mayor sea la muestra, tal distribucin (T de Student, binomial o chi-
cuadrado) se aproxime ms a la normal, pero debe usarse siempre la frmula del
estadstico que corresponda, aunque luego dicho estadstico se use en la tabla normal.

3
5.- ESTIMACIN DE PARMETROS: PUNTUAL Y POR INTERVALOS.

Un estimador es un estadstico calculado en la muestra que se utiliza para estimar o


elaborar hiptesis acerca del valor del parmetro correspondiente en la poblacin. Para todo
parmetro existen diversos estimadores, con diferentes propiedades. Por ejemplo, para la
media poblacional podran utilizarse la media aritmtica o la media geomtrica de la
muestra. El uso de uno de otro depender del parmetro que pretenda estimarse y de la
bondad en el cumplimiento de determinadas propiedades.

Las propiedades principales de los estimadores son:

a) Sesgo: Un estimador es insesgado cuando su valor esperado, es decir, la media de


la distribucin muestral, coincide con el parmetro estimado.
b) Eficiencia o precisin: Es la inversa de la varianza. Un estimador es eficiente
cuando tiene poca variabilidad. Entre dos estimadores insesgados es ms eficiente
el que tiene menor desviacin tpica o error tpico de medida y por tanto, menor
varianza.
c) Consistencia. Un estimador es consistente cuando al aumentar el tamao de la
muestra, la varianza del estimador disminuye, tendiendo en el lmite a 0.
d) Suficiencia. Un estimador es suficiente si para estimar el parmetro de la poblacin
utiliza todos los elementos o informacin disponibles en la muestra.

La propiedad de los estimadores insesgados y eficientes (con varianza pequea) se


llama acuracidad.

Los estadsticos media, proporcin y coeficiente de correlacin muestrales son


estimadores insesgados, eficientes, consistentes y suficientes de los parmetros media,
proporcin y coeficiente de correlacin poblacional. La mediana es eficiente y consistente
pero no es insesgada; ni tampoco suficiente al usar slo los valores centrales de la muestra.

La varianza muestral no es un estimador insesgado de la varianza poblacional,


aunque s cumple con las otras tres propiedades. Por el contrario, la cuasivarianza
muestral (o varianza insesgada, calculada sobre n-1) s es un estimador insesgado de
la varianza poblacional, pero es menos eficiente que la varianza muestral.

Resumen de las propiedades de estadsticos

Carencia de sesgo Eficiencia Suficiencia Consistencia


Media Aritmtica SI > Mediana SI SI
Mediana NO < Media NO SI
Proporcin SI ----- SI SI
2
Varianza NO >S n-1 SI SI
2
Cuasi varianza SI <S SI SI
4
La estimacin de parmetros a partir de los estadsticos muestrales puede ser puntual o
por intervalos. En la estimacin puntual se utiliza directamente el valor del estadstico
calculado en una muestra aleatoria concreta como verdadero valor del parmetro
poblacional. Sin embargo, como es muy poco probable que as ocurra, es preferible definir
un intervalo de valores entre cuyos lmites inferior y superior se encontrar, con una alta
probabilidad predeterminada, el verdadero valor del parmetro. A este procedimiento se le
conoce con el nombre de estimacin por intervalos de confianza.

La probabilidad sobre la que se calcula el intervalo de confianza, se llama nivel de


confianza (1-) y se define como la probabilidad de que el parmetro poblacional est
contenido entre los extremos del intervalo. La probabilidad complementaria del nivel
de confianza () recibe el nombre de nivel de significacin.

Para un tamao de muestra dado, cuanto mayor sea la amplitud del intervalo, mayor
ser el nivel de confianza (probabilidad de que el valor poblacional est dentro del mismo),
pero menor la precisin (puesto que el intervalo es ms amplio). Cuanto mayor sea la
dispersin muestral (varianza o desviacin tpica, sesgada o insesgada), menor ser el nivel
de confianza. Slo al aumentar el tamao de la muestra, se incrementan la precisin y el
nivel de confianza. En consecuencia, para un nivel de confianza dado, la amplitud del
intervalo de confianza tendr que ser por fuerza mayor cuanto menor sea el tamao
muestral o cuanto mayor sea la dispersin muestral.

Los intervalos de confianza se calculan segn las frmulas correspondientes a cada


estadstico en la columna 2 de la pgina 9 del formulario. Para la media se utiliza la de la
fila 1 si la varianza poblacional es conocida (normal) o las de la 2 si es desconocida (T de
Student, aproximada por la normal, si n>100 pero usando la misma frmula del estadstico).
Para la proporcin, la fila 3 (normal) y para la varianza, la 4 (2, aproximada por la
normal si n>100, fila 5). En todos los casos, una mitad del nivel de significacin /2 queda
por encima del lmite superior y la otra, por debajo del lmite inferior del i.c.

Cuando la funcin de distribucin del estadstico es simtrica (normal o T de Student),


bastar con calcular el valor correspondiente a 1-/2, calcular el error mximo y sumarlo y
restarlo del valor de la media o proporcin muestral, que ocupar el valor central (media o
proporcin muestral +/- Emax). Sin embargo, cuando no lo es (varianza, 2, chi-cuadrado),
hay que buscar en la tabla los dos valores correspondientes a /2 y a 1-/2 para calcular los
lmites inferior y superior del intervalo de confianza, estando el valor inferior del intervalo
ms prximo a la varianza muestral que el superior.

El tamao mnimo de la muestra para estimar la media o la proporcin poblacional


con un determinado porcentaje de error se calcula con los valores correspondientes a cada
fila en la columna 3 de la pgina 9 del formulario. La pregunta ir referida a un nivel de
significacin o de error diferente al inicial de trabajo para un error expresado en un
porcentaje (2 o 3%, por ejemplo) o en un valor absoluto, sobre el que calcularlo.
5
INTERVALO DE CONFIANZA PARA LA MEDIA

N(0,1) t n-1 gl
2 2
Distribucin Normal (Conocida ) Desconocida la (Muestras pequeas)

- (Z /2) (X/) < <


+ (Z1- /2) (X/) - (t /2) (Sn- 1/) < < X + (t1- /2) (Sn- 1/)

6
6.- CONTRASTE (o prueba) DE HIPTESIS.

Una hiptesis estadstica es una conjetura que se formula sobre una poblacin y que
puede someterse a prueba o contrastacin emprica a partir de una muestra representativa
de esa poblacin. Una vez que la hiptesis se ha contrastado se pueden tomar decisiones
sobre la misma. El contraste de hiptesis es una parte esencial del mtodo cientfico.

La metodologa del contraste es fruto de los trabajos de Fisher, Neyman y Pearson. Su


lgica recuerda a la de un juicio en un estado de derecho: El acusado (la hiptesis nula) es
inocente (verdadera) hasta que las pruebas (contraste) no demuestren lo contrario. Si los
datos (EC) aportan resultados significativamente diferentes de los planteados en la hiptesis
nula (VC), sta es rechazada y se acepta la hiptesis alternativa. En caso contrario, se
mantiene como provisionalmente verdadera hasta que se encuentren nuevas evidencias.

Para el contraste de hiptesis se deben formar una hiptesis nula H0 y otra alternativa
H1. En la hiptesis nula, forzosamente debe estar el signo igual y adems pueden estar el
mayor que o el menor que, pero no ambos a la vez. En la H1 nunca est el signo igual, con
las excepciones que se vern en cada caso.

En general, la hiptesis nula afirma que no existe diferencia entre el valor del
estadstico obtenido en la muestra y el que formulamos como parmetro poblacional,
es decir, que la diferencia observada entre estos dos valores es nula. Sin embargo, como el
valor del estadstico muestral y el del parmetro poblacional rara vez coincidirn, lo que se
afirma es que la diferencia observada entre ambos puede explicarse como resultado del
azar. Esto es, que si se repitiese la investigacin un nmero suficiente de veces con otras
muestras aleatorias del mismo tipo y tamao extradas de la poblacin, la media o esperanza
matemtica de las diferencias observadas entre los valores del estadstico y el parmetro
poblacional formulado en la hiptesis nula tendera a desaparecer (valor cero).

Para cada hiptesis nula se plantea una hiptesis alternativa, representada por H1, que
es la negacin de la hiptesis nula, de tal forma que si la hiptesis nula es falsa la hiptesis
alternativa tiene que ser forzosamente verdadera y viceversa. Por tanto, estas dos hiptesis
tienen que ser exhaustivas y mutuamente excluyentes.

Dependiendo de cmo est formulada la hiptesis nula se marca la direccin del


contraste. Si la hiptesis nula H0 est planteada como igualdad de valores y la alternativa
es su negacin, es un contraste bilateral porque la H1 admite que la diferencia pueda ser
positiva o negativa. Si, por el contrario, conocemos que la direccin en que la H0 puede ser
falsa slo puede ser positiva o negativa, entonces tendremos un contraste unilateral. Ser
un contraste unilateral derecho si estamos buscando un valor superior al postulado por la
H0 e izquierdo si estamos buscando un valor inferior para el parmetro poblacional () de
que se trate:

7
Contraste bilateral Unilateral derecho Unilateral izquierdo

H0 : =0 H0 :0 H0 :0
H1 : 0 H1 :>0 H1 :<0

El contraste bilateral siempre es ms conservador, en el sentido de que hace ms difcil


rechazar la hiptesis nula para un mismo nivel de confianza.

El procedimiento para el contraste de hiptesis es el siguiente:

a.- Condiciones de la investigacin y supuestos que cumplen los datos observados.


La variable debe ser cuantitativa y medirse con una escala de razn o de intervalo (no
sirve para variables ordinales o nominales).

b.- Formulacin de la hiptesis nula y de la alternativa. Conforme al contexto de la


investigacin se formulan las hiptesis nula y alternativa. En general la hiptesis cientfica,
dirigida a encontrar resultados significativos es la alternativa, que slo se aceptar como
verdadera si el resultado del contraste aporta evidencias contra la hiptesis nula que se
pretende rechazar.
Para no confundirnos, es mejor formular primero la hiptesis alternativa, que es lo
que pretendemos contrastar (si la media de la poblacin es mayor que; si la varianza es
menor que, etc.). Una vez fijada, la hiptesis contraria excluyente y exhaustiva, que
forzosamente incluir siempre el signo igual, ser la hiptesis nula. Al fijar la hiptesis
alternativa se plantear tambin el carcter unilateral o bilateral del contraste.

c.- Eleccin y clculo del estadstico de contraste.

El estadstico de contraste representa una medida estandarizada de la discrepancia


entre la informacin proporcionada por los datos empricos recogidos en la muestra y
la proposicin terica planteada en la hiptesis nula.

El EC es una variable aleatoria con una determinada distribucin de probabilidad que


depender del estadstico de que se trate y del tipo de experimento.

El estadstico de contraste o medida de discrepancia no depende de las unidades


en que est medida la variable y su formulacin habitual es:

8
d.- Regla de decisin, de acuerdo con el nivel de significacin .

Calculado el valor del estadstico de contraste o discrepancia entre los datos empricos
observados en la muestra y los datos tericos que planteamos en la hiptesis nula se toma
una decisin respecto al rechazo o no de H0, estableciendo previamente el nivel de
significacin que, segn Fisher, representa el mximo riesgo de rechazar una hiptesis
nula verdadera. En puridad, la hiptesis nula no se acepta, sino que no se rechaza (de
forma provisional), por no haber evidencia emprica suficiente de su falsedad.

Dicho de otro modo, adems de definir la discrepancia (estadstico de contraste) es


preciso considerar cuanta discrepancia consideramos admisible para no ser atribuible al
azar. Es decir, debemos determinar, a priori, cul ser la diferencia mxima entre el
estimador y el parmetro que estamos dispuestos a considerar compatible con la H0.
Esta decisin depender de la distribucin de probabilidad de la medida de discrepancia,
de la direccin del contraste y del riesgo de error que estemos dispuestos a asumir.

Cualquiera que sea la forma de la funcin de distribucin del estadstico de contraste,


si el contraste es bilateral tendremos tres zonas delimitadas por los dos valores crticos que
se sitan en el eje horizontal de la distribucin muestral. Si la distribucin es simtrica la
pregunta habitual para los contrastes bilaterales es valor crtico en valor absoluto. Si el
contraste es unilateral izquierdo solo tendremos dos zonas, siendo la regin de rechazo la
situada en la parte izquierda de la distribucin y si el contraste es unilateral derecho, la
regin de rechazo se situar en la parte derecha de la distribucin muestral como se
representan en los siguientes grficos esquemticos:

CONTRASTE UNILATERAL IZQUIERDO CONTRASTE UNILATERAL DERECHO

Zona Zona Aceptacin Zona Aceptacin Zona


Rechazo H0 H0 (1 ) H0 (1 ) Rechazo H0
|---------|-------------------------------------------| |----------------------------------------------|--------|
/ VALOR CRTICO VALOR CRTICO / 1-

9
CONTRASTE BILATERAL Valores / 1- / Z ms frecuentes
Valor crtico (Z /2) Valor crtico (Z /2) 005 001 0001

1- 095 99 0999
Z /2 - 196 - 258 - 329
Z 1-/2 196 258 329
Nivel de significacin

1 Nivel de confianza
Z /2 Z (Tabla III negativa)
Z 1-/2 Z (Tabla IV positiva)

Las grficas se interpretan de la siguiente manera:

- En el eje inferior horizontal (abscisas) se representan los valores del estadstico. En la


normal y T de Student van de menos a ms infinito, coincidiendo el 0 con el pico de la
curva. En la 2 y la F de Fischer-Snedecor, de 0 a infinito.
- La curva representa la distribucin o frecuencia para cada valor del estadstico.
- El rea comprendida entre la curva, el eje de abscisas y el eje perpendicular
correspondiente al valor del estadstico representa la probabilidad de que se d el valor de
referencia, entre 0 y 1.
- Las tablas dan la probabilidad de que el estadstico tome un valor igual o inferior al
de referencia, es decir, el rea comprendida entre la curva y el eje de abscisas situado a la
izquierda del valor de la variable (lo pone en el grfico que hay encima de las tablas)

El nivel de significacin que suele utilizarse en la mayora de las investigaciones es del


0,05, aunque en investigaciones ms rigurosas se trabaja con un nivel de significacin de
0,01 y aun inferior. Se rechazar la hiptesis nula siempre que la probabilidad de explicar
los resultados obtenidos en relacin a la H0 sea menor que el nivel de significacin.

Una vez fijado el nivel de significacin, se obtienen el valor o valores crticos de la


distribucin muestral que marcarn los lmites de la zona de aceptacin o rechazo de la H0
o sea la mxima diferencia que podemos admitir, por simple azar, entre el valor terico
planteado en H0 y el valor obtenido en la muestra.

La zona de rechazo de la H0 depende del nivel de significacin y es el rea de la


distribucin muestral que corresponde a un valor de la discrepancia tan alejado de H0 que
la probabilidad de obtenerlo, siendo H0 verdadera, es inferior al valor de significacin. La
regin de no rechazo de a H0, complementaria a la anterior, depende del nivel de
confianza, 1- y es el rea de la distribucin muestral que corresponde a valores de la
discrepancia tan poco alejados del formulado en la H0 que la probabilidad de obtenerlos
siendo H0 verdadera es muy elevada, no existiendo evidencia para rechazarla.

10
Por tanto, si el estadstico de contraste se sita en la zona de NO rechazo, la diferencia
observada no es significativa y se debe a errores aleatorios por lo que no podemos
rechazar la hiptesis nula con un determinado nivel de confianza. En caso de situarse en la
zona de rechazo, diremos que el valor del EC es significativo para un determinado nivel
de significacin y se rechazar la hiptesis nula. En definitiva, si el valor absoluto del EC
es mayor que el valor crtico (el correspondiente al nivel de significacin), se rechaza
la hiptesis nula y no se rechazar en caso contrario.

La decisin puede tomarse tambin mediante el clculo del nivel p crtico, que es la
probabilidad de obtener unos resultados como los observados en la muestra bajo el
supuesto de que la H0 es cierta. La regla de decisin a travs del nivel crtico es justo la
inversa: Si p es , rechazaremos H0, y si p > , no la rechazaremos. Esto es:

Ho (Cierta) (p) es mayor que () El valor se encuentra en el intervalo de confianza.


El valor del estadstico est entre los valores crticos.
Ho (Falsa) (p) es menor o igual que () El valor est fuera del intervalo de confianza.
El valor absoluto del estadstico es mayor que los valores crticos.

e.- Conclusin. Formulada la hiptesis nula, provisionalmente verdadera, sometida a


contraste emprico y una vez calculado el estadstico de contraste, se concluye rechazndola
o mantenindola segn sea incompatible o no con la evidencia muestral.

f.- Interpretacin. La conclusin simple y llana en trminos de rechazo o no de la


hiptesis nula tiene su correspondiente interpretacin dentro del contexto de la
investigacin y de la hiptesis y objetivos que el investigador formula en su trabajo.

RESUMEN DEL PROCEDIMIENTO DEL CONTRASTE DE HIPTESIS)


1.- Determinacin de los supuestos del problema (caractersticas de la variable en
la poblacin y datos de la muestra): Tamao y nmero de muestras, si son independientes
o relacionadas, si la distribucin de la poblacin conocida, etc.
2.- Formulacin de las hiptesis estadsticas (exhaustivas y mutuamente
excluyentes) de acuerdo con la hiptesis cientfica (H1 y H0).
3.- Eleccin y clculo del estadstico de contraste apropiado al problema planteado
y clculo con los datos muestrales.
4.- Fijar (regla de decisin). La zona de rechazo de la H0 estar formada por todos
los valores del estadstico tan extremos que la probabilidad de ser obtenidos es muy
pequea bajo el supuesto de que la H0 es cierta.
5.- Decisin sobre el rechazo o no de la H0 mediante el nivel crtico (p) o mediante
el o los valores crticos ().
6.- Conclusin e interpretacin de los resultados en el contexto de la investigacin.

11
7.- ERRORES EN LA DECISIN EN UN CONTRASTE DE HIPTESIS.

Al decidir entre la hiptesis nula o su alternativa podemos cometer dos tipos de errores:
- Error tipo I (): Es la probabilidad de rechazar una hiptesis nula verdadera.
Coincide con el nivel de significacin , fijado a priori por el investigador. Su
complementario, probabilidad de aceptar una H0 verdadera es el nivel de confianza.
Error tipo II (): Es la probabilidad de aceptar una hiptesis nula falsa. Su
complementario 1-, probabilidad de rechazar una H0 falsa es la potencia del contraste.

Decisin Naturaleza de H0
VERDADERA FALSA

Decisin correcta. Decisin errnea


No se rechaza Nivel de confianza Error tipo II
1-

Decisin errnea
Decisin correcta
Se rechaza Error tipo I Potencia del contraste
Nivel de significacin
1-

Para igual tamao muestral la disminucin del error tipo I aumenta el error tipo II. La
opcin por uno u otro depender del tipo de experimento y de sus consecuencias; en un
tratamiento mdico el error de tipo II es peor (no beneficiarse de un tratamiento ms eficaz,
frente al coste de inversin en uno que no lo es). Sin embargo, en un juicio el error de tipo
I es ms grave (condenar a un inocente, frente a dejar libre a un culpable).

La fuerza de un fenmeno se mide mediante el tamao del efecto, coeficiente que


expresa la magnitud de la diferencia observada entre el valor terico planteado por la
hiptesis nula y el valor observado para la hiptesis alternativa expresado en una
mtrica comn (estadstico d de Cohen). Oscila entre 0 e . Se considera el efecto fuerte
si es 0,8 o mayor, moderado si est entre 0,5 y 0,7 y dbil si es menor de 0,5.
12
TEMA 2.- CONTRASTE DE HIPTESIS EN LOS DISEOS DE UNA MUESTRA.

1.- INTRODUCCIN. (Frmulas de la pgina 9 del formulario (UNA MUESTRA).

Cuando se trata de inferir las caractersticas de la poblacin a partir de los datos


recogidos de una muestra, la hiptesis a contrastar es precisamente una determinada
caracterstica de aquella. Los contrastes basados en una muestra pueden ser:

- Paramtricos, cuando se refieren al estudio de un parmetro poblacional (media,


varianza, proporcin, correlacin, etc.) en una poblacin con una funcin de densidad de
probabilidad conocida.

- No paramtricos, cuando no se relacionan con parmetros poblacionales o se


encuentran referidas a datos que provienen de una poblacin con una funcin de densidad
de probabilidad desconocida. Son menos potentes que los anteriores y no se estudian aqu.

Adems de para estimar parmetros poblacionales, el intervalo de confianza puede


tambin aplicarse para el contraste de hiptesis. Sin embargo, es mucho ms frecuente
obtener el estadstico de contraste como una medida ms exacta de la discrepancia
entre el valor planteado en la H0 y el valor obtenido en la muestra.

Esta medida de la discrepancia tiene una distribucin de probabilidad conocida para


cada parmetro y va acompaada de una probabilidad, llamada nivel crtico p, que es la
probabilidad de obtener un resultado como el obtenido en la muestra, o ms extremo,
bajo el supuesto de que la hiptesis nula es verdadera. No es la probabilidad de que la
H0 sea cierta sino una probabilidad condicionada: Si H0 fuera cierta (condicin) el nivel
p crtico indica la probabilidad de obtener un valor del estadstico de contraste igual o ms
extremo que el obtenido efectivamente en la muestra (P (Y yi | H0 ) = p).

2.- CONTRASTES SOBRE LA MEDIA POBLACIONAL.

a) Contraste sobre la media poblacional conocida la varianza poblacional.

El estadstico de contraste es el de la frmula de la fila 1 y la columna 1 de la pgina 9


del formulario, que se distribuye como normal N (0,1), siendo la media obtenida en la
muestra, o el valor de la media poblacional formulado en la hiptesis nula, Y el error tpico
de la media o desviacin tpica de la distribucin muestral de la media (denominador), la
desviacin tpica poblacional que suponemos conocida y n el tamao de la muestra que
estamos utilizando para contrastar la hiptesis.

El estadstico Z cuantifica la distancia de la media de la muestra a la media poblacional


en unidades del error tpico (desviacin tpica) de la distribucin muestral.

13
b) Contraste sobre la media poblacional desconocida la varianza poblacional.

- El estadstico de contraste es el correspondiente a la fila 2 de la columna 1 de la pgina


9 del formulario.
- Se distribuye con arreglo a la T de Student, con n-1 grados de libertad.
- El error tpico de la media o desviacin tpica de la distribucin muestral de la media
se calcula utilizando la cuasidesviacin tpica o desviacin tpica insesgada de la muestra
(denominador).

3.- CONTRASTE SOBRE LA PROPORCIN POBLACIONAL.

- El estadstico e contraste es el correspondiente a la fila 3 de la columna 1 de la pgina


9 del formulario.
- Se distribuye normalmente con arreglo a la normal N (0,1).
- El error tpico de la media o desviacin tpica de la distribucin muestral de la media
se calcula utilizando la desviacin tpica de la muestra (denominador).

4.- CONTRASTE DE HIPTESIS SOBRE LA VARIANZA POBLACIONAL.

- El estadstico de contraste es el correspondiente a la fila 4 de la columna 1 de la pgina


9 del formulario (usando la varianza muestral insesgada, con n-1).
- Se distribuye con arreglo a la 2 (chi-cuadrado) con n-1 grados de libertad, que a
diferencia de la N y la T, no es simtrica, aunque s tiene la propiedad recproca o inversa,
de modo que, por ejemplo, el valor de la distribucin para 0,95 es igual al 1/valor para 0,05.
- Para el clculo de los intervalos de confianza o error mximo, cuando n>100 se puede
utilizar la normal, pero con la frmula de la fila 5 y la varianza normal (no insesgada).

5.- CLCULO DE LA POTENCIA DEL CONTRASTE.

La potencia del contraste es la probabilidad de rechazar una hiptesis nula que en


realidad es falsa (igual a la probabilidad de aceptar una H1 verdadera) y por tanto es el
complementario del error tipo II (1), que es la probabilidad de no rechazar una
hiptesis nula que es falsa. El clculo de la potencia de un contraste puede referirse a
cualquier parmetro, pero aqu slo se expone para la media y la proporcin poblacionales.

Para poder calcular la potencia de un contraste las hiptesis nula y alternativa deben
ser simples, comparndose en cada una de ellas un nico parmetro poblacional, en
vez de un rango de valores (por ejemplo media = 7 frente a media = 9). Por tanto, por
excepcin, se plantean dos hiptesis en las que figura el signo igual tanto en la hiptesis
nula como en la alternativa. La potencia del contraste variar en funcin del tamao
muestral y la distancia entre el valor de la hiptesis nula y la hiptesis alternativa.
Para un mismo valor del error tipo I y distintos valores de H1, dichas variaciones
se representan mediante las curvas de potencia, que representan la potencia de un
contraste segn los distintos valores que pueda tomar H1 y el tamao de la muestra.
14
Para calcular la potencia del contraste, una vez establecido el nivel de significacin:

a) Se determina el valor crtico del estadstico que corresponde al nivel de


significacin elegido, segn la funcin de distribucin aplicable.
b) A continuacin, se calcula la puntuacin tpica correspondiente a la diferencia
entre dicho valor obtenido y el de la hiptesis alternativa.
c) La probabilidad asociada a la puntuacin tpica de dicha diferencia es el error tipo
II o (), siendo la potencia del contraste la probabilidad complementaria ser 1.

Lo deseable en un contraste de hiptesis es que las probabilidades de ambos tipos de


error fueran lo menor posible. Sin embargo, para un tamao de muestra prefijado, disminuir
la probabilidad del error de tipo I, , conduce a incrementar la probabilidad del error de tipo
II, . El nico recurso para aumentar la potencia del contraste y disminuir la probabilidad
de error de tipo II, es aumentar el tamao muestral.

6.- NIVEL CRTICO p Y ERRORES EN LOS CONTRASTES.

Dependiendo del nivel de significacin que se adopte a priori, la decisin que se tome
respecto de la H0 puede variar. Por ejemplo, que una hiptesis nula pueda rechazarse con
un nivel de significacin de 0.05 pero no de 0.01. Para evitar estos inconvenientes, se utiliza
el denominado nivel crtico p, que se define como el nivel de significacin ms pequeo
al que una hiptesis nula puede ser rechazada con la medida de discrepancia obtenida.
Es decir, el nivel crtico p cuantifica la probabilidad de obtener unos datos como los
obtenidos en la muestra bajo el supuesto de que la hiptesis nula es verdadera.

Al utilizar como criterio el nivel crtico p no hay que establecer previamente un


nivel de significacin, ya que la decisin se toma en funcin del valor de p. Si p es
pequeo se rechazar H0, si es grande se aceptar H0 y si est en torno a ese valor, se vuelve
a tomar nueva evidencia muestral y se repite el contraste. El nivel crtico p como criterio
de decisin tambin depende del tamao de la muestra utilizada.

El nivel p crtico es el nivel de significacin del EC, es decir, la probabilidad asociada


a la(s) cola(s) para el valor del EC. En el contraste unilateral derecho, es la probabilidad
que hay a la derecha del EC (cola derecha). Como la tabla nos da el valor de probabilidad
que hay a la izquierda, el nivel crtico p se calcula restando de 1 dicho valor. En el unilateral
izquierdo, es la probabilidad situada a la izquierda del EC (cola izquierda) y por tanto, es
el valor que nos da la tabla. En los bilaterales, como las dos colas tienen el mismo valor, se
multiplica por 2 el valor de la cola derecha.

Como el nivel p crtico informa de la probabilidad asociada al valor muestral obtenido,


proporciona informacin ms precisa que el EC por s slo y permite matizar las
conclusiones del estudio. Por ejemplo, si p=0.011, no podramos rechazar la H0 para un
nivel de significacin del 0.01, pero si se prescindiera del establecimiento de un nivel de
significacin predeterminado podra rechazarse con ese nivel p crtico.
15
Recapitulacin: Distincin conceptual entre valor crtico y nivel crtico.

1.- El valor crtico es el valor del estadstico para un nivel de confianza


determinado. Cmo se calcula? Se busca directamente en la tabla Z, T, 2 o F para 0.95 o
0.99, si es contraste unilateral o 0.975 o 0.995 si es bilateral. El valor crtico de Z y T oscila
entre ms y menos infinito, el de chi-cuadrado y F entre 0 e infinito.

2.- El nivel p crtico es el nivel de significacin del estadstico de contraste, es decir,


la probabilidad de que el valor de la variable sea el de la muestra o ms extremo. Cmo
pueden preguntarlo y cmo se calcula? Varias posibilidades:

a) Si nos piden el valor p crtico para un determinado valor de la variable, hay que
calcular el estadstico correspondiente y buscar la probabilidad asociada a la tabla. Si el
contraste es unilateral derecho, el nivel p crtico es 1 menos el valor de la tabla. Si es
bilateral ese resultado se multiplica por 2. Y si es unilateral izquierdo, el valor de la tabla
es el nivel p crtico.

b) Si lo piden para un valor del estadstico de contraste sea el calculado u otro


hipottico que nos den, se busca directamente en la tabla y se procede como en a).

c) Si no coincide exactamente el valor del EC con el de la tabla, se buscan los valores


del estadstico ms prximos por exceso y por defecto y la probabilidad asociada a los
mismos calculada conforme a) o b), entre los cuales estar el nivel p crtico (nos ofrecern
como respuestas varias desigualdades).

3.- Contraste de hiptesis con el valor crtico y el nivel p crtico.

Cuanto ms extremo es el valor del estadstico de contraste, menor es su nivel p crtico.


Por tanto, la regla de decisin expresada en trminos equivalentes es:

- Si el EC es ms extremo que el VC, se rechaza la H0 y se acepta H1.

- Si el nivel p crtico correspondiente al EC es menor que el nivel de significacin ,


se rechaza la H0 y se acepta H1.

16
TEMA 3. ANLISIS DE DATOS PARA DISEOS DE DOS GRUPOS. MUESTRAS
INDEPENDIENTES. (Frmulas pgina 10 del cuadernillo)

1.- INTRODUCCIN.

Para mejorar los resultados de la inferencia estadstica o el contraste de hiptesis, se


precisa trabajar con dos o ms muestras. Las muestras son independientes cuando no existe
relacin entre los sujetos de una y de otra, lo que se garantiza si los sujetos son asignados
aleatoriamente a cada una de ellas. Las muestras estn relacionadas cuando los mismos
sujetos (o parejas de sujetos equiparadas en ciertas variables estudiadas, como gemelos)
pasan por las diferentes condiciones experimentales. Si en ambas muestras hay el mismo
nmero de sujetos, el diseo es equilibrado. Si hay distinto nmero de sujetos, el diseo es
no equilibrado. Los diseos con muestras relacionadas slo pueden ser equilibrados.

2.- CONTRASTES DE HIPTESIS SOBRE DOS MEDIAS EN MUESTRAS


INDEPENDIENTES.

a) Varianzas poblacionales conocidas.

Las condiciones y supuestos son: Variable dependiente con un nivel de medida de


intervalo o razn, dos poblaciones que se distribuyen normalmente, o en su defecto,
muestras grandes (n1 30 y n2 30) y en ambos casos, con varianzas poblacionales
conocidas. Las frmulas para el estadstico de contraste y el intervalo de confianza en este
caso son las que figuran en la fila 1 de la pgina 10 del formulario (distribucin normal).

b) Varianzas poblacionales desconocidas supuestas iguales (homocedasticidad).

Las condiciones y supuestos son los mismos, pero no se conocen ni la forma de las
distribuciones poblacionales ni sus varianzas, pero stas ltimas se suponen iguales. Las
frmulas para el estadstico de contraste y el intervalo de confianza son las que figuran en
la fila 2 de la pgina 10 del formulario (distribucin T de Student, con n1+n2-2 grados
de libertad), en la que se utilizan los valores de las cuasivarianzas o varianzas insesgadas
muestrales). Este contraste de hiptesis se conoce como prueba T.

c) Varianzas poblacionales desconocidas y supuestas distintas.

Las condiciones y supuestos son: Variable dependiente medida a nivel de intervalo o


de razn, dos poblaciones supuestamente distribuidas normalmente o en su defecto
muestras grandes (n1 30 y n2 30). Las frmulas para el estadstico de contraste y los
grados de libertad son las que figuran en la fila 4 de la pgina 10 (Welch, 1938)
(distribucin T de Student, con los grados de libertad que resultan de la frmula), en
la que se utilizan los valores de las cuasivarianzas o varianzas insesgadas muestrales.

17
3.- CONTRASTE DE HIPTESIS SOBRE DOS VARIANZAS EN MUESTRAS
INDEPENDIENTES.

Las condiciones y supuestos son variable dependiente con un nivel de medida de


intervalo o razn y dos poblaciones con variables normalmente distribuidas, o bien n1 30
y n2 30. El estadstico de contraste se calcula segn las frmulas de la fila 5 de la pgina
10 del formulario (distribucin F de Fisher con n1-1 grados de libertad en el numerador
y n2-1 grados de libertad en el denominador). Si hay que calcular algn valor que no
aparece en la tabla deber aplicarse la propiedad inversa de la distribucin.

4.- CONTRASTE DE HIPTESIS SOBRE DOS PROPORCIONES EN


MUESTRAS INDEPENDIENTES.

Condiciones y supuestos: Variable dicotmica o dicotomizada (slo puede tomar dos


valores), dos muestras procedentes de observaciones aleatorias o independientes y muestras
grandes (n1 30 y n2 30). Las frmulas para el estadstico de contraste y el intervalo de
confianza de dos proporciones en muestras independientes son las que figuran en la fila 6
de la pgina 10 del formulario si la diferencia entre las dos proporciones es igual a 0
(proporciones supuestas iguales) y la de la fila 7 si es distinta de 0 (distribucin N (0,1)),
siendo la primera una aplicacin de la segunda cuando las proporciones son iguales.

5.- TAMAO DEL EFECTO (ndice d, estadstico de Cohen).

La magnitud o tamao del efecto es un ndice (o familia de ndices) que se aplica


cuando hay implicados al menos dos grupos, uno de tratamiento y otro de control y a
diferencia de los contrastes clsicos es independiente del tamao muestral. La frmula
que se utiliza es la de la fila nmero 3 de la pgina 10 del formulario (se utilizan las
cuasivarianzas o variaciones tpicas insesgadas como estimadores) y como el numerador va
en valor absoluto, siempre tendr un valor positivo (entre 0 e infinito). Segn Cohen si d es
igual o mayor a 0,8, el efecto es grande, si es menor a 0,2, pequeo y mediano si ronda el
0,5.

18
TEMA 4. ANLISIS DE DATOS PARA DISEOS DE DOS GRUPOS. MUESTRAS
RELACIONADAS. (Frmulas pgina 11 del cuadernillo)

1.- CONTRASTES DE HIPTESIS SOBRE DOS MEDIAS EN MUESTRAS


RELACIONADAS. (Todos los sujetos pasan por las mismas condiciones experimentales)

a) Varianza de las diferencias conocida.

Las condiciones y supuestos son: Variable dependiente con un nivel de medida de


intervalo o razn, poblacin de diferencias que se distribuye normalmente, o en su defecto,
muestras grandes (n1 30 y n2 30) y varianza poblacional de las diferencias conocida.
Las frmulas para el estadstico de contraste y el intervalo de confianza son las que figuran
en la fila 1 de la pgina 11 del formulario (distribucin normal).

b) Varianza de las diferencias desconocida.

Las condiciones y supuestos son: Variable dependiente con un nivel de medida de


intervalo o razn, poblacin de diferencias que se distribuye normalmente, o en su defecto,
muestras grandes (n1 30 y n2 30) y en ambos casos, con varianza poblacional de las
diferencias desconocida. Las frmulas para el estadstico de contraste y el intervalo de
confianza son las que figuran en la fila 2 de la pgina 11 del formulario (distribucin T de
Student con n-1 grados de libertad).

3.- CONTRASTE DE HIPTESIS SOBRE DOS PROPORCIONES EN


MUESTRAS RELACIONADAS.

Condiciones y supuestos: Variable dicotmica o dicotomizada (slo puede tomar dos


valores), dos muestras relacionadas con b y c observaciones independientes donde b+c>25.
Las frmulas para el estadstico de contraste y el intervalo de confianza son las que figuran
en la fila 3 de la pgina 11 del formulario. Ambas frmulas slo tienen en cuenta los
cambios o diferencias entre una y otra condicin experimental. La segunda se conoce como
test de McNemar y slo se puede emplear si se utiliza un contraste de hiptesis bilateral, ya
que al estar elevado al cuadrado no informa de la direccin de las diferencias. Por otra parte,
si el valor de 2 es muy pequeo, tampoco tiene sentido rechazar la hiptesis nula.

Resumen de trucos temas 1-4:

- Si preguntan por porcentaje, es un contraste de proporciones.


- Si preguntan por un dato en general, es un contraste de medias, salvo que se indique
otra cosa.
- Si nos dan el dato de cuasivarianza o varianza insesgada, hace referencia a valores
muestrales, no de la poblacin. Salvo que se diga otra cosa o se haga la prueba F, se presume
que las varianzas poblacionales son desconocidas y supuestas diferentes.

19
TEMA 5 DISEOS CON MS DE DOS GRUPOS INDEPENDIENTES.

1.- INTRODUCCIN.

El Anlisis de Varianza (Analysis of Variance o ANOVA o ANVAR) es una tcnica


paramtrica de anlisis estadstico que se utiliza para comparar la variabilidad de las
medias de ms de dos grupos estudiando la influencia de ms de dos valores de la VI
sobre la VD, con ms posibilidades de establecer la relacin precisa entre ellas.

2.- CONCEPTOS BSICOS DEL ANOVA.

En el modelo ms simple, de un solo factor o unifactorial, la variabilidad o varianza


general o comn que se observa entre las puntuaciones de los grupos despus de haber
introducido cambios en la VI, est formada por dos partes o componentes:

a) La que se debe a los distintos niveles del factor estudiado o variable


independiente, conocida como varianza intergrupos.
b) La que se debe a los factores extraos y no controlados, que recibe el nombre de
error experimental o varianza intragrupos.

El cometido del ANOVA es discernir qu variabilidad corresponde a cada parte. En la


terminologa del ANOVA, las variables independientes que se estudian reciben el
nombre de factores y las categoras en que se dividen los factores, el de niveles.

Los diseos en los que los niveles actan como una muestra de los posibles niveles del
factor y cuyas conclusiones se pueden generalizar para todos ellos, se conoce como de
efectos aleatorios o modelo aleatorio. Si las conclusiones estn restringidas a los niveles
establecidos previamente en el diseo, se trata de un diseo de efectos o modelos fijos.
Si los grupos o muestras tienen el mismo nmero de elementos, estaremos ante un modelo
equilibrado; en otro caso, ante un modelo no equilibrado.

3.- FUNDAMENTOS DEL ANLISIS DE VARIANZA.

Si para hacer comparaciones entre ms de dos muestras utilizramos las pruebas T


(temas 3 y 4), adems de la complejidad de los clculos por tener que analizarlas de dos en
dos en todas las complicaciones posibles, tendramos dos problemas:
a) Se pasara por alto la interaccin entre las variables independientes o factores.
b) Aumentara la probabilidad de cometer el error de tipo I.

Para evitar estos problemas se utiliza el Anlisis de Varianza (ANOVA o ANVAR)


contrastando la diferencia de medias entre varias muestras.
La hiptesis nula general es que no existe diferencia alguna entre las medias (en la
variable dependiente) de los distintos grupos o muestras.

20
Para minimizar la influencia de las variables extraas, conocidas o no y evitar
sesgos sistemticos en los resultados que se confunden con los efectos que pudieran deberse
a la variable independiente se procede a la aleatorizacin del muestreo tanto en la
eleccin de los sujetos como en el orden de asignacin a las condiciones experimentales
o niveles (contrabalanceo). Esto reduce aunque no elimina la posibilidad de que las
diferencias observadas entre los niveles no sean fruto del efecto conjunto de la variable
independiente y de factores de azar y por tanto, permite suponer que los errores
experimentales son independientes de los efectos de los distintos niveles de los factores.

4.- ANLISIS DE VARIANZA DE UN FACTOR (ANOVA UNIFACTORIAL)

En el modelo ms simple, de un slo factor, la variabilidad se descompone en la


varianza atribuible a los distintos niveles del factor o varianza intergrupos y la
varianza atribuible al error o varianza intragrupos. El punto esencial es determinar si
la varianza intergrupos (debida al factor manipulado) es significativa en relacin con la
varianza intragrupos (debida al azar). El estadstico de contraste es el cociente entre ambas
varianzas y se distribuye con arreglo a la F de Fisher-Snedecor. El contraste es unilateral
derecho, porque slo valores grandes de F permiten atribuir significacin estadstica a la
variabilidad observada, siendo muy improbable que su valor sea inferior a 1 (implicara que
la varianza del error o no explicada es mayor que la observada entre grupos).

Los pasos para realizar el ANOVA son:


1.- Probar los supuestos que permiten aplicar el ANOVA: VD cuantitativa medida a
escala de intervalo o razn (no sirve si es ordinal o nominal), independencia de las
observaciones (test de rachas), normalidad de las distribuciones (pruebas de la bondad de
ajuste, Lilliefors, Kolmogorov-Smirnov, X2 de Pearson), y homogeneidad de las varianzas
(homocedasticidad, test de Cochran para modelos equilibrados y test de Bartlett para
modelos no equilibrados).
2.- Enunciar las hiptesis estadsticas.
3.- Decidir el estadstico de contraste que vamos a utilizar para probar la H0.
4.- Establecer el nivel de confianza o la regin crtica de rechazo de la H0
5.- Calcular el valor del estadstico de contraste (Tabla del ANOVA)
6.- Tomar la decisin sobre la H0 (comparando el valor F obtenido con el valor crtico,
contraste unilateral derecho).
7.- Interpretacin en el contexto de la investigacin.

El modelo se representa mediante la expresin Yij = + i + ij, en el que actan sobre


la VD Y, de forma lineal tres componentes, siendo:
- Yij es cada puntuacin de la variable dependiente para cada sujeto y cada nivel.
- es la media de la poblacin (constante).
- i es el nivel comn a todos los elementos sometidos a ese nivel del factor.
- ij es el error experimental para cada sujeto y cada nivel.
Los subndices i representan los I niveles del factor y los subndices j, el nmero n de
elementos o sujetos medidos en cada nivel. El esquema es el siguiente:
21
HIPTESIS Efectos fijos (sobre las medias poblacionales) // Efectos aleatorios (sobre las varianzas cuando son =
0, las medias son iguales).

EFECTOS FIJOS EFECTOS ALEATORIOS


H0: 1 = 2 = 3 = = i H0: 2B = 0
H1 : 1 2 3 i al H1: 2B 0
menos para una i
Clculo similar

TABLA ANOVA UNIFACTORIAL (ltimo cuadro pgina 12 formulario)

FUENTE DE SUMAS GRADOS DE MEDIAS ESTADSTICO DE


VARIACIN CUADRTICAS LIBERTAD CUADRTICAS CONTRASTE
ENTRE NIVELES SC INTER I1 MC INTER
N de grupos o (SC INTER) / (I 1) MC INTER
niveles menos 1 F= -------------
DENTRO DE LOS SC INTRA NI MC INTRA MC INTRA
NIVELES N de sujetos (SC INTRA) / (N I)
menos N de
grupos
TOTAL SC TOTAL N1 Se distribuye F de Fisher-Snedecor con
N de sujetos menos (I 1) y (N I) grados de libertad.
1

CLCULOS : Se cumple [SC TOTAL = SC INTER + SC INTRA] y G. libertad: [N 1 = (I 1) + (N I)]

SC TOTAL = Y2 {( Y)2 / N}
SC INTRA = SC TOTAL - SC INTER
SC INTER = (Y)2 / n {( Y)2 / N}

DECISIN: Rechazamos H0 (igualdad de medias en los distintos niveles) si el valor de la F experimental


(estadstico de contraste) es mayor que el valor F obtenido en las tablas, para un nivel de significacin ()
predeterminado.

El Numerador del estadstico de contraste (MCINTER) contiene la Varianza de error + Efecto real de la VI. El
Denominador (MC INTRA) contiene la Varianza de error. Por tanto, cuanto menor es el efecto real de la VI ms se
acerca el cociente a uno.

Valor Crtico: F (I-1) (N-I) (1-) Zona de Aceptacin: F < F ((I-1) (N-I) (1-)

Decisin:
Zona de Rechazo: F F (I-1) (N-I) (1-) Si F < F crtico Aceptamos H0
Si F F crtico Rechazamos H0

22
Clculos abreviados (Utilizamos el sistema de notacin propuesto por Keppel): El clculo de las Sumas de
cuadrados se realiza sumando y restando las razones bsicas: [Y] (relacionada con las puntuaciones
individuales); [A] con los totales de los niveles y [T] con la suma total.

Estructura de clculo del numerador: Se elevan al cuadrado las cantidades implicadas y posteriormente se
suman.
Estructura de clculo del denominador: Cualquiera que sea el trmino se divide por el nmero de puntuaciones
que contribuyen a su clculo.

Frmulas para las razones bsicas Sumas Cuadrados a partir de razones bsicas

[T] = T2 / (a)(n) Diseo equilibrado SCTOTAL = [Y] [T]


[T] = T2 / N Diseo no equilibrado
SCT = ( TOTAL)2
2
[A] = A / n Diseo equilibrado
SCA = [A] [T] SCINTERGRUPO
[A] = (A21 / n1) + (A22 / n2) + 2
(Diseo no equilibrado) SCA = n (A TOTAL)

[Y] = Y2 SCS | A = [Y] [A] SCINTRAGRUPO

SCS | A = (A)2

N = Nmero total de observaciones // n = Observaciones por nivel

Recapitulando, en el ANOVA unifactorial, las hiptesis que se someten a contraste son:

- En el modelo de efectos fijos, la hiptesis nula postula la igualdad de medias entre


todos los niveles del factor manipulado y la alternativa, que al menos una es diferente.
- En el modelo de efectos aleatorios, la hiptesis nula es que no hay variabilidad
(varianza) entre las medias (son iguales) y la alternativa, que s la hay
(Inciso, la varianza slo puede ser positiva, por ser un valor al cuadrado).

El estadstico de contraste es el cociente entre la media cuadrtica intergrupos y la


media cuadrtica intragrupos, que se distribuye segn una F de Fisher-Snedecor, con (I -
1) y (N - I) grados de libertad, en el numerador y denominador, respectivamente (pgina
12 del formulario).

En el examen se suelen facilitar los datos de las medias o las sumas cuadrticas
necesarios para calcular los restantes y lo ms importante es saber relacionarlas ambas
mediante las frmulas correspondientes (est todo en el formulario, en el examen hay que
tener paciencia para buscar los datos en la tabla que corresponda):
23
SCtotal = SCInter. + SCintra (SC= suma cuadrtica), mide la variabilidad total y es igual
a la suma de todas las puntuaciones menos la media total al cuadrado.
SCInter mide la variabilidad entre los niveles o variabilidad debida al efecto del
factor y es igual a la suma de la media de cada nivel menos la media del factor al cuadrado.
SCintra mide la variabilidad dentro de cada nivel o variabilidad debida al error
experimental y es la suma de cada puntuacin menos la media de su nivel al cuadrado.

Las medias cuadrticas se obtienen dividiendo las respectivas sumas cuadrticas por
los respectivos grados de libertad (MC=SC/g.l.).

Para resolver el Sudoku, conviene empezar por el final: Los grados de libertad totales
del ANOVA es N-1 y a partir de ah se va completando. Como se explica en el recuadro, si
nos dan las razones bsicas (como en septiembre), las A2 son los cuadrados totales de las
sumas de las A, no las sumas de las A elevadas al cuadrado y las n, el nmero de sujetos de
cada muestra o nivel.

5.- COMPARACIONES MLTIPLES (previo rechazo de H0).

El ANOVA, mediante la obtencin de una razn F significativa, permite afirmar que al


menos entre dos medias hay diferencias que no son debidas al azar, pero no dice dnde
est esa diferencia significativa. Las comparaciones mltiples permiten establecer una
informacin ms exacta sobre la importancia de cada uno de los niveles de la variable
independiente. Como parte del ANOVA, el objeto de las comparaciones mltiples es,
aplicando pruebas especficas, reducir la cantidad de error Tipo I () que cometeramos si
comparsemos todas las muestras dos a dos mediante la prueba T.

Partiendo del rechazo de la hiptesis nula si slo interesa comparar algunos niveles
del factor elegidos de antemano, hablaremos de comparaciones planificadas o a priori.
En estos casos, los resultados obtenidos de F ni siquiera suelen citarse. Pero si interesa
hacerlas sobre todos los niveles del ANOVA, se tratar de comparaciones no planificadas,
a posteriori o post hoc.

Una de las pruebas ms utilizadas en este segundo caso es la de las comparaciones


mltiples de Scheff, que adems de comparar las medias de los niveles del ANOVA dos
a dos permite realizar comparaciones ms complejas (por ejemplo la media de un nivel con
un conjunto de medias de otros niveles, un conjunto de medias de distintos niveles con otro
conjunto de medias de otros niveles, etc.).

Esta prueba fija la tasa de error de tipo I en el al que estemos trabajando y obtiene
un valor llamado diferencia mnima, rango o valor crtico CR (Critical Range) de
Scheff por encima del cual se considera que hay diferencias entre las medias o grupos de
medias que estemos comparando. La frmula est al final de la pgina 12 del formulario:

24
__________________ ___________________
CR SCHEFF = (k - 1) F (k - 1), gl ERROR MC ERROR [ (c2j / nj)]

Siendo, k = Nmero de grupos; ni = nmero de sujetos de cada grupo; F (k - 1), gl ERROR =


F experimental del ANOVA; MC ERROR = Media cuadrtica error y c2j = Coeficiente de las
combinaciones lineales. Los coeficientes son las combinaciones lineales que podemos
establecer entre las distintas medias a comparar; el resto de valores se puede obtener de la
tabla del ANOVA. En cada combinacin de coeficientes ci, la suma de los mismos es igual
a cero. Un coeficiente ci igual a 0 significa que ese grupo queda eliminado de la
comparacin. Vamos a ver unos ejemplos de cmo se calculan los coeficientes, con 5
grupos:

Como se ve, la suma de los cj, siempre es 0. Primero se calculan los cj de los que se
combinan conjuntamente y se les pone un 1 con signo negativo (en algn examen sali con
coeficientes como ), con la ponderacin correspondiente. Es decir si comparamos una
media contra dos, estas dos ltimas deben dividirse por 2, o lo que es lo mismo, la que va
sola debe multiplicarse por 2. En el ejemplo 3, las medias 1 y 5 se multiplican por 3 y las
restantes, por 2. Como se elevan al cuadrado, da igual el signo + o que se ponga a cada
coeficiente.

Regla de decisin:

Si el valor absoluto de la diferencia de las medias de los grupos comparados es mayor


que el CR, existen diferencias significativas entre los niveles considerados y no en caso
contrario. El resultado indicar a qu grupo o grupos corresponde la variabilidad
significativa detectada.

25
TEMA 6. ANLISIS DE DATOS EN DISEOS INTRASUJETOS.

Un diseo intrasujetos, ANOVA unifactorial intrasujetos o de medidas dependientes


o repetidas es aquel en el que se somete a los mismos o al nico sujeto experimental a
todos los niveles (estudiados) del factor. Para minimizar (nunca eliminar por completo) el
principal riesgo de error (aprendizaje, pautas no detectadas, fatiga, etc.), la secuencia u
orden en que se presentan o aplican las condiciones a los sujetos debe realizarse
contrabalanceando. Sin embargo, esto slo es estrictamente necesario si utilizamos un
diseo en que todos los estmulos del mismo tipo se presentan agrupados en un determinado
orden o, si es en orden aleatorio, se quiere descartar que haya patrones de presentacin que
han pasado desapercibidos. Frmulas pginas 12 y ss. del formulario, siendo los valores de
los sumatorios representados entre corchetes las razones bsicas.

Condiciones y supuestos: Los supuestos que deben cumplirse para poder aplicar
correctamente el ANOVA son los mismos vistos para el ANOVA intersujetos, esto es, VD
medida, a un nivel de intervalo o de razn, puntuaciones de la VD en cada nivel del factor
independientes entre s y distribuidas normalmente y adems, dos condiciones
particulares para reducir el error por la interaccin: Las varianzas de las puntuaciones
para los distintos niveles del factor deben ser iguales entre s y las covarianzas entre
todos los niveles del factor deben ser iguales entre s.

Supuestas la homocedasticidad (igualdad de varianzas) y la igualdad de correlacin


entre cada par de tratamientos, la matriz de varianzas-covarianzas tendr la propiedad de la
simetra compuesta, condicin suficiente para usar el modelo pero no necesaria, siendo
poco comn en la prctica y excesivamente restrictiva.

Metodologa: La variabilidad total SCT= SCA + SCS + SCAxS, siendo:


- SCA, la variabilidad (varianza) del factor manipulado (2A).
- SCS, la variabilidad (varianza) de los sujetos (2S).
- SCAxS, la variabilidad (varianza) de la interaccin entre el factor y los sujetos (2AxS,
error).

En el modelo se considera que la fuente del error es la interaccin entre el factor y el


sujeto por la inconsistencia con que los sujetos se comportan bajo los diferentes
tratamientos [(AxS)-> MCSXA o MCe]. Para reducir su varianza y los grados de libertad se
descompone en un componente asociado a la posicin del tratamiento (SCP), que se reduce
con el contrabalanceo y un resto residual, desconocido e irreducible:

(SCAXS) = (SCp) + (SCresidual) siendo (g.l. AxS) = (g.l.p) + (g.l.residual)

El estadstico de contraste es F = (MCA/ MCSxA) (Fisher-Snedecor).

La forma de clculo es muy similar a la del tema anterior, pero utilizando las frmulas
de la pgina 13 del formulario (varan los g.l. y por tanto, las relaciones entre MC y SC).
26
TEMA 7. DISEOS CON MS DE DOS GRUPOS INDEPENDIENTES.
ANLISIS DE VARIANZA CON DOS FACTORES COMPLETAMENTE
ALEATORIZADOS (ANOVA BIFACTORIAL).

En los diseos factoriales se quiere estudiar el efecto que sobre una variable
dependiente ejercen dos factores o variables independientes A y B completamente
aleatorizados, todos ellos con igual nmero de categoras de modo todos los niveles de uno
se combinan con los del otro. Un diseo factorial consiste en un conjunto de diseos
simples de un factor en el cual la misma variable independiente es manipulada en
combinacin con una segunda variable independiente.

Con un diseo factorial se pueden analizar:

1) Los efectos principales de cada una de las VI (factores) sobre la VD. Se consideran
tantos efectos principales como factores hay implicados en el diseo y se analizan mediante
un ANOVA de cada factor sin considerar el otro. Los efectos principales de una variable
independiente o factor se refieren a los efectos promedio totales de una variable y se obtiene
combinando el conjunto completo de componentes experimentales presentes en ese factor.

2) El efecto interaccin entre los factores. Existe interaccin cuando el efecto


producido por los niveles de cada uno de los factores depende de los niveles de otro factor.
En el modelo ANOVA, las VI se consideran independientes entre s pero los valores de unos
factores influyen sobren los de otros. Por tanto, adems de la influencia que cada factor
ejerce por separado en la VD, existe una influencia debida a la combinacin de ambos. Se
considera que existe interaccin en cualquiera de los siguientes casos:

- Cuando los efectos sobre la VD de un factor cambia ante diferentes niveles de otro.
- Cuando los patrones de diferencias asociados con un factor cambian con los diferentes
niveles de otro.
- Cuando los efectos simples de un factor no son los mismos en todos los niveles de
otro.
- Cuando los efectos principales de un factor no son representativos de los efectos
simples de ese mismo factor.
- Cuando las diferencias entre las medias de las celdas que representan el efecto de un
factor en algn nivel del otro factor no son iguales a las correspondientes diferencias en
otro nivel de este factor.
- Cuando los efectos de un factor estn condicionalmente relacionados a los niveles de
otro.
- Cuando un factor no tiene un efecto constante en todos los niveles de otro.

3) Los efectos simples, o ms focalizados de cada factor con cada nivel del otro
factor. Se pueden considerar tantos efectos simples como la suma de niveles de cada factor.

27
Procedimiento: A partir de la tabla del ANOVA factorial se realiza la prueba mnibus
(efectos principales y efecto interaccin). Si el efecto interaccin es significativo se
concluye que el efecto producido por los niveles de un factor depende de los niveles de otro
factor y rechazaremos H0. Si F no es significativa, se acepta H0, se considera que no existe
efecto interaccin y el modelo se convierte en factorial aditivo (normal), de modo que en
el cuadro del ANOVA la fila de la interaccin se suma al error y se recalcula F.

Si el efecto interaccin es significativo, se realiza la prueba de los efectos simples y


comparacin por pares y despus la de los efectos principales en funcin de los efectos
simples. Si no es significativo, se realiza la prueba de los efectos principales y si alguno
es significativo, se procede al estudio de las comparaciones mltiples.

Modelo estadstico de ANOVA con interaccin: Y = + + + () + .

Cualquier puntuacin Y tiene 5 componentes: La media total de la poblacin, los


niveles de los dos factores, comn a todos los componentes adscritos a esos niveles
(promedios de los efectos del tratamiento en los niveles de los factores), el efecto
interaccin entre ambos y el error experimental no controlable.

Modelo estadstico de ANOVA sin interaccin: Y = + + + .

Cualquier puntuacin Y tiene los mismos componentes, excepto la interaccin.

Al considerar la interaccin, la SCintra disminuye en la cuanta que recoge la SCAxB de


la interaccin, as como los grados de libertad, de modo que la F resultante ser mayor por
la disminucin de la MCerror y, en consecuencia, ms preciso el contraste de hiptesis.

Las hiptesis estadsticas se pueden expresar de la siguiente forma:

Efectos principales factor A: H0: Todos los i = 0; H1: No todos los i= 0.


Efectos principales factor B: H0: Todos los i = 0; H1: No todos los i= 0.
Efecto interaccin AxB: H0: Todos los ij = 0; H1: No todos los ij = 0.

Los estadsticos de contraste son las razones entre las medias cuadrticas
correspondientes y la media cuadrtica intra grupos, que se distribuye segn F.

Las frmulas para los clculos del ANOVA estn en las pginas 14 y 15 del formulario,
considerando slo diseos equilibrados. El patrn de anlisis es anlogo a los de los otros
modelos, incluyendo dos factores, la interaccin entre ambos y ajustando los grados de
libertad. La SCintra se divide a su vez en tres componentes:
- Entre tratamientos del factor A (SCA), que refleja los efectos principales del factor A.
- Entre tratamientos del factor B (SCB), que refleja los efectos principales del factor B.
- La interaccin entre A y B (SCAxB).

28
A continuacin se presenta un ejemplo del modelo con 2 factores, zona y duracin, as
como la secuencia de anlisis factorial:

Figura 7.5 Secuencia de anlisis en un diseo factorial

29
TEMA 8.- ANLISIS DE REGRESIN LINEAL SIMPLE Y MLTIPLE.

1.- INTRODUCCIN.

El anlisis de regresin es un diseo ex post facto que puede ser usado siempre que una
variable cuantitativa pueda ser estudiada como una funcin de una (ARS, anlisis de
regresin simple) o varias variables (ARM, anlisis de regresin mltiple). Las relaciones
entre la VD y la VI pueden ser muy diversas: lineal, exponencial, logartmica, etc. En este
tema slo se estudia la regresin lineal. El anlisis de regresin tambin se puede aplicar a
situaciones en las que se manipulen condiciones experimentales, de modo que casi
cualquier informacin que tenga inters para el estudio de la VD puede ser objeto de
incorporacin en este tipo de anlisis.

Una baja correlacin entre variables implica que no hay relacin lineal entre ellas, pero
no descarta que pudiera haberla de otro tipo (exponencial, logartmica, etc.). Una alta
correlacin lineal o implica necesariamente que haya relacin causal entre ellas, pues podra
ocurrir que ambas fueran afectadas por una variable ajena al modelo, por ejemplo, C.I. y
altura tienen alta correlacin en los nios pero ambas estn relacionadas con la edad.

2.- ANLISIS DE REGRESIN (LINEAL) SIMPLE.

Cuando una variable, independiente (VI), aporta informacin sobre otra, dependiente
(VD), decimos que ambas estn correlacionadas. El objeto de la correlacin es analizar el
grado de asociacin entre las variables y el de la regresin, efectuar predicciones acerca
de los valores de la VD para valores dados de la VI. La VI se representa por X, la VD por
Y y los valores estimados por Y.

Imaginemos que en una grfica se representan los puntos (nube de puntos) que indican
los valores de X e Y. La regresin lineal se realiza mediante el mtodo de los mnimos
cuadrados ajustando a dichos datos una lnea recta que minimice los cuadrados de las
diferencias entre los valores reales de Y para un valor cualquiera de X y los valores
estimados de Y (Y) que resultaran de aplicar la ecuacin de regresin resultante.
Ejemplos de regresin lineal y exponencial:

30
El modelo se representa:

a) Para puntuaciones directas: Y=BX+B0, siendo:

- Y el valor estimado de Y,
- B la pendiente de la recta de regresin (coeficiente de regresin) y representa el
aumento de valor que experimenta Y cuando X aumenta en una unidad;
- B0, el intercepto o valor de la ordenada en el origen (valor pronosticado de Y
cuando X es 0). El intercepto, al igual que los dems valores de Y que se encuentren fuera
del rango de valores de la VI, no es objeto de interpretacin, salvo que el valor 0 se
encuentre dentro del rango de valores de la VI.

b) Para puntuaciones diferenciales (diferencias entre las puntuaciones directas y la


media): Y=B( ). La ordenada en el origen para puntuaciones diferenciales vale 0.

c) Para puntuaciones tpicas: Z = r Z .


Y XY X

Las diferencias entre los valores de la variable observados y los estimados son los
errores de estimacin o prediccin. La suma de la media de los valores pronosticados
es igual a la suma de la media de los valores observados.

En consecuencia el modelo de regresin lineal es Y=BX+B0+, siendo el error de


estimacin o los residuos una vez estimado el valor de la VD. Para que sean vlidas las
inferencias sobre la VD se deben cumplir las siguientes condiciones y supuestos bsicos
(su comprobacin requiere que haya varias muestras que permitan estudiar la distribucin
de los distintos valores de Y predichos para cada valor de X):

- Independencia de las observaciones (muestra seleccionada aleatoriamente).


- Homocedasticidad, varianzas de las distribuciones de los errores iguales.
- Normalidad de las distribuciones condicionadas.
- Independencia entre los valores estimados y los errores de estimacin. Expresado en
trminos de coeficiente de correlacin de Pearson, r = 0, esto es, los errores se
Y

distribuyen de manera aleatoria, sin correlacin con la VD.

3.- BONDAD DE AJUSTE DE LA RECTA DE REGRESIN.

La expresin bondad de ajuste, se refiere a cmo de explicativa es la recta respecto


de los datos sobre los que se ha ajustado. La varianza de la VD (tanto para ARS como para
ARM) se puede descomponer en la suma de dos varianzas: la de los pronsticos y la de los
errores o residuos: S2Y = S2Y + S2, es decir SCtotal=SCregresin+SCresidual.

El grado de asociacin entre las variables se expresa mediante el coeficiente de


correlacin de Pearson, cuyo valor est siempre comprendido entre -1 (relacin lineal
31
negativa) y 1 (relacin lineal positiva), indicando el 0 que no hay relacin lineal entre las
variables (podra haberla de otro tipo, no obstante). Su frmula (pgina 15) es:
Rxy = Sxy
SxSy

El cuadrado del coeficiente de correlacin r2xy o R2 es el coeficiente de determinacin


(valor comprendido entre 0 y 1) y expresa la proporcin de la varianza de la VD explicada
por la varianza de la VI y la proporcin en que se reduce el error de la VD cuando
empleamos la recta de regresin para estimarla. El valor absoluto del coeficiente de
determinacin es menor que el correlacin, salvo cuando r es 0 o +/-1, que coinciden.

El complementario del coeficiente de determinacin 1- r2xy es el coeficiente de


alienacin y es la parte residual de la variabilidad de la VD, atribuible a otros factores no
relacionados linealmente con la VD, es decir, la proporcin de la varianza de la VD no
explicada por la varianza de la VI o lo que es lo mismo, la varianza del error.

Otro indicador del ajuste es el error tpico, que es un estimador insesgado de la


desviacin tpica del error. Su frmula es la ltima de la pgina 15 del formulario.

4.- INFERENCIAS SOBRE CORRELACIN Y REGRESIN.

Normalmente los coeficientes de correlacin y regresin de la poblacin son


desconocidos. Los supuestos bsicos y condiciones para poder hacer inferencias de los
datos muestrales a los del conjunto de la poblacin son los vistos antes (independencia de
las observaciones, homocedasticidad de las varianzas, normalidad de las distribuciones e
independencia entre los valores estimados y los errores de estimacin).

- Contraste sobre el coeficiente de correlacin de Pearson. La hiptesis nula es que


no hay relacin entre VI y VD (coeficiente de correlacin poblacional igual a cero),
mientras que la hiptesis alternativa postula que la relacin lineal entre ambas es
significativa: H0: = 0. H1: <>0 ( es la letra griega ro). Hay dos formas de realizarlo:

- Con el estadstico de la fila 1 columna 1 de la tabla 1 de la pgina 16 del formulario,


que se distribuye como una T de Student con n-2 grados de libertad (contraste bilateral).

- Mediante el ANOVA de la regresin, con la razn F=MCregresin/MCresiduos, que se


distribuye segn una F de Snedecor con 1 y n-2 grados de libertad (contraste unilateral
derecho), formulario, tabla 2, pgina 16, grados de libertad totales de la regresin n-1. Se
usa cuando nos dan los datos de las sumas o medias cuadrticas.

- Hay una relacin T2 = F, viene en el formulario.

- Contraste para los coeficientes de regresin B y B0 (ANOVA). La hiptesis nula y


la alternativa son H0: B = 0; H1: B 0 si el contraste es bilateral. Si es unilateral, la H0 ser
32
B o B que el valor formulado para la H0. Los estadsticos se incluyen en las filas 2 y 3
de la primera tabla de la pgina 16 del formulario (T de Student con n-2 grados de
libertad), contraste bilateral.
Hay que tener cuidado con las frmulas ocultas del formulario, por si en el examen
pusieran una tabla de datos para la regresin (poco frecuente, pero por si acaso):

- SCtotal = nS2Y. En la calculadora Casio, en modo regresin, hay que utilizar 2y. Esta
frmula no viene en ninguna parte y han cado problemas en exmenes antiguos en los que
daban la varianza total de Y (S2Y) pero no la SCtotal.
- SCtotal = SCregresin + SCresidual. Se deduce del cuadro del ANOVA de la regresin en
la pgina 16 del formulario. Aparece de forma explcita y separada en el cuadro de la ARM.
Despejando, SCresidual = SCtotal - SCregresin
- r2 = SCregresin/SCtotal. Despejando, SCregresin = r2SCtotal.

La calculadora Casio proporciona B (b), B0 (a) y r, si nos dieran la tabla de datos. Si


dan los sumatorios, hay que utilizar las frmulas de la pgina 15 del formulario, con el
cuidado de que la betas en las que se usan puntuaciones tpicas no hacen referencia no a los
valores de los parmetros poblacionales

5.- ANLISIS DE REGRESIN MLTIPLE. (Frmulas, pgina 17 del formulario).

a) Regresin con dos variables independientes.

Mientras que el ARS produce la lnea recta que relaciona la VD (Y) con la VI (X), el
ARM con dos variables independientes produce un plano de regresin que relaciona la VD
(Y) con los valores de las dos VI (X1 y X2) (para ms de dos VI sera un hiperplano).

El modelo de estimacin lineal mltiple es: Y=B1X1+B2X2+B0+

Donde B1 y B2 son los coeficientes de regresin parcial de X1 y X2, respectivamente,


B0, es el intercepto o valor de la ordenada en el origen (valor pronosticado de Y cuando X1
y X2 valen 0, que no se interpreta cuando el 0 no est en el rango de los valores de la VD)
y , el error de estimacin o residuos una vez estimada la VD. Lo sealado para ARS es
vlido para el ARM, con las diferencias que se sealan a continuacin. Las frmulas estn
en la primera tabla de la pgina 17 del formulario.

b) Ajuste del modelo. Medidas de asociacin.

El coeficiente de correlacin mltiple R es el coeficiente que correlaciona la VD con


una combinacin ptima de dos o ms variables independientes. Su cuadrado es el
coeficiente de determinacin R2, que explica el porcentaje de variabilidad de la VI
atribuible a la accin conjunta de las VD. Como ocurre con la varianza muestral R2 no es
un estimador insesgado de 2, porque cuanto ms pequea sea la muestra, mayor ser la
33
contribucin de la variacin de la VI a la de la VD. El estimador insesgado de 2 es el
coeficiente de determinacin ajustado, (2 frmula de la 2 tabla pg. 17 del formulario).

c) Correlacin bivariada y correlacin semiparcial .

Si calculamos para cada VI su correlacin con la VD segn las tcnicas del ARS,
obtendremos los correspondientes coeficientes de correlacin, que se llaman correlaciones
dos a dos, bivariadas o de orden cero. Con la calculadora Casio, si dieran tablas de
valores, se puede hacer metiendo en la tabla los valores de Y y los valores de X1, calcular
B1 y r1 y luego sustituir los de X1 por los de X2 y calcular B2 y X2.

Sin embargo, estas correlaciones slo ofrecen una indicacin aparente del influjo de
cada VI en la VD y no son puras pues no reflejan la verdadera influencia de cada VI
aisladamente consideradas en la V, al no tener en cuenta ni la influencia entre las distintas
VI, ni su influencia conjunta en la VD. Por eso la suma de los coeficientes de correlacin
bivariados ser siempre mayor que el coeficiente de correlacin mltiple.

Para saber qu parte de la VD es explicada exclusivamente por una VI, es necesario


eliminar el influjo que sobre cada VI tienen el resto de las VIs. La correlacin semiparcial
mide las relaciones entre una VI y la VD al margen del influjo que las dems VI del
modelo puedan tener sobre dicha VI. Si tenemos dos variables independientes o
predictoras, en la correlacin semiparcial sr1 se elimina la influencia de X2 en X1;
anlogamente en sr2 se elimina la influencia de X1 en X2.

El clculo de los coeficientes de correlacin semiparcial (sr1 y sr2) se realiza a partir


de los coeficientes de correlacin de orden cero (frmulas, penltima fila de la pgina 17
del cuadernillo). Los cuadrados correspondientes son los coeficientes de determinacin
semiparcial, que expresan la proporcin de varianza de la VI atribuible a cada VD,
eliminando el influjo de las dems VI en dicha VI.

Para entenderlo mejor, veamos un diagrama de Venn:


Y

34
d

a c
b

X1 X2

El diagrama representa la variabilidad total de Y, la de X1 y la de X2. La variabilidad


conjunta (R2) de Y atribuible a X1 y X2 es a+b+c. La variabilidad atribuible a X1 y X2
(coeficientes de determinacin bivariados o aparentes) seran a+b y b+c, respectivamente.
La variabilidad residual es d. Como vemos, si sumamos sin ms las variabilidades de cada
VI, sumamos dos veces b. La variabilidad atribuible de forma exclusiva a X1 y X2
(coeficientes de determinacin semiparcial sr12 y sr22) es a y c, respectivamente, siendo b
la proporcin de varianza conjunta. Como vemos, la suma de los coeficientes de
determinacin semiparciales es inferior a la variabilidad conjunta R2, ya que deja fuera la
comn de ambas variables independientes (b).

La asignacin de una parte de (b) a cada VI, esto es, la contribucin especfica de
cada variable en la variabilidad conjunta depender de su orden de entrada. Para
determinar este orden hay varios mtodos: Forward (hacia adelante) y Backward (hacia
atrs). El ms usado es uno de los primeros llamado (stepwise o step by step) en el que,
partiendo de las correlaciones semiparciales entre las distintas variables, se seleccionan por
orden de mayor a menor correlacin, se calcula la ecuacin de regresin y se van
introduciendo las dems variables una por una hasta que el aumento en el porcentaje de
varianza proporcionado por la VI correspondiente en la VD no sea significativo.

Los contrastes con estos coeficientes consisten en comprobar si la variacin explicada


por la variable o variables introducidas es significativa respecto de la varianza aleatoria o
residual. Las frmulas estn en la pgina 17 del formulario.

d) Correlacin parcial.

En todo modelo de regresin existe una parte de varianza de la VD (criterio) que no


puede ser explicada por las VI (predictores). La correlacin semiparcial permite estudiar la
contribucin de las distintas VI a la VD, eliminando la influencia que sobre cada VI ejercen
las dems VI. La correlacin parcial va un paso ms all, eliminando adems la influencia
de cualquier variable esprea o extraa al modelo sobre todas las variables, tanto la VD
como las VI.
35
Mediante el estudio de la correlacin entre los residuos, es decir, la varianza no
explicada por la correlacin entre Y y X2 por un lado y por la correlacin entre X1 y
X2 por otro, la correlacin parcial se elimina el efecto de cualquier otra variable, conocida
o no, entre la VI considerada y la VD. En definitiva, la correlacin parcial mide la
correlacin pura de dos variables eliminando el influjo de cualquier otra tanto en la
VI como en la VD.

El cuadrado de los coeficientes de correlacin parcial pr12 y pr22 (coeficientes de


determinacin parcial) se interpreta como la proporcin de la varianza de la VD no
asociada a X2 que s est asociada a X1 (y viceversa) y los complementarios 1-pr2,
representan los coeficientes de alienacin parcial.

Las frmulas estn en las pginas 17 y 18 del cuadernillo. Volviendo al diagrama de


Venn:

Y
d

a c
b

X1 X2
2
pr1 = a / (a+d) y pr22 = c / (c+d)

En conclusin, mientras la correlacin semiparcial se sita en el contexto exclusivo del


ARM, tratando de explicar la contribucin independiente de cada VI a la VD, la correlacin
parcial pone el acento en la eliminacin de los efectos de cualquier variable extraa y de
las correlaciones espreas producidas por tales variables extraas al modelo.

RESUMEN DE TEORA DE ARS Y ARM:

- El anlisis de los diseos ex post facto trata de determinar cmo un conjunto de


variables, que llamamos factores, independientes, predictoras o explicativas, pueden
explicar el comportamiento de la variable objeto de estudio, que llamamos dependiente o
criterio.

36
- El modelo de regresin lineal estima el valor de la VD, mediante una funcin lineal
de una o varias VI (Regresin Lineal Simple y Mltiple, respectivamente). El coeficiente
de correlacin de Pearson (mltiple) mide el grado de asociacin entre la VD y la(s) VI y
oscila entre -1 y 1.

- El coeficiente de determinacin es el estadstico que cuantifica la bondad del ajuste


es el cuadrado del coeficiente de correlacin de Pearson (mltiple). Su valor oscila entre 0
y 1 e informa de la proporcin en que la variacin de la o las VIs explican la de la VD y
de la proporcin en que se reduce el error al estimar la VD. La parte no explicada por el
modelo de regresin (error) es aquella que no est relacionada linealmente con la VD y es
el coeficiente de alienacin.
- El contraste de la significacin del coeficiente de determinacin R2, se hace mediante
el cociente entre la medias cuadrticas de la regresin y del error, tomado de la tabla del
ANOVA (F contraste unilateral derecho) o mediante el estadstico T (contraste bilateral).

- R expresa la correlacin entre la VD (Y) y la mejor funcin lineal de las VIs (Xis).

- R2, es la proporcin de varianza de VD asociada a la combinacin lineal de las VIs y


tambin expresa la reduccin proporcional del error inicial de la VD cuando se ajusta un
modelo de estimacin con las VIs.

- sri, coeficiente de correlacin semiparcial, expresa la correlacin entre Y y Xi, cuando


de esta ltima se ha extrado la que mantiene con el resto de las VI del modelo.

- sri2, coeficiente de determinacin semiparcial expresa la proporcin de varianza de Y


asociada nicamente la varianza de Xi, as como el incremento en R2 cuando la variable Xi
entra en el modelo.

- pri, coeficiente de correlacin parcial expresa la correlacin pura entre Y y Xi,


eliminando la influencia de cualquier otra variable, est o no en el modelo. Tambin expresa
la relacin entre la parte de Y y la parte de X i que no estn asociadas linealmente con el
resto de predictoras (variabilidad entre residuos).

- pri2, coeficiente de determinacin parcial expresa la proporcin de varianza de Y no


asociada al resto de variables, estn o no en el modelo, que s est asociada con Xi.

37
ADENDA: PERLITAS QUE HAY QUE TENER EN CUENTA PARA NO
FALLAR EN TONTERAS:

1.- Hay que leer e interpretar bien los enunciados. Si piden contrastes sobre varianzas
o sobre proporciones lo dirn expresamente o en el caso de proporciones, hablando de
porcentajes o en el caso de las varianzas, de variabilidades. En todos los dems casos,
siempre es un contraste de medias (incluso si hablan de proporcin media o frecuencia de
aciertos, el contraste es de medias, salvo que se refiera a porcentaje, frecuencia o proporcin
de sujetos). Hay que fijarse bien si es bilateral (H0 es que no hay diferencias, H1, hay
diferencias) o unilateral (derecho, H0 menor o igual, H1, mayor que; izquierdo, HO mayor
o igual, H1, menor que). Cuidado con fijar bien n, cuidado cuando den muchos datos porque
a veces nos preguntan slo sobre una parte. Cuidado con cada pregunta, no todas son sobre
lo mismo. En la situacin 1o normal es que pregunten por medias, proporciones y varianzas.
Si hay dos muestras con diferente nmero de sujetos, son independientes. Slo son
relacionadas si los mismos sujetos (o relacionados por pares, i.e. gemelos) son sometidos a
todos los distintos niveles del factor.
Si no sabemos segura la respuesta de primeras e incluso en tal caso, conviene descartar
las que sean imposibles. El valor crtico se busca en la tabla para 1- o 1-/2.
Para evitar errores o detectarlos, conviene escribir de puo y letra, con claridad, todos
los datos, en lugar separado y destacado de donde hacemos las operaciones. Para la
calculadora, conviene escribir las frmulas tal vienen en el formulario, sin simplificaciones
que nos puedan inducir a error, con los parntesis en su sitio (esto es vital).
2.- Prueba previa del contraste de igualdad de varianzas. Se dividen las
cuasivarianzas o varianzas muestrales insesgadas, poniendo la mayor en el numerador
(arriba). El contraste es bilateral, por tanto hay que acudir a las tablas de la F buscando 1-
/2; tiene que haber mucha diferencia entre las cuasivarianzas para que se considere la
diferencia de varianzas poblacionales significativa. Si el EC > VC, se rechaza la hiptesis
de que las varianzas son iguales. Si es menor, se acepta.
3.- Nivel p crtico: Es el nivel de significacin del estadstico de contraste, es decir, la
probabilidad, siendo H0 cierta, de obtener un valor igual o ms extremo que el del EC que
hemos calculado. La tabla nos da siempre la probabilidad que hay a la izquierda, por eso:
- Si el contraste es unilateral derecho, el nivel p crtico es 1 probabilidad de la
tabla. Buscamos el valor de la probabilidad que hay en la cola derecha del EC y la tabla
nos da la que hay a la izquierda, por eso restamos de 1 el valor de la tabla.
- Si el contraste es unilateral izquierdo, el nivel p crtico es el valor de la tabla, ya
que buscamos el valor que hay en la cola izquierda y es el que nos da la tabla
- Si es bilateral, (1 probabilidad de la tabla) se multiplica por 2.
Cuando no coincide, entonces se establecer el nivel p crtico como mayor o menor que
el de la tabla, dependiendo de si el EC es ms grande o ms pequeo que el VC.
Hazte el esquema de la grfica y raya las zonas de aceptacin y rechazo! En el eje
horizontal estn los valores del estadstico y el rea del eje con la curva es la probabilidad.
Regla infalible: Cuanto MS GRANDE es el valor absoluto del EC (est ms alejado
del centro), MENOR es el nivel p crtico y viceversa. Por tanto el rechazo de H0 es
porque |EC|>|VC| o lo que es lo mismo, porque p< .
38
4.- ANOVAS. Hay que rellenar el Sudoku. Si no se identifica bien el tipo de ANOVA
que es (unifactorial con muestras independientes o relacionadas; bifactorial dem), ayudar
empezar por el ms sencillo y si sobran datos, ser el otro. Se puede hacer al revs: Si faltan
datos, lo normal es que sea el ms fcil. Para los grados de libertad empieza por el final,
pues es fcil identificar N-1. A partir de ah, se ponen los grados de libertad de cada factor,
a la interaccin y la diferencia al error o MC inter. Luego se van calculando lo que falte,
teniendo en cuenta que MC=SC/g.l. y que la suma total de g.l. es N-1, salvo en regresin,
que es N-2. Normalmente los grados de libertad del error o la SCINTER sern mucho mayores
que los de la SCINTRA. Frmula que falta: SC = nS2 (nmero de elementos por la varianza).
5.- Modelo de efectos fijos-aleatorios. Efectos fijos: Slo interesan los datos para los
niveles de los factores manejados. Efectos aleatorios, interesan para cualesquiera niveles
de los factores. En caso de duda, no contestar.
6.- Contrastes en regresin lineal: Son bilaterales (salvo el ANOVA de regresin) y
por tanto hay que funcionar con 1-/2. El grado de libertad de la regresin simple es 1 y el
total de los g.l., n-2.
7.- Distincin entre correlacin semiparcial y parcial. En la semiparcial se elimina
del influjo de una VI en la VD, el influjo de todas las dems VI. En la parcial se elimina
adems el influjo de cualesquiera otras variables no consideradas (incluidas en el error).
Las correlaciones calculadas sin ms, es decir sin eliminar el influjo de otras variables estn
o no en el modelo, no son puras y se llaman bivariadas o de orden cero.
8.- El coeficiente de correlacin mide el grado de asociacin entre las variables. Su
cuadrado es coeficiente de determinacin y mide el porcentaje de variabilidad de la VD
atribuible a la VI. Su complementario es el coeficiente de alienacin y mide el porcentaje
de variabilidad atribuible a variables no consideradas (error).

En el examen, creo que es mejor empezar por las preguntas de teora no asociadas
directamente a los problemas (sern entre 7-10) y luego ir resolviendo las situaciones en
que estemos ms seguros, dejando para el final lo que no salga.

Para aprobar se necesitan como mnimo 13 aciertos y 1 error (contestando 14) y a


partir de aqu 14/3 (17), 15/5 (20), 16/7 (23). Hay que contar con frialdad las que estn
bien (las de problemas las sabremos seguras casi al 100%) e ir a asegurar. Si sabemos o
creemos que tenemos bien 16, hay que contestar 23, porque contestando 24 o 25
necesitaramos 17 para aprobar y contestando 21 o 22, tambin 16. En caso de dudas en
algunas preguntas, hay que elegir aquellas en las que podamos descartar una respuesta, es
decir, slo dudemos entre 2.

39

También podría gustarte