Está en la página 1de 51

ESTADISTICA APLICADA A

LA PSICOLOGÍA.
INFERENCIAL.

LAURA GUERRERO CALDERÓN


JAIME Y BEGOÑA SEP-DIC 2021
Tema 1. Conceptos fundamentales de estadística inferencial.
Presentación de los contenidos

Una variable tiene efecto sobre otra, si hay diferencia entre sujetos. Estas son las hipótesis que
se contrastan con los modelos estructurales o de efectos.

El modelo de regresión (análisis de regresión): modelos predictivos. Una variable explica otra.
Por ejemplo, un test de aptitudes.

1. Conceptos.

➢ Población y muestra

• La población o universo (N) se define como el conjunto de elementos (sujetos,


objetos, entidades abstractas, etc.) definido por una o más características, en común.
Dependiendo del número de elementos pueden ser finitas o infinitas.
• Tamaño de muestra: determinar antes de comenzar la investigación para evitar
pérdida de recursos y obtener información fiable.
• La muestra (n) es un subconjunto de unidades o elementos de análisis de una
(pertenecientes) población, que son representativas (cantidad idónea) de las
características (número) de dicha población.

1
La muestra tiene que ser representativa. Por ejemplo,
calidad de vida en enfermos con Alzheimer, conjunto de
personas con Alzheimer que vive en el entorno familiar
(estas son las características que definen mi población)
esto determina los criterios de inclusión en la muestra.

➢ Parámetro y estadístico

• Parámetro: es una medida cuantitativa (valor, medida, número o indicador)


representativa de una población en una variable concreta. Es un valor numérico que
describe una característica de una población. Su valor es desconocido, pero constante
o fijo para cada población. Se supone un valor constante.
• Estadístico: es una mediad cuantitativa (valor, mediad, número o indicador) que
describe a una muestra determinada en una variable concreta. Su valor es conocido y
variable, dependiente de la muestra en la que se calcula.

➢ Inferencia estadística.

Definición de estadística: es la ciencia que se encarga de recoger, ordenar y analizar los datos
de una muestra extraída de cierta población y que, a partir de esa muestra, valiéndose del
cálculo de probabilidades, se encarga de hacer inferencias acerca de la población. (Amón, 1993).
Líneas de desarrollo de la Estadística.
Históricamente, la estadística ha tendido a dividirse en dos grandes ramas:

• Descriptiva: está relacionada con el resumen y organización de datos, su


representación gráfica y el cálculo de sus valores representativos (estadísticos). Tiene
como objetivo el estudio de los estadísticos de las muestras.
• Inferencial: Está relacionada con el proceso de emplear un número reducido de datos
para tomar decisiones y efectuar descripciones generales. Tiene como objetivo
fundamental conocer un conjunto de objetos (población) a partir de un subconjunto
del mismo (muestra); es decir, inferir los parámetros de la población a partir de los
estadísticos de las muestras.

2
Inferencia estadística: consiste en extraer conclusiones de tipo general, referidas a
propiedades de la población, a partir de datos concretos –estadísticos-, obtenidos en
una muestra representativa de esa población. Esto exige la utilización de, por un lado,
procedimientos que nos ayuden a efectuar este salto (inducción, inferencia, análisis)
de lo particular a lo general, y por otro, procedimientos que nos garanticen que la
inducción efectuada se apoya en una buena base (selección, muestreo).

Inferir es ir de algo concreto, como es una muestra, hasta algo más general, el estudio de la
población. Ir de lo articular a lo general, lo que se materializa en el proceso inductivo.

o Razonamiento deductivo: proceso por el que se atribuye a lo particular las


propiedades de lo general (general → particular).
o Razonamiento inductivo: proceso que consiste en afirmar que lo que es cierto en
algunos casos lo es también en todos (particular → general). Se conoce también como
proceso de generalización.

En la inferencia, el hecho de no conocer el conjunto total hace que todas las conclusiones que
se extraigan utilizando este razonamiento contengan incertidumbre. El papel de la Estadística
inferencial va a consistir en cuantificar esta incertidumbre. Por lo tanto, estas inferencias
nunca serán exactas, siempre habrá un margen de error que controlaremos mediante la
probabilidad; aunque nunca alcanzaremos una probabilidad de cometer error igual a cero,
intentaremos que sea la menor posible.

2. Muestreo y tipos de muestreo

• Muestreo: se define como la selección de un subconjunto de unidades o elementos de


análisis que se consideran representativos de la población a la que pertenecen, con la
finalidad de estudiar las características de la población.
También puede definirse como el proceso seguido para extraer una muestra de una
población. Es necesario, ante todo, utilizar muestras representativas del total de la
población objeto de estudio. El tamaño de muestra debe determinarse antes de
comen zar la investigación para evitar la pérdida de recursos y obtener información
fiable.

3
➢ Muestreo probabilístico o aleatorio. (técnicas)

Son los métodos basados en el principio de equiprobabilidad, es decir, aquellos en los que
todos los individuos de la población tienen la misma probabilidad (conocida o calculable) de
ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles
muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Son las más
recomendables.
Como ventajes: son los más rígidos, evitan sesgos y aseguran la representatividad de la
muestra extraída.
Como inconvenientes: son muy costosos y en cuento a su técnica de muestreo: presentan

✓ Muestreo aleatorio simple.


o Procedimiento. (extracción de elementos)
1. A cada unidad de la población se le asigna un número, es decir, se
enumera la población de 1 a N, asignando un ordinal a cada elemento.
Después se fija el tamaño muestral (número de personas que
formaran parte de la muestra. (n)
2. Se genera una secuencia de números aleatorios igual al tamaño de la
muestra determinado por el medio elegido. (bolas dentro de una
bolsa, tabla de números aleatorios o por un programa informático).
3. Las unidades que tienen asignados los números generados son
incluidas en la muestra.
o Tipos.
▪ Muestreo aleatorio con reposición: los elementos son repuestos a la
población. La población (N) es siempre constante.
▪ Muestreo aleatorio sin reposición: los elementos no son repuestos a
la población. Considera la población (N) como infinita.
o Ventajas: es un procedimiento sencillo.
o Inconvenientes: tiene poca utilidad práctica cuando el tamaño de la
población es muy grande porque el coste en recursos es elevado.
✓ Muestreo aleatorio sistemático.
o Procedimiento.
1. A cada unidad de la población se le asigna un número, es decir, se
enumera la población de 1 a N, asignando un ordinal a cada elemento.
Después se fija el tamaño muestral (número de personas que
formarán parte de la muestra)
2. Se calcula el llamado coeficiente de elevación (k), siendo k el resultado
𝑁
de dividir el tamaño de la población entre el tamaño de la muestra k= 𝑛
3. Se elige al azar un número (i -i/a-), que se denomina de origen o
arranque. El número i será un número entre 1 y k. (i≤k)
4. Se incluirán en la muestra las unidades que ocupan los lugares i, i + k, i
+2k, i + 3k, … i + (n-1) k.
Ej. K = 21/3 = 7.
i/a=2 (arranque)
i/a +k → 2+ 7 = 9,
i/a + 2k → 2 + 2*7= 16. Las personas que componen nuestra muestra son 2, 9 y 16.
Solo se puede usar si la población es finita →K = N/n → 360 /18 = 20 → K = 20 a = 3
a, a + k, a + 2k, a +3k, …, a +(n-1) → 3, 23, 43, 63, 83, …. 343((3+(360-20)))

4
o Ventajas: proporciona muestras más representativas que el aleatorio
simple, porque asegura que en la muestra aparecerán elementos de la
población de todas las clases.
o Inconvenientes: cuando en la disposición ordenada de los elementos de la
población existe una periodicidad coincidente con el de la muestra, este
procedimiento proporcionará muestras sesgadas. (prohibido en las poblaciones
ordenadas).

✓ Muestreo aleatorio estratificado.


o Procedimiento.
1. Se subdivide la población en subgrupos o estratos que poseen gran
homogeneidad respecto a alguna característica (por ejemplo, el sexo, el
estado civil, la profesión, lugar de residencia, etc.)
Principios:
- Homogeneidad entre los elementos de la población dentro de los
estratos.
- Heterogeneidad entre los estratos.

Es decir, (1) se subdivide la población en subgrupos o estratos, de tal forma


que exista una gran variabilidad (heterogeneidad – fuera-) entre los estratos y
muy poca variabilidad (homogeneidad -dentro-) entre los elementos de la
población, dentro de los estratos.
(2) Después se enumeran a los participantes dentro de cada estrato, de 1 a N.
(3) Se calcula la proporción de cada estrato. Es decir, se calcula la distribución
del tamaño de la muestra en los diferentes estratos, lo que se conoce como
afijación. Afijación: distribución del tamaño de la muestra en los diferentes
estratos. Criterios:

- Afijación igual: mismo número de elementos muestrales en cada


estrato. N= 10 → 5 y 5 (h/m) fijación es igual.
- Afijación proporcional: número de elementos muestrales en función
del tamaño de cada estrato en la población. N= 10 →6/4 (m/h)
fijación proporcional – muestra más representativa.

2. (4) Se selecciona aleatoriamente las unidades de análisis dentro de cada


estrato de la muestra, utilizando el muestreo aleatorio simple o
sistemático.

o Ventajas: proporciona muestras más representativas cuando en la población


existen grupos diferenciados porque asegura que todos los estratos estén
representados en la muestra.
o Inconveniente: exige un conocimiento detallado de la población para definir y
separar los estratos, y para decidir la muestra que se ha de seleccionar en cada
estrato.

5
✓ Muestreo aleatorio por conglomerados.
o Procedimientos.
1. Se selecciona aleatoriamente como unidades muestrales un número
de conglomerados, grupo de elementos de la población que forma
una unidad, hasta alcanzar el tamaño muestral establecido.
Principios.
- Heterogeneidad entre los elementos de la población dentro
de cada conglomerado.
- Homogeneidad entre los conglomerados.

Es decir, se subdivide la población en subgrupos o conglomerados,


de tal forma que exista una gran variabilidad (heterogeneidad)
dentro de cada conglomerado, entre los elementos y muy poca
variabilidad (homogeneidad) entre los conglomerados.

2. Se incluyen en la muestra todos los elementos de análisis


pertenecientes a los elegidos o se eligen de manera aleatoria dentro
de cada conglomerado.
o Ventajas: se utiliza cuando es imposible o poco práctico elaborar un listado
completo de los elementos de la población.
o Inconvenientes: exige un conocimiento detallado de la población para
identificar los conglomerados.

➢ Muestreo no probabilístico o no aleatorio.

Métodos donde no todos los individuos de la población tienen la misma probabilidad de ser
seleccionados (no se basan en el principio de equiprobabilidad).
Los inconvenientes que presenta son: ser menos rigurosos, no garantizar la representatividad
de la muestra, poder dar lugar a datos sesgados y tener una capacidad limitada para plantear
conclusiones generales. Pueden ser adecuados para estudios exploratorio (en fases
preliminares).

✓ Muestreo por Cuotas. (es lo mismo que la fijación proporcional en el caso del estratificado)
o Procedimiento.
1. Se fijan las cuotas (variables de interés), número de unidades de análisis
que reúnen determinadas características.
2. Se incluyen en la muestra los primeros elementos de análisis que se
encuentren y que cumplan las características fijadas.
o Ventajas: facilita el reclutamiento de la muestra.
o Inconvenientes: exige el conocimiento de los grupos de interés y de las
unidades de análisis para los fines de la investigación.

✓ Muestreo de conveniencia.
o Procedimiento.
1. Se incluyen en la muestra los elementos de análisis disponibles. Se utilizan
como muestra los individuos a los que se tiene fácil acceso (los profesores
de universidad emplean con mucha frecuencia a sus propios alumnos). Un
caso particular es el de los voluntarios.
o Ventajas: facilita el reclutamiento de la muestra
o Inconvenientes: no existe control sore la representatividad de la muestra.

6
✓ Muestreo de bola de nieve.
o Procedimiento.
1. Se identifican algunas unidades de análisis.
2. Estas unidades de análisis conducen a otras, y estas a otras, y así hasta que
se consigue una muestra de acuerdo con el tamaño fijado.
o Ventajas: adecuado cuando se seleccionan muestras en poblaciones de difícil
acceso, como poblaciones marginales.
o Inconvenientes: no existe control sobre la representatividad de la muestra.

3. La lógica de la inferencia estadística.


Dentro de la inferencia estadística, existen dos acciones principales que se llevan a cabo:

• Estimación de parámetros: asignar a una población las propiedades obtenidas en una


muestra extraída de dicha población. (tema2)
• Contraste de hipótesis: comprobar si una afirmación sobre una propiedad poblacional
puede ser mantenida a partir de la información obtenida en una muestra extraída de
dicha población. (tema3)

4. Distribuciones muestrales.
• Definiciones.
o Parámetro: valor numérico que describe una característica de una población:
- Valor desconocido. // - Valor constante o fijo.
o Estadístico: valor numérico que describe una característica de una muestra. Se
calcula a partir de datos muestrales, por lo que es conocido. Tiene un valor
variable que depende de la muestra en la que se calcula (variable aleatoria).
o Estimador: es un estadístico utilizado para conocer el parámetro desconocido
de la población. Para cada parámetro pueden existir diferentes estimadores.
“Es una variable aleatoria (estadístico) formada por los valores de
determinado estadístico obtenido a partir de las infinitas muestras del mismo
tamaño n que se pueden extraer de una población”.
o Estimación: proceso que consiste en atribuir a un parámetro el valor tomado
por su correspondiente estadístico.
o Distribución muestral del estadístico: distribución de probabilidad de un
estadístico en la que se conoce la probabilidad asociada a cada valor.
Distribución teórica que asigna una probabilidad concreta a cada uno de los
valores que puede tomar un estadístico en todas las muestras del mismo
tamaño que es posible extraer de una determinada población. Las
distribuciones muestrales son constructos matemáticos teóricos y no se
pueden general empíricamente. Cada distribución muestral representa a un
estimador y es específica para él.
Sus características son:
- Forma: distribuciones teóricas a la que se acomoda o ajusta cada
estimador (z, t,x2, F).
- Media o valor esperado de la distribución muestral, que
generalmente coincide con el parámetro.
- Varianza de la distribución muestral.

7
Error típico del estadístico: desviación típica de la distribución
muestral. Se obtiene calculando la raíz cuadrada de la varianza de la
distribución muestral.

Forma Varianza

Media

8
Ejemplos. Cálculo de la Distribución muestral de la Media.

Calcular la media de la media (media de


distribución muestral). → 3
Calcular la varianza en muestra (varianza de la
distribución muestral) 2 → 0.33
Calcular la deviación típica → 6.12

Obtenemos la distribución del estadistico media.

Calculamos la media y desviación típica de la distribución muestral del estadístico media.

 Ejercicios Técnicas de muestreo.


 Seminario 1. Contextualización del análisis de datos en el proceso de investigación:
la fase estadístico-analítica.

9
Tema 2. Estimación de parámetros.
1. Concepto.
• Estimación de parámetros: consiste en plantear propiedades de la población a
partir de la información obtenida en una muestra. Se asigna valores a los
parámetros de la población a partir de los datos obtenidos en una muestra.

Por lo tanto, la estimación es el proceso por el cual se determina el valor de un


parámetro desconocido a partir del estadístico conocido de una muestra. Existen dos
tipos: la estimación puntual de parámetros y la estimación intervalar o por intervalos
de parámetros.

2. Estimación puntual.
• Estimación puntual: consiste en asignar a un parámetro poblacional el valor
concreto del correspondiente estadístico utilizado como estimador, obtenido en
una muestra perteneciente a dicha población. El valor muestral concreto
dependerá del método de estimación:
o Método de los momentos. Igualar las características muestrales a las
características de la población.
o Máxima verosimilitud: elegimos, dentro de la muestra, la estimación del
parámetro cuya probabilidad de ser cierta sea máxima.
o Mínimos cuadrados. (tema5, regresión).

3. Propiedades de los estimadores.


• Carencia de sesgo: Un estadístico es un estimador insesgado si se espera que su
valor esperado coincida con el valor del parámetro que se estima. Ofrece, en
promedio, estimaciones correctas. Expectativa o esperanza matemática o valor esperado
Media = E

La media, la cuasivarianza y la proporción son estimadores insesgados. La varianza


y el coeficiente de correlación de Pearson son estimadores sesgados

• Consistencia: Un estadístico es un estimador consistente del parámetro si


conforme aumenta el tamaño de la muestra, aumenta la probabilidad de que el
estadístico utilizado como estimador coincida con el parámetro estimado.

La media, la cuasivarianza y la proporción son estimadores consistentes. La


varianza es un estimador consistente de la varianza poblacional, dado que a
medida que se incrementa el tamaño de la muestra, el sesgo disminuye.

• Eficiencia: Un estimador es más eficiente cuanto menor es su varianza. Una mayor


eficiencia indica que el estadístico varía menos de muestra en muestra El
estimador es más eficiente que si:

La media es un estimador más eficiente que la mediana para estimar la media


poblacional. La varianza es más eficiente que la cuasivarianza como estimador de
la varianza.

10
• Suficiencia: Un estimador es suficiente si para estimar el parámetro utiliza toda la
información muestral relacionada con el parámetro. Y, por lo tanto, la estimación
del parámetro no puede ser mejorada considerando otros aspectos de los datos
no incluidos en el estimador.
La media, la varianza (sesgada -varianza- e insesgada -cuasivarianza-) y la proporción
son estimadores suficientes de sus respectivos parámetros

Un estadístico es tanto mejor estimador de un parámetro cuanto mayor número de


propiedades cumple.

4. Estimación por intervalos.


• Estimación por intervalos: consiste en obtener un rango de valores entre los que
se espera que se encuentre el verdadero valor del parámetro con una probabilidad
determinada.

Precisión de las estimaciones

• Error muestral: es la diferencia, en valor absoluto, entre el valor del estimador y el


valor del parámetro.
• Error muestral máximo de la estimación : distancia máxima que, con una
determinada probabilidad, esperamos que exista entre el valor del estadístico
utilizado como estimador y el verdadero valor del parámetro estimado.
• Intervalo de confianza (IC): rango de valores incluidos. Son los segmentos
(pictórica) en el continuo o en el rango de valores (numérica)incluidos del
segmento, en el que en algún punto se halla el valor del parámetro.
• Límites del intervalo de confianza (Li y Ls): los dos valores de los extremos que
delimitan el intervalo de confianza.
• Nivel de confianza (−): es la probabilidad de que el intervalo de confianza
incluya el verdadero valor del parámetro estimado.
• Nivel de riesgo o de significación (): Probabilidad de que el intervalo de
confianza no incluya el verdadero valor del parámetro. Riesgo de error de la
estimación.

11
• Características de los intervalos de confianza.
o Garantizar una alta probabilidad de incluir al parámetro estimado.
o Proporcionar una precisión de la estimación aceptable: tamaño de la muestra.
Niveles de confianza: 95% - 99
Niveles de significación: 0,05 - 0,01

Intervalos de confianza para los parámetros:

- Media.
- Proporción
- Varianza
- Correlación
- Diferencia de medias: M.
- Independientes y relacionadas.
- Razón entre varianzas

12
Ejemplo: distribución de parámetros

Media en una prueba de aptitud espacial de la población de alumnos de 2º de Psicología.

1. Estimación puntual.

2. Estimación por intervalos: Cálculo del Intervalo Crítico (IC)

a. Nivel de significación o riesgo de error: (α=.05)


b. Distribución muestral:

Media en una prueba de aptitud espacial de la población de alumnos de 2º de Psicología

1. Estimación puntual.
2. Estimación por intervalos: Cálculo del Intervalo Crítico (IC) - Nivel de significación o
riesgo de error: (α=.05)
a. Distribución muestral:

 Ejercicio Distribuciones muestrales y estimación de parámetros.


 Seminario 2. Los modelos estadísticos en el análisis de datos.

13
Tema 3. Contraste de hipótesis.
1. Concepto.
El contraste de hipótesis, también conocido como prueba de significación o prueba estadística,
consiste en comprobar si una proposición (afirmación) sobre una propiedad de la población
(forma o valor de un parámetro) puede ser aceptada a partir de la información obtenida en
una muestra perteneciente a dicha población. También puede definirse como el proceso de
decisión en el que una hipótesis estadística se pone en relación con los datos obtenidos en una
muestra para determinar si es compatible con ellos.

2. Supuestos: Contrastes paramétricos y no paramétricos.


Se conoce como supuesto al Conjunto de condiciones que se han de establecer y que se han
de cumplir para poder determinar la distribución de probabilidad en la que se basará la
decisión del contraste. Existen varios supuestos de análisis, los cuales pueden agruparse en:

- Supuestos acerca de la forma de distribución de la población de partida (normal


(supuestos de normalidad, etc.)
- Supuestos acerca de las características de la muestra utilizada y de los datos (nivel de
medida de las variables, número de casos, independencia de las observaciones,
homogeneidad de las varianzas, etc.).

Dependiendo del cumplimiento o no de los supuestos, del objetivo de la prueba y del tipo de
variable, podemos diferenciar entre contrastes paramétricos y contrastes no paramétricos.

• Contrastes paramétricos.
1) Contrastan hipótesis referidas a un parámetro poblacional.
2) Requieren el cumplimiento de determinados supuestos.
3) Analizan datos cuantitativos (escala de medida de intervalo o razón)
• Contrastes no paramétricos.
1) Contrastan hipótesis no referidas a un parámetro poblacional.
2) No requieren el cumplimiento de determinados supuestos.
3) Analizan datos ordinales y nominales

3. Lógica del contrate de hipótesis.


Una hipótesis es una conjetura acerca de la relación entre dos o más variables, la cual
responde a las preguntas planteadas por los problema u objetivos de la investigación. El
planteamiento o la formulación de hipótesis consiste en definir el problema de la forma más
simple posible y como una proposición lógica afirmativa. Existen dos tipos de hipótesis.

- Hipótesis científica: es un enunciado acerca de la relación entre dos o más variables.


- Hipótesis estadística: es una proposición referida bien a la forma de distribución de
probabilidad, bien al valor o valores de los parámetros que la definen, o bien a ambos.
➢ Planteamiento de hipótesis estadísticas.
Se formulan dos hipótesis estadísticas de forma conjunta, las cuales son complementarias y
mutuamente excluyentes.

o Hipótesis nula (H0): Hipótesis que se somete a contraste. Sobre la que


se toman las decisiones, la que se acepta o rechaza. Siempre recoge la

14
igualdad. Esta hipótesis se acepta cuando NO hay efectos significativos
de la VI en la VD (como las medias son iguales, la VI no tiene efectos
significativos).
o Hipótesis alternativa (H1): Hipótesis complementaria a la hipótesis
nula, e incluye todo lo que la hipótesis nula excluye. Se acepta cuando
SÍ hay efectos significativos de la VI en la VD (como las medias son
distintas, la VI si tiene efectos significativos).

Dependiendo de los signos que queden en las hipótesis, tendremos diferentes tipos de
contrastes.

o Contraste bilateral o no direccional.


No se plantea la dirección en la que se puede producir un resultado
muestral incompatible con la proposición establecida en H0.

o Hipótesis unilateral o direccional.


Se plantea la dirección en la que se puede producir un resultado
muestral incompatible con la proposición establecida en H0

➢ Obtención de evidencia empírica: el estadístico de contraste.


Estadístico de contraste: es el resultado muestral que proporciona información empírica en
relación con la proposición realizada en la hipótesis nula. Este estadístico es una variable
aleatoria con una distribución muestral conocida, a partir de la cual se va a tomar la decisión
respecto a la hipótesis nula en el contraste de hipótesis.
Estadístico − Parametro
Estadístico de contraste = Error típico

➢ Toma de decisión: reglas de decisión.


Las reglas de decisión son los criterios utilizados para decidir si la hipótesis nula ha de ser
aceptada o rechazada, a partir de la distribución muestral del estadístico de contraste. Estas
reglas son dos y ambas deben coincidir en su decisión: rechazar o aceptar la hipótesis nula.

• Puntos críticos: intervalo de confianza (IC)


o Región crítica o de Rechazo: valores de la distribución muestral del estadístico
de contraste que se alejan mucho de la media de la distribución de Ho, por lo
que es poco probable que ocurran si Ho es verdadera. Estos valores de
estadístico de contraste llevan a rechazar la hipótesis nula.
o Región de Aceptación: valores de la distribución muestral del estadístico de
contraste próximos a la media de la distribución de Ho, por lo que es probable
que ocurran si Ho es verdadera. Estos valores de estadístico de contraste
llevan a aceptar la hipótesis nula.

15
Delimitación de las regiones de aceptación y rechazo: nivel de significación ().

• Nivel crítico o probabilidad asociada al estadístico de contraste (p)


representa el nivel de significación, es decir, riesgo de error más
pequeño con el que se puede rechazar Ho con el estadístico de
contraste obtenido:
o Si el nivel crítico (p) es mayor que alfa () fijado a priori, no se
rechaza Ho, se acepta.
o Si el nivel crítico (p) es menor o igual que alfa () fijado a
priori, se rechaza.

Por lo tanto, la decisión estadística es:

• Rechazar H0: Si el valor de tal estadístico de contraste se encuentra en la zona crítica o


su probabilidad asociada es menor que el nivel de significación fijado.
o Hay evidencia empírica suficiente para decidir que esa hipótesis es falsa.
o Se puede afirmar, con un riesgo de p de equivocarse, que la hipótesis nula es
falsa.
• Aceptar H0: Si el valor de tal estadístico de contraste se encuentra en la zona de
aceptación o su probabilidad asociada es menor que el nivel de significación fijado.
o La hipótesis nula es compatible con los datos empíricos.
o No hay evidencia suficiente para decidir que es falsa.

16
4. Tipos de error, potencia y tamaño del efecto

• Error tipo I: Rechazar una H0 que es verdadera.


o Probabilidad de cometer Error tipo I: .
o Fijada por el investigador.
• Error tipo II: Aceptar una H0 que es falsa.
o Probabilidad de cometer Error tipo II: .
o Depende de:
▪ El verdadero valor de la media de la distribución de H1.
▪ El valor de .
▪ El error típico de la distribución muestral del estadístico: tamaño de la
muestra (n).
• Potencia del contraste (1-):
o Probabilidad de rechazar H0 que es falsa.
o Depende de:
▪ El verdadero valor de la media de la distribución de H1.
▪ El valor de .
▪ El error típico de la distribución muestral del estadístico: tamaño de la
muestra (n).

El último elemento a tener en cuenta en el contraste de hipótesis es el tamaño del efecto:


Medida del grado de discrepancia entre la H0 y la evidencia muestral.

• Corregir incidencia de:


o Nivel de significación () fijado.
o Tamaño de la muestra (n).

CONTRASTES DE HIPOTESIS PARA LOS PARÁMETROS


• MEDIA • CORRELACIÓN • DIFERENCIA DE MEDIAS: M. INDEPENDIENTES Y RELACIONADAS
• RAZÓN ENTRE VARIANZAS • DIFERENCIA ENTRE PROPORCIONES.

17
Ejemplo de: Contraste de Hipótesis.
1ª Hipótesis. Se quiere comprobar si existen diferencias significativas en aptitud espacial
en función del sexo (entre varones y mujeres).

Determinar:

1. Nivel de significación: (α=.05).

2. Parámetro sobre el que se va a realizar el contraste: δ= µg1-µg2 (diferencia de medias


para muestras independientes)

3. Distribución muestral:

➢ 1º. Planteamiento de las hipótesis estadísticas:


o Bilateral o no direccional:

➢ 2º. Cálculo del estadístico de contraste (to):

➢ 3º. Toma de decisión: (α = 0,05)


o Puntos críticos (tc).

18
2ª Hipótesis. Se quiere comprobar si el nivel en aptitud espacial de los varones es
significativamente superior al de las mujeres.

Determinar:

1. Nivel de significación: (α=.05).

2. Parámetro sobre el que se va a realizar el contraste: δ= µg1-µg2 (diferencia de medias


para muestras independientes)

3. Distribución muestral:

➢ 1º. Planteamiento de las hipótesis estadísticas:


o Unilateral o direccional:

➢ 2º. Cálculo del estadístico de contraste (to):

➢ 3º. Toma de decisión: (α = 0,05)


o Puntos críticos (tc).

19
➢ 3º. Toma de decisión: (α = 0,05)
o Probabilidad asociada (p).

Estimación diferencia.

Comparación estimación

 Seminario 3. Fases en el análisis de datos para la comprobación de hipótesis


de investigación.
 Ejercicio Contraste de Hipótesis.

20
Prácticas 1. Ejemplo contraste t diferencia de medias para muestras independientes

En un estudio, se ha tratado de comprobar si existen diferencias en función del sexo en el recuerdo de material
presentado de forma auditiva. Para comprobarlo se seleccionó una muestra de 56 estudiantes (28 varones y 28
mujeres). La presentación del material, una lista de 15 objetos de uso cotidiano se realizaba a través de unos
auriculares. Posteriormente, se pedía a los participantes en el estudio que escribieran en un folio en blanco el
mayor número posible de objetos que se le habían presentado, teniendo en cuenta que los errores no penalizaban
negativamente. La puntuación en la prueba era el número de objetos recordados correctamente. A continuación, se
presentan los resultados obtenidos.

varón 9,00
varón 3,00
varón 7,00
varón 9,00
varón 11,00
varón 3,00
varón 10,00
varón 7,00
varón 12,00
varón 9,00
varón 8,00
varón 13,00
varón 7,00
varón 2,00
varón 6,00
varón 7,00
varón 9,00
varón 6,00
varón 8,00
varón 11,00
varón 7,00
varón 5,00
varón 4,00
varón 3,00
varón 5,00
varón 4,00
varón 2,00
varón 3,00
mujer 9,00
mujer 8,00
mujer 7,00
mujer 9,00
mujer 6,00
mujer 11,00
mujer 10,00
mujer 7,00
mujer 8,00
mujer 11,00
mujer 8,00
mujer 8,00
mujer 12,00
mujer 10,00
mujer 5,00
mujer 7,00
mujer 9,00
mujer 4,00
mujer 11,00
mujer 2,00
mujer 8,00
mujer 5,00
mujer 7,00
mujer 8,00
mujer 5,00
mujer 10,00
mujer 6,00
mujer 3,00

21
A partir de estos resultados, ¿se puede afirmar que existen diferencias entre varones y
mujeres? (=0,05)

a) Indica qué modelo y técnica de análisis vas a utilizar. Justifica tu respuesta.

b) Plantea las hipótesis estadísticas.

c) Comprueba los supuestos e indica si se cumplen o no, incluyendo las representaciones


gráficas y los estadísticos que lo reflejen. Si no se cumplen toma las decisiones que consideres
oportunas.

d) Incluye la tabla de descriptivos con número de casos, medias y desviaciones típicas.

e) Plantea la conclusión a la que llegarías, reflejándolo con los resultados obtenidos.

f) Representa gráficamente los resultados. Procura que los gráficos tengan una presentación
atractiva.

22
Practica 2. Ejemplo contraste t diferencia de medias para muestras relacionadas

Un psicólogo especializado en investigación comercial quiere determinar si la publicidad en los


periódicos incide en el nivel de ventas. Para realizar este estudio elige, de manera aleatoria, 14
artículos de una determinada marca cuyos precios son competitivos, y registra la cantidad
vendida de cada producto durante un periodo de una semana. Luego, sin modificar el precio,
coloca un anuncio en un periódico, donde promociona los 14 artículos. De nuevo, registra la
cantidad vendida durante la semana posterior a la aparición del anuncio. A continuación, se
presentan los resultados:

A partir de estos resultados, ¿puede afirmar el psicólogo que la publicidad ha sido eficaz?
(=0,05)

a) Indica que técnica de análisis vas a utilizar. Justifica tu respuesta.

b) Plantea las hipótesis estadísticas.

c) Comprueba los supuestos e indica si se cumplen o no, incluyendo las representaciones


gráficas y los estadísticos que lo reflejen. Si no se cumplen toma las decisiones que consideres
oportunas.

d) Incluye la tabla de descriptivos con número de casos, medias y desviaciones típicas.

e) Una vez obtenidos los resultados, plantea la conclusión a la que llegarías, reflejándolo con
los resultados.

f) Representa gráficamente los resultados. Procura que los gráficos tengan una presentación
atractiva

23
Tema 4. Análisis de varianza.
En el contraste de diferencia de medias o prueba "t" se estudia la relación entre dos variables:
una independiente con dos niveles definidos por los dos grupos cuyas medias se comparan, y
una dependiente medida en una escala de intervalo o de razón. El objetivo de la prueba "t" es
comprobar, si hay diferencias significativas entre las medias en la variable dependiente de los
dos grupos. El Análisis de Varianza (ANOVA) permite extender esas ideas al caso en que la
variable independiente tiene más de dos niveles, es decir, cuando se quieren comparar las
medias de más de dos grupos y, además, ofrece la posibilidad de estudiar más de una variable
independiente. Tal vez debido a esto el ANOVA es la técnica de análisis de datos más
frecuentemente utilizada en la investigación psicológica.

La técnica de Análisis de Varianza, pueden utilizarse con datos experimentales y no


experimentales. Aunque se aplica principalmente en la investigación experimental (Martínez
Arias et al., 1990). Así, un factor puede ser categorizado o como factor experimental, cuando
es manipulado por el investigador, o como factor de clasificación, cuando los sujetos son
asignados a los niveles del factor en función de su posesión de un cierto atributo. Este último
tipo de factores son los habituales cuando se utiliza este tipo de modelo en investigaciones no
experimentales, aunque no exclusivamente puesto que también se pueden encontrar en
investigaciones experimentales.

Finalmente, se ha de distinguir entre factores cualitativos en donde los niveles difieren en


función de algún atributo cualitativo y factores cuantitativos no continuos, en donde cada nivel
se describe por una cantidad numérica en una escala.

Por lo que respecta a la elección de los niveles de la variable independiente que se incluirán en
el modelo es una decisión que ha de tomar el investigador, en función de la teoría sobre el
tema de estudio, con el fin de obtener una idea clara de los mecanismos subyacentes al
fenómeno estudiado. Los diferentes aspectos del análisis de varianza se sustentan sobre una
serie de modelos matemáticos acompañados de un conjunto de supuestos referidos a las
distribuciones de las variables aleatorias que forman parte de esos modelos.

1. Modelo: descomposición de la varianza.

El modelo de ANOVA no es más que una versión del modelo lineal general adaptado al caso de
variable independiente categórica –Modelo estructural o de efectos-.

En estos Modelos Estructurales de diseño experimental o de efectos, el componente


sistemático o determinístico –f(x)- se correspondería con la denominada varianza intergrupos
o explicada, es decir, aquella parte de la varianza de la variable dependiente presumiblemente
debida a los efectos de la VI. En la investigación experimental el investigador manipula la VI,
con la intención de comprobar que es capaz de producir efectos, cambios, respecto de otras
situaciones en que la VI no influye o lo hace de manera diferente.

24
Antes de comenzar la investigación, de actuar VI, si el experimento está bien planeado, las
puntuaciones de los sujetos en los diversos grupos no diferirán significativamente, sino dentro
de los límites esperables como consecuencia de los efectos del azar, pero, tras el tratamiento
experimental, uno o varios de tales grupos habrán experimentado cambios distintos de aquél o
aquéllos que no lo hayan recibido o lo hayan hecho en grado diferente, esto es, cambios que
diferirán según el nivel de la VI que les haya correspondido. Esta varianza explicada puede ser
única o incluir varias partes, tantas como VI contenga el diseño, con sus correspondientes
interacciones.

La/s VI/s se convierte/n en fuente/s de variación, dando origen a la varianza explicada,


varianza que, por razones obvias recibe el nombre de varianza entre grupos, y es representada
en el ANOVA por lo que se denomina media cuadrática entre grupos.

El componente aleatorio o de error –ε- se correspondería con la denominada varianza no


explicada, intragrupos o residual o de error, es aquella parte de la varianza de la variable
dependiente al margen de la presencia o ausencia de la VI. La varianza residual puede tener
dos fuentes: los errores de medida en las variables y las diferencias individuales en otras
variables no incluidas en el modelo o bien porque se desconoce su incidencia o bien aunque el
investigador conoce su incidencia ha decidido no incluirlas en el modelo. Su denominación es
la de variabilidad dentro de los grupos y es representada en el ANOVA por la media cuadrática
dentro de los grupos.

Un principio fundamental del ANOVA es que ambas medias cuadráticas, dentro y entre los
grupos, son estimaciones insesgadas del parámetro varianza poblacional. Consiguientemente
no deben diferir significativamente sino dentro de los márgenes del azar, salvo que algo ajeno
a ellas haya hecho variar fuertemente una de ellas dejando inalterada a la otra. Y esto es
justamente lo que ocurre merced al influjo de la VI uno o varios grupos cambian, elevándose o
descendiendo respecto de otro u otros grupos del diseño, con lo que la varianza entre grupos
aumentará. La media cuadrática dentro de los grupos únicamente tiene una fuente de
variación, el error.

La media cuadrática entre los grupos incluye junto a ésta las variaciones producidas por la VI.
Si ésta ha sido eficaz, su valor respecto a la varianza poblacional irá más allá de los límites de
las fluctuaciones del azar. En caso contrario una y otra estarán muy próximas y cercanas a la
varianza poblacional, dentro de las fluctuaciones explicables por azar. El ANOVA trata de
comprobar si la varianza entre grupos es suficientemente mayor que la de error. Es necesario
que aquélla sea suficientemente más elevada que ésta para atrevernos a afirmar que es
significativa, ¿cuánto mayor? Snedecor es el autor de las tablas que indican los valores F (razón
entre ambas medias cuadráticas) que permiten afirmar la significación estadística de las
diferencias para diferentes grados de libertad y niveles de significación. Si la H0 fuera cierta
ambas medias cuadráticas tenderán a ser iguales y su cociente próximo a 1; si H0 fuera falsa, el
valor de la media cuadrática intergrupos será sensiblemente superior a la media cuadrática
intragrupo o de error.

El ANOVA concluye en una prueba de significación de diferencias -F- que permite comprobar si
diversos niveles de una misma variable independiente dan lugar a diferencias significativas.
Lógicamente, el valor de F será tanto mayor cuanto más elevada sea la media cuadrática
intergurpos y cuanto menor sea la existente dentro de los grupos. En estos Modelos, el
Modelo Lineal General se concretiza en la siguiente ecuación

25
Este modelo establece que la puntuación obtenida por un sujeto i bajo el tratamiento j puede
ser explicada recurriendo a tres componentes que se combinan de forma aditiva: el término
"µ" que es un término constante, la media total de todas las observaciones en la variable
dependiente, representa o recoge el conjunto de efectos debidos a los factores mantenidos
constantes, es decir, aquellos factores que son comunes a todos los sujetos; el término "α" que
representa el cambio que se produce en la variable dependiente "Y" como consecuencia del
cambio de nivel en la variable independiente "X", es decir, el efecto atribuible a la variable
independiente (el efecto atribuible al nivel de la VI bajo el que se obtiene esa puntuación Yij, y
que se puede definir como αj= µj − µ , pues lo que cada tratamiento tiene de específico es
justamente aquello en lo que se diferencia del promedio total. Por esta razón, es conocido
como modelo de efectos. Y, por último, el término aleatorio de error "ε ", que representa el
efecto atribuible al conjunto de variables no contempladas en el modelo, variables extrañas
cuyo efecto es desconocido, variables cuyo efecto aun siendo conocido, no se desea estudiar,
errores de medida, etc.

Los términos µ y αj incluidos en el modelo son parámetros y, por tanto, son desconocidos y es
necesario estimarlos. Se utilizará la media de la VD (Y) como estimador de µ, la media de cada
grupo (Yj) como estimador de µj, y la diferencia entre la media de un grupo y la media total en
la VD (Yj-Y) como estimador de αj (pues αj=µj-µ) Desde el punto de vista del modelo
estructural, los parámetros asociados a la parte determinística o sistemática son los que más
interesan. Por esta razón, el sentido último de la prueba de contraste de hipótesis consiste en
obtener el nivel de significación de tales parámetros, en concreto de "α".

2. Supuestos.

Los supuestos de un contraste son el conjunto de condiciones que necesitamos establecer


para que las distribuciones de probabilidad con las que vamos a trabajar queden
completamente especificadas. En cualquier contraste de hipótesis suele haber involucradas
dos clases de distribuciones de probabilidad: las distribuciones poblacionales de donde se
extraen las muestras y la distribución muestral del estadístico que se va a utilizar para tomar
una decisión sobre la hipótesis nula. Los supuestos de un contraste suelen ser afirmaciones
sobre las distribuciones poblacionales y sobre la forma de extraer muestras de ellas, y se
establecen con el único objetivo de hacer posible la obtención de la distribución muestral del
estadístico de contraste.

El incumplimiento de uno o más de estos supuestos puede llevarnos a tomar una decisión
equivocada. Ese incumplimiento puede hacer que la distribución muestral F cambie y,
consecuentemente, que el nivel de significación propuesto no coincida con el real, pasando a
ser menor o mayor. En general, el estadístico F es bastante robusto frente a desviaciones
moderada en el incumplimiento de los supuestos que exige, pero desviaciones más acusadas
pueden tener graves consecuencias sobre nuestras conclusiones.

En el ANOVA se plantean tres supuestos:

➢ Independencia.

Cada observación es aleatoriamente seleccionada de su población y/o aleatoriamente


asignada a uno de los J tratamientos del factor. Esto significa que la puntuación obtenida por
cada sujeto es independiente de la obtenida por los demás, tanto de su grupo como del resto
de los grupos: la puntuación obtenida por uno cualquiera de los sujetos no nos proporciona
ninguna información sobre las puntuaciones de los restantes sujetos.

26
Como consecuencia de esto, lo que una puntuación se desvía del promedio de su grupo (Eij) es
independiente de los que se desvía otra puntuación cualquiera de ese mismo grupo: la
covariación de los errores es igual a cero. Y, como una consecuencia más, puesto que las
observaciones de cada grupo constituyen una muestra aleatoria, las desviaciones (errores) de
cada puntuación respecto de su promedio también serán aleatorias y unas se anularán con
otras, el valor esperado de los errores, es decir, la media será igual a cero. Probablemente el
no cumplimiento de este supuesto produzca los efectos más graves, pero es la condición más
fácil de cumplir. Se consigue con los muestreos aleatorios y la asignación aleatoria de los
sujetos a los grupos. Si se duda de la independencia de las observaciones, se puede poner a
prueba la hipótesis de que las muestras son aleatorias utilizando la prueba de rachas.

➢ Normalidad.

Las J muestras aleatorias son extraídas de J poblaciones normales, es decir, las observaciones
de cada nivel de la VI constituyen una muestra aleatoria extraída de una población normal.
Este supuesto puede quedar referido también al término de error. Los errores, además de ser
independientes unos de otros, y de tener media cero, se distribuyen normalmente.

El estadístico de contraste F es robusto frente al incumplimiento de este supuesto, no


obstante, si las poblaciones de donde se muestrea, aun no siendo normales, son simétricas o
tienen forma parecida, el comportamiento del estadístico F es muy aceptable incluso con
tamaños muestrales relativamente pequeños. No obstante, siempre es recomendable trabajar
con tamaños muestrales moderadamente grandes; de esta forma tendremos garantizado un
comportamiento aceptable del estadístico F incluso en aquellas situaciones en las que las
poblaciones originales muestren un marcado alejamiento de la normalidad.

Las desviaciones de la normalidad pueden detectarse, cuando son muy marcadas, utilizando
sencillos métodos gráficos. Pero si estamos interesados en contrastar la hipótesis de que una
muestra procede de una población normalmente distribuida podemos utilizar la prueba de
normalidad de Lillieffors.

➢ Igualdad de varianzas (homocedasticidad)

Las J poblaciones de donde son extraídas las muestras, además de ser normales, tienen todas
ellas la misma varianza. Puesto que las observaciones han sido aleatoriamente asignadas a
cada uno de los J tratamiento, podemos pensar que la variación observada entre las
observaciones de una misma muestra será independiente del tratamiento concreto al que
haya sido asignada esa muestra. Ahora bien, si cada una de las J muestras se considera
aleatoriamente extraída de una población y las J varianzas muestrales son similares, debemos
suponer que esas poblaciones tienen, todas ellas, la misma varianza:

Además, puesto que los errores son la única fuente de variación presente en el modelo, pues µ
y α son constantes para cada tratamiento, la variación mostrada por las puntuaciones Y en un
tratamiento cualquiera no será más que la variación propia de los errores de ese tratamiento.
De ese modo, la varianza de los errores será igual a las varianzas poblacionales:

27
Durante muchos años se ha venido aceptando que el estadístico F es muy robusto frente al
incumplimiento de este supuesto si los tamaños muestrales son iguales y no demasiado
pequeños. Estudios más recientes, sin embargo, parecen confirmar que, cuando las varianzas
poblacionales son distintas, el estadístico F puede resultar insatisfactorio incluso con tamaños
muestrales iguales. Y, desde luego, si los tamaños muestrales son diferentes, muchos trabajos
ponen de manifiesto que el estadístico F pierde robustez frente a la heterogeneidad de
varianzas: se convierte en muy conservador cuando las varianzas más grandes corresponden a
los grupos de mayor tamaño (perdiendo, además, potencia) y es marcadamente liberal cuando
las varianzas más grandes corresponden a los grupos de menor tamaño.

Estas consideraciones hacen recomendable detenerse a contrastar la hipótesis de igualdad de


varianzas cuando se tiene intención de utilizar el estadístico F del ANOVA. Para ello, se dispone
de varias pruebas de significación: la C de Cochran, la F de Bartlett y el cociente entre las
varianzas máxima y mínima de Hartley. Pero no todas ellas son igualmente robustas frente al
incumplimiento del supuesto de normalidad. Entre las más recomendables se encuentra la
prueba de Levene. Ante el incumplimiento de los supuestos, una solución consiste en
transformar las puntuaciones originales buscando que las distribuciones se normalicen o que
sus varianzas sean más parecidas.

3. Modelos de ANOVA.

Los modelos del ANOVA son muchos, presentamos los más representativos, que son los que se
utilizan más frecuentemente en la investigación empírica, y permiten resolver la mayor parte
de las situaciones experimentales con las que un investigador se puede encontrar en la
práctica. Vamos a utilizar cuatro criterios para clasificar estos modelos: cumplimiento de los
supuestos y nivel de medida de la variable dependiente, el número de factores, el tipo de
aleatorización seguida y el tipo de muestreo efectuado sobre los niveles de los factores.

➢ Cumplimiento de los supuestos del análisis paramétrico y nivel de medida de la


variable dependiente.

Si no se cumplen los supuestos del análisis paramétrico o el nivel de medida de la variable


dependiente es ordinal, el ANOVA puede realizarse mediante pruebas no paramétricas
(Friedman, Kruskal Wallis, ambas aptas para el nivel de medida ordinal). Si se cumplen los
supuestos y el nivel de medida es el adecuado, se utilizará el ANOVA paramétrico.

➢ Número de factores.

El término factor en el contexto del ANOVA es sinónimo de variable independiente. Así, el


modelo de ANOVA diseñado para analizar los datos obtenidos utilizando un diseño con una
variable independiente se denomina ANOVA de un factor (one way ANOVA). Si el diseño
consta de dos variables independientes, al modelo de ANOVA que permite analizar los datos se
le llama ANOVA de dos factores (two way ANOVA). Cuando se analizan dos o más factores, es
conveniente tener en cuenta el modo en que éstos se relacionan. Ciñéndonos al caso de dos
factores, hay dos tipos diferentes de relación útiles en la práctica: relación jerárquica o anidada
y relación cruzada. En la relación jerárquica, cada nivel de un factor, llamado factor de grupo
principal se combina con diferentes niveles del segundo factor, llamado factor de subgrupo. En
este caso los factores están ordenados jerárquicamente como factores principales y de
subgrupo. En la clasificación cruzada cada nivel de un factor se combina con todos los niveles
del otro factor, de modo que no existe jerarquía alguna entre dichos factores.

28
Se pueden plantear dos tipos de modelos: sin interacción si se considera que los efectos de los
tratamientos son aditivos o independientes, que un tratamiento afecta por igual a los
diferentes niveles del otro tratamiento; con interacción, si se considera que son dependientes
y actúan sobre otro, que un tratamiento afecta de forma diferente a los distintos niveles del
otro tratamiento.

➢ Tipo de aleatorización

La aleatorización es el procedimiento por el cual las unidades experimentales (generalmente


los sujetos) son asignadas al azar a cada uno de los niveles del factor o tratamientos, de modo
que todas ellas tengan la misma probabilidad de recibir un tratamiento o nivel determinado.
Se pretende con ello que el conjunto de posibles variables extrañas asociadas a las
características personales de los sujetos quede distribuido de forma similar en todos los
niveles del factor.
La aleatorización, por tanto, debe entenderse como una forma de control. La aleatorización se
puede llevar a cabo de diferentes formas. Si la aleatorización se efectúa sobre cada uno de los
sujetos, es decir, cada sujeto, uno a uno, es asignado al azar a cada uno de los niveles del
factor hablamos de ANOVA completamente aleatorizado.

Si sospechamos que existe alguna variable extraña que puede alterar de forma importante los
resultados, distorsionando los posibles efectos atribuibles a los tratamientos, entonces, con un
diseño adecuado se puede eliminar, es decir, ejercer algún tipo de control directo sobre la
variable extraña. En este caso, se forman bloques se sujetos en función de la variable extraña
que se desee controlar, y después se asignan aleatoriamente los sujetos de cada bloque a cada
uno de los niveles del factor. De tal forma, que en cada nivel del factor haya sujetos de todos
los bloques, el efecto de la variable extraña habrá quedado controlado al quedar todos los
grupos igualados en la variable extraña. El ANOVA que permite analizar los datos así obtenidos
recibe el nombre de ANOVA de un factor aleatorizado en bloques.

El bloqueo llevado a sus extremos puede ser aquel en el cada bloque está formado por un
único sujeto. Es decir, aquel en el que todos y cada uno de los sujetos se les aplican todos y
cada uno de los niveles de la variable independiente o factor. De modo que, se elimina mayor
número de variables extrañas. El ANOVA que permite analizar los datos con un diseño de este
tipo se denomina ANOVA de medidas repetidas.

Esta distinción basada en el concepto de aleatorización es equivalente a la establecida al


hablar de muestras independientes y relacionadas. Hablar de diseños completamente
aleatorizados es equivalente a hablar de muestras independientes, a cada nivel del factor se
asigna un grupo distinto de sujetos; y hablar de diseños intrasujetos o bloques aleatorios es
equivalente a hablar de muestras relacionadas, bien porque los sujetos de un mismo bloque
han sido igualados o emparejados atendiendo a algún criterio, bien porque todos los grupos
están formados por los mismos sujetos.

➢ Muestreo de niveles.

El factor es la variable independiente o experimental controlada por el experimentador. Puede


tomar pocos o muchos valores o niveles, a cada uno de los cuales se asignan grupos o
muestras. Estos niveles pueden establecerse de dos formas diferentes. La primera fijando sólo
aquellos niveles del factor que realmente estemos interesados en estudiar, y, en consecuencia,
nuestras inferencias se limitarán a esos niveles, el modelo de ANOVA es de efectos fijos o
sistemático (también llamado modelo I).

29
El propósito del diseño es determinar si esos niveles concretos difieren entre sí. Si en lugar de
fijar los niveles que se desea estudiar se procede seleccionando al azar unos pocos niveles
dentro de todos los posibles, porque las inferencias que interesa realizar se refieren, no a unos
niveles concretos, sino a cualquiera de los posibles, entonces el modelo de ANOVA es de
efectos aleatorios o componentes principales (también llamado modelo II). Aquí no interesa
estudiar unos niveles concretos del factor sino cualquiera de los posibles niveles del factor.

Análisis de la varianza 1 FEF


o Modelos de ANOVA: Criterios de clasificación.

o Fundamentos del ANOVA 1 FEF: varianzas implicadas.

30
o Especificación del modelo.
(ANOVA de un factor de efectos fijos completamente aleatorizados).

o Supuestos: diagnóstico y soluciones.

31
o Estimación de parámetros: varianza inter e intra - grupo.

o Evaluación de la bondad de ajuste del modelo.


▪ Prueba de significación estadística: Prueba F del ANOVA.

▪ Índice de bondad de ajuste: tamaño del efecto ( 2).

▪ Pruebas a posteriori: pruebas “post hoc

32
Análisis de la varianza 2 FEF con interacción.
o Fundamentos del ANOVA 2 FEF con interacción: varianzas implicadas.

33
o Concepto de interacción.
o Especificación del modelo.

o Estimación de parámetros.

o Evaluación de la bondad de ajuste del modelo: Interacción.


▪ Prueba de significación estadística: Prueba F del ANOVA.

34
35
36
Tema 5. Análisis de la relación entre variables.
1. Coeficientes de correlación: criterios de elección.

2. Correlación lineal simple.


o Cuantificación de la relación entre variables: Coeficiente de correlación de
Pearson.

o Pruebo de significación: contraste de hipótesis sobre el parámetro xy


3. Análisis de tablas de contingencia.
o Cuantificación de la relación entre variables: Coeficiente de contingencia.
o Prueba de significación: chi-cuadrado de Pearson

37
Tema 5.1. Análisis de regresión lineal simple.
1. Técnicas de Análisis de Regresión: criterios de clasificación.

2. A. de Regresión Lineal Simple: Especificación del Modelo.

3. Supuestos: diagnóstico y soluciones.

4. Estimación de parámetros
o Coeficiente de regresión

o Varianza de la regresión y varianza de error.

38
5. Evaluación de la bondad de ajuste del modelo

o Pruebas de significación estadística:

▪ Prueba t sobre el coeficiente de regresión

▪ Prueba de significación estadística: Prueba F del ANOVA de la


Regresión.

39
o Índice de bondad de ajuste: Coeficiente de determinación (R2).

Tema 5.2. Análisis de regresión lineal múltiple.


1. Objetivos del análisis.
Obtener una combinación lineal de Variables Independientes o
predictores (X) que permita predecir la Variable Dependiente o
criterio (Y)
- Comprender y explicar las relaciones entre las VI y la VD
Evaluar la importancia relativa de las VI para explicar la VD.
Analizar las interrelaciones entre las VI.
- Evaluar el poder predictivo de un conjunto de VI con el fin de
obtener un modelo predictivo óptimo

2. Especificación del Modelo: métodos de inclusión VI

40
3. Supuestos: diagnóstico.
• NORMALIDAD: Univariable (variables individuales) y multivariable (errores)
o Representación gráfica: Histograma.
o Prueba de significación estadística: Pruebas de Bondad de Ajuste.
• HOMOCEDASTICIDAD
• LINEALIDAD: Gráfico de Regresión parcial.
• INDEPENDENCIA Y ALEATORIEDA DE LOS ERRORES:
o Prueba de Durbin-Watson:
• AUSENCIA DE MULTICOLINEALIDAD: Correlaciones entre las VI.
o Índice de Tolerancia.
4. Estimación de parámetros

o Ecuación de regresión múltiple: coeficientes de regresión.

o Varianza de la regresión y varianza de error.


5. Evaluación de la bondad de ajuste del modelo
o Pruebas de significación estadística:
▪ Prueba F del ANOVA de la Regresión
▪ Pruebas t sobre los coeficientes de regresión
o Índice de bondad de ajuste:
▪ Coeficiente de determinación
▪ Coeficiente de determinación ajustado.

41
Tema 5.3. Análisis de regresión lineal simple.
El Análisis de Regresión Lineal Simple es un procedimiento estadístico mediante el cual
podemos pronosticar las puntuaciones de los sujetos en una variable (Y), denominada
dependiente o criterio, mediante el conocimiento de sus puntuaciones en otra variable (X),
denominada independiente o predictora, y la ecuación de regresión. Si sabemos, por ejemplo,
que las variables de inteligencia y rendimiento están relacionadas, podemos utilizar la
puntuación de un sujeto en inteligencia para predecir su rendimiento, utilizando una ecuación
de regresión.

En Estadística Descriptiva se ha obtenido la ecuación de regresión mediante el método de


mínimos cuadrados, que nos ofrece la recta que mejor refleja la relación lineal entre las dos
variables, es decir, la recta que mejor se ajusta a la nube de puntos del diagrama de dispersión
que representa la relación entre las variables. En Estadística Inferencial vamos a comprobar si
esa ecuación de regresión es lo bastante buena como para permitirnos efectuar predicciones
aceptables en la variable criterio conocidas las puntuaciones de los sujetos en la variable
predictora, es decir, si la relación lineal que hemos planteado que existe entre las dos variables
es estadísticamente significativa.

En el análisis de Regresión Lineal Simple se parte de una matriz de datos, en la que en las
columnas se sitúan la variable predictora y el criterio, y en las filas los sujetos. En las celdillas,
tenemos las puntuaciones de los sujetos en las dos variables.

A partir de esta matriz de datos, para poder responder a la cuestión de si existe una relación
lineal entre dos variables, y que recta es la más adecuada para realizar predicciones en una
variable a partir de otra, se plantean dos pasos:

1. Obtener los estimadores de los parámetros: la ecuación de regresión en la muestra.

Como se desconoce la verdadera recta de regresión en la población, utilizaremos la


información muestral para estimar esa recta:

A esta ecuación se le llama ecuación de regresión de Y sobre X. Los términos A y B son los
estimadores de α y b. Para obtener A y B, utilizaremos el método de mínimos cuadrados, que
se basa en hacer mínimas las distancias al cuadrado entre Y e Y'. De esta forma, se obtiene la
recta que mejor expresa la relación lineal entre las dos variables, es decir, la recta que mejor se
ajusta a la nube de puntos que representa la relación entre las dos variables.

42
2. Evaluación del Modelo.

El siguiente paso, es determinar si esa recta es lo bastante buena como para permitirnos
efectuar predicciones aceptables en una variable a partir de otra, es decir, analizaremos si las
predicciones efectuadas sobre Y a partir de X son mejores que las que podríamos efectuar sin
considerar X. Y si podemos decir que la relación entre las variables X e Y es una relación lineal.

o Contraste de hipótesis sobre el coeficiente de regresión .

Como ya se ha dicho el parámetro es la pendiente de la recta de regresión, y representa el


incremento que se produce en Y por cada unidad que se incrementa X. Si no existe pendiente,
es decir, si b=0 y, por tanto, la recta es paralela al eje de abcisas, las variables X e Y son
linealmente independientes. Si existe pendiente, es decir, b≠0, las variables X eY se encuentran
linealmente relacionadas, positivamente si el valor de b es positivo y negativamente si el valor
de es negativo. Para contrastar hipótesis sobre b podemos servirnos de su estimador B.

En el contraste de hipótesis, sobre el parámetro b se siguen los mismos pasos que en cualquier
contraste:

Generalmente, se plantean hipótesis de dos colas, aunque también se pueden


plantear hipótesis unilaterales o de una cola.

En este caso la distribución muestral del estadístico se


distribuye según el modelo t de Student con n-2 grados de
libertad.

En este caso la distribución muestral del


estadístico se distribuye según el modelo t de
Student con n-2 grados de libertad.

c) Decisión.

Se rechaza la hipótesis nula si el valor de t observada se encuentra en la zona de rechazo, y si


la probabilidad asociada es menor que el alfa fijada. En caso contrario, se acepta hipótesis
nula. Si se rechaza hipótesis nula, se concluye que se dispone de evidencia empírica suficiente
para afirmar que existe relación lineal significativa entre las dos variables consideradas. Si
mantenemos hipótesis nula concluiremos que, con los datos disponibles, no podemos afirmar
que las dos variables estudiadas se encuentren linealmente relacionadas.

43
o ANOVA de la Regresión.

Ya se ha señalado, que el modelo de ANOVA de un factor, de efectos fijos, completamente


aleatorizado y el modelo de análisis de regresión lineal simple son versiones equivalentes del
modelo lineal general. Por ello, también se puede utilizar el análisis de varianza, la prueba F,
para comprobar si existe relación lineal entre X e Y. Así es como aparece en los paquetes
estadísticos.

El Análisis de Varianza se basa en la descomposición de la varianza total de la variable


dependiente Y en dos componentes: la denominada varianza asociada o dependiente, es decir,
la varianza debida a la regresión lineal de Y sobre X; y la varianza no asociada o independiente,
es decir, la variación no debida a la regresión de Y sobre X, no explicada por la regresión,
también denominada variación de error o residual.

En el Análisis de Varianza se va a comparar la varianza asociada con la varianza no asociada o


varianza de error. En concreto, se va a trabajar con las sumas de cuadrados:

A partir, de las sumas de cuadrados se obtienen las medias de cuadrados, que no son más que
las SC divididas por los grados de libertad correspondientes. Y, por último, se obtiene el
estadístico F la razón entre MCR/MCE. Cuanto mayor sea la suma de cuadrados debida a la
regresión, y, por lo tanto, menor sea la suma de cuadrados debida al error, obtendremos
resultados de F más altos y unas probabilidades asociadas más bajas, que nos llevarán a
rechazar hipótesis nula. Y, por tanto, a concluir que existe una relación lineal significativa entre
las dos variables.

44
Tema 5.4. ANALISIS DE REGRESIÓN
El Análisis de Regresión es una de las técnicas más utilizadas para evaluar las relaciones entre
las variables. Concretamente, para estudiar el grado de asociación y la naturaleza de la
relación entre una o más variables predictoras (independientes) y una sola variable criterio
(dependiente), plantear ecuaciones matemáticas que la describan, y permitan la predicción y
control de la variable criterio a partir del conocimiento de los valores de la otra, es decir,
determinar en qué medida la variable criterio puede ser explicada o predicha por la predictora
o independiente.

En Estadística Descriptiva se ha obtenido la ecuación de regresión mediante el método de


mínimos cuadrados, que nos ofrece la recta que mejor refleja la relación lineal entre las dos
variables, es decir, la recta que mejor se ajusta a la nube de puntos del diagrama de dispersión
que representa la relación entre las variables. En Estadística Inferencial vamos a comprobar si
esa ecuación de regresión es lo bastante buena como para permitirnos efectuar predicciones
aceptables en la variable criterio conocidas las puntuaciones de los sujetos en la variable
predictora, es decir, si la relación lineal que hemos planteado que existe entre las dos variables
es estadísticamente significativa.

A continuación, vamos a ver la relación del Análisis de Regresión con otras técnicas estadísticas
como el ANOVA y la correlación.
Tanto el Modelo de Regresión del que se deriva el Análisis de Regresión, como el Modelo
Estructural del que a su vez se deriva el ANOVA son concreciones del MLG.
El objetivo en ambos casos es analizar la relación entre las variables independientes y
dependientes. Pero como hemos señalado, mientras en el Modelo de Regresión se trata de
analizar la naturaleza, es decir, la forma de la relación entre las variables, y predecir el
comportamiento de la variable dependiente –variable criterio- en función de su relación con
la/s variable/s independiente/s –variable/s predictora/s-; en el Modelo de Efectos el énfasis se
pone sobre el efecto diferencial de los distintos niveles de la variable independiente –factor-
sobre la variable dependiente, es decir, sobre la comparación de medias.

Mientras en un ANOVA se trata de comprobar si existen diferencias significas entre las medias
en la variable dependiente de los diferentes grupos de sujetos formados en función de los
niveles en el factor; en un Análisis de Regresión se trata de comprobar además que esas
medias se encuentran en una línea recta.

Por otra parte, el Análisis de Regresión y el Análisis de Correlación están estrechamente


relacionados, pero conceptualmente son muy diferentes. En el Análisis de Regresión trata de
obtener una ecuación que permita realizar buenas estimaciones o predicciones en una variable
dependiente o criterio en función de una o más variables predictoras, es decir, trata de
establecer relaciones de dependencia. Por ello, distingue dos tipos de variables: la variable
criterio o dependiente, y las predictoras o independientes. Por su parte, el Análisis de
Correlación intenta medir únicamente la fuerza o grado de asociación entre dos o más
variables, se aplica en los casos en que no tiene sentido hablar de dependencias. En este
análisis, no se hacen distinciones entre variables predictoras y criterio. Se puede considerar
que ambos análisis son complementarios: las predicciones que podemos efectuar mediante el
análisis de regresión son tanto mejores cuanto más intensa es la correlación entre las dos
variables. Así, se puede considerar la correlación como una medida o índice de bondad de
ajuste de la recta de regresión.

45
1. Modelo. En el Modelo de Regresión, los componentes del Modelo Lineal General

El primer término f(x), el componente sistemático o determinístico, que constituyen los


factores explicativos del sistema y que recoge el conjunto de variables que explícitamente se
incluyen en el modelo para estudiar su relación con la variable de salida, estaría constituido
por una combinación o función lineal de las variables de entrada (X). En términos estadísticos
de varianza, este componente hace referencia a lo que se denomina "varianza explicada", es
decir, a la variabilidad de la variable dependiente que puede ser explicada por las variaciones
de las variables independientes incluidas en el análisis, es decir, por el modelo. Se
correpondería con la varianza asociada o varianza de la regresión, en el caso del Modelo de
Regresión.

El segundo término, "ε", es el componente aleatorio o de error, cuyo efecto sobre la variable
observada es totalmente impredecible, y que no posee en el modelo un carácter explicativo.
En este término, se incluyen una serie de componentes no observables: las diferencias
individuales en variables no incluidas en el modelo, los errores de medida que se han cometido
al medir las variables, y los errores de especificación, es decir, los errores atribuibles a la
omisión de alguna(s) variable(s) independiente(s) relevante(s) en el modelo, bien variables
extrañas cuyo efecto se desconoce, bien variables contaminadoras cuyo efecto, aun siendo
conocido, no se desea estudiar, y no se han incluido en el modelo y, tampoco, se han
controlado. En términos estadísticos de varianza, este término se correspondería con la
denominada varianza de error, porque es la parte de la varianza que no es explicada por las
variables que se incluyen en el modelo. En el Modelo de Regresión, con la denominada
varianza residual.

El modelo de regresión lineal es el modelo lineal general adaptado al caso concreto de una
variable independiente y una dependiente, ambas cuantitativas.

Yi es el valor observado en la variable dependiente, y es una variable aleatoria, resultado de la


suma de dos componentes, el componente sistemático o determinístico y el aleatorio. El
término Xi es el valor prefijado en la variable independiente o predictora X, que no es una
variable aleatoria, sino que presenta unos valores fijados o predeterminados. Los términos β
son parámetros constantes de valores desconocidos pero que es posible estimar a partir de las
variables observadas. β0 -que también se expresa como α- es la ordenada en el origen, es
decir, el punto en el que la recta de regresión corta al eje de ordenadas. Nos indica el valor de
la variable dependiente cuando la variable independiente toma el valor de 0. β1 es la
pendiente de la recta de regresión, lo que se denomina coeficiente de regresión, e indica la
magnitud del cambio que corresponde en la variable dependiente por unidad de variación en
la variable independiente. El término β1 es el que indica si las variables X e Y están o no
relacionadas de forma lineal. Por ello, es sobre este coeficiente sobre el que se toman las
decisiones en la regresión. El componente de error ε es el término de error o perturbación de
la ecuación, y refleja los efectos compuestos de un gran número de factores no considerados
en el modelo. Es una variable aleatoria desconocida que puede obtenerse, a partir de la
diferencia entre las puntuaciones observadas de los sujetos en la variable dependiente y las
que se estiman en dicha variable a partir de la ecuación de regresión.

46
2. Supuestos.
o Supuestos como modelo descriptivo.
▪ En el modelo propuesto no se han omitido variables relevantes ni se
han incluido variables irrelevantes.
▪ No existen errores de medida en las variables, es decir, las variables
han sido medidas sin error.
▪ La variable X, independiente o predictora, presenta unos valores
fijados o predeterminado. No es una variable aleatoria.
▪ La relación entre las variables es lineal –linealidad- Para cada uno de
los valores fijos de X existe una subpoblación o distribución de valores
de Y. Las medias en la variable Y para estas subpoblaciones de X están
en la misma línea recta, dicha línea es la recta de regresión, y su
ecuación es la regresión lineal de Y sobre X.
o Supuestos como modelo inferencial.
▪ Normalidad. Los errores se distribuyen normalmente, por lo tanto, las
diferentes subpoblaciones de la variable dependiente para cada uno
de los valores de la variable independiente se distribuyen
normalmente.
▪ Homocedasticidad. Para los distintos valores de X los términos de
error tienen igual varianza, por lo que la varianza de las distribuciones
de las diferentes subpoblaciones de Y para los diferentes valores de X
es la misma, la varianza de los errores.
▪ Independencia. Los errores son aleatorios, y, por tanto, no están
relacionados entre sí ni con la variable independiente.

El primer paso, en el análisis de regresión ha de ser la comprobación del cumplimiento de


estos supuestos – diagnóstico-. Si una vez realizado el diagnóstico se comprueba que el
modelo no es apropiado para esos datos se han de adoptar medidas correctoras. Se pueden
tomar dos decisiones, o bien abandonar ese modelo y optar por otro más adecuado, o bien
transformar los datos para linealizar la relación, o corregir las violaciones de los supuestos –
conseguir que las distribuciones de los términos de error se aproximen a la normalidad y las
varianzas sean homogéneas-, de modo que el modelo de regresión propuesto sea apropiado
para los datos transformados.

El cumplimiento del supuesto de que la variable X tenga valores fijos no es crucial. El análisis
de regresión no tiene por qué limitarse al modelo de X fijos, puede utilizarse con el modelo
bivariante normal, después de considerar cuál ha de ser la variable independiente.

El diagnóstico de la linealidad se puede realizar a partir de dos procedimientos:


representaciones gráficas –diagrama de dispersión bivariable o representación de los residuos
frente a los valores pronosticados- y pruebas de significación estadística – prueba t sobre el
coeficiente de regresión y el Análisis de Varianza de la Regresión-. Cualquier patrón curvilíneo
que se observe en el diagrama de dispersión o en los residuos indica que no se cumple este
supuesto, y que hay que tomar una decisión para resolver el problema. Se pueden adoptar dos
posibles soluciones. La primera es la transformación de los datos en una o ambas variables
para linealizar la relación. Esta transformación normalmente se realiza sobre la variable
predictora, siempre y cuando la distribución de los errores sea aproximadamente normal y la
varianza constante, porque si se planteara sobre la variable criterio se corre el riesgo de que se
produzca un cambio en la forma de la distribución y la varianza de los errores.

47
La otra alternativa es incluir directamente el componente no lineal de la relación en el modelo,
es decir, plantear Modelos de Regresión Polinómicos.

La evaluación de la normalidad se ha de llevar a cabo en dos etapas y a dos niveles: univariable


y bivariable. En la primera etapa, se realiza la comprobación de la normalidad univariable en
todas y cada una de las variables que se han incluido en el modelo. Para ello, se pueden utilizar
métodos gráficos, es decir, representaciones gráficas de la distribución como el histograma, o
pruebas estadísticas como las pruebas no paramétricas de bondad de ajuste –chi-cuadrado,
Kolmogorov-Smirnov o la prueba de Lilliefors-. Una vez realizadas estas pruebas globales, y si
se comprueba que la distribución no se ajusta a la normalidad, se ha de tratar de determinar
cuál de los dos componentes de la forma –simetría o curtosis- es el que no se ajusta. Existen
pruebas de significación estadística para evaluar cada uno de estos estadísticos. En la segunda
etapa, se plantea el diagnóstico a nivel bivariable. En este caso, la representación gráfica y las
pruebas de bondad de ajuste se plantean sobre los errores o residuos. También se puede
utilizar la representación de los residuos sobre las puntuaciones pronosticadas, cuando se
observa que los residuos no se distribuyen por igual en torno al eje de abscisas, es indicativo
de que su distribución no es normal.

Si se encuentran desviaciones de la normalidad, se ha de considerar la posibilidad de


transformar los datos para aproximar la distribución de las variables a la normalidad. Los dos
patrones más comunes son distribuciones uniformes “aplanadas” y distribuciones asimétricas.
En el primer caso, la transformación más común es obtener el inverso. Para el segundo, Tukey
(1977) ha propuesto lo que él denomina “escalera de las transformaciones”, donde señala el
tipo de transformación recomendada según sea la intensidad y dirección de la asimetría. Sin
embargo, hay que tener en cuenta que no hay garantía de que, una vez transformadas las
variables individuales para ajustarlas a la normalidad, todas las combinaciones lineales de las
variables estén normalmente distribuidas. No obstante, sí se puede afirmar que es más
probable que se consiga la normalidad bivariable si todas las variables individuales están
distribuidas normalmente.

De todos modos, el examen de las desviaciones de la normalidad es más complicado que el de


otros supuestos por dos razones: en primer lugar, la variación aleatoria puede resultar
equívoca cuando se analiza una distribución a menos que los tamaños de muestra sean
suficientemente grandes. En segundo lugar, otros tipos de desviaciones pueden afectar y de
hecho afectan a la distribución de los residuos. Así, los residuos pueden parecer que no están
normalmente distribuidos cuando la función de regresión no es la que se ajusta a los datos o
cuando no se cumple el supuesto de homocedasticidad. En este último caso, y,
afortunadamente, la misma transformación que estabiliza la varianza también ayuda a
aproximar los términos de error a la normalidad. Por lo tanto, antes de tomar medidas ante la
violación del supuesto de normalidad, es aconsejable utilizar primero las transformaciones
para estabilizar la varianza, y comprobar mediante el análisis de los residuos si se ha eliminado
el problema de la falta de normalidad.

Para el diagnóstico de la heterocedasticidad se pueden emplear también procedimientos


gráficos como la representación gráfica de los residuos frente a las puntuaciones
pronosticadas. Se puede decir que existe homogeneidad de varianza, si los residuos se
distribuyen por igual para los distintos valores predichos en la variable dependiente. Por el
contrario, si su distribución es diferente, situándose para unos valores muy próximos al eje de
abscisas –baja variabilidad- y para otros, muy distantes – alta variabilidad-, es un indicador de
existencia de heterocedasticidad.

48
Si la representación gráfica de los residuos refleja heterocedasticidad, se pueden plantear una
serie de pruebas de significación estadística, como la prueba modificada de Levene.

Cuando se ha constatado la existencia de heterocedasticidad, existen dos posibles soluciones:


la transformación de los datos de la variable dependiente, que permite utilizar las variables
transformadas en el modelo de regresión, y estas transformaciones pueden a su vez
normalizar la distribución y ayudar a linealizar una regresión curvilínea. No obstante, en otras
ocasiones, cuando la relación entre las variables originales es lineal, puede también ser
necesaria la transformación simultánea de la variable predictora para mantener esa relación
lineal, porque al estabilizar la varianza con la transformación de la variable criterio puede
modificarse la relación de lineal a curvilínea. Por ello, cuando se ha encontrado entre las
variables originales una relación lineal y es necesario corregir la heterocedasticidad, una
alternativa a la transformación de las variables es la utilización de un procedimiento de
estimación de parámetros denominado Mínimos Cuadrados Ponderados, que da menos peso a
aquellos errores correspondientes a aquellas subpoblaciones de la variable dependiente que
tienen mayor variabilidad, y que permite obtener buenos estimadores.

En cuanto al supuesto de independencia, una posible causa de la autocorrelación de los


términos de error es la omisión en el modelo de una o más variables predictoras relevantes
que tienen importantes efectos sobre la variable dependiente. El diagnóstico se realiza
también a partir de los residuos o errores, si los términos de error son independientes, los
residuos fluctuarán en un patrón más o menos aleatorio; si, por el contrario, los residuos
mostraran algún patrón consistente, sería indicativo de la existencia de autocorrelación.
Además del análisis de los residuos, se puede evaluar la autocorrelación de los errores a partir
de pruebas de significación estadística, como la prueba no paramétrica de rachas. Cuando los
términos de error están correlacionados se puede optar bien por modelos de regresión que
incorporen los términos de error correlacionados, o bien identificar e incluir en el modelo la o
las variables predictoras clave que se han omitido en el primer modelo propuesto

Modelos de Análisis de Regresión.

o Número de variables.

En función del número de variables predictoras o explicativas que se incorporen al modelo, se


puede hablar de Regresión Simple, cuando únicamente se incluye una variable predictora, y de
Regresión Múltiple, cuando se incorporan varias variables predictoras. Cuando en el modelo se
incluye varias variables independientes o predictoras y más de una variable dependiente o
criterio, estamos ante una Correlación Canónica.

Cuando estamos ante el caso de más de una ecuación con varias variables independientes
estaremos ante los denominados Modelos Causales o Modelos de ecuaciones estructurales o
Análisis de Vías.

o Tipo de relación que se establece entre las variables.

Se puede optar por un Modelo de Regresión Lineal, y como técnica de análisis por un Análisis
de Regresión Lineal, cuando se observa una relación lineal entre las variables predictora y
criterio, es decir, cuando se observa que a incrementos de la variable predictora se producen
incrementos en la variable criterio –relación lineal directa- o cuando a incrementos en la
variable predictora se observan decrementos en la variable criterio –relación lineal inversa-.

49
Cuando entre las variables se observan relaciones curvilíneas o parabólicas habrá que optar
por los Modelos de Regresión Polinómicos, y como técnica de análisis por el Análisis de
Regresión Polinómico o Curvilíneo. El caso más simple es cuando sólo se incluye una variable
independiente. La ecuación de regresión polinómica incluirá, además de los términos de la
ecuación de regresión simple, otros términos en los que la variable independiente es elevada a
una cierta potencia. Cuando la variable independiente es elevada al cuadrado, la ecuación es
un polinomio de segundo grado, también denominada ecuación cuadrática. Un polinomio de
tercer grado o una ecuación cúbica, cuando la variable independiente es elevada al cubo

El análisis de regresión polinómico se realiza de un modo jerárquico, únicamente se incluye un


término de grado superior si contribuye significativamente a la explicación de la variable
dependiente.

En numerosas ocasiones, la teoría psicológica da algún indicio de la relación que se establece


entre las variables. En otras ocasiones, es el propio diagrama de dispersión construido a partir
de los datos empíricos obtenidos en la muestra el que nos da una idea de la relación existente
entre las variables. Es de especial relevancia tener en cuenta este aspecto, dado que la
aplicación de Modelo Lineal a una situación en la que los datos se ajustan mejor a un Modelo
no Lineal puede llevar a una interpretación errónea de los resultados de la investigación,
concluyéndose que no existe relación entre las variables o que ésta es menor de lo real

50

También podría gustarte