Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIÓN
1. Diseño de investigación
○ Causalidad (covariación vs relación causal)
○ Metodología experimental vs no experimental
● Experimentos
- Clásico
- Actual
● Cuasi-experimentos
● No experimentos
○ Validez de una investigación
2. Análisis de datos
1. DISEÑO DE INVESTIGACIÓN
La causalidad se trata de las relaciones causa-efecto entre dos o más variables. Para que exista relación entre dos
variables es suficiente con que exista covariación estadística, pero para establecer relaciones causales entre
variables es necesario que se cumplan estos 3 requisitos simultáneamente:
- Estudios no experimentales (“cajón de sastre” en donde incluimos todo tipo de estudios que no cumplen
alguno de los requisitos anteriores): el investigador selecciona o mide las VD, no existe asignación
aleatoria a las condiciones (puesto que no hay manipulación, no es posible), carecen de un adecuado
control. “Mantra”: no permiten establecer relaciones causales (¡OJO!, causalidad fuerte vs. débil →
Johnson, 2001).
- Dejamos de lado nomenclaturas como observacional o correlacional por solapamiento con técnicas.
Además, correlacional (investigación o diseño de carácter correlacional) es un término que parece estar
confundido en la cultura metodológica de muchos investigadores (Johnson, 2001).
La calidad de una investigación y de las conclusiones que de ella se extraen se operativiza en Psicología y Ciencias
Sociales por medio del concepto de validez o validez experimental, siguiendo la concepción planteada por el grupo
de Campbell (Campbell y Stanley, 1966; Cook y Campbell, 1979; Shadish, Cook y Campbell, 2002).
4 tipos:
2. ANÁLISIS DE DATOS
VENTAJAS
- Menos sujetos
- Eliminar las diferencias entre los sujetos
INCONVENIENTES
- Supuestos más exigentes
- Vigilar los efectos de la repetición
En el ANOVA de un factor de medidas repetidas tenemos a los mismos sujetos a los que les pasamos distintas
condiciones experimentales. Nos podemos encontrar con dos opciones: distintas variables o distintos momentos de
medición. Todos los sujetos pasan por todas las categorías posibles, por lo que las medidas no son independientes
entre sí.
Este tipo de ANOVA presenta las ventajas de que son necesarios menos sujetos y elimina las diferencias entre los
sujetos. No obstante, surgen los inconvenientes de que los supuestos son más exigentes y se deben vigilar los
efectos de la repetición, como el aprendizaje o la fatiga.
ESTRUCTURA DE DATOS
A medida que voy añadiendo condiciones experimentales o momentos de medición, debemos añadir nuevas
columnas en la estructura de los datos; pero nunca filas, dado que son los mismos sujetos en distintas condiciones,
y no distintos sujetos.
DESCOMPOSICIÓN DE LA VARIANZA:
- Variabilidad intergrupos o intrasujeto
- Variabilidad intersujetos
- Variabilidad error
ESTADÍSTICO DE CONTRASTE:
El estadístico de contraste se trata del estadístico F de Fisher, de forma que a medida que sea más grande la F
mayor probabilidad hay de que se haya producido un efecto de las distintas mediciones.
En el caso de que no se cumplan estos supuestos deberemos buscar otras alternativas al estadístico F.
SPSS:
En el SPSS se calcula con el siguiente comando: Analizar -> Modelo Lineal General -> Medidas repetidas.
Metemos el número de niveles que tiene el factor intrasujetos y seleccionamos los distintos niveles en su lugar.
Pedimos un gráfico cuyo eje horizontal sea el factor intrasujeto. En medias marginales estimadas pedimos las
medias para todo, y que compare los efectos principales con la prueba de Bonferroni. Además, en opciones
pedimos los estadísticos descriptivos, estimaciones del tamaño del efecto, la potencia observada y la prueba de
homogeneidad. Por último, aceptamos todo para que el programa lo calcule.
Para la interpretación, en primer lugar, debemos observar las medias de cada grupo de tratamiento. A
continuación, nos vamos a las pruebas de efectos intra-sujetos. Dependiendo de si se cumple el supuesto de
esfericidad deberemos fijarnos en la fila “esfericidad asumida” o alguna de sus alternativas. Para comprobar este
supuesto observamos la tabla de “Prueba de esfericidad de Mauchly”. Si tenemos una significación mayor a 0,05
observamos los efectos intra-sujetos con esfericidad asumida.
Por otro lado, si la significación aquí es menos de 0,05 (estadísticamente significativo) deberemos observar las
pruebas multivariantes para tomar una decisión. En caso de que no fuera significativo, es decir, la significación
de las pruebas multivariantes es mayor a 0,05 deberemos observar nuevamente la tabla de las pruebas de efectos
intra-sujetos. Si es estadísticamente significativo el efecto de la variable, nos vamos a las comparaciones por
pares o parejas, para comprobar entre qué grupos son significativas las diferencias. Además, nos podemos ayudar
con un gráfico para la interpretación. Podemos mirar a su vez la potencia y el eta cuadrado parcial para comprobar
la fuerza de las conclusiones estadísticas.
2. ANOVA DE 2 FACTORES DE MEDIDAS REPETIDAS EN UNO
En el ANOVA de dos factores con medidas repetidas en uno o el ANOVA factorial mixto nos encontramos con
un factor intrasujetos (en el que todos los individuos pasan por todas las condiciones de este factor) y un factor
intersujeto (en el que se dividen los individuos en las distintas condiciones de este factor).
VENTAJAS
- Menos sujetos que grupos aleatorios (2 factores intersujeto).
- Los efectos de aprendizaje, fatiga son menores que con dos factores intrasujeto (MMRR en ambos
factores).
Como ventajas nos encontramos con menos sujetos que con grupos aleatorios o dos factores intersujeto y menores
efectos de aprendizaje y fatiga que con dos factores intrasujeto.
DESCOMPOSICIÓN DE LA VARIANZA
- Varianza asociada al factor A
- Varianza asociada al factor B
- Varianza asociada a la interacción AB
- Variabilidad error, que se divide a su vez en:
- Variabilidad intersujetos S
- Debida a la interacción B x S
ESTADÍSTICO DE CONTRASTE
Definimos la variable intrasujetos y la intersujetos. En opciones le pedimos estadísticos descriptivos, tamaño del
efecto, potencia observada y pruebas de homogeneidad. En medias marginales estimadas metemos todos los
factores y pedimos los efectos principales con la prueba de Bonferroni. Pedimos un gráfico. Le damos a PEGAR,
nunca ACEPTAR. Copiamos la parte del código que no aparece.
En primer lugar, observamos la información descriptiva, para comprobar las medias de cada grupo de tratamiento
en cada momento temporal. Empezamos observando la prueba de Box para analizar si se cumple el supuesto de
esfericidad multi-muestra. Si la significación está por encima de 0,05 entonces se cumplirá el principio de
esfericidad multi-muestra. A continuación, vamos a la prueba de Mauchly para comprobar la esfericidad. Si esto
se cumple, asumimos esfericidad. Si no se cumple el supuesto (significación menor a 0,05) deberemos utilizar
estadísticos F alternativos.
En cuanto a la igualdad de varianzas, debemos mirar la prueba de Levene para comprobar si se cumple el
principio de homocedasticidad. Si la significación de la prueba de Levene es menor de 0,05 no podemos calcular un
estadístico alternativo más robusto en SPSS, por lo que no podremos comprobar el efecto del factor intersujeto. Si
la significación es mayor de 0,05podremos asegurar que se cumple el supuesto de homocedasticidad. En ese caso
iremos a las Pruebas de efectos intersujetos y comprobamos si este factor tiene efectos significativos
(significación menor de 0,05). En caso de que tenga efectos significativos deberemos observar el eta cuadrado
parcial y la potencia observada para ver las garantías de los resultados.
Posteriormente sólo comprobamos las tablas de comparaciones por pares de los factores que hayan salido
significativos, para comprobar cómo son esas diferencias de medias y entre qué grupos. Por último, interpretamos
el gráfico para una mejor visualización de los resultados
TEMA 3. A NÁLISIS DE REGRESIÓN CURVILÍNEA
1. DEFINICIÓN Y USOS
En cursos anteriores hemos estudiado la regresión lineal (y la correlación lineal de Pearson), pero ese es solo un
caso particular de relación entre dos variables.
A veces, buscar una relación lineal nos puede llevar a la conclusión equivocada.
- Ejemplo: Para estudiar el efecto de la ansiedad en el rendimiento en una tarea, medimos ambas variables en
una muestra de 25 participantes. Mediante la correlación habitual de Pearson vemos que r = ,213, r2 =
,045, p = ,306. La relación no es estadísticamente significativa, y la ansiedad solo explica el 4,5% de las
puntuaciones de rendimiento.
Es un resultado extraño, ya que sabemos que ambas variables están normalmente relacionadas. Entonces, ¿qué está
pasando?
En ocasiones, buscar una relación lineal nos puede llevar a realizar una conclusión equivocada, por eso puede ser
importante buscar una relación curvilínea.
Cuando esto ocurre, es decir, hay una relación curvilínea, el gráfico de dispersión muestra que los puntos no se
ajustan a la recta dibujada por la ecuación del modelo lineal. Sin embargo, los puntos dibujan un claro patrón de
relación, pero que no es lineal. La relación curvilínea se representa por una ecuación no lineal que produce una
línea curva. Nos encontramos con varias ecuaciones curvilíneas para ajustarse a diferentes patrones.
Trabajaremos únicamente con un predictor, de forma que r^2 es el tamaño del efecto, que se trata de la correlación
de las variables al cuadrado.
2. ESTIMANDO LA REGRESIÓN CURVILÍNEA
SPSS ofrece 11 modelos distintos, de los cuales 10 son de estimación curvilínea. Nosotros utilizaremos el modelo
cuadrático, que presenta forma de U o de U invertida, dependiendo de las variables que se estudien.
Vamos modelo a modelo observando el análisis. Observamos a cuánto equivale el R cuadrado, para ver que
porcentaje de la varianza de la variable criterio se ve explicada por la variable predictora. Se observa en la tabla del
ANOVA si ese tamaño del efecto es estadísticamente significativo o no. Finalmente nos quedamos con el modelo
que tenga un R cuadrado más alto y una significación más baja, dado que se trata del que mejor predice la variable
criterio. A su vez, en caso de que dos modelos tengan un tamaño del efecto muy similar, deberemos quedarnos con
aquel que resulta más simple.
Por último, nos ayudamos de los gráficos para observar cómo son los datos y se ajustan a los distintos modelos de
regresión.
TEMA 4. REGRESIÓN LOGÍSTICA BINARIA
Más que saber si hay relación entre un factor y la respuesta, interesa cuantificar la relación existente, comparando
lo que ocurre con sujetos expuestos y no expuestos al factor. Estos datos se pueden analizar en primer lugar
mediante la prueba chi-cuadrado. Si ambas variables categóricas están relacionadas, entonces tiene sentido tratar de
cuantificar la relación.
Conviene diferenciar entre tipo de diseños / datos:
- Estudios longitudinales prospectivos o de cohortes: se clasifica a los sujetos en dos grupos dependiendo de
la presencia/ausencia de algún factor de interés. Por ejemplo: el hábito de fumar. Se hace seguimiento
durante un período de tiempo para determinar la proporción de sujetos de cada grupo en los que se da la
respuesta o desenlace objeto de estudio (por ejemplo, infarto).
En este caso, el riesgo de sufrir infarto entre los fumadores es 3 veces más grande que el riesgo de sufrirlo entre los
no fumadores (riesgo relativo). Si los valores se encuentran entre 0 y 1, el riesgo se interpreta en el sentido
contrario, de forma que en lugar de aumentar el riesgo el cociente indica que el riesgo disminuye. Si se trata de un
valor de 1, entonces el riesgo es el mismo estando expuesto que estando no expuesto al factor.
Deberemos establecer intervalos de confianza al 95% para establecer hasta qué punto el riesgo relativo (RR) es
estadísticamente significativo, para lo que el 1 deberá quedar fuera. El criterio es dejar fuera el valor 1 (aquel que
indica una comparación entre proporciones iguales: cociente = 1 → RR = 1”)
- Estudios longitudinales retrospectivos o de casos-controles: se forman dos grupos de sujetos a partir de la
presencia/ausencia de la respuesta o desenlace objeto de estudio (por ejemplo, sujetos sanos frente a
sujetos que han sufrido un infarto), y se hace un seguimiento hacia atrás intentando encontrar información
sobre la proporción en la que aparece en cada grupo un determinado factor de interés (por ejemplo, el
hábito de fumar).
En estos estudios, a partir de las historias clínicas indagamos sobre un potencial factor. Este grupo se
denomina “casos”. Debemos coger también otro grupo de personas que no hayan tenido el resultado. Lo
ideal es componer un grupo que comparta el mayor número de características respecto a los casos, excepto
por el resultado final. Este nuevo grupo se trata de los “controles”. Lo normal es utilizar entre 1-4 controles
por cada caso que incluyamos en el estudio. Cuando el riesgo relativo es inadecuado calcularlo,
calcularemos el Odds Ratio, que se trata de la razón de ventajas o de productos cruzados.
Odds Ratio se trata de una estimación del riesgo relativo cuando trabajamos con diseños retrospectivos o
de casos-control. En este caso, obtenemos que la proporción de fumadores que sufren un infarto es 3,27
veces mayor que la que se registra entre los no fumadores que también sufren un infarto. Si los valores se
encuentran entre 0-1 el riesgo se interpreta en el sentido contrario, de forma que la proporción disminuye.
Si se trata de un valor de 1, entonces el riesgo es el mismo estando expuesto que estando no expuesto al
factor. Deberemos establecer intervalos de confianza al 95% para establecer hasta qué punto el riesgo
relativo es estadísticamente significativo, para lo que el 1 deberá quedar fuera.
2. CARACTERÍSTICAS DEL MODELO
La regresión logística binaria busca pronosticar los valores de una variable dependiente (VD) o criterio dicotómica
a partir de una o más variables independientes (VI) o predictoras, que son categóricas o cuantitativas.
- La VD es dicotómica, definiendo dos grupos. Es la variable cuyos valores se desea pronosticar. Por
ejemplo, presencia o ausencia de una determinada enfermedad, síntoma, recuperación, recaída, etc.
- Clasificamos a los sujetos en una de las dos categorías de la VD: «Sí» o «No». RECOMENDABLE: 0 –
NO (ausencia) / 1 – SÍ (presencia).
Cuando la VD/criterio es dicotómica (toma valores 0 y 1) la regresión lineal no es apropiada porque una variable
dicotómica no puede ajustarse a una distribución normal, sino que se ajusta a una binomial.
Aplicar un modelo lineal llevaría a obtener pronósticos imposibles (menores que 0 y mayores que 1).
La regresión logística por otro lado permite ajustar el modelo a este tipo de respuestas o valores adoptados por la
variable criterio (0/1).
3. REGRESIÓN LOGÍSTICA BINARIA CON SPSS
Para analizar los resultados, en primer lugar, nos fijamos en como están codificadas las variables. Para ello, vamos
a “Codificaciones de variables categóricas”, de forma que la variable que tenga un valor de 0 será la categoría de
referencia, a partir de la cual se realizarán las comparaciones. A continuación, vamos al bloque 1 a la “prueba
ómnibus” y comprobamos la significación, para ver si el modelo tiene valor predictivo. Después, en el “resumen
del modelo” se interpreta el R cuadrado de Nagelkerke, que se trata del porcentaje en que mejora el ajuste
respecto al modelo nulo. A mayor R cuadrado mejor ajuste tendremos.
Posteriormente nos fijamos en la “Prueba de Hosmer y Lemeshow”, que comprueba como de grandes son los
residuos, pero solo se utiliza en regresión multivariada. Luego observamos la “tabla de clasificación”, donde nos
informa del predictor teniendo en cuenta el pronóstico. Observamos únicamente el porcentaje global, que se trata
de la clasificación correcta.
Observamos la tabla “variables de la ecuación” e interpretamos los exponenciales de B, que se trata de la Odds
ratio, la razón de ventajas de la categoría que estoy valorando respecto a la categoría de referencia. Si la
significación es menor de 0,05 entonces podemos asegurar que el coeficiente es estadísticamente significativo
distinto de 1. Y observamos en el intervalo de confianza si el valor de 1 queda fuera.