Está en la página 1de 32

Grado en Psicología

Diseños de Investigación y Análisis de Datos

Unidad didáctica 3. Estudios observacionales e inferencia a partir de


muestras
UD 3. Estudios observacionales e inferencia a partir de muestras .......................................... 3

3.1. Taxonomía de la metodología de investigación según el núcleo y el contexto ................. 4

3.2. Metodología observacional ....................................................................................... 6

3.2.1. Representatividad en los estudios observacionales ................................................ 8

Factores de sujeto en la representatividad .................................................................. 9

Factores de medio y estudio en la representatividad .................................................... 9

3.2.2. Control en los estudios observacionales ............................................................. 11

Factores de sujeto y del medio en el control .............................................................. 11

Factores de estudio en el control ............................................................................. 13

Factores de estudio en el control: problemas con el observador ................................... 15

Factores de estudio en el control: constancia de presentación y deseabilidad social ........ 16

3.2.3. Fiabilidad en los estudios observacionales .......................................................... 18

3.2.4. Diseños observacionales .................................................................................. 18

3.3. Introducción a la inferencia estadística .................................................................... 20

3.3.1. Prueba de significación de Fisher ...................................................................... 21

Significación o valor p ............................................................................................ 23

3.3.2. Prueba de hipótesis de Neyman y Pearson ......................................................... 24

Diferencias entre el planteamiento de Fisher y la propuesta de Neyman y Pearson ......... 25

3.3.3. Errores habituales en interpretación de la significación estadística ......................... 26

Dependencia del tamaño muestral y alternativa bayesiana .......................................... 27

Resumen ...................................................................................................................... 29

Mapa de contenidos ....................................................................................................... 30

Recursos bibliográficos ................................................................................................... 31

2
UD 3. Estudios observacionales e inferencia a partir de
muestras

Según el investigador que intervenga en el núcleo (lo que pretendemos estudiar) o en el


contexto (todo lo que rodea al núcleo), existen cuatro grandes tipos de estudios.

En esta unidad abordaremos aquellos en los que no se interviene ni en el núcleo ni en el


contexto. Estos estudios se denominan naturales o externos, y será necesario hacer un uso
correcto de la metodología observacional para que nuestro estudio posea garantías científicas
de fiabilidad y validez.

Esta ausencia de intervención podría ser considerada, a la vez, su mayor virtud y su defecto. Por
una parte, permite observar la ocurrencia de los fenómenos que pretendamos estudiar de la
manera más natural y menos artificiosa posible, pero, a su vez, no nos permite controlar
lo que está ocurriendo, por lo que podríamos encontrarnos con que no sucede lo que esperábamos
o que ocurren fenómenos que no nos interesan.

En esta unidad, intentaremos responder a cuestiones como las siguientes:

• ¿Qué tipos de estudios existen según la intervención en el núcleo y en el contexto?


• ¿Cómo se registran las evidencias en un estudio observacional?
• ¿Qué factores relacionados con el participante, el medio y el estudio deben considerarse
para garantizar la representatividad?
• ¿Qué son las sesiones? ¿Cómo se muestrean?
• ¿Qué factores relacionados con el control deben considerarse en los estudios
observacionales?
• ¿Qué factores relacionados con el observador deben ser tomados en cuenta?
• ¿Qué factores deben considerarse en el caso de las observaciones no naturales?
• ¿Cómo se evalúa la fiabilidad en un estudio observacional?
• ¿Qué es un diseño observacional?

A pesar de la escasa intervención del investigador en este tipo de estudios, en esta unidad
estudiaremos una serie de medidas que será necesario tomar para garantizar la
representatividad, el control y la fiabilidad a fin de realizar un estudio observacional fiable y con
validez.

En esta unidad también se introducirá la base conceptual de la inferencia estadística, que


es una herramienta clave en la investigación en psicología. Como se explicó en la unidad anterior,
en una investigación es común observar un número limitado de sujetos (muestra) que
idealmente deben ser representativos de todos los sujetos de interés sobre los que se realizan
las hipótesis (población), pero esta muestra sigue siendo un pequeño fragmento del total del
fenómeno de estudio en la realidad, y es necesario tener en cuenta que el azar del muestreo y
los errores asociados pueden problematizar la generalización de las relaciones observadas.
Debido a lo anterior, se recurre a una serie de desarrollos matemáticos de la teoría de la
probabilidad que fundamenten las estrategias de análisis de datos a partir de factores como
el tamaño muestral y la magnitud de lo observado. De esta forma, la estadística inferencial
permite al investigador calcular en qué medida esos resultados muestrales pueden extrapolarse
a la población de la que provienen los sujetos.

3
3.1. Taxonomía de la metodología de investigación según el núcleo y el
contexto

A, B, C…

Núcleo: concepto concreto que pretendemos estudiar. Puede ser una variable o una relación.

Contexto: todo concepto debe tener un contexto para que tenga sentido. Este contexto no
es más que otros conceptos. Es todo lo que rodea al núcleo.

Un primer acercamiento a la bibliografía relacionada con la metodología y diseño de investigación


puede resultar confuso debido a las diferentes taxonomías y nomenclaturas que se utilizan
en cada área de conocimiento científico. Por eso, es necesario aclarar que en esta asignatura se
parte de la distinción —ya presentada en la Unidad didáctica 2— entre núcleo y contexto de la
investigación, y de cómo el nivel de intervención que realizan los investigadores diferencia
entre varios tipos de metodologías y diseños.

Intervención Intervención en el Tipo de estudios (diferentes


Metodología
en el núcleo contexto denominaciones)

Observación natural
No No Observacional
Observación externa

Observación interna
Observaciones de laboratorio
No Sí Estudios de encuestas Selectiva
Estudios correlacionales
Estudios ex post facto

Experimento de campo
Sí No Manipulativa
Cuasiexperimento
(experimental)
Sí Sí Experimento

Tabla 1. Diseños de investigación y tipo de intervención en núcleo y contexto.

4
Viaja

De forma complementaria a las taxonomías y nomenclaturas que se presentan en esta


asignatura también puede resultar de interés para el alumno consultar el artículo de
referencia en este aspecto de León y Montero (2002) titulado «Clasificación y descripción de
las metodologías de investigación en psicología».

Supongamos que estamos interesados en estudiar las conductas de interacción de un grupo de


niños:

• Ejemplo de observación natural (no se interviene ni en el núcleo ni en el contexto):


análisis de las conductas de interacción de unos niños (núcleo) en su aula de Educación
Primaria (contexto). La investigación se lleva a cabo de tal manera que se ocultan las
cámaras en el aula para que los menores no sepan que están siendo observados.
• Ejemplo de observación de laboratorio (no se interviene en el núcleo, pero sí en el
contexto): análisis de las conductas de interacción de niños de Educación Primaria (núcleo)
en una sala habilitada para tal fin con diversos juguetes (contexto) y en la que hay un
cristal unidireccional por el que el investigador puede observar lo que ocurre en el interior
de la habitación.
• Ejemplo de cuasiexperimento (se interviene en el núcleo, pero no en el contexto): se
instruye a la profesora para que interaccione de determinada manera con los menores
(núcleo) en su aula habitual (contexto).
• Ejemplo de experimento (se interviene en el núcleo y en el contexto): se instruye a la
profesora para que interaccione de determinada manera con los menores (núcleo) en una
sala habilitada para tal fin con diversos juguetes (contexto) y en la que hay un cristal
unidireccional por el que el investigador puede observar lo que ocurre en el interior de la
habitación.

Figura 1. Diferentes diseños para investigar las conductas de una muestra de población infantil.

5
3.2. Metodología observacional

Recuerda

Variables según su fuente (Unidad didáctica 2):

• De sujeto: características consideradas propias de cada individuo objeto de estudio.


• De medio: conceptos referidos al ambiente que rodea al participante.
• De factores de estudio: factores introducidos por el hecho de estudiar a los
participantes en un medio determinado. Generalmente asociados a la investigación y
al investigador.

Los estudios observacionales se definen por la manera de recoger las evidencias. Consisten
en apreciarlas mediante inspección sensorial sin intervenir en el núcleo ni en el contexto.

El carácter es natural, es decir, la ausencia de intervención del investigador no implica la


ausencia de factores de estudio, sino que no se influye voluntariamente sobre las variables
de sujeto o medio.

Los estudios observacionales pueden abordar variables o relaciones, pero los primeros son
mucho más comunes, ya que la ausencia de intervención dificulta el estudio controlado de
relaciones.

Ejemplo:

Figura 2. La no intervención no asegura la validez de resultados.

El hecho de que no se intervenga en los factores de sujeto o de medio no garantiza la


validez. Una cámara oculta (factor de estudio) podría estar colocada de tal manera que el
ángulo de visión dejase fuera evidencias de lo que estamos interesados en estudiar.

Cuando a estas investigaciones se las denomina observación natural, se está enfatizando la


ausencia de intervenciones. La única manera de conocer algo con máxima validez externa, sin
alterar su ocurrencia natural, es mediante la utilización de la metodología observacional.

6
Ejemplo:

Figura 3. La potencial reactividad de los sujetos al investigador se tiene que tener en cuenta.

Cualquier contacto con el participante (por ejemplo, haciéndole preguntas o dándole


instrucciones) o cualquier manipulación del contexto por la que se sienta observado (por
ejemplo, nuestra presencia o la colocación de material de grabación) podrían hacer que el
participante modificara su comportamiento.

Sabías que:

Un caso especial de observaciones indirectas son los análisis de contenido, que suponen el
estudio de diarios, cartas o cualquier otro documento de una persona, normalmente ya
fallecida y con cierta relevancia o interés social (poetas, políticos, artistas, etcétera).

Figura 5. No todas las evidencias se pueden registrar en el momento en que están ocurriendo.

Según cómo se registren las evidencias, los estudios observacionales pueden clasificarse así:

• Directos: las evidencias se identifican y registran mientras están ocurriendo.


• Indirectos: las evidencias se registran con posterioridad a cuando ocurren,
aprovechando productos o resultados que estas evidencias hayan dejado en el
ambiente.

7
Ejemplo:

Figura 5. Investigación sobre conductas agresivas.

En un estudio sobre las conductas agresivas de los preescolares en el tiempo de recreo,


nuestras evidencias podrían ser las siguientes:

• Directas: si un investigador anota o graba en vídeo las conductas agresivas


mientras ocurren.
• Indirectas: si se mide la agresividad tras el recreo por las quejas de los
compañeros, las heridas o marcas que pudiesen tener los menores, o mediante el
informe de los profesores.

3.2.1. Representatividad en los estudios observacionales

Para lograr una buena representatividad es imprescindible obtener muestras adecuadas; no


obstante, en algunas circunstancias, si el objeto de estudio y el alcance de las conclusiones que
se pretenden alcanzar son muy limitados, puede no ser necesario realizar un muestreo (aunque
esto no será lo más frecuente en la investigación psicológica, donde habitualmente se busca
extrapolar los resultados a una amplia población).

Ejemplo:

Figura 6. Investigaciones sobre un grupo particular de población.

Si, como psicólogos deportivos, solo estamos interesados en estudiar la toma de decisiones
de los deportistas de nuestro equipo, no necesitaremos llevar a cabo un muestreo para hacer
un estudio observacional, ya que estamos observando a toda la población de nuestro interés
(nuestros atletas), aunque esta circunstancia raramente es lo habitual en la investigación
psicológica.

8
Factores de sujeto en la representatividad
Los aspectos de los participantes estudiados que suelen tomarse en consideración son sus
características y actividades, que, a su vez, forman parte del núcleo o del contexto.

Siguiendo el ejemplo anterior sobre las conductas agresivas de los preescolares en el tiempo
de recreo, podría haberse elegido una muestra de:

• Actividades concretas que pretendemos observar: agresión física, insultos verbales,


etcétera.
• Características del participante: nivel económico de su familia, nivel de estudios de
sus padres, etcétera.

En ocasiones, una vez delimitado qué observar, hay que decidir qué participantes de la
muestra elegida serán observados, de tal manera que podemos hablar de:

• Observación focal: se observa a un único participante en cada sesión.


• Observación multifocal: se observa a más de un participante en cada sesión.

Factores de medio y estudio en la representatividad


Factores del medio en la representatividad

Nota

Aunque es posible, el muestreo de los espacios no suele ser usual; no obstante, el muestreo
del periodo de tiempo es mucho más frecuente (sesiones).

Los principales aspectos del medio que se deben considerar son los espaciales y temporales
respecto a los que el participante actúa. Como en el caso anterior, habrá situaciones en las que
no sea necesario el muestreo de estas condiciones.

Ejemplo:

Figura 7. Contexto espacio-temporal de la observación.

Supongamos que estamos estudiando la cohesión de los miembros de una empresa


determinada. Si estamos interesados en observar la conducta de los trabajadores durante el
descanso del desayuno en la cafetería de la compañía, no será necesario realizar un muestreo

9
ni del espacio ni del tiempo, ya que es posible realizar la observación en su totalidad.
Aunque esto no suele ser lo habitual en investigación psicológica general, donde lo
que se pretende es extrapolar lo observado en la muestra a una población mayor.

Se denominan sesiones los periodos de tiempo en los que se van a observar y registrar los
datos cuando no es posible (o simplemente no nos interesa) recoger evidencias durante todo el
tiempo.

Ejemplo:

Figura 8. La complicación de observar hábitos conductuales.

En un estudio sobre el hábito de fumar, nos podría interesar la conducta del participante
durante una semana. Es evidente que la persona no podrá ser observada continuamente,
por lo que, una vez descartados los periodos en los que no podrá fumar (horas de sueño o
momentos en lugares donde esté prohibido), habría que muestrear las sesiones de
observación que considerásemos pertinentes. También podría tener sentido muestrear los
lugares (por ejemplo, lugares de la casa o lugares de ocio).

En cuanto al muestreo de la sesión, podemos distinguir entre:

• Muestreo intersesional. Hace referencia a la elección del momento en el que se puede


dar inicio a cada nueva sesión de observación (al azar, cada 30 minutos, etcétera).
• Muestreo intrasesional. Hace referencia a la elección del modo de registrar dentro
de cada sesión concreta. Puede hacerse mediante:
o RAUT (registro activado por unidades de tiempo): se utiliza un criterio temporal
para iniciar los periodos de registro.
o RAT (registro activado por transición): los periodos de registro se inician en función
de la aparición o transición de conductas.

Ejemplo:

Siguiendo el ejemplo de eliminación del hábito de fumar:

• Muestreo intersesional: podríamos decidir iniciar al azar 20 sesiones de


observación al día de 10 minutos.

10
• Muestreo intrasesional RAUT: cada sesión de 10 minutos se divide en 2 sesiones
de 5 minutos y, al final de cada periodo de 5 minutos, se anota lo observado.
• Muestreo intrasesional RAT: se anota en la hoja de registro cada vez que la
persona fuma, dentro de las 20 sesiones de 10 minutos que se han establecido.

Factores de estudio en la representatividad

Los factores de estudio de las observaciones no suelen ser muestreados, ya que no forman parte
del concepto planteado, por lo que, más que muestrearlos, lo que se intenta es reducir su
presencia lo máximo posible.

Las medidas más comunes tomadas al respecto están relacionadas con la recogida de datos por
varios observadores. A fin de neutralizar posibles sesgos, se podría decidir asignar al azar
qué observador y qué sesión se registrará.

3.2.2. Control en los estudios observacionales

Al no intervenir en el núcleo ni en el contexto, las posibilidades de control en un estudio


observacional son escasas por definición; no obstante, hay algunas medidas para abordarlo:

• Factores de sujeto y del medio en el control.


• Factores de estudio en el control.

Figura 9. El limitado control de factores en los estudios observacionales.

Factores de sujeto y del medio en el control


Las características relevantes de sujeto y del medio a ellos asociadas pueden ser controladas
utilizando a los participantes como propio control.

11
Ejemplo:

Figura 10. Observación del mismo sujeto a lo largo del tiempo.

Supongamos que estamos estudiando la influencia del estilo educativo de los padres en el
consumo de sustancias en adolescentes. Al usar al participante como propio control,
garantizamos examinar durante toda la investigación al mismo participante con los
mismos padres.

Sabías que:

El estilo educativo de los padres se divide tradicionalmente en tres categorías:

• Autoritario: pobre comunicación e imposición por poder.


• Permisivo: afectuosos y control prácticamente inexistente.
• Democrático: afectuosos con buena comunicación y negociadores. Definen con
claridad los límites.

Si estuviésemos interesados en estudiar dos o más grupos semejantes en cuanto a variables


del contexto (ya sea de sujeto o medio), pero que a la vez resulten diferentes en determinados
valores, habría que hacerlo mediante la equiparación de las variables del contexto, siempre
que ello no altere la ocurrencia natural de las variables que estamos estudiando.

12
Ejemplo:

Figura 11. Equiparación de variables.

Si tuviésemos interés en estudiar la posible influencia del nivel de estudios de los padres en
el desarrollo infantil, podríamos hacer tres grupos con los valores de la variable
predictora (por ejemplo, niveles alto, medio y bajo de estudios de los padres), pero tratando
de que fuesen equivalentes las demás variables que pudiesen estar confundidas con
dicha variable (por ejemplo, situación laboral: activo, desempleado…). Como es evidente, en
esta situación no tendría sentido la adjudicación al azar de las distintas condiciones.

Factores de estudio en el control

Sabías que:

Una de las técnicas más utilizadas en psicología es el uso de cristales unidireccionales, de


manera que las personas de la sala ven un espejo, pero los investigadores situados fuera ven
todo lo que ocurre en la sala.

La presencia del observador puede hacer que los participantes modifiquen su conducta,
motivo por el cual la ocultación es una de las técnicas más importantes en las observaciones
naturales. Esta consiste en la eliminación del investigador u observador y de sus instrumentos de
recogida de evidencias.

13
Ejemplo:

Figura 12. Ocultación del observador respecto al grupo observado.

Si estuviésemos interesados en estudiar el comportamiento de jóvenes estudiantes en las


manifestaciones, el investigador/observador debería fundirse de tal manera en la
marcha que no pudiese ser detectado como tal.

Las características del observador, como su personalidad, género, experiencias, creencias,


etc., podrían hacer que, de estar presentes dos observadores diferentes, cada uno recogiese
los datos de manera distinta, por lo que la fiabilidad en la recogida de datos podría verse
comprometida.

Ejemplo:

Figura 13. Fiabilidad interjueces en observación.

Una de las medidas más utilizadas para controlar los posibles efectos de las características
de los observadores consiste en que, al menos, dos de ellos observen a la vez la
situación de estudio, lo que se conoce como fiabilidad interjueces. El porcentaje de
acuerdo entre ambos será una buena medida de la fiabilidad de la observación.

El uso de instrumentos de recogida de evidencias (grabadora, cámara de vídeo, etc.) también


puede afectar a los datos recogidos. Esto puede controlarse usando los mismos instrumentos
con todos los participantes y durante toda la investigación.

Además, podría ocurrir que cada observador utilizase de manera diferente los instrumentos de
recogida de evidencias, por lo que, en caso de ser complejos o configurables, es recomendable
instruirlos en su correcto uso.

14
Factores de estudio en el control: problemas con el observador
Hay una serie de circunstancias o problemas relacionados con el observador que conviene
siempre tener en cuenta:

• Efecto deriva: a veces, el observador, tras un largo tiempo observando las mismas
variables, comienza a introducir pequeños errores en la observación, de tal manera
que va haciendo progresivamente pequeñas adaptaciones, según su criterio.
• Expectativas: a veces, el observador introduce errores basándose en lo que espera
que ocurra en el estudio que está realizando. Una manera de controlar las expectativas es
el procedimiento del ciego simple, el cual consiste en utilizar un investigador que sepa
observar, pero que no sea consciente de lo que se está estudiando y/o de qué objetivos
e hipótesis tiene la investigación.

Ejemplo:

Figura 14. Distorsiones por expectativas del observador.

Un investigador interesado en las conductas de autorreconocimiento en bebés podría, a partir


de sus expectativas, interpretar conductas estereotipadas como evidencia de
autorreconocimiento en un espejo.

• Reactividad: en el caso de observaciones no naturales (es decir, con intervención del


investigador), es habitual que los participantes cambien su comportamiento como
consecuencia de la presencia del investigador. Para controlar la reactividad, podría
usarse la técnica de la habituación:
o Habituación: consiste en mantener el contacto con los participantes durante un
tiempo prolongado hasta lograr que se acostumbren a la presencia del
investigador y vuelvan a actuar como cuando está ausente.

15
Ejemplo:

Figura 15. Necesario periodo de habituación de la muestra al observador.

Como consecuencia de la reactividad, y haciendo uso de la habituación, si estuviésemos


interesados en estudiar los estilos educativos en una población no occidental estándar, sería
conveniente dejar pasar un tiempo hasta que se comiencen a realizar los primeros
registros.

Factores de estudio en el control: constancia de presentación y deseabilidad


social
En caso de que fuese necesario dar instrucciones o plantear una tarea a los participantes, un
modo de control consistiría en dar exactamente las mismas instrucciones a todos los
participantes.

Ejemplo:

Figura 16. Estudiando conductas cooperativas en distintos grupos de niños.

Supongamos que estuviésemos interesados en estudiar las conductas cooperativas en


niños usando un rompecabezas en una habitación con espejo unidireccional. Una vez los
dejásemos dentro, a todos los grupos habría que transmitirles las mismas instrucciones,
por ejemplo: «Tengo que salir un momento fuera a hacer una cosa, ahí tenéis juguetes por
si os apetece jugar».

16
Nota

Se presentan los efectos reactividad y de demanda como elementos para tener en cuenta
especialmente en observaciones no naturales (situaciones artificiales) porque es donde
normalmente el observador tiene más difícil ocultarse y/o no afectar a lo observado, pero, en
realidad, la presencia del observador o del elemento registrador es un factor clave a
la hora de planificar observaciones, ya sea en entorno natural o en entorno artificial.

Otra circunstancia que conviene controlar en las observaciones no naturales son las
características del observador, ya sea su comportamiento o su aspecto físico. La constancia,
es decir, mantener siempre el mismo comportamiento o aspecto, es la mejor medida en
estas situaciones.

• Efecto demanda o deseabilidad social. En una situación de observación interna o de


observación de laboratorio, el individuo se sabe estudiado y podría ajustar su conducta
a la norma social esperada, o mostrarse reacio e intentar actuar de una manera
contraria a lo que supone que se espera de él. En ambos casos, no se comporta de manera
natural. Una técnica de control para el efecto demanda es la ocultación parcial:
o Ocultación parcial: consiste en no indicar a los participantes qué aspectos
se están estudiando. También es posible el uso de una tarea distractora, que
el participante crea que realmente está siendo observado.

Ejemplo:

Figura 17. Tareas distractoras como estrategia de ocultación parcial.

En una investigación sobre memoria en la que se pretendiese estudiar el nivel de


procesamiento de las palabras (con un test de recuerdo inesperado al final), se podría
comunicar a los participantes que su labor consiste en indicar lo más rápido posible, pulsando
las iniciales, si las palabras que ven son adjetivos, nombres o verbos.

17
3.2.3. Fiabilidad en los estudios observacionales

Nota

En el caso de la fiabilidad interjueces, debe hacerse respecto al ajuste de cada observador


por separado con el sistema de categorías o escala de referencia; es decir, no se puede
admitir como fiabilidad interjueces que ambos observadores hayan consensuado por
acuerdo entre ellos qué es lo que está ocurriendo.

Dada la no intervención ni en el núcleo ni en el contexto en los estudios observacionales, la


evaluación de la fiabilidad de las evidencias registradas se convierte en un modo indirecto,
pero útil, de analizar la validez.

Podemos hablar de dos tipos de fiabilidad:

• Fiabilidad interjueces: cuando las evidencias registradas coinciden en los registros


de dos o más observadores, existen garantías de una adecuada fiabilidad interjueces.
• Fiabilidad intraobservador: cuando las evidencias de un observador consigo mismo
ante una misma situación que se repite coinciden, existen garantías de una adecuada
fiabilidad intraobservador.

También es plausible estudiar la fiabilidad de una investigación mediante las replicaciones.


Uno de los problemas de la replicación es obtener muestras que sean semejantes, dada la
peculiaridad de los estudios observacionales.

3.2.4. Diseños observacionales

Se entiende por diseño el conjunto de acciones planificadas para la obtención de


evidencias sobre un objetivo o hipótesis planteadas. Por tanto, todo diseño debe incluir
acciones referidas a las variables, las cuales deben implicar validez (representatividad y
control).

Nota

Cada estudio observacional puede implicar unas determinadas técnicas de control, pero,
dada su escasa presencia en estos estudios, no reciben nombres especiales como sí ocurrirá
en las metodologías que abordaremos en las próximas unidades.

El diseño, por tanto, tendrá un planteamiento claro de la hipótesis y de las variables


implicadas, el muestreo será representativo y se tomarán las medidas de control oportunas.

18
Respecto al núcleo del concepto estudiado, los diseños observacionales pueden ocuparse tanto
de variables como de relaciones.

Ejemplo:

Figura 18. Investigando hábitos de lectura.

• Diseño observacional con una variable como núcleo: estudio de los hábitos de
lectura en un aula de Educación Primaria.
• Diseño observacional con una relación como núcleo: estudio de los hábitos de
lectura en un aula de Educación Primaria en función de las instrucciones de la
profesora.

Respecto al contexto del concepto estudiado, los diseños se diferencian de acuerdo con el aspecto
temporal en el que se obtienen los datos:

• Diseño longitudinal: los datos se obtienen en diferentes momentos temporales, es


decir, que seguimos a los mismos participantes en el tiempo (por ejemplo, medimos los
hábitos de lectura de unos niños concretos a los 8 años, a los 10 y a los 12).
• Diseño transversal: los datos se obtienen en un solo momento, de forma que hay un
solo contacto con los participantes (por ejemplo, de una sola vez, registramos los hábitos
de lectura de un grupo de niños de 8 años, de otro de 10 y de otro de 12).

Ejemplo:

Figura 19. Diferentes entrevistas de una misma persona o varias entrevistas de diferentes personas.

• Diseño longitudinal: conducta de una persona en sucesivas entrevistas de


trabajo.
• Diseño transversal: conducta de varias personas en una entrevista de trabajo
concreta.

19
También son posibles los diseños observacionales mixtos, en los que una variable es
transversal y otra, longitudinal.

Ejemplo:

Figura 20. Diseños mixtos con diferente consideración de variables.

Siguiendo el ejemplo anterior, podríamos estudiar longitudinalmente los cambios de


actitud de los participantes en sucesivas entrevistas de trabajo y, a su vez, centrarnos
transversalmente en una característica concreta en cada una de las entrevistas, como
la presencia física, colaboración u hora de llegada a la cita.

3.3. Introducción a la inferencia estadística

A menudo, la investigación en psicología (y en otras disciplinas científicas) implica estudiar las


características y relaciones de los diferentes elementos de una muestra para poder
alcanzar una serie de conclusiones sobre esos mismos elementos en la población de la cual
proviene la muestra que se va a estudiar.

Basándose en los datos de un estudio, el experimentador debe establecer, por ejemplo, en qué
medida existe una relación entre los diferentes valores de la variable independiente o de
exposición y los valores de las variables dependientes o resultado. Como ya se presentó
anteriormente, en el contexto empírico, esta relación puede verse enmascarada o
distorsionada por dos tipos de fuentes de error: los errores sistemáticos o sesgos y los errores
variables o aleatorios.

Los primeros son variables de influencia constante (sesgos) que deben tenerse en cuenta y
controlarse al diseñar y ejecutar la investigación, e implican cuestiones ya mencionadas
acerca del control y la representatividad.

Sin embargo, los segundos son los generados por variables ajenas a la investigación y cuya
influencia es aleatoria y difícil de prever. Esta última fuente de error se encuentra relacionada
con la propia variabilidad del proceso de muestreo, así como con la natural de las variables
y su medición. En este sentido, los errores aleatorios dificultan la generalización de los
resultados de los estudios.

La estadística analítica, también denominada inferencial, se presenta como una herramienta


práctica para que el investigador pueda afrontar este último hecho, permitiéndole determinar
en qué grado lo observado en el estudio se puede deber al azar, y/o a las condiciones reflejadas
en las hipótesis de estudio.

20
Figura 21. Estadística inferencial.

Aunque de forma mucho más específica y detallada, esta cuestión se va a tratar en asignaturas
futuras centradas en el uso de técnicas matemáticas para el análisis de datos y creación de
instrumentos de medida, en el presente apartado se presentará un primer acercamiento a su
planteamiento teórico y conceptual. Sus fundamentos son relevantes de forma transversal para
cualquier diseño de investigación donde se utilicen muestras, aunque de especial
relevancia cuando el foco de estudio sea estudiar relaciones entre variables (Álvarez, 2007;
Argimon y Jiménez, 2013).

Figura 22. Análisis de datos para inferencias sobre relaciones entre variables.

3.3.1. Prueba de significación de Fisher

Con respecto a este uso de la estadística, las propuestas que mayor impacto han tenido en la
comunidad científica han sido el proceso de inferencia inductiva a través de pruebas de
significación de Fisher (1925) y el razonamiento hipotético-deductivo mediante pruebas de
hipótesis de Neyman y Pearson (1928). Con frecuencia, ambas posiciones, teóricamente
enfrentadas, se han presentado combinadas en los manuales de estadística bajo el epígrafe
del paradigma del contraste de hipótesis nula en una metodología híbrida (a menudo
denominada por su acrónimo en inglés NHST (null hypothesis significance testing), siendo
este formato el utilizado de forma rutinaria en la investigación y en las publicaciones
científicas (Rodríguez, 2005).

21
Sabías que:

La confrontación del estadístico y biólogo inglés Ronald A. Fisher (1980-1962) con


Neyman y Pearson también existió en el terreno de lo personal, pese a que llegaron a
trabajar en la misma universidad. Por ello, guarda cierta ironía que sus propuestas teóricas
contrapuestas se vean mezcladas en muchos manuales modernos de estadística.

Fisher (1925 y 1991) propone la prueba de significación como una herramienta para aportar
argumentos en un proceso de inferencia inductiva (de lo particular a lo general). Se utiliza
para valorar la credibilidad de una hipótesis concreta a partir de unos datos empíricos. La prueba
en sí implica evaluar la verosimilitud de observar en una población de referencia teórica los
datos descubiertos en la muestra, donde la hipótesis del experimentador no se cumple. Es
decir, la contrastación de la probabilidad de que la diferencia o relación observada en realidad no
exista en la población y lo observado se deba al azar del muestreo.

Ejemplo:

En una investigación sobre la eficacia de tratamientos para la depresión comparamos la


gravedad sintomática postratamiento entre dos protocolos psicoterapéuticos en términos
de puntuación media en el test BDI de los dos grupos de pacientes comparados (un grupo
para cada tipo de tratamiento).

Figura 23. Estudiar la significación estadística de las diferencias entre dos grupos de tratamiento.

En este contexto, la prueba de significación nos serviría para constatar en qué grado la
diferencia de las medias en la puntuación BDI entre los dos grupos es probable que exista
en una distribución de referencia teórica, donde la media de diferencias es 0 (es decir,
que no exista diferencia real en la población) y, por tanto, la diferencia observada en el
estudio se pueda deber a la variabilidad del muestreo y no al tipo de tratamiento
aplicado.

22
Significación o valor p

Sabías que:

Fisher sugirió usar el umbral de significación p < 0,05 basándose en sus estudios en
producción agrícola, pero este valor se ha generalizado como el criterio de significación
para rechazar la hipótesis nula en la mayoría de los usos de la estadística en estudios
científicos en la actualidad (desde la sociología a la biomedicina).

Nota

La prueba de significación puede resultar inicialmente contraintuitiva porque, en vez de


preguntar a la estadística directamente por la probabilidad de la existencia de la relación,
lo que hace es calcular la probabilidad de que no exista lo observado en la población.

Fisher designa esta probabilidad como grado de significación o valor p, y establece que el
criterio a partir del cual se puede considerar ese valor p bajo se debe haber establecido antes
del estudio. Aunque el autor considera este criterio flexible y no necesariamente fijo a todas las
situaciones experimentales, realizó la mención al valor de p > 0,05 como sugerencia. Si p es
menor que el criterio establecido, el experimentador podrá descartar que los resultados
observados se deban al azar; si no, no podrá hacerlo y será necesario seguir investigando.
Fisher advierte de que el valor de significación no puede ser utilizado como una inferencia de la
probabilidad de error en caso de repetir el estudio.

Figura 24. Decisión sobre la hipótesis nula.

Este procedimiento se puede concretar en cuatro pasos (Iraurgi, 2009):

1. Formular una hipótesis nula. Se plantea una hipótesis donde no existe relación entre
las variables del estudio. Es decir, normalmente una hipótesis contraria a la del
experimentador, donde las diferencias observadas se deban al azar y no a la relación entre
variables. Esta es la hipótesis que se operativizará y pondrá a prueba con los datos
recogidos.

23
2. Fijar el nivel de significancia. Es necesario fijar un umbral a partir del cual el valor p,
resultante de poner a prueba la hipótesis nula, permita decidir si esta hipótesis de azar es
creíble o no (es lo suficientemente pequeño). Los valores por debajo del umbral se
tienen que tomar como evidencias en contra de la hipótesis nula, pero no es un
criterio absoluto. Este umbral es la magnitud del riesgo que está dispuesto a asumir el
experimentador de cometer el error de rechazar la hipótesis nula si es verdadera.
3. Elegir una prueba estadística apropiada a la naturaleza de las variables
contrastadas, tales como Chi cuadrado, t de Student, ANOVA, r de Pearson, etc.
(contenidos que se estudiarán en futuras asignaturas).
4. Comparar el valor p resultante de la prueba con el nivel de significancia
preestablecido y tomar una decisión de poder rechazar o no la hipótesis nula (pero no para
aceptarla). Bajo la lógica de Fisher no se consideran más opciones, ya que el proceso solo
sirve para obtener argumentos contra la hipótesis nula.

3.3.2. Prueba de hipótesis de Neyman y Pearson

A partir de la propuesta inicial de Fisher, pero bajo otra perspectiva, Neyman y Pearson (1928)
desarrollaron su propio procedimiento de contrastación de hipótesis estadísticas. Estos
autores parten de la teoría de la probabilidad para establecer la prueba como una regla de decisión
entre dos hipótesis complementarias (rechazar una implica aceptar la otra), siendo esta
consideración del contraste en lo que difieren fundamentalmente con Fisher.

Para ello es necesario plantear las dos hipótesis. Por un lado, la hipótesis nula (H0), que en el
caso de Fisher establece la no relación real entre las variables estudiadas, y, por otro, su suceso
complementario a nivel de probabilidad, la hipótesis alternativa (H1), que se expresa como la
contraria a la H0. En esta situación, todos los valores muestrales posibles pertenecen a uno de
los dos subconjuntos que forman las hipótesis que contrastar. Se debe determinar a cuál de los
dos subconjuntos pertenece la muestra del estudio, por lo que se generan dos regiones de
aceptación de cada una de las hipótesis. La región de aceptación de H1 se denomina región
crítica.

Nota

Las hipótesis nula y alternativa son constructos matemáticos y no se deben confundir


con las hipótesis de estudio. Aunque traten sobre los mismos fenómenos, su aplicación y
enunciación se plantean en momentos diferentes del proceso de investigación.

24
La hipótesis alternativa no se contrasta directamente con la prueba de significación, sino
que se realiza con la H0, ya que es la que se puede operativizar y establecer
matemáticamente, pero, dada su complementariedad, los resultados obtenidos permiten tomar
la decisión de aceptar una y rechazar la otra. Si el valor del estadístico de contraste se sitúa
dentro de la región crítica, se acepta H1 y se rechaza H0, y, si se sitúa fuera, se realiza la
decisión inversa. Sin embargo, esto puede implicar asumir dos errores diferentes según la
decisión que se tome; el de rechazar la hipótesis nula cuando esta es verdadera,
denominado error tipo I con la probabilidad de cometerlo (riesgo α), o el de aceptar la
hipótesis nula cuando la hipótesis alternativa es verdadera, error tipo II con la probabilidad
de cometerlo (riesgo β). En la siguiente tabla se ilustra lo que suponen estos elementos en la
decisión de la prueba. Los riesgos α y β deben haberse establecido a priori según la naturaleza
del estudio y las consecuencias prácticas de cometer cada error.

Decisión de prueba Hipótesis verdadera

H0 H1

Aceptar H0 Decisión correcta Error tipo II


Pr = 1 – α Pr = β
Verdadero negativo Falso negativo

Aceptar H1 Error tipo I Decisión correcta


Pr = α Pr = 1 – β
Falso positivo Verdadero positivo

Tabla 2. Errores y riesgos asociados a la prueba de hipótesis de Neyman y Pearson.

Figura 25. Hipótesis nula o hipótesis alternativa.

Diferencias entre el planteamiento de Fisher y la propuesta de Neyman y


Pearson
Doménech (2013) señala que, debido a que tanto el planteamiento de Fisher como el de
Neyman y Pearson implican ambos la puesta a prueba de la hipótesis nula mediante los mismos
estadísticos y la comparación de resultados con un criterio de decisión —ya sea valor p o región
crítica—, es fácil cometer el error de suponer que en el fondo tratan de la misma
metodología, pero utilizando terminología diferente (mantienen concordancia algebraica).
Respecto a esto, en la siguiente tabla se presentan las diferencias entre los dos procedimientos
destacados por el autor.

25
Prueba de significación (Fisher) Prueba de hipótesis (Neyman y
Pearson)

• Solo se plantea H0. • Se plantean dos hipótesis


• Vía de decisión = Valor p. Establecer complementarias: H0 y H1.
previamente umbral significativo/no • Vía de decisión = región crítica.
significativo. Regla de decisión entre H0 y H1.
• Valor p se interpreta como indicador de Aceptar una rechaza la otra.
credibilidad H0. • Riesgos α y β son probabilidad de
• No se concluye que se acepta H0, solo que cometer errores en la decisión. Error
se puede rechazar o no rechazar según los tipo I o error tipo II.
datos del estudio. • Necesita de muestreo aleatorio y se
• No necesita de supuesto el muestreo basa en la teoría de la probabilidad.
aleatorio. • La lógica del proceso es contraria a la
• Valor p no es una estimación de inferencia inductiva.
probabilidad al repetir el experimento. • Los riesgos α y β representan
• Valor p solo se asocia a un único estudio. frecuencias de errores si se
• El valor p se usa de forma flexible junto repitiera el estudio muchas veces.
con otras informaciones en el proceso de • Para limitar el riesgo β se calcula
inferencia inductiva. previamente el número de sujetos
del estudio según se fijen α, β y la
magnitud de efecto que debe detectar
la prueba.
Tabla 3. Diferencias entre la prueba de significación de Fisher y la prueba de hipótesis de Neyman y Pearson. Fuente:
Doménech, 2013 (adaptación).

3.3.3. Errores habituales en interpretación de la significación estadística

Para Nuzzo (2014), la confusión entre ambos planteamientos ha llevado a generalizar en la


comunidad científica una serie de interpretaciones erróneas acerca del significado y la utilidad
de la significación estadística de las pruebas de contraste de hipótesis nula. Además, esta autora
considera que se ha sobreestimado la importancia del valor p y su relevancia para la
investigación en general, llevándose a obviar en demasiadas ocasiones otros posibles indicadores
de interés, como los referentes a la magnitud del efecto encontrado.

De esta manera, se desvirtúa la propuesta de Fisher de usar la prueba de significación como


una herramienta más en el proceso de descubrimiento científico y no como el procedimiento
definitivo para validar hipótesis.

En relación con esto es necesario señalar cuatro precauciones que se deben tener en cuenta a la
hora de interpretar el resultado de una prueba de significación:

1. El rechazo de una hipótesis nula no sugiere causalidad. Como se ha señalado


anteriormente, esto se consigue a través del adecuado diseño y ejecución del estudio,
asegurando la validez y la fiabilidad de los datos recogidos.

26
2. Un resultado no significativo no demuestra por sí solo que la hipótesis nula sea cierta.
Poner a prueba la hipótesis nula posibilita al investigador valorar si los datos permiten
dudar de la credibilidad de esta hipótesis o si no son suficientes para descartarla.
3. El valor p no es una medida de magnitud del efecto. Un resultado muy significativo
hace referencia a la poca credibilidad de la hipótesis nula y, por tanto, a que el efecto
encontrado no se puede achacar al azar, pero no es una medida de la cuantía de ese
efecto, ya que depende de otros factores como el tamaño muestral.
4. El resultado estadísticamente significativo no implica relevancia práctica. La
significación estadística tampoco informa de la importancia que puede tener ese
resultado encontrado para la toma de decisiones reales. Dependerá de su contexto y
naturaleza, además de otros factores no metodológicos o matemáticos.

Dependencia del tamaño muestral y alternativa bayesiana


Otro elemento relevante a la hora de interpretar los resultados de las pruebas de significación
estadística es ser consciente de su dependencia del tamaño muestral. El número de sujetos
en un estudio afecta a la significación estadística a través del error estándar.

Nota

Al margen de su justificación probabilística, es sencillo ver que, si la muestra es más


grande, menos error se cometerá al generalizar lo observado en la población de la que
proviene, ya que menos diferencia habrá entre el todo y una de sus partes.

El error estándar se entiende como la desviación estándar de un estadístico en todas las posibles
muestras de un tamaño determinado escogidas de una población (Everitt y Skrondal, 2010).
Como este dato suele ser desconocido, se estima a partir de la muestra de datos que se está
estudiando.

En su cálculo, en el denominador siempre va a figurar el número de sujetos, por lo que el


error estándar será más pequeño cuanto mayor sea la muestra, independientemente de otros
factores. Esta estimación es la utilizada en todas las pruebas estadísticas de contraste de
hipótesis nula. Esto provoca que cualquier relación entre variables pueda llegar a ser
estadísticamente significativa (por pequeña que sea), si se cuenta con el número suficiente
de efectivos en la muestra y que, por el contrario, los efectos importantes pasen desapercibidos
cuando se dispone de pocos sujetos en el estudio (Álvarez, 2007).

27
Figura 26. Enfoque frecuentista vs. enfoque bayesiano de la estadística inferencial.

Las dos estrategias presentadas acerca del contraste de hipótesis estadísticas (Fisher y Neyman
y Pearson) se engloban en el denominado enfoque clásico o frecuentista de la probabilidad,
donde se utiliza únicamente la información proveniente del estudio y donde se fijan criterios
de decisión a priori que permanecen inmutables en el proceso. Esta es la perspectiva más común
a la hora de realizar inferencias estadísticas. Sin embargo, existe una alternativa a este enfoque
que, pese a no tener demasiada aceptación e impacto en el ámbito científico general, está
cobrando fuerza en los últimos años. Se trata del enfoque bayesiano, denominado así por
basarse en los planteamientos matemáticos de cálculo de probabilidades condicionadas del
teorema de Bayes, pero su abordaje detallado excede los objetivos didácticos de la presente
materia.

28
Resumen

La metodología observacional se caracteriza por la no intervención ni en el núcleo ni en el


contexto del concepto de estudio de interés. Esta metodología se usa para conocer un
determinado fenómeno con la mínima intervención sobre él, de ahí que se conozca como
observación natural.

Las evidencias pueden recogerse de manera directa (se registran mientras ocurren) o de
manera indirecta (se registran los resultados que hayan producido las evidencias). La
representatividad es imprescindible para hacer un estudio con validez.

Los factores de sujeto que se suelen muestrear tienen que ver con sus actividades (algo que
hace que queramos estudiar) o sus características (nivel de estudios, etc.), y pueden ser
observados de manera focal (solo un participante) o multifocal (varios participantes).

Los factores del medio muestreados serán con frecuencia las sesiones en las que dividiremos
temporalmente lo que está ocurriendo. Habrá que muestrear, por tanto, intersesionalmente
(decidir cuándo comienza la sesión) e intrasesionalmente (decidir cuándo se registra dentro de
la sesión). Las posibilidades de control en un estudio observacional son limitadas al no
intervenir ni el núcleo ni el contexto, pero habrá que tomar las medidas oportunas, así como,
si fuese necesario, el participante como propio control o la ocultación.

Hay una serie de problemas relacionados con el observador que deben tomarse en cuenta,
como el efecto deriva (errores en la recogida de evidencias), las expectativas (errores en lo
que se espera recoger) o, en el caso de observaciones no naturales, la reactividad (cambios por
sentirse observado) o el efecto demanda (comportamiento artificial). La validez se estima
mediante la fiabilidad de las evidencias registradas, pudiendo ser esta interjueces (entre dos
observadores) o intraobservador (consigo mismo).

Según el aspecto temporal en la recogida de evidencias, los diseños observacionales pueden


ser longitudinales (diferentes momentos temporales) o transversales (en un solo momento).

La estadística inferencial es una herramienta fundamental cuando el investigador pretende


extrapolar las conclusiones de las relaciones observadas en su muestra a la población de la
que proviene. Aunque el control en el diseño de investigación puede evitar que el investigador
cometa sesgos sistemáticos, el factor azar del propio proceso del muestreo puede
problematizar la validez de las conclusiones. En este sentido, las propuestas matemáticas que
han tenido más aceptación en la comunidad científica son las denominadas frecuentistas o
clásicas, que realizan una estimación a partir de los datos muestrales: prueba de significación
(Fisher) y prueba de hipótesis (Neyman y Pearson). Aunque presentan diferencias en la base
lógica de la que parten (inductiva frente a hipotética-deductiva), ambas ponen a prueba y
operativizan la hipótesis nula (verosimilitud o probabilidad de que la muestra provenga de una
población donde no exista la relación observada, y esta se deba al azar del muestreo). Pese a la
gran aceptación de las pruebas de significación, se ha generalizado una serie de errores a la
hora de interpretarlas correctamente: no implican causalidad, no señalan la magnitud del
efecto, no se acepta la hipótesis nula y no implican relevancia práctica. También es necesario
señalar lo dependientes que son estas pruebas del tamaño de la muestra.

29
Mapa de contenidos

30
Recursos bibliográficos

Bibliografía básica

Macía, A., Moreno, E., Reales, J. M., Rodríguez-Miñón, P. y Villarino A. (2014). Diseños de
investigación y análisis de datos. Sanz y Torres.

Martínez, R. y Moreno, R. (2014). Cómo plantear y responder preguntas de manera científica.


Síntesis.

Moreno, R., Martínez, R. y Chacón, S. (2000). Fundamentos metodológicos en psicología y


ciencias afines. Pirámide.

Navas, M. J. (2001). Métodos, diseños y técnicas de investigación. UNED-Universidad Nacional


de Educación a Distancia.

Bibliografía complementaria

Álvarez, R. (2007). Estadística aplicada a las ciencias de la salud. Díaz de Santos.

Argimon, J. M. y Jiménez, J. (2013). Métodos de investigación clínica y epidemiológica. Elsevier


España.

Arnau, J., Anguera, M. T. y Gómez, J. (1990). Metodología de la investigación en ciencias del


comportamiento. Universidad de Murcia.

Delgado, A. R. y Prieto, G. (1997). Introducción a los métodos de investigación de la psicología.


Pirámide.

Doménech, J. M.ª (2013). Fundamentos de diseño y estadística. Signo.

Everitt, B. S. y Skrondal, A. (2010). The Cambridge Dictionary of Statistics. University Press.

Fisher, R. A. (1925). Statistical methods for research workers. Oliver and Boyd.

Fisher, R. A. (1991). Statistical methods experimental design and scientific inference. Oxford
University Press.

Iraurgi, I. (2009). Evaluación de resultados clínicos: entre la significación estadística y la


relevancia clínica. Norte de Salud Mental, 8(33), 94-108.
https://dialnet.unirioja.es/servlet/articulo?codigo=4830140

León, O. G. y Montero, I. (2015). Métodos de investigación en psicología y educación. Las


tradiciones cuantitativa y cualitativa. McGraw-Hill.

Montero, I. y León O. G. (2002). Clasificación y descripción de metodologías de investigación


en psicología. Revista Internacional de Psicología Clínica y de la Salud, 2(3), 503-508.

Neyman, J. y Pearson, E. S. (1928). On the use and interpretation of certain test criteria for
purposes of statistical inference. (Part I). Biometrika, 20(1-2), 175-240.
https://doi.org/10.1093/biomet/20A.1-2.175

Nuzzo, R. (2014). Scientific method: Statistical errors. Nature, 506, 150-152.


https://doi.org/10.1038/506150a

31
Rodríguez, E. (2005). Estadística y psicología: análisis histórico de la inferencia estadística.
Revista PsicologiaCientifica.com, 7(4). https://www.psicologiacientifica.com/estadistica-y-
psicologia/

Otros recursos

ACME 2.0. (s. f.). Anumerismo, ciencia, método y escepticismo. [Vídeo]. YouTube.
https://www.youtube.com/channel/UCvN6oek2pgb32uyCi_2L4YA

Montero, I. y León, O. G. (2002). Clasificación y descripción de metodologías de investigación


en psicología. Revista Internacional de Psicología Clínica y de la Salud, 2(3), 503-508.
http://www.aepc.es/ijchp/articulos_pdf/ijchp-53.pdf

Rodríguez, E. (2005). Estadística y psicología: Análisis histórico de la inferencia estadística


http://www.psicologiacientifica.com/estadistica-y-psicologia

32

También podría gustarte