Está en la página 1de 7

UNIVERSIDAD EL BOSQUE

FACULTAD DE ODONTOLOGÍA
UNIDAD DE INVESTIGACIÓN

CONSTRUCCIÓN Y VALIDACIÓN DE ENCUESTAS

Gloria Inés Lafaurie


Profesor Titular
Facultad de Odontología
Universidad El Bosque

INTRODUCCIÓN

Las encuestas son instrumentos muy utilizados en la investigación científica para


valorar diferentes aspectos en una población y son consideradas métodos
cuantitativos ya que tienden a medir de manera cuantitativa cualidades tanto
objetivas como subjetivas de la población. De acuerdo a lo anterior, una encuesta
se realiza generalmente con el objetivo de medir algo.

Para que una encuesta genere una medición cuantitativa (ej. 40 puntos) o pueda
incluir al encuestado en una categoría (ej. Bajo, medio alto) o de incluirlo en un
categoría o excluirlo (ej. Sí, No), se requiere establecer que es lo que realmente se
quiere medir.

Antes de entrar en detalle hay que aclarar algunos conceptos:

Medir: es darle a cada uno de los ítems que están siendo observados un
valor o clasificarlos en una categoría.
Escala: se define como un instrumento de medición, que consiste de un
grupo de preguntas orientadas a manifestar determinados niveles de una
variable que no se puede medir directamente.

Para construir una escala se deben tener en cuenta que las preguntas deben
cumplir los siguientes criterios.

Emplear palabras simples, directas y familiares.


Ser claras y específicas.
No estar escritas con dobles negativos.
Evitar preguntas sesgadas (preguntas que inducen respuesta).
Evitar ser personales o que desencadenen implicaciones negativas,
afecten la autoestima.
Debe estar claro el tiempo (Ej.: en los últimos 5 años).
El nivel de lectura debe ser para un niño de 12 años.
Evitar usar palabras que puedan tener dos significados.
No deben ser largas entre mas cortas tienen mayor validez.

Además pueden ser abiertas o cerradas de acuerdo al tipo de información que se


quiera obtener. Las preguntas abiertas permiten que la persona que la contesta
responda con más libertad y espontaneidad. Las principales ventajas de este tipo
de preguntas son: estimulación del pensamiento, sirven para explorar un tema y
obtener sugerencias, dependen de la memoria del sujeto y son útiles para elaborar
o preparar preguntas cerradas. Las desventajas son: requieren que la persona
sepa escribir, es difícil el análisis estadístico, se pueden presentar respuestas
incompletas o irrelevantes.
En las preguntas cerradas el investigador define que tipo de respuestas son las
opciones. Las ventajas de este tipo de preguntas son: las respuestas son fáciles
de analizar estadísticamente, son fáciles de interpretar, se puede determinar el
grado de compromiso, la intensidad de respuesta y frecuencia. Las desventajas
son: limitan la forma de respuesta y se pueden perder aspectos importantes de la
problemática.

Al diseñar una encuesta cerrada se deben conocer los tipos de escalas más
utilizadas:

1. Escala dicotómica: Utiliza preguntas de respuesta dicotómica.


1 — Sí
2 — No

Pueden ser utilizadas preguntas con varias alternativas de respuesta donde


sólo 1 es verdadera y las otras falsas. Al final se convierte en una escala
dicotómica de acuerdo a la respuesta.

2. Escala ordinal: Ordena alternativas de menor a mayor y puede darse un


puntaje de manera ordenada; 1, 2, 3, 4,5 de acuerdo a la respuesta.

1 Nada
2 Un poco
3 Regular
4 Bastante
5 Mucho

3. Escala tipo Likert tradicional, se hace una afirmación y el participante se


ubica de acuerdo a su percepción.

1. Totalmente de acuerdo
2. De acuerdo
3. No lo sé
4. En desacuerdo
5. Totalmente en desacuerdo
Muchas veces el investigador no tiene un instrumento adecuado para medir un
fenómeno en estudio y debe construir una encuesta para este fin. Una vez
construida una encuesta como todo instrumento de medición debe ser evaluado
en los siguientes aspectos:

Validez
Confiabilidad
Adecuada amplitud de rango
Sensibilidad al cambio
Utilidad

1- Validez
Es el grado en que el instrumento mide aquello que afirma medir. En otras
palabras, se refiere a que el resultado obtenido con una escala corresponda al
fenómeno real y no a otro. Un ejemplo de esto es que si una prueba dice que un
paciente está deprimido y en realidad el paciente sufre de demencia, la prueba no
es válida. Si un instrumento mide una cosa y dice otra, no será válida. Esta
característica también recibe el nombre de exactitud. Existen cuatro tipos de
validez que van a dar suficiente evidencia a cerca de la validez de un instrumento.

a. Validez de Apariencia: Se obtiene mediante la evaluación del instrumento por


un grupo de jueces que dice si el instrumento mide las cualidades deseadas. En
otras palabras consideran si la escala en apariencia, mide lo que dice medir. Por
ejemplo cuando se está evaluando hábitos de higiene oral como factor de riesgo
para caries y las preguntas se enfocan hacia todos los aspectos que podrían medir
el nivel de higiene oral. Los jueces deben ser expertos en el tema, pero también
deben tener cierta experticia en construcción de preguntas y de encuestas. Para
esto generalmente se nombran 3 jueces expertos los cuales deberán contestar un
instrumento desarrollado para tal fin de tal manera que todos los jueces tengan el
mismo instrumento de valoración.

b. Validez de Contenido: Es el grado en que las preguntas de la prueba


constituyen una muestra representativa del universo de conductas que la prueba
intenta examinar. Es evaluado por un grupo de expertos quienes revisan que cada
aspecto esté medido. Los expertos llevan la evaluación a cabo teniendo en cuenta
los siguientes aspectos:

Pertinente: si corresponde o no al tema y objetivo.


Suficiente: si basta para el tema y el objetivo que se pretende evaluar.
Coherente: si tiene conexión lógica con el tema y el objetivo.
Relevante: si el ítem es importante, si se debe tener en cuenta.
Sintaxis: si la ordenación de las palabras y la relación mutua entre las
mismas en la construcción de oraciones es adecuada al objetivo.
Semántica: si las palabra empleadas son adecuadas, en cuanto al
significado de cada frase del instrumento.

c. Validez de Criterio: Es la correlación de la escala con otra prueba que mida lo


mismo, idealmente con el patrón de oro que se ha usado rutinariamente y es
aceptado. Esta validez se divide en dos tipos: validez concurrente y validez
predictiva.

La validez concurrente hace referencia al establecimiento de una correlación entre


el nuevo instrumento y una escala que ya ha sido probada (patrón de oro) para
medir una característica. Las puntuaciones de la prueba y los puntajes obtenidos
con el patrón de oro se obtienen de manera simultanea e indican el grado en que
las puntuaciones de la nueva prueba estiman de manera precisa las cualidades
del individuo al compararlas con las obtenidas con el patrón de oro.

La validez predictiva hace referencia cuando se correlaciona el resultado del


nuevo instrumento con un resultado que ocurrirá en el futuro. Se utilizan para
estimar medidas de resultado en una fecha posterior. Es necesario desarrollar una
ecuación de regresión donde se describe una línea recta que se ajusta mejor para
la estimación de la característica evaluada a partir del nuevo instrumento.

Para evaluar la validez de criterio se utiliza el coeficiente de correlación de


Pearson que mide que tanto se relaciona el nuevo instrumento con el patrón de
oro; si se obtienen valores superiores a 0.8 indica que el nuevo instrumento
funciona casi igual al patrón de oro; si son menores de 0.3 no sirven porque el
instrumento mide cosas totalmente diferentes al fenómeno que se quiere estudiar.
Esto se aplica a todo tipo de escalas o instrumentos tanto de diagnóstico (cuando
evalúo el tipo de comportamiento del niño), evaluación de factores de riesgo
(explorar si esta presente o no el factor de riesgo) y para predicción (si un factor
de riesgo me va a predecir la aparición de caries en un futuro).

d. Validez de Constructo

En algunas situaciones no hay patrón de oro con el cual comparar el nuevo


instrumento, en esos casos hay que evaluar este tipo de validez. Por ejemplo
cuando se va a evaluar el nivel de pobreza como factor de riesgo para el
desarrollo de caries y no existe instrumento de medición, aparece la necesidad de
crear uno; en estos casos como no existe un patrón de oro con quien comparar el
nuevo instrumento para evaluar la validez, se hace necesario construirlo desde la
teoría. De esta manera, el investigador construye un instrumento que evalúe
varias dimensiones de un fenómeno como es el caso de la pobreza que puede
medirse desde varias dimensiones: desde el ingreso personal y familiar, desde el
acceso a bienes y servicios, desde la percepción de la pobreza etc.
La validación del constructo (de lo construido) se realiza a través de pruebas
estadísticas y entre el más utilizado es el análisis factorial que determina si las
preguntas construidas miden el factor que pretende medir. Las preguntas que
miden adecuadamente cada componente debe tener un valor de prueba >0.5. Al
realizar un análisis factorial el investigador logra establecer si las preguntas que
deseaban medir una característica realmente la miden de manera adecuada. En
algunos casos las preguntas no muestran valores adecuados de la prueba y no
logran medir adecuadamente la condición deseada por lo que se debe eliminar del
análisis y no se deberá tener en cuenta para valorar la condición.

2- Confiabilidad o fiabilidad de la encuesta

Es la capacidad de la escala para proveer los mismos resultados en mediciones


sucesivas, bajo las mismas características. Es igual a decir que si se realizan
diferentes mediciones de un suceso estable en las mismas condiciones deben dar
los mismos resultados. Se denomina también como precisión o reproducibilidad.
Se deben evaluar tres aspectos:
a. Consistencia interna: las preguntas o ítems que miden un mismo
aspecto debe estar fuertemente correlacionados comparados con las
preguntas o ítems que miden otro aspecto. La consistencia interna
se realiza dentro de las respuestas que da cada individuo de la
encuesta y pretende establecer la consistencia interna dentro del
individuo. Cuando se tiene un puntaje de correlación muy alto entre
dos preguntas esta diciendo que las dos preguntas están evaluando
el mismo aspecto. Se debe buscar un punto que nos indique si las
preguntas o ítems están midiendo aspectos similares o diferentes de
un mismo fenómeno, esto se hace con medidas de consistencia
interna conocidas también como medidas de homogeneidad. Si la
medida de homogeneidad es alta las preguntas están midiendo el
mismo aspecto y si es bajo están midiendo diferentes fenómenos.
Las medidas más utilizadas son la fórmula 20 de Kuder-Richardson
para escalas dicotómicas y el Alfa de Cronbach para escalas
ordinales y escalas de likert. Se espera que un instrumento que mide
un aspecto como la pobreza las preguntas aún midan diferentes
aspectos se correlaciones de manera adecuada. El valor de alfa de
Cronbach para una prueba se considera satisfactoria por encima de
0.6 y muy satisfactoria por encima de 0.7.
b. Confiabilidad Test-Retest: esta prueba evalúa la estabilidad del
instrumento a lo largo del tiempo. Para medir este aspecto se deben
hacer mediciones repetidas a los pacientes. Hay que tener muy claro
el tiempo en que se van a repetir las mediciones por que si el tiempo
que transcurre entre una prueba y la otra es muy largo seguramente
la condición ha cambiado y si el tiempo es muy corto los puntajes
van a ser iguales porque el paciente recuerda las respuestas; para
eso se recomienda un intervalo entre 15 días y un mes. Las medidas
utilizadas son los coeficientes de correlación de Pearson y el
coeficiente de correlación intraclase; este último es el más
recomendable, ya que el Coeficiente de Correlación de Pearson no
es útil cuando hay más de dos observadores y no mide el grado de
acuerdo; cabe aclarar que el coeficiente de correlación intraclase
mide el acuerdo (concordancia) entre los diferentes evaluadores y se
considerada adecuado por encima de 0.7.
c. Confiabilidad Interevaluador: Mide que tan similares son los puntajes
asignados por diferentes evaluadores a un mismo fenómeno; todo
esto para el caso en que los evaluadores entrevistan a las personas.
Se mide con el coeficiente de correlación intraclase.

3- Adecuada Amplitud de Rango

Es la capacidad del instrumento para medir todas las características del suceso de
interés. Un ejemplo de esto es, si se evalúa calidad de vida debe incluir tanto los
aspectos físicos como emocionales y sociales, entre otros.

4- Sensibilidad al cambio

Es la habilidad que tiene la prueba para encontrar las variaciones o cambios


que presenta el fenómeno. Si se está midiendo dolor, los puntajes obtenidos con
el instrumento deben disminuir cuando hay mejoría del proceso y viceversa.
Para evaluarla se requiere aplicar el instrumento de manera repetida al mismo
sujeto. Se mide por el análisis de covarianza.

5- Utilidad
Es la aplicabilidad del instrumento de medición en la vida real.

Cuando el investigador quiere utilizar un instrumento que ha sido validado en


otra población lo ideal es seguir los siguientes pasos:

1-Selección del instrumento o escala más adecuada: dentro de este paso


hay que evaluarle al instrumento su credibilidad y aplicabilidad cultural, el
tipo de instrumento (predictivo, discriminativo o evaluativo), el diseño de las
preguntas, el tipo de respuesta, los posibles sesgos, la confiabilidad,
validez y sensibilidad al cambio para ver la posibilidad de utilizarlo en la
población de estudio.
2- Traducción: el instrumento debe ser traducido al idioma al que va a ser
aplicado por tres personas diferentes para obtener tres versiones. Estas
personas deben ser bilingües y que su lengua materna sea el español. Las
versiones son evaluadas por un comité de revisión que escogerá la versión
más adecuada. Posteriormente la versión definitiva que el comité escogió
como la más ajustada, se traduce nuevamente al idioma original por dos
personas bilingües cuyo idioma materno sea el del original del instrumento
y tengan dominio del español. Estas personas no deben saber cuál es el
idioma original del instrumento. Las versiones pasan a ser revisadas por el
comité el cuál obtendrá una versión final que se compara con la versión
original, las dos deben ser exactamente iguales. Si no son iguales y existen
diferencias significativas se recomienda enviar la versión traducida al autor
de la escala con el fin de obtener sugerencias y recomendaciones.
3- Prueba piloto: Antes de aplicar el instrumento en un estudio, se recomienda
realizar una prueba piloto con el fin de evaluar aspectos técnicos, mejorar y
corregir todas las deficiencias que se encuentren. Usualmente se aplica el
instrumento a 20 o 30 personas que sean lo mas homogéneas posible
(mismo nivel educativo, la misma patología, etc.), para averiguar por
dificultades específicas con cada una preguntas como si son confusas o
poco claras, el rango de respuestas, el tiempo de diligenciamiento,
necesidad de entrenamiento para aplicar el instrumento y la facilidad de
calificación.
4- Evaluación de Confiabilidad: Se pueden evaluar tres aspectos de acuerdo
al tipo de instrumento:
a. Consistencia interna
b. Confiabilidad Test-Retest
c. Confiabilidad Inter-evaluador
5- Prueba de validez: hay que evaluar los tres componentes:
a. Validez de apariencia
b. Validez de contenido
c. Validez de criterio
6- Sensibilidad al cambio

LECURAS RECOMENDADAS

Denise F. Polit y Bernadette P. Hungler (2000), Metodología de la Investigación en


Ciencias de la Salud de Editorial. McGraw-Hill Interamericana, México. Sexta
edición.

Krieger, N (2002) “Introducción a la epidemiología social”.


http://www.paho.org/spanish/sha/be_v23n1-episocial.htm.

También podría gustarte