Está en la página 1de 35

Suscríbete a DeepL Pro para poder traducir archivos de mayor tamaño.

Más información disponible en www.DeepL.com/pro.

Consulte los debates, las estadísticas y los perfiles de los autores de esta publicación en: https://www.researchgate.net/publication/347729328

Un Meta-análisis Exhaustivo de la Prueba Poligráfica de Preguntas de


Comparación

Artículo en Applied Cognitive Psychology - Diciembre 2020


DOI: 10.1002/acp.3779

CITACIONE LEA
S
1,006
14

3 autores:

Charles Honts Steven Thurber


Universidad Estatal de Boise Universidad de Minnesota Ciudades Gemelas
79 PUBLICACIONES 1.731 CITAS 176 PUBLICACIONES 1 .036 CITAS

VER PERFIL VER PERFIL

Mark Handler

39 PUBLICACIONES 227 CITAS

VER PERFIL
Todo el contenido de esta página fue cargado por Steven Thurber el 07 de enero de 2021.

El usuario ha solicitado la mejora del archivo descargado.


ARTÍCULO ESPECIAL

Un meta-análisis exhaustivo de la prueba poligráfica de


comparación de preguntas

Charles R. Honts 1 | Steven Thurber2 |Mark Handler3

1Departamento de Ciencias Psicológicas, Boise


State University, Boise, Idaho, EE.UU. Resumen
2Childand Adolescent Behavioral Health Realizamos un meta-análisis sobre la prueba poligráfica forense más comúnmente
Services, Minnesota Department of Human
utilizada, la Prueba de Preguntas de Comparación. Captamos tantos estudios
Services, Saint Paul, Minnesota, EE.UU.
3Converus, Inc., Lehi, Utah, EE.UU. como fue posible utilizando criterios de inclusión amplios. Los datos y los posibles
moderadores se codificaron a partir de
Correspondencia
Charles R. Honts, Departamento de Ciencias 138 conjuntos de datos. El tamaño del efecto metaanalítico, incluidos los resultados
Psicológicas, Boise State University, 1910 no concluyentes, fue el siguiente
University Drive MS-1715, Boise ID 0.69 [0.66, 0.79]. Encontramos efectos moderadores significativos. En particular, el
83725-1715, EE.UU.
Correo electrónico: chonts@boisestate.edu nivel de motivación tuvo una relación lineal positiva con nuestras medidas de
resultados. El análisis de la ganancia de información de los resultados del CQT
que representaban la precisión media mostró un aumento significativo de la
información sobre la detección del engaño interpersonal en casi toda la gama de
índices básicos. Nuestros resultados sugieren que el CQT puede ser preciso, que
los estudios experimentales son generalizables y que no se detectó ningún sesgo de
publicación. Discutimos las limitaciones de la literatura de investigación de campo y
los problemas dentro de la profesión poligráfica que disminuyen la precisión de
campo. Sugerimos algunas soluciones posibles.

KE Y W O R D S
1 | INTRODUCCIÓN prueba de comparación de preguntas, detección
Partes de estos hallazgos del engaño, polígrafo,
se presentaron detección
como ponencia (Honts &psicofisiológica
Thurber, 2019a) en la
reunión anual de la American Psychology Law Society, Portland, Oregón, Estados Unidos. Los
del engaño
autores d e s e a n agradecer a Adela Anderson su ayuda en la edición del manuscrito
La mentira es un comportamiento humano omnipresente. En un finalizado.

estudio ya clásico, DePaulo et al. (1996) informaron de que los


estudiantes universitarios mentían dos veces al día en sus
interacciones (conversaciones que duraban más de 10 minutos) con
otras personas, es decir, en aproximadamente un tercio de sus
interacciones diarias. DePaulo et al. (1996) también informaron de
que los estudiantes universitarios mentían al 38% de las personas
con las que interactuaban. Investigaciones posteriores han
demostrado sistemáticamente la alta frecuencia y ubicuidad de la
mentira (Hartwig y Bond, 2014). Aunque muchas de estas mentiras
son triviales, evidentemente muchas no lo son y, si tienen éxito, las
mentiras pueden tener efectos devastadores en las relaciones, las
sociedades, el empleo, la justicia penal, la política, la salud pública y
la seguridad nacional (Granhag y Strömwall, 2004).
La costumbre de mentir podría no ser tan grave si las personas
pudieran detectar las mentiras entre sí. Desgraciadamente, un
importante corpus de
Recibido: 10 de junio de Revisado: 4 de diciembre Aceptada: 8 de diciembre deUna respuesta a la escasa precisión en la detección del engaño
2020
La de las
investigación indica que 2020personas normales tienen
2020 un sesgo
interpersonal es buscar una solución en la tecnología. Uno de los
DOI: 10.1002/acp.3779
hacia la verdad (es decir, tienden a juzgar a las personas como
enfoques tecnológicos más antiguos para la evaluación de la
veraces) y sólo son precisas en un 54%. Además, los
credibilidad es el uso de mediciones fisiológicas para hacer
profesionales (por ejemplo, los agentes de policía) encargados de
inferencias sobre la credibilidad de las declaraciones de las
juzgar la credibilidad no son más precisos, ya que muestran
personas (Munsterberg, 1908). En Estados Unidos, estas pruebas
aproximadamente la misma precisión pero con un sesgo hacia la
se conocen como pruebas poligráficas. Para una historia del
mentira (tienden a juzgar a las personas como mentirosas). Los
desarrollo de las pruebas poligráficas, véase Trovillo (1939a,
resultados de las investigaciones que indican una precisión
1939b). Raskin (1986) y Raskin y Honts (2002) proporcionan
deficiente en la detección del engaño interpersonal parecen ser
descripciones del desarrollo de la investigación científica moderna
ciencia bien establecida y se remite a los lectores interesados a
sobre la prueba poligráfica forense más comúnmente utilizada, la
Vrij, Mann, et al. (2008) para una visión general y a Hartwig y
Prueba de Comparación de Preguntas (CQT).
Bond (2011, 2014) para metaanálisis.

Appl Cognit Psychol. 2021;1-17. wileyonlinelibrary.com/journal/acp 2020 John Wiley & Sons, Ltd. 1
2 HONTS ET AL.

tribunales de Finlandia, Noruega, Suecia (Meijer & von Koppen, 2008)


Las pruebas poligráficas son pruebas psicológicas que se
y Lituania (Kraujalis et al., 2007). En Asia, los resultados de las
utilizan en todo el mundo como herramienta de selección en las
pruebas poligráficas son admisibles en China en casos civiles pero
fuerzas del orden, la seguridad nacional y el empleo privado. Las
no penales (Guodong, 2020). En Sudamérica, los resultados de las
pruebas poligráficas también se emplean ampliamente como
pruebas poligráficas son admisibles en Colombia (Bermúdez y Arias,
pruebas forenses en investigaciones y procedimientos judiciales. La
2011).
mayor asociación profesional de examinadores poligráficos, la
A pesar de la amplia aplicación de las pruebas poligráficas y del
American Polygraph Association (APA), cuenta con más de 2800
importante papel que desempeñan en la seguridad nacional, la
miembros de 58 países (APA, 2019a). Las estimaciones indican que
medicina forense y la justicia penal en todo el mundo, las pruebas
hay más de 8000 examinadores poligráficos operando solo en
poligráficas han recibido relativamente poca atención en los últimos
China (Zhang, 2011). Mientras que los críticos del polígrafo (por
años.
ejemplo, Iacono & Ben-Shakhar, 2019) reconocen que el polígrafo
se utiliza en algunos países fuera de los Estados Unidos, a menudo
no reconocen el amplio uso internacional del polígrafo. Una breve
serie de búsquedas en línea reveló examinadores poligráficos
residentes en 65 países, con 24 escuelas de formación reconocidas
profesionalmente y 12 organizaciones profesionales, todas con
membresías internacionales. Hemos proporcionado documentación
del uso internacional del polígrafo en nuestra información
suplementaria Archivo A (Datos S1).
Con respecto al uso de los resultados de las pruebas
poligráficas en los tribunales de justicia, existe una gran variabilidad.
En los Estados Unidos, las pruebas poligráficas son admisibles en los
tribunales de justicia en aproximadamente la mitad de los estados
bajo estipulación (Iacono & Ben-Shakhar, 2019). Desde 1975, el
Estado de Nuevo México ha permitido la admisión general, sin
estipulación, de los resultados de las pruebas poligráficas bajo la
Regla de Evidencia de Nuevo México 11-707 (Raskin, 1986,
también ver, Lee et al., v. Martínez et al., 2004 para una
reafirmación de la admisibilidad bajo el estándar Daubert). El sitio
Los tribunales federales de EE.UU. también pueden admitir los
resultados de las pruebas poligráficas a discreción del juez (EE.UU.
contra Scheffer, 1998) en virtud de las normas del caso Daubert
contra Merrell Dow Pharmaceuticuals (1993). Más allá de la cuestión
de la admisibilidad de las pruebas poligráficas en los juicios, en la
práctica se utilizan en todos los sistemas de justicia penal de
muchos países para influir en las decisiones sobre la continuación
de la investigación de posibles sospechosos, la decisión de
interrogar a los sospechosos, la decisión de imputar delitos y en las
audiencias de sentencia. Además, las pruebas poligráficas se
utilizan en unos pocos países para tomar decisiones sobre la
continuación o modificación de las condiciones de tratamiento,
libertad condicional o libertad vigilada de personas condenadas por
delitos sexuales (Grubin et al., 2019).
Al igual que en Estados Unidos, la situación del polígrafo en los
tribunales internacionales es variada. Parece que en la mayoría de
los países las pruebas poligráficas se utilizan principalmente como
una herramienta de investigación forense y de seguridad. Sin
embargo, hay varios países que permiten la admisión de los
resultados de la prueba poligráfica como prueba en sus tribunales
de justicia. Más recientemente, Bélgica (Philippe, 2020) ha
determinado que los resultados de los exámenes poligráficos CQT
pueden ser utilizados como prueba en casos penales. Los
resultados de las pruebas poligráficas son admisibles en Polonia
desde 1976 (Widacki, 2007). En Europa, también se observa que en
unos pocos casos los resultados del polígrafo se presentaron en
HONTS ET AL. 3
Kircher et al. (1988), Raskin et al. (1997), Iacono y Lykken (1997),
atención en la psicología académica y, a menudo, esa atención ha
National Research Council of the National Academy of Sciences
sido en forma de comentario negativo. La mayor parte de la
(NRC) (2003), Honts (2004), Vrij, Mann, et al. (2008); APA (2011); y
investigación poligráfica publicada se ha centrado en usos
Raskin et al. (2014). Hay variaciones entre las revisiones, pero en
forenses de las diversas técnicas poligráficas. Hay dos familias
general se obtuvieron estimaciones de precisión superiores al 85%.
cualitativamente diferentes de pruebas poligráficas usadas en la
aplicación forense. La primera familia de pruebas está diseñada
para detectar información oculta. Estas pruebas se conocen como
Pruebas de Conocimiento de Culpabilidad o Pruebas de
Información Oculta. Aunque estas pruebas tienen buenas
cualidades psicométricas y han demostrado ser precisas en
contextos experimentales, su precisión nunca se ha establecido en
contextos de campo en los que raramente se dan las condiciones
previas necesarias (Podlesny, 1993), y en los que hay una falta
abyecta de teoría sobre qué detalles de una escena del crimen es
probable que se recuerden (Honts, 2004). Además, los datos de
campo existentes indican altas tasas de falsos negativos (Elaad et
al., 1992; y revisiones de Honts, Raskin, et al., 2008 y Vrij, 2008).
Japón es el único país donde el CIT se aplica ampliamente en
investigaciones criminales (Matsuda et al., 2019). En Japón, entre
80 y 100 examinadores realizan unas 5000 pruebas al año (Hira &
Furumitsu, 2002; Matsuda et al., 2019). Aunque 5000 pruebas
podría parecer un número relativamente grande de pruebas que
debe contrastarse con el número de actos delictivos investigados.
En 2018 se investigaron 817 338 actos delictivos (Osumi, 2019). Por
lo tanto, suponiendo que se administraron 5000 exámenes CIT,
entonces el CIT se utilizó en solo el 0,6% de los casos criminales
en Japón en 2018. Esto indica que el uso del CIT es
extremadamente raro incluso en el único país que se centra en el
uso forense en las pruebas de información en investigaciones
criminales.
En todo el mundo, la prueba poligráfica más utilizada, el
Compari- son Question Test (CQT), adopta un enfoque directo
para la evaluación de la credibilidad forense mediante la
formulación de preguntas acusatorias sencillas. Honts y Thurber
(2019b) señalaron recientemente que el CQT se presenta en
diversas variantes con características generalmente comunes.
Durante la prueba, se monitoriza la fisiología autonómica del sujeto
(normalmente, la respiración, la actividad electrodérmica, la
presión arterial relativa y, a menudo, la activi- dad vasomotora
periférica) mientras el sujeto responde a una serie de preguntas.
Hay dos categorías de preguntas críticas (normalmente tres de
cada) en la serie. Las preguntas relevantes son preguntas
semánticamente sencillas que abordan directamente las
cuestiones investigadas. Las preguntas de comparación se diseñan
y presentan de forma que cada sujeto mienta, o al menos dude de
su veracidad, al responderlas durante la prueba. Se espera que las
respuestas fisiológicas de los sujetos muestren una interacción
cruzada completa entre su estado de culpabilidad y el tipo de
pregunta crítica. Es decir, se espera que los sujetos que son
engañosos a las preguntas rele- vantes muestren mayores
respuestas fisiológicas a las preguntas relevantes en comparación
con las preguntas de comparación. Se espera que los sujetos
inocentes que dicen la verdad a las preguntas relevantes muestren
el patrón opuesto, con respuestas fisiológicas mayores a las
preguntas de comparación que a las preguntas relevantes.
A lo largo de los años, la bibliografía de investigación sobre CQT
ha sido objeto de varias revisiones. Típicas de esas revisiones son:
4 HONTS ET AL.

argumentos que las críticas planteadas acerca de la investigación


Sin embargo, sólo una de esas revisiones utilizó técnicas
experimental sobre la detección del engaño interpersonal que fueron
metaanalíticas para examinar las variables moderadoras (Kircher et
un factor motivador para uno de los metaanálisis publicados por
al., 1988). Kircher et al. (1988) muestrearon sólo experimentos y
Hartwig y Bond (2014).
analizaron únicamente 14 estudios. El reducido número de estudios
Hartwig y Bond (2014) revisaron las preocupaciones declaradas
considerados por Kircher et al. (1988) reflejaba el tamaño de la
por la validez externa de la investigación sobre la detección del
literatura experimental en aquel momento y sus criterios de
engaño interpersonal.
inclusión. Encontraron efectos moderadores significativos de los
subproyectos (estudiante frente a otro), los incentivos (mínimos
frente a más fuertes) y la política de decisión (campo estándar y
otro). Las tres variables resultaron ser predictoras de la precisión,
pero las tres mostraron altas covariaciones dentro de los estudios y
no se informó de los análisis que examinaron su asociación relativa
con la precisión. Así pues, los efectos moderadores de Kircher et al.
(1988) son confusos y difíciles de interpretar.
Lamentablemente, todas las revisiones anteriores pueden
criticarse por la elección selectiva de estudios y, con la única
excepción de Kircher et al. (1988), por la falta de escrutinio
metaanalítico. No obstante, los revisores llegaron a veces a
conclusiones que hipotetizaban o incluso suponían potentes efectos
moduladores. La reciente publicación de Iacono y Ben-Shakhar (2019)
es particularmente atroz en ese sentido. Iacono y Ben-Shakhar (2019)
centran su revisión en la revisión del National Researc h Council of
the National Academy of Sciences (NRC) (2003) sobre las pruebas
poligráficas y ulti- mamente concluyen: "En 2003, la National Academy
of Sciences concluyó que las pruebas poligráficas tenían una base
científica débil y una tasa de error desconocida. El análisis de las
investigaciones realizadas en los últimos 15 años indica que estas
conclusiones siguen siendo válidas" (p. 86). Iacono y Ben-Shakhar
(2019) basan su conclusión en las siguientes líneas de
argumentación: (1) Muchos autores han tergiversado el análisis de la
NRC indicando una alta precisión para el CQT. (2) Un experimento
mental, que Iacono y Ben- Shakhar (2019) tratan como evidencia,
que muestra un posible conjunto de factores que podrían dar lugar a
que una prueba con azar produjera una alta precisión en un estudio.
(3) Un ataque a los lugares donde se ha publicado la investigación
poligráfica más que a la calidad de la investigación. (4) Un amplio
rechazo de los estudios experimentales que proporcionan un índice
útil del CQT en la aplicación. (5) Una suposición implícita que la
contingencia asociada con el resultado de un examen CQT es un
moderador poderoso de la exactitud de la prueba. Por último, (6)
una afirmación de que existe una falta de teoría subyacente a la
prueba. Iacono y Ben-Shakhar (2019) afirman que estos argumentos
son hechos, pero la mayoría son especulaciones sin fundamento, y
merecen un examen crítico y empírico. Esos argumentos se han
analizado en otro lugar y se ha determinado que carecen de mérito
(Honts & Thurber, 2019a, 2019b).
Los argumentos 3, 4 y 5 de Iacono y Ben-Shakhar (2019) afirman
que la precisión y el lugar de publicación están correlacionados y,
en general, descartan la investigación experimental por no ser
generalizable al CQT en aplicaciones de campo. Estos argumentos se
formulan como si fueran afirmaciones de condiciones de hecho, pero
se presentaron sin evi- dencia empírica. Sin embargo, estas
cuestiones de validez eterna representan variables moderadoras
potenciales para el metaanálisis. Curiosamente, los argumentos 3, 4
y 5 de Iacono y Ben-Shakhar (2019) son algunos de los mismos
HONTS ET AL. 5
identificaran moderadores significativos, los usuarios finales de los
Esa revisión contenía muchas similitudes sorprendentes con las
entornos aplicados dispondrían de mejor información en la que
críticas a la detección psicofisiológica del engaño, con
basar sus juicios sobre el peso que se debe aplicar a los resultados
preocupaciones sobre los fuertes efectos moderadores del lugar
de las pruebas CQT en sus diversas aplicaciones. La existencia de
experimental, la población de sujetos y la fuerza de la contingencia
moderadores significativos también proporcionaría una guía para
del resultado, así como la inadecuación de la teoría. Har twig y
las personas que llevan a cabo investigaciones sobre cómo
Bond realizaron un meta-análisis de la detección del engaño
aumentar la eficacia de las pruebas CQT.
interpersonal para abordar las preocupaciones sobre la limitada
validez externa de la investigación de la detección del engaño. En
concreto, abordaron las siguientes variables moderadoras
potenciales: antecedentes demográficos del mentiroso (estudiante,
otro), motivación para mentir (ninguna, moderada, alta), entorno
social (monólogo, entrevista, interacción), medio de engaño (cara
a cara, otro), estado afectivo (emoción fuerte, sin emoción) y
contenido de la mentira (sentimientos, hechos). Hartwig y Bond (2014)
informaron de resultados no significativos para todas las posibles
variables moderadoras. Hartwig y Bond (2014) concluyen: "El
principal hallazgo de nuestro análisis es que la detectabilidad de la
mentira se mantiene estable en todos los contextos. En particular, el
hallazgo sobre la validez externa refleja los de los metaanálisis que
han comparado la investigación de laboratorio con la investigación
de campo en otros dominios" (p. 667).

2 | OBJETIVOS DEL PRESENTE ESTUDIO

Al igual que Hartwig y Bond (2014), nuestro objetivo principal era


abordar las preocupaciones sobre la validez externa de la
investigación sobre la detección psicofisiológica del engaño. Un
interés secundario era proporcionar una evaluación meta-analítica
de la capacidad del CQT para detectar el engaño. También nos
motivó el hecho de que hubo un aumento dramático en la
investigación del CQT desde la publicación del informe del NRC
(2003). Nuestro enfoque consistió en hacer que nuestros criterios
de inclusión fueran lo más amplios posible para poder probar toda
la gama de efectos potenciales de una serie de variables
moderadoras que los críticos han dicho que son importantes y
también evitar cualquier sugerencia de sesgo en nuestro muestreo
de casos. Nuestros amplios criterios de selección se adoptaron a
sabiendas de que incluiríamos estudios que, según revisores
anteriores, tenían métodos subestándar. Nos dimos cuenta de que
esta decisión probablemente tendría un impacto en nuestra
estimación del tamaño del efecto. Sin embargo, nos centramos en
la inclusión del mayor número posible de estudios para poder
examinar la gama más amplia posible de nuestras variables
moderadoras prospectivas en nuestra evaluación de la validez
externa.
Como en el caso de Hartwig y Bond (2014), este metaanálisis
puede tener dos resultados. En primer lugar, puede que los
críticos tengan razón y que haya moderadores que estén
fuertemente asociados con la precisión de las pruebas poligráficas
CQT. Puede ser que en el mundo real las pruebas CQT sean más
o menos precisas que en el laboratorio. Otra posibilidad es que la
detección psicofísica del engaño se mantenga estable frente a una
serie de posibles variables moderadoras, de forma similar a los
hallazgos de Hartwig y Bond (2014). Como señalaron Hartwig y
Bond (2014), las implicaciones de estos dos resultados para la
investigación y la aplicación son bastante diferentes. Si se
6 HONTS ET AL.

fuentes de información disponibles antes de realizar la prueba. Una


la validez externa de sus paradigmas experimentales. Sin embargo,
de ellas es la decisión interpersonal de credibilidad basada en el
si se descubre que la exactitud del CQT es estable a través de un
comportamiento manifiesto del individuo durante una interacción o un
rango de variables moderadoras, o sólo se ve débilmente afectada
interrogatorio formal. Por desgracia, se calcula que las evaluaciones
por ellas, entonces las críticas a la investigación experimental sobre
de credibilidad interpersonales tienen una precisión del 54% (Vrij,
el CQT por su débil validez externa parecerían infundadas y
2008).
puestas en duda. Este último hallazgo sugeriría que los resultados
de la investigación experimental sobre el CQT no deberían
descartarse como un artefacto de laboratorio y que debería darse a
esos resultados un peso serio en la estimación de la validez del
CQT.

3 | ACCEDER A LA PRECISIÓN DEL


CQT

La práctica habitual con el CQT plantea un problema inusual para el


análisis tradicional del tamaño del efecto, en el que la atención suele
centrarse en una variable de resultado binaria. Con un CQT, el
resultado estándar no es binario, sino que tiene tres niveles basados
en un continuo subyacente de puntuaciones. Los resultados estándar
en un CQT son Veraz, Inconcluyente o Engañoso. Este continuo de
decisión de tres niveles suele seguir una escala de intervalo
subyacente de puntuaciones numéricas, del mismo modo que los
términos frío, medio y caliente siguen escalas de intervalo o relación
subyacentes de temperatura. En las revisiones se han adoptado
varios enfoques para cuantificar la precisión del CQT. El NRC (2003)
utilizó el área bajo la curva (AUC) como índice de precisión e ignoró
los resultados no concluyentes. Honts y Schweinle (2009) utilizaron
la ganancia de información (Wells & Olson, 2002) y proporcionaron
tres curvas de ganancia de información para resultados veraces, no
concluyentes y engañosos. Otros estudios de se han limitado a calcular
medias ponderadas a partir de una tabla de contingencia de 2
(inocente o culpable) por 3 (veraz, no concluyente, engañoso) (Raski n
et al., 1997) o alguna variación de la misma (Iacono y Lykken,
1997). El uso de tres resultados aumenta así la complejidad de la
interpretación de los datos agregados. En respuesta a este problema,
Kircher et al. (1988) desarrollaron y utilizaron una única medida de
precisión que denominaron Coeficiente de Eficacia de Detección (rdec ).
El rdec es simplemente una correlación entre el estado binario de la
realidad, Culpable o Inocente, codificado -1 y 1 respectivamente, y
los resultados de la prueba, Engañoso, Inconcluso o Veraz,
codificados -1, 0 y 1 respectivamente. Así pues, la rdec es sensible al
impacto de los resultados no concluyentes, ya que su aparición reduce
el valor de la rdec , pero no tanto como un error. En nuestros análisis,
adoptamos la rdec como medida principal de precisión para la CQT.
Sin embargo, también planeamos examinar los análisis más
tradicionales de sensibilidad, especificidad y AUC.
Una vez conocidos los efectos de los moderadores y una
estimación de
CQT se obtuvo a partir del metaanálisis, nos propusimos evaluar el
valor añadido de disponer de un resultado de la prueba CQT en
comparación con la información de la que disponen fácilmente las
personas que intentan evaluar la credibilidad en un entorno
interpersonal. Para ser útil en la aplicación, una prueba diagnóstica
debe proporcionar más información de la que se dispone sin la
prueba. En la situación de evaluación de la credibilidad, hay dos
HONTS ET AL. 7

Una fuente de información importante, y a menudo ignorada, en


4.2 |Criterios para la inclusión de estudios
la toma de decisiones forenses es la tasa base subyacente de la
condición objetivo (Honts & Schweinle, 2009). En los entornos en
Nuestro objetivo para este estudio era incluir todos los informes en
los que se utiliza la prueba poligráfica, el índice base de
lengua inglesa con información suficiente para el análisis. Se
culpabilidad puede variar drásticamente. Por ejemplo, en el ámbito
incluyeron los estudios que
de la seguridad nacional, la tasa base de culpabilidad (es decir, la
probabilidad de que un sujeto determinado sea un agente de un
gobierno extranjero o de una organización terrorista) probablemente
sea muy baja. En algunas situaciones forenses, la tasa base puede
ser relativamente baja, por ejemplo cuando hay un número de
sospechosos y el polígrafo se utiliza para reducir el tamaño del grupo
de sospechosos. En otras situaciones poligráficas forenses el
índice base de culpabilidad puede ser alto, por ejemplo después de
que un largo proceso de investigación haya reducido el grupo de
sospechosos a uno o dos individuos, o cuando un individuo ha sido
acusado formalmente de un crimen. Lo que se necesita es un
método para evaluar la utilidad de una prueba en toda la gama de
índices de base, de modo que los usuarios finales de la
información puedan estimar cuánto peso dar al resultado de una
prueba y juzgar cuándo puede ser útil. Afortunadamente, existe un
método de este tipo. Descrito por primera vez por Wells y Lindsay
(1980) y ampliado por Wells y Olson (2002), el análisis de la
ganancia de información (GI) utiliza un enfoque bayesiano para
describir el impacto de los índices de base en la información
proporcionada por los procedimientos de identificación ocular de
testigos. Honts y Schweinle (2009) adaptaron los procedimientos de
IG de Wells y Olson para utilizarlos con el CQT y sus tres niveles
de resultado. Utilizamos el análisis IG para evaluar el valor aplicado
del CQT basándonos en las estimaciones metaanalíticas de la
precisión del CQT en comparación con la detección del engaño
interpersonal.

4 | MÉTODO

4.1 |Procedimientos de búsqueda bibliográfica

Para nuestra base de datos intentamos encontrar todos los


estudios disponibles en inglés sobre la exactitud de la CQT realizados
en entornos forenses o para- digitales. Comenzamos nuestra
búsqueda con la biblioteca personal del primer autor. El primer autor
ha estado involucrado en la realización de investigaciones sobre el
CQT desde 1980. A continuación, se realizaron búsquedas informáticas
en Criminal Justice Abstracts, Defense Technical Information Center
(DTIC), Google Scholar, JSTOR, ProQuest Theses and Dissertations
Global, PsychINFO y Psy- chARTICLES. Se realizaron búsquedas con
los siguientes términos Comparison Question Test, CQT, Polygraph,
Psychophysiological Deception Detec- tion, Psychophysiological
Detection of Deception, y PDD. También revisamos el volumen
completo de la revista Polygraph, ahora conocida como Polygraph &
Forensic Credibility Assessment: A Journal of Science and Field Practice.
Se realizaron búsquedas en las secciones de referencia de los
artículos a medida que se obtenían, y se cruzaron con los estudios ya
existentes en la base de datos. Se obtuvieron y añadieron a la base de
datos las referencias que no figuraban en ella. La búsqueda de
estudios adicionales se cerró el 1 de julio de 2018.
8 HONTS ET AL.

examinador (defensa/aplicación de la ley). En el caso de los estudios


cumplían los siguientes criterios: (1) El estudio abordó la validez del
no experimentales, también se recopilaron datos sobre cómo se
CQT en un entorno o paradigma que trató un tema o temas
determinó el grado de veracidad, el entorno en el que se recogieron
específicos centrados (no se incluyeron las pruebas generales de
los datos (por ejemplo, el lugar de trabajo, la justicia penal o la
cribado previas a la contratación).
seguridad nacional) y la naturaleza de los temas tratados. Se
(2) Se disponía de información suficiente para determinar las
recopilaron datos básicos sobre el número de personas sometidas a la
frecuencias de los distintos resultados de las pruebas. (3) En los
prueba, el sujeto y el tipo de prueba.
estudios de campo, había una descripción del criterio utilizado para
clasificar los casos como Inocente o Culpable. (4) Había información
suficiente para determinar el método utilizado para la evaluación de
los datos y la generación de un resultado. (5) En la recogida de
datos se utilizaron al menos dos de las medidas fisiológicas estándar
(respiración, activi- dad electrodérmica, presión arterial relativa o
actividad vasomotora). (6) El estudio no duplicó datos y análisis ya
existentes en la base de datos. (Por ejemplo, los mismos datos en
un informe de subvención y en una publicación estarían
representados en la base de datos sólo por la publicación). (7) Los
datos del estudio se recogieron de sujetos reales y no se basaron
en bootstrapping, Monte Carlo u otros métodos de estimación
estadística.

4.3 | Muestras de interés

Nuestra unidad de análisis fue una muestra de datos de sujetos


mentirosos (Culpables) y de sujetos que dicen la verdad (Inocentes)
analizados con la misma técnica de puntuación. En algunos informes,
la misma muestra de sujetos fue evaluada por varios evaluadores.
En algunos de esos informes, sólo se informaba de los promedios.
En ese caso, los datos promediados se utilizaron en nuestro análisis .
Cuando se utilizaron promedios, se mantuvo como N el número de
pruebas promediadas y no el número de puntuaciones. En algunos
informes se facilitaron datos de varias puntuaciones de los mismos
datos. En esos estudios se seleccionaron al azar los datos de un
evaluador y sólo se utilizaron los datos de ese evaluador en el
análisis. En algunos informes, los datos se puntuaron con diferentes
métodos de puntuación. En los datos de este estudio se incluyó un
ejemplo de cada método de puntuación.

4.4 |Justificación y retención de variables


moderadoras

Las variables potenciales para la codificación se seleccionaron


mediante varios métodos. Inicialmente, comenzamos con las
variables relevantes codificadas por Hartwig y Bond (2014) para su
metaanálisis de detección del engaño interpersonal y con las
variables codificadas en el único metaanálisis existente de la CQT
(Kircher et al., 1988). También buscamos variables que eran, y son,
objeto de continuo debate científico sobre su importancia teórica
para la comprensión de la investigación del CQT (por ejemplo,
Honts, 2014; Iacono y Ben-Shakhar, 2019). Ese conjunto inicial de
variables moderadoras incluía, el marco de muestreo para la
selección de sujetos ección, la motivación contingente asociada con
el resultado de la prueba, el estatus del estudio como experimento, el
estatus de revisión por pares del informe,1 y la orientación del
HONTS ET AL. 9

edad, sexo del sujeto, características del examinador y 4.6 |Procedimientos metaanalíticos
frecuencias de los resultados de las pruebas. También se
codificaron las siguientes variables de interés para el desarrollo de Las estadísticas metaanalíticas se calcularon con Comprehensive

normas de buenas prácticas basadas en pruebas para la profesión: Meta-Analysis (Versión 3; Borenstein et al., 2014). Otros análisis

Tipo de CQT, número de cuestiones tratadas y método de estadísticos se calcularon con SPSS (IBM, 2017). Los análisis de

puntuación. Desafortunadamente, algunas variables moderadoras ganancia de información se calcularon con la hoja de cálculo Excel

potenciales que examinamos inicialmente no se incluyeron en el desarrollada por Honts y Schweinle (2009).

metaanálisis porque no había un número suficiente de estudios


(>65%) que comunicaran los datos (p. ej., edad, años de
educación, tipo específico de delito en estudios de campo y años
de experiencia como examinador) o no había suficiente variabilidad
para un análisis significativo como moderador (p. ej., tipo de delito
simulado en el experimento, tipo de delito simulado en el
experimento, años de experiencia como examinador), tipo de delito
simulado en el experimento, método de confirmación del estado
de culpabilidad en el estudio de campo, naturaleza de los temas
abordados en los estudios de campo [orientación de la defensa
frente a la de las fuerzas del orden] y número de cuestiones en el
CQT).
Aunque contamos con un número suficiente de estudios que
abordaban el método de puntuación, finalmente no lo incluimos en
este análisis porque varios de los métodos de puntuación no
contaban con suficientes estudios para un análisis significativo y
consideramos que agrupar los métodos de baja frecuencia en una
categoría Otros no tendría sentido. Además, los dos métodos con
representación suficiente para el meta-análisis habían sido
probados en el mismo conjunto de datos (Utah y US Federal 7-
position; Honts, Amato, et al., 2000) y no se encontró que las
puntuaciones totales fueran significativamente diferentes, por lo
que era poco probable que tuvieran valor como moderador.

4.5 |Variables seleccionadas para el metaanálisis

Las siguientes variables contaban con datos suficientes para


realizar un metanálisis significativo y se retuvieron para el análisis:
Entorno, Fuente del sujeto, Moti- vación, Temas, Tipo de pregunta
de comparación, Revisión por pares, Sexo del sujeto y Edad.
Estas variables se codificaron del siguiente modo: Entorno:
compara experimentos con estudios de campo. La Fuente del
Sujeto indexaba dónde se obtenía la muestra de sujetos y tenía
cuatro niveles: estudiantes, comunidad, trabajo y justicia penal.
Motivación indexaba las contingencias que se asociaban con el
resultado de la prueba y tenía tres niveles: nada, algo premiado y
consecuencias en el mundo real. Cuestiones codificó dos niveles:
Único versus Múltiple e indexaba si el examen poligráfico
abordaba un único incidente o múltiples incidentes
independientes. Tipo de Pregunta de Comparación indexaba los
dos tipos de preguntas de comparación de uso común en la
práctica de campo, mentira probable y mentira dirigida. Revisión
por pares indexó si el informe fue revisado por pares. Sexo del
sujeto indexó si sólo se incluyeron varones, sólo mujeres o una
mezcla de sexos. Cuando se disponía de ellos, también se
registraban los datos de frecuencia por sexo. Se registró la edad
media de los sujetos en años.
10 HONTS ET AL.

El coeficiente de eficacia de detección (rdec ; Kircher et al., T A BL A E 1 Características de la bibliografía de investigación


1988), un estadístico biserial puntual, fue nuestra principal
Variables cuantitativas
estimación del tamaño del efecto. Se utilizó una transformación logit
Variable Mínimo Máximo Media Mediana
de las tasas de eventos para calcular las estimaciones puntuales y
los intervalos de confianza. Hay dos modelos que pueden N Temas 7 500 73.32 60.5

seleccionarse para los análisis de datos. El modelo de efectos fijos Hombre 6 257 54.28 42.0
asume un tamaño del efecto único y verdadero entre estudios Mujer 0 167 20.84 10.0
agregados e independientes. El modelo de efectos aleatorios DEC 0.10 0.99 0.65 0.66
postula la variabilidad entre las investigaciones. El estadístico I2 indica Variables categóricas
el porcentaje de heterogeneidad entre los estudios; una
# (%) de Porcentaje de
heterogeneidad elevada respalda la idoneidad del uso del modelo sujetos acuerdo en la
aleatorio. Se utilizó el enfoque de efectos aleatorios para todos los Variable muestras codificación
cálculos del meta-análisis. Motivación 98%
Una posible fuente de sesgo de publicación es que los estudios Ninguno 27 (19.6%)
más pequeños tienden a producir tamaños del efecto
Algunos 57 (41.3%)
desproporcionadamente grandes y, en consecuencia, este impacto
Real 53 (38.4%)
desproporcionado no se equilibra con la inclusión de
Configuración 98%
investigaciones más pequeñas con tamaños del efecto extremos y
Experimento88 (63,8%)
no significativos. Este posible sesgo se evaluó mediante un gráfico
Campo50 (36,2%)
de embudo (Duval y Tweedie, 2000). En ausencia de sesgo, el
gráfico de embudo mostraría una distribución simétrica de los Fuente temática 94%

tamaños del efecto en torno a un valor de resumen. Estudiante31 (22,5%)


Comunidad36 (26,1%)
Trabajo16 (11,6%)
5 | RESULTADOS

Obtuvimos y examinamos 173 documentos, de los cuales 112 se


ajustaban a nuestros criterios.
criterios de selección y se codificaron para el análisis. Sesenta y un
Justicia 53 (38.4%)
documentos no cumplieron nuestros criterios por las siguientes penal
razones: uno era un metaanálisis, ocho eran estudios duplicados,
34 no eran estudios de QTQ,
15 contenían información inadecuada para el cálculo de los
resultados, y 3 eran informes relativos a casos individuales. De los
112 documentos seleccionados, codificamos 221 conjuntos de Cuestiones 93%
datos que contenían 16.278 decisiones poligráficas. Sin embargo, Múltiples 26 (19.3%)
muchos de esos conjuntos de datos contenían datos de fiabilidad Único 100 (74.1%)
(es decir, diferentes personas que puntuaban los mismos datos con el Tipo CQT
mismo sistema de puntuación). Probable-Lie 113 (81.9%) 95%
tem). Una vez eliminados los datos redundantes, quedaban 138 Dirigida por 20 (14.5%)
datos Lie
Ambos 5(3.6%)
conjuntos que representaban decisiones independientes. Esos 138
conjuntos de datos
Revisión por 95%
contenía 11.053 decisiones. Sin embargo, tres de los conjuntos de
datos sólo contenían sujetos culpables. Esos tres conjuntos de pares Sí 104 (75.4%)

datos no estaban disponibles


para los análisis que evaluaban tanto a sujetos inocentes como No 33 (23.9%)
culpables, pero
se retuvieron para el análisis de sensibilidad. En particular, 59 (43,0%) de Sexo
los datos
se publicaron o comunicaron después del cierre de la recopilación de Todos los 17 (12.6%)
datos del NRC (2003). hombres
lección y, por tanto, no se incluyeron en la revisión de la NRC. Todas las 0 (0%)
mujeres
Mixto 59 (43.7%)
En la Tabla 1 se presenta un resumen de la bibliografía de
5.1 |Características de la literatura de investigación basada en nuestra codificación. El número de sujetos en
investigación estos estudios variaba ampliamente, desde un mínimo de siete hasta
un máximo de 500. No había datos suficientes sobre la edad para
HONTS ET AL. 11
proporcionar una estimación significativa de la edad de los sujetos. Desconocido59 (43,7%)
Los datos sobre la edad eran insuficientes para proporcionar una
Nota: Los porcentajes se basan en 138 conjuntos de datos. Debido a la falta
estimación significativa de la edad de los sujetos. Solo un estudio
de datos, la suma de los resultados puede no alcanzar el 100%.
informó de que se centraba en menores (Craig et al., 2011) y
parece seguro suponer que los demás estudios evaluaron a
personas mayores d e 18 años. Del mismo modo, fue difícil participación tanto de hombres como de mujeres. Dentro de las
obtener información sobre las tasas de participación por sexo. muestras mixtas que comunicaron datos de frecuencia para el sexo,
Cincuenta y nueve (43,7%) de las muestras no tenían información (16 muestras no lo hicieron), el número medio de sujetos
sobre el sexo de sus sujetos. Diecisiete (12,6%) de las muestras masculinos fue de 53,7 y el número medio de sujetos femeninos fue
eran sólo masculinas, mientras que 59 (43,7%) de las muestras de 30,05. Los pocos estudios que han comprobado explícitamente
indicaban el las diferencias de sexo no han revelado ningún efecto significativo
(por ejemplo, Honts, Raskin, et al., 1994). La mayoría de los
conjuntos de datos (86, 63,7%) procedían de experimentos. Dentro
de los experimentos, 31 (36%) eran muestras de estudiantes, 37
(43,0%) eran muestras de la comunidad y 15 (17,4%) eran muestras
de trabajo,
12 HONTS ET AL.

Cohen. En el estudio actual, esto sugiere un porcentaje de precisión de


y 5 (5,8%) eran muestras procedentes de un entorno forense (por
la clasificación muy superior al 80% (Rosenthal, 1983). Cabe
ejemplo, una población reclusa, Raskin & Hare, 1978).
destacar que el gráfico de embudo obtenido fue simétrico con
respecto a la media del tamaño del efecto, lo que indica que los
estudios más pequeños con un mayor error de muestreo seguían
5.1.1 | Fiabilidad
mostrando una amplia gama de valores hacia la parte inferior del
gráfico de embudo. Esta simetría fue corroborada además por el
La Tabla 1 también contiene datos de fiabilidad para la codificación
recorte y la
de las variables moderadoras. El primer y el tercer autor codificaron
de forma independiente los primeros 97 conjuntos de datos
obtenidos en nuestro análisis, que representan el 70% de los
conjuntos de datos retenidos. Se analizó la concordancia en la
codificación de esos datos. Como se muestra en la Tabla 1, el
acuerdo fue alto para todos los moderadores y osciló entre un
mínimo del 93% con Temas y un máximo del 98% con Motivación y
Entorno. Se realizó una calibración de los desacuerdos entre los
dos evaluadores y la codificación consensuada se retuvo para el
análisis. Un retraso significativo en el análisis de los datos hizo que
reabriéramos la búsqueda de estudios a principios de 2018. Se
obtuvieron 41 conjuntos de datos adicionales que fueron codificados
por el primer autor.

5.2 |Resultados del metaanálisis de rdec

Pudimos calcular rdec (Kircher et al., 1988) para 135 de los 138
conjuntos de datos y esos 135 valores se sometieron a metaanálisis
utilizando un modelo de efectos aleatorios. Todos los intervalos de
confianza se calcularon al 95%.
El tamaño del efecto metaanalítico obtenido para rdec fue de
0,694 [,66,
.79], p < 0.0001. Ese tamaño del efecto se convierte (Salgado,
2018) en una d de Cohen = 1,92, y un AUC = 0,91. Aunque estos
valores parecen ser réplicas cercanas de los resultados del NRC
(2003), nuestra estimación de AUC se redujo por la inclusión de
resultados no concluyentes, mientras que la estimación de AUC del
NRC no consideró resultados no concluyentes. También calculamos
que el índice U3 de Cohen (1988) es de 0,973. Este valor de U3
indica que la mitad superior de la población inocente supera el
97,3% de los miembros de la población culpable. Esto da como
resultado un valor del Índice de Mejora del 47,3%, un valor que
representa la diferencia en el rango porcentual de un sujeto Culpable
medio y un sujeto Inocente medio en sus respectivas distribuciones
(What Works Clearinghouse, 2008).
Con respecto al tamaño del efecto obtenido para rdec , Cohen
(1988, 1992) indica que un tamaño del efecto r de .50 y superior se
considera "grande". En el enfoque binomial del tamaño del efecto
de Rosenthal (Rosenthal, 1983; Rosnow y Rosenthal, 2003), un rpb
de .00 arroja un porcentaje igual, 50/50 para los eventos de éxito
(por ejemplo, verdaderos positivos) sobre los eventos de fracaso
(por ejemplo, falsos positivos). Cuando el rpb está en el nivel de
0,50, la indicación es que hay una "separación" entre el éxito y el
fracaso del 75% y el 25% respectivamente. Con un rpb de .60, esa
separación aumenta al 80% frente al 20%. Como se ha indicado, la
estimación puntual obtenida o resumen rdec de 0,694 en el conjunto
de datos actual se encontraba en la clasificación de gran efecto de
HONTS ET AL. 13
mentiras dirigidas. El valor relativamente pequeño de Q para este
en el sentido de que no hubo que insertar ningún estudio para
moderador y la similitud de los valores de R sugieren que estas
mejorar esa simetría. En la Figura S1 se incluye una figura que
diferencias son probablemente de poca importancia aplicada. Los
ilustra el gráfico en embudo.
estudios revisados por pares fueron significativamente más precisos
que los estudios no revisados por pares, Q = 72,09, p = 0,001,
aunque los valores R fueron relativamente similares. El valor
5.2.1 | rdec y heterogeneidad
relativamente grande de Q sugiere que los estudios revisados por
pares
El grado de disparidad existente entre los tamaños del efecto
obtenidos es objeto de preocupación. El metaanálisis arrojó un I2
de 92,63. Ese valor representa diferencias reales en los tamaños
del efecto, no relacionadas con el error de muestreo. Seguimos las
recomendaciones de Borenstein et al. (2009) para tratar la
variabilidad del tamaño del efecto. En primer lugar, dado que la
heterogeneidad (I2 ) era superior al 50%, se empleó correctamente
el modelo aleatorio. En segundo lugar, cada tamaño del efecto se
ponderó por Tau (T), la "verdadera" desviación estándar de los
tamaños del efecto en las unidades métricas DEC (rdec = .398). El
resultado agrupado arrojó una estimación puntual del tamaño del
efecto y un intervalo de confianza que no incluye el cero. El
significado práctico es que, a pesar de la variación de los tamaños
del efecto, el tamaño real del efecto de rdec es casi con toda
seguridad positivo y sustancial.

5.2.2 |Efectos de las variables moderadoras


con rdec

Una variable moderadora es aquella que afecta a la fuerza o


dirección de un resultado o relación (Shadish y Sweeney, 1991).
En los metaanálisis, un moderador influirá en la magnitud del
tamaño del efecto. La tabla 2 enumera los moderadores que
probamos y los resultados estadísticos con rdec . Para cada
subconjunto de moderadores de la tabla, enumeramos una R para
la detección del engaño. La R corresponde a una media
ponderada de la Z de FisherR para el efecto en cuestión. También
se incluye un estadístico Q que pone a prueba la importancia de
cada variable moderadora. Lo más notable fue el efecto
significativo de la Motivación, Q = 333,15, p < 0,001, lo que indica
que a medida que aumenta la motivación también aumenta la
precisión de la detección, indexada por la rdec . Un análisis
separado de linealidad entre Motivación y rdec fue significativo, F(1,
132) = 15,27, p = 0,001, mientras que una prueba de desviaciones
de la linealidad no lo fue, F(1, 132) = 0,279, ns. Se observó un
patrón de resultados similar con el Entorno (Experimento frente a
Campo) y la Fuente (Estudiantes, Comunidad y Forense), pero
con valores mucho menores para Q, de 12,12 y 17,77,
respectivamente. Esto no es sorprendente, ya que los tres
modera- dores estaban muy correlacionados entre sí: Motivación
frente a Entorno, r = 0,83, p < 0,01; Motivación frente a Fuente, r =
0,70, p < 0,01; y Entorno frente a Fuente, r = 0,83, p < 0,01.
También se observaron efectos significativos de otros
moderadores. Hubo un efecto moderador significativo asociado al
tipo de CQT,
Q = 9,16, p = 0,01. El valor R de las pruebas de mentiras probables
fue de 0,71, mientras que el valor
R para las pruebas de mentiras dirigidas fue de 0,61. Un examen
de los intervalos de confianza indica que hubo una variabilidad
mucho mayor en la muestra relativamente pequeña de pruebas de
14 HONTS ET AL.

TA BL E 2 Resultados del metaanálisis de las variables moderadoras sobre la rdec

Moderador Nivel N R IC 95% Z p< I2 Q


Motivación Ninguno 26 0.61 0.53, 0.68 11.63 .001 86.67 333.15, p < .001
Algunos 57 0.65 0.61, 0.69 21.42 .001 71.66
Campo 51 0.76 0.71, 0.81 15.59 .001 95.17
Configuración Exp 85 0.64 0.60, 0.67 23.85 .001 78.75 12.15, p < .001
Campo 50 0.77 0.71, 0.81 15.57 .001 95.27
Fuente Estudiante 30 0.59 0.53, 0.65 14.36 .001 69.44 17.77, p < .001
Com 36 0.68 0.63, 0.73 16.89 .001 80.89
Trabajo 16 0.61 0.50, 0.69 9.07 .001 83.24
CJ 51 0.76 0.70, 0.81 15.40 .001 95.24
Cuestiones Único 28 0.64 0.58, 0.70 13.95 .001 83.23 3,58, ns
Múltiples 102 0.71 0.65, 0.74 19.67 .001 93.03
Tipo CQT PL 110 0.71 0.67, 0.75 21.03 .001 93.17 9.16, p = .01
DL 20 0.61 0.53, 0.68 12.00 .001 74.83
Ambos 5 0.60 0.51, 0.68 9.98 .001 48.14
Revisión inter Sí 101 0.71 0.66, 0.75 20.17 .001 92.71 72.09, p = .001
pares
No 33 0.64 0.57, 0.69 14.72 .001 85.17

Abreviaturas: CI, intervalo de confianza; CJ, justicia penal; Com, comunidad; DL, mentira dirigida; I2 , % heterogeneidad; PL, mentira probable; Q,
varianza total entre grupos.

TA BL E 3 Resultados del metaanálisis de las variables moderadoras del estudio experimental sobre la rdec

Moderador Nivel n de estudios R IC 95% Z p< I2 Q


Motivación Ninguno 26 .61 [.53, .68] 11.63 .001 86.07 2,53. ns
Algunos 57 .66 [.61, .97] 20.63 .001 75.72
Fuente Estudiante 30 .60 [.53, .65] 14.36 .001 69.41 6,91, ns
Comunidad 36 .68 [.63, .73] 16.34 .001 83.62
Trabajo 15 .56 [.48, .66] 10.03 .001 72.97
Temas Único 66 .65 [.60, .69] 20.32 .001 80.99 1,08, ns
Múltiples 18 .60 [.52, .68] 11.21 .001 78.17
CQT PL 60 .65 [.60, .70] 18.45 .001 82.67 1,92, ns
DL 20 .60 [.53, .67] 12.02 .001 76.19
Ambos 5 .60 [.51, .68] 9.98 .001 48.14
Revisión inter Sí 59 .65 [.60, .70] 13.92 .001 80.47 0,90, ns
pares
No 26 .61 [.53, .6.8] 13.22 .001 79.95

sobre los estudios experimentales y otro sobre los estudios de campo.


La revisión puede ser un moderador de importancia más aplicada a
la hora de inter- pretar los resultados de la investigación, donde
debería darse más peso a los resultados de las revistas revisadas
por pares.

5.3 | Metaanálisis separados de estudios


experimentales y de campo

La covariación de Motivación, Entorno y Fuente dio lugar a una


sugerencia de que los datos de los estudios de campo del CQT
podrían producir resultados cualitativamente diferentes de los datos
experimentales. Para explorar esta posibilidad, realizamos dos
meta-análisis adicionales de los moderadores potenciales, uno
HONTS ET AL. 15

estudios de campo. Las tablas de resultados resumidos completos


de estos dos análisis figuran en nuestro archivo en línea como
Tablas 3 y 4. Las estimaciones metaanalíticas del tamaño del
efecto para los estudios de campo y experimentales fueron de 0,76
[,71; 0,81] y 0,64 [,60; 0,67] respectivamente. En los dos meta-
análisis, sólo un moderador, la Revisión por Pares con los Estudios
de Campo, produjo un efecto significativo, Q = 30,42, p < 0,01.
En resumen, en nuestros análisis iniciales de variables de
moderación se utilizaron los 135 tamaños del efecto rdec (50 de
campo; 85 experimentales). Estos análisis indicaron una moderación
significativa para todas las variables categóricas: Motivación,
Fuente, Temas, Tipos de CQT y Revisión por pares (véase la
Tabla 2). Sin embargo, los análisis separados para los estudios de
campo y experimentales arrojaron resultados diferentes. En primer
lugar, sólo las investigaciones experimentales tenían datos en
cada subcategoría de las v a r i a b l e s moderadoras.
16 HONTS ET AL.

TA BL E 4 Resultados del metaanálisis de las variables moderadoras del estudio de campo sobre la rdec

Moderador Nivel n de estudios R IC 95% Z p< I2 Q


Motivación RW 50 .76 [.70, .81] 15.56 .001 95.22
Fuente CJ 49 .76 [.70, .81] 15.58 .001 95.36
Cuestiones Único 36 .78 [.71, .83] 13.08 .001 96.08 2,03, ns

Múltiples 10 .70 [.60, .78] 0.93 .001


CQT PL 50 .76 [.71, .81] 15.96 .001 95.27
Revisión inter Sí 42 .77 [.71, .82] 14.28 .001 95.31 30.42, p < .001
pares
No 7 .70 [.56, .80] 7.29 .001 91.78

La exclusión del elevado tamaño del efecto resumido de los


estudios de campo hizo que todos los metaanálisis moderadores no Para realizar un análisis de la ganancia de información (GI)
fueran significativos para las investigaciones experimentales (Tabla examinamos inicialmente la muestra de resultados de rdec . Hubo un
3). En segundo lugar, los estudios de campo proporcionaron datos estudio en la mediana del valor rdec de
insuficientes para las subcategorías de las variables moderadoras 0.66. Seleccionamos ese e s t u d i o , los cinco estudios con el rdec
"Motivación", "Fuente" y "Tipo de CQT" y, además, la
s u b c a t e g o r í a " c a m p o " d e l moderador "Motivación" y la
subcategoría "Campo del entorno" eran iguales. Por lo tanto, sólo
los moderadores "Temas" y "Revisión por pares" pudieron evaluarse
en su totalidad, obteniendo este último un valor significativo (véase
la Tabla 4).

5.4 |Otras medidas del tamaño del efecto

Se calcularon metaanálisis de la sensibilidad y especificidad de


nuestros datos con estimaciones resumidas de los tamaños del
efecto de 0,879 y 0,843 respectivamente. Sin embargo, la
legitimidad de estos resultados agrupados es dudosa porque los
estudios individuales variaron en los criterios utilizados para
determinar un resultado positivo (por ejemplo, muchos tipos
diferentes de puntuación combinados con una variedad de reglas de
decisión) y hubo marcadas diferencias en el número de participantes
entre las investigaciones. En tales condiciones (especialmente los
diferentes umbrales de puntuación), es probable que exista una
relación negativa entre la sensibilidad y la especificidad entre los
estudios y que los resultados agrupados no reflejen con exactitud la
precisión global de los datos (a medida que aumenta la sensibilidad,
disminuye la especificidad). De hecho, la r entre sensibilidad y
especificidad fue de -,197, p = 0,02. La implicación adicional de este
hallazgo es que los análisis ROC y AUC de resumen metaanalíticos
no pueden justificarse (Jones y Athanasiou, 2005). Además, los
estadísticos aplicados de los últimos 10 años han llegado a la
conclusión de que el análisis AUC es tan defectuoso y
potencialmente engañoso que simplemente debería abandonarse en
favor de otros análisis (Hand, 2009a, 2009b; Honts & Schweinle,
2009) como el análisis de Gain (Elder, 2020).

5.5 |Análisis de la ganancia de información

5.5.1 |Una muestra mediana de estudios:


Análisis de la ganancia de información y precisión
HONTS ET AL. 17

por debajo de 0,66 y los cinco estudios con los valores de rdec más
cercanos por encima de 0,66. Esos 11 estudios contenían 998
decisiones y constituyeron nuestra Muestra Mediana. Los valores
de rdec de la Muestra Mediana oscilaron entre 0,645 y 0,673. El IG
dentro de la Muestra Mediana se calculó utilizando el software
desarrollado por Honts y Schweinle (2009). El IG para la Muestra
Mediana y para la detección del engaño interpersonal (Honts y
Schweinle, 2009) se ilustra en la Figura 1. La curva para los
resultados engañosos puede verse como una indicación de la
ganancia en la sensibilidad del CQT para detectar el engaño en
comparación con la predicción de la baserate. Del mismo modo, la
curva IG para los resultados veraces puede verse como una
indicación de la ganancia en la especificidad del CQT al identificar
con precisión los veraces en comparación con la predicción de los
basales.
Siguiendo los métodos descritos por Honts y Schweinle (2009),
se descubrió que el IG de los resultados engañosos del CQT
alcanzaba un máximo de 0,37 con una tasa base de culpabilidad
del 32%. Los resultados engañosos proporcionaron
significativamente más IG (p < 0,05, 1 cola) que las decisiones de
detección de engaño interpersonal tomadas por legos en el rango
de tasa base de Culpabilidad de 1% a 93% inclusive. El IG de los
resultados CQT veraces alcanzó un máximo de 0,48 en un índice
base de culpabilidad del 78%. Los resultados de CQT veraces
proporcionaron significativamente más IG (p < 0,05, 1 cola) que
las decisiones de detección de engaño interpersonal veraces
tomadas por legos en el rango de tasa base de culpabilidad de 5%
a 99% inclusive. La GI de los legos nunca superó la GI del CQT
para ninguno de los dos tipos de decisión en ningún índice base
de Culpabilidad. En la Tabla S3 se proporciona una tabla de
clasificación para la Muestra Mediana. Hubo más resultados
correctos con sujetos Culpables que con sujetos Inocentes. Hubo
aproximadamente el doble de resultados Inconcluyentes con
sujetos Inocentes que con Culpables, 18,3% frente a 10%. La
diferencia en los resultados no concluyentes se traduce en una
ganancia de información con respecto a la inocencia del sujeto.
Excluyendo los resultados no concluyentes, las decisiones veraces
en la Muestra Mediana fueron correctas en un 78,9% y las
decisiones Engañosas fueron correctas en un 91,6%. En general,
las decisiones CQT en la Muestra Media fueron correctas en un
86%.
A la luz de los significativos efectos moderadores, decidimos
ilustrar también el impacto del efecto moderador más fuerte, la
Motivación. La Figura 2 ilustra el IG de los distintos resultados
para los tres niveles de Motivación. Las curvas de IG se basaron en
tres muestras de la mediana de las frecuencias combinadas de 11
estudios desde y alrededor de la mediana de rdec para cada nivel
de Motivación. Para los tres niveles de Motivación (No Explícita,
Cierta y Mundo Real) el IG para los resultados Verdaderos
alcanzó un máximo de 0,35, 0,45 y 0,46, respectivamente, con
tasas base de Culpabilidad del 67%, 73% y 76%, respectivamente.
El IG para los resultados Engañosos alcanzó un máximo de 0,42,
0,39,
18 HONTS ET AL.

0.6 0.6
IG|Veraz IG|Veraz
IG|Inconcluso IG|Engañoso
IG|Engañoso

0.5 0.5

0.4 0.4
Ganancia de

Ganancia de
información

información
0.3 0.3

0.2 0.2

0.1 0.1

0 0
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97
94 97 Tasa básica de culpabilidad
Tasa básica de culpabilidad

FIG U R A Curvas de ganancia de información para la mediana de la muestra de este estudio (panel izquierdo) y para la detección del
engaño interpersonal según la Figura 1 de Honts y Schweinle (2009) (panel derecho).

Estudios sin motivación explícita Estudios con alguna motivación Estudios con motivación del mundo real
IG|Veraz explícita IG|Veraz IG|Veraz
0.60 0.60 0.60
IG|Inconcluso IG|Inconcluso IG|Inconcluso
IG|Engañoso IG|Engañoso IG|Engañoso

0.50 0.50 0.50

0.40 0.40 0.40

información
Ganancia de

0.30 0.30 0.30


información

información
Ganancia de

Ganancia de

0.20 0.20 0.20

0.10 0.10 0.10

0.00 0.00 0.00


1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97
Tasa básica de culpabilidad Tasa básica de culpabilidad Tasa básica de culpabilidad

FIG U R A 2Curvas de ganancia de información de los 11 estudios en torno a la mediana de los valores rdec para cada nivel de la motivación
moderadora.

mejores (p < 0,05, 1 cola) que los resultados de detección de engaño


y .44, respectivamente, con índices base de Culpabilidad de 29%,
interpersonal de Honts y Schweinle (2009).
31% y 28%, respectivamente. Estos resultados muestran el escaso
impacto del moderador Motivación sobre la GI proporcionada por
los resultados Veraz y Engañoso en todo el rango de motivación.
Sin embargo, en términos absolutos, la mayor ganancia de
información, tanto para las condiciones veraces como para las
engañosas, se encontró en las condiciones de motivación del
mundo real. También es interesante que en la categoría Mundo
Real los IG máximos de los resultados veraces y engañosos sean
aproximadamente iguales.
Sin embargo, los resultados no concluyentes presentan un
patrón diferente. En las categorías Sin Explicación y Cierta
Motivación, los resultados Inconclusos casi no proporcionan IG. Sin
embargo, en la categoría del mundo real, los resultados no
concluyentes proporcionan un IG indicativo de inocencia, ya que la
frecuencia de resultados no concluyentes fue mayor en los sujetos
inocentes que en los culpables. En la Tabla S4 se presenta una tabla
de clasificación de los 11 estudios en torno a la motivación del
mundo real. Sin embargo, los GI de los resultados Inconclusos en la
condición Motivación en el mundo real no fueron significativamente
HONTS ET AL. 19

6 | DISCUSIÓN

Siguiendo el enfoque descrito por Hartwig y Bond (2014),


exploramos la validez potencial de una serie de variables
moderadoras que los críticos del CQT han planteado como
hipótesis o simplemente han afirmado que son potentes
determinantes de la validez del CQT. La naturaleza de las críticas
a la investigación sobre la detección del engaño interpersonal
guarda cierta similitud con las críticas a la investigación sobre el
C Q T . Tomamos una muestra amplia de la investigación sobre el
CQT para maximizar el alcance de nuestro examen de la validez
externa a través de las variables moderadoras y para evitar
cualquier crítica de que estábamos sesgados en nuestra selección
de estudios.
Como se ha descrito anteriormente, los críticos de la
investigación CQT han rechazado en general la investigación
experimental por carecer de validez externa. Generalmente, esa
crítica ha afirmado que el entorno motivacional en los
experimentos es cualitativamente diferente del entorno
motivacional en entornos del mundo real donde están en juego
empleos, dinero, libertad e incluso la vida. Iacono y Ben-Shakhar
(2019) señalaron la longevidad del escepticismo en la validez
externa de los experimentos CQT, "Lykken (1978)
20 HONTS ET AL.

sugieren que la detección psicofisiológica del engaño funciona de


argumentó hace 40 años que no hay razón para que los sujetos de
forma muy parecida en un experimento que sobre el terreno.
laboratorio encuentren la experiencia aterradora o culpógena,
Finalmente, examinamos un moderador potencial que era de
siendo las circunstancias más parecidas a un juego desafiante en el
interés específico para los profesionales de CQT, el Tipo de Pregunta
que las preguntas relevantes tienen más probabilidades de provocar
de Comparación. Encontramos una diferencia estadísticamente
respuestas orientativas que reacciones asociadas con el miedo o la
significativa para el Tipo de CQT como moderador en el análisis
culpabilidad genuinos" (p. 93). El argumento de los críticos sobre la
inicial, diferencia que no se encontró en los análisis separados de los
importancia de la motivación lleva implícita la suposición de que el
datos Experimentales. El rango de la Pregunta de Comparación
miedo y la culpa son componentes necesarios del polígrafo en el
mundo real, pero no están presentes en los estudios
experimentales. Iacono y Ben-Shakhar (2019) también señalan que
esta afirmación y su suposición necesariamente implícita, nunca se
han puesto a prueba.
Nuestros análisis proporcionaron una prueba parcial del
impacto potencial de la motivación en los resultados de la CQT y
hallaron un efecto moderador significativo de la Motivación. Sin
embargo, en marcado contraste con las afirmaciones de los críticos,
descubrimos que el efecto de la motivación era lineal y no
dramático. En este sentido, nuestros resultados replican y amplían
los resultados metaanalíticos comunicados por Kircher et al. (1988).
Nuestros resultados, basados en una gran muestra de estudios CQT
altamente variados, sugieren fuertemente que la afirmación de larga
data de diferencias cualitativas dramáticas entre experimentos CQT
y estudios de campo basados en la moderación de la Motivación
carece de sustento. Nuestros resultados indicaron que con la CQT
los mentirosos y los que dicen la verdad producen resultados
similares en entornos experimentales y de campo que difieren
cuantitativamente, pero no cualitativamente. Se observa una
discriminación significativa y potente incluso en entornos
experimentales que no proporcionaban ninguna contingencia explícita
asociada al resultado de la prueba. Sin embargo, nuestros
resultados muestran que los experimentos sin motivación explícita
subestiman el poder discriminativo de la CQT. La implicación de
nuestros resultados con la motivación sugiere que los investigadores
que lleven a cabo experimentos CQT deberían incluir una
contingencia explícita de recompensa/castigo, ya que los
experimentos con dicha contingencia producen estimaciones que
están más cerca de los tamaños de los efectos encontrados en
entornos de campo, aunque parecen subestimar ligeramente los
tamaños de los efectos en el campo.
Nuestros hallazgos relativos a las variables moderadoras
potenciales generales, Motivación, Origen del sujeto y Experimento
frente a campo, no replicaron los resultados de Hartwig y Bond
(2014). Ellos encontraron efectos de detección débiles y ningún
efecto moderador significativo, mientras que nosotros encontramos
efectos significativos para el estado de revisión por pares y para la
motivación/experi- mentación frente al campo. Dadas esas
diferencias, parece posible que los fenómenos expresivos en la
detección del engaño interpersonal y los de la detección del engaño
psicofisiológico puedan representar procesos diferentes. Se necesita
investigación para explorar esas diferencias. No obstante, los efectos
moderadores que encontramos, aunque significativos, no fueron
sustanciales. Los resultados de nuestros análisis proporcionan poco
o ningún apoyo a las antiguas afirmaciones, a veces declaradas
como hechos, de los críticos de que los experimentos no son útiles
para estimar la precisión de campo del CQT. Los datos disponibles
HONTS ET AL. 21
diferencia en el IG entre toda la muestra y los datos de los estudios
La variable de tipo no estaba representada en los datos de campo
de motivación del mundo real. Con la misma tasa base de
y, por tanto, no se pudo probar. Aunque esto sigue siendo una
culpabilidad, la decisión de un lego de que una persona dice la
cuestión pendiente para la aplicación sobre el terreno, cabe
verdad tiene un IG de 0,04 y la decisión de un lego de que una
destacar que las comparaciones directas entre las dos técnicas no
persona miente tiene un IG de 0,06. Por lo tanto, el resultado de un
han encontrado diferencias significativas (por ejemplo, Honts y
CQT veraz es aproximadamente 7 veces más informativo que la
Reavy, 2015).
decisión de un lego de que una persona dice la verdad y el
Para proporcionar información práctica útil a los usuarios
resultado de un CQT engañoso es aproximadamente 6 veces más
finales de los resultados de CQT, realizamos análisis de ganancia
informativo que la decisión de un lego de que una persona es
de información. Dentro de una muestra mediana de 11 estudios,
mentirosa.
tanto los resultados CQT veraces como los engañosos
proporcionaron significativamente más GI que la detección del
engaño interpersonal entre tasas base de culpabilidad de entre el
4% y el 94%. Se obtuvieron resultados similares, aunque más
contundentes, en una muestra mediana de los estudios de
motivación del mundo real.
La ganancia de información tanto para la muestra completa
como para los estudios de motivación del mundo real muestra
picos de ganancia de información distintos para los resultados
veraces y engañosos en los diferentes extremos del continuo de la
tasa base. Esto no es sorprendente, pero tiene implicaciones
diferentes para los usuarios finales. En los casos en los que el
índice básico de culpabilidad es relativamente alto, por ejemplo en
la población de personas acusadas formalmente de un delito, el
usuario final de la información debería dar más importancia a los
resultados veraces que a los engañosos. La Oficina de
Estadísticas de Justicia de Estados Unidos (2019) informa de que
la tasa base de culpabilidad (condenas + declaraciones de
culpabilidad) en los tribunales estatales fue de aproximadamente
el 66% en 2006. Dentro de nuestra Muestra Mediana, con una
tasa base de culpabilidad del 66%, el IG para los resultados de
una CQT engañosa fue de 0,24 y el IG para los resultados de una
CQT veraz fue de 0,47. Esto indica que en el índice básico de
culpabilidad de los acusados en los tribunales estatales, un
resultado veraz es aproximadamente el doble de informativo que
un resultado CQT engañoso. En la muestra mediana de los
estudios de motivación del Mundo Real, con una tasa base de
culpabilidad del 66%, el IG de los resultados engañosos fue de
0,27 y el de los resultados veraces de 0,45, prácticamente los
mismos valores de IG que los representativos de toda la muestra
de estudios. Con la misma tasa base de culpabilidad del 66%, las
decisiones de los legos de que una persona es veraz tienen un IG
de 0,05 y las decisiones engañosas tienen un IG de 0,06. Por lo
tanto, en la tasa de base crítica para las personas acusadas de un
delito, un resultado CQT veraz es aproximadamente 9 veces más
informativo que la conclusión de un lego de que una persona es
veraz. En esa tasa de base crítica, un resultado CQT engañoso es
aproximadamente 4 veces más informativo que la conclusión de
un lego de que la persona es mentirosa.
En e l otro extremo del continuo de la tasa base, la situación
de ganancia de información es diferente. Consideremos un caso
en el que hay tres sospechosos pero sólo una persona podría
haber cometido el delito, por lo que la tasa base de culpabilidad es
de 0,33. Dentro de nuestra Muestra Media y Muestra Media de
Motivación del Mundo Real, un resultado veraz de CQT tuvo un
I G d e 0,28 y 0,27, respectivamente, con una tasa base de
culpabilidad del 33%. Los resultados engañosos tuvieron un IG de
0,37 y 0,43, respectivamente. Una vez más, se observa poca
22 HONTS ET AL.

parece razonable esperar que si la literatura de campo estuviera muy


6.1 | Advertencias, precauciones y motivos de
sesgada a favor de la precisión de la CQT, entonces el enfoque del
preocupación
algoritmo de pruebas emparejadas debería mostrar una precisión
reducida. Sin embargo, ese no fue el caso en estos datos. El valor
Nuestros resultados muestran que, cuando se estima a través de la
medio de rdec para los estudios de campo fue de .71 mientras que el
literatura de investigación, el CQT discrimina a los que dicen la
valor de rdec para Mao et al. (2014) fue de .72 y para Ginton (2013)
verdad de los mentirosos con una gran magnitud de efecto, rdec =
fue de .80. Esto no quiere decir que el enfoque de Ginton (2013) sea
.694. Dada la inclusión de una serie de estudios que revisiones
la solución al problema de los criterios, ya que también hay cierto
anteriores han considerado deficientes, nuestra estimación del
desacuerdo al respecto (por ejemplo, Ginton, 2020; Iacono y Ben-
tamaño del efecto debe considerarse conservadora. Aunque
Shakhar, 2019). Simplemente señalamos que este claro
nuestra estimación del tamaño del efecto se vio moderada por varias
variables, los efectos moderadores fueron pequeños y tuvieron poco
impacto en el IG proporcionado por los resultados de la prueba
CQT. Además, todos los efectos moderadores, excepto dos, no
fueron significativos cuando realizamos metaanálisis separados de
los datos experimentales y de campo. Sin embargo, nuestros
resultados no deben interpretarse como indicativos de que todas las
pruebas poligráficas CQT tienen una alta precisión. Hubo una gran
variedad de resultados que no parece deberse a los modera- dores
probados y, por lo tanto, es probable que haya otros factores en
juego.

6.1.1 |Preguntas sin respuesta sobre los estudios


de campo CQT

Aunque los 50 estudios de campo examinados en este metaanálisis


variaban en muchos aspectos, la metodología era sorprendente y
preocupantemente invariable. En un esfuerzo por explorar las
razones de la gran variabilidad de los estudios de campo,
intentamos examinar una serie de posibles moderadores. Sin
embargo, para la mayoría de esos posibles moderadores no había
información o la variación era mínima. En resumen, los estudios de
campo del CQT pueden caracterizarse en general como cuasi-
experimentos con grupos no equivalentes en los que la condición del
sujeto se determina retrospectivamente a partir de una confesión dada
por un participante o por otra persona implicada en la investigación.
Casi todos los datos fueron generados en ambientes forenses por
examinadores poligráficos de la aplicación de ley que conducían
investigaciones. Los crímenes que se investigaban con los polígrafos
generalmente no se especificaban y presumiblemente abarcaban
toda la gama de actividades criminales. No es sorprendente que
muchos de los investigadores implicados en la investigación de campo
sobre el CQT estén implicados profesionalmente en las pruebas
poligráficas, ya sea realizando pruebas CQT, llevando a cabo
investigaciones financiadas, o compareciendo como expertos en
tribunales de justicia a favor o en contra de las pruebas CQT. Sin
embargo, tales conexiones a menudo no se hacen explícitas y para la
literatura más antigua son imposibles de codificar.
La homogeneidad de los métodos en la investigación de campo
del CQT es claramente un punto débil. La única excepción clara a la
homogeneidad general del criterio de credibilidad son los dos
estudios de campo que utilizaron un protocolo de pruebas
emparejadas para determinar un criterio de culpabilidad e inocencia
(Ginton, 2013; Mao et al., 2014). Dado que el enfoque de Ginton
(2013) determina el criterio de culpabilidad mediante un algoritmo,
HONTS ET AL. 23
62,9% de esas pruebas apoyaron la inocencia del acusado, pero no
El contraste de los métodos no aporta ningún apoyo a las
impidieron una condena errónea.
afirmaciones de los críticos de la CQT. Es evidente que los datos
de campo sobre el CQT presentan puntos débiles y que se
necesitan investigaciones adicionales que adopten enfoques
6.1.3 |Normas deficientes para la formación y la
diferentes e innovadores para complementar la bibliografía actual.
práctica

Aunque las pruebas poligráficas son indudablemente pruebas


6.1.2 | Evaluar la credibilidad psicológicas, la psicología como profesión nunca las ha reclamado
frente a la estratagema del como pertenecientes al ámbito de la psicología.
interrogatorio

En la aplicación en la policía y la seguridad nacional vemos que el


polígrafo se utiliza de dos maneras. Algunas agencias utilizan el
polígrafo como prueba de evaluación de la credi- bilidad con la
intención de utilizar el resultado por su propio valor para centrar las
investigaciones, proporcionar pruebas o utilizar la información para
otras decisiones. Muchos de los estudios incluidos en nuestro
meta-análisis parecen encajar en ese modelo de aumento de la
información.
Sin embargo, existe un segundo uso sobre el terreno en el que
los examinadores y/o sus agencias utilizan el polígrafo como
estratagema probatoria para avanzar en un interrogatorio con el
objetivo de obtener una confesión. Honts (2017) describió las
políticas del programa poligráfico del FBI tal y como se revelaron
en un caso penal (EE. UU. contra Jamico Tennison, 2016). En ese
caso, testificó un agente especial supervisor (SSA) del FBI que
también era instructor en el único centro de formación poligráfica
del Gobierno de Estados Unidos, el Centro Nacional de Evaluación
de la Credibilidad (NCCA). El testimonio del SSA era claro que
como política el FBI ponía mucho énfasis en minimizar los errores
negativos falsos con casi ninguna preocupación por los errores
positivos falsos. Además, el FBI había elegido una combinación
específica de variante de CQT, sistema de puntuación y regla de
decisión para alcanzar ese objetivo, que incluía tratar los
resultados no concluyentes como indicios de engaño. Honts (2017)
proporcionó un análisis basado en datos poligráficos generados
por el Gobierno de EE. UU. que indicaban que, según la política del
FBI, solo el 17 % de las personas realmente inocentes sometidas a
exámenes poligráficos del FBI evitarían el interrogatorio y, por lo
tanto, el 83 % de los realmente inocentes se ve sometido
innecesariamente al riesgo de hacer una confesión falsa.
La preocupación por el impacto de los exámenes poligráficos
mal utilizados o mal interpretados está bien documentada en la
literatura sobre falsas confesiones (por ejemplo, véase Kassin,
Drizin, et al., 2010). Esa preocupación se ve amplificada por el
hecho de que las personas, incluida la policía (Honts, Kassin, et
al., 2014; Kassin, Meissner, et al., 2005) y los examinadores
poligráficos (Honts, Forrest, et al., 2019) son incapaces de
discriminar las confesiones verdaderas de las falsas. El hecho de
que cuatro de cada cinco sujetos realmente inocentes examinados
por el FBI sean interrogados sugiere fuertemente que, en esas
condiciones, las pruebas poligráficas pueden ser un factor importante
que conduzca a confesiones falsas. Sin embargo, véase también
Bonpasse (2013), que documentó el papel a veces (14,4%) de las
pruebas poligráficas en las condenas erróneas, pero también
documentó que para la mayoría de los condenados erróneamente en
los que se realizaron pruebas poligráficas antes de la condena, el
24 HONTS ET AL.

hecho de que las pruebas poligráficas son pruebas psicológicas y que


ámbito de la regulación de las pruebas psicológicas. En Estados
las pruebas poligráficas deben ser reguladas como tales, esto parece
Unidos este hecho ha dejado en manos de los distintos estados y
muy poco probable. Mientras tanto, la transparencia parece ser el
de las organizaciones profesionales el establecimiento de
remedio más fácilmente alcanzable. La larga experiencia de 44 años
estándares y la regulación de la formación y la práctica de los
del Estado de Nuevo México admitiendo los resultados de las
examinadores poligráficos. Actualmente solo 26 de los 50 Estados
pruebas poligráficas en
Unidos otorgan licencias a los examinadores poligráficos (APA,
2019a, 2019b). Los requisitos de licencia varían drásticamente de
un estado a otro. Las normas éticas son proporcionadas por los
diversos grupos profesionales (por ejemplo, APA, 2015). Sin
embargo, esas normas se aplican rara vez y de manera
inconsistente y no tienen fuerza sobre los no miembros. Del mismo
modo, las organizaciones profesionales han proporcionado normas
de práctica (por ejemplo, APA, 2018). Sin embargo, esas normas
parecen ser consultivas y no vinculantes. La APA acredita escuelas
de polígrafo (APA, 2019a, 2019b), pero hay un número de escuelas
de examinadores de polígrafo activas que no tienen acreditación y
un número sustancial de examinadores en ejercicio no se han
graduado de una escuela acreditada por la APA (para un ejemplo e
información adicional ver, Honts & Handler, 2013). Además, incluso
en las mejores situaciones, los requisitos para realizar pruebas
poligráficas están muy por debajo de los necesarios para
administrar e interpretar incluso las pruebas psicológicas más
sencillas. En los Estados Unidos esta falta de regulación, estándares,
prácticas y ética unificadas ha creado una situación en la que se
deja a los usuarios finales tomar decisiones sobre la calidad de la
práctica poligráfica que generó los resultados de la prueba que se
les presentan. Desafortunadamente, parece ser una evaluación que
a menudo están mal preparados para hacer.

6.1.4 | Contramedidas

Las contramedidas son cualquier cosa que el sujeto de una prueba


pueda hacer para distorsionar o cambiar el resultado de esa prueba.
Las pruebas poligráficas en general, y la CQT en particular, han
demostrado ser vulnerables a las contramedidas (véase la revisión
de Honts, 2014) en experimentos. Sin embargo, la frecuencia y
eficacia de las contramedidas en la práctica sobre el terreno sigue
siendo anecdótica. Se trata de un ámbito en el que se necesita más
investigación. Sin embargo, es fundamental señalar que esta
vulnerabilidad a las contramedidas y la preocupación por ellas es
común a todas las pruebas en las que el sujeto de la prueba tiene
algo que ganar o perder con el resultado de la prueba. El CQT no
es en absoluto único en este sentido y la existencia de
contramedidas no debería eliminar el uso aplicado del CQT como
no lo haría con cualquier test de CI, test de personalidad u otra
evaluación psicológica.

6.2 | Posibles soluciones

Sería muy deseable una regulación unificada, universal y vinculante


que definiera los estándares de formación, prácticas y ética, junto
con una licencia universal para los examinadores poligráficos. Sin
embargo, en lugar de que la Psicología como profesión asuma el
HONTS ET AL. 25
Ben-Shakhar (2019) se hacen eco de creencias similares en su
tribunales de justicia pueden proporcionar alguna orientación. La
instancia de que el campo y el laboratorio son cualitativamente
parte central del aparente éxito de Nuevo México admitiendo
diferentes debido al contenido emocional de los entornos de campo.
resultados de pruebas poligráficas como evidencia parece ser su
Sin embargo, los resultados de nuestro metaanálisis han falsificado
Regla de Evidencia 11-707 (N.M. R. Evid. 11-707, 2015). La Tabla
claramente ambas posturas al demostrar que el CQT proporciona
S5 en nuestro Archivo Suplementario B describe los requisitos
un alto nivel de
para que el resultado de una prueba poligráfica sea admisible en
los tribunales de Nuevo México. La Regla 11-707 requiere
documentación a través de la provisión de todos los datos de la
prueba poligráfica y una grabación del examen a cualquier parte
contraria. Esos materiales deben ser proporcionados por lo menos
30 días antes de cualquier procedimiento legal y todas las pruebas
poligráficas tomadas por el examinado deben ser reveladas. Esta
transparencia parece haber funcionado bien en Nuevo México
durante 44 años, y los requisitos de la Regla 11-707 parecen ser
un buen punto de partida para la profesión poligráfica con el fin de
proporcionar transparencia a todas las pruebas poligráficas.

6.3 |Teoría y el CQT

Por último, nos gustaría abordar la crítica de larga data,


reafirmada más recientemente por Iacono y Ben-Shakhar (2019),
de que el CQT no debería usarse porque falta una teoría integral
que explique cómo funciona el CQT. Consideramos que la crítica
de Iacono y B e n - Shakhar (2019) carece de fundamento por
dos motivos. En primer lugar, el argumento de Iacono y Ben-
Shakhar ( 2 0 1 9 ) es un argumento ilógico de hombre de paja. No
hay ningún requisito de que e x i s t a una teoría explicativa
completa antes de utilizar una tecnología (Honts y R e a v y ,
2 0 1 5 ). Honts y Reavy ( 2 0 1 5 ) detallan específicamente el
hecho de que la aspirina, en uso clínico desde finales de 1800,
aún carece de una explicación teórica completa de su acción
médica. A pesar de esta falta de una teoría completa, el consumo
médico mundial de aspirina en 1998 superó las 40.000 toneladas
métricas al año (Warner & Mitchell, 2002). Los resultados del
presente análisis muestran claramente que la TCQ funciona,
aunque no de forma perfecta. Más aún, la CQT funciona mucho
mejor en la evaluación de la credibilidad que los humanos no
asistidos en la detección del engaño interpersonal. A pesar de
este hallazgo, Iacono y Ben-Shakhar (2019) harían que las fuerzas
del orden de todo el mundo abandonaran la CQT en favor de la
detección de engaño interpersonal casi por casualidad.
Consideramos que esa postura es indefendible. La segunda
debilidad sorprendente del argumento de Iacono y Ben-Shakhar
(2019) sobre la falta de teoría CQT es simplemente que su
argumento es falso a primera vista. Hay ofertas teóricas
relativamente recientes que son consistentes con la literatura de
investigación existente. Ginton (2009) propuso una teoría cognitiva
que se centra en la atención. Senter et al. (2010) propusieron otra
teoría cognitiva basada en la relevancia de las preguntas. Honts
(2014) propuso una teoría de la CQT que adaptaba la teoría de la
Carga Cognitiva (Demanda) propuesta por Vrij y sus colegas (Vrij,
2008; Vrij, Fisher, et al., 2006) como marco teórico para comprender
la inter-
decepción personal.
Muchos profesionales de campo afirman creer que el miedo a
la detección es el mecanismo subyacente de la CQT. Iacono y
26 HONTS ET AL.

que se puede considerar fácilmente que lo más probable es que se


Si, como muestran los resultados de nuestro metaanálisis, los
haya derivado como un retroceso. Es decir, parece probable que el
resultados son similares en los estudios de laboratorio sin incentivos
experimento mental comenzara con su conclusión deseada y
y en los estudios en los que las personas se enfrentan a la pérdida
trabajaran hacia atrás en busca de las precon- diciones únicas que
de riqueza, libertad o incluso la vida, entonces es evidente que no
producirían esa conclusión deseada (Honts & Thurber, 2019a,
existe miedo a la discriminación. Si, como demuestran los resultados
2019b). Además, aquí informamos sobre 42 estudios de campo
de nuestro metaanálisis, los resultados son similares en los estudios
publicados en revistas revisadas por pares. En contraste con el
de laboratorio sin incentivos y en los estudios en los que las
experimento mental, no hay ni un solo estudio en el que el número
personas se enfrentan a la pérdida de riqueza, libertad o incluso la
de resultados positivos falsos sea igual o superior al número de
vida, está claro que ni el miedo ni ninguna emoción son condiciones
resultados positivos verdaderos.
sine qua non para que la TCC funcione o pueda estudiarse
científicamente.
Sin embargo, el significativo efecto lineal de la motivación sobre
el grado de discriminación se explica fácilmente dentro de
cualquiera de las teorías cognitivas citadas anteriormente. El
aumento de la motivación simplemente ayuda a definir la
concentración del sujeto en las preguntas del test que le resultan
críticas, es decir, las preguntas de comparación para los realmente
inocentes y las preguntas relevantes para los realmente culpables.
Sin embargo, lo que falta en la literatura de investigación actual
sobre el CQT son estudios diseñados deliberadamente para probar
las predicciones que se derivan de estas teorías cognitivas e
investigaciones orientadas a la validación constructiva de los
mecanismos cognitivos propuestos. Estudios similares a los de Vrij,
Mann, et al. (2008), en los que se analizan los efectos de la
manipulación de la carga cognitiva sobre la capacidad de engaño
en la detección interpersonal, deberían ser relativamente fáciles de
realizar con el CQT si los científicos y los organismos de
financiación están dispuestos a asumir el trabajo para avanzar
directamente en nuestra comprensión teórica en este campo.

6.4 |Comentarios finales

El desacuerdo académico moderno sobre el CQT ha durado ya más


de cinco décadas y varias generaciones de científicos. No nos
hacemos ilusiones de que este metaanálisis vaya a resolver este
conflicto. Sólo pedimos a los lectores indecisos que vean los datos
con una mente abierta y consideren los dos puntos siguientes. En
primer lugar, nos gustaría señalar que los argumentos en contra de
la validez del CQT carecen ahora casi por completo de datos.
Aunque existen algunos experimentos y estudios de campo con una
precisión muy baja, nuestros análisis demuestran que esos estudios
son valores atípicos y no representativos de la tendencia central de
la literatura de investigación. Además, en contra de las suposiciones
y predicciones de los críticos de la CQT, descubrimos que no se
requería una fuerte motivación contingente a los resultados para el
trabajo con la CQT y que la relación entre la precisión de la CQT y
la motivación era positiva, continua y lineal.
En segundo lugar, a falta de datos, Iacono y Ben-Shakhar
(2019) pregonan un experimento mental que, según ellos,
demuestra que es posible que una técnica de azar produzca una
alta precisión en un estudio de campo. Sin embargo, no hay datos
que apoyen ese experimento mental y este, como todos los
experimentos mentales, es una pura invención de la mente.
Además, su invención se basaba en tantos supuestos insostenibles
HONTS ET AL. 27

resultados. Los críticos de la CQT le harían creer que los 42 de


esos estudios revisados por pares son artefactos inválidos y que
las revisiones por pares de esas revistas y/o los editores de esas
revistas son incompetentes o deshonestos. Pedimos a nuestros
lectores que consideren cuál de las siguientes proposiciones es la
más lógica, parsimoniosa y probable. En primer lugar, la precisión
de la CQT no es mejor que el azar en el mundo real y la CQT tiene
una relación no lineal discontinua con la motivación que es invisible
en la literatura revisada por pares porque todos los estudios del
mundo real son inexactos y se publicaron sólo por la
deshonestidad y la incompetencia de las revistas científicas
implicadas. Alternativamente, la CQT es una herramienta
imperfecta que comete algunos errores, la CQT tiene una relación
continua lineal positiva con la motivación, y la CQT es lo
suficientemente precisa como para proporcionar una ganancia de
información sustancial a los responsables de la toma de decisiones
que sólo son capaces de detectar el engaño con un 54% de
precisión.

CONFLICTO DE INTERESES
El primer autor está licenciado como examinador poligráfico y
realiza exámenes poligráficos forenses. También trabaja como
consultor y testigo experto sobre la calidad de los exámenes
poligráficos y sobre el uso de los exámenes poligráficos como
contribuyentes a las confesiones falsas. El segundo autor no tiene
conflictos de intereses que revelar. El tercer autor está licenciado
como examinador poligráfico y realiza exámenes poligráficos
forenses. También trabaja como consultor y testigo experto sobre la
calidad de los exámenes poligráficos. El tercer autor es el editor de
la revista Polygraph & Forensic Credibility Assessment: A Journal of
Science and Field Practice.

ACUSE DE RECIBO
Este trabajo ha sido financiado por el Departamento de Ciencias
Psicológicas de la Universidad Estatal de Boise.

DECLARACIÓN DE DISPONIBILIDAD DE DATOS


Los datos analizados en este estudio están disponibles en los
Materiales complementarios de este informe.

ORCID
Charles R. Honts https://orcid.org/0000-0002-6925-731X

NOTA FINAL
1 Los críticos del CQT también han criticado a menudo los lugares
donde se publicó la investigación. En particular, la revista Polygraph,
ahora conocida como Polygraph & Forensic Credibility Assessment: A
Journal of Science and Field Practice (PFCA) fue descartada como un
lugar científico válido por Iacono y Ben-Shakhar (2019), "Polygraph no
está actualmente editado por un científico, ni lo ha estado en el
pasado; no es una revista científica revisada por pares." (p. 89). La
mayoría de las afirmaciones de Iacono y Ben-Shakhar (2019) sobre
PFCA son simplemente falsas. Los artículos científicos enviados a
Polygraph/PFCA han sido revisados por pares al menos desde 1983,
ya que el actual primer autor tiene conocimiento personal de que
Honts y Hodes (1983) fue revisado por pares y se solicitaron
revisiones antes de su publicación. Todos los artículos publicados en
PolygraphjPFCA han sido revisados por pares desde principios de
2000. Desde 2002, PolygraphjPFCA ha sido indexada por Criminal
Justice Abstracts y Criminal Justice Abstracts With Full Text (EBSCO,
2019). Si bien es cierto que el actual editor de PFCA no
28 HONTS ET AL.

attention in the CQT polygraph examination. Polygraph, 38(3), 204-


tiene credenciales académicas, ha sido coautor de varios artículos
217.
publicados revisados por pares y es coautor de este manuscrito.
Ginton, A. (2013). Un método no estándar para estimar la precisión de las
Además, Iacono y Ben-Shakhar no mencionan que las personas con
técnicas de detección de mentiras demostrado en un conjunto
credenciales académicas y nombramientos académicos han sido
autovalidado de campo.
siempre editores asociados de PolygraphjPFCA. En la actualidad,
nueve de los editores asociados tienen credenciales académicas. La
participación directa de académicos en el consejo editorial de
PolygraphjPFCA ha sido una realidad al menos desde 1988. A pesar
de la tergiversación de Iacono y Ben-Shakhar sobre el estatus de
PolygraphjPFCA, la codificamos correctamente como una revista
revisada por pares.

REFERENCIAS
Asociación Americana del Polígrafo. (2011). Estudio meta-analítico de la
precisión de criterio de las técnicas poligráficas validadas.
Polygraph, 40(4), 194-305. https://doi.org/10.1016/b978-0-12-
802924-4.09986-2.
Asociación Americana de Poligrafía. (2015). Código deontológico:
Asociación americana de poligrafía. Asociación Americana de
Poligrafía.
Asociación americana de poligrafía. (2018). Normas de práctica de la APA.
Asociación Ameri- cana de Poligrafía.
Asociación americana de poligrafía. (2019a). Encuentre un miembro.
Obtenido de https://apoa.memberclicks.net/find-a-member#/
Asociación americana de poligrafía. (2019b). Juntas y asso-ciaciones
estatales de licencias. Obtenido de
https://apoa.memberclicks.net/state- licensing-boards-associations
Bermúdez, M. N., & Arias, S. W. (2010). La prueba del polígrafo en
Colombia.
Polygraph, 40(2), 124-130.
Bermúdez M. N., & Arias S. W. (2011). La prueba del polígrafo en
Colombia. Poligrafía. 40(2), 124-130.
Bonpasse, M. (2013). Polygraph and 215 wrongful conviction exonera-
tions. Polygraph, 42(2), 112-127.
Borenstein, M., Hedges, L., Higgins, J., & Rothstein, H. (2014).
Comprehen- sive meta-analysis, versión 3. Biostat.
Borenstein, M., Hedges, L., Higgins, J. P. T., & Rothstein, H. (2009).
Intro- duction to meta-analysis. John Wiley & Sons.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2ª
ed.). Erlbaum.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159.
https://doi.org/10.1037//0033-2909.112.1.15.
Craig, R. A., Raskin, D. C., & Kircher, J. C. (2011). El uso de medidas
fisiológicas para detectar el engaño en menores. Polygraph, 40(2),
86-99.
DePaulo, B. M., Kashy, D. A., Kirkendol, S. E., Wyer, M. M., & Epstein, J.
A. (1996). Lying in everyday life. Journal of Personality and Social
Psychol- ogy, 70(5), 979-995. https://doi.org/10.1037/0022-
3514.70.5.979.
Daubert, V. Merrell Dow Pharmaceuticals, 509 U.S. 579, (1993). https://
supreme.justia.com/cases/federal/us/509/579/.
Duval, S., y Tweedie, R. (2000). Trim and fill: A simple funnel-plot-based
method of testing and adjusting for publication bias in meta-analysis.
Biometrics, 56(2), 455-463. https://doi.org/10.1111/j.0006-341x.
2000.00455.x.
EBSCO. (2019). Criminal Justice Abstracts j EBSCO cjacoverage.xls y
i3hcoverage.xls. Obtenido de https://www.ebsco.com/products/
research-databases/criminal-justice-abstracts.
Elaad, E., Ginton, A., & Jungman, N. (1992). Detection measures in real-
life criminal guilty knowledge tests. Journal of Applied Psychology,
77(5), 757-767. https://doi.org/10.1037/0021-9010.77.5.757.
Elder, J. (2020). AUC: A fatally flawed model metric. Statistic.com: Blog
Recuperado de https://www.statistics.com/auc-a-fatally-flawed-
model-metric/?inf_contact_key=ab87743d74
21f0c03c18f4eaa836f1aa4dfbc39d7283b2cb89d5189540b69330
Ginton, A. (2009). Relevant issue gravity (RIG) strength - A new concept in
PDD that reframes the notion of psychological set and the role of
HONTS ET AL. 29
physical countermeasures reduce the accuracy of polygraph tests.
exámenes poligráficos. Psychology, Crime & Law, 19(7), 577-594.
Journal of Applied Psychology, 79(2), 252-259.
https://doi.org/10.1080/1068316X.2012.656118.
https://doi.org/10.1037/0021-
Ginton, A. (2020). A critical examination of Iacono and Ben-Shakhar's
9010.79.2.252.
cri- tique of Ginton's innovative technique for estimating polygraph
CQT accuracy in real-life cases. Journal of Investigative
Psychology and Offender Profiling, 17(3), 296-309.
https://doi.org/10.1002/jip.1558.
Granhag, P. A., & Strömwall, L. A. (2004). La detección del engaño en
contextos forenses. Cambridge University Press.
Grubin, D., Kamenskov, M., Dwyer, R. G., & Stephenson, T. (2019).
Pruebas posteriores a la condena de delincuentes sexuales.
International Review of Psychiatry, 31(2), 141-118.
https://doi.org/10.1080/09540261.2018.1561428.
Guodong, D. (2020) ¿Es la prueba del polígrafo admisible como prueba en
China? China Justice Observer. Obtenido del sitio Web:
https://www.chinajusticeobserver.com/ a/is-a-polygraph-test-admissible-
as-evidence-in-china
Hand, D. J. (2009a). Measuring classifier performance: A coherent
alterna- tive to the area under the ROC curve. Machine Learning,
77(1), 103-123. https://doi.org/10.1007/s10994-009-5119-5.
Hand, D. J. (2009b). Modelos desajustados, resultados erróneos y
decisiones terribles: On choosing appropriate data mining tools.
Ponencia presentada en: KDD'09: Proceedings of the 15th ACM
SIGKDD international confer- ence on Knowledge discovery and
data mining. pp. 1-2.
Hartwig, M., y Bond, C. F. (2011). ¿Por qué fallan los cazadores de
mentiras? A lens model meta-analysis of human lie judgments.
Psychological Bulletin, 137(4), 643-659.
https://doi.org/10.1037/a0023589.
Hartwig, M., y Bond, C. F. (2014). Detección de mentiras a partir de
múltiples indicios: A meta-analysis. Applied Cognitive Psychology,
28(5), 661-676. https:// doi.org/10.1002/acp.3052.
Hira, S., y Furumitsu, I. (2002). Polygrapic examinations in Japan:
Applica- tion of the guilty knowledge test in forensic investigations.
Interna- tional Journal of Police Science & Management, 4(1), 16-27.
https://doi. org/10.1177/146135570200400103.
Honts, C. R. (2004). La detección psicofisiológica del engaño. En P.
Granhag & L. Strömwall (Eds.), Detection of deception in forensic
con- texts (pp. 103-123). Cambridge University Press.
Honts, C. R. (2014). Contramedidas y evaluación de la credibilidad. En D.
C. Raskin, C. R. Honts, & J. C. Kircher (Eds.), Credibility assessment:
Scien- tific research and applications (pp. 131-158). Academic
Press.
Honts, C. R. (2017). Current FBI polygraph practices put the innocent
at high risk of wrongful accusation, interrogation, and false
confession [Presentación de ponencia]. Reunión de la American
Psychology - Law Society, Seattle, WA.
Honts, C. R., Amato, S. y Gordon, A. (2000). Validity of outside-issue
ques- tions in the control question t e s t : Final report on grant
no. N00014-98-1-0725. Submitted to the Office of Naval Research
and the Department of Defense Polygraph Institute. Applied
Cognition Research Institute, Boise State University. DTIC Accession#
ADA376666. Obtenido de
https://apps.dtic.mil/sti/pdfs/ADA376666.pdf
Honts, C. R., Forrest, K., & Stephanescu, A. (2019). Examinadores
poligráficos incapaces de discriminar confesiones juveniles
verdaderas y falsas. Evaluación de la credibilidad poligráfica y forense:
A Journal of Science and Field Practice, 48(1), 1-9.
Honts, C. R., y Handler, M. (2013). A case study of the validity of the
Arther examination procedures in a criminal case with DNA
confirma- tion. Polygraph, 42(2), 61-71.
Honts, C. R., y Hodes, R. L. (1983). The detection of physical
countermea- sures. Polygraph, 12, 7-17.
https://doi.org/10.1037/0021-9010.70.
1.177.
Honts, C. R., Kassin, S. M., & Craig, R. (2014). "Reconocería una
confesión falsa si la viera": Una réplica constructiva con menores.
Psychology, Crime & Law, 20(7), 695-704.
https://doi.org/10.1080/1068316X.
2013.854792.
Honts, C. R., Raskin, D. C., & Kircher, J. C. (1994). Mental and
30 HONTS ET AL.

Munsterberg, H. (1908). Las huellas de la emoción. En En el banquillo de


Honts, C. R., Raskin, D. C., & Kircher, J. C. (2008). Estado científico: El
los testigos: Essays on psychology and crime (pp. 111-134). The McClure
caso de las pruebas poligráficas. En D. L. Faigman, M. J. Saks, J.
Company.
Sanders, & E. Cheng (Eds.), Modern scientific evidence: The law and
science of expert testimony (volumen 5): Edición 2008-2009.
Thompson West.
Honts, C. R., y Reavy, R. (2015). La prueba poligráfica de comparación de
preguntas: Un contraste de métodos y puntuación. Physiology and
Behavior, 143, 15-26. https://doi.org/10.1016/j.physbeh.2015.02.028.
Honts, C. R., & Schweinle, W. (2009). Information gain of psychophysio-
logical detection of deception in forensic and screening settings.
Applied Psychophysiology and Biofeedback, 34(3), 161-172. https://doi.
org/10.1007/s10484-009-9096-z.
Honts, C. R., & Thurber, S. (2019a). A comprehensive meta-analysis of the
comparison question polygraph test [Presentación de ponencia].
Reunión anual de la Sociedad Americana de Derecho Psicológico,
Portland, Oregón.
Honts, C. R., & Thurber, S. (2019b). Analizando el experimento mental de
Iacono sobre los estudios de campo del polígrafo: ¿Razón o fantasía?
Evaluación de credibilidad poligráfica y forense: A Journal of Science
and Field Practice, 48, 76-86.
https://doi.org/10.13140/RG.2.2.21263.33448.
Iacono, W. G., & Ben-Shakhar, G. (2019). Estado actual de la detección
forense de mentiras con la prueba de preguntas de comparación:
Una actualización del informe de la Academia Nacional de Ciencias
de 2003 sobre las pruebas poligráficas. Law and Human Behavior,
43(1), 86-98. https://doi.org/10.1037/lhb0000307.
Iacono, W. G., & Lykken, D. T. (1997). El estado científico de la
investigación sobre técnicas poligráficas: El caso contra las pruebas
poligráficas. En D. L. Faigman, D. Kaye, M. J. Saks, & J. Sanders
(Eds.), Science in the law: Social and behavioral sciences issue,
American casebook series (pp. 582-618). West Group.
IBM. (2017). IBM SPSS Statistics, V. 25.
Jones, C. M., & Athanasiou, T. (2005). Summary receiver operating
charac- teristic curve analysis techniques in the evaluation of
diagnostic tests. The Annals of Thoracic Surgery, 79(1), 16-20.
https://doi.org/10.1016/ j.athoracsur.2004.09.040.
Kassin, S. M., Drizin, S. A., Grisso, T., Gudjonsson, G. H., Leo, R. A., &
Redlich, A. D. (2010). Confesiones inducidas por la policía: Risk factors
and rec- ommendations. Law and Human Behavior, 34(1), 3-38.
https://doi.org/ 10.1007/s10979-009-9188-6.
Kassin, S. M., Meissner, C. A., & Norwick, R. J. (2005). "Reconocería
una confesión falsa si la viera": A comparative study of college
students and police investigators. Law and Human Behavior, 29(2),
211-227. https://doi.org/10.1007/s10979-005-2416-9.
Kircher, J. C., Horowitz, S. W., & Raskin, D. C. (1988). Meta-analysis of
mock crime studies of the control question polygraph technique. Law
and Human Behavior, 12(1), 79-90. https://doi.org/10.1007/
bf01064275.
Kraujalis, L., Kovalenko, A., & Saldziunas, V. (2007). Aspectos legales y
prácticos del uso del polígrafo en la República de Lituania. European
Polygraph, 1(1), 17-23.
Lee, V. Martinez, 2004-NMSC-027, 136 N.M. 166, 96 P.3d 291 (2004).
https://law.justia.com/cases/new-mexico/supreme-court/2004/8c0a.
html.
Lykken, D. T. (1978). El psicópata y el detector de mentiras.
Psychophysiol- ogy, 15(2), 137-142. https://doi.org/10.1111/j.1469-
8986.1978. tb01349.x.
Mao, Y., Liang, Y. y Hu, Z. (2014). Tasa de precisión de la detección de
mentiras en China: Estimación de la validez de CQT en casos de
campo. Physiology and Behavior, 140, 104-110.
https://doi.org/10.1016/j.physbeh.2014.11.063.
Matsuda, I., Ogawa, T., & Tsuneoka, M. (2019). Ampliando el uso de la
prueba de información oculta en el campo. Frontiers in Psychiatry,
10, 24. https://doi.org/10.3389/fpsyt.2019.00024.
Meijer, E. H., y von Koppen, P. J. (2008). Los detectores de mentiras y la
ley: El uso del polígrafo en Europa. En D. Canter & R. Zukauskiene
(Eds.), Psy- chology and the law: Bridging the gap (pp. 31-50). Taylor
and Francis.
HONTS ET AL. 31
Oficina de Estadísticas de Justicia de los Estados Unidos. (2019).
Consejo Nacional de Investigación de la Academia Nacional de Ciencias.
(2003). Detalle de preguntas frecuentes: Cuál es la probabilidad de condena
El polígrafo y la detección de mentiras. The National Academies Press. para los acusados de delitos graves? Obtenido de
Regla 11-707 de pruebas de Nuevo México. (2015). N.M. R. Evid. 11- https://www.bjs.gov/index.cfm?ty=qa&iid=403
707: Regla 11-707 - Exámenes poligráficos. Enmendada por la
Orden de la Corte Suprema No. 15-8300-012, efectiva para todos
los casos presentados o pendientes a partir del 31 de diciembre de
2015.
Osumi, M. (2019). La tasa de criminalidad de Japón alcanza su
mínimo de posguerra, pero aumentan los abusos a menores, la
violencia doméstica y los delitos cometidos por ancianos. The
Japan Times. Obtenido de
https://www.japantimes.co.jp/news/2019/11/29/ national/crime-
legal/japans-crime-rate-hits-postwar-low-report-shows- rise-child-
abuse-domestic-violence-offenses-elderly/#.X0VgLS3MxTY
Philippe, R des B, (2020). Loi modifiant le Code d'instruction criminelle
en ce qui concède l'utilisation du polygraphe (1), Belgish
Staatsblad, 21 de febrero de 2020, Montieur Belge, p. 10239-
10240.
Podlesny, J. A. (1993). ¿Es la técnica del polígrafo del conocimiento
culpable appli- cable en investigaciones criminales? Crime
Laboratory Digest, 20(3), 57-61.
Raskin, D. C. (1986). El polígrafo en 1986: Scientific, professional and
legal issues surrounding application and acceptance of polygraph
evi- dence. Revista de Derecho de Utah. 1986(1):29-74.
Raskin, D. C., y Hare, R. D. (1978). Psychopathy and detection of
decep- tion in a prison population. Psychophysiology, 15(2), 126-136.
https:// doi.org/10.1111/j.1469-8986.1978.tb01348.x.
Raskin, D. C., y Honts, C. R. (2002). La prueba de comparación de
preguntas. En M. Kleiner (Ed.), The handbook of polygraph testing
(pp. 1-48). Academic.
Raskin, D. C., Honts, C. R., & Kircher, J. C. (1997). El estado científico
de la investigación sobre técnicas poligráficas: The case for
polygraph tests. En D. L. Faigman, D. Kaye, M. J. Saks, & J. Sanders
(Eds.), Modern scientific evidence: The law and science of expert testimony
(pp. 565-582). West Group.
Raskin, D. C., Honts, C. R. y Kircher, J. C. (2014). Evaluación de la
credibilidad: Investigación científica y aplicaciones. Academic Press.
Rosenthal, R. (1983). Evaluación de la importancia estadística y social de
los efectos de la psicoterapia. Journal of Consulting and Clinical
Psychology, 51(1), 4-13. https://doi.org/10.1037/0022-006X.51.1.4.
Rosnow, R. L., y Rosenthal, R. (2003). Effect sizes for experimenting
psy- chologists. Canadian Journal of Experimental Psychology,
57(3), 221-237. https://doi.org/10.1037/h0087427.
Salgado, J. F. (2018). Transformación del área bajo la curva normal
(AUC) en d de Cohen, rpb de Pearson, odds-ratio y log natural
odds-ratio: Two conversion tables. The European Journal of
Psychol- ogy Applied to Legal Contexts, 10(1), 35-47.
https://doi.org/10.5093/ ejpalc2018a5.
Senter, S., Weatherman, D., Krapohl, D., & Horvath, F. (2010). Conjunto
psicológico o saliencia diferencial: A proposal for reconciling theory
and terminology in polygraph testing. Polygraph, 39(2), 109-117.
Shadish, W. R., y Sweeney, R. B. (1991). Mediators and moderators in
meta-analysis: There's a reason we don't let dodo birds tell us
which psychotherapies should have prizes. Journal of Consulting and
Clinical Psychology, 59(6), 883-893. https://doi.org/10.1037/0022-
006x.59.
6.883.
Trovillo, P. V. (1939a). A history of lie detection. The Journal of Criminal
Law and Criminology, 29, 848-881.
Trovillo, P. V. (1939b). A history of lie detection (conclusión). The Journal
of Criminal Law and Criminology, 30, 104-119.
https://doi.org/10.2307/ 1136392.
EE.UU. contra Scheffer. 523 U.S. 303 (1998).
Estados Unidos vs. Jamaico Tennison. (2016) No. 15-cr-00212 MCA,
Tribunal de Distrito de los Estados Unidos para el Distrito de Nuevo
México, audiencia de supresión de 3 días de diciembre de 2015 a
febrero de 2016. Las transcripciones de la audiencia de supresión y
la orden del juez que finalmente suprime la confesión posterior al
polígrafo pueden descargarse de: https://www.dropbox.com/sh/
7lqrvp7u80ka4vs/AADeshbM0SALgrX4mp4gwRnKa?dl=0
32 HONTS ET AL.

Vrij, A. (2008). Detecting lies and deceit: Pitfalls and opportunities (2ª ed.). Centro de intercambio de información sobre lo que funciona (2008). Estándar
Wiley. de evidencia para la revisión de estudios: Version 1.0. Obtenido de
Vrij, A., Fisher, R., Mann, S., & Leal, S. (2006). Detección del engaño https://files.eric.ed.gov/fulltext/ED511668.pdf Widacki, J. (2007). Polygraph
mediante la manipulación de la carga cognitiva. Trends in Cognitive examinations in Poland. European Polygraph,
Science, 10(4), 141-142. https://doi.org/10.1016/j.tics.2006.02.003. 1(1), 24-34.
Vrij, A., Mann, S., Fisher, R., Leal, S., Milne, B., & Bull, R. (2008). Aumento Zhang, X. (2011). La evolución de las pruebas poligráficas en la República
de la carga cognitiva para facilitar la detección de mentiras: The Popular China. Polygraph, 40(3), 181-193.
benefit of recalling an event in reverse order. Law and Human
Behavior, 32(3), 253-265. https://doi.org/10.1007/s10979-007-9103-y.
INFORMACIÓN COMPLEMENTARIA
Warner, T. D., & Mitchell, J. A. (2002). Ciclooxigenasa-3 (COX-3):
¿Rellenando los huecos hacia un continuo COX? PNAS, 99(21), Encontrará más información de apoyo en l a sección Información de
13371-13373. https://doi.org/10.1073/pnas.222543099. apoyo al final de este artículo.
Wells, G. L., y Lindsay, R. C. L. (1980). On estimating the diagnosticity of
eyewitness nonidentifications. Psychological Bulletin, 88(3), 776-784.
https://doi.org/10.1037/0033-2909.88.3.776. Cómo citar este artículo: Honts CR, Thurber S, Handler
Wells, G. L., y Olson, E. A. (2002). Eyewitness identification: Information
M. A comprehensive meta-analysis of the comparison
gain from incriminating and exonerating behaviors. Journal of Experi-
mental Psychology: Applied, 8(3), 155-167. https://doi.org/10.1037/
question polygraph test. Appl Cognit Psychol. 2021;1-17.
1076-898x.8.3.155. https://doi. org/10.1002/acp.3779

Ver estadísticas de publicación

También podría gustarte