Está en la página 1de 19

Lección de Ciencia de Cinco Minutos: Pruebe su

Conocimiento Experto Sobre Ciencia y Pruebas Científicas


Raymond Nelson

Hay expertos de todos niveles y en todos los roles profesionales. Se espera que quienes
trabajan en investigación académica y ciencias básicas tengan una pericia profunda
en áreas de conocimiento especializadas. Se puede esperar que las personas que
trabajan en las ciencias aplicadas tengan algunos conocimientos y habilidades en
áreas múltiples, que cierren la brecha percibida entre la ciencia básica y la práctica de
campo. La pericia entre los profesionales de práctica de campo requerirá una
comprensión profunda del contexto, el tema, los métodos, las tecnologías y los aspectos
humanos del área de práctica profesional.

Algunas personas podrían ser expertas en roles múltiples. También hay personas que
pueden no aspirar a la pericia y, en cambio, estar satisfechas con un rol técnico. En el
contexto aplicado de la ciencia forense y de la evaluación de sujetos humanos, la
pericia también requerirá fluidez y familiaridad con el vocabulario conceptual de la
ciencia y de las pruebas científicas.

A continuación, hay una lista de 20 términos que son importantes en la ciencia y en


las pruebas científicas. Después de la lista de términos, hay una breve explicación de
cada elemento. Algunos de estos términos involucrarán conceptos de estadística y
probabilidad. Esto se debe a que las matemáticas, la lógica y la estadística son parte
indisoluble del proceso y de la práctica de la ciencia. No es necesario, razonable o útil
esperar que los profesionales de campo de cualquier área de la práctica profesional
calculen manualmente cualquier fórmula estadística. Las computadoras hoy en día
hacen un uso confiable de la información estadística.

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
Además, no es necesario memorizar una definición sucinta de estos conceptos, de
manera que se pueda proporcionar una respuesta o explicación solicitada en cualquier
momento. Muchos de estos conceptos son áreas de discusión muy amplias para las
cuales pueden existir múltiples perspectivas y matices. Sin embargo, los profesionales
que se consideran expertos - y aquellos que desean ser considerados expertos por otros
- deben estar familiarizados con estos conceptos, de manera que puedan reconocer su
importancia y aplicación en la práctica de campo.

1. Ciencia / pruebas científicas

2. Determinista

3. Medición

4. Hipótesis

5. Probabilidad (probabilidad frecuentista)

6. Probabilidad Bayesiana

7. Análisis Bayesiano

8. Alfa

9. Valor p

10. Distribución

11. Estadística (estadística de muestreo)

12. Parámetro (parámetro de población)

13. Estadística descriptiva

14. Prueba de significancia de hipótesis nula

15. Clasificador estadístico

16. Nivel de confianza

17. Intervalo de confianza

18. Tamaño del efecto

19. Confiabilidad

20. Validez

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
21. Multiplicidad (efectos de multiplicidad)

22. Extracción de características

23. Transformación numérica / reducción de datos

24. Función de probabilidad / modelo de referencia

25. Reglas de decisión

Discusión

1. Ciencia / pruebas científicas: La ciencia es una forma sistemática de adquirir y


organizar el conocimiento acerca de cómo existe la realidad y cómo funciona el
universo. El proceso de la ciencia involucra la recopilación y el análisis de datos para
investigar y filtrar a través de una variedad de posibles explicaciones sobre la realidad
y el universo. Todas las conclusiones científicas son relativas a alguna alternativa. La
ciencia y las pruebas científicas son un proceso sistemático de evaluación de los datos
/evidencia que apoyan una posible conclusión sobre de otra. Las pruebas científicas
pueden considerarse como una forma de experimento científico, para el cual los
resultados de las pruebas pueden ser una base de información para respaldar una
conclusión sobre un parámetro desconocido de interés. Un parámetro desconocido es
algún aspecto de la realidad y el universo que queremos saber pero que actualmente
no lo sabemos.

Cuando dos explicaciones son incompatibles, ambas no pueden ser correctas. Un


objetivo de la ciencia es falsear y rechazar explicaciones que no están respaldadas por
evidencia - aquellas que son inconsistentes con los datos o evidencia observables. Otro
objetivo es retener y usar explicaciones sobre la realidad y el universo respaldadas por
la evidencia. Sin embargo, una explicación es insatisfactoria y no puede aceptarse si
los datos o la evidencia pueden también respaldar razonablemente alguna otra
explicación. Y así, otro objetivo de la ciencia es evaluar la evidencia para diferentes
explicaciones acerca de cómo existe la realidad y de cómo funciona el universo. Las
pruebas de significancia de hipótesis nulas y el análisis Bayesiano son dos enfoques
estadísticos comúnmente utilizados para evaluar la fuerza de la evidencia para
diferentes explicaciones sobre la realidad y el universo.

La mayoría de las conclusiones científicas se hacen a pequeña escala, con respecto a


los detalles y minucias de la realidad y el universo. El conocimiento científico se
adquiere a mayor escala a través de la concordancia y la convergencia de diferentes

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
hipótesis, y a través del proceso de andamiaje de nuevo conocimiento sobre el
conocimiento previamente existente. (Hoy en día, todos los científicos y practicantes de
campo, como dijo Isaac Newton, "se pararon sobre los hombros de gigantes", para que
pudiéramos ver más allá). Debido a que muchas áreas del cuestionamiento científico
involucran fenómenos que no pueden estar sujetos a una observación determinista
perfecta o a una medición física directa, las estadísticas y las probabilidades son un
aspecto central de prácticamente todas las áreas de la ciencia. Las pruebas científicas
son fundamentalmente probabilísticas.

Como se indicó anteriormente, las pruebas científicas hacen uso de métodos y


principios científicos para obtener y analizar datos, para realizar conclusiones objetivas
y reproducibles ante la incertidumbre - cuando un criterio o parámetro desconocido
de interés no puede estar sujeto a una observación determinista o a una medición
física directa. Debido a que son fundamentalmente probabilísticas, no se espera que
las pruebas científicas sean infalibles; se espera que cuantifiquen el margen de
incertidumbre o el nivel de confianza que se puede asignar a una conclusión acerca
del parámetro desconocido de interés. En ocasiones, se puede pensar que las pruebas
científicas tienen la intención de reducir la incertidumbre, utilizando información
objetiva y métodos analíticos reproducibles dentro de una tolerancia aceptable, para
que el resultado o la conclusión de una prueba pueda considerarse como información
útil.

2. Determinista: Se refiere a hechos y eventos para los cuales nuestro conocimiento


o conclusiones se basan en observaciones que son siempre iguales. Las conclusiones
deterministas no están sujetas a influencia alguna del comportamiento humano o a la
variación aleatoria. La observación determinista es conceptualmente perfecta. Muchos
aspectos de la realidad y del universo exhiben variaciones aleatorias. Por ejemplo, los
caballos son generalmente más grandes que los perros, pero no todos los caballos y no
todos los perros son del mismo tamaño (y puede ocurrir que algún tipo de perros sean
más grandes que algún tipo de caballos). Además, muchos aspectos de la realidad y
del universo no son inmunes a la influencia del comportamiento humano. Esto no
sugiere que los humanos tengan un control completo sobre la realidad y el universo -
pero la mayoría de los científicos sociales opinan que los humanos pueden tomar
decisiones y que esas elecciones a veces pueden llevar a diferencias importantes. (Hay
una discusión profunda e interesante que involucra la relación del tiempo con la
realidad y la elección humana - las opciones y el cambio o la diferencia con la que
pueden influir las elecciones no pueden existir sin el tiempo). Finalmente, puede que
no sea posible alcanzar conclusiones deterministas perfectas sobre muchos aspectos
de la realidad y el universo.

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
3. Medición: Se refiere a una variedad de métodos de asignación de valores numéricos
objetivos y reproducibles a fenómenos observables que no pueden estar sujetos a una
observación determinista perfecta. La medición requiere tanto de un fenómeno físico
observable a través de los sentidos humanos o de la tecnología, y de una unidad de
medición bien definida. Las mediciones siempre están sujetas a algún grado de
variación aleatoria. La teoría estadística, en el paradigma frecuentista, surgió como
una forma de contabilizar el error de medición aleatorio. Nuestra capacidad para
calcular la variación esperada en las mediciones nos permite crear soluciones
tecnológicas más efectivas basadas en el grado de precisión de nuestra información de
medición.

4. Hipótesis: una idea científica que intenta explicar el estado de la realidad (el
universo) o de cómo funciona la realidad (el universo). Las hipótesis parecen ser
explicaciones, pero en realidad son preguntas para la investigación. La hipótesis debe
ser probada antes de que puedan aceptarse. La aceptación de una hipótesis sin
evidencia - sin pruebas - puede considerarse como una forma de conjetura. Los
experimentos científicos tienen la intención de falsear una hipótesis si es posible; no
prueban que una hipótesis es correcta. No se puede aceptar una hipótesis si los datos
o la evidencia podrían respaldar alguna otra explicación. Una hipótesis es una hipótesis
falsa cuando es inconsistente con la evidencia de la realidad. La confianza en una
hipótesis falsa, como si fuera válida, es un ejemplo de pseudociencia porque pretende
ser científica, pero viola los principios y requisitos de la ciencia.

Una hipótesis también se conoce como hipótesis alternativa (HA) porque todas las ideas
científicas son relativas a alguna explicación alternativa sobre la realidad o de cómo
funciona el universo. La antítesis de una hipótesis es la hipótesis nula (H0), que
generalmente establece que la hipótesis es incorrecta y no explica la evidencia o la
realidad. Los experimentos y las pruebas científicas a menudo están diseñadas para
intentar falsear la HA, identificando datos o evidencia que respalden o sean
consistentes con otras explicaciones como la H0.

La existencia de evidencia para explicaciones distintas a la de la HA es suficiente para


evitar la aceptación de HA. Cuando los datos y la evidencia observados son
inconsistentes con la H0 - cuando todas las explicaciones además de la HA son
inconsistentes con los datos observados - los resultados se pueden tomar como
evidencia en apoyo de HA. Los científicos no ven esto como prueba de HA, sino
simplemente una aceptación de la HA porque las otras explicaciones son
inconsistentes con la evidencia para un margen de error o nivel de tolerancia

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
establecido. Todas las teorías deben considerarse como teorías de trabajo porque
siempre hay más por aprender sobre la realidad y el universo.

5. Probabilidad (probabilidad frecuentista): la teoría de la probabilidad y las


estadísticas son el lenguaje matemático de la ciencia. Una probabilidad, en el
paradigma frecuentista de la estadística, se refiere a la frecuencia (conteo) de algo que
se observa en comparación con el número de posibles ocurrencias. Las probabilidades
de este tipo pueden usarse para estimar parámetros desconocidos utilizando los
principios de la teoría de muestreo junto con la ley de los grandes números y del
teorema del límite central.

La probabilidad frecuentista (teoría estadística frecuentista) supone que el estado de


la realidad existe de una manera y que los datos de muestreo están sujetos a
variaciones aleatorias o a errores de medición. Debido a que la ocurrencia de
fenómenos no observables no puede contarse, y debido a que las frecuencias y las
proporciones no pueden existir para fenómenos no repetibles, la probabilidad
frecuentista puede estar sujeta a limitaciones en la aplicación práctica. Por ejemplo:
¿quién ganará la Serie Mundial 2019? Los eventos de este tipo no son repetibles (la
Serie Mundial 2020 es un asunto diferente) y no son observables hasta que ocurran -
momento en el cual podremos observar y conocer la respuesta con certeza. En términos
prácticos, esto significa que la discusión acerca de las probabilidades frecuentistas
será considerada por algunos como formalmente sin sentido, absurda o como algun
tipo de parámetro desconocido. La noción Bayesiana de probabilidad tiene una
aplicación práctica potencialmente más amplia que la probabilidad frecuentista.

6. Probabilidad Bayesiana: la probabilidad, en el paradigma estadístico Bayesiano, se


refiere al grado de creencia que puede atribuirse a algunos fenómenos en
circunstancias inciertas. La probabilidad Bayesiana no implica necesariamente que la
probabilidad sea subjetiva, aunque algunas aplicaciones del análisis Bayesiano
pueden implicar el uso de información subjetiva que se actualiza con información
objetiva utilizando el teorema de Bayes. La probabilidad Bayesiana tiene aplicaciones
prácticas potencialmente más amplias para eventos que actualmente no son
observables o no se pueden repetir y es fundamental para el análisis Bayesiano. Las
discusiones Bayesianas sobre la probabilidad tienen el cuidado de diferenciar la
probabilidad previa (antes de una prueba o experimento científico) de la probabilidad
posterior (después de una prueba o experimento).

7. Análisis Bayesiano: Es el uso del teorema de Bayes, junto con la probabilidad


previa y algunos datos de prueba o experimentales para el cálculo de una probabilidad
posterior. Un teorema es una idea matemática que ha sido sometida a pruebas

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
matemáticas exhaustivas y repetidas. El teorema de Bayes fue desarrollado a mediados
del siglo XVIII por Thomas Bayes, y también por Simon Pierre Laplace de forma
independiente a principios del siglo XIX. El análisis Bayesiano tiene una amplia
aplicación en epidemiología, evaluación de amenazas, psicología social, medicina,
psicología, ciencias políticas, logística, econometría, inteligencia artificial / aprendizaje
mecánico y todas las áreas de la ciencia, pruebas, clasificación y predicción.

8. Alfa - Tolerancia al error tipo I (rechazo incorrecto de la H0 y aceptación de la HA),


establecido antes de realizar una prueba o experimento científico. Alfa también se
conoce como el nivel de significancia en el que se puede aceptar la HA. Normalmente
establecido en α = .05. El alfa se puede establecer en α = .01 para reducir el potencial
de error de Tipo I y se puede establecer en α = .10 para reducir el potencial de error de
Tipo II (rechazo incorrecto de la HA). Alfa, en términos prácticos, es un puntaje de corte
de probabilidad.

9. Valor P - Formalmente, un valor p es la probabilidad de obtener los datos observados


como extremos o más extremos bajo un modelo específico que representa una HA
establecida. Los valores P no son, en sí mismos, una estimación de la fuerza práctica
de una conclusión sobre la HA o la importancia de una conclusión sobre la HA. Los
valores P son una forma de clasificador estadístico común de las pruebas de
significancia estadística de hipótesis nulas (NHST). Un valor p, en términos prácticos,
es un puntaje de probabilidad.

10. Distribución (distribución de probabilidad) – Es una lista de todos los valores


posibles para algunos datos, junto con la probabilidad asociada de cada uno. Una
distribución también se puede considerar como una función matemática, o fórmula,
que nos dice la probabilidad de cada uno de los valores posibles. Existen diferentes
distribuciones de probabilidad que incluyen: la normal (Gaussiana o curva de
campana), asociada con una amplia variedad de fenómenos naturales, incluidos los
propios valores estadísticos; la distribución exponencial-logarítmica utilizada para
modelar, entre otras cosas, la disminución de las tasas de falla observadas en procesos
naturales y de ingeniería; la distribución binomial que describe las probabilidades
asociadas con eventos dicotómicos repetidos, como el lanzamiento de monedas; la
distribución multinomial que caracteriza las repeticiones o combinaciones de eventos
con más de dos resultados posibles; entre otras.

Existe una distribución de probabilidad para todos los fenómenos para los cuales
podemos expresar una probabilidad. Por ejemplo: si consideramos la hipótesis de que
el engaño y la veracidad son fenómenos coherentes o sistemáticos (es decir, las
diferencias entre la realidad y la veracidad o el engaño no es simplemente un caos

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
aleatorio), entonces, si un enunciado verbal es veraz o de engaño es un parámetro
desconocido de interés para el cual la distribución de probabilidad bajo la hipótesis
nula (es decir, las diferencias entre la realidad y la veracidad o el engaño no son
sistemáticas y pueden mejor entenderse como aleatorias), entonces la distribución de
valores [engaño, veracidad] está asociada con las probabilidades [ .5, .5].

11. Estadística (estadística de muestra): Es una medición única de algunos fenómenos


de interés, tomada de datos de muestreo. Por ejemplo: una media muestral o desviación
estándar muestral. En el uso común el término estadística a veces se aplica a los
valores de la población, como una media de una población o una desviación estándar
de una población. Una estadística es un estimador de un parámetro desconocido de
interés.

12. Parámetro (parámetro de población): Es una característica numérica de una


población (es decir, incluye a todos los miembros de un grupo finito). Mientras que las
estadísticas siempre se pueden calcular para cualquier muestra de datos, los
parámetros de la población no se pueden calcular para poblaciones que son infinitas
o no contables. En el contexto de las pruebas científicas, un parámetro también puede
ser una característica desconocida de un individuo. El término parámetro también se
utiliza para referirse a los valores de entrada utilizados para calcular una distribución
de probabilidad y se ha generalizado en la ciencia de datos para referirse a valores de
entrada, a diferencia de los datos, para cualquier procedimiento computacional.

13. Estadística descriptiva: Resumen numérico en forma de conteo, proporción u


otra estadística de frecuencia para una población. También se pueden calcular las
estadísticas descriptivas para una muestra. A diferencia de las estadísticas
inferenciales, las estadísticas descriptivas no se utilizan para hacer inferencias acerca
de un parámetro de población desconocido. La inferencia estadística es el proceso de
usar los datos y la teoría de la probabilidad para hacer inferencias sobre un parámetro
desconocido.

14. Prueba de significancia de hipótesis nula (NHST): También conocida como


prueba de hipótesis nula, es un método de estadística frecuentista de uso común para
evaluar datos o evidencias en apoyo de una hipótesis nula. Una hipótesis nula dice
generalmente que una hipótesis es incorrecta y no genera ninguna diferencia – de que
los datos observados (el tamaño del efecto observado) son el resultado de alguna
explicación distinta de la hipótesis, y que los datos observados son el resultado de la
variación esperada. Una explicación puede aceptarse solo si no puede ser falseada (es
decir, no es inconsistente con la evidencia de la realidad) y cuando otras explicaciones
posibles se eliminan con un grado aceptable de certeza. NHST fue una solución
This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
dominante para la evaluación de la evidencia científica a lo largo del siglo XX. El uso
del poder informático disponible y el deseo de tamaños de efecto prácticos e intuitivos
ha destinado que el análisis Bayesiano haya comenzado a eclipsar a la NHST en las
últimas décadas. Sin embargo, la NHST probablemente seguirá siendo importante a
pesar de las limitaciones de la teoría de la probabilidad frecuentista y del hecho de que
los valores p frecuentistas podrían no ser intuitivos para muchas personas.

15. Clasificador estadístico: Término general utilizado para describir el uso de datos
de una prueba o experimento científico para calcular un valor estadístico reproducible
para una clasificación o predicción. Cualquier valor estadístico reproducible puede ser
útil como clasificador estadístico. Sin embargo, un clasificador estadístico no pretende,
en sí mismo, ser una estimación del tamaño del efecto (es decir, no es una estimación
del nivel de confianza o de la confianza del resultado que puede asignarse a un
resultado o conclusión) sin un análisis adicional.

16. Nivel de confianza: Se refiere al tamaño o ancho de un intervalo de confianza. El


nivel de confianza se determina como 1 - alfa x 100%, de modo que el intervalo de
confianza será del 95% cuando α = .05. En el paradigma estadístico frecuentista, ni el
nivel de confianza ni el intervalo de confianza son estimaciones de la fuerza o nivel de
certeza que puede atribuirse a un resultado o conclusión.

17. Intervalo de confianza: En las estadísticas frecuentistas, un intervalo de


confianza es una estimación matemática del rango esperado en el que es probable que
se observe un parámetro desconocido tras la réplica continua de una prueba o
experimento científico. Un intervalo de confianza describe la proporción de réplicas que
contendrán el parámetro desconocido de interés (un concepto que es algo difícil y
fácilmente incomprendido). El tamaño del intervalo de confianza se determina como 1
- alfa x 100%, de modo que el intervalo de confianza será un intervalo de confianza del
95% cuando α = .05. Los intervalos de confianza tienen un límite superior y un límite
inferior. Para decisiones que involucran un grado de riesgo desconocido para el cual se
desea una estimación cuantitativa, que a menudo es el peor de los escenarios,
representado por el límite inferior de un intervalo de confianza para algo como la
sensibilidad y especificidad, es esa la información más útil. Alternativamente, sería el
extremo superior de la tasa de error o de las tasas no concluyentes, nuevamente en el
peor de los escenarios.

Un intervalo de confianza no es una estimación del tamaño del efecto (es decir, no es
una estimación de la fuerza práctica, importancia, o la confianza del resultado para un
resultado o conclusión). Un intervalo de confianza es solo una estimación de que el
tamaño del efecto observado puede deberse a una variación normalmente esperada,

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
como un error de medición aleatorio o una variación de muestreo. Se ha desarrollado
una variedad de métodos, cada uno con diferentes ventajas, para calcular los intervalos
de confianza.

En el análisis Bayesiano, un intervalo de confianza se conoce como un intervalo creíble


para diferenciar claramente las premisas teóricas (es decir, la probabilidad Bayesiana
o frecuentista) y el método de análisis (NHST o análisis Bayesiano), que influyen en los
tipos de inferencia que pueden ser realizados. Los intervalos de confianza frecuentista
se definen formalmente como la proporción de intervalos de confianza repetidos que
incluirán el parámetro desconocido de interés.

Esta es una definición recursiva (que se refiere a sí misma) que no es intuitiva para
muchos. Los intervalos creíbles (intervalos de confianza Bayesianos) pueden ser más
fácilmente interpretados de manera intuitiva, como el rango en el que probablemente
existe el parámetro desconocido, o como el rango en el que el parámetro desconocido
probablemente será calculado/observado/estimado al repetir una prueba o un
experimento científico.

La diferencia sutil y potencialmente confusa entre los intervalos frecuentistas y


Bayesianos es a consecuencia de las diferentes definiciones de probabilidad bajo la
teoría estadística frecuentista y Bayesiana. La probabilidad frecuentista se refiere a
fenómenos que son observables y repetibles, para los cuales el parámetro desconocido
no es ninguno. En la probabilidad frecuentista, los datos de observación o medición
son repetibles, por lo que la teoría frecuentista puede describir la probabilidad de que
los intervalos de confianza repetidos contendrán el parámetro desconocido de interés.
La probabilidad Bayesiana es una definición conceptual más ampliamente aplicable y
permite una estimación y declaración más directa sobre el parámetro desconocido en
sí.
18. Tamaño del efecto: Se refiere a la diferencia estimada de nuestro conocimiento o
conclusiones basadas en datos de una prueba o experimento científico. El tamaño del
efecto a veces se puede considerar como una forma de respuesta a la pregunta, ¿qué
diferencia real o práctica se logra con el resultado de una prueba o experimento
científico? O simplemente, ¿qué tan fuerte es el resultado? Debido a que todo el
conocimiento y conclusiones científicas son relativas a alguna alternativa, los tamaños
del efecto a menudo se expresan como una comparación de la fuerza de un resultado
observado con nuestro conocimiento bajo la hipótesis nula. Por ejemplo: ¿qué mejora
sobre del azar logra un clasificador estadístico? Los tamaños del efecto también se
pueden discutir en términos de la diferencia en la fuerza de nuestro conocimiento o
conclusiones cuando se utilizan diferentes hipótesis.

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
Mientras que los valores p son complicados por el tamaño de muestreo y la varianza
de la muestra, el tamaño de efecto no lo es. Esto significa que los tamaños de los efectos
son a menudo más simples de interpretar y más fáciles de usar que los valores p. Los
tamaños del efecto a veces se pueden discutir en unidades físicas de medida. Por
ejemplo: ¿cuál es el tamaño del efecto de la nutrición infantil en las tasas de crecimiento
físico? Los tamaños del efecto también se pueden expresar usando conceptos
probabilísticos.

Se pueden calcular diferentes tamaños de efecto para una prueba científica, incluidas
las tasas de error de sensibilidad/verdadero positivo (TP) y especificidad/verdadero
negativo (TN), falso positivo (FP) y falso negativo (FN). También se pueden combinar
diferentes efectos estadísticos para lograr una visión adicional del significado de los
datos observados de una prueba o experimento científico. Por ejemplo, las tasas TP,
TN, FN y FP se pueden combinar para calcular otras estimaciones de precisión de
decisión, como un valor predictivo positivo (PPV), un valor predictivo negativo (NPV),
un índice falso positivo (FPI) y el índice de falsos negativos (FNI) - u otras mediciones
de confianza en los resultados que están condicionadas a la información previa -
aunque pueden no ser resistentes a las muestras no balanceadas. Es importante
destacar que un tamaño del efecto, en sí mismo, no cuantifica la probabilidad de que
los datos observados se hayan producido debido a factores distintos al de una hipótesis
elegida (por ejemplo, variación aleatoria) porque no tiene en cuenta la variación del
muestreo.

El análisis Bayesiano está destinado a proporcionar una estimación intuitiva del


tamaño del efecto que se puede utilizar para la toma de decisiones prácticas. Por
ejemplo: ¿cuál es la probabilidad condicional o posterior de que una persona sea
engañosa o veraz? Pero una probabilidad posterior está condicionada a la probabilidad
previa - y un previo diferente produciría un posterior diferente. La probabilidad
posterior, en sí misma, no nos da una comprensión completa de la diferencia entre el
resultado observado o la conclusión y otros resultados o conclusiones posibles. Para
este propósito, una forma común del tamaño del efecto Bayesiano es el Factor Bayes
que nos dice el grado de cambio en la fuerza de nuestro conocimiento o conclusión
desde una probabilidad previa a una probabilidad posterior.

Los tamaños de los efectos pueden estar sujetos a una variación, y por esta razón a
veces es útil calcular un valor p o intervalo de confianza para un tamaño de efecto. En
el paradigma estadístico frecuentista, este intervalo se denomina intervalo de
confianza. En el paradigma estadístico Bayesiano, se conoce como un intervalo creíble.
El ancho o tamaño de este intervalo está determinado por un nivel de tolerancia que

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
se establece antes de realizar una prueba o experimento científico (a menudo α = .05).
En la discusión práctica, un intervalo de confianza para el tamaño de un efecto a
menudo se denomina más simplemente como un margen de error con énfasis en el uso
de unidades de medida prácticas e intuitivas. (Por ejemplo: una encuesta social puede
usar una muestra de participantes para calcular una estimación del tamaño del efecto
de que el 75% de otras personas podrían responder de cierta manera con un margen
de error del 3%). En la práctica, los tamaños del efecto pueden calcularse para
cualquier métrica, incluyendo las probabilidades decimales, las posibilidades, las
mediciones físicas y las puntuaciones unitarias arbitrarias.

19. Confiabilidad: Es una estimación de la repetibilidad de los resultados observados


de una prueba o experimento científico. La variación excesiva reducirá la probabilidad
de que se observen resultados similares al tiempo de la réplica. La confiabilidad a
menudo se discute como confiabilidad test-retest (también conocida como simplemente
confiabilidad de reevaluación) o confiabilidad inter-evaluadores (también conocida
como confiabilidad entre evaluadores). Una prueba no puede ser válida si no es
confiable. Es decir, una prueba no es útil si el resultado de la prueba no puede
replicarse con una nueva prueba del mismo sujeto o un nuevo análisis de los datos
existentes. No debe confundirse la confiabilidad de una prueba científica con su
validez. Aunque una prueba no puede ser válida a menos que primero sea confiable,
es posible que algunas pruebas sean confiables y aun así no sean válidas (es decir, los
resultados de la prueba pueden repetirse, pero no pueden lograr lo que se supone que
deben lograr).

20. Validez: Se refiere a si una conclusión, resultado de prueba o hipótesis es


consistente con la realidad. Se discuten varios tipos diferentes de validez en varios
contextos científicos que incluyen: validez aparente, validez de contenido, validez
interna, validez externa, validez ecológica, validez de constructo, validez concurrente,
validez convergente, validez predictiva y validez de criterio. En general, la discusión
sobre la validez de las pruebas científicas se referirá a la validez predictiva o la validez
de criterio (si una prueba puede lograr una decisión o clasificación correcta de un
parámetro desconocido), y la validez de constructo (si la teoría subyacente a la prueba
puede permitir la suposición de que mide lo que pretende medir).

21. Multiplicidad (efectos de pruebas múltiples) - Un fenómeno bien conocido en la


estadística, la investigación y el análisis de datos, en el que la probabilidad de una
inferencia errónea aumenta en función del uso de decisiones estadísticas múltiples
para llegar a una conclusión. Los efectos de multiplicidad pueden introducir el
potencial de inflación involuntaria de los límites alfa para la significancia estadística,

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
lo que lleva a un mayor error de tipo I o FP, cuando cualquier resultado
estadísticamente significativo conduce a una conclusión de significancia estadística; y
también puede introducir una deflación involuntaria de alfa cuando se requiere que
todas las inferencias estadísticas sean significativas antes de concluir que una prueba
o experimento es significativo.

Se han descrito ajustes matemáticos para tener en cuenta los efectos de multiplicidad,
incluyendo los de Bonferroni, Holm, Sidak y otros. Las correcciones estadísticas se
pueden aplicar tanto a un límite alfa o a un estadístico de prueba como a un valor p o
a posibilidades. La comprensión y el control de los tamaños de efecto esperados y las
tasas de error para pruebas científicas o experimentos que involucran comparaciones
estadísticas múltiples, requieren una comprensión cuidadosa de los límites alfa, de las
correcciones estadísticas y de las reglas de decisión, además de la probabilidad previa
o de la tasa de incidencia.

22. Extracción de características: Se refiere a la identificación y separación de una


información útil de señal de lo que es ruido en los datos disponibles. Todos los datos
y toda la información pueden considerarse como una combinación de señal
(información útil relacionada con un parámetro desconocido de interés o un problema
práctico de interés) y ruido (información no útil que puede complicar o confundir o
impedir el uso de la señal). Los datos consistirán idealmente de una gran cantidad de
señal útil y una muy pequeña cantidad de ruido. Como resultado, mucha información
es muy ruidosa, incluyendo información sobre el comportamiento humano, la fisiología
y la psicología humanas.

Una parte sustancial de la actividad científica y del desarrollo y validación de cualquier


prueba científica involucra el desarrollo de características. El desarrollo de
características implica una serie de actividades, que incluyen: buscar señales útiles;
desarrollo de tecnologías y métodos para la observación, grabación, procesamiento de
señales y medición de esas señales; estudio y cálculo de la correlación de señales útiles
con el criterio o parámetro desconocido de interés; análisis de la covarianza,
independencia y redundancia de diferentes señales, y el cálculo de un modelo
estructural que combine diferentes señales de manera que optimice o maximice el
tamaño de efecto deseado. El objetivo de estas actividades es garantizar que la
extracción de características sea efectiva cuando se utiliza una prueba científica en la
práctica de campo.

Un aspecto interesante del desarrollo y extracción de características es que la


información que en un contexto se considera ruido, puede ser una señal útil en otro
contexto. Por ejemplo: la fluctuación de la presión arterial respiratoria se considera

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
información de ruido y molesta en las pruebas de evaluación de credibilidad poligráfica,
pero es una señal de interés - utilizada para extraer información sobre la frecuencia
respiratoria a partir de datos del pulso oxímetro - en el contexto médico.

También es posible que las características de respuesta o la información que en un


contexto no están correlacionadas con un criterio de interés, puedan ser la señal de
interés en otro. Por ejemplo: la actividad electrodérmica (EDA) puede considerarse
como un EDA tónico, denominado nivel de EDA (EDL) y EDA fásico, denominado
respuesta de EDA (EDR). Se sabe que el EDL o EDA tónico es inestable para algunas
personas. En el contexto científico básico, los científicos que están interesados en
desarrollar y avanzar nuestro conocimiento sobre EDA estarán interesados tanto en
EDR como en EDL como señales de interés y requerirán soluciones tecnológicas que
brinden acceso a ambos tipos de EDA. En el contexto de la ciencia aplicada, no se ha
demostrado que el EDL tónico esté correlacionado con el engaño o la veracidad en la
prueba poligráfica de preguntas de comparación. Por lo tanto, EDL es de poco interés
para los profesionales de campo de polígrafo y pueden desarrollar y emplear soluciones
de procesamiento de señales y extracción de características para optimizar la
separación de las señales EDR del ruido EDL. En la práctica de campo, la extracción
de características es la primera etapa del análisis de datos y representa el inicio de la
transición de los datos sin procesar a la información cuantitativa.

23. Transformación numérica / reducción de datos: Involucra la asignación de


valores numéricos objetivos a señales o características dentro de los datos observados
y/o grabados. La transformación de datos a veces se discute junto con la extracción
de características. Por ejemplo: cuando se usa una medición física como característica
de respuesta. Para algunos propósitos, como cuando se asignan valores numéricos a
respuestas que se relacionan con otras respuestas (por ejemplo, cuando se asignan
valores de orden de rango) es útil pensar que la extracción de características es distinta
a la transformación numérica.

Las transformaciones numéricas a veces pueden tomar la forma de transformaciones


no paramétricas. Los valores no paramétricos hacen suposiciones sobre la secuencia
exacta de elementos, pero no hacen suposiciones sobre el espacio lineal exacto entre
los elementos. Las transformaciones no paramétricas son muy útiles con datos
ruidosos y con datos que no son fácilmente susceptibles de medición física. Las
transformaciones no paramétricas también se pueden usar para cuantificar
información subjetiva, como cuando se usa una escala tipo Likert.

Una diferencia importante entre los valores de Likert y los valores de orden de rango
es que los valores de orden de rango son objetivos (es decir, los valores son

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
objetivamente más grandes o más pequeños, y las preguntas sobre cuánto más
grandes son, son un asunto relacionado con el análisis y la optimización). En contraste,
los valores de Likert capturan información subjetiva. Los números de escala reales en
sí mismos no siempre informan acerca de la diferencia entre el orden de rango objetivo
y los valores subjetivos de Likert. Por ejemplo: cuando se evalúan los datos de
evaluación de credibilidad poligráfica con el ESS-M (una variante ponderada del
método de puntuación de 3 posiciones federales), los valores se codifican como (-, 0, +)
que pueden malinterpretarse fácilmente como puntajes Likert (subjetivos), aunque en
realidad dan rangos a las puntuaciones porque las características de respuesta son
objetivamente más grandes, más pequeñas o indiferenciadas.

Independientemente del método de transformación numérica, el conjunto de valores


numéricos debe reducirse a un conjunto de valores más pequeños y utilizables para
proceder con el análisis. El método más simple de reducción de datos es la suma. La
suma fue un método ideal de reducción de datos antes de la amplia disponibilidad de
potentes computadoras de escritorio. Esto se debe a que la suma es intuitiva y porque
los profesionales con todos los niveles de experiencia pueden ejecutar una suma con
confiabilidad y precisión razonable. La suma funciona bien tanto con valores de orden
de rango y como con los valores de Likert.

El promedio es otro método común de reducción de datos. El promedio tiene ventajas


sobre la suma ya que permite una comparación más intuitiva entre grupos de
diferentes tamaños, aunque es un poco más difícil que la suma. Los avances en la
disponibilidad de poder informático han dado lugar a avances en el análisis de datos,
y ahora se puede lograr una variedad de otras reducciones de datos, a veces más
potentes con gran comodidad y precisión. Esto puede incluir el uso de puntajes z u
otras funciones estadísticas, promedio ponderado, regresión, análisis discriminatorio
y otros métodos que pueden reducir un conjunto de observaciones puntuadas a un
solo valor o a un pequeño conjunto de valores, para el cual se puede calcular un
clasificador estadístico.

24. Función de probabilidad: Término general para cualquier mecanismo que es


utilizado para obtener un valor estadístico para los datos observados en una prueba o
un experimento científico. Una función de probabilidad puede tomar la forma de una
fórmula estadística que se calcula manualmente a lápiz o mediante una calculadora
electrónica. Una función de probabilidad también puede tomar la forma de un
programa informático que se desarrolla para calcular un valor estadístico para algunos
datos observados. Una forma práctica común de función de probabilidad es una tabla

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
de referencia, para la cual todos los cálculos posibles se calcularon previamente y se
resumieron para una rápida referencia.

Las tablas son una solución altamente eficiente que puede ser robusta contra fallas
eléctricas y otros eventos catastróficos y probablemente seguirá en uso en el futuro.
Las tablas pueden permitir el cálculo manual de resultados en paralelo con el cálculo
automatizado a través de un programa de computadora. El uso de tablas estadísticas
es tan efectivo que algunos algoritmos informáticos, e incluso las calculadoras
electrónicas, podrían no calcular sus resultados, sino obtener el resultado de las tablas
que se incluyen en el software o hardware informático. Por ejemplo: la unidad de
control electrónico (ECU o "computadora") para sistemas de inyección de combustible
en la mayoría, si no en todos, los automóviles modernos regularán el consumo de
combustible en función del ancho de pulso o el tiempo de inyección que se calcula a
partir de la carga de trabajo, tamaño del motor, RPM, temperatura y muchos otros
parámetros, cada uno con su propia tabla.

Una forma común de tabla de referencia es una tabla normativa - que utiliza los
resultados de distribuciones de muestreo múltiples y el teorema del límite central (que
establece que las medias de numerosas medias de muestreo convergerán hacia una
media de población desconocida) para estimar un parámetro de población desconocido.
Los datos de referencia normativos nos permiten calcular la probabilidad de obtener
datos equivalentes o más extremos que los datos observados - utilizando la tabla
normativa como modelo de referencia.

Las distribuciones estadísticas/teóricas, y sus respectivas tablas de referencia, son


otra forma de función de probabilidad. Si sabemos que los datos se distribuyen de
acuerdo a una distribución estadística conocida, entonces podemos usar nuestro
conocimiento de la distribución estadística/teórica para calcular una estimación de la
probabilidad de que observemos los datos de cierta forma. Un ejemplo famoso de esto
es el número de oficiales militares Prusianos asesinados por patadas de caballo
durante los tiempos de paz de los años 1875 a 1974 - que se mostró que se ajustaba
a una distribución de Poisson (nombre de un estadístico francés, a menudo
pronunciado en inglés americano como "pwason"). Conocer la distribución estadística
(Poisson) permitió el cálculo de la probabilidad de observar un cierto número de
muertes cada año debido a patadas de caballo.

Otro ejemplo de distribución estadística/teórica: los datos de la prueba de la


evaluación poligráfica de credibilidad se codifican numéricamente utilizando un
esquema de orden de rangos dependiendo de si se observan cambios objetivamente
mayores en la fisiología ante los estímulos de prueba de comparación (-) o relevantes

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
(+), o si no hay diferencia observada (0). Se incluyen múltiples sensores en la
instrumentación de registro de prueba; se incluyen múltiples estímulos relevantes y de
comparación en la secuencia de estímulos de prueba; y se registran múltiples
repeticiones o iteraciones de la secuencia de estímulos de prueba. Los puntajes [+, 0,
-] son puntajes de orden de rango objetivo, no puntajes subjetivos de Likert.

La acumulación mediante la suma de la matriz de puntuaciones 3 x 3 resultante


[sensor de registro x pregunta x repetición] bajo la hipótesis nula a la teoría de la
prueba (que espera que se carguen mayores cambios en fisiología ante estímulos
relevantes y de comparación en función del engaño o o veracidad en respuesta a los
estímulos relevantes/objetivo) es una distribución multinomial. Es decir, bajo la
hipótesis nula (los puntajes no se cargan de manera sistemática) la suma de todas las
combinaciones posibles de puntajes de respuesta producirá una distribución
multinomial. Sabiendo esto, podemos usar nuestro conocimiento de la distribución
multinomial para calcular un clasificador estadístico para un puntaje de prueba
observado. El clasificador estadístico se puede utilizar como una función de
probabilidad para el análisis Bayesiano de la probabilidad posterior de engaño o de
veracidad.

25. Regla de decisión: Las reglas de decisión son instrucciones de procedimiento que
formalizan o estandarizan la interpretación o traducción de resultados estadísticos y
numéricos en conceptos de lenguaje natural (humano) que se pueden utilizar en la
toma de decisiones prácticas como es la clasificación o la predicción. La regla de
decisión común en NHST es esta: p <= a = sig. Esto puede leerse o entenderse como
"los resultados se interpretan como estadísticamente significativos si el valor p es menor
o igual que un nivel alfa que representa un nivel de tolerancia establecido". La tolerancia
alfa (es decir, nivel de significancia) es la probabilidad aceptable de que se hubiera
producido un resultado observado o un tamaño del efecto debido a la variación
normalmente esperada (es decir, variación de muestreo o error de medición aleatorio).

También son posibles otras reglas de decisión. Por ejemplo: los puntajes numéricos de
pruebas y los puntajes de corte numéricos pueden asignarse a un modelo de referencia
de probabilidad para que la clasificación y la predicción puedan alcanzar de manera
fácil y confiable un nivel de significancia requerido (en el paradigma NHST) o un
intervalo creíble (usando el análisis Bayesiano). El análisis Bayesiano puede hacer uso
de reglas de decisión que involucran un factor de Bayes - una comparación directa
entre la fuerza de la información previa y posterior. Por ejemplo: BF >= 3 = sig. Esto
puede leerse como "los resultados se interpretan como significativos si el factor de Bayes
es mayor o igual a 3." Una regla de decisión Bayesiana también puede usar el intervalo

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
creíble. Por ejemplo: LL> prior = sig. Esto se lee como "los resultados se interpretan como
significativos cuando el límite inferior del intervalo creíble supera el previo".

Por conveniencia, también es posible mapear información estadística a números


enteros o a otras escalas numéricas. Cuando se hace esto, es posible hacer una
comparación simple de un puntaje de prueba adimensional (es decir, no conectado con
una unidad física o dimensión) con un puntaje de prueba numérico que se puede
seleccionar para lograr un tamaño de efecto deseado. Es importante, cuando se hace
de esta manera, recordar que los puntajes de las pruebas y los puntajes de corte, y sus
tablas de mapeo asociadas, son una conveniencia que puede reducir inadvertidamente
el conocimiento de los valores de probabilidad subyacentes.

Independientemente de las diferencias en su diseño y detalles exactos, todas las reglas


de decisión aclararán cómo comparar la información numérica o estadística - reducida
de la información extraída de una prueba o experimento científico - con un modelo de
referencia de probabilidad. La información estadística se puede expresar de diferentes
maneras, incluyendo a un clasificador estadístico reproducible (no descriptivo o de
ninguna medida o de un efecto práctico), estimaciones de variación aleatoria en los
datos observados (como un valor p), o un clasificador estadístico reproducible (como
una proporción de posibilidad o factor de Bayes).

Las reglas de decisión estructuradas sirven para incrementar la confiabilidad de la


interpretación humana cuando se intenta interpretar el significado de información
numérica y estadística en lenguaje humano que será útil en un contexto de toma de
decisiones científicas o aplicadas.

Conclusión

Aunque no es una lista exhaustiva de los conceptos más importantes en la ciencia y


en las pruebas científicas, estos términos conforman un vocabulario central que podría
ser útil para los profesionales que desean aumentar o actualizar su fluidez con la
terminología conceptual de la ciencia y de las pruebas científicas más allá de los
procedimientos operativos básicos. Las personas que no están familiarizadas con el
lenguaje y la terminología de la ciencia y de las pruebas científicas, pueden ser
vulnerables a la confusión y al mal uso de estos conceptos en contextos de discusión
que requieran esta pericia. Familiarizarse con estos conceptos científicos puede
facilitar una discusión competente, el aprendizaje continuo y los avances futuros tanto
en tecnologías como en prácticas de campo. Los profesionales que están articulados y
familiarizados con estos importantes y útiles conceptos tienen más probabilidades de

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)
transmitir información útil cuando estos términos se introducen en contextos de
discusión y decisión que requieren pericia y profesionalismo más allá de la de un
técnico u operador de pruebas. Con el creciente énfasis en la práctica de campo basada
en la evidencia, los profesionales de todos los niveles deben familiarizarse con el
lenguaje conceptual de la ciencia y de la toma de decisiones científicas.

This article is copyrighted by the American Polygraph Association (APA), and appears here with the permission of the
APA.
La American Polygraph Association (APA) tiene los derechos de autor de este artículo, y aparece aquí con el permiso
de la APA.
Traductor. rodolfo@poligrafia.com.mx APA Magazine 2019, 52(4)

También podría gustarte