Está en la página 1de 612

Estadística y

Evaluación de la Evidencia
para Expertos Forenses
Colin Aitken
Franco Taroni

Estadística y
Evaluación de la evidencia
para Expertos Forenses

Traducción por:

Juan José LUCENA MOLINA


Laura GIL ALCARÁZ
Rafael GRANERO BELINCHÓN
Todos los derechos reservados. Ni la totalidad ni parte de este libro, incluido el diseño de la cubier-
ta, puede reproducirse o transmitirse por ningún procedimiento electrónico o mecánico. Cualquier
forma de reproducción, distribución, comunicación pública o transformación de esta obra solo puede
ser realizada con la autorización de sus titulares, salvo excepción prevista por la ley. Diríjase a CEDRO
(Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún
fragmento de esta obra.

All Rights Reserved. Authorised translation from the English language edition published by John Wiley
& Sons Limited. Responsibility for the accuracy of the translation rests solely with Dykinson S.L. and
is not the responsibility of John Wiley & Sons Limited. No part of this book may be reproduced in any
form without the written permission of the original copyright holder, John Wiley & Sons Limited.
© Los autores
Madrid, 2010

Editorial DYKINSON, S.L.


Meléndez Valdés, 61 - 28015 Madrid
Teléfono (+34) 915442846 - (+34) 915442869
e-mail: info@dykinson.com
http://www.dykinson.es
http://www.dykinson.com
Consejo Editorial véase www.dykinson.com/quienessomos

NIPO: 126-09-090-9
ISBN: 978-84-9849-849-3

Preimpresión:
Besing Servicios Gráficos, S.L.
besing@terra.es
Índice Índice

PREFACIO ..................................................................................................... 17

PREFACIO A LA PRIMERA EDICIÓN .................................................... 21

PREFACIO A LA SEGUNDA EDICIÓN ................................................... 25

PREFACIO A LA EDICIÓN EN ESPAÑOL ............................................. 29

CAPÍTULO 1 LA INCERTIDUMBRE EN LA CIENCIA


FORENSE ........................................................................... 33
1.1 Introducción .............................................................................. 33
1.2 La estadística y la ley ................................................................. 34
1.3 La incertidumbre en la ciencia forense .................................... 38
1.3.1 El método frecuentista ................................................... 41
1.3.2 Manchas de fluidos corporales ...................................... 43
1.3.3 Fragmentos de cristal..................................................... 45
1.4 Terminología.............................................................................. 48
1.5 Tipos de datos ............................................................................ 52
1.6 Probabilidad .............................................................................. 53
1.6.1 Introducción ................................................................... 53
1.6.2 Un estándar para medir la incertidumbre .................... 55
1.6.3 Sucesos ........................................................................... 58
1.6.4 Probabilidad subjetiva ................................................... 59
1.6.5 Leyes de probabilidad .................................................... 62
1.6.6 Sucesos dependientes e información de contexto ........ 64
1.6.7 Ley de la probabilidad total ........................................... 69
1.6.8 Actualización de probabilidades ................................... 73

CAPÍTULO 2 VARIACIÓN....................................................................... 77
2.1 Poblaciones ................................................................................ 77
2.2 Muestras y estimaciones ........................................................... 80
8 Índice

2.3 Cuentas ...................................................................................... 83


2.3.1 Probabilidades................................................................ 83
2.3.2 Medidas resumen ........................................................... 85
2.3.3 Distribución binomial .................................................... 87
2.3.4 Distribución multinomial .............................................. 88
2.3.5 Distribución hipergeométrica ....................................... 89
2.3.6 Distribución de Poisson ................................................. 92
2.3.7 Distribución Beta-binomial ........................................... 96
2.4 Medidas...................................................................................... 98
2.4.1 Estadísticos resumen ..................................................... 98
2.4.2 Distribución normal ....................................................... 99
2.4.3 Distribución t-student .................................................... 106
2.4.4 Distribución Beta ........................................................... 108
2.4.5 Distribución de Dirichlet ............................................... 110
2.4.6 Normal multivariante y correlación .............................. 112

CAPÍTULO 3 LA EVALUACIÓN DE LA EVIDENCIA ........................ 115


3.1 Apuestas ..................................................................................... 115
3.1.1 Sucesos complementarios ............................................. 115
3.1.2 Ejemplos ......................................................................... 116
3.1.3 Definición ....................................................................... 116
3.2 Teorema de Bayes ...................................................................... 118
3.2.1 Enunciado del teorema .................................................. 118
3.2.2 Ejemplos ......................................................................... 118
3.3 Errores de interpretación.......................................................... 124
3.3.1 Falacia de la transposición del condicional .................. 126
3.3.2 Error de probabilidad de la fuente ................................ 128
3.3.3 Error en la cuestión fundamental ................................. 129
3.3.4 Falacia del defensor ....................................................... 129
3.3.5 Error de probabilidad de encontrar otra
coincidencia aleatoria ...................................................... 130
3.3.6 Error de conversión numérica....................................... 132
3.3.7 Falacia de falso positivo ................................................. 134
3.3.8 Unicidad ......................................................................... 134
3.3.9 Otras dificultades ........................................................... 136
3.3.10 Evidencia empírica de errores en interpretación ....... 139
Índice 9

3.4 El Teorema de Bayes en forma de apuestas ............................. 146


3.4.1 El “Likelihood Ratio”(razón de verosimilitudes) o LR... 146
3.4.2 Logaritmo del LR ............................................................. 150
3.5 El valor de la evidencia ............................................................. 152
3.5.1 Evaluación de la evidencia forense ............................... 152
Resumen ............................................................................................. 174

CAPÍTULO 4 REVISIÓN HISTÓRICA .................................................. 175


4.1 Antecedentes históricos ............................................................ 175
4.2 Caso Dreyfus .............................................................................. 179
4.3 Argumentos estadísticos de los expertos de comienzos
del siglo XX ................................................................................ 182
4.4 El Pueblo contra Collins ........................................................... 184
4.5 Poder de discriminación ........................................................... 187
4.5.1 Derivación ...................................................................... 187
4.5.2 Evaluación de la evidencia mediante el poder de
discriminación ..................................................................... 189
4.5.3 Muestras finitas .............................................................. 192
4.5.4 Combinación de sistemas independientes .................... 194
4.5.5 Atributos correlados....................................................... 195
4.6 Probabilidades de significación ................................................ 200
4.6.1 Cálculo de probabilidades de significación .................. 200
4.6.2 Relación con el LR ......................................................... 204
4.6.3 Combinación de probabilidades de significación......... 208
4.7 Probabilidades de coincidencia ................................................ 209
4.7.1 Introducción ................................................................... 209
4.7.2 Etapa comparadora ....................................................... 212
4.7.3 Etapa de significancia .................................................... 212
4.8 Relación de verosimilitudes (LR) ............................................. 214

CAPÍTULO 5 INFERENCIA BAYESIANA............................................ 217


5.1 Introducción .............................................................................. 217
5.2 Inferencia bayesiana para una probabilidad de Bernoulli ...... 222
5.3 Estimación con cero ocurrencias en una muestra .................. 224
5.4 Estimación de productos en identificación forense ..................... 227
5.5 Inferencia bayesiana para una media normal ......................... 228
10 Índice

5.6 Estimación por intervalos ......................................................... 232


5.6.1 Intervalos de confianza .................................................. 232
5.6.2 Intervalos de densidad a posteriori más altos............... 234
5.6.3 Intervalos de remuestreo (Intervalos “bootstrap”) ....... 235
5.6.4 Intervalos de verosimilitud .............................................. 235
5.7 Relaciones entre apuestas ................................................. 238

CAPÍTULO 6 MUESTREO ....................................................................... 243


6.1 Introducción .............................................................................. 243
6.2 Elección del tamaño de la muestra .......................................... 246
6.2.1 Aprehensiones grandes .................................................. 246
6.2.2 Aprehensiones pequeñas................................................ 252
6.3 Estimación de la cantidad......................................................... 256
6.3.1 Enfoque frecuentista ...................................................... 256
6.3.2 Enfoque bayesiano ......................................................... 257
6.4 Evidencia engañosa ................................................................... 264

CAPÍTULO 7 INTERPRETACIÓN ......................................................... 273


7.1 Conceptos y casuística pericial ................................................. 273
7.1.1 Población relevante ........................................................ 273
7.1.2 Consideraciones sobre apuestas .................................... 274
7.1.3 Combinación de evidencias ........................................... 276
7.1.4 Casos específicos ............................................................ 276
R. contra Adams, D.J. (Dawid, 2002) ...................... 277
Los casos de Lashley y Smith (Redmayne, 2002) ... 279
R contra Clark .......................................................... 280
Resumen................................................................... 282
7.2 Prevaloración y proposiciones relevantes ................................ 283
7.2.1 Niveles de Proposición ................................................... 283
7.2.2 Prevaloración del caso ................................................... 288
7.2.3 Prevaloración de la evidencia ........................................ 291
7.3 Estimación del valor de diferentes tipos de evidencia ........ 291
7.3.1 Huellas de oreja .............................................................. 292
7.3.2 Armas de fuego y marcas de herramientas ................... 294
7.3.3 Huellas dactilares ........................................................... 297
7.3.4 Reconocimiento de locutores ........................................ 300
7.3.5 Pelo ................................................................................. 302
Índice 11

7.3.6 Documentos.................................................................... 304


7.3.7 Sobres ............................................................................. 306
7.3.8 Escritura manuscrita ..................................................... 308
7.3.9 Pintura ............................................................................ 314
7.4 Cuestiones previas a los datos y posteriores a los datos .......... 314

CAPÍTULO 8 EVIDENCIA DE TRANSFERENCIA............................. 321


8.1 La razón de verosimilitud ......................................................... 321
8.1.1 Probabilidad de culpabilidad ........................................ 321
8.1.2 Justificación ................................................................... 323
8.1.3 Combinación de evidencias y comparación de más
de dos proposiciones ...................................................... 324
8.2 Probabilidades de correspondencia ......................................... 331
8.3 Dirección de transferencia ........................................................ 332
8.3.1 Transferencia de la evidencia desde el criminal a la
escena del crimen ........................................................... 333
Perspectiva desde la escena del crimen .................. 334
Perspectiva del sospechoso ..................................... 335
Evidencia de un testigo ocular ................................ 337
8.3.2 Transferencia de evidencia desde la escena del crimen
al criminal ...................................................................... 338
8.3.3 Probabilidades de transferencia .................................... 339
Manchas de sangre sobre ropas .............................. 344
Poblaciones .............................................................. 347
8.3.4 Doble transferencia ........................................................ 349
8.3.5 Presencia de evidencia no coincidente .......................... 350
8.4 Agrupamiento ............................................................................ 351
8.5 Poblaciones relevantes .............................................................. 354

CAPÍTULO 9 DATOS DISCRETOS ........................................................ 365


9.1 Notación .................................................................................... 365
9.2 Una sola muestra ....................................................................... 365
9.2.1 Introducción ................................................................... 365
9.2.2. Población general .......................................................... 368
9.2.3 Población particular....................................................... 369
9.2.4 Ejemplo........................................................................... 369
Población general .................................................... 369
Población particular ................................................ 370
12 Índice

9.3 Dos muestras ............................................................................. 371


9.3.1 Dos manchas, dos criminales ........................................ 371
9.3.2 Perfiles de ADN .............................................................. 374
9.4 Muchas muestras ...................................................................... 375
9.4.1 Muchos perfiles distintos ............................................... 375
9.4.2 Casos generales .............................................................. 376
n manchas, k grupos, k criminales.......................... 376
n manchas, k grupos, m criminales ........................ 377
9.5 Relevancia de la evidencia y material relevante....................... 378
9.5.1 Introducción ................................................................... 378
9.5.2 Probabilidades subjetivas .............................................. 379
9.5.3 Proposiciones de asociación .......................................... 379
9.5.4 Proposiciones de asociación intermedia ....................... 380
9.5.5 Ejemplos ......................................................................... 382
Probabilidades subjetivas ........................................ 383
9.5.6 Dos manchas, un criminal ............................................. 385
9.6 Resumen .................................................................................... 387
9.6.1 Mancha que se sabe que ha sido dejada por
los criminales ................................................................. 388
Una mancha de la que se conoce que proviene de
un criminal ............................................................... 388
n manchas, una de cada uno de los n criminales ... 388
n manchas, k perfiles distintos, k criminales
distintos .................................................................... 388
n manchas, k perfiles distintos, m criminales ........ 389
9.6.2 Relevancia: mancha que puede no haber sido
dejada por los criminales ............................................... 389
Una mancha, k criminales ....................................... 389
Dos manchas, una de las cuales es relevante,
un criminal ............................................................... 391
Dos manchas, ninguna de ellas relevante,
un criminal ............................................................... 391
9.6.3 Relevancia y nivel de crimen ......................................... 391
9.7 Personas desaparecidas ............................................................ 392
9.7.1 Caso 1 (Kuo, 1982) ......................................................... 394
9.7.2 Caso 2 (Ogino y Gregonis, 1981) ................................... 394
9.7.3 Cálculo del LR ................................................................ 394
9.8 Paternidad: combinación de LRs ............................................. 397
Índice 13

9.8.1 Verosimilitud de paternidad .......................................... 399


9.8.2 Probabilidad de exclusión en paternidad...................... 403

CAPÍTULO 10 DATOS CONTINUOS ..................................................... 405


10.1 La razón de verosimilitud ....................................................... 405
10.2 Distribución normal para datos interfuente .......................... 408
10.2.1 Fuentes de variación .................................................... 408
10.2.2 Derivación de la distribución marginal....................... 409
10.2.3 Derivación aproximada del LR .................................... 411
10.2.4 La aproximación de Lindley ........................................ 413
10.2.5 Interpretación de resultados........................................ 415
Evaluación de los LR: las curvas Tippett ................ 416
10.2.6 Ejemplos ....................................................................... 417
10.3 Estimación de una función de densidad de probabilidad ..... 419
10.4 Estimación de la densidad de núcleo para datos
interfuente ............................................................................... 427
10.4.1 Aplicación a las anchuras medulares de pelos
de gato .......................................................................... 429
10.4.2 Índices de refracción de cristales ................................ 430
10.5 Probabilidades de transferencia ............................................. 433
10.5.1 Introducción ................................................................. 433
10.5.2 Un único fragmento ..................................................... 434
10.5.3 Dos fragmentos ............................................................ 437
10.5.4 Una aproximación práctica para la evaluación
de cristales ................................................................... 441
10.5.5 Modelos gráficos para la valoración de las
probabilidades de transferencia ................................. 445
10.6 Aproximación basada en una distribución t .......................... 447
10.7 Apéndice: derivación de V cuando las medidas
interfuente se asumen Normalmente distribuidas ................ 452

CAPÍTULO 11 ANÁLISIS MULTIVARIANTE ..................................... 455


11.1 Introducción ............................................................................ 455
11.2 Descripción del ejemplo .......................................................... 456
11.3 t -Test univariantes .................................................................. 458
11.4 T2 de Hotelling ......................................................................... 460
14 Índice

11.5 LR para Normalidad univariante con dos fuentes de


variación .................................................................................. 461
11.6 LR para Normalidad multivariante con dos fuentes de
variación .................................................................................. 463
11.7 Advertencias al lector .............................................................. 469
11.8 Resumen .................................................................................. 471
11.9 Apéndice .................................................................................. 471
11.9.1 Terminología matricial ................................................ 471
La traza de una matriz............................................. 472
La traspuesta de una matriz .................................... 472
Suma de dos matrices .............................................. 473
Determinante de una matriz ................................... 473
Multiplicación matricial .......................................... 474
La inversa de una matriz ......................................... 475
11.9.2 Determinación de un LR asumiendo normalidad ...... 476

CAPÍTULO 12 FIBRAS ............................................................................. 481


12.1 Introducción ............................................................................ 481
12.2 Razones de verosimilitud en escenarios donde
aparecen fibras ........................................................................ 481
12.2.1 Evidencia de fibras dejada por el criminal ................. 482
12.2.2 Comentarios sobre el escenario de fibras ................... 489
12.2.3 Evidencia de fibras no dejadas por el criminal ........... 490
12.2.4 Transferencia cruzada .................................................. 492
12.3 Prevaloración en escenarios de fibras .................................... 494
12.3.1 La historia del caso ...................................................... 495
12.3.2 Formulación de pares de proposiciones y de sucesos 495
12.3.3 Estimación del valor esperado de la razón de
verosimilitud................................................................ 497
12.4 Población relevante de fibras .................................................. 500

CAPÍTULO 13 PERFILES DE ADN ........................................................ 503


13.1 Introducción ............................................................................ 503
13.2 Equilibrio Hardy-Weinberg .................................................... 505
13.3 Razón de verosimilitud en ADN ............................................. 508
13.4 Incertidumbre ......................................................................... 509
13.5 Variación de frecuencias alélicas en subpoblaciones ............ 510
13.6 Individuos emparentados ....................................................... 515
Índice 15

13.7 Más de dos proposiciones ....................................................... 518


13.8 Búsqueda en bases de datos .................................................... 521
13.8.1 Búsqueda y efecto de la selección (error de
contar dos veces lo mismo) .......................................... 526
13.9 El problema de la isla .............................................................. 527
13.10 Mezclas .................................................................................. 529
13.11 Tasa de error .......................................................................... 533

CAPÍTULO 14 REDES BAYESIANAS ................................................... 539


14.1 Introducción ............................................................................ 539
14.2 Redes Bayesianas .................................................................... 540
14.2.1 La construcción de redes bayesianas .......................... 541
Las propiedades de la d-separación
(separación direccional) .......................................... 544
Regla de la cadena para redes bayesianas .............. 545
Formalismo de red bayesiana ................................. 545
14.3 Evidencia a nivel de crimen .................................................... 548
14.3.1 Preliminares ................................................................. 548
14.3.2 Descripción de las probabilidades requeridas ............ 549
14.4 Evidencia desaparecida .......................................................... 551
14.4.1 Preliminares ................................................................. 551
14.4.2 Determinación de una estructura para una red
bayesiana ..................................................................... 552
14.4.3 Comentarios ................................................................. 554
14.5 Tasas de error .......................................................................... 555
14.5.1 Preliminares ................................................................. 555
14.5.2 Determinación de una estructura para una red
bayesiana ...................................................................... 556
14.6 Evidencia de transferencia...................................................... 557
14.6.1 Preliminares ................................................................. 557
14.6.2 Determinación de la estructura para una red
bayesiana ...................................................................... 557
14.6.3 Comentarios sobre el nodo transferencia .................... 560
14.7 Combinación de evidencias .................................................... 561
14.8 Evidencia de transferencia cruzada ....................................... 563
14.8.1 Descripción de nodos ................................................... 565
14.8.2 Probabilidades para los nodos..................................... 566
16 Índice

14.9 Factores a tener en cuenta ...................................................... 567


14.9.1 Elección de parámetros ............................................... 568
14.10 Resumen ................................................................................ 568

REFERENCIAS ............................................................................ 571

NOTACIÓN ................................................................................. 605


Prefacio Prefacio

La evaluación estadística de la evidencia es parte del método científico,


aplicado en esta ocasión al ámbito forense. Karl Pearson fue tan perspicaz
como exacto cuando dijo que: ‘la unidad de toda ciencia consiste sólo en su
método, no en su materia’. La ciencia es una forma de entender e influir en el
mundo en el que vivimos. Desde esta perspectiva no es correcto decir que la fí-
sica es una ciencia, mientras que la historia no lo es: más bien el método cien-
tífico ha sido muy usado en la física, mientras que ha estado en gran medida
ausente en la historia. El método científico es esencialmente una herramienta
y, como cualquier herramienta, es más útil en algunos campos que en otros. Si
esta percepción de la ciencia como un método es correcta, quizá nos pregun-
temos si el método pudiera aplicarse provechosamente en la ley, pero antes de
que podamos responder necesitamos entender algo de lo que el método cientí-
fico conlleva. Se han escrito libros sobre el tema, y aquí nos limitaremos a los
ingredientes esenciales del método.
Dos ideas dominan el método científico: observación y razonamiento. La
observación puede ser pasiva, como en un estudio de los movimientos de los
cuerpos celestes o la recopilación de expedientes médicos. Con frecuencia es
activa, como cuando se lleva a cabo un experimento en el laboratorio, o se
realiza un ensayo clínico controlado. La siguiente etapa consiste en aplicar
el razonamiento a los datos observados, por lo general para pensar en una
teoría que explique, al menos, algunas de las propiedades observadas en los
datos. Puede entonces usarse la teoría para predecir futuras observaciones
que se realizarán y compararán con la predicción. Es este bucle entre evi-
dencia y teoría lo que caracteriza al método científico y, si se tiene éxito,
conduce a una teoría que explica lo observado materialmente. Ejemplos clá-
sicos son la Teoría de Newton que explica los movimientos de los planetas, y
el desarrollo de Darwin de la Teoría de la Evolución. Es importante advertir
que, contrariamente a lo que mucha gente cree, la incertidumbre está pre-
sente en cualquier procedimiento científico. Habrá casi siempre errores en
las medidas, debidos a la variación en el material o a las limitaciones de los
equipos. Una teoría es siempre incierta, y es por esto por lo que debe ser ri-
gurosamente comprobada. Una teoría es admitida como verdadera sólo tar-
díamente en el ciclo de movimiento entre el hecho innegable y la actividad
mental. Incluso entonces la ‘verdad’ es, a la larga, no absoluta, como puede
18   Prefacio

verse en el reemplazo de Newton por Einstein. Es importante reconocer el


papel clave que juega la incertidumbre en el método científico.
Si el análisis anterior es correcto, resulta natural apreciar conexiones en-
tre el método científico y los procedimientos legales. Todos los ingredientes
están allí, aunque la terminología sea diferente. En un Tribunal de Justicia,
los datos consisten en la evidencia pertinente al caso, evidencia obtenida por
la policía y otros organismos, y presentada por juristas para la defensa y la
acusación. Hay típicamente sólo dos teorías, que el acusado sea culpable o
inocente. A medida que el juicio avanza, el efecto bucle se percibe a medi-
da que se acumula evidencia. Los abogados usan un sistema acusatorio, no
presente abiertamente en la práctica científica, pero similar a las revisiones
entre iguales que son empleadas en la ciencia. La semejanza más asombro-
sa entre la práctica legal y la científica es la incertidumbre que impregna
a ambas y la cercanía a la certeza que esperanzadamente emerge al final,
oscilando la opinión de los miembros del Jurado a medida que se presenta
la evidencia. Ciertamente, resulta llamativo que la ley levemente utilice el
mismo término ‘probabilidad’, como hace el científico, para expresar la in-
certidumbre, por ejemplo en la frase ‘el balance de probabilidades’.
El uso del método científico en un Tribunal de Justicia, por consiguien-
te, parece prometedor porque los ingredientes, en una forma modificada,
están ya presentes. En realidad, el método ha tenido un uso limitado, fre-
cuentemente por personas que no se daban cuenta que actuaban movidas
por un espíritu científico, y solamente en la segunda mitad del siglo vein-
te el método ha sido adoptado amplia y satisfactoriamente. Los mayores
avances han ocurrido donde la evidencia por sí misma es de la forma en
que un científico podría reconocerla como material de estudio. Ejemplos
de ello son evidencias en forma de medidas de laboratorio sobre fragmen-
tos de cristal o tipos de sangre, y, más recientemente y de modo espectacu-
lar, datos de ADN. Este libro relata la historia de esta intrusión de la cien-
cia en la ley y, lo más importante, aporta la maquinaria necesaria para que
la transición pueda ser efectiva.
Ya se ha explicado cómo la incertidumbre juega un papel importante
tanto en el método científico como en los procedimientos judiciales. Hoy
día se reconoce que la única herramienta para manejar la incertidumbre es
la probabilidad, así resulta inevitable que la probabilidad se encuentre en
casi cada página de este libro y que deba tener un papel en los Tribunales.
Hay dos aspectos en la probabilidad: primeramente, las reglas puramente
matemáticas y su manejo; en segundo lugar, la interpretación de la proba-
bilidad, es decir, la conexión entre los números y la realidad. Por suerte,
en aplicaciones legales las matemáticas son bastante más simples —esen-
Prefacio   19

cialmente es una cuestión de entender el lenguaje y la notación, junto con


el uso de la regla principal, el Teorema de Bayes—. Los abogados se fami-
liarizarán con la necesidad de usar términos específicos, llamados jerga, y
esperamos que aprecien la necesidad de una pequeña jerga matemática.
La interpretación de la probabilidad es una cuestión más delicada, y las di-
ficultades en este ámbito han sido experimentadas tanto por científicos fo-
renses como por juristas. Algunas veces, un mal uso de la probabilidad por
un experto fue la causa de un error judicial; en otras la causa fue una falta
de apreciación legal del Teorema de Bayes. Un punto fuerte de este libro
es el claro reconocimiento del problema interpretativo y la inclusión de
muchos ejemplos de casos jurídicos, por ejemplo en el Capítulo 7. Mi opi-
nión personal es que esos problemas se reducen usando apropiadamente
la notación matemática y el lenguaje, e insistiendo en que cada declaración
de incertidumbre se realice en forma de probabilidad, considerando clara-
mente lo que se asume. Por ejemplo, la probabilidad de una coincidencia
en un grupo sanguíneo, dado que el acusado es inocente. El lenguaje que
se desvíe de este formato puede a menudo dar lugar a confusión.
La primera edición (1995) de este libro explicaba admirablemente su temá-
tica como era hace casi una década. La edición actual es mucho mayor, y esta
ampliación refleja tanto el éxito de la ciencia forense, incluyendo casos recien-
tes, como también los nuevos métodos que se han utilizado. Un problema que
surge en un Tribunal, afectando tanto a juristas, como a testigos y miembros
del jurado, es la conjunción de un cúmulo de evidencias antes de que se pueda
dictar una sentencia; pues la motivación ha de considerarse conjuntamente
con las evidencias. La probabilidad está diseñada para efectuar tales combina-
ciones, pero la acumulación de reglas simples puede llevar a procedimientos
complicados. Se han desarrollado métodos para la combinación de evidencias;
por ejemplo, las redes bayesianas en el Capítulo 14 y los métodos multivarian-
tes en el Capítulo 11. Hay una fascinante interacción aquí entre el jurista y el
experto donde pueden aprender el uno del otro y desarrollar herramientas que
ayuden considerablemente a alcanzar un mejor sistema judicial. Otro indica-
tivo del progreso que se ha producido en una década es que se ha doblado en
tamaño la bibliografía. No hay duda de que la apreciación de algunas eviden-
cias en un Tribunal de Justicia ha sido enormemente mejorada por el buen uso
de ideas estadísticas, y podemos estar seguros de que la próxima década verá
futuros desarrollos, durante la cual este admirable libro servirá a aquellos que
tengan motivo para usar la estadística en la ciencia forense.

D.V. Lindley
Enero 2004
Prefacio a la Primera Edición Prefacio a la Primera Edición

En 1977 se publicó en Biometrika un artículo escrito por Dennis Lindley


con el título ‘Un problema en ciencia forense’. Usando un ejemplo basado
en los índices de refracción de fragmentos de cristal, Lindley describía un
método para la evaluación de la evidencia que combinaba los dos requisi-
tos del experto forense —los derivados de la comparación y de la signifi-
cación— en un estadístico con una interpretación satisfactoriamente in-
tuitiva. Naturalmente, el método suscitó un interés considerable entre los
estadísticos y científicos forenses interesados en buscar buenas formas de
cuantificar sus evidencias. Desde entonces, la metodología e ideas subya-
centes se han desarrollado y extendido tanto en la teoría como en la prác-
tica en muchas áreas. Estas ideas, a menudo con terminología diversa, se
han difundido a través de muchas revistas estadísticas y de ciencia forense
y, con la llegada de los perfiles de ADN, en genética. Uno de los objetivos de
este libro es reunir todas estas ideas y, como consecuencia, proporcionar
un enfoque coherente para la evaluación de la evidencia.
La evidencia que ha de ser evaluada es de una clase particular y se co-
noce como evidencia de transferencia o, en algunas ocasiones, como evi-
dencia de traza. Se trata de la evidencia transferida entre la escena de un
crimen y un criminal. Toma la forma de trazas —trazas de ADN, trazas de
sangre, de cristal, de fibras, de pelos de gato, etc…—. Es susceptible de ser
analizada estadísticamente porque los datos están disponibles ayudando a
valorar la variabilidad. La evaluación de otra clase de evidencias, por ejem-
plo, la evidencia de un testigo ocular, no será tratada.
El enfoque descrito en este libro se basa en la determinación de la de-
nominada razón de verosimilitudes. Se trata de una relación entre de dos
probabilidades, la probabilidad de la evidencia bajo dos hipótesis com-
petitivas. Estas hipótesis pueden ser que el acusado es culpable y que es
inocente. Otras hipótesis pudieran ser más apropiadas en determinadas
circunstancias y alguna de ellas se mencionarán oportunamente a lo largo
de todo el libro.
Existen tan amplias conexiones entre la estadística y las cuestiones fo-
renses que quizá pudieran ampararse bajo el título de ‘estadística forense’,
las cuales se contemplan aquí siquiera brevemente. Quizá incluyan la de-
terminación de una probabilidad de culpabilidad tanto con respecto a los
dichos: ‘inocente hasta que se demuestre lo contrario’ y ‘culpable más allá
22   Prefacio a la Primera Edición

de toda duda razonable’. Además, no se abordará la función de los estadís-


ticos como testigos expertos presentando valoraciones estadísticas de da-
tos o como consultores preparando análisis para juristas. En el Capítulo 1
se proporciona una breve bibliografía sobre estas otras áreas en el interfaz
de la estadística y la ley. Se han organizado dos congresos sobre estadísti-
ca forense (Aitken, 1991, y Kaye, 1993a) y un tercero que se celebrará en
Edimburgo en 1996. Han incluido ciencia forense dentro de sus progra-
mas pero han ido más allá. Se han presentado artículos y se han celebra-
do sesiones de discusión en otros congresos (por ejemplo, Aitken, 1993, y
Fienberg y Finkelstein, 1996).
En el Capítulo 1 se trata sobre la función de la incertidumbre en la cien-
cia forense. El tema principal del libro es mostrar que la mejor forma de
evaluar la evidencia es hacerlo mediante la razón de verosimilitud. En el
Capítulo 2 se ofrece la justificación de ello, así como el desarrollo de un
resultado general. Es necesario entender correctamente la variación para
obtener las expresiones de la razón de verosimilitud, y es precisamente la
variación el tema del Capítulo 3, estudiándose modelos estadísticos tanto
para datos discretos como para continuos. En el Capítulo 4 se ofrece una
revisión de otras formas de evaluar la evidencia. Sin embargo, no todas tie-
nen, al menos para el autor, el mismo encanto, tanto desde el punto de vis-
ta matemático como forense, que la razón de verosimilitud, y el resto del
libro cubre aplicaciones de esa razón a varios problemas de la ciencia fo-
rense. En el Capítulo 5, se trata sobre la transferencia de evidencia hacién-
dose particular énfasis en la importancia que tiene la dirección de transfe-
rencia, es decir, si va desde la escena del crimen al criminal o viceversa. Los
Capítulos 6 y 7 tratan ejemplos para datos discretos y continuos, respecti-
vamente. El capítulo final, el Capítulo 8, está dedicado a una revisión sobre
perfiles de ADN, aunque considerando la cantidad de trabajo continuado
sobre el tema, es necesariamente breve y con casi segura certeza no estará
completamente actualizado en el momento de la publicación.
De acuerdo con la temática de la serie, Estadística en la Práctica, el libro
está destinado tanto a expertos forenses como a estadísticos. Los expertos fo-
renses pueden encontrar alguno de los detalles técnicos demasiado compli-
cados. Una comprensión completa de ello es, en gran medida, innecesaria si
todo lo que requiere es la capacidad de conseguir los resultados. Los detalles
técnicos de los Capítulos 7 y 8 se han colocado en Apéndices para éstos ca-
pítulos con el fin de no interrumpir la fluidez del texto. Los estadísticos pue-
den, a su vez, encontrar alguna parte de la teoría, por ejemplo en el Capítulo
1, bastante elemental y, si es este el caso, entonces deben sentirse libres para
saltársela y pasar a las partes más técnicas de los últimos capítulos.
Prefacio a la primera edición   23

El papel de los estadísticos en la ciencia forense está en continuo creci-


miento. Esto es debido, en parte, a causa del continuo debate sobre el tra-
bajo con perfiles de ADN acerca de cómo seguir haciéndolo en un futuro
predecible. El crecimiento obedece también al incremento de la investiga-
ción científica por expertos forenses dentro de áreas tales como transferen-
cia y persistencia, así como por el incremento de conjuntos de datos. Se in-
crementará también el uso de probabilidades subjetivas, particularmente a
través del papel de las redes de creencia Bayesiana (Aitken y Gammerman,
1989) y los sistemas basados en el conocimiento (Buckleton y Walsh, 1991;
Evett, 1993b).
Ian Evett y Dennis Lindley han estado en la vanguardia de la investiga-
ción en esta área durante muchos años. Me han brindado una inestimable
ayuda a lo largo de este tiempo. Ambos realizaron comentarios extremada-
mente útiles sobre las primeras versiones del libro por los que estoy muy
agradecido. Agradezco a Hazel Easey por su ayuda prestada para la obten-
ción de los resultados del Capítulo 8. Agradezco también a Ian Evett el ha-
berme facilitado los datos de la Tabla 7.3. Debo las gracias a la Universidad
de Edimburgo por permitirme las obligadas ausencias y a mis colegas del
Departamento de Matemáticas y Estadística por llevar sobre sus hom-
bros la carga extra que han conllevado las mismas. Gracias también a Vic
Barnett, el editor de la serie y al personal de John Wiley and Sons, Ltd. por
su ayuda durante todo el periodo de gestación de este libro.
Por último, siendo de ninguna manera lo de menor importancia, agra-
dezco a mi familia su apoyo y aliento.
Prefacio a la Segunda Edición Prefacio a la Segunda Edición

En el prefacio a la primera edición de este libro se comentó que el papel


de la estadística en la ciencia forense estaba en continuo crecimiento y que
esto era debido, en parte, a causa del constante debate sobre el trabajo con
perfiles de ADN acerca de cómo seguir haciéndolo en un futuro predeci-
ble. En estos momentos parece que ese incremento continúa y quizá a ma-
yor ritmo que en 1995. El debate sobre perfiles de ADN no ha disminuido.
Hemos dejado los detalles minuciosos del debate para otros, restringién-
donos a una visión de conjunto sobre ese tema en particular. En su lugar,
vamos a desarrollar muchas otras áreas de la ciencia forense en las que la
estadística puede desempeñar un papel.
Ha habido una tremenda expansión del trabajo en estadística forense en
los nueve años transcurridos desde que la primera edición de este libro fue
publicada. Esto se refleja en el incremento del tamaño de este libro. Ahora
tiene unas 500 páginas, mientras que en 1995 tenía sólo unas 250, y la bi-
bliografía se ha incrementado de 10 a 20 páginas. Ha subido el número de
capítulos de 8 a 14. El título es el mismo, sin embargo, existe más discusión
sobre la interpretación, además de nueva materia sobre evaluación.
Los primeros cuatro capítulos abordan los mismos temas que en la pri-
mera edición, aunque el orden de los Capítulos 2 y 3 sobre evaluación y va-
riación se ha invertido. El capítulo sobre variación, el nuevo Capítulo 2, se
ha expandido para incluir muchas más distribuciones de probabilidad que
las mencionadas en la primera edición. A medida que el tema se ha expan-
dido, así también la necesidad de utilizar más distribuciones. Éstas han de
presentarse anteriormente a como se hizo en su día, de ahí el cambio de
orden con el capítulo que trata sobre evaluación.
El Capítulo 4 tiene una sección adicional sobre el trabajo de los expertos
forenses de principios del siglo veinte sobre cómo han ido gradualmente
emergiendo sus ideas anticipándose a su tiempo. Se han introducido tres
nuevos capítulos antes del capítulo sobre evidencia de transferencia. La
inferencia bayesiana juega un papel cada vez mayor en la evaluación de la
evidencia, aunque su empleo es todavía polémico y han existido algunos co-
mentarios críticos en los Tribunales sobre algunos de sus usos en el ámbito
jurídico. El Capítulo 5 proporciona fundamentos de inferencia bayesiana,
algo separados del fin principal de este libro, para acentuar su particular
relevancia en la evaluación e interpretación de la evidencia. Los procedi-
26   Prefacio a la Segunda Edición

mientos de muestreo apropiados son cada vez más importantes. A falta de


recursos, el muestreo proporciona un modo de alcanzar casi las mismas
inferencias pero con un gran ahorro de recursos. Es importante, aún así,
que se realicen inferencias correctas a partir de los resultados obtenidos de
una muestra. En algunas jurisdicciones y con algunos tipos de crímenes,
tales como el contrabando de droga en USA, la cantidad de material ilícito
asociado con el crimen es un factor importante en la sentencia. Por otra
parte, si sólo se toma una muestra del material inicialmente aprehendido,
se han de realizar inferencias correctas sobre las cantidades. Éstos son los
temas del Capítulo 6. El Capítulo 7 es una consecuencia de la ampliación
del libro para considerar la interpretación. Incluye un estudio del trabajo
sobre valoración e interpretación de casos realizados desde la aparición
de la primera edición. El Capítulo 7 también incluye breves comentarios
sobre diversos tipos de evidencia para las que empieza a desarrollarse la
evaluación estadística. Esto contrasta con aquellas áreas como cristales,
fibras y perfiles de ADN que están considerablemente más desarrolladas.
Las fibras y el ADN poseen capítulos propios, los Capítulos 12 y 13.
La evaluación de cristal proporciona muchos ejemplos a lo largo del
libro porque proporciona un contexto para la mayor parte de lo tratado,
percibiéndose que tenía más sentido diseminarlos a lo largo del libro que
reunirlos en un capítulo aparte. Los Capítulos 8, 9 y 10 sobre evidencia de
transferencia, datos discretos y continuos son versiones actualizadas de
los capítulos que versan sobre los mismos temas en la primera edición. El
análisis adecuado de datos multivariantes es esencial en la ciencia foren-
se, pues tales datos han llegado a ser más dominantes, por ejemplo, en lo
referente a la composición elemental de cristales o la composición quími-
ca de drogas. En el Capítulo 11 se trata sobre análisis multivariante, con-
siderándose el análisis de un ejemplo bidimensional. Adjunto al mismo
se proporciona un apéndice con breves descripciones de álgebra matri-
cial. Los capítulos 12 y 13 son los únicos capítulos en el libro que son es-
pecíficos de un tipo particular de evidencia, fibras y perfiles de ADN, res-
pectivamente. El Capítulo 13 es completamente nuevo comparado con el
capítulo correspondiente en la primera edición, debido a los avances que
se han llevado a cabo en perfiles de ADN desde que apareció la primera
edición. Aún se trata solamente de una breve introducción al tema. Se
recomiendan otros libros más especializados, citados en el Capítulo 13,
para estudiantes que quieran profundizar en perfiles de ADN. El capítulo
final es una introducción a las redes bayesianas, un nuevo capítulo apa-
sionante para la ciencia forense y evaluación de la evidencia en general,
predicho en el Prefacio a la primera edición. Una representación gráfica,
Prefacio a la segunda edición   27

como la proporcionada por una red bayesiana, de los diferentes tipos de


evidencia en un caso real, ayuda considerablemente a entender y analizar
la totalidad de la evidencia. Además de la bibliografía e índices, al final se
proporciona una lista de notaciones. Se espera que esto permita al lector
seguir la pista al simbolismo, que es una parte necesaria para asegurar la
claridad de la exposición.
El papel de la inferencia bayesiana en la ciencia forense continúa siendo
controvertido. Para intentar entender porqué esto es así, no podemos ha-
cer nada mejor que citar a un eminente experto en fibras, que escribió:
Puede haber diferentes razones para la reticencia o el escepticismo ob-
vios unidos a la adopción de la teoría bayesiana para presentar la evidencia
de fibras. Éstas pueden ser:

• Una falta de conciencia de la literatura explicativa disponible.


• Dificultad de entendimiento de las proposiciones involucradas.
• Una actitud contraria generada como consecuencia de pensar que se
trata de un enfoque demasiado complicado y demasiado matemático.
• Desconocimiento de cómo aplicar el Teorema de Bayes en los casos
prácticos.
• Se critica que los escenarios de casos contemplados en la literatura
son demasiado simplificados y no realistas.
(Grieve, 2000b)
Esperamos que este libro vaya de algún modo dirigido hacia al venci-
miento de tal reticencia y escepticismo.
Se hace referencia, ocasionalmente, a valores de probabilidad de distri-
buciones estadísticas. Se presenta más información cada vez que se utili-
zan paquetes estadísticos y libros de tablas, listándose a continuación de-
talles de algunos paquetes:

• MINITAB. Ver http://www.minitab.com y Ryan y otros (2000).


• R. Se trata de un lenguaje y entorno para cálculos estadísticos y
gráficos cuyo código fuente está disponible de forma gratuita bajo
las condiciones de Free Software Foundation’s GNU General Public
License. R puede considerarse como una implementación diferente
de S. Hay algunas diferencias importantes, pero la mayor parte del
código de S corre también bajo R. Ver http://www.r-project.org/ e
Ihaka y Gentleman (1996).
• S-PLUS. Ver http://www.mathsoft.com/splus y Venables y Ripley
(2002). Ver también http://lib.stat.cmu.edu/S/ para software y exten-
siones.
28   Prefacio a la Segunda Edición

Además, para quienes les guste el papel, el libro de Lindley y Scout


(1995) es muy útil para tablas estadísticas.
Durante la preparación de este libro murieron dos eminentes científi-
cos forenses, Barry Gaudette y Mike Grieve. Ambos hicieron mucho para
inspirar nuestro trabajo sobre evaluación de la evidencia, por lo que siem-
pre les estaremos agradecidos.
Muchas personas nos han ayudado de multitud de formas en la prepa-
ración de este libro. En particular, agradecemos la ayuda de Fred Anglada,
Marc Augsburger, Luc Besson, Alex Biedermann, Christophe Champod,
Pierre Esseiva, Paolo Garbolino, David Lucy, Willy Mazzella, Phil Rose y
Bruce Weir. Si bien hemos recibido mucho asesoramiento, aceptamos ple-
namente la responsabilidad sobre cualquier error u omisión. Leverhulme
Trust proporcionó un inestimable apoyo a este trabajo por su premio de
investigación a uno de nosotros (CGGA). Dennis Lindley convino cortés-
mente escribir un prólogo. Él ha sido una inspiración para nosotros a lo
largo de nuestras carreras, y le profesamos nuestro más sincero agradeci-
miento por el honor que nos ha dispensado. Damos las gracias también al
personal de John Wiley and Sons, Ltd, Lucy Bryan, Rob Calver, Siân Jones,
Jane Shepherd, y a un muy diligente editor, Richard Leigh, por su ayuda y
apoyo en llevar este proyecto a su término.
Por último, siendo de ninguna manera lo de menor importancia, agra-
decemos a nuestras familias su apoyo y aliento.

C. G. G. Aitken y F. Taroni
Edimburgo y Lausana
Prefacio a la edición en español Prefacio a la edición en español

La presente traducción de la obra de C. Aitken y F. Taroni es el resultado


de un proceso ajeno a lo que comúnmente ocurre cuando se traduce un libro
técnico del inglés al español. Ninguno de los que traducimos este libro somos
profesionales de la traducción pero concurren en nuestro caso las siguientes
circunstancias. El autor sénior, el que tiene el honor de firmar este prefacio,
es un Teniente Coronel de la Guardia Civil con ya más 20 años de servicio en
el actualmente denominado Servicio de Criminalística. Su experiencia en dis-
tintos Departamentos: Grafística, Identificación —donde dirigió la incorpo-
ración de los ficheros decadactilares de la Benemérita al sistema automático
de identificación dactilar de la Secretaría de Estado para la Seguridad— y du-
rante la mayor parte de sus años de servicio en el Departamento de Acústica
e Imagen, con especial incidencia en la realización de informes periciales
de reconocimiento de locutores por la voz, le acercaron cada vez más pro-
fundamente a la estadística forense. Los autores junior, ambos licenciados
en matemáticas, Dña. Laura Gil Alcaráz y D. Rafael Granero Belinchón han
sido colaboradores inestimables para la culminación del trabajo, tanto en la
revisión específicamente matemática que ha ayudado a descubrir algunas
erratas en la segunda edición en inglés de la obra traducida, subsanándolos
seguidamente como es de rigor, como en el término de todos los pequeños
detalles formales que en una obra de esta envergadura no son irrelevantes ni
poco numerosos. No sería justo si no les atribuyera un mérito especial en la
traducción de algunos capítulos en áreas de la estadística o de la criminalísti-
ca con las que no tenía especial familiaridad.
Al lector en español de esta obra y, concretamente, al que tenga un es-
pecial interés por ella por sentirse atraído por la estadística forense, le diré
que se encuentra ante un libro denso, aparentemente asequible para quien
tenga una modesta formación en matemáticas, como señalan C. Aitken y
F. Taroni, pero sólo aparentemente porque el elenco de técnicas estadísti-
cas que se utilizan a lo largo de los sucesivos capítulos es notable. No creo
equivocarme si califico el libro de revolucionario, sobre todo conociendo
el modo en que muchos peritos oficiales formulan las conclusiones de sus
investigaciones. Lo revolucionario tiene directamente que ver con la forma
en que el libro pone el acento en el modo correcto de evaluar la fuerza de la
evidencia y en las numerosas formas de cometer errores probabilísticos de
todo tipo en esa tarea.
30   Prefacio a la edición en español

Me gusta insistir, cuando tengo la ocasión de intervenir en foros espe-


cializados, en la frecuencia con la que muchos expertos en criminalísti-
ca acentúan la relevancia de realizar correctamente la inspección ocular.
Ciertamente, ese trabajo puede calificarse de excepcionalmente importan-
te para el éxito de los exámenes periciales que necesitan llevarse a cabo en
los laboratorios. Sin embargo, ¿de qué sirven los exámenes periciales si sus
conclusiones son erróneas? ¿Qué perito no tiene experiencia sobre qué es
lo que los Tribunales valoran primordialmente de los informes periciales?
La clásica pregunta del Juez al perito sobre si se ratifica en las conclusio-
nes del informe enfoca claramente qué es lo que considera relevante en el
informe pericial desde el punto de vista jurídico para poder enjuiciar los
hechos. La ley obliga al Tribunal a decidir sobre la culpabilidad o inocen-
cia del imputado y lo que el Tribunal espera del informe pericial es conocer
en qué sentido las conclusiones inclinan la balanza hacia la tesis del Fiscal
o hacia la tesis de la defensa. Y en ese reforzamiento o atenuación de las
tesis defendidas por las partes, en un contexto en el que se identifican per-
sonas u objetos a partir de vestigios recogidos en la inspección ocular y
relacionados con el hecho criminal, resalta el descubrimiento de que es la
evidencia evaluada por el perito quien lo hace. Por eso este libro trata so-
bre “evaluación de la evidencia”, es decir, en qué medida la evidencia apoya
cada una de esas tesis en cada caso concreto.
De todas formas, este libro no sólo trata sobre cuestiones relacionadas
con problemas de identificación criminalística, también aborda otros pro-
blemas frecuentes en los laboratorios: cómo realizar muestreos, cómo va-
lorar la capacidad de determinadas características en discriminar vestigios
por la fuente de la que proceden, cómo estimar si vale la pena realizar una
determinada pericia antes de que se lleve a cabo, cómo precisar la termi-
nología empleada por los peritos para impedir equívocos y otras muchas
cuestiones que hacen de su contenido, a juicio de los que han realizado la
traducción al español, una fuente de conocimiento maduro y de óptima
calidad para realizar bien el trabajo pericial.
No se nos escapa que los avances en estadística forense hacen más di-
fícil la comprensión de las conclusiones de los trabajos periciales a los
Tribunales. Esta dificultad de comprensión es inherente al mayor rigor que
comporta el empleo de técnicas estadísticas como las contenidas en esta
obra. No es posible pensar en una criminalística avanzada, propia del siglo
XXI, al margen del rigor estadístico en cualquier disciplina pericial. El ma-
yor o menor alcance de su empleo, así como su precisión, dependerá de los
desarrollos que los estudios experimentales tengan en las distintas ramas
de la criminalística. Por tanto, nos encontramos ante un nuevo paradigma
Prefacio a la edición en español   31

en este campo de la ciencia y, como consecuencia, ante nuevos retos que


necesitarán importantes reformas, también en las académicas. Aquellos
profesionales de la justicia que se han atrevido a profundizar en algunas
facetas de la ciencia criminalística en el siglo XX, tendrán que saber que la
estadística forense será una asignatura que irá adquiriendo el carácter de
imprescindible para que peritos y Tribunales sigan, en el futuro, entendién-
dose.
Terminamos este prefacio agradeciendo a la Guardia Civil y al Ministerio
del Interior el apoyo administrativo y económico prestado para la traduc-
ción de este libro al español. A la editorial Dykinson por su inestimable
ayuda para la culminación de este trabajo. También queremos reconocer
tanto el espléndido trabajo docente del Departamento de Estadística y de
Investigación Operativa de la Facultad de Matemáticas de la Universidad
Complutense de Madrid para que en el Servicio de Criminalística de la
Guardia Civil se valore la estadística forense cada día más como el apo-
yo que la Universidad Autónoma de Madrid presta al mismo Servicio gra-
cias al Convenio de Colaboración que permite que alumnos de la Facultad
de Matemáticas puedan realizar sus prácticas universitarias en nues-
tra Institución. Por último, no podemos dejar de mencionar al Área de
Tratamiento de Voz y Señales (ATVS) de la Escuela Politécnica Superior de
la Universidad Autónoma de Madrid, grupo de investigación con el que la
Guardia Civil trabaja estrechamente desde el año 1997. Los muchos años
ya de colaboración investigadora y docente son causa muy principal de
que la presente edición de este libro vea la luz.

José Juan Lucena Molina


Teniente Coronel de la Guardia Civil - Servicio de Criminalística
Octubre de 2009
Capítulo 1
La incertidumbre
en la Ciencia Forense
La incertidumbre en la Ciencia Forense

1.1 Introducción

El fin de este libro es disertar sobre la evaluación estadística y probabi-


lística de la evidencia científica para expertos forenses. La mayor parte de
la evidencia sometida a evaluación se llamará evidencia de transferencia o
de traza.
Existe un principio bien conocido en la ciencia forense denominado
principio de Locard que establece que cada contacto deja una traza o vesti-
gio.
Iman y Rudin (2001) traducen el texto de Locard (1920) así:

“... o bien el malhechor ha dejado señales en la escena del crimen, o,


por el contrario, se ha llevado con él —en su persona (cuerpo) o ro-
pas— vestigios de dónde ha estado o qué ha hecho”.

El principio fue reiterado con diferentes palabras en 1929:

“Los vestigios que están presentes en nuestras ropas o en nuestra per-


sona son testigos silenciosos, seguros y fieles de cada acción que lleva-
mos a cabo y de cada encuentro que tenemos”.

La evidencia de transferencia y el principio de Locard pueden ilustrarse


del siguiente modo. Supongamos que una persona logra entrar en una casa
rompiendo una ventana y agrede al hombre dueño de la casa, derramán-
dose sangre tanto de la víctima como del atacante durante la agresión. El
criminal puede dejar vestigios de su presencia en la escena del crimen en
forma de manchas de sangre a consecuencia del ataque y fibras proceden-
tes de sus ropas. Esta evidencia se dice que ha sido transferida desde el
criminal a la escena del crimen.
34   La incertidumbre en la Ciencia Forense

El criminal también puede llevar encima vestigios dimanantes de la es-


cena del crimen. Podrían tratarse de manchas de sangre procedentes de la
víctima de la agresión, fibras de los vestidos de la víctima y fragmentos de
cristal procedentes de la ventana rota. Esta evidencia se dice que ha sido
transferida desde la escena del crimen al criminal.
Se identifica con prontitud a un sospechoso de forma que no haya teni-
do oportunidad de cambiarse de ropa. Los expertos forenses que examinan
la ropa del sospechoso encuentran semejanzas en todos los tipos de evi-
dencias: sangre, fibras y fragmentos de cristal. Desea evaluar la fuerza de
esta evidencia. Esperamos que este libro les haga capaces de realizarlo.
Vamos a estudiar métodos cuantitativos relacionados con distribucio-
nes de las características de interés. Sin embargo, abordaremos también
métodos cualitativos tales como la elección de una población adecuada
contra la que podemos comparar la variabilidad de las medidas de las ca-
racterísticas de interés. También en el Capítulo 4 se proporciona una breve
historia sobre aspectos estadísticos de la evaluación de la evidencia.

1.2 La estadística y la ley

El libro no se centra en el uso de la estadística y la probabilidad pensan-


do en tomar decisiones legales. Tan sólo habrá alguna referencia ocasional
al respecto. Tampoco en él se discute el papel de los expertos en estadís-
tica como testigos cualificados presentando valoraciones estadísticas so-
bre datos, ni su papel como consultores preparando análisis para impartir
consejos. En Fienberg (1989) y Tribe (1971) se hace una distinción entre
estos dos asuntos. El enfoque principal de este libro es la evaluación de la
evidencia llevada a cabo por expertos forenses, en particular con fines de
identificación. El proceso de dirimir el asunto de si una muestra procedió
de una determinada fuente es lo que se llama propiamente individualiza-
ción. “La Criminalística es la ciencia de la individualización” (Kirk, 1963),
aunque la práctica judicial y forense ha terminado denominándola identifi-
cación. Esta última terminología es la que va a utilizarse en este libro. Una
identificación, sin embargo, se define más correctamente como “la deter-
minación del conjunto al que pertenece un objeto, o la determinación de
si un objeto pertenece a un conjunto dado” (Kingston, 1965a). Existe una
discusión más amplia en Kwan (1977), y Evett y otros (1998a).
Por ejemplo, en un caso donde encontramos una ventana rota, pode-
mos hallar similitudes entre los índices de refracción de los fragmentos de
cristal procedentes de la ropa del sospechoso y los índices procedentes de
La estadística y la ley   35

la ventana rota. La valoración de esta evidencia respecto a la posible vincu-


lación del sospechoso con la escena del crimen es parte de la finalidad de
este libro (y esto se aborda particularmente en la Sección 10.4.2).
Para quienes estén interesados en temas de estadística y leyes más allá de
los relacionados con la ciencia forense, en el sentido que se da en este libro,
hay varios libros disponibles y entre ellos mencionamos alguno brevemente:
“The Evolving Role of Statistical Assessments as Evidence in the Courts”,
es el título de un informe, editado por Fienberg (1989), por el Panel so-
bre Valoraciones Estadísticas como Evidencias ante los Tribunales forma-
do por el Comité de Estadística Nacional y el Comité de Investigación en
materia de Policía y Administración de Justicia de los Estados Unidos, y
financiado por la Fundación de la Ciencia Nacional. A través del estudio
de casos, el informe revisa el uso de la estadística en determinadas áreas
polémicas, tales como la discriminación en el empleo, litigios antimono-
polio y leyes medioambientales. Hay un caso centrado en un problema de
identificación en una investigación criminal. Ese es el tema de este libro y
las ideas relevantes de ese caso —que incluyen la valoración de la evidencia
relacionada con similitudes entre cabellos humanos— podrán estudiarse
en detalle más adelante (Secciones 4.5.2 y 4.5.5).
El informe hace varias recomendaciones sobre el papel del testimonio del
experto, la investigación anterior a la celebración del juicio, la provisión de re-
cursos estadísticos, el papel de los expertos elegidos por el Tribunal, la mejora
de la capacidad del investigador y la educación estadística para juristas.
Dos libros que tienen la forma de libro de texto sobre estadística para
juristas son los de Vito y Latessa (1989), y Finkelstein y Levin (2001). El
primero se centra en la presentación de conceptos estadísticos utilizados
frecuentemente en el ámbito de la justicia criminal. Proporciona ejemplos
criminológicos para demostrar cómo emplear los estadísticos básicos. El
segundo presenta estadística más avanzada y de nuevo utiliza casos para
ilustrar tales técnicas.
El área de los litigios sobre discriminación se cubre con un conjunto de
artículos en congresos editados por Kaye y Aickin (1986). Comienza con
la doctrina legal subyacente a esa problemática. En particular, existe un
capítulo fundamental relacionado con la discriminación en el empleo. La
definición del mercado relevante en el que un empresario lleva a cabo una
contratación tiene que quedar muy clara. Por ejemplo, considere el caso
de un hombre que aspira, aunque es rechazado, a un puesto de secretario.
¿Consideramos como población relevante la población en general, la re-
presentación de los hombres que trabajan como secretarios en la zona, o
el porcentaje de solicitudes que sean varones? La elección de la adecuada
36   La incertidumbre en la Ciencia Forense

población de referencia es también uno de los trabajos con los que se en-
frenta un científico forense. Se tratarán de distintos aspectos de este tema
en este libro.
Otro libro de texto que tiene 2 volúmenes es el de Gastwirth (1988a,b).
El libro trata de casos civiles y “está diseñado para introducir conceptos
estadísticos y su uso apropiado por juristas y agentes de seguros” (1988 a,
p, xvii). Hay dos áreas que sobresalen porque suele darse poca importancia
en la mayoría de los libros de texto sobre estadística. La primera se refiere
a medidas de desigualdad comparativa o relativa. Las consideramos im-
portantes porque muchos casos legales tienen relación con un tratamiento
imparcial o igualitario. La segunda área tiene que ver con la combinación
de resultados procedentes de diferentes estudios interrelacionados de ca-
rácter estadístico. Esto es importante porque si existen registros adminis-
trativos o estudios disponibles actualizados se utilizan a menudo para to-
mar decisiones legales o adoptar medidas políticas; no es posible en esos
casos abordar ulteriores investigaciones. Gastwirth (2000) ha editado tam-
bién una colección de ensayos sobre ciencia estadística para el ámbito de
la justicia, algunos de los cuales son directamente adecuados para este li-
bro y serán oportunamente citados.
Una colección de presentaciones en congresos sobre Estadística y
Gestión Pública ha sido editada por Fairley y Mosteller (1977). Hay un ca-
pítulo en el libro que menciona un caso particularmente desgraciado, el
caso Collins, que será discutido en detalle en la Sección 4.4. Otros artículos
se relacionan con gestión política y toma de decisiones.
El área cubierta por este libro no lo está por los citados anteriormente
en su mayor parte. El uso de la estadística en ciencia forense en general se
aborda en una colección de ensayos editados por Aitken y Stoney (1991).
El área cubierta por este libro es la descripción de procedimientos esta-
dísticos para la evaluación de la evidencia llevada a cabo por expertos fo-
renses. Se realizará preferentemente a través de la moderna aproximación
Bayesiana. Esta aproximación tiene su origen en los trabajos de I.J. Good
y A.M. Turing como criptoanalistas en Bletchley Park durante la II Guerra
Mundial. Existe una breve narración de esta historia en Good (1991). En
el ensayo de Good (1950) sobre la probabilidad y el peso de la evidencia, y
sobre la entropía (Shannon, 1948) —la esperada cantidad de información
dimanante de un experimento—, Good remarca que el peso esperado de
la evidencia a favor de la hipótesis H en relación a su complementario H
(leído como “H-barra”) es igual a la diferencia de las entropías asumiendo
H y H respectivamente. Se ofrece una breve discusión sobre una aproxi-
mación frecuentista y los problemas asociados con ella en la sección 4.6.
La estadística y la ley   37

Resulta interesante resaltar que en una alta proporción de situaciones


en las que se utiliza una presentación objetiva formal de la evidencia esta-
dística se hace mediante una aproximación frecuentista, con tests de con-
traste de hipótesis o de significancia (Fienberg y Schervish, 1986). Sin em-
bargo, ambos autores continúan diciendo que la mayoría de los ejemplos
citados con el uso de la aproximación bayesiana se encuentran en el marco
de la identificación de una evidencia. Este es el marco principal de este
libro, y el análisis bayesiano, que conforma los fundamentos de la evalua-
ción de la evidencia, será tratado a lo largo del mismo. Como ejemplos de
la aplicación de este análisis a asuntos legales tenemos a Cullison (1969),
Fairley (1973), Finkelstein y Fairley (1970,1971), Lempert (1977), Lindley
(1977 a,b), Fienberg y Kadane (1983), y Anderson y Twining (1998).
Otra aproximación que no será tratada aquí es la de Shafer (1976,1982).
Se refiere a las denominadas funciones de creencia (ver sección 4.1). La
teoría de las funciones de creencia es una teoría muy sofisticada para va-
lorar la incertidumbre que intenta responder a las críticas realizadas a las
aproximaciones frecuentista y bayesiana para realizar inferencias.
Las funciones de creencia no son aditivas en el sentido de que la creen-
cia sobre un suceso A (se representa como Bel(A)) y la creencia sobre el
complementario a A (se representa mediante Bel( A )) no suman la unidad.
Ver también Shafer (1978) para una discusión histórica sobre la no aditi-
vidad. Una discusión más profunda escapa a los fines de este libro. Hay
pocas aplicaciones prácticas. Sin embargo, se ha realizado una evaluación
de la evidencia relativa a índices de refracción de cristales (Shafer, 1982).
Resulta muy tentador, cuando se valora la evidencia, intentar determi-
nar un valor para la probabilidad del llamado probandum (lo que se quiere
probar), es decir sobre el asunto de interés tal como la culpabilidad, o un
valor para la apuesta favorable a la culpabilidad, y quizá incluso llegar a to-
mar una decisión sobre la culpabilidad del sospechoso. Sin embargo, esta
es la misión del Jurado o del Tribunal. No es misión del científico forense
o del testimonio del experto estadístico dar una opinión al respecto (Evett,
1983). El científico puede decir que la evidencia es 1000 veces más pro-
bable, digamos, si el sospechoso es culpable que si fuera inocente. No se
puede interpretar esto como que, gracias a la evidencia, es 1000 veces más
probable que el sospechoso sea culpable que inocente. Algunas dificulta-
des asociadas con valoraciones de probabilidad se discuten en Tversky y
Kahneman (1974), y por Kahneman y otros (1982), y se describen más ade-
lante en la Sección 3.3. Una adecuada representación de probabilidades es
útil porque encaja en el dispositivo analítico mayoritariamente utilizado
por los abogados, normalmente la creación de una historia. Se trata de una
38   La incertidumbre en la Ciencia Forense

narración de acontecimientos “abstrayéndose de la evidencia y de forma


secuencial para persuadir al investigador de que la historia contada es la
más verosímil sobre “lo que realmente sucedió” de cuantas pudieran con-
tarse partiendo de la evidencia que ha sido o será mostrada” (Anderson y
Twining, 1998, p. 166). También destacamos a Kadane y Schum (1996),
los cuales proporcionan un análisis bayesiano de la evidencia en el caso
Sacco-Vanzetti (Sacco, 1969) basado en probabilidades determinadas de
modo subjetivo y asumiendo relaciones entre evidencias. Se presenta una
aproximación semejante en el Capítulo 14.

1.3 La incertidumbre en la ciencia forense

La evidencia científica1 requiere considerable cuidado en su interpreta-


ción. Se necesita enfatizar la importancia de la pregunta: “¿qué significan
estos resultados en este caso particular?” (Jackson, 2000).

1
Nota del traductor: El término evidencia tiene gran diversidad de acepciones. Eti-
mológicamente, este término se relaciona con el sentido de la vista. Se dice que un objeto
está en evidencia o que es evidente cuando es visible a la primera ojeada. El término se
extendió a todos los sentidos y, también, por analogía, a la inteligencia. A diferencia de la
verdad, que es una propiedad de un juicio (también llamado proposición por los expertos en
lógica), y de la certeza, que es un estado de la inteligencia respecto de la verdad —no puede
confundirse con la verdad porque existen certezas erróneas—, la evidencia es una propie-
dad del objeto en estudio. Como antes hemos dicho, es el objeto el que está en evidencia
o es evidente. Esto no es óbice para que podamos hablar de juicios o verdades evidentes
porque cuando hablamos así consideramos esas verdades o juicios en cuanto a su materia
o contenido, en definitiva, como objetos, en este caso inmateriales.
Filosóficamente, evidencia es la claridad con la que un objeto (material o inmaterial)
aparece a una facultad de conocimiento (sentido, conciencia o inteligencia) obligando a
esa facultad a emitir un juicio. Una forma de entender la evidencia muy didáctica es dife-
renciarla de términos semejantes que se caracterizan por ser grados de claridad inferiores a
la evidencia. Por ejemplo, podemos distinguirla de lo posible o de lo probable. Lo posible es
aquello que puede ser. Renunciamos a decir que algo va a ocurrir alguna vez porque puede
ser que no ocurra nunca. Equivale a reservar el juicio, a quedarnos en la duda. Lo probable
está relacionado con una opinión. La probabilidad es la herramienta más común para me-
dir la incertidumbre sobre la ocurrencia de un suceso.
El término inglés “evidence” alcanza acepciones inexistentes en el equivalente término
español. Una de esas acepciones de la palabra inglesa es que se refiere a alguna cosa, como
un hecho, un signo o un objeto, que aporta pruebas o razones para creer o estar de acuer-
do con algo que se investiga o se discute. Dada la influencia de la cultura anglosajona en
las ciencias, sus acepciones han sido incorporadas al término español equivalente en los
ámbitos profesionales especializados. Por tanto, con esa acepción se identifica en crimina-
lística la evidencia con una muestra o un vestigio recogido en la escena del crimen. Recibe,
pues, el nombre de evidencia el propio objeto material recogido en una inspección ocular
realizada por la policía. Un significado más específico lo encontramos cuando se habla de
La incertidumbre en la ciencia forense   39

Los científicos y los juristas tienen que abandonar la idea de que pueda
existir certeza absoluta en un proceso de identificación de forma comple-
tamente objetiva. Si se acepta que nada es absolutamente cierto, entonces
se ve lógico que se determine el grado de confianza que puede tenerse so-
bre una particular creencia (Kirk y Kingston, 1964).
Existen varias clases de problemas con respecto a la variación aleatoria
que está naturalmente asociada con las observaciones científicas. También
respecto a la definición de la adecuada población de referencia cuando se
manejan conceptos de rareza o normalidad, y también con la elección de
una medida del valor de la evidencia.
El efecto de la variación aleatoria puede abordarse con el uso apropiado
de ideas estadísticas y probabilísticas. Hay variabilidad asociada con las
observaciones científicas. La variabilidad es un fenómeno que ocurre en
muchas ocasiones. La gente nace con distinto sexo, cuya naturaleza se de-
termina en la concepción. La gente tiene distinta altura, peso y habilidades
intelectuales, por ejemplo. La variación en altura y peso es dependiente
del sexo. En general, las mujeres tienden a ser más ligeras y bajas que los
hombres. Sin embargo, la variación es tal que puede haber mujeres altas
y de mucho peso, así como hombres bajos y de poco peso. En el momento
de nacer, es incierto cómo será de alto y pesado el bebé cuando llegue a ser
adulto. Sin embargo, en el nacimiento, se conoce si el bebé es niño o niña.
Ese conocimiento afecta a la incertidumbre asociada con las predicciones
de altura y peso cuando sea adulto.
La gente pertenece a diferentes grupos sanguíneos. El grupo sanguí-
neo al que pertenece una persona no depende ni de la edad ni del sexo,
pero depende de la etnia a la que pertenece. El índice de refracción de
un cristal varía dentro de una ventana y de unas ventanas a otras. La ob-
servación de un cristal como procedente de una ventana o de una botella
afectará a la incertidumbre asociada a la predicción de su índice de re-

evidencia de transferencia, donde se considera en qué dirección ha tenido lugar la trans-


ferencia de la evidencia considerada como vestigio, desde su fuente hasta su destino. Por
ejemplo, desde el sospechoso a la escena del crimen, desde la víctima al sospechoso o desde
la escena del crimen al sospechoso. En estos casos el perito está interesado en calcular las
denominadas probabilidades de transferencia de esas evidencias.
Llamamos también evidencia al resultado de lo medido sobre la muestra y en otras
ocasiones el término tiene que ver, en realidad, con un conjunto de ellas y los resultados
de los análisis realizados sobre los objetos. Cuando, por ejemplo, consideramos el hecho
de que las características de los objetos examinados, uno proveniente del sospechoso y
el otro de la escena del crimen, sean coincidentes, es decir, se haya producido un match
(coincidencia en las características examinadas), es ese match el que recibe el nombre de
evidencia.
40   La incertidumbre en la Ciencia Forense

fracción y a la de otros trozos de cristal de los que se piensa que tienen el


mismo origen.
Puede pensarse que como consecuencia de la existencia de variación
en las observaciones científicas no es posible realizar juicios cuantitativos
respecto a cualquier comparación entre dos conjuntos de observaciones:
esos conjuntos o son diferentes o no lo son, no pudiéndose decir nada más.
Sin embargo, eso no es así. Hay muchos fenómenos que varían, pero lo
hacen de una forma específica. Resulta posible representar esas formas
de variación matemáticamente. Varias de esas formas, incluyendo diversas
distribuciones de probabilidad, se presentarán en el Capítulo 2. Es posible
valorar las diferencias de forma cuantitativa y proporcionar una medida
de incertidumbre asociada a tales valoraciones.
Es útil distinguir entre estadística y probabilidad. Probabilidad es un
proceso deductivo que argumenta desde lo general a lo particular. Piénsese
en una moneda equilibrada, es decir, una que cuando se lanza tiene la mis-
ma probabilidad de salir cara, que cruz: 1/2. La tiramos 10 veces. La teoría
de la probabilidad nos permite averiguar, por ejemplo, la probabilidad de
que obtengamos 3 caras y 7 cruces. El concepto general de moneda equi-
librada se utiliza para determinar algo respecto al resultado de un caso
particular en el que hubo diez lanzamientos.
La estadística es, sin embargo, un proceso inductivo que argumenta des-
de lo particular a lo general. Piénsese en una moneda lanzada 10 veces, ob-
teniéndose 7 caras y 3 cruces. La estadística nos capacita para preguntarnos
sobre si la moneda es equilibrada o no. El resultado particular obtenido nos
permite determinar algo sobre si la moneda estaba o no equilibrada.
Tanto para la probabilidad como para la estadística hay incertidumbre.
Dada una moneda equilibrada, el número de caras y cruces en 10 lanza-
mientos es incierto. La probabilidad asociada con cada resultado puede
determinarse, pero el resultado de un lanzamiento no puede predecirse
con certeza.
Dado el resultado de una particular secuencia de 10 lanzamientos, pode-
mos tener una cierta información sobre si la moneda está o no equilibrada.
Por ejemplo, si el resultado fue de 10 caras y 0 cruces, podríamos creer que
la moneda está trucada y tiene dos caras, pero eso no se sabe con certeza.
Hay una probabilidad de 1/1024 (no es cero) de que en 10 lanzamientos pu-
dieran obtenerse 10 caras con una moneda equilibrada.
En verdad, eso ha ocurrido en la experiencia del primer autor. En una
clase de 130 alumnos se les pidió que lanzaran una moneda 10 veces. Un
estudiante sacó 10 caras consecutivas siendo segura la asunción de que se
trataba de una moneda equilibrada.
La incertidumbre en la ciencia forense   41

La probabilidad de que esto ocurra es la siguiente:

1 130
1 – (1 − ) = 0.12
1024
Nota del traductor:

Solución del problema planteado en la moneda equilibrada:

Probabilidad (cara) = ½
→ Cada tirada supone
Probabilidad (cruz) = ½

Al tirar sucesivamente la moneda, cada tirada es independiente de la si-


guiente.
El suceso compuesto”intersección de todas las tiradas”, cuya probabilidad
se desea calcular, se resuelve así:
P (salga cara 1ª tirada ∩ salga cara 2ª tirada ∩ ... ∩ salga cara 10ª tirada) =
P (salga cara 1ª tirada) x Ρ (salga cara 2ª tirada) x ... x P (salga cara 10ª tirada) =
10
1 = 1
  1024
2
El segundo problema se plantea usando la estrategia de calcular probabili-
dades complementarias y siguiendo un razonamiento análogo al anterior:
1  robabilidad de que 1 estudiante consiga 10 caras
P

1024 en 10 lanzamientos de la moneda.
1  robabilidad de que 1 estudiante no consiga 10 ca-
P
1− →
1024 ras en 10 lanzamientos de la moneda.
1 130
(1 − ) → Probabilidad de que los 130 estudiantes no consi-
1024 gan 10 caras en 10 lanzamientos de la moneda.
1 130
1 – (( 1 − ) ) → Probabilidad de que alguno de los 130 estudiantes
1024 saque 10 caras en 10 lanzamientos de la moneda.

1.3.1 El método frecuentista

Consideremos una caja de CDs con N discos. La caja contiene N discos:


ése es el tamaño del número de discos que caben en el recipiente. Deseamos
hacer inferencia sobre la proporción de discos piratas dentro de la caja,
siendo θ la proporción (0 ≤ θ ≤ 1). No es práctico inspeccionar toda la caja,
por lo que se inspecciona una muestra de tamaño n, siendo n < N.
42   La incertidumbre en la Ciencia Forense

El método frecuentista asume que la proporción θ dentro de la caja es


desconocida pero su valor es fijo, uno bien concreto. Los datos, el número
de discos en la muestra que son piratas, son variables. Se calcula un inter-
valo de confianza. Se utiliza el término confianza puesto que no es posible
calcular probabilidades de un suceso incierto: el que el intervalo contenga
el valor θ. Estas ideas se discuten en el Capítulo 5.
El método frecuentista deriva su nombre de la definición como frecuen-
cia relativa de la probabilidad. La probabilidad de que un suceso A ocurra,
se define como la frecuencia relativa del número de ocurrencias del suceso
A comparado con el número total de ocurrencias de todos los sucesos po-
sibles, medida sobre un gran número de observaciones, y conducida bajo
idénticas condiciones para todos los posibles sucesos.
Por ejemplo, consideremos el lanzamiento de una moneda n veces. No
se conoce si la moneda está equilibrada. Los resultados de las n tiradas se
van a utilizar para calcular la probabilidad de que caiga cara al lanzar la
moneda. Hay dos posibles resultados, cara (C) o cruz (+). Sea n(C) el nú-
mero de caras, y n(+) el número de cruces, de tal forma que n(C) + n(+) =
n. Entonces, la probabilidad de que salga cara, en una tirada cualquiera, se
define como el límite, cuando n → ∞ , de la fracción n(C)/n. El método fre-
cuentista descansa en la creencia de la posibilidad de realizar un número
infinito de veces cualquier experimento en las mismas condiciones. Esto
es una situación idealizada, muy rara vez posible en la práctica, si es que
alguna vez pudiera hacerse así. Para profundizar sobre esto puede consul-
tarse la Sección 4.6.
La forma en que la probabilidad y la estadística pueden utilizarse
para evaluar la evidencia es el tema de este libro. Eso requiere cuida-
do. Los estadísticos están familiarizados con la variación, al igual que
los expertos forenses, pues la observan en sus trabajos. Los juristas, sin
embargo, prefieren certezas. Un imputado acaba siendo culpable o ino-
cente (o también, en Escocia, no probado; en España esto equivale a
un sobreseimiento). El papel del científico consiste en testificar sobre
el valor de la evidencia, el papel del estadístico y de este libro consis-
te en proporcionar al científico una medida cuantitativa de esa valora-
ción. Está demostrado que hay pocas formas de evidencia que sean tan
definitivas que no se necesite o no sea deseable usar la estadística. El
Tribunal o el Jurado utilizan esta información, si así lo desean, como
ayuda en sus deliberaciones. Ni el estadístico, ni el científico han de
juzgar a nadie. El papel del científico en un juicio se restringe a dar su
parecer sobre si la evidencia procedente de dos fuentes (por ejemplo, la
escena del crimen y el sospechoso) tiene el mismo origen. Se utiliza el
La incertidumbre en la ciencia forense   43

término cognation (Kind, 1994) que está ligado al nombre cognate, cuyo
significado es algo o alguien relacionado con otro algo o alguien en su
origen; también cabe el hecho de compartir cualidades. Como ejemplo,
se suele emplear la relación entre palabras de dos idiomas distintos con
un origen etimológico común.
El uso de estas ideas en ciencia forense se comprende mejor a través del
estudio de algunos ejemplos. En la Sección 8.5 se tratará sobre las pobla-
ciones de referencia, es decir, poblaciones de donde se piensa que pudiera
proceder el autor del vestigio relacionado con la comisión de un hecho de-
lictivo.
El valor de la evidencia se mide mediante un estadístico denominado
razón de verosimilitud, y su logaritmo. De ello se hablará en las Secciones
3.4 y 3.5.

1.3.2 Manchas de fluidos corporales

Ejemplo 1.1. Se comete un crimen. Se encuentra una mancha de san-


gre en la escena del crimen. Toda explicación inocente de la presencia de la
mancha en ese lugar queda descartada. Se encuentra a un sospechoso. Su
ADN se analiza y se obtiene un cotejo positivo con el de la mancha de san-
gre. ¿Qué valor evidencial tiene este cotejo positivo? Esta es una situación
muy común y la respuesta a esta pregunta proporciona mucho material de
discusión en este libro.
Cierto es que hay otras cuestiones que deberían abordarse antes de re-
solver la pregunta anterior. Por ejemplo, ¿dónde se cometió el crimen?;
¿esto importa?; ¿el valor de la evidencia de la mancha de sangre cambiaría
dependiendo de dónde se cometiera el crimen?
Además del ADN, ¿qué más se sabe del sospechoso? En concreto, ¿hay
alguna información, tal como su etnia, que pudiera estar relacionada con
su perfil de ADN? ¿Cuál es la población de la cual pudiera proceder el sos-
pechoso? ¿Pudo haber sido algún otro miembro de su familia?
Preguntas como las anteriores y sus efectos sobre la interpretación y
evaluación de la evidencia serán posteriormente analizadas en detalle.
Primeramente, consideremos únicamente la evidencia de ADN y un de-
terminado marcador: LDLR. Asumamos que el crimen fue cometido en
Chicago y que hay testigos oculares que manifiestan que el autor del cri-
men era de etnia caucásica. Se dispone de información (Tabla 1.1) sobre la
distribución genotípica para el marcador LDLR de caucásicos en Chicago,
siendo la siguiente:
44   La incertidumbre en la Ciencia Forense

Tabla 1.1. Frecuencias genotípicas para el locus LDLR entre caucásicos


en Chicago basada en una muestra de tamaño 200 (de Johnson
y Peterson, 1999).

Genotipo AA BB AB
Frecuencia (%) 18,8 32,1 49,1

La información sobre el lugar del crimen y la etnia del criminal es re-


levante: las frecuencias genotípicas varían con la geografía y entre grupos
étnicos. Se identifica a un sospechoso. En el locus LDLR el genotipo del
sospechoso y de la mancha del crimen coinciden. El investigador sabe
algo de probabilidad y calcula que la probabilidad de que dos personas
elegidas al azar y que no estén emparentadas con el sospechoso tengan
los mismos alelos es la siguiente, dadas las cifras de la Tabla 1.1 (consul-
tar la Sección 4.5):

(0.188) + (0.321) + (0.491) = 0.379


2 2 2
(1.1)

Intersección de sucesos independientes: ⇒ multiplicación de probabilidades
“que A tenga el genotipo AA en el locus LDLR y B también”

(0.188) + (0.321)
2 2


Unión de sucesos disjuntos ⇒ suma de probabilidades
“Coincidencias en genotipos: AA o BB”

El investigador no está muy seguro de lo que significa este resultado:


¿es alto?, ¿es un valor alto para incriminar al sospechoso?, ¿es bajo?, ¿este
valor bajo le incrimina? De hecho, un valor bajo es más incriminante que
un valor alto.
Piensa un poco más y recuerda que los genotipos no sólo coinciden, sino
que son del tipo BB. La frecuencia de los genotipos AA y AB no son, pues,
relevantes. Ahora calcula la probabilidad de que, por azar, dos personas
puedan tener el mismo genotipo BB en el marcador LDLR:

(0.321)
2
= 0.103 (ver Sección 4.5).
La incertidumbre en la ciencia forense   45

Aún no está muy seguro de lo que significa pero siente que es más signi-
ficativa esa probabilidad que la anteriormente calculada puesto que ahora
ha tenido en cuenta el genotipo coincidente entre el sospechoso y la man-
cha de sangre en la escena del crimen.
El genotipo de la mancha de sangre en la escena del crimen para el mar-
cador LDLR es BB. El genotipo del sospechoso para el mismo marcador es
también BB (si no lo fuera, no sería el sospechoso). ¿Qué valor tiene esta
evidencia? La discusión anterior sugiere varias respuestas posibles:
1. La probabilidad de que dos personas elegidas al azar tengan el mis-
mo genotipo para el marcador LDLR es 0.379.
2. La probabilidad de que dos personas elegidas al azar tengan el mis-
mo pre-especificado genotipo (BB) para el mismo marcador LDLR
es 0.103.
3. La probabilidad de que una persona elegida al azar tenga el mismo
genotipo que la mancha de sangre de la escena del crimen, siendo
ésta del grupo BB, es 0.321 (Tabla 1.1).
Las palabras “aleatoria” o “al azar” referidas a la selección de personas
incluyen la advertencia de que no estén emparentadas con el sospechoso.
En la Sección 4.5 se trata de lo relativo a los puntos 1 y 2. En la Sección
9.2 lo relativo al punto 3.

1.3.3 Fragmentos de cristal

La sección anterior trata sobre un ejemplo de interpretación de la evi-


dencia de un perfil de ADN. Consideremos ahora un ejemplo sobre frag-
mentos de cristal y la medida del índice de refracción de éstos.
Ejemplo 1.2.- Como antes, consideremos la investigación de un crimen.
Se ha roto una ventana durante su comisión. Encontramos a un sospecho-
so con fragmentos de cristal sobre sus ropas, similares en cuanto al índice
de refracción al de la ventana rota. Se recogen diversos fragmentos de cris-
tal y se miden sus índices.
Obsérvese que existe una diferencia respecto al ejemplo 1.1, donde se
asumió que la mancha de sangre provenía del criminal y se había transfe-
rido a la escena del crimen. En este ejemplo 1.2, el cristal se transfiere de
la escena del crimen al criminal. El cristal que aparece en la ropa del sos-
pechoso pudiera provenir de algún lugar diferente a la escena del crimen y,
por tanto, a través de medios inocentes. Esto es una asimetría asociada con
esta clase de evidencias. La evidencia se conoce como evidencia de trans-
ferencia, como ya se habló de ella en la Sección 1.1, porque la evidencia
46   La incertidumbre en la Ciencia Forense

(por ejemplo: sangre o fragmentos de cristal) se transfiere del criminal a


la escena del crimen o viceversa. La transferencia del criminal a la escena
del crimen tiene que ser considerada distinta de la contraria. Sobre ello se
tratará profundamente en el Capítulo 8.
Respecto al ejemplo 1.2, se deben realizar comparaciones entre los frag-
mentos procedentes de los dos conjuntos (ropa y ventana rota) utilizando
sus índices de refracción. Tenemos que estimar el valor evidencial del re-
sultado de esta comparación. Obsérvese que se asume que todos los frag-
mentos tienen iguales características y que la comparación se realiza, ex-
clusivamente, teniendo en cuenta sus índices de refracción.
Para evaluar esas evidencias se han propuesto numerosos métodos en
muchos artículos desde finales de los 70 y principios de los 80 (Evett, 1977,
1978; Evett y Lambert, 1982, 1984, 1985; Grove, 1981, 1984; Lindley, 1977a;
Seheult, 1978; Shafer, 1982). Estos métodos se detallarán posteriormente en
Capítulos más avanzados. Se han desarrollado sistemas automáticos para
este tipo de comparaciones como el denominado CAGE (Computer Assistance
for Glass Evidence - Ayuda Automática para la Evidencia de Cristal) y CAGE
2000 (Curran y otros, 2000; Hicks, 2004). Ver también Curran y otros (2000)
para una visión global actualizada de la práctica forense en este campo.
Evett (1977) dio un ejemplo sobre la clase de problema que se estaba abor-
dando y desarrolló un procedimiento para evaluar la evidencia que simulaba la
forma de pensar interpretativa del experto forense en aquella época. El caso era
imaginario. Cinco fragmentos encontrados en el sospechoso tenían que com-
pararse con diez fragmentos procedentes de la ventana rota en la escena del
crimen. Los valores del índice de refracción obtenidos se dan en la Tabla 1.2.

Tabla 1.2. Medidas de índices de refracción.

Medidas de fragmentos 1.51844 1.51848 1.51844 1.51850 1.51840


procedentes de la ven-
tana 1.51848 1.51846 1.51846 1.51844 1.51848
Medidas de fragmentos
procedentes del sospe- 1.51848 1.51850 1.51848 1.51844 1.51846
choso

El procedimiento híbrido y bastante arbitrario desarrollado por Evett


tiene dos etapas. Se describe, a continuación, brevemente; se encontrarán
más detalles en el Capítulo 4. Se irá siguiendo el modo de pensar del exper-
to forense encontrándose dificultades de interpretación a la hora de eva-
luar la evidencia. En el Capítulo 10 se ofrece una solución alternativa que
supera estas dificultades.
La incertidumbre en la ciencia forense   47

La primera etapa se conoce como etapa comparativa. Se comparan las


medidas de ambos conjuntos. Se trata de calcular el valor de un estadístico
(D, por ejemplo). Este estadístico proporciona una medida de la diferen-
cia, conocida como diferencia estandarizada, entre los dos conjuntos de
medidas, teniendo en cuenta la variación natural que existe en la medi-
da del índice de refracción entre fragmentos de cristal pertenecientes a la
misma ventana. Si el valor absoluto de D es menor (o igual) que un valor
pre-especificado (umbral), se dice que los dos conjuntos de fragmentos se
estiman similares, pasándose a la segunda etapa. Si el valor absoluto de D
es mayor que el umbral, se dice que los dos conjuntos no son similares. Se
estima que proceden de fuentes distintas y ya no se sigue con la segunda
etapa. (Obsérvese el uso del término “estadístico”, que en este contexto pue-
de considerarse, por simplicidad, como una función de las observaciones).
Un ejemplo clásico de esta aproximación es el uso del test t-Student o
el modificado test de Welch para la comparación entre las medias (Welch,
1937; Walsh y otros, 1996; Curran y otros, 2000); para más detalles, consúl-
tese el Capítulo 10.
La segunda etapa se conoce como etapa de la significación. Esta eta-
pa intenta determinar la significación de lo hallado en la primera etapa
respecto a que los dos conjuntos de fragmentos eran similares. La signifi-
cación se determina calculando la probabilidad de que los dos conjuntos
de fragmentos fueran similares asumiendo que hubieran tenido diferentes
orígenes. Si esta probabilidad fuera muy baja, entonces la asunción se con-
sidera falsa. Por tanto, se asume que los fragmentos proceden de una mis-
ma fuente, asunción que coloca al sospechoso en el lugar del crimen.
El procedimiento puede ser criticado en dos puntos. Primeramente, en
la etapa de comparación el umbral proporciona un paso cualitativo que
puede proporcionar resultados muy distintos para cada par de observacio-
nes. Un par de conjuntos de fragmentos pudiera proporcionar un valor de
D que estuviera justo debajo del umbral, por lo que se procedería a realizar
la segunda etapa, mientras otro que proporcionase un valor justamente
por encima evitaría pasar a la segunda etapa. Aún más, los dos pares de
conjuntos de fragmentos pudieran tener medidas muy próximas entre sí.
La diferencia en las consecuencias es mucho mayor que la diferencia entre
las medidas (tal fenómeno se conoce efecto “acantilado”) —ver Robertson
y Vignaux, 1995a—.
Una metodología mejor, expuesta en el Capítulo 10, proporciona una me-
dida del valor de la evidencia que decrece a medida que la distancia entre
los conjuntos de fragmentos crece, sujeta, como más tarde se explicará, a la
rareza o no de las medidas.
48   La incertidumbre en la Ciencia Forense

La segunda crítica es que el resultado es difícil de interpretar. A consecuen-


cia del efecto de la etapa de comparación, el resultado no es simplemente la
probabilidad de la evidencia, asumiendo que los dos conjuntos de fragmentos
procedieran de diferentes fuentes. Una interpretación razonable, como será
la expuesta en la Sección 3.5, del valor de la evidencia, es el efecto que tiene
sobre la apuesta a favor de la culpabilidad del sospechoso. En el método de
las dos etapas este efecto es difícil de medir. La primera etapa descarta ciertos
conjuntos de medidas que pudieran haber venido de la misma fuente y pu-
diera no descartar otros conjuntos de medidas que procedieran de distintas
fuentes. La segunda etapa calcula una probabilidad, no de la evidencia sino de
aquella parte de la evidencia para la cual D no fuera mayor que el umbral, asu-
miendo que los dos conjuntos de fragmentos vinieran de diferentes fuentes.
Resulta necesario comparar esta probabilidad con la probabilidad del mismo
resultado asumiendo que los dos conjuntos de fragmentos vinieran de la mis-
ma fuente. Hay también una implicación en la determinación de la probabili-
dad en la etapa de significancia consistente en que una pequeña probabilidad
para la evidencia, asumiendo que los dos fragmentos procedieran de fuentes
diferentes, conllevase una gran probabilidad de que los conjuntos procedieran
de una misma fuente. Esta implicación es infundada. Ver la Sección 3.3.1.
En Evett (1986) puede consultarse un estudio que revisa el método de
las dos etapas y el desarrollo metodológico bayesiano.
Al igual que sucedió con el ADN, existen problemas asociados con la de-
finición de la adecuada población de referencia a partir de la cual podamos
obtener distribuciones de probabilidad de índices de refracción; ver, por
ejemplo, Walsh y Buckleton (1986).
Se han presentado estos ejemplos para proporcionar un ámbito dentro
del cual podemos efectuar una evaluación de la evidencia. Para conseguir-
lo, algo sobre lo que hay mucha incertidumbre, se necesita establecer una
terminología adecuada y disponer de algún método para valorar la incerti-
dumbre. Este método es la probabilidad. El papel de la incertidumbre, re-
presentado por la probabilidad, en la valoración de la evidencia científica,
será la base del resto de este Capítulo. Un comentario sobre el llamado por
Evett “administración del conocimiento” puede verse en su obra referencia-
da como (1993b).

1.4 Terminología

Se necesita disponer de claras definiciones de ciertos términos. Los ma-


teriales de la escena del crimen y del sospechoso desempeñan fundamen-
talmente distintos papeles. La determinación de la probabilidad de una co-
Terminología   49

incidencia entre dos conjuntos de materiales aleatoriamente elegidos no


es el asunto principal. A un conjunto de materiales, sean de la escena del
crimen o del sospechoso, se les puede considerar como provenientes de
una misma fuente. Se requiere después estimar la probabilidad de que se
produzca coincidencia, en algún sentido, entre el correspondiente vestigio
procedente del sospechoso o de la escena del crimen, y el conjunto de ma-
teriales conocidos, bajo dos proposiciones competitivas. Los ejemplos 1.1
y 1.2 sirven para ilustrar todo esto.

Ejemplo 1.1 (continuación).- Se cometió un crimen. Se encontró una


mancha de sangre en la escena del crimen. Se descarta toda explicación
inocente de la presencia de la mancha. Se halla a un sospechoso. Su perfil
de ADN coincide con el de la mancha del crimen. El material de la escena
del crimen es el perfil de ADN de la mancha del crimen. El material del sos-
pechoso es el perfil de ADN del sospechoso.

Ejemplo 1.2 (continuación).- Como antes, consideremos la investiga-


ción de un crimen. Se ha roto una ventana durante la comisión del crimen.
Algunos fragmentos se recogen para investigar y se miden sus índices de re-
fracción. Esos fragmentos, de origen conocido, se denominan fragmentos
de control, y sus medidas se denominan medidas de control. Se encuentra
a un sospechoso. Se encuentran fragmentos de cristal sobre él y se miden
los índices de refracción. Esos fragmentos (o sus mediciones) se denomi-
nan fragmentos (o mediciones) recuperados o recogidos. Sus orígenes son
desconocidos. Pueden provenir de la ventana rota en la escena del crimen,
pero no necesariamente.
El material de la escena del crimen lo forman los fragmentos de cristal
y las medidas de los índices de refracción encontradas en la escena del cri-
men. El material del sospechoso lo forman los fragmentos encontrados en
él y las medidas de los índices de refracción.
Las evidencias que tienen un origen conocido y que tienen una forma
originaria se denominan evidencias fuente o en forma originaria. Los frag-
mentos de cristal bajo esta situación se llamarán fragmentos fuente o en
forma originaria, y sus correspondientes medidas, medidas fuente o en
forma originaria, puesto que sus orígenes se conocen y se han obtenido
de una forma originaria de cristal, en este caso de una ventana (Stoney,
1991a). En general, sólo se utilizará el término fuente cuando nos refira-
mos a este tipo de evidencias.
Encontramos a un sospechoso. También fragmentos de cristal sobre él, y
medimos los índices de refracción de esos fragmentos. La evidencia de ese
50   La incertidumbre en la Ciencia Forense

tipo, que ha sido recibida y que tiene una forma particular, se llama receptora
o partícula transferida. Estos fragmentos (o sus mediciones) de cristal serán,
pues, fragmentos receptores o partículas transferidas. Sus orígenes se desco-
nocen. Han sido “recibidos” por el sospechoso desde algún lugar. Son partí-
culas que han sido transferidas al sospechoso desde alguna parte. Pudieran
venir de la ventana de la escena del crimen, aunque no necesariamente.
Habrá también ocasión de referirnos al lugar en el cual, o a la persona
en la cual, la evidencia fue hallada. La evidencia encontrada en la escena
del crimen se llama evidencia del crimen. La encontrada en la ropa del sos-
pechoso o en el entorno natural del sospechoso, como puede ser su casa,
se llama evidencia del sospechoso. ¡Obsérvese que esto no significa que la
evidencia, por sí misma, sea de naturaleza sospechosa!
El principio de Locard (ver Sección 1.1) dice que cada contacto deja una
traza.
En los ejemplos anteriores el contacto se produce entre el criminal y la
escena del crimen. En el ejemplo 1.1, la traza es la mancha de sangre en la
escena del crimen. En el ejemplo 1.2, la traza son los fragmentos de cristal
que serían removidos desde la escena del crimen por el criminal (y, más
tarde, se esperaría que fueran encontrados en la ropa del criminal).
La evidencia, en ambos ejemplos, es evidencia de transferencia (ver
Sección 1.1) o, en ocasiones, evidencia de traza. Se ha transferido material
entre el criminal y la escena del crimen. En el ejemplo 1.1, la sangre ha
sido transferida desde el criminal a la escena del crimen. En el ejemplo 1.2
los fragmentos pueden haber sido transferidos desde la escena del crimen al
criminal. La dirección de la transferencia en estos dos ejemplos es diferen-
te. También, en el primer ejemplo la sangre en la escena del crimen ha sido
identificada como procedente del criminal. Se sabe que la transferencia
tuvo lugar. En el segundo ejemplo no se sabe si el cristal ha sido transferi-
do desde la escena del crimen al criminal. El sospechoso tiene fragmentos
en sus ropas pero no necesariamente provienen de la escena del crimen.
Ciertamente, si el sospechoso es inocente y no tiene conexión con la escena
del crimen, los fragmentos no vendrán de allí.
Algunos han sugerido otra terminología, y esas sugerencias proporcio-
nan una fuente potencial de confusión. Por ejemplo, el término control se
ha utilizado para designar al material de origen conocido. Esto puede ser
tanto la forma originaria del material (fuente) como la forma de partícula
transferida. De igual modo, el término recuperado se ha utilizado para in-
dicar el material de origen desconocido. De nuevo, esto puede ser tanto la
forma originaria (fuente) o la forma de partícula transferida, dependiendo
de cuál haya sido la designación de forma de control.
Terminología   51

Alternativamente, conocido se ha utilizado como control, y cuestiona-


do como recuperado. Véase, por ejemplo, Brown y Cropp (1987). También
Kind y otros (1979) utilizó crimen refiriéndose al material conocido como
asociado al crimen y cuestionado refiriéndose al material cuya asociación
con el crimen se cree posible. Todos esos términos son ambiguos.
La necesidad de distinguir los objetos y personas asociadas con un cri-
men fue señalada por Stoney (1984a).
Consideremos la recuperación de un jersey de origen desconocido en
una escena del crimen (Stoney, 1991a). Se identifica a un sospechoso y se
encuentran fibras similares en composición a las del jersey encontrado en
la escena del crimen en su lugar de residencia. La forma originaria (fuente)
del material es el jersey. La forma de partícula transferida desde el material
son las fibras. Sin embargo, el jersey puede no ser la evidencia de control.
Es de origen desconocido. Las fibras, la forma de partícula transferida, pu-
dieran considerarse evidencia de control pues su origen es conocido, en el
sentido de que han sido halladas en el lugar de residencia del sospechoso.
Ellas están asociadas con el sospechoso de forma tal que no ocurre lo mis-
mo con el jersey. Por tanto, las fibras tienen un origen conocido, mientras
que el jersey no.
Champod y Taroni (1999) han proporcionado algunas definiciones en el
contexto de evidencias de fibras. El objeto o persona sobre la que existen
trazas se definen como receptor, y el objeto o persona que pudieran ser la
fuente (o una de sus fuentes) de las trazas, y de las cuales procede el mate-
rial que denominamos material conocido, se define como fuente conocida.
El material será referido como forma fuente cuando sea procedente, y
como forma receptora o partícula transferida cuando también lo sea. Esta
terminología evita pronunciarse sobre cuál de las formas es de origen co-
nocido. Hay dos posibilidades sobre el origen del material que se toma
como conocido: la escena del crimen y el sospechoso. Uno u otro se dice
que es conocido, y el otro desconocido. Los dos conjuntos de materiales
se comparan para determinar las probabilidades, las cuales dependen de
lo que se asume como conocido, proporcionándolas para lo que se asu-
me desconocido. Las dos posibilidades sobre el origen del material que es
considerado como conocido se denominan: “scene-anchored” o “suspect-
anchored”, donde la palabra “anchored” se refiere a lo que se asume como
conocido (Stoney, 1991a).
La distinción entre esas categorías es importante cuando se determinan
las llamadas probabilidades de correspondencia (Sección 8.2); no son tan
importantes cuando hay que calcular razones de verosimilitud. La referen-
cia a la forma (fuente o receptor, materia originaria o partícula transferi-
52   La incertidumbre en la Ciencia Forense

da) es una referencia a una de las dos partes de la evidencia. La referencia


al punto de partida (“anchoring”: sospechoso o escena del crimen) es una
referencia a una perspectiva para evaluar la evidencia.
Otros términos como control, conocido, recuperado, cuestionado, se
evitarán lo máximo posible. Sin embargo, a veces es útil referirse a una
muestra de material encontrado en la escena del crimen como muestra del
crimen, y a una muestra encontrada sobre o cerca del sospechoso como
una muestra del sospechoso. Esta terminología refleja el lugar donde se en-
cuentra el material. No indica la clase de material (forma originaria o par-
tícula transferida) o la perspectiva (desde el sospechoso o desde la escena
del crimen) desde la que va a evaluar la evidencia.

1.5 Tipos de datos

Un nombre genérico dado a las observaciones realizadas sobre objetos


de interés, como son las manchas de sangre o los índices de refracción
de los cristales, es el de datos. Hay diferentes tipos de datos y se necesita
terminología para diferenciarlos. Por ejemplo, consideremos el grupo san-
guíneo ABO. Las observaciones de interés son los grupos sanguíneos de la
mancha del crimen y del sospechoso. Esos grupos no son cuantificables.
No existe número significativo alguno que pudiera atribuirse a esos gru-
pos. El grupo sanguíneo en una característica cualitativa. Así pues, este es
un ejemplo de dato cualitativo. La observación de interés es una cualidad,
el grupo sanguíneo, que no tiene significación numérica. Los diferentes
grupos sanguíneos pueden denominarse categorías. La asignación de una
persona a una categoría recibe el nombre de clasificación. Cada persona
puede clasificarse en una categoría entre varias posibles (consúltese una
disertación sobre el significado de identificación en la Sección 1.2).
No es posible ordenar los grupos sanguíneos y decir que unos sean más
grandes que los otros. Sin embargo, existen datos cualitativos que tienen
un orden natural como puede ser el nivel de quemadura sobre un cuer-
po. No existe una medición numérica de ello pero se clasifica el nivel de
quemadura en 1er., 2º y 3er. grado, por ejemplo. Los datos cualitativos sin
orden natural se denominan datos nominales. Aquellos que lo tienen, da-
tos ordinales. Una característica ordinal es aquella en la que hay un orden
subyacente, aunque no sea cuantificable. El dolor es una de ellas; el nivel
de traumatismo puede ordenarse como: ninguno, ligero, medio, severo, y
muy severo. El caso más simple de datos nominales es aquél en el que una
observación (por ejemplo, el grupo sanguíneo de una persona), puede cla-
Probabilidad   53

sificarse en una de entre sólo dos categorías. Por ejemplo, tengamos en


cuenta el antiguo método de clasificación sanguínea, el sistema de marca-
dor genético de Kell, donde una persona puede ser clasificada como Kell+
ó Kell–. Esos datos se conocen como binarios. De modo alternativo, la va-
riable de interés, ahora el sistema Kell, se conoce como dicotómica.
Otros datos son cuantitativos. Pueden ser conteos (conocidos como da-
tos discretos, puesto que las cuentas toman valores discretos y enteros) o
medidas (conocidos como datos continuos, puesto que las medidas pue-
dan tomar cualquier valor en un intervalo continuo). Un crimen violento
que involucre a diversas personas, víctimas y atacantes, puede dar lugar al
derramamiento de mucha sangre y a la identificación de numerosas man-
chas con los distintos perfiles. El número de manchas de cada perfil es un
ejemplo de dato cuantitativo discreto.
Los índices de refracción y las concentraciones elementales de fragmen-
tos de cristal son ejemplos de medidas continuas. En la práctica, las varia-
bles son raramente verdaderamente continuas por los límites inherentes a
los instrumentos de medida. Los índices de refracción sólo pueden medir-
se hasta una cierta precisión.
Las observaciones, o datos, pueden clasificarse como cualitativos o
cuantitativos. Los datos cualitativos pueden subclasificarse en nominales y
ordinales, y los cuantitativos en discretos y continuos.

1.6 Probabilidad

1.6.1 Introducción

La interpretación de la evidencia científica puede pensarse como la va-


loración de una comparación. La comparación se realiza entre el material
de la evidencia encontrado en la escena del crimen (llamamos a esto Mc)
y el encontrado sobre el sospechoso, sobre la ropa del sospechoso o en su
entorno (representamos esto mediante Ms). Denominamos M = (Mc, Ms) a
la combinación de los dos.
Como primer ejemplo consideremos la mancha de sangre del Ejemplo
1.1. La mancha del crimen es Mc, la forma receptora o de partícula trans-
ferida del material de la evidencia; Ms es el genotipo del sospechoso y la
forma fuente del material. Del ejemplo 1.2, supongamos que se ha roto un
cristal en el lugar del crimen durante su comisión. Mc sería los fragmentos
del cristal (la forma fuente del material) encontrados en lugar del crimen;
Ms serían los fragmentos de cristal (la forma receptora o de partícula trans-
54   La incertidumbre en la Ciencia Forense

ferida del material) encontrados sobre la ropa del sospechoso, y M sería los
dos conjuntos de fragmentos.
Cualidades (como los genotipos) o medidas (como los índices de refrac-
ción de fragmentos de cristal) son las observaciones que podemos obte-
ner de M. Se realizan comparaciones entre la forma fuente y la receptora.
Denotemos esas formas por Ec y Es, respectivamente, y llamemos E = (Ec,
Es) al conjunto de ambas. La valoración de la comparación entre las for-
mas Ec y Es va a ser ahora nuestro objetivo, intentando cuantificarla. La
totalidad de la evidencia se representa por Ev = (M, E).
Uno de los temas principales de la estadística es la cuantificación de
la valoración de comparaciones. La eficiencia de un nuevo tratamiento,
medicamento o fertilizante se ha de comparar con el tradicional y anterior
tratamiento, medicamento o fertilizante, por ejemplo. Parece natural que
los estadísticos y los expertos forenses caminen en esto de la mano. Dos
muestras, la del lugar del crimen y la del sospechoso, se tienen que compa-
rar. Sin embargo, aparte de los ejemplos del Capítulo 4, sólo recientemente
ha ocurrido lo que se acaba de comentar.
Como se dijo en la Sección 1.2, han aparecido libros sobre el papel de
la estadística en la Justicia. Hasta la primera edición de este libro no exis-
tía ninguno sobre estadística y evaluación científica de la evidencia. Hay
dos factores que pueden haber sido responsables de esto. Primeramente,
había una clara falta de datos adecuados como poblaciones de referencia.
Existía una consecuente inexistencia de referencia contra la que medir la
tipicalidad de cualquier característica de interés. Como excepción citamos
los datos de referencia disponibles durante muchos años sobre frecuencias
de grupos sanguíneos en ciertas poblaciones. No solamente ha sido posible
decir que el grupo sanguíneo del sospechoso coincidía con el de la mancha
encontrada en la escena del crimen, sino también que ese grupo estaba
presente, digamos, en el 0.01% de la población.
En nuestros días, los grupos sanguíneos han sido suplantados por bases
de datos de perfiles de ADN.
También existen colecciones de datos sobre índices de refracción de
fragmentos de cristal encontrados aleatoriamente en ropa, así como sobre
parámetros de transferencia y persistencia unidos a la evidencia de cristal
(Curran y otros, 2000). También se han publicado contribuciones para es-
timar las frecuencias de tipos de fibras (Grieve y Biermann, 1997; Grieve,
2000a,b; Grieve y otros, 2001). Hay también mucha información sobre la
frecuencia de características en perfiles de ADN. En las revistas “Forensic
Science International” y “Journal of Forensic Sciences” se anuncian datos
poblacionales de forma regular.
Probabilidad   55

En segundo lugar, la forma en que los expertos forenses realizan las va-
loraciones de las evidencias ha sido difícil de modelar. La metodología ha
consistido en realizar una comparación y emplear el contraste de hipóte-
sis. Se comparan características de las muestras halladas en la escena del
crimen y en el sospechoso. Si tras el examen los científicos creen que son
similares, la tipicidad y, por consiguiente, la significancia de la similitud de
las características, se ha de valorar posteriormente. Este método es el que
ha sido modelado por el de dos etapas de Evett (1977), descrito brevemente
en la Sección 1.3.3 y, en mayor detalle, en el Capítulo 4. Sin embargo, la
interpretación de los resultados obtenidos con esta metodología es difícil.
Mas tarde, en un trabajo ya clásico, Lindley (1977a) describió un mé-
todo fácil de justificar, implementar e interpretar. Combinó las dos par-
tes del método de las dos etapas en un estadístico, que se estudiará en
detalle en la Sección 10.2. El método compara dos probabilidades, la
probabilidad de la evidencia asumiendo como cierta una proposición
relacionada con el sospechoso (que es culpable, por ejemplo), y la pro-
babilidad de la evidencia, asumiendo otra proposición relacionada con
el sospechoso como cierta (por ejemplo, que es inocente). (Observación:
algunos utilizan el término hipótesis en lugar de proposición; los autores
encarecen usar el término proposición pues creen que se reduce el ries-
go de confusión con los contrastes de hipótesis asociados con el térmi-
no “hipótesis”). Este método implica que no es suficiente que el Fiscal
demuestre que la evidencia es improbable si el sospechoso es inocente.
La evidencia tiene que ser más probable si el sospechoso es culpable.
Este método tuvo relevantes antecedentes históricos (Good, 1950; ver
también Good, 1991, para una análisis crítico) aunque se prestó muy
poca atención en la literatura científica forense, incluso aunque fue cla-
ramente propuesto a comienzos del siglo XX (Taroni y otros, 1998). Es
también capaz de desarrollarse más allá del particular ejemplo tratado
por Lindley, como podrá verse a lo largo de este libro, por ejemplo en la
Sección 10.4.
Sin embargo, para abordar el tema es necesario tener alguna idea sobre
cómo medir la incertidumbre. Esto se realiza del mejor modo a través de la
probabilidad (Lindley, 1991, 1998).

1.6.2 Un estándar para medir la incertidumbre

Lindley (1991) ha descrito de forma excelente, cómo la probabilidad


debe emplearse en el ámbito de la ciencia forense. El trabajo de Lindley co-
56   La incertidumbre en la Ciencia Forense

mienza con la idea de un estándar para la incertidumbre. Proporciona una


analogía usando el ejemplo de las bolas en una urna. Inicialmente las bolas
tienen diferentes colores: negro y blanco. En otros aspectos —tamaño, peso,
textura, etc...— son idénticas. Singularmente, si uno fuera a coger una bola
de la urna, sin mirar su color, no sería posible adivinarlo. Los dos colores
de las bolas están en proporción b (black=negro) y w (white=blanco), de tal
forma que b + w = 1. Por ejemplo, si hubiera 10 bolas en la urna, 6 negras y
4 blancas, b = 0.6 y w = 0.4, resultaría que b + w = 0.6 + 0.4 = 1.
La urna es sacudida y las bolas se mezclan. Se saca una bola de la urna.
Como consecuencia de la sacudida y de la mezcla, se asume que cada bola
puede ser sacada de forma equiprobable, independientemente del color.
Tal proceso de selección, en el que cada bola puede seleccionarse de forma
equiprobable, se conoce como selección aleatoria y, elegida la bola, se dice
que fue elegida aleatoriamente.
La bola elegida aleatoriamente, puede ser negra, suceso que se representa
por B, o blanca, que se representa por W. No hay otra posibilidad: uno y sólo
uno de estos sucesos puede ocurrir. La incertidumbre de B, sacar una bola ne-
gra, se relaciona con la proporción b de bolas negras en la urna. Si b es pequeña
(cercana a cero), B es improbable. Si b es grande (próxima a 1), B es probable.
Una proporción cercana a 1 / 2, implicaría que B y W son casi equiprobables.
La proporción b es la probabilidad de obtener la bola negra sacando una alea-
toriamente de la urna. De forma similar, la proporción w es la probabilidad de
obtener una bola blanca sacando una aleatoriamente de la urna.
Obsérvese que en este sencillo modelo de probabilidad se utiliza una
proporción.
Como tal proporción, varía entre 0 y 1. Un valor de b = 0 ocurre si no
hay bolas negras en la urna y, por tanto, resulta imposible sacar una bola
negra de la urna. Un valor de b = 1 ocurre si todas las bolas de la urna son
negras. Es absolutamente cierto que cualquier bola elegida aleatoriamente
de la urna saldrá negra. La probabilidad de obtener una bola negra aleato-
riamente sacada de la urna será 1.
Todos los valores entre los extremos 0 y 1 son posibles (considerando
urnas muy grandes con muchas bolas).
Se ha sacado una bola aleatoriamente de la urna, ¿qué probabilidad
existe de sacar una bola negra? El suceso B es la selección de una bola ne-
gra. Cada bola tiene la misma posibilidad de ser seleccionada. Los colores
blanco y negro de las bolas están en las proporciones b y w. La proporción,
de bolas negras, se corresponde con la probabilidad de que una bola, sa-
cada aleatoriamente, sea negra. Se dice, entonces, que la probabilidad de
sacar una bola negra aleatoriamente de la urna es b. Se necesita alguna
Probabilidad   57

notación para describir la probabilidad de un suceso. La probabilidad de


B, el hecho de sacar una bola negra, se representa por Pr(B), y de forma
similar Pr(W) representa la probabilidad de sacar una bola blanca. Luego
podemos escribir que Pr(B) + Pr(W) = b + w = 1.
Este ejemplo de bolas en una urna podemos usarlo como referencia para
considerar sucesos inciertos. Sea R el suceso incierto de que un equipo de fút-
bol inglés sea el campeón de la liga de campeones europea. Sea B el suceso in-
cierto de sacar una bola negra de la urna. Tenemos que realizar una selección
entre R y B, y ha de ser éticamente neutral. Si elegimos B y sacamos una bola
negra de la urna, ganamos un premio. Si elegimos R y un equipo inglés gana
la liga de campeones, ganamos el mismo premio. La proporción b de bolas ne-
gras en la urna se conoce de antemano. Obviamente si b = 0, R sería la mejor
opción, asumiendo, desde luego, que Inglaterra tenga alguna oportunidad de
ganar la liga de campeones. Si b = 1, entonces B es la mejor opción.
En algún lugar del intervalo [0, 1] hay algún valor de b, b0 digamos, don-
de la elección no importa. Sería el lugar indiferente para elegir R o B. Si
elegimos B, Pr(B) = b0. En ese caso, Pr(R) = b0 también. De este modo, la
incertidumbre en relación con cualquier suceso puede medirse por la pro-
babilidad b0, donde b0 es la proporción de bolas negras que conduce a la
indiferencia entre las dos opciones, la de sacar una bola negra o el suceso
incierto en cuya probabilidad estemos interesados.
Obsérvese, sin embargo, que hay una diferencia entre esas dos probabi-
lidades.
Si contamos, la proporción de bolas negras en la urna puede ser deter-
minada con precisión. Probabilidades de otros sucesos como el resultado
del lanzamiento de una moneda o el valor de un dado son relativamente
fáciles de determinar, asumiendo algunas características físicas como que
estén equilibrados. Sea H el suceso de que una moneda lanzada al aire cai-
ga de cara. Entonces, para una moneda equilibrada, en la que el resultado
cara (H) o cruz (T) en cualquier lanzamiento sea equiprobable, la proba-
bilidad de que salga cara es 1 / 2. Sea F el suceso de que cuando se tire un
dado salga un 4. Entonces, para un dado equilibrado, en el que los resulta-
dos sean equiprobables, la probabilidad de que salga el 4 es 1 / 6.
Las probabilidades relacionadas con los resultados de eventos depor-
tivos como los partidos de fútbol, carreras de relevos o de caballos, o las
salidas de un juicio civil o criminal, son bastante diferentes por natura-
leza. Puede ser difícil decidir un valor b0. El valor puede cambiar a medi-
da que se acumula evidencia como los resultados de algunos partidos, la
preparación o algo similar de algunos jugadores, la buena forma de los
caballos, la identidad del jockey o la pista por la que va a correr. También,
58   La incertidumbre en la Ciencia Forense

diferentes personas pueden otorgar diferentes valores de probabilidad a un


mismo suceso. Esta clase de probabilidades se denominan probabilidades
subjetivas o personales; ver de Finetti (1931), Good (1959), Savage (1954) y
DeGroot (1970). Otro término es el de medida de la creencia, porque la pro-
babilidad puede pensarse como la medida de la creencia de una persona
sobre un suceso particular. A pesar de estas dificultades, los argumentos
sobre la probabilidad se mantienen aún firmes. Dado un suceso incierto R,
la probabilidad de R, Pr(R), se define como la proporción de bolas b0 en la
urna tal que si uno tuviera que decidir entre B (el suceso de elegir una bola
negra), donde Pr(B) = b0, y R, fuera indiferente lo que uno hubiera elegido.
Hay dificultades, pero el punto clave es que existe un estándar de proba-
bilidad.
En la Sección 9.5.5 hay un comentario sobre probabilidades subjetivas.
En la Sección 9.5 se trata de la probabilidad como una medida de creencia,
donde se utiliza para representar relevancia. Las diferencias y semejanzas
entre estas dos clases de probabilidad y la posibilidad de combinarlas se ha
llamado dualidad (Hacking, 1975).
Resulta útil reseñar dos citas que relacionan probabilidad, lógica y con-
sistencia, ambos de Ramsey (1931):
“Encontramos, por consiguiente, que una consideración precisa de la
naturaleza de las creencias parciales revela que las leyes de la proba-
bilidad son leyes de consistencia, una extensión de creencias parciales
de lógica formal, la lógica de consistencia. No dependen, por su sig-
nificado, de ningún grado de creencia en una proposición, estando
unívocamente determinadas, como la creencia racional; ellas mera-
mente distinguen aquellos conjuntos de creencias que les obedecen en
cuanto consistentes (pag. 182).
Consideramos que no pertenece a la lógica formal decir qué podemos
esperar al sacar una bola de una urna en cuanto al color (blanca o
negra); pudiera ser cualquiera dentro de los límites de la consistencia;
todo lo que podemos decir es que si existe alguna esperanza, está limi-
tada en cuanto a la consistencia para tener otras. Esto no es más que
llevar a la probabilidad dentro de la lógica formal, la cual no critica
premisas, sino que señala que sólo ciertas conclusiones son las únicas
consistentes con ellas (pag. 189)”.

1.6.3 Sucesos

El resultado de sacar una bola de una urna se llamó suceso. Si la bola


fue negra, se llamó B. Si fue blanca, se llamó W. No había certeza sobre
cuál de los dos sucesos ocurriría ¿sería la bola negra, suceso B, o sería
Probabilidad   59

blanca, suceso W? El grado de incertidumbre del suceso (B o W) se midió


por la proporción de bolas de cada color (B o W) en la urna, y esta propor-
ción se llamó probabilidad del suceso (B o W). En general, para un suceso
R, Pr(R) significa la probabilidad de que ocurra R.
Los sucesos pueden haber ya ocurrido (pasados), pueden estar ocurrien-
do (presentes) o pueden pasar en el futuro (futuros). Hay incertidumbre
asociada a cada uno de ellos. En cada caso, podemos asociar una probabi-
lidad con el suceso.
• Suceso pasado: se comete un crimen y una mancha de sangre de cier-
to tipo se encuentra en la escena del crimen. Se detiene a un sospe-
choso. El suceso de interés es que el sospechoso dejara la mancha en
la escena del crimen. Dejara o no la mancha el sospechoso, lo cierto
es que el conocimiento de ello es incierto, y de este modo existe una
probabilidad asociada.
• Suceso presente: se selecciona una persona. El suceso de interés es
que sea del grupo sanguíneo O. De nuevo, antes de disponer del re-
sultado del test, este conocimiento es incierto.
• Suceso futuro: el suceso de interés es si lloverá mañana.
Todos estos sucesos son inciertos y tienen probabilidades asociadas.
Obsérvese, singularmente, que si incluso un suceso ha ocurrido, puede todavía
existir incertidumbre asociada con él. La probabilidad de que el sospechoso
dejara la mancha de sangre en la escena del crimen requiere la consideración
de muchos factores, incluyendo la posible localización del sospechoso en la
escena del crimen y las propiedades de transferencia de la sangre de una per-
sona a un lugar. Respecto al grupo sanguíneo, tendríamos que tener en cuenta
la proporción de personas con el grupo O en alguna población.
Son frecuentes las predicciones probabilísticas del tiempo. De este
modo, puede decirse que la probabilidad de que llueva mañana es 0.8 (aun-
que puede que no sea siempre obvio lo que esto signifique).

1.6.4 Probabilidad subjetiva

En la ciencia forense se enfatiza, con frecuencia, que faltan datos numé-


ricos, de tal forma que el cálculo de LRs es, a veces, muy difícil (Sección
3.4.1). Ejemplos de esta dificultad son las valoraciones numéricas de pa-
rámetros como las probabilidades de transferencia y persistencia (ver
Capítulo 8), o incluso la relevancia de una evidencia (ver Sección 9.5).
La metodología bayesiana considera a las probabilidades como medidas
de creencia (también llamadas probabilidades subjetivas) puesto que tales
60   La incertidumbre en la Ciencia Forense

probabilidades pueden pensarse como medidas de la propia creencia sobre


la ocurrencia de un particular evento. La metodología permite la combi-
nación de probabilidades objetivas, basadas en datos, con probabilidades
subjetivas, para las cuales el currículum y experiencias del experto foren-
se pueden ayudar en la realización de las estimaciones. Los juristas están
también interesados en cálculos probabilísticos utilizando probabilidades
subjetivas, preferentemente relacionadas con la credibilidad de testigos y
las conclusiones a las que pudiera llegarse a partir de sus testimonios.
Desde un punto de vista formal, la definición frecuentista de probabilidad
entraña una larga secuencia de repeticiones de una situación dada, en idén-
ticas condiciones. Consideremos una secuencia de N repeticiones en las que
un suceso E ocurre X veces, siendo X un valor igual o mayor que 0 y menor o
igual a N. La frecuencia relativa X/N pudiera variar en diferentes secuencias
de N repeticiones, pero se supone que, en una secuencia donde el número N
de repeticiones crece indefinidamente en idénticas condiciones, la frecuen-
cia relativa tiende a un valor límite definitivo. En un entorno frecuentista, la
probabilidad del suceso E, que se representa por Pr(E), se define como ese
valor límite. Observe, como pasó con las bolas de la urna, que es un valor
entre 0 y 1. En realidad es difícil, si no imposible, mantener idénticas con-
diciones entre las pruebas. Por consiguiente, en cualquier situación distinta
de la idealizada, tal definición de probabilidad se prueba impracticable. Por
ejemplo, consideremos la predicción de una tasa de desempleo para el año
siguiente. No es posible utilizar la definición frecuentista para determinar la
probabilidad de que la tasa se encuentre entre un 3% y un 4% de la masa la-
boral, puesto que no es posible considerar al desempleo como una secuencia
de repeticiones bajo idénticas condiciones. El desempleo al siguiente año es
único, un suceso que ocurre una vez en el tiempo (Berger, 1985).
Las probabilidades frecuentistas son probabilidades objetivas. Son tales
en el sentido de que existe una serie de circunstancias bien definidas para
una larga repetición de la misma prueba, de tal forma que las correspon-
dientes probabilidades están bien definidas, de forma que ningún personal
o subjetivo punto de vista alteraría los valores. Cada persona, teniendo en
cuenta esas mismas circunstancias, llegaría a los mismos valores de probabi-
lidad. El modelo frecuentista se relaciona con la frecuencia relativa obtenida
en una larga secuencia de pruebas, asumiendo que se realizan de la misma
manera, siendo físicamente independientes unas de otras. Esta circunstan-
cia tiene ciertas dificultades.
Si se toma de forma estricta, este punto de vista no permite hablar de
probabilidad para actuaciones que no ocurran, al menos conceptualmen-
te, con una larga secuencia de sucesos que den resultados equiprobables.
Probabilidad   61

La idea subyacente de probabilidad subjetiva es que la probabilidad de


que un suceso ocurra refleja una medida de creencia personal en la ocu-
rrencia de ese suceso. Por ejemplo, una persona puede tener una convic-
ción personal de que la tasa de desempleo rondará entre el 3% y el 4%, in-
cluso aunque ninguna probabilidad frecuentista pudiera calcularse para
tal evento. No hay nada sorprendente en esto. Resulta común pensar en
términos de probabilidad muchas veces, como cuando apostamos por el
resultado de un partido de fútbol o cuando predecimos si lloverá maña-
na.
En muchas situaciones, la ley es un buen ejemplo, no podemos asumir
resultados equiprobables de otro modo que no sea contando ocurrencias
de sucesos pasados para determinar frecuencias relativas. La razón es que
los sucesos de interés, si realmente han ocurrido, sólo lo han hecho una
vez (Schum, 2000). Así pues, una probabilidad subjetiva se define como
“un grado de creencia (mantenido en un momento dado gracias a la propia
experiencia, información y conocimiento) con respecto a la veracidad de
una sentencia, o un suceso E (un único suceso completamente especifica-
do o una sentencia de cuya veracidad o falsedad, sea cual sea la razón, no
podemos pronunciamos por sernos desconocida)“ (de Finetti, 1968, p.45).
Hay tres factores a considerar para esta valoración probabilística.
Primero, depende de la información disponible. Segundo, puede cambiar
cuando la información cambia. Tercero, puede variar entre individuos
porque puedan tener diferente información o diferentes criterios de valo-
ración. La única restricción en la valoración que debe mantenerse es lo
que se conoce como coherencia. La coherencia puede comprenderse con-
siderando la probabilidad subjetiva en términos de apuestas, en particular
como ocurre con las carreras de caballos. Para ese caso, para que las pro-
babilidades de que ganen cada uno de los caballos sean coherentes, debe
cumplirse que su suma ha de ser 1 (Taroni et al. 2001).
Bajo cualquier definición (frecuentista o bayesiana), la probabilidad
toma valores entre 0 y 1.
Hay muchos sucesos o parámetros de interés en múltiples disciplinas
(historia, teología, derecho, ciencia forense), que no son resultado de pro-
cesos repetitivos o reproducibles. Esos sucesos son singulares, únicos o de
una clase. No es posible repetir esos sucesos bajo idénticas condiciones y
tabular el número de ocasiones en que ocurrió algún suceso que vuelve a
presentarse en la actualidad. El uso de probabilidades subjetivas nos per-
mite hallar probabilidades de esa clase de sucesos.
Si se quiere consultar una definición filosófica y antecedentes históricos
de las probabilidades subjetivas, así como comentarios sobre el trabajo de
62   La incertidumbre en la Ciencia Forense

estadísticos, como de Finetti y Savage, trabajando en este campo en la mi-


tad del siglo XX, se puede acudir a Lindley (1980), y Taroni y otros (2001).

1.6.5 Leyes de probabilidad

Hay algunas leyes de probabilidad que describen los valores que la pro-
babilidad puede tomar y cómo se pueden combinar las probabilidades.
Estas leyes se van a describir aquí, primeramente sobre sucesos no condi-
cionados por ninguna otra información, y después para sucesos condicio-
nados. La primera ley de la probabilidad ya ha sido sugerida implícitamen-
te en el contexto de las proporciones.
1ª Ley de probabilidad.- La probabilidad puede tomar cualquier valor
entre 0 y 1, ambos inclusive, y sólo esos valores. Sea R cualquier suceso
y Pr(R) la probabilidad de que ocurra. Entonces: 0 ≤ Pr(R) ≤ 1. Para un
suceso imposible, su probabilidad es cero. De este modo, si R es imposible
Pr(R) = 0. Esta ley se conoce como la regla de convexidad (Lindley,1991).
Consideremos el ejemplo hipotético de las bolas en la urna, siendo b la
proporción de negras y w la de blancas, sin que haya ningún otro color, de
modo que b + w = 1. Las proporciones van de 0 a 1; por consiguiente: 0 ≤ b
≤ 1, 0 ≤ w ≤ 1. Para cualquier suceso R, 0 ≤ Pr(R) ≤ 1. Consideremos B, ha-
ber sacado una bola negra. Si este suceso es imposible, no hay bolas negras
en la urna y b = 0. Esta ley a veces se enuncia diciendo que la probabilidad
puede solamente ser 0 cuando el suceso asociado sea imposible.

Hacia las otras leyes


La primera ley concierne sólo a un suceso. Las otras dos leyes, conocidas
como la 2ª y 3ª de la probabilidad, tienen que ver con combinaciones de suce-
sos. Los sucesos se combinan de dos maneras. Sean R y S dos sucesos. Una
forma de combinación es considerar el suceso “R y S”, el cual ocurre si y sólo
si R y S ocurren a la vez. A esto se le conoce como la intersección de R y S.
Consideremos la tirada de un dado de 6 caras. Sea R el suceso de que
salga un número impar. Sea S el suceso de que salga un número mayor de
3 (es decir, 4, 5 ó 6). Entonces “R y S” es que salga 5.
Consideremos ahora la tirada de dos dados de 6 caras. Sea R el suceso
de que salga un 6 con el primer dado. Sea S el suceso de que salga un 6 con
el segundo dado. El suceso “R y S” consiste en que salgan dos seises.
La segunda forma de combinar sucesos es considerar el suceso “R o S”,
el suceso que ocurre tanto si R o S ocurren (o ambos). A este suceso combi-
nado se le llama unión de R y S.
Probabilidad   63

Consideremos de nuevo la tirada de un dado de 6 caras equilibrado. Sea


R el suceso de que salga un nº impar (1, 3, 5), y S, que salga un nº mayor de
3 (4, 5, 6) como antes. Entonces, “R o S” significa que salga cualquier nú-
mero menos el 2 (que sea impar y menor de 3 al mismo tiempo).
Consideremos el hecho de coger una carta de una baraja de 52 cartas,
bien barajada, de modo que cualquier carta pueda ser cogida de forma
equiprobable. Sea R el suceso de sacar una carta de espadas. Sea S el su-
ceso de que sea trébol. Entonces, el suceso “R o S” es aquel formado por
sacar una carta del palo negro.
La segunda ley de probabilidad se refiere a la unión de dos sucesos. Los
sucesos se llaman mutuamente excluyentes (o disjuntos) cuando la ocu-
rrencia de uno excluye la del otro. Para estos sucesos la intersección es un
suceso imposible. Por tanto, Pr(R y S) = 0.

Segunda ley de probabilidad.- Si R y S son mutuamente excluyentes (i.e.


disjuntos) la probabilidad de su unión “R o S” es igual a la suma de las pro-
babilidades de R y S. De este modo, para sucesos mutuamente excluyentes
o disjuntos:

Pr(R o S) = Pr(R) + Pr(S) (1.2)

Consideremos el hecho de sacar una carta de una baraja bien barajada,


siendo R el suceso de sacar una de espadas, y S una de tréboles. Entonces,
Pr(R) = 1 / 4; Pr(S) = 1/4; Pr(S y R) = 0 (una carta puede ser de espadas, o de
tréboles, o de otro tipo, pero nunca de dos tipos a la vez). De este modo, la
probabilidad combinada de que la carta pertenezca al palo negro es Pr(R o
S)=1/2, que es igual a la suma de Pr(R) y Pr(S).
Consideremos el ejemplo anterior de lanzar un dado de 6 caras equilibra-
do. En ese caso, los sucesos R (sacar nº impar) y S (nº > 3) no son mutua-
mente excluyentes. En la discusión sobre la intersección vimos que “R y S”
era 5, un suceso con probabilidad 1 / 6. La ley general, cuando Pr(R y S) ≠ 0,
es la siguiente:

Pr(R o S)= Pr(R) + Pr(S) – Pr(R y S)

Esta regla es fácilmente verificable en este caso donde Pr(R) = 1 / 2,


Pr(S) = 1 / 2; Pr(R y S) = 1 / 6; Pr(R o S) = 5 / 6.
La tercera ley de probabilidad se refiere a la intersección de dos sucesos.
Inicialmente se asume que los sucesos son independientes. Independencia
significa que el conocimiento de la ocurrencia de uno de los dos no altera
para nada la probabilidad de ocurrencia del otro suceso.
64   La incertidumbre en la Ciencia Forense

De este modo, dos sucesos que son mutuamente excluyentes no pueden


ser independientes. Como un simple ejemplo de independencia conside-
remos el lanzamiento de dos dados equilibrados de seis caras: A y B. La
salida del lanzamiento de A en nada influye en la salida de B. Si A da un 6,
este resultado no altera la probabilidad de que B sea un 6. El mismo argu-
mento vale para cuando se tira un mismo dado varias veces. Las salidas de
los primeros lanzamientos no influyen en los últimos.

Tercera ley de probabilidad.- Sea R y S dos sucesos independientes.


Entonces:

Pr(R y S) = Pr(R) x Pr(S) (1.3)

Esta relación se conoce, a veces, como la definición de independencia.


De este modo, dos sucesos R y S se dicen que son independientes si se cum-
ple lo anterior. Hay simetría en esta definición. El suceso R es independien-
te de S, y S de R. Esta ley se puede generalizar para más de dos sucesos.
Considerando n sucesos S1, S2, ..., Sn, si son mutuamente independientes:

Pr(S1 y S2 y ... y Sn) = Pr(S1) x Pr(S2) x … x Pr(Sn) = Πi=1n Pr(Si).

1.6.6 Sucesos dependientes e información de contexto

No todos los sucesos son independientes. Consideremos una tirada de


un dado equilibrado, siendo R la tirada de un número impar como ante-
riormente, y S la tirada de un número mayor que 3 como también anterior-
mente. Entonces, Pr(R) = 1/2; Pr(S) = 1/2; Pr(R) x Pr(S) = 1/4, pero Pr(R y S) =
Pr(que salga un 5) = 1/6.
Los sucesos que no son independientes se dice que son dependientes.
La tercera ley de probabilidad para sucesos dependientes fue primeramen-
te presentada por Thomas Bayes (1763); consúltese también a Barnard
(1958), Pearson y Kendall (1970), y Poincaré (1912). Se trata de la ley gene-
ral para la intersección de sucesos. La ley para sucesos independientes es
un caso especial. Antes de explicitar de forma general la tercera ley, sirve
de ayuda abordar el tema de la dependencia.
Resulta muy importante tener en cuenta que cualquier valoración de la
probabilidad de un suceso depende de dos cosas: del suceso mismo R cuya
probabilidad se desea calcular, y de la información I disponible cuando se
pretende calcular la probabilidad de R. La probabilidad Pr(R | I) se conoce
como probabilidad condicional, subrayándose que R es un suceso condicio-
Probabilidad   65

nado a I. Obsérvese el uso de la barra vertical |. Los sucesos que aparezcan


a su izquierda son aquellos de cuyas probabilidades estamos interesados.
Los que aparezcan a su derecha son sucesos cuyos resultados se conocen
y que pueden afectar a la probabilidad de los sucesos a la izquierda de la
barra, teniendo ésta el significado de “dado” o “condicionado a”.
Imaginémonos un imputado en un juicio que puede resultar o no culpa-
ble. Sea G el suceso de que el imputado sea culpable. La incertidumbre
asociada a la culpabilidad, la probabilidad de que sea culpable, podemos
llamarla Pr(G). Se trata de una probabilidad subjetiva. La incertidumbre
fluctuará a lo largo del juicio. Lo hará a medida que se presentan las evi-
dencias. Por tanto, dependerá esa probabilidad de las evidencias. Sin em-
bargo, ni en la notación —Pr(G)—, ni en el lenguaje —la probabilidad de
culpabilidad—, hemos hecho mención a esta dependencia.
La probabilidad de ser culpable en un momento en particular depende
del conocimiento (o información) disponible en ese instante. Llamamos I
a esa información. Entonces es posible hablar de la probabilidad de que el
imputado sea culpable, dado o condicionado a la información disponible
en ese instante. Esto se escribe como Pr(G / I). Si se presenta evidencia E
adicionalmente, constituye junto con I lo que se considera conocido. Lo
que se considera conocido es entonces “I y E”, la intersección de I y E. La
probabilidad de culpabilidad revisada será ahora: Pr(G / I ∩ E).
Cualquier probabilidad puede considerarse condicionada. La experiencia
personal informa los juicios que hacemos sobre sucesos. Por ejemplo, el jui-
cio sobre la probabilidad de que llueva mañana está condicionado a la expe-
riencia personal sobre lluvia en días que tengan un perfil semejante al actual.
De forma análoga, los juicios sobre el valor de la evidencia o sobre la culpa-
bilidad de un sospechoso están condicionados por muchos factores. Estos
pudieran ser otras evidencias en el juicio, pero también pueden incluirse fac-
tores relacionados con la fiabilidad de las mismas. Puede haber evidencia tes-
tifical de que el sospechoso estuviera en la escena del crimen, pero pudiera
considerarse no fiable. Su valor se vería, entonces, disminuido.
El valor de la evidencia científica estará condicionado por la infor-
mación relevante del caso que afecte a esa evidencia. La evidencia sobre
frecuencias relativas de diferentes perfiles de ADN estará condicionada
por la etnia, puesto que esas frecuencias dependen de ella. La evidencia
sobre distribuciones de índices de refracción de fragmentos de cristal es-
tará condicionada por la información referente al tipo de cristal de donde
procedan dichos fragmentos (por ejemplo, ventanas de edificios, para-
brisas de vehículos, etc...). La existencia de tales sucesos condicionantes
no siempre será explícita. Sin embargo, no deben olvidarse. Como ya se
66   La incertidumbre en la Ciencia Forense

ha dicho, todas las probabilidades pueden pensarse como probabilidades


condicionadas.
Las dos primeras leyes de la probabilidad pueden reescribirse con la
nueva notación, para los sucesos S, R y la información I como sigue:

Primera ley.- La probabilidad puede valer entre 0 y 1, ambos inclusive, y


sólo uno de esos valores. Por tanto,

0 ≤ Pr(R | I) ≤ 1. (1.4)

El suceso imposible Pr(no I | I) tiene probabilidad 0. El suceso seguro


Pr(I | I) tiene probabilidad 1.

Segunda ley.- Si R y S son mutuamente excluyentes (cuando la ocurren-


cia de uno excluye la ocurrencia del otro), la probabilidad de su unión es la
suma de sus probabilidades: Pr(R ∪ S | I) = Pr(R | I) + Pr(S | I).
Si R y S no son mutuamente excluyentes, la regla general es la siguiente:

Pr(R ∪ S | I) = Pr(R | I) + Pr(S | I) – Pr(R ∩ S | I) (1.5)

Tercera ley para sucesos independientes.- Si R y S son sucesos indepen-


dientes (el conocimiento de la ocurrencia de un suceso no altera para nada
la probabilidad de ocurrencia del otro), condicionados a I:

Pr(R ∩ S | I) = Pr(R | I) x P(S | I) (1.6)

Por tanto, nada cambia salvo que el suceso I aparece condicionando a


todos los demás sucesos cuyas probabilidades queremos conocer.
Como ejemplo de uso de las ideas de independencia consideremos un
sistema de dos alelos en genética: A y a, donde Pr(A) = p, Pr(a) = q, y Pr(A)
+ Pr(a) = p + q = 1. Esto da lugar a tres genotipos, asumiendo que el equili-
brio Hardy-Weinberg se mantiene, cuyas probabilidades esperadas son las
siguientes:

p2: homocigotos para el alelo A —p del padre y p de la madre—;


2pq: heterocigotos —p del padre y q de la madre, y viceversa—;
q2: homocigotos para el alelo a —q del padre y q de la madre—.

Las probabilidades genotípicas se hallan multiplicando las probabilida-


des de los dos alelos, asumiendo que el alelo heredado del padre es indepen-
diente del alelo heredado de la madre. El factor 2 alcanza a los heterocigotos
Probabilidad   67

porque, como se ha indicado, se consideran dos casos: por un lado que el


alelo A provenga de la madre y el alelo a del padre, y viceversa. Cada uno
de esos casos tiene probabilidad pq debido a la asunción de independencia
(consúltese la tabla 1.3). El perfil que consideramos se dice que está en equi-
librio Hardy-Weinberg cuando los dos alelos parentales son independientes.

Tabla 1.3. Probabilidades genotípicas, asumiendo el equilibrio Hardy-


Weinberg, para un sistema dialélico con probabilidades alé-
licas p y q

Alelo de la madre Alelo del padre


A(p) a(q)
A(p) p2 pq
a(q) pq q2

Supongamos que R y S son dependientes —el conocimiento de que R


ha ocurrido influye en la probabilidad de que ocurra S, y viceversa—. Por
ejemplo, sea R el resultado de la tirada de una carta, bien barajada, entre
52. Esta carta no se reemplaza, de modo que quedarán 51 en la baraja. Sea
S la tirada de una carta partiendo de la baraja reducida. Si R es el suceso
“que salga un as”, Pr(R) = 4 / 52 = 1 / 13. (Obsérvese aquí que la información
condicionante I sobre que la baraja ha sido bien barajada, lo que implica
que todas ellas tengan la misma posibilidad de ser elegidas, se ha omitido
para simplificar la notación; la mención explícita de I se omitirá en muchos
casos pero su existencia no debe olvidarse). Sea S el suceso “que salga un
as”, también. Entonces, Pr(S | R) es la probabilidad de que salga un as en la
segunda tirada dado que salió otro as en la primera (y dado todo lo que sea
conocido, en particular que la primera carta no fue reemplazada). Hay 51
cartas en el instante de realizar la segunda tirada, de las cuales 3 son ases.
(Recordemos que en la primera tirada salió un as, que es la información
proporcionada por R). De este modo Pr(S) = 3 / 51. Ahora nos resulta posi-
ble formular la tercera ley para sucesos dependientes:
Tercera ley para sucesos dependientes.-

Pr(R ∩ S | I) = Pr(R | I) x Pr(S | R ∩ I) = Pr(S | I) x Pr(R | S ∩ I) (1.7)

Así, en el ejemplo de la tirada de ases desde la baraja, la probabilidad de


que salgan dos ases es:

Pr(R y S | I) = Pr(R | I) x Pr(S | R e I) = (4 / 52) x (3 / 51) = 12 / 2652 = 1 / 221


68   La incertidumbre en la Ciencia Forense

Obsérvese que si la primera carta se hubiera reincorporado a la baraja y


se hubiera vuelto a barajar, las dos tiradas serían independientes, y enton-
ces:

Pr(R y S | I) = Pr(R | I) x Pr(S | R e I) = (4 / 52) x (4 / 52) = 16 / 2704 = 1 / 169

Ejemplo 1.3 Consideremos los marcadores genéticos de Kell y Duffy.


Para ambos marcadores una persona puede ser positiva (+) o negativa
(–). En una población de referencia, el 60% de la gente tiene el marcador
Kell +, y el 70% tiene el marcador Duffy +. Se selecciona un individuo
aleatoriamente en la población; es decir, se selecciona a un individuo
de tal manera que cada uno de ellos tiene la misma probabilidad de ser
elegido.
Hagamos una analogía entre el marcador Kell y el ejemplo de las bo-
las en la urna. Aquellos individuos con marcador Kell + se corresponden
con bolas negras, y los que tienen el marcador Kell – con bolas blancas.
La probabilidad de seleccionar un individuo (bola) con marcador Kell
+ (negra) se corresponde con la proporción de gente con marcador Kell
+ (bolas negras) en la población, o sea, el 60%. Sea R el suceso “elegir
aleatoriamente en la población a un individuo con marcador Kell +”,
entonces Pr(R) = 0.6. De forma similar, sea S el suceso “elegir aleatoria-
mente en la población a un individuo con marcador Duffy +”, entonces
Pr(S) = 0.7.
Si los marcadores Kell y Duffy fueran independientes, la probabilidad
de elegir a una persona, aleatoriamente, en la población mencionada, con
marcadores Kell + y Duffy + sería:

Pr(R ∩ S) = Pr(R) x Pr(S) = 0.6 x 0.7 = 0.42

Sin embargo, podría suceder que, en la realidad, no fuera el 42% el por-


centaje de gente en la población con marcadores Kell y Duffy positivos.
Con la información disponible no se ha justificado, anteriormente, la asun-
ción de independencia. Es perfectamente posible que el resultado real fue-
ra que el 34% de la población es Kell + y Duffy + al mismo tiempo, es decir,
Pr(R ∩ S) = 0.34. Ya no se cumpliría que Pr(R ∩ S) = Pr(R) x Pr(S). R y S ya
no serían independientes (ver Capítulo 3).
Probabilidad   69

Tabla 1.4.  La proporción de personas en la población que están dentro


de las cuatro posibles categorías de marcadores genéticos.

Duffy
Kell Total
+ –
+ 34 26 60
– 36 4 40
Total 70 30 100

La información sobre los marcadores genéticos Kell y Duffy puede re-


presentarse en una forma tabular, conocida como tabla 2 por 2, como la
mostrada en la Tabla 1.4, cuyas filas representan a los marcadores Kell (po-
sitivos o negativos) y cuyas columnas representan a los marcadores Duffy
(positivos o negativos). Es posible verificar la 3ª ley de la probabilidad para
sucesos dependientes (1.7) utilizando esta tabla. Del 60% de la población
con Kell + (R), 34 / 60 son Duffy + (S). De este modo, Pr(S | R) = 34 / 60 =
0.68. También Pr(R) = 60 / 100 y Pr(R ∩ S) = Pr(R) x Pr(S | R) = (60 / 100) x
(34 / 60) = 0.34, como se dedujo directamente de la tabla.
Este ejemplo también ilustra sobre la simetría entre R y S. Del 70% de la
población Duffy + (S), 34 / 70 son Kell + (R). De este modo Pr(R | S) = 34 /
70. También Pr(S) = 70 / 100, por tanto: Pr(R ∩ S) = Pr(S) x Pr(R | S) = (70 /
100) x (34 / 70) = 0.34.
De esta forma, para sucesos dependientes como R y S, la 3ª ley de proba-
bilidad (1.7) puede escribirse como:

Pr(R ∩ S) = Pr(R) x Pr(S | R) = Pr(S) x Pr(R | S) (1.8)

donde el condicionamiento de I se ha omitido. El resultado para sucesos


independientes es, por tanto, un caso especial, donde Pr(R | S) = Pr(R) y
Pr(S | R) = Pr(S).

1.6.7 Ley de la probabilidad total

Se conoce, a veces, como la extensión de la conversación (Lindley,


1991). Se dice que los sucesos S1, S2, ..., Sn son mutuamente excluyentes y
exhaustivos si uno de ellos tiene que ser cierto y sólo uno de ellos puede
serlo. Agotan todas las posibilidades y la ocurrencia de cualquiera de ellos
excluye que puedan producirse los otros. Alternativamente se dice que son
70   La incertidumbre en la Ciencia Forense

una partición. El suceso formado por la unión de todos ellos es el suceso


seguro, por tanto:

Pr(S1 ∪ S2 ∪ … Sn ) = Pr(S1) + Pr(S2) + … + Pr(Sn) = 1 (1.9)

La fórmula anterior no es más que una generalización de la segunda ley


de probabilidad (1.5) para sucesos mutuamente excluyentes.
La ley de probabilidad total se puede definir de la siguiente manera: si S1,
S2, ..., Sn se dice que son mutuamente excluyentes y exhaustivos, entonces:

Pr(R) = Pr(R | S1) Pr(S1) + … + Pr(R | Sn) Pr(Sn)

Cuando la ley se expresa en forma de probabilidad condicional:

Pr(R | I) = Pr(R | S1 ∩ I) Pr(S1 | I) + … + Pr(R | Sn ∩ I) Pr(Sn | I)

Otra extensión de la ley es la que se denomina independencia condicio-


nal:

Pr(R ∩ S| I1) = Pr(R | I1) x Pr(S | I1)

Pr(R ∩ S| I2) = Pr(R | I2) x Pr(S | I2)

Los sucesos I1 e I2 son mutuamente excluyentes y exhaustivos, es decir,


Pr(I1) + Pr(I2) = 1.
Es importante resaltar que la independencia condicional no implica in-
dependencia no condicional, es decir:

Pr(R ∩ S) = Pr(R) x Pr(S)

Sea n = 2, R cualquier evento, y tanto “R y S1” como “R y S2” mutuamen-


te excluyentes, es decir, no pueden producirse al mismo tiempo. El suceso
(“R y S1” o “R y S2”) forma el suceso R, es decir, la unión de los dos. Sea S1
ser hombre, S2 ser mujer, y R ser zurdo. Entonces “R y S1” significa ser va-
rón zurdo, mientras que “R y S2” significa ser mujer zurda. El suceso (“R y
S1” o “R y S2”) es que una persona o es un varón zurdo o una mujer zurda,
lo que implica que sea zurda (R). Así:

Pr(R) = Pr(R ∩ S1) + Pr(R ∩ S2) = Pr(R | S1) Pr(S1) + Pr(R | S2) Pr(S2)
Probabilidad   71

El argumento se extiende a cualquier número de sucesos mutuamente


excluyentes y exhaustivos para dar lugar a la ley de la probabilidad total: si
S1, S2, …, Sn son mutuamente exclusivos y exhaustivos,

Pr(R) = Pr(R | S1) Pr(S1) + … + Pr(R | Sn) Pr(Sn) (1.10)

Lindley (1991) aporta un ejemplo relacionado con grupos sanguíneos


y averiguación de paternidad. Consideremos dos posibles grupos: S1 (Rh –)
y S2 (Rh +), para el padre, de forma que aquí n = 2. Asumamos, como fre-
cuencias relativas de los grupos: p y 1 – p, respectivamente. El hijo es Rh –
(suceso R), y la madre Rh – (suceso M).
La probabilidad de interés es la probabilidad de que una madre Rh –
tenga un hijo Rh –, es decir: Pr(R | M). Esta probabilidad no es fácilmente
calculable directamente, pero basándonos en la ley de probabilidad total,
en la que aparezca el padre, podrá obtenerse:

Pr(R | M) = Pr(R | M ∩ S1) Pr(S1 | M) + Pr(R | M ∩ S2) Pr(S2 | M) (1.11)

Se trata de una generalización de la ley en la que se incluye el suceso M.


Si los padres son Rh –, suceso M ∩ S1, el hijo es Rh – con probabilidad 1.
Así pues: Pr(R | M ∩ S1) = 1.
Si el padre es Rh + (la madre es aún Rh –), suceso S2, entonces Pr(R | M
∩ S2) = 1 / 2.
Asumiendo que la selección de los padres se ha hecho de forma aleato-
ria con respecto al factor Rh, entonces Pr(S1 | M) = p, la frecuencia relativa
del grupo Rh – en la población, con independencia de M. De forma similar,
Pr(S2 | M) = 1 – p, la frecuencia relativa de Rh + en la población. Por tanto,
ahora podemos hacer las adecuadas sustituciones en (1.11) para obtener la
probabilidad de que una madre Rh – tenga un hijo Rh –:

Pr(R | M) = (1 x p) + (1 / 2) (1 – p) = (1 + p) / 2

Como puede apreciarse, ese resultado no es intuitivamente obvio. Nos


ha hecho falta aplicar la ley de probabilidad total para alcanzarlo.
Evett y Weir (1998) aportan otro ejemplo utilizando perfiles de ADN.
De acuerdo con el censo de 1991, la población de Nueva Zelanda estaba
formada por un 83.47% de raza caucásica, un 12.19% maorí, y un 4.34% de
las islas del Pacífico. Fijémonos en los sucesos consistentes en elegir, alea-
toriamente, un individuo de raza caucásica, maorí o isleños del Pacífico, y
72   La incertidumbre en la Ciencia Forense

los llamamos Ca, Ma y Pa, respectivamente. La probabilidad de encontrar


el mismo genotipo g en el marcador YNH24 (suceso G), al igual que ha
ocurrido con la mancha de sangre en la escena del crimen, es 0.012 para un
caucasiano, 0.045 para un maorí, y 0.039 para uno de las islas del Pacífico.
Esas cifras se corresponden con estas probabilidades condicionales: Pr(G |
Ca), Pr(G | Ma) y Pr(G | Pa).
Entonces, la probabilidad de encontrar el genotipo g en el marcador
YNH24 en una persona seleccionada al azar, perteneciente a la población
de Nueva Zelanda, será:

Pr(G) = Pr(G | Ca) Pr(Ca) + Pr(G | Ma) Pr(Ma) + Pr(G | Pa) Pr(Pa) =

(0.012 x 0.8347) + (0.045 x 0.1219) + (0.039 x 0.0434) = 0.017.

En Walsh y Buckleton (1988) podemos encontrar una extensión posterior


de esta ley calculando probabilidades teniendo en cuenta varios marcadores
genéticos, en una población heterogénea desde el punto de vista racial. Sean
C y D los dos sistemas de marcadores genéticos y S1 y S2 dos subpoblaciones
mutuamente excluyentes y exhaustivas. Sean Pr(S1) y Pr(S2) las probabilida-
des de que una persona elegida al azar en la población, pertenezca a una de
las dos subpoblaciones. Por tanto, Pr(S1) + Pr(S2) = 1.
Dentro de cada subpoblación C y D son independientes, de forma que la
probabilidad de que un individuo elegido al azar en una subpoblación sea
del tipo CD es, sencillamente, el producto de sus probabilidades individua-
les:
Pr(CD | S1) = Pr(C | S1) x Pr(D | S1)

Pr(CD | S2) = Pr(C | S2) x Pr(D | S2).

Sin embargo, la llamada independencia condicional no implica indepen-


dencia incondicional (es decir, Pr(CD) = Pr(C) x Pr(D)). La probabilidad
de que un individuo elegido al azar en la población sea CD, sin tener en
cuenta la subpoblación a la que pertenece es:

Pr(CD) = Pr(CDS1) + Pr(CDS2) = [Pr(CD | S1) x Pr(S1)] + [Pr(CD | S2) x


Pr(S2)] = [Pr(C | S1) x Pr(D | S1) x Pr(S1)] + [Pr(C | S2) x Pr(D | S2) x Pr(S2)].

Por tanto, Pr(CD) no tiene porqué ser igual a Pr(C) x Pr(D).


Vamos a ilustrarlo con el siguiente ejemplo. Sea Pr(C | S1) = γ1, Pr(C | S2)
= γ2, Pr(D | S1) = δ1 y Pr(D | S2) = δ2. Pr(S1) = θ y Pr(S2) = 1 – θ.
Probabilidad   73

Pr(CD) = γ1δ1θ + γ2δ2 (1 – θ),


Pr(C) = γ1θ + γ2 (1 – θ),
Pr(D) = δ1θ + δ2 (1 – θ)

El producto Pr(C) x Pr(D) no es necesariamente igual a Pr(CD).


Supongamos, por ejemplo, que θ = 0.40, γ1 = 0.10, γ2 = 0.20, δ1= 0.15 y δ2=
0.05. Entonces:

Pr(CD) = 0.012; Pr(C) = 0.16; Pr(D) = 0.09;


Pr(C) x Pr(D) = 0.0144 ≠ 0.012 = Pr(CD)

1.6.8 Actualización de probabilidades

Nótese que la probabilidad de ser culpable es una probabilidad subje-


tiva, como se mencionó anteriormente (Sección 1.6.4). Su valor cambiará
cuando se acumule evidencia. También es cierto que diferentes personas
tendrán distintas valoraciones. Los siguientes ejemplos, adaptados a partir
de otros expuestos por DeGroot (1970), ilustran cómo pueden cambiar las
probabilidades cuando se incrementa la información. Los ejemplos tienen
diversas partes y cada una debe considerarse según su orden, sin tener en
cuenta la información de partes posteriores.

Ejemplo 1.4:
a) Consideremos 4 eventos: S1, ..., S4. S1 es que la superficie de Lituania
no supera los 50.000 Km2; S2 es que la superficie de Lituania su-
pera los 50.000 pero no los 75.000 Km2; S3 es que la superficie de
Lituania supera los 75.000 pero no los 100.000 Km2; y S4 es que su-
pera los 100.000 Km2. Asignamos probabilidades a esos eventos.
Recordemos que estos cuatro sucesos son mutuamente excluyentes
y exhaustivos y que las cuatro probabilidades deben sumar 1.
  ¿Qué suceso es, para nosotros, el más probable? ¿Y qué probabili-
dad le otorgamos? ¿Qué suceso es, para nosotros, el menos proba-
ble? ¿Y qué probabilidad le otorgamos?
b) Ahora nos informan que Lituania es el país que ocupa el lugar nº 25
en extensión en Europa (excluyendo Rusia). Con esta información
reconsideramos las probabilidades anteriormente calculadas.
c) Nos dicen que Estonia, país nº 30 en extensión en Europa (exclu-
yendo Rusia) tiene una superficie de 45.000 Km2. Nuevamente re-
consideramos las probabilidades calculadas.
74   La incertidumbre en la Ciencia Forense

d) Por último, nos dicen que Austria, país nº 21 en extensión en Europa


(excluyendo Rusia) tiene una superficie de 84.000 Km2. Volvemos a
reconsiderar las probabilidades.
La superficie de Lituania se da al final del capítulo.

Ejemplo 1.5:
a) Formamos parte de un Jurado. El juicio está listo para empezar
pero no hay evidencias. Consideramos estos dos sucesos: S1 = “el
imputado es culpable”; S2 = “el imputado es inocente”. ¿Qué proba-
bilidades otorgamos a esos sucesos?
b) El imputado es un varón alto, de raza caucásica. Un testigo ocular
dice que vio a un varón alto, de raza caucásica, corriendo por el lu-
gar del crimen. ¿Qué probabilidades otorgamos a esos sucesos?
c) Se identificó una mancha de sangre en el lugar del crimen como
procedente del imputado. Se obtiene un perfil de ADN del imputa-
do, con una proporción de un 2% en la población caucásica local.
¿Qué probabilidades otorgamos a esos sucesos?
d) Se rompió un cristal durante la comisión del crimen. Se encontra-
ron fragmentos de cristal en la ropa del imputado con un índice de
refracción similar al de la ventana del crimen. ¿Qué probabilidades
otorgamos a esos sucesos?
e) El imputado trabaja en obras de demolición cerca de la escena del
crimen. Las ventanas en el lugar de la demolición tienen índices de
refracción similares a la ventana del lugar del crimen. ¿Qué proba-
bilidades otorgamos a esos sucesos?
Este ejemplo ha sido diseñado para imitar la presentación de evidencias
en un Tribunal.
La parte (a) se refiere a disponer de una probabilidad a priori sobre la
culpabilidad o inocencia del imputado antes de la presentación de cual-
quier evidencia. Se puede considerar como una cuestión concerniente a la
presunción de inocencia. Consúltese la Sección 3.5.5 para profundizar en
este asunto, particularmente sobre el problema lógico que ocurre cuando a
la probabilidad de culpabilidad a priori se le asigna el valor cero.
La parte (b) tiene dos partes. Primeramente el valor de la similitud en
características físicas entre el imputado y la persona vista corriendo por el
lugar del crimen, asumiendo, claro está, que el testigo es fiable. En segun-
do término, se valora la fiabilidad del testigo ocular.
La parte (c) se necesita para comprobar si el imputado tiene el mismo
perfil de ADN. No se plantea si lo tiene, sino que en el caso de que no lo tu-
viera, nunca debería haber sido imputado. En segundo lugar, ¿es la pobla-
Probabilidad   75

ción caucasiana local la población correcta? Consúltese el Capítulo 9 para


conocer cómo se evalúa la evidencia.
La evaluación del índice de refracción de la parte (d) se trata en el
Capítulo 10: se han de tener en cuenta las variabilidades intra e inter-ven-
tana.
Finalmente, respecto a la parte (e), en el Capítulo 8 puede consultarse
cómo influye la información sobre el estilo de vida del imputado.
Se debe apreciar que las preguntas iniciales del ejemplo 1.5 deben ser
dirigidas por el Juez o el Jurado. El experto forense debe centrarse en la
evaluación de la evidencia, no en las probabilidades relacionadas con la
culpabilidad o la inocencia. Estas son de competencia del Juez o Jurado.
Estos combinan la evidencia científica con las demás evidencias, y utilizan
su juicio para alcanzar un veredicto. El tema de este libro es el de la eva-
luación de la evidencia. Las discusiones sobre asuntos relacionados con la
culpabilidad o no de los sospechosos no serán muy detalladas.
(Como colofón de este capítulo, la superficie de Lituania es de 65.301
Km2).
Capítulo 2
Variación Variación

Hasta ahora, se han visto sucesos y la probabilidad de que ocurran.


Estas ideas pueden extenderse para considerar cuentas y medidas sobre
las que puede haber incertidumbre o aleatoriedad.
En ciertas circunstancias bastante generales, podemos representar ma-
temáticamente la forma en que se distribuye la probabilidad sobre posibles
números relacionados con cuentas o sobre posibles valores de medidas,
siendo conocidas como distribuciones de probabilidad.
Las distribuciones para cuentas y medidas se verán en las Secciones 2.3 y
2.4, respectivamente. En Evans y otros (2000) pueden consultarse otras dis-
tribuciones diferentes a las contempladas en este libro. Antes de tratar sobre
las distribuciones de probabilidad, se deben presentar algunos conceptos.

2.1 Poblaciones

“¿Quién es un hombre aleatorio?”, este es el título de un trabajo de


Buckleton y otros (1991).
Para evaluar la evidencia se necesita tener alguna idea de la variabilidad o
distribución de la evidencia considerada dentro de una población. Esta pobla-
ción se denomina población relevante (será definida formalmente más adelan-
te, en la Sección 8.5) porque se trata de la población que se considera relevante
para la evaluación de la evidencia. La variabilidad es importante porque si el
sospechoso no cometió el crimen y se asume su inocencia, es necesario deter-
minar la probabilidad de asociar con él la evidencia siendo inocente. Para ad-
quirir esa información se necesitan realizar los correspondientes experimentos
poblacionales. Podemos citar tres respecto a fragmentos de cristal: Pearson y
otros (1971); Harrison y otros (1985); y McQuillan y Edgar (1992). Existen mu-
chos informes sobre distribución de grupos sanguíneos (por ejemplo: Gaensslen
y otros (1987a, b, c) y frecuencias de ADN (por ejemplo: en Forensic Science
International y en Journal of Forensic Sciences), también en Forensic Science
Communications (http://www.fbi.gov/hq/lab/fsc/current/backissu.htm). En el
Capítulo 7 se trata sobre trabajos de investigación en otras materias.
78   Variación

Hay que tener cuidado a la hora de elegir la población relevante.


Buckleton y otros (1991) describen dos situaciones y explican cómo la
población relevante es diferente en cada una de ellas. En la primera existe
una transferencia del criminal a la escena del crimen, como en el Ejemplo
1.1, y tratado en mayor detalle en la Sección 8.3.1. En esta situación, los
detalles de cualquier sospechoso son irrelevantes para la hipótesis Hd,
la hipótesis consistente en que el sospechoso no estuvo en la escena del
crimen.
Supongamos que encontramos una mancha de sangre en la escena del
crimen y que, gracias a la información de contexto I, es posible asumir que
la sangre procede del criminal. Si el sospechoso no estuvo presente, clara-
mente cualquier otra persona dejó la mancha. No existe razón alguna para
dirigir nuestra atención a un grupo determinado de personas. Por ejem-
plo, no tendría sentido fijarse en personas del mismo grupo (por ejemplo,
el grupo étnico) que el sospechoso. Sin embargo, si hubiera alguna infor-
mación que fuera causa suficiente para reconsiderar la elección de una
población, la primera elección debería modificarse. Por ejemplo, podría
ser la información facilitada por un testigo que pudiera describir al autor
en cuanto a la etnia a la que pertenece. Eso forma parte de la información
del caso, que denominamos I. En general, no obstante, se necesitará infor-
mación sobre frecuencias de grupos sanguíneos en experimentos que sean
representativos de todos los posibles criminales.
Con respecto a evidencias de grupos sanguíneos, se sabe que la edad y
el sexo no son relevantes para pertenecer a alguno de ellos, sin embargo, sí
lo es la pertenencia a una etnia. Se necesita considerar la composición ra-
cial de la población de donde provengan los potenciales criminales (no los
sospechosos). Normalmente será preciso estudiar una población genérica
cuando no haya forma de restringirla a una etnia o a un grupo de etnias.
La segunda situación considerada por Buckleton y otros (1991) se en-
marca en una transferencia de la escena del crimen al criminal, que se
tratará más adelante en la Sección 8.3.2. Los detalles del sospechoso son
ahora relevantes aun asumiendo que no estuviera en la escena del crimen.
Consideremos una víctima por arma blanca que ha recibido numerosos
ataques. Un sospechoso con amplio historial delictivo ha sido detenido te-
niendo una gran mancha de sangre en su chaqueta, no tratándose de su
propia sangre. ¿Qué valor tiene esa gran mancha de sangre como eviden-
cia, sabiendo que no procede del sospechoso, y sin tener en cuenta en este
momento la evidencia de ADN?
La probabilidad de tal suceso (la existencia de una gran mancha sangre)
si el sospechoso no fuera el autor el crimen debería ser tenida en cuenta.
Poblaciones   79

El sospechoso pudiera ofrecer una explicación alternativa. El Tribunal


podría juzgar sobre la probabilidad de que la evidencia tuviera lugar dada
la explicación del sospechoso. Las dos proposiciones que podrían sostener-
se serían las siguientes:
Hp: la sangre fue transferida durante la comisión del crimen;
Hd: la explicación del sospechoso es cierta;

y el Tribunal valoraría la evidencia sobre la existencia de transferencia bajo


las mencionadas proposiciones. La evaluación de la evidencia de las fre-
cuencias de los grupos sanguíneos sería algo adicional. Ambas evaluacio-
nes podrían combinarse siguiendo la técnica descrita en la Sección 5.1.3.
En ausencia de explicación del sospechoso, el perito podría realizar un
estudio sobre personas cuyos comportamiento o estilos de vida fueran si-
milares al del sospechoso.
El estudio podría basarse en el sospechoso puesto que se considera de
interés aprender algo sobre transferencia de manchas de sangre en perso-
nas con perfil similar al sospechoso. En algún caso concreto, ese estudio
debería realizarse entre personas con historial violento. Briggs (1978) apor-
ta información interesante sobre 122 personas con conductas antisociales
(vagabundos, alcohólicos y agresores sexuales). La naturaleza y estilo de
vida del sospechoso fue determinante para seleccionar la población expe-
rimental. Buckleton y otros (1991) informan sobre el trabajo de Fong e
Inami (1986) en el que algunas ropas de sospechosos, predominantemente
en el contexto de delitos contra las personas, fueron utilizadas para buscar
fibras que, posteriormente, se agruparon e identificaron.
La idea de la población relevante es muy importante y se trata específi-
camente en el Capítulo 8. Consideremos el ejemplo del perfil del criminal
que, aunque no es propiamente hablando un asunto de la ciencia forense,
sí lo estimamos oportuno. Apliquémoslo a casos de violación. Supongamos
que el experto en perfiles criminales es preguntado sobre el estilo de vida
del criminal —edad, estado civil, existencia y número de anteriores conde-
nas, etc...— acerca de lo cual sería capaz de pronunciarse. Sin embargo,
sería importante conocer la distribución de esos aspectos en la población
general. La cuestión que importa aquí, como en Buckleton y otros (1991)
ya se trató anteriormente, es cuál es la población relevante. En caso de
violación, pudiera ser que no fuera necesario tener en cuenta a toda la po-
blación masculina local. Pudiera argumentarse que bastaría la población
de ladrones, no porque todos los que cometen delitos de violación sean la-
drones, sino porque son un gran grupo de personas que cometen crímenes
invadiendo el espacio vital íntimo de una persona. Se necesitaría informa-
80   Variación

ción de grupos de control para observar determinados rasgos de carácter


en la población general y observar conductas delictivas similares en grupos
con carencia de esos rasgos de carácter.

2.2 Muestras y estimaciones

Para cualquier tipo de evidencia, la distribución de la característica de


interés es importante. Es así para que sea posible determinar la rareza de
encontrar o no una observación determinada.
Para un sistema de marcador genético, las frecuencias relativas de cada
uno de los grupos dentro del sistema son importantes. Para el índice de re-
fracción de cristales, la distribución de las medidas de los índices también
lo es. En la práctica, esas distribuciones no se conocen con exactitud. Sólo
pueden estimarse. Las frecuencias alélicas del marcador LDLR en Chicago
existen pero no se conocen. En su lugar, se estiman a partir de una muestra
(ver Tabla 1.1). De forma análoga, la distribución de los índices de refrac-
ción de cristales existe pero no se conoce. Se estima a partir de una muestra
(ver Tabla 10.5, extractada de Lambert y Evett, 1984, en la que el número de
fragmentos fue 2.269). La Tabla 10.5 se refiere a cristales de edificios tipo
“float”, también conocidos como cristales planos. En Lambert y Evett (1984)
también pueden verse datos sobre cristales de edificios diferentes al tipo
mencionado, de vehículos (divididos entre ventanas y otros como los focos
delanteros y espejos retrovisores), y de contenedores. En cada una de esas
situaciones se ha observado una muestra (por ejemplo, grupos sanguíneos
de personas o medidas de índices de refracción en fragmentos de cristal).
Estas muestras se asume que son representativas, en algún sentido, de la
población (por ejemplo, de todos los caucásicos de Chicago —Johnson y
Peterson, 1999—, o de todos los cristales de edificios tipo “float” —Lambert
y Evett, 1984).
Cualquier característica de interés de una población recibe el nombre
de parámetro. La misma característica medida en la muestra se denomina
estimador o estimación. Por ejemplo, la proporción γAA de caucasianos en
Chicago con alelos AA en el marcador LDLR es un parámetro. La propor-
ción γAA de caucasianos en Chicago con alelos AA en el marcador LDLR en
una muestra de 200 personas estudiada por Johnson y Peterson (1999) es
una estimación de γAA. Se suele utilizar el signo ^ (leído como circunflejo
o más coloquialmente como ‘sombrero’) encima de la letra que representa
el parámetro para indicar que es un estimador de ese parámetro. De este
Muestras y estimaciones   81

modo γ̂ AA (leído como ‘gamma circunflejo/sombrero AA’) es un estimador


de γAA. De la Tabla 1.1, se sabe que γ̂ AA = 0.188.
Se espera que el estimador sea bueno en algún sentido. Diferentes mues-
tras de una misma población pueden producir distintas estimaciones. La
proporción de gente con alelos AA en el marcador LDLR en una segun-
da muestra de 200 caucasianos de Chicago pudiera producir un número
diferente de gente con alelos AA y, por tanto, una valor distinto de γ̂ AA .
Diferentes valores obtenidos a partir de diferentes muestras no significa
que haya nada erróneo. Sólo indica la natural variabilidad en la distribu-
ción de frecuencias alélicas entre la gente.
Un estimador se califica de bueno si es exacto y preciso. Lo primero hace
referencia a la cercanía de su valor al del parámetro. En el ejemplo ante-
rior es deseable que γ̂ AA sea próximo a γAA. Lo segundo significa medida
de la variabilidad en las estimaciones, tanto si las medidas se acercan al
verdadero valor del parámetro como si no se acercan (Kendall y Buckland,
1982, pp. 3, 152). Si muestras diferentes conducen a estimaciones del mis-
mo parámetro muy distintas entre sí, la variabilidad es grande, por lo que
las estimaciones no son muy precisas. Por ejemplo, si la variabilidad en el
procedimiento de estimación es grande, entonces una segunda estimación
de γAA, a partir de una muestra de personas distinta, puede producir una
estimación muy diferente de 0.188 ( γ̂ AA ).
La importancia de tener en cuenta la variabilidad se puede ilustrar con
el siguiente ejemplo hipotético en un contexto médico. En un experimento
se mide el tiempo de reacción de dos grupos de personas: A y B. Ambos
tienen el mismo tiempo de reacción medio: 0.20 segundos. Sin embargo, el
grupo A varía entre 0.10 y 0.30, mientras que el B entre 0.15 y 0.25. A una
muestra de ambos grupos se les proporciona una medicina que disminuya
el tiempo de reacción. En ambos casos, los tiempos de reacción oscilaron
entre 0.11 y 0.14 segundos. Para el grupo A, este intervalo está incluido
dentro del conocido previamente, existiendo leve evidencia de que la medi-
cina pudiera ser efectiva para reducir el tiempo de reacción. Para el grupo
B, sin embargo, ese intervalo está fuera, por lo que hay fuerte evidencia de
que la medicina pudiera ser efectiva. Fijémonos en que ambos grupos te-
nían la misma medida del tiempo de reacción medio. La medicina produjo
el mismo rango de tiempos de reacción en muestras de ambos grupos. La
distinción en la interpretación de los resultados de ambos grupos descansa
en el rango o variabilidad de los resultados para el total de cada uno de los
grupos. Más tarde, en la Sección 2.4.2, se verá que cuando se estandarizan
82   Variación

las medidas, la variación se explica mediante una medida conocida como


desviación típica o estándar.
Por convención, se utilizan letras latinas para designar funciones eva-
luadas a partir de medidas muestrales y letras griegas para los correspon-
dientes parámetros poblacionales. De este modo, la media muestral se re-
presenta normalmente por x y la correspondiente media poblacional por
µ. La desviación estándar muestral se expresa mediante la letra s y la po-
blacional mediante la letra griega σ. El cuadrado de la desviación estándar
es la varianza: si es la muestral se emplea la notación s2, y si es poblacional
se emplea σ2.
El concepto de variable aleatoria (o cantidad aleatoria; o cantidad incier-
ta; Lindley, 1991) necesita también alguna explicación. Una variable aleato-
ria, utilizando una definición redundante, es la que varía aleatoriamente.
Por ejemplo, el número de seises en cuatro tiradas de un dado varía alea-
toriamente entre cinco posibles resultados: {0, 1, 2, 3, 4}, pues el dado es
lanzado en varias tandas de cuatro tiradas. De forma análoga, el índice de
refracción de un fragmento de cristal varía en el conjunto de todos los frag-
mentos del cristal. La variación del índice de refracción del cristal tiene,
sin embargo, una estructura más complicada que el número de seises en
cuatro tiradas de un dado. Hay variación de índice de refracción de cristal
dentro de una ventana y entre ventanas diferentes. Eso conlleva medir pa-
rámetros para cada una de las variaciones, es decir, medir dos desviaciones
estándar, tratándose a fondo este asunto en el Capítulo 10.
La notación de las variables aleatorias también es importante. En lugar
de escribir frases largas como “número de seises en cuatro tiradas de un
dado”, o “índice de refracción de un fragmento de cristal”, las frases se
abrevian con una letra del alfabeto latino en mayúscula. Por ejemplo, sea X
“el número de seises en cuatro tiradas de un dado”. Entonces, tiene sentido
escribir matemáticamente: Pr(X = 3), que puede leerse como “probabilidad
de que el número de seises en cuatro tiradas de un dado sea tres”. De forma
aún más general, el número tres puede reemplazarse por una letra latina
minúscula, Pr(X = x), donde x representa cualquiera de los valores de la
variable permitidos: {0, 1, 2, 3, 4}.
De forma análoga, X puede sustituir a “el índice de refracción de un
fragmento de cristal”, y la frase “probabilidad de que el índice de refrac-
ción de un fragmento de cristal sea menor que 1.5185” puede escribirse
como P(X < 1.5185), o de forma más genérica, P(X < x) para un valor gene-
ral x de índice de refracción. Por razones que se explicarán más adelante
(Sección 2.4.2), no es posible evaluar P(X = x) para una variable aleatoria
que represente una medida continua.
Cuentas   83

La media de una variable aleatoria es la correspondiente media pobla-


cional: en los ejemplos anteriores sería el número medio de seises en la po-
blación conceptual de todos los posibles conjuntos de cuatro tiradas de un
dado (esta población es conceptual, no tiene porqué existir necesariamen-
te), o el índice de refracción medio de una población de todos los fragmen-
tos de cristal (de nuevo nos encontramos ante una población conceptual).
La media de una variable aleatoria se llama esperanza, y para una varia-
ble aleatoria X usaremos la notación E(X). De forma análoga, la varianza
de una variable aleatoria es la varianza poblacional, y se representa por
Var(X).
Un estadístico es una función de los datos. De este modo, la media mues-
tral y la varianza muestral son estadísticos. Un valor particular de un es-
tadístico, orientado a la estimación de un valor paramétrico, se denomina
estimación. La correspondiente variable aleatoria es un estimador. Un esti-
mador X de un parámetro θ, tal que E(X) = θ, se dice que es insesgado. Si
E(X) ≠ θ, se dice que es sesgado. Las aplicaciones de estos conceptos se tra-
tan a continuación en el contexto de distribuciones de probabilidad para
cuentas y medidas.

2.3 Cuentas

2.3.1 Probabilidades

Supongamos que con un dado equilibrado de seis lados realizamos cua-


tro tiradas. El suceso que nos interesa es el número de seises que salen
de las cuatro tiradas; denominamos a este suceso X. Entonces X puede
tener uno de estos cinco posibles valores enteros distintos: {0, 1, 2, 3, 4}.
En una secuencia de grupos de cuatro tiradas del dado, X variará aleato-
riamente sobre este conjunto de cinco valores enteros. Los resultados de
las sucesivas tiradas son independientes. Para cualquier grupo de cuatro
tiradas del dado, X toma un valor particular, uno de los enteros {0, 1, 2, 3,
4}. Llamemos x a uno de esos cinco valores posibles.
Hay una fórmula que nos permite calcular fácilmente las probabilidades
de que la variable aleatoria valga cada uno de los valores posibles. Observe
que en cualquier tirada, la probabilidad de obtener un seis es 1/6. La pro-
babilidad de que no salga un seis es 5/6, puesto que se trata de sucesos
complementarios. Entonces:
84   Variación

x 4− x
 4  1   5 
Pr(X = x ) =      , x = 0,1,.....4;
 x  6   6 

un ejemplo de distribución binomial (Sección 2.3.3). El término (1/6)x se


corresponde con la probabilidad de salida de x seises, siendo la probabili-
dad de cada uno (1/6). El término (5/6)4–x se corresponde con los (4 – x) que
4
no son seises, cada uno con probabilidad (5/6). El término   es el coefi-
x  
4!
ciente binomial cuyo resultado es: , donde x! = x(x – 1)(x – 2) ... 1,
x! (4 − x )!
conocido como factorial de x, y de modo convencional, 0! = 1. El coeficien-
te binomial es el número de veces en que x seises y (4 – x) no seises pueden
combinarse en cuatro tiradas, sin prestar atención al orden de ocurrencia
de los seises.
En la tabla se recogen los posibles resultados:

Tabla 2.1. Probabilidades para el número de seises, X, en cuatro tiradas


de un dado de seis lados.

Número de
0 1 2 3 4 Total
seises (x)

Pr(X=x) 0.4823 0.3858 0.1157 0.0154 0.0008 1

Obsérvese que la suma de las probabilidades de las cinco posibles sali-


das es igual a uno. Eso es así porque las salidas son mutuamente excluyen-
tes y exhaustivas.

Supongamos que x = 1, es decir, hay un seis y tres no seises; entonces


1 3
1 5
Pr(X = 1) =  4    .
 1  6  6

Ahora:

 4  = 4! = 4 × 3 × 2 × 1 = 4,
1
  1!3! 1 × 3 × 2 × 1
1
1 1
  = ,
6 6
3
5 125
  = ,
6 216
1 125
Pr(X = 1) = 4 × × = 0.3858.
6 216
Cuentas   85

Las probabilidades para los cinco resultados posibles relacionados con


el número de seises en cuatro tiradas del dado se aportan en la Tabla 2.1.
Observe que la suma de las probabilidades es 1 puesto que los cinco posi-
bles resultados 0, 1, 2, 3 y 4 son mutuamente excluyentes y exhaustivos.

2.3.2 Medidas resumen

Es posible determinar el valor medio del número de seises que salen en


cuatro tiradas de un dado; se trata del valor esperado del número de seises
en cuatro tiradas del dado. Consideremos 10.000 grupos de cuatro tiradas
de un dado. Las probabilidades de la Tabla 2.1 pueden considerarse como
las proporciones esperadas de que ocurran los distintos sucesos: 0, 1, 2, 3 y
4 seises. De este modo, esperaríamos que 4823 veces no saliera ningún seis,
3858 veces 1 seis, 1157 veces 2, 154 veces 3, y 8 veces 4 seises.
El número total de seises esperados sería:

(0 × 4823) + (1 × 3858) + (2 × 1157) + (3 × 154) + (4 × 8) = 6666

En cualquier grupo de cuatro tiradas, el número esperado E(X) de sei-


ses sería:

6666 / 10000 = 0.6666

Observe que ese número no es un número posible (0, 1, 2, 3 o 4), pero


está justificado por el cálculo. (De forma análoga, una familia media de 2.4
hijos no es un tamaño de familia posible). La fórmula para su cálculo es la
siguiente:

4
E(X) = 0 × Pr(X=0) + 1 × Pr(X=1) + ... + 4 × Pr(X=4) = ∑ x Pr(X=x).
x =0

4
Si hacemos que Pr(X=x) = px, entonces: E(X) = ∑ x px.
x =0
En general, para (n + 1) resultados {0, 1, ..., n} asociados con las proba-
n
bilidades p0, p1, ... pn, E(X) = ∑ x px.
x =0
Obsérvese el uso de la letra griega mayúscula Σ para denotar sumatorio.
La expresión que se encuentra debajo de Σ (cuando exista) o como un su-
86   Variación

bíndice (cuando se encuentre en el cuerpo del texto) representa el símbolo


sobre el que se realiza el sumatorio y el extremo inicial de la suma. El ex-
tremo final de la suma de la suma se sitúa encima de Σ (cuando exista) o
con superíndice (cuando se encuentre en el cuerpo del texto). Este símbolo
debe compararse con la letra griega mayúscula Π que significa producto,
utilizándose la misma notación en cuanto al indexado. El primer ejemplo
en el que se utiliza Π se expone en la Sección 4.5.4.
La esperanza matemática es un estadístico bien conocido. Sin embargo,
la varianza no es tan bien conocido y mide la variabilidad en un conjunto
de observaciones. El número de seises que ocurren en cualquier grupo de
cuatro tiradas varía de grupo a grupo sobre los enteros: {0, 1, 2, 3, 4}.
Consideremos el cuadrado de la diferencia entre una salida cualquiera x
y la esperanza matemática: d(X)2 = {X – E(X)}2. Esta diferencia cuadrática
es, en sí misma, una variable aleatoria y, como tal, también tiene una es-
peranza matemática. La esperanza de d(X)2, E{d(X)2}, para un conjunto de
(n + 1) resultados, {0,1 ...n}, con probabilidades asociadas p0, p1, ... pn, es:
n
∑ {x – E(X)}2 px, recibiendo el nombre de varianza de X.
x =0
La raíz cuadrada de la varianza es la desviación estándar o típica.
Un modo rápido de calcular la varianza es el siguiente:
n n
Var(X) = ∑ x2 px – ( ∑ x px)2
x =0 x =0

Tabla 2.2. Cálculos intermedios para la varianza del número de seises, x,


en cuatro tiradas de un dado de seis lados equilibrado.

x 0 1 2 3 4
d –0.6666 0.3334 1.3334 2.3334 3.3334
d2 0.4444 0.1112 1.7780 5.4448 11.1116
px 0.4823 0.3858 0.1157 0.0154 0.0008
x2
0 1 4 9 16

La varianza puede calcularse para el ejemplo del número de seises en


cuatro tiradas de un dado como sigue, donde E(X) = 0.6666:
4 4

Var(X) = ∑ {x – E(X)}
x =0
2
px = ∑d
x =0
2
px = 0.5557
Cuentas   87

La forma más rápida de calcularla será:


4 4

Var(X) = ∑
x =0
x2 px – ( ∑xp)
x =0
x
2
= 1 – (0.6666)2 = 0.5556

Los cálculos intermedios se dan en la Tabla 2.2.


Este ejemplo de cuatro tiradas de un dado equilibrado de seis lados po-
dríamos generalizarlo. Consideremos cada tirada del dado como una prue-
ba en el sentido estadístico del término. En cada prueba habrá dos posibles
resultados, o ha salido un seis o no. Convencionalmente, en términos ge-
nerales, podemos catalogarlos como un éxito y un fracaso. Las pruebas son
independientes unas de otras. La probabilidad en cada una de las salidas es
constante de prueba a prueba (en concreto, que salga un seis en cada tira-
da es siempre 1/6). Tal conjunto de pruebas se conocen como un conjunto
de pruebas de Bernoulli (en honor del matemático suizo Jacob Bernoulli,
1654-1705). Las condiciones son las siguientes:
• número prefijado de pruebas;
• pruebas independientes entre sí;
• dos y sólo dos resultados posibles, convencionalmente denomina-
dos fallo y éxito;
• probabilidad de éxito constante de prueba a prueba.

2.3.3 Distribución binomial

Sea n el número de pruebas y X el número de éxitos. Llamemos p a la


probabilidad de tener un éxito en una prueba individual y q ( = (1 – p)) a
la probabilidad de tener un fracaso en dicha prueba. La probabilidad Pr(X
= x), de que X sea igual a x, se expresará mediante la notación px; x = 0, 1,
..., n. Esta probabilidad es dependiente de n y p, por lo que de forma más
precisa deberíamos haber escrito: Pr(X = x | n, p).
La situación que se acaba de describir es muy común. Como ejemplos,
podemos considerar el número de caras en 10 tiradas de una moneda equi-
librada (n = 10; p = 1 / 2); el número de seises en cinco lanzamientos de
un dado equilibrado (n = 5; p = 1 / 6); el número de personas con genotipo
(11, 12) en el locus FES en una muestra de tamaño 50 de una población
relevante (n = 50, p puede estimarse a partir de datos poblacionales ante-
riores).
La distribución de las probabilidades (distribución de probabilidad) rela-
cionada con los posibles resultados se conoce como distribución binomial.
La función matemática que permite calcular las probabilidades Pr(X = x)
88   Variación

se denomina función de probabilidad. Para una distribución binomial, esa


función tiene la siguiente formulación:

Pr(X = x) =  n  px (1–p)n–x =  n  px qn–x, x = 0,1, ...,n, (2.1)


x
  x
 

n!
donde  n  = , es el coeficiente binomial. (2.2)
x x! (n − x )!
La distribución de X se puede expresar, resumidamente, de la siguiente
forma:

X ∼ Bin(n,p)

donde ∼ significa distribuido como, el primer término n el número de prue-


bas, y p la probabilidad de éxito. Por ejemplo, si X es el número de seises
en 10 tiradas de un dado equilibrado, podríamos expresar la distribución
subsiguiente del siguiente modo:

X ∼ Bin(10, 1/6).

Se puede demostrar que E(X) = np, y que Var(X) = npq.


(La verificación de esas fórmulas puede realizarse con referencia a los
resultados numéricos del ejemplo anterior). Observe que E(X/n) = E(X)/n
= np/n = p. De este modo, X/n, la proporción muestral de éxitos, es un esti-
mador insesgado de p, la probabilidad de éxito en una prueba individual.

2.3.4 Distribución multinomial

Se trata de una generalización de la distribución binomial. La distribu-


ción binomial modela una situación en la que hay una secuencia de prue-
bas independientes, en cada una de las cuales hay sólo dos posibles salidas
mutuamente excluyentes.
La distribución multinomial modela una situación en la que hay tam-
bién una secuencia de pruebas independientes, pero en cada una de las
cuales hay k posibles salidas mutuamente excluyentes (k ≥ 2). Las probabi-
lidades de cada salida k se representan mediante θ1, ..., θk, con Σi=1k θi = 1.
Consideremos n pruebas en las que observamos las siguientes ocurren-
cias de cada una de las k salidas: x1, x2, ..., xk, donde Σi=1k xi = n. Las corres-
pondientes variables aleatorias se denominan: X1, X2, ..., Xk, donde Xi es
Cuentas   89

una abreviatura de “número de ocurrencia de la salida i”. La probabilidad


de observar {X1 = x1, X2 = x2, ..., Xk = xk} es, entonces:

Pr(X1 = x1, X2 = x2, ..., Xk = xk) = n! ,


θ1x1 ...θ kxk
x 1! x 2 !...x k !
donde Σi=1k xi = n y Σi=1k θi = 1.

Esta distribución puede utilizarse para modelar frecuencias alélicas de


un marcador en el que haya más de dos alelos posibles, así como para mo-
delar frecuencias de drogas en alijos de pastillas donde haya más de dos
tipos de drogas. Cuando k = 3 y haya, por tanto, tres salidas posibles inde-
pendientes mutuamente excluyentes, la distribución recibe el nombre de
trinomial.

2.3.5 Distribución hipergeométrica

Para las distribuciones binomial y multinomial, la probabilidad de un


resultado en particular se asume constante. De este modo, la probabilidad
de un seis en una tirada de un dado equilibrado es 1/6, independientemen-
te del número de tiradas del dado. La probabilidad de un tipo de alelo par-
ticular se asume constante, independientemente del número de gente que
haya sido observada con ese tipo u otro diferente. La población de la cual
se extraen esas informaciones (todas las tiradas de un dado equilibrado,
todas las personas de una población) es suficientemente grande como para
que la observación de un resultado particular no altere la probabilidad de
ese resultado en futuras pruebas. Puede decirse que una vez observado el
resultado en una población retorna a ella para poder nuevamente ser ob-
servado. La selección (o muestreo) de observaciones en una población se
dice, entonces, que se realiza con reemplazamiento.
Sin embargo, hay casos en que la población no es grande y la observación
de una salida de una prueba particular cambia la probabilidad de esa salida
en el futuro. Por ejemplo, tengamos en cuenta un muestreo en una aprehen-
sión de N pastillas blancas de droga para determinar la proporción de pastil-
las ilícitas (consultar Capítulo 6 para encontrar un ejemplo con más detalles).
Las pastillas las consideramos indistinguibles por razón de su tamaño, color,
peso y textura, pudiéndose encontrar sustancia lícita o ilícita en cualquiera
de ellas. Se extrae una muestra de tamaño m. El número de pastillas ilícitas
—desconocido— es R, luego el número de lícitas sería N – R.
90   Variación

Que la primera pastilla examinada sea ilícita ocurrirá con probabilidad


R / N, o lícita con probabilidad (N – R) / N. Después de observarla se coloca
aparte. No se introduce de nuevo en el lote.
Examinamos una segunda pastilla. Si la primera fue ilícita, la segunda
será también ilícita, con probabilidad (R – 1) / (N – 1), o lícita, con probabi-
lidad (N – R) / (N – 1). Si la primera fue lícita, la segunda será también lícita,
con probabilidad (N – R – 1) / (N – 1), o ilícita, con probabilidad R / (N – 1).
Después del examen, la segunda pastilla se coloca aparte. Se examina
la tercera pastilla. Existen, ahora, cuatro posibilidades para que la tercera
pastilla sea ilícita: (1) 1ª lícita, 2ª lícita, 3ª ilícita; (2) 1ª lícita, 2ª ilícita, 3ª
ilícita; (3) 1ª ilícita, 2ª lícita, 3ª ilícita; (4) 1ª ilícita, 2ª ilícita, 3ª ilícita.
El muestreo donde N es el tamaño del lote aprehendido, cuando su
tamaño sea pequeño, se dice que se realiza sin reemplazamiento.
La distribución que modela la probabilidad del número X de pastillas
ilícitas en una muestra de tamaño m, procedente de un lote de tamaño N,
con R ilícitas y N – R lícitas, se denomina distribución hipergeométrica.

Pr(X=x) =  R  N − R  /  N  (2.3)


 x  m − x   m 
Otro ejemplo de uso de la distribución hipergeométrica en un contexto
forense es el que aportan Bates y Lambert (1991). El problema consiste en
decidir cuántos fragmentos de partículas transferidas del mismo tipo gené-
rico se necesitan para realizar un cotejo con una muestra de la fuente.
Las probabilidades de seleccionar muestras cuyas partículas pertenez-
can a tipos coincidentes con los de la fuente o no, teniendo en cuenta po-
blaciones pequeñas con distinto número de partículas coincidentes con la
fuente y no coincidentes, pueden determinarse utilizando la distribución
hipergeométrica. Esta función tiene tres coeficientes binomiales.
Consideremos un grupo de N partículas transferidas. Este grupo resulta
ser la población y suponemos que su tamaño es pequeño. Entre las partí-
culas transferidas, R son coincidentes con las características de la fuente y
N – R no lo son, si bien esto no es conocido por los peritos. Una muestra de
tamaño m (< N) es tomada del grupo. La variable aleatoria de interés es X,
el número de partículas de la muestra que sean coincidentes con las carac-
terísticas de la fuente. Se puede demostrar que:

 R  N − R   N 
Pr(X=x) =    /  

 x  m − x   m 
Cuentas   91

Ejemplo 2.1: Supongamos que se han transferido 20 partículas de cris-


tal a la ropa del sospechoso, de las cuales 10 son coincidentes con la fuente
y otras 10 no. Esto no lo sabe el perito, lógicamente. Se toma una muestra
de 6 partículas de las 20 encontradas, resultando que la probabilidad de
tomar cada una de las partículas para la muestra es la misma, es decir,
1/20. La probabilidad de encontrar 3 partículas que sean coincidentes con
la fuente en la muestra de 6, sería la siguiente utilizando (2.3) (con N = 20;
R = 10; m = 6) :

Pr(X=3) = 10  20 − 10  /  20  = (120 x 120) / 38760 = 0.37


 3  6 − 3   6 

Bates y Lambert (1991) aportan otro ejemplo. Con N = 10, R = 2, y m =


5. La probabilidad de que X = 0 es 0.22 (>1 / 5). Así pues, con 10 partículas
transferidas, de las cuales 2 coinciden con la fuente (y 8 no), si se exami-
na una muestra de 5 existe una probabilidad mayor de 1 / 5 de que no se
encuentren coincidencias. A la inversa, en la práctica, lo que puede cono-
cerse es que N = 10, m = 5 y x = 0, por lo que existe una razonablemente
alta probabilidad (0.22) de que ninguna partícula será coincidente con la
fuente, cuando, de hecho, hay dos. Una conclusión basada en el resultado
de la muestra de 5 partículas —que ninguna es coincidente— disociaría al
sospechoso con la escena del crimen, lo que sería erróneo.
Con 50 partículas transferidas, 10 de las cuales son coincidentes con la
fuente y 40 no (N = 50, R = 10) —la misma proporción que en el ejemplo
anterior—, y una muestra de 5, la Pr(X=0) = 0.31. Existe casi un tercio de
probabilidad de que ninguna de las partículas seleccionadas aleatoriamen-
te sean coincidentes y, por tanto, podríamos llegar a una conclusión erró-
nea como con el caso anterior.
Otro ejemplo de uso de hipergeométrica es un muestreo de la propor-
ción de droga ilícita en pastillas en un lote de tamaño N. Consideremos
un lote de N pastillas homogéneas en naturaleza (color, textura, tipo de
logotipo) donde se desea conocer la proporción de cuáles son ilícitas. Sea
R el número, hasta N, de las que son ilícitas. Por tanto, N – R son las lícitas.
Tomamos una muestra de tamaño m a partir de las N existentes. Se en-
cuentran x ilícitas, por lo que m – x son lícitas. La probabilidad de este su-
ceso (x pastillas ilícitas de entre m elegidas aleatoriamente de N pastillas,
donde R son las ilícitas totales) se calcula con la distribución hipergeomé-
trica (2.3).
Aitken (1999), Colón y otros (1993), Coulson y otros (2001b), Frank y
otros (1991), así como Tzidony y Ravreboy (1992) aportan ejemplos de
92   Variación

usos de la distribución hipergeométrica en aprehensiones de drogas. Esta


distribución ha sido recomendada por las Naciones Unidas en este contex-
to (1998). Una aplicación en fibras para determinar el tamaño muestral
óptimo puede verse en Faber y otros (1999). En el Capítulo 6 se pueden
encontrar más detalles. En el Capítulo 12 pueden encontrarse aún más de-
talles en relación con fibras.
Los valores de probabilidad para la distribución hipergeométrica se pue-
den obtener con software de estadística. Se han publicado también tablas
(Lindley y Scott, 1995) para la distribución hipergeométrica con tamaños
pequeños de población (por ejemplo, para N ≤ 17). Para valores mayores
de N y con m relativamente pequeño comparado con N (por ejemplo, m <
N / 20), las probabilidades se pueden calcular usando la distribución bino-
mial (2.1), donde p = R / N y n = m. Por ejemplo, con N = 50, R = 10 y m = 5,
p = 0.2, resultando que:

Pr(X = 0) =  5  0.20 0.85 = 0.33


0
 
donde se aprecia que no difiere mucho de la cantidad 0.31 calculada con
la hipergeométrica. Obsérvese, no obstante, que m > N / 20, por lo que la
aproximación no es demasiado buena.
Como comprobación de que la aproximación de la binomial a la hiper-
geométrica funciona bien cuando m < N / 20, supongamos que N = 120, R =
80, m = 5. Con estos datos, p = 2/3, luego:

Con la hipergeométrica: Pr(X=2) =  80 120 − 80  / 120  = 0.164


 2  5 − 2   5 

Con la binomial: Pr(X=2) =  5  (2/3)2 (1 – 2/3)3 = 0.165.


2
 
Es posible extender la distribución hipergeométrica a la situación en la
que haya más de dos categorías. Se trata de algo análogo a la extensión de
la binomial a la multinomial. Sin embargo, aquí no se trata.

2.3.6 Distribución de Poisson

Se denominó así a esta distribución en honor del matemático francés S.


D. Poisson (1781-1840). Se usa, generalmente, para describir el número de
sucesos que ocurren aleatoriamente en un periodo especificado de tiempo o
en un espacio. Se caracteriza por un simple parámetro: la media de la distri-
Cuentas   93

bución (en unidades de tiempo o espacio). Después, este parámetro se mul-


tiplica por el periodo de tiempo o espacio en consideración para obtener el
número medio de sucesos dentro de ese periodo temporal o espacial.
Como ejemplo en el dominio temporal, consideremos la emisión de par-
tículas radiactivas a partir de una fuente de esa naturaleza, midiéndolas
con un contador Geiger. Si la unidad de tiempo es el segundo, llamamos
λ a la media del número de partículas en ese tiempo: siempre un número
mayor a cero. El número medio de partículas emitidas en t segundos será
λt, donde t puede tomar cualquier valor en el intervalo (0,∞).
Como ejemplo en el dominio espacial, consideremos el número de ca-
racterísticas de una determinada clase en un cuerpo de escritura manus-
crita. Si la unidad espacial es una letra o número, un carácter escriturísti-
co, será λ la media del número de ese carácter particular, siendo de esperar
que sea mucho menor a la unidad. El número medio de ese carácter en un
cuerpo de escritura de s caracteres será λs.
Obsérvese, pues, que el parámetro λ se expresa en unidades de tiempo o
de espacio. Así, cuando se considera la distribución del número de sucesos,
es importante especificar la longitud temporal o espacial a tener en cuenta.
Sea X el número de sucesos en un tiempo t, siendo una variable alea-
toria de media λt y que sigue una distribución de Poisson. Entonces, la
probabilidad de que X tenga un valor x (un entero no negativo) se expresa
mediante:

(λt ) x (2.4)
Pr(X = x ) = exp(−λt )
x!
donde x puede tomar valores de 0, 1, 2 … y exp{…} significa e, la base de los
logaritmos neperianos o naturales (donde e = 2.718…), y exp(–λt) se expresa
mediante e–λt. La ecuación anterior (2.4) se puede también escribir así:

( λ t ) x ( − λt )
Pr(X = x ) = e (2.5)
x!

Una característica muy relevante de la distribución de Poisson es que la


varianza es igual a la media. Así, la varianza del número de sucesos en un
periodo de tiempo t, que tiene una distribución de Poisson de media λt, es
también λt.
Una aplicación de la ciencia forense de esta distribución es la estima-
ción de probabilidades de transferencia. Experimentos llevados a cabo so-
bre transferencia y persistencia de fragmentos de cristal sugieren que la
94   Variación

persistencia de fragmentos de cristal sobre ropa puede describirse como


una mezcla de curvas de caída exponencial. Un modelo posible para la dis-
tribución de probabilidad del número de fragmentos que permanecen des-
pués de un tiempo t en el que ocurrió la transferencia es una distribución
de Poisson (Evett y otros, 1995). Observe que, en este ejemplo, sin embar-
go, no es posible tener un número medio de fragmentos transferidos por
unidad de tiempo, como con el contador Geiger. Esto es así como conse-
cuencia de la naturaleza de la caída exponencial: el número de fragmentos
que quedan, después de un tiempo t, decae en lugar de crecer. No es esto
óbice para utilizar un modelo de Poisson. El número medio de fragmentos
que permanecen después de un tiempo t es aún función del tiempo, aun-
que no sea una función lineal. La media, en este contexto, será µt, donde
el subíndice subraya la dependencia de t, sin que eso suponga decir que la
media sea una función lineal de t.
Si X es la variable aleatoria correspondiente al número de fragmentos
que quedan tras un tiempo t, entonces, reemplazando λt por µt (en 2.5), la
probabilidad de que X valga x, siendo x = 0, 1, 2 … (entero no negativo),
será:
µ xt − µ t
Pr(X = x ) = e (2.6)
x!
Para que esta distribución pueda aplicarse se ha de obtener una estima-
ción de µt.
Imaginemos, por ejemplo, que después de un examen de la ropa, en
el caso considerado, al experto se le pregunta cuántos fragmentos cabe
esperar encontrar en la ropa del sospechoso que sean coincidentes (en
algún sentido) que los de la ventana rota en la escena del crimen. Antes
de responder, el experto necesitaría información del caso I sobre las cir-
cunstancias en que se llevó a cabo la detención del sospechoso. Esa infor-
mación incluiría detalles como la ropa que el sospechoso llevaba al ser
detenido, o la estimación del tiempo transcurrido entre la comisión del
crimen y la detención. Dada esa información, supongamos que el experto
dijera: “sobre cuatro”. Este valor sustituiría a µt en (2.6). Así se podrían
calcular probabilidades Pr(X = x). Se reflejan en la Tabla 2.3 los valores
para x = 0, 1, 2, 3 y 4.
Cuentas   95

Tabla 2.3 Probabilidades de que una variable aleatoria X, con distribu-


ción de Poisson de media 4, tenga valores: 0, 1, 2, 3 y 4, y ma-
yores de 4.

Valor Probabilidad
0 0.018
1 0.073
2 0.147
3 0.195
4 0.195
>4 0.372

La probabilidad final Pr(X > 4) = 0.372 se obtiene de la ley de probabili-


dad total (1.9), donde los sucesos X = 0, X = 1, X = 2, X = 3, X = 4, X > 4 for-
man una partición y, de este modo, las probabilidades de los seis números
suman la unidad (en realidad suman 0.999 en la Tabla 2.3 por errores de
redondeo). Si la probabilidad de lo que ha sido observado es muy diferente
de lo esperado (4), entonces lo observado soporta la proposición de que el
sospechoso no es el criminal. El cómo podemos medir el grado de soporte
es uno de los temas principales de este libro.
Con un método análogo a éste, la distribución ha sido utilizada en el
contexto de análisis de fibras para valorar la probabilidad de la presen-
cia de fibras ajenas al objeto de interés, por casualidad, en un receptor
(Champod y Taroni, 1997).
La conveniencia de utilizar la distribución de Poisson puede investigar-
se utilizando datos de experimentos previos para estimar el número medio
de fibras transferidas inocentemente bajo ciertas circunstancias y, por con-
siguiente, las llamadas probabilidades previas o a priori {bi; i = 0,1,2…},
donde bi significa la probabilidad de transferencia inocente de i fibras del
tipo en cuestión a la ropa del sospechoso o a la escena del crimen (consul-
tar también los Capítulos 10, 12 y 14 para posteriores referencias sobre
estas probabilidades de contexto).
Otro ejemplo de uso de la distribución de Poisson es contar el número
de estriaciones consecutivas (CMS) que encajan en el cotejo de proyectiles
disparados. Puede utilizarse como criterio identificativo de un arma con-
creta, la que disparó el proyectil. Existen dos grupos de datos a examinar:
los que proceden de proyectiles disparados con el mismo cañón, y los que
proceden de proyectiles disparados por cañones distintos. Estos datos sir-
ven para caracterizar poblaciones intra e inter, respectivamente.
96   Variación

Bunch (2000) presentó un histograma hipotético. La distribución de


Poisson es adecuada para aplicarla a datos con una distribución de proba-
bilidad caracterizada por parámetros θ (número máximo de CMS) y λ (nú-
mero máximo de CMS medio ponderado, cuyos detalles de cálculo pueden
verse en la Sección 7.3.2).
En el contexto de transferencia de fragmentos de cristal, los datos dis-
ponibles indican que la distribución de Poisson es un modelo plausible,
con la excepción de que tiende a sobreestimar b1, la probabilidad de trans-
ferencia inocente de un fragmento de cristal de un determinado tipo a la
ropa del sospechoso o a la escena del crimen. Obsérvese que la asunción de
la distribución de Poisson es una simplificación realizada con el propósi-
to de explorar conceptos. La desviación de b1 respecto de la predicha por
Poisson es aceptable porque la desviación proporciona un valor para la re-
lación de verosimilitudes que apoya, preferentemente, la proposición de la
defensa (un valor conservador) con respecto al valor bl proporcionado por
el modelo de Poisson (Curran y otros, 1998a).

2.3.7 Distribución Beta-binomial

Consideremos de nuevo el ejemplo de la remesa de las pastillas, donde


se sospecha que una proporción de las cuales contengan droga. Para lotes
grandes, la distribución de probabilidad de la proporción θ de pastillas con
droga se puede modelar con una distribución Beta, que trata a la propor-
ción θ como una variable continua en el intervalo (0,1). Para lotes peque-
ños, digamos N < 50, debería ser utilizada otra distribución más segura que
reconociera la naturaleza discreta de los valores posibles de la proporción.
Asumamos que hay n unidades en la parte del lote no inspeccionada, tal
que m + n = N, el tamaño total del lote. Sea Y(≤ n y desconocido) el número
de unidades en la parte no inspeccionada que contienen droga. El número
total de unidades en el lote que contienen droga es: z + y (≤ N), donde z es
el número en la parte inspeccionada que contienen droga.

m unidades en total n unidades en total

z unidades con droga y unidades con droga

Parte inspeccionada Parte NO inspeccionada

Consideremos ahora el suceso condicionado (Y | m,n,z,α,β): este suceso


condicionado tiene una distribución predictiva conocida denominada dis-
tribución Beta-binomial (Bernardo y Smith, 1994), con:
Cuentas   97

n
Γ(m + α + β) Γ( y + z + α)Γ(m + n − z − y + β)
Pr(Y = y | m, n, z, α, β) =  y (2.7)
Γ ( z + α ) Γ ( m − z + β) Γ ( m + n + α + β)
donde y = 0,1, ..., n;

Γ(x+1) = x!, para x > 0; Γ(1 / 2) = √π, siendo Γ la función gamma (2.8)

Para llegar a esta distribución hacen falta:


• una distribución Beta a priori (Sección 2.4.4);
• un modelo binomial para los datos (m, z) —parte inspeccionada—.
Con lo anterior se consigue construir una distribución a posteriori para
la proporción.
Luego, se ha de combinar con lo anterior:
• un modelo binomial para los datos (n, y) —parte no inspeccionada—.
Así se llega a obtener la distribución Beta-binomial expuesta más arri-
ba. Para más detalles, consúltese el Capítulo 6 y Aitken (1999).
La distribución Beta-binomial se puede generalizar para más de dos ca-
tegorías, obteniéndose así la llamada distribución Dirichlet-multinomial.
Fijándonos en el ejemplo del lote de pastillas, pudieran existir distintas
proporciones relacionadas con distintos tipos de droga. Para lotes grandes,
la distribución de probabilidad de las proporciones {θi; i = 1,2,...,k} de los di-
versos tipos de droga se puede modelar con una distribución Dirichlet, que
trata a las proporciones θi como variables continuas en el intervalo (0,1).
Como antes, consideremos un lote de pastillas. Una muestra de tamaño
m ha sido inspeccionada y zi indica el número de unidades con droga del
tipo i, donde i = 1,2,...,k, tal que Σi=1k zi ≤ m.
Asumimos que hay n unidades en la parte del lote que no ha sido inspec-
cionada tal que m + n = N, el tamaño total del lote. Sean (Yi, i = 1,2,...,k) los
números —desconocidos— de unidades con droga en la parte no inspec-
cionada, clasificados por tipos de droga. El número total de pastillas en el
lote del tipo i es entonces: zi + yi (≤ N).
Entonces (Yi | m,n,z1,...,zk,α1,...,αk) tiene una distribución predictiva ba-
yesiana conocida como distribución Dirichlet-multinomial (Bernardo y
Smith, 1994), con:
k
n! k
Γ( m + ∑ α i ) ∏ Γ( y1 + z i + α i )
i =1 y1!...y k ! i=1
Pr(Y1 = y1 , Y2 = y 2 ,..., Yk = y k , | m, n, z1 ,..., z k , α1 ,..., α k ) = k k

∏ Γ( z i + α i )Γ ( m + n + ∑ α i )
i =1 i =1

donde: 0 ≤ yi ≤ n; y Σi=1k yi ≤ n (2.9)


98   Variación

Para llegar a esta distribución se requiere:


• una distribución Dirichlet a priori (ver Sección 2.4.5);
• un modelo multinomial (Sección 2.3.4) para los datos (m, z1, ..., zk).
Lo anterior proporciona una distribución a posteriori para las propor-
ciones de los k tipos de droga.
Finalmente, esta distribución a posteriori se combina con un modelo
multinomial para la parte no inspeccionada (n, y1, ..., yk) del lote, consi-
guiéndose una Dirichlet-multinomial como la mostrada arriba. En el
Capítulo 6 se dan más detalles.

2.4 Medidas

2.4.1 Estadísticos resumen

Consideremos una población de medidas continuas con media µ y desvia-


ción estándar σ. Obtenemos datos muestrales de la población (x1, x2, ..., xn), y
tratamos de hallar una estimación de µ y σ. La media muestral x se define
como:
n
xi
x=∑ (2.10)
i =1 n
La desviación estándar muestral, s, se define como la raíz cuadrada de
la varianza muestral, s2, que se define así:
n
(x i − x )2
s2 = ∑ (2.11)
i =1 n −1

Esta expresión (2.11) puede también calcularse así:

 n n
 
s = 
2


∑x
i =1
2
i
−( ∑x )
i =1
i
2
 / n  /(n − 1)
 
(2.12)

Como ejemplo de los cálculos, consideremos las siguientes cinco medi-


das de anchuras medulares, en micras, de pelos de gato (n = 5):

x1 x2 x3 x4 x5
17.767 18.633 19.067 19.300 19.933
Medidas   99

n
xi
Entonces: x=∑ = 94.700 / 5 = 18.9400
i =1 n

Aplicando (2.12):

 n 2  n 2 
∑ xi − ∑ xi  
i =1  i =1 
 n 
 
 
s2 =  =
(n − 1)
(1796.220 − 94.700 2 / 5) / 4 = 0.6505,

y la desviación estándar: s2 = (0.6505)1/2 = 0.8065.


Observe que la media muestral y la desviación estándar tienen un signi-
ficado más relevante que las medidas originales.

2.4.2 Distribución normal

Cuando consideramos los datos en forma de cuentas, la variación de


las posibles salidas la representamos con funciones de probabilidad. Las
variaciones en las medidas de carácter continuo se representan, sin embar-
go, mediante funciones de densidad de probabilidad. Tanto las funciones de
probabilidad como las funciones de densidad de probabilidad son modelos
de probabilidad.
Como ejemplo de modelo de probabilidad para una medida continua
podemos considerar la cantidad de alcohol en sangre. Partiendo de resulta-
dos experimentales, se ha determinado que hay una variación en las medi-
das, x (en g/kg), proporcionada mediante un procedimiento específico. La
variación es tal que puede representarse por una función de densidad de
probabilidad que, en este caso, es unimodal, simétrica, y de forma acam-
panada. La función de densidad utilizada aquí es la denominada Normal o
Gausiana (nombrada así en honor del matemático alemán Carl Friedrich
Gauss, 1777-1855).
La distribución binomial necesitó que se especificaran el número de
pruebas y la probabilidad de éxito para poder definir la función de pro-
babilidad. Para la distribución Normal se necesitan dos características (o
parámetros): la media o esperanza, θ, y la desviación estándar, σ.
100   Variación

La media puede considerarse una medida de localización que indica el


tamaño de las mediciones. La desviación típica una medida de dispersión
relacionada con la variabilidad de las medidas. La función de densidad de
probabilidad Normal tiene esta expresión:

f(x / θ, σ2) = (1 / 2 2
) exp {– (x – θ)2 / 2 σ2} (2.13)

Esta función es simétrica respecto de θ. Su máximo valor se encuentra


en x = θ.
Se define a lo largo de la recta real – ∝ < x < ∝, y es siempre positivo. El
área de la función vale 1.
En algunos países, si el nivel de alcohol en sangre supera los 0.8 g/kg se
considera a la persona bajo la influencia del alcohol. La variabilidad inhe-
rente a la medida x, cantidad de alcohol, se conoce por anteriores experi-
mentos, y conforma una distribución Normal en torno al valor real de θ, y
varianza σ2 de 0.005.
Consideremos a una persona cuyo nivel de alcohol en sangre sea 0.7 g/
kg. La función de densidad de probabilidad f(x | θ, σ2) para la medida de
alcohol en sangre se obtiene de la función mencionada más arriba (2.13),
substituyendo θ por 0.7, y σ2 por 0.005.
La función aparece en la figura 2.1.

Figura 2.1. Función de densidad de probabilidad para una distribución


Normal, con media 0.7 y varianza 0.005.
Medidas   101

Observe la etiqueta del eje de ordenadas: “densidad de probabilidad”. La


razón de ello se tratará más adelante en esta Sección. En particular, es po-
sible que la función de densidad de probabilidad tenga valores superiores
a la unidad.
Existe un caso especial en el que θ = 0, y la varianza σ2 = 1. La función de
densidad será, entonces:

f(z / 0, 1) = (1 / 2 ) exp { – (z2 / 2)} (2.14)

donde se utiliza z en lugar de x para expresar la especial naturaleza de los


valores de los parámetros: media cero y varianza unidad.
La función de densidad de probabilidad Normal es tan común que
tiene una notación especial. Si una variable Z aleatoria se distribuye
Normalmente, con media 0 y varianza 1, se expresa así: Z ~ N(0, 1). A esta
distribución se le llama Normal estándar.
En general, una medida distribuida normalmente, digamos X, con me-
dia θ y varianza σ2, puede expresarse así:

(X | θ, σ2) ~ N(θ, σ2)

El primer símbolo dentro del paréntesis representa la media, y el segun-


do la varianza. No siempre es necesario hacer explícita la dependencia de
X de θ y σ2. Por tanto, la notación puede reducirse a lo siguiente (es la que
se emplea con frecuencia):

X ~ N(θ, σ2)

La determinación de las probabilidades asociadas a variables aleatorias


distribuidas Normalmente se hace posible gracias a una estandarización.
Una variable aleatoria distribuida Normalmente de modo general se trans-
forma en una distribución Normal estándar, de media 0 y varianza unidad.
Para ello hacemos el siguiente cambio de variable:

Z = (X – θ) / σ

Entonces, E(Z) = 0 y Var(Z) = 1; así Z tiene una distribución Normal


estandarizada. Obsérvese que la estandarización requiere variabilidad, lo
cual se aprecia al ver la variable σ en juego. La división por σ asegura que
el resultado estadístico sea adimensional.
102   Variación

Consideremos el siguiente ejemplo de medidas de alcohol en sangre


usando los anteriores valores paramétricos. Sea X la variable aleatoria de
medida de alcohol en sangre para una persona concreta, siendo x el valor
de una medida particular.
Supongamos que el verdadero valor —desconocido— del nivel de alcohol
en sangre de la persona fuera θ = 0.7 g/kg, y que la desviación estándar fuera
√0.005 = 0.07. La media x de la cantidad de alcohol en sangre registrada por
el alcoholímetro es de 0.85 g/kg, que sobrepasa el límite permitido: 0.8 g/kg.
Obsérvese que θ es desconocido para nosotros. La varianza, sin embar-
go, se asume conocida, y ha sido estimada a partir de experimentos previos,
considerándose constante e independiente del valor de θ. Sustituyendo x =
0.85 g/kg; θ = 0.7 g/kg; y σ2 = 0.005, obtenemos:

f(0.85 / 0.7, 0.005) = (1 / 0.01π ) exp { – (0.85 – 0.7)2 / 0.01}= 0.60 (2.15)
(ver Figura 2.1, líneas discontinuas)

En la práctica, lo que interesa es la probabilidad de que el verdadero


nivel de alcohol en sangre supere los 0.8 g/kg cuando el instrumento pro-
porciona el valor 0.85 g/kg. Esto requiere tener en cuenta una distribución
a priori para θ de la que se tratará detalladamente en la Sección 5.5.
Consideremos el caso continuo con más profundidad. La función que mo-
dela la variación se conoce como función de densidad de probabilidad, que
no es una función de probabilidad porque no mide probabilidades. Para com-
prender esto fijémonos en el siguiente ejemplo: una vara cilíndrica, con sec-
ción circular, tiene una densidad que varía a lo largo de su longitud de acuerdo
a la función f. Entonces, su peso sobre cualquier parte de su longitud es la in-
tegral de la función f sobre la parte elegida. Del mismo modo, con una función
de densidad de probabilidad, la probabilidad de la variable aleatoria dentro de
un cierto intervalo es la integral de la función de densidad correspondiente en
ese intervalo. De este modo, la probabilidad de la medida de alcohol en sangre
x, en un cierto intervalo, es la integral de f(x) en ese intervalo. Obsérvese, sin
embargo, el siguiente detalle teórico: una sección circular de espesor cero de
la vara cilíndrica pesará cero porque su volumen es cero. De modo similar, la
probabilidad de una variable aleatoria continua en un punto es cero.
En la práctica, los instrumentos de medida no son lo suficientemente
exactos como para medir infinitos números decimales, y este problema no
dista mucho de la determinación de la probabilidad de una medida tenien-
do en cuenta que se encuentra en un intervalo en lugar de hallar la proba-
bilidad de la medida con un valor concreto (consultar la Sección 4.5.5 para
una aplicación de esta idea).
Medidas   103

La probabilidad Normal no puede determinarse analíticamente y, por


tanto, se han de hacer referencias a tablas de probabilidad de la distribu-
ción Normal estándar o a programas estadísticos.
Sea Z una variable aleatoria con una distribución Normal estándar, de
este modo Z ~ N(0, 1). La probabilidad de que Z sea menor que un valor
particular z, se expresa mediante Pr(Z<z) o Φ(z).
Ciertos valores de Z se utilizan, normalmente, cuando se calculan pro-
babilidades de significación (contrastes de hipótesis), particularmente
aquellos valores para los que 1 – Φ(z) sea pequeño. Algunos de esos valores
pueden verse en la Tabla 2.4.

Tabla 2.4 Valores de la función de distribución cumulativa Φ(z), y su


complementaria 1– Φ(z), para la distribución Normal estándar,
para determinados valores de Z.

z Φ(z) 1 – Φ(z)
1.6449 0.950 0.050
1.9600 0.975 0.025
2.3263 0.990 0.010
2.5758 0.995 0.005

Las probabilidades correspondientes a los valores absolutos de Z pue-


den deducirse de las tablas usando la simetría de la distribución Normal.
Por simetría:

Φ(–z) = Pr(Z < –z) = 1 – Pr(Z < z) = 1 – Φ(z).

De este modo:

Pr(|Z|<z) = Pr(z<Z<–z) = Pr(Z<z) – Pr(Z<–z) = Φ(z) – Φ(–z) = Φ(z) – [1 – Φ(z)] = 2Φ(z) – 1

Los valores de z más utilizados, con sus correspondientes probabilida-


des para los valores absolutos, pueden contemplarse en la Tabla 2.5.

Tabla 2.5 Probabilidades para valores absolutos de la función de distri-


bución Normal estándar

z Φ(z) Pr(|Z|<z) = 2Φ(z) – 1 Pr(|Z|>z)


1.6449 0.950 0.90 0.10
1.9600 0.975 0.95 0.05
2.3263 0.990 0.98 0.02
2.5758 0.995 0.99 0.01
104   Variación

Figura 2.2. Probabilidades de área de cola seleccionadas para una varia-


ble aleatoria Normal estándar Z: (a) Pr(Z>1), (b) Pr(Z>2), (c) Pr(|Z|<2), (d)
Pr(Z>2.5).

La figura 2.2 ilustra las probabilidades para los siguientes eventos:


(a) Pr(Z>1) = 0.159; (b) Pr(Z>2) = 0.023; (c) Pr(|Z|<2) = Pr(–2<Z<2)= 0.954;
(d) Pr(Z>2.5) = 0.006.
Un intervalo conocido como intervalo de confianza para la media θ de
una variable aleatoria X, con una distribución N(θ, σ2), se puede determi-
nar mediante la siguiente expresión:

Pr(–dα/2 < (X – θ) / σ < dα/2) = 1 – α (2.16)

donde Pr(Z > dα/2) = Pr(Z < –dα/2) = α/2, y Z = (X – θ) / σ ∼ N(0,1).


Con las correspondientes transformaciones en (2.16), podemos llegar a
escribir:

Pr(X – dα/2σ < θ < X + dα/2σ) = 1 – α (2.17)

Si sustituimos X por una observación x, obtenemos el intervalo:

(x – dα/2σ < θ < x + dα/2σ),

del que se dice que es un intervalo de confianza del 100(1 – α)% para θ.
Por ejemplo, si α = 0.05, el intervalo de confianza del 95% para θ es:
(x – 1.96σ, x + 1.96σ),

donde 1.96 ha sido tomado de la Tabla 2.5.


Medidas   105

Obsérvese que un intervalo de confianza del 95% para la media significa


que si un experimento se repite muchas veces en idénticas condiciones, el
95% de los intervalos de confianza estimados cubrirán o incluirán el verda-
dero valor del parámetro de interés. Eso, por tanto, no significa que haya un
95% de probabilidad de que el verdadero valor esté en el intervalo estimado.
Para profundizar en el tema, consúltese Kaye (1987) y la Sección 5.6.
Algunas variables, incluyendo el nivel de alcohol en sangre, sólo pue-
den tomar valores positivos. Si la media está suficientemente lejos del
cero, en unidades de desviación estándar, entonces la probabilidad de
que la variable tenga valores menores de cero puede obviarse. En algunos
casos, la distribución puede estar escorada positivamente, es decir, la cola
de la derecha de la distribución es mayor que la de la izquierda, siendo
en este caso una distribución asimétrica (por ejemplo, cuando la media
es mayor que la mediana). (Una distribución en la que la cola de la iz-
quierda de la distribución sea mucho más larga que la cola de la derecha
de la distribución, y la media sea menor que la mediana, se dice que está
escorada negativamente).
Para distribuciones escoradas hacia valores positivos, una transforma-
ción consistente en calcular el logaritmo de la variable de interés produ-
cirá, a menudo, una variable más simétrica que la original, por lo que se
podría utilizar la distribución Normal para realizar inferencias. Habría
que tener cuidado, después, para expresar los resultados en la unidad de
medida original.
Aproximaciones normales a las distribuciones binomiales y de
Poisson: una de las principales ventajas de la distribución normal es que
puede utilizarse como una aproximación a otras distribuciones en circuns-
tancias en que puede resultar impracticable o tediosa (por ejemplo, por ca-
rencia de software adecuado) la tarea de cálculo con tales distribuciones.
Dos ejemplos de ello son las distribuciones binomiales y de Poisson. Son
dos distribuciones discretas muy tediosas a la hora de calcular probabili-
dades exactas para un gran número de sucesos. Por ejemplo, es muy tedio-
so calcular, exactamente, la probabilidad de obtener 530 o menos caras en
1000 lanzamientos de una moneda equilibrada.
Sea X una variable aleatoria con una distribución Binomial con n prue-
bas y probabilidad de éxito θ, de forma que E(X) = nθ, y Var(X) = nθ (1 – θ).
Para un valor de n grande y un θ no muy cercano a cero o a la unidad, la
distribución de X puede aproximarse por una distribución Normal con la
misma media y varianza. De este modo:

X ~ N(nθ, nθ (1 – θ))
106   Variación

También, E(X/n) = θ, Var(X/n) = θ (1 – θ) / n, y así:

X/n ~ N(θ, θ (1 – θ) / n) (2.18)

En respuesta al problema expuesto más arriba, sea X el número de ca-


ras en 1000 lanzamientos de una moneda equilibrada. Entonces:
530
 n 0.51000 (esta suma requiere mu-
Pr(X ≤ 530 | n = 1000, θ = 0.5) = ∑ x
cho cálculo y es tediosa). x =0  
De forma alternativa, la aproximación normal será la siguiente:
Pr(X ≤ 530 | n = 1000, θ = 0.5) ≅ Φ((530.5 – nθ) / n ) = Φ((530.5 – 500)
/ √250) = Φ(1.929) = 0.9731, donde 0.5 se ha sumado a 530 para permitir
la aproximación a la distribución discreta por una distribución continua.
Para la distribución discreta, X solamente toma valores enteros: ... 529,
530, 531 ..., mientras que para la continua X toma cualquier valor. En este
ejemplo, el valor 530.5 se elige por ser el valor mitad entre 530 y 531, el
inmediato superior al anterior. Utilizando software estadístico se ha obte-
nido el valor 0.9732. La aproximación es excelente.
Sean (y1, y2, ..., yn) n observaciones de una distribución de Poisson con
media λ.
Sea Y la variable aleatoria correspondiente a la media muestral.
Entonces:

Y ~ N(λ, λ/n).

2.4.3 Distribución t-student

En la práctica, la desviación estándar σ de los datos de una distribu-


ción normal es raramente conocida, por lo que ha de estimarse a partir
de los datos disponibles calculando la desviación estándar muestral s.
Consideremos n variables aleatorias Normalmente distribuidas, con idén-
tica distribución Normal, e independientes entre sí:

Xi ∼ N(θ, σ2), i = 1, ..., n.

Se puede demostrar que la variable aleatoria X , correspondiente a la


media de las n variables aleatorias anteriores, y dada por:
n Xi
X=∑
i =1 n
Medidas   107

se distribuye también normalmente, de forma que: X ∼ N(θ, σ2/n), i = 1, ..., n.


X−θ
Si la transformamos: Z = , esta nueva variable Z tiene una distri-
σ/ n
bución Normal estándar N(0,1).
Si la desviación estándar poblacional no se conoce y se reemplaza por
la variable aleatoria S correspondiendo a su estimación s, el estadístico
resultante será:

X−θ
Z= (2.20)
S/ n
Este nuevo estadístico no tiene una distribución Normal estándar. Se
trata de la relación entre dos variables: X y S. A esta distribución se le co-
noce como t-Student y al correspondiente estadístico como el estadístico t
(‘Student’ es el pseudónimo de W.S. Gosset, 1876-1937). La distribución es
simétrica respecto al cero.
La incertidumbre extra introducida al reemplazar σ por s, lleva a la dis-
tribución t-Student a tener una dispersión mayor que la Normal estanda-
rizada. También, la distribución depende del tamaño de la muestra n. En
particular, si la desviación estándar muestral s se estima a partir de una
muestra de tamaño n para usarla en el estadístico Z (2.20), entonces el
valor n – 1 se conoce como grados de libertad asociados al estadístico t. Los
grados de libertad vienen determinados por el denominador de la expre-
sión (2.11) utilizada para alcanzar el valor de s:
n
(x i − x)2
s2 = ∑
i =1 n −1

Informalmente, el número de grados de libertad puede considerarse como


el número de observaciones libres para estimar s después de restar la unidad
al número n que sirve para estimar x . Obtenidos los valores n – 1 y x , se pue-
de estimar el valor de la n-ésima observación, con la siguiente expresión:
n −1
x n = nx − ∑ x i
i =1

A medida que n crece, la distribución t-student se aproxima a la


Normal.
Como sucede con la distribución Normal estándar, la probabilidad no
puede determinarse analíticamente, por lo que se necesita software espe-
108   Variación

cífico o tablas de probabilidades para la distribución t. En la Tabla 2.6 se


muestran algunas probabilidades para la distribución t-Student, donde
t(n–1) (P) es el valor de t en una distribución t con n – 1 grados de libertad, de
forma tal que la probabilidad de que la variable aleatoria T (con una distri-
bución t(n–1)) sea más grande que t(n–1) (P) es P/100.

Tabla 2.6 Puntos porcentuales t(n–1) (P) para la distribución t, para valores


dados de tamaño muestral (n), (n–1) grados de libertad y P, y el
correspondiente punto z(P) para la distribución Normal estándar.

P% (100 – P)% n (n–1) t(n–1) (P) z(P)


95 5 10 9 1.833 1.645
95 5 20 19 1.729 1.645
99 1 10 9 2.821 2.326
99 1 20 19 2.539 2.326
99.5 0.5 10 9 3.250 2.576
99.5 0.5 20 19 2.861 2.576

Por ejemplo, cuando el tamaño muestral es 20, la probabilidad de que T


sea mayor de 2.539 es 1/100 o 0.01.
Existe una forma más general de la distribución t-Student no centra-
da en cero, que se conoce como la distribución t-Student no central. Hay
tres parámetros: µ, λ y ν. Si X tiene esa distribución no central, la variable
transformada Y = (X – µ) / λ tiene una distribución t-Student central con ν
grados de libertad. En la Sección 10.6 se expone un ejemplo de empleo de
esta distribución para determinar el valor del numerador en la evaluación
de fragmentos de cristal, donde µ es una media de control y λ es una esti-
mación de la desviación estándar del índice de refracción de la población
de fragmentos de cristal de donde proceden los fragmentos recuperados.
El valor del numerador es el valor de la densidad t central en el punto ade-
cuado, con un ajuste consistente en multiplicar el valor de la densidad por
un factor 1/λ para permitir la estandarización.

2.4.4 Distribución Beta

Consideremos un ejemplo en el que se desee saber la proporción de dro-


ga ilícita en un lote aprehendido. En la Sección 2.3.5 se habló ya de esto
Medidas   109

con referencia a pastillas de droga. El número de pastillas ilícitas es R, y el


tamaño del lote N. La proporción de pastillas ilícitas es R/N, el cual es un
número de entre finitos valores posibles, dependiendo del valor de R, yen-
do de 0/N a N/N, en pasos de 1/N. A medida que N crece, esta proporción se
aproxima a una medida continua sobre el intervalo (0,1).
La variabilidad de una variable aleatoria continua que sea una proporción
se modela con una distribución Beta. Sea θ la variable aleatoria. Teniendo en
cuenta un lote de drogas aprehendido, asumimos que forma parte de una
superpoblación de drogas en la que la proporción de droga ilícita es θ (0 < θ
< 1). Para profundizar en el concepto de superpoblación, consúltese Smith y
Charrow (1975), y Finney (1977), así como la Sección 3.3.5.
Por ejemplo, el lote pudiera provenir de un determinado lugar —hecho
conocido— y θ es la proporción de unidades en la superpoblación que con-
tienen droga. Para calcular probabilidades para θ, se necesita una distribu-
ción de probabilidades para los valores de θ que representan su variabili-
dad. Esta variabilidad puede ser incierta al considerar el lote aprehendido
una muestra aleatoria de la superpoblación. La estrategia bayesiana per-
mite representar esta incertidumbre en forma de distribución de probabi-
lidad. La más común para θ se denomina distribución Beta, caracterizada
por dos parámetros: α y β, con función de densidad de probabilidad:

θ α −1 (1 − θ) β −1
Be(α, β) = f (θ | α, β) = , con 0 < θ < 1, (2.21)
B(α, β)

siendo la función Beta la siguiente expresión:


Γ(α)Γ(β)
B(α, β) = , donde Γ(x+1) = x! (Γ es la función gamma (2.8)),
Γ(α + β)
con x > 0; y Γ(1 / 2) = √π.
La media es α / (α + β); y la varianza es αβ / (α + β)2 (α + β+1).
El uso de la distribución Beta en este contexto está descrito por Aitken
(1999).
Los valores de α y β pueden elegirse de forma subjetiva para representar
la creencia a priori del científico, antes de la inspección, sobre la propor-
ción de unidades de droga en el lote (considerado como una muestra alea-
toria de una superpoblación).
Un gran valor de α respecto a β implica una creencia de que θ era muy
alto.
Valores altos de α y β se corresponden con una mayor certeza sobre el
valor de θ.
110   Variación

En Aitken (1999) y, resumidamente, en el Capítulo 6, pueden encontrar-


se explicaciones más detalladas de lo antecedente.
En muchas ocasiones, el científico no deseará cuantificar su creencia a
apriorística sino permanecer neutral. Esto puede hacerse haciendo α = β =
1. También, como se demuestra en Aitken (1999), variaciones de α y β con
valores pequeños tendrán la consecuencia de que la evidencia de la mues-
tra reducirá su importancia. Esto es intuitivamente razonable, puesto que
si existe escasa información a priori, pronto los datos prevalecerán por su
importancia.
Una variación de la función de densidad Beta para θ, cuando θ está en el
rango (0, n), es la siguiente:

1 θ α −1 (n − θ) β −1
f (θ | α, β, n ) = ,0<θ<n (2.22)
B(α, β) n α +β −1

2.4.5 Distribución de Dirichlet

El ejemplo en el que se desea conocer la proporción de droga ilícita en


un lote, se puede generalizar a un caso en el que haya varios tipos de droga
(digamos k), y se quieren conocer las proporciones de cada tipo.
Consideremos un lote de pastillas de tamaño N. El número de pastillas
de cada uno de los k tipos es Ri, donde i va de 1 a k. La proporción de pas-
tillas con droga i es Ri / N, que toma un número de valores finito, depen-
diendo del valor de Ri, en un rango de valores que va de 0/N a N/N en pasos
de 1/N. A medida que N crece, estas proporciones se acercan a medidas
continuas sobre el intervalo (0,1). La variabilidad de un conjunto de varia-
bles aleatorias que sean proporciones y para las cuales la suma total sea 1,
se puede modelar con una generalización de la función Beta que se conoce
como función Dirichlet. Esta generalización es análoga a la generalización
de la función binomial (Sección 2.3.3) por una distribución multinomial
(Sección 2.3.4).
Llamemos θi al conjunto de variables aleatorias, donde i = 1, ..., k, de
forma que Σi=1kθi = 1. La distribución Beta que hasta ahora hemos usado
es para k = 2, y convencionalmente llamamos a θ1 = θ, y θ2 =1 – θ1 = 1 – θ.
Para un lote de drogas, asumimos, como antes, que sea representativo de
una superpoblación de drogas, en las que las proporciones de cada tipo de
droga son θi, i = 1, ..., k; 0 < θi < 1; Σi=1kθi = 1.
Por ejemplo, el lote puede provenir de un determinado lugar, y el con-
junto {θi; i = 1, ..., k} son las proporciones de unidades en la superpobla-
Medidas   111

ción según sus categorías respectivas. Para realizar inferencias sobre {θi}
se necesita de una distribución de probabilidad para {θi} que represente
la variabilidad de {θi}. Esa variabilidad puede ser incierta sobre el conoci-
miento de los valores exactos de {θi}, incertidumbre basada en que el lote es
considerado como una muestra aleatoria de una superpoblación. La distri-
bución de Dirichlet es la más común para {θi; i = 1, ..., k}, con una función
de densidad de probabilidad:

θ α1 −1 ...θ α k −1
f (θ1 ,..., θ k | α 1 ,..., α k ) = 1 k
,
B(α 1 ,..., α k )

0 < θi < 1; i = 1, ..., k; Σi=1kθi = 1; (2.23)

Γ(α 1 )...Γ(α k )
donde la función Beta es B(α 1 ,..., α k ) = .
Γ(α 1 + ... + α k )
La media de θi, E(θi), es αi / Σi=1kαi, y la varianza de θi es E(θi) (1 – E(θi))
/ (1 + Σi=1kαi). El conjunto {θi} suma 1, así pues están correlados. La cova-
rianza Cov(θi,θj), i≠j, entre θi y θj viene dada por – E(θi) E(θj) / (1 + Σi=1kαi).
Obsérvese que es negativa; dado el valor de θi, el rango de valores para θj se
reduce de (0,1) a (0, 1 – θi).
La distribución Dirichlet se caracteriza por k parámetros: {α1, α2,..., αk}.
Esos parámetros pueden tener unos valores a priori, elegidos de forma
subjetiva, que representen las creencias a priori de los científicos antes de
inspeccionar las proporciones de droga de cada categoría en el lote (consi-
derado como una muestra aleatoria de una superpoblación).
Consideremos una prueba de un único marcador de ADN. Sean (X1, X2)
las frecuencias muestrales de las dos bandas del marcador encontradas en
la escena del crimen. El tamaño muestral de donde tomamos X1 y X2 es n.
Sea X3 = n – X1 – X2. Las frecuencias relativas de la población correspon-
diente son θ1, θ2 y θ3, donde Σi=13θi = 1. La distribución Dirichlet proporciona
una distribución a priori conveniente para {θi}, con tres categorías (k=3).
En Balding (1995) podemos encontrar más detalles relacionados con los
ejemplos citados, así como inferencias realizadas a partir de los marcado-
res encontrados en la escena del crimen. En Leonard y Hsu (1999, páginas
195-196) podemos encontrar cómo usar una distribución Dirichlet como
distribución a priori para una verosimilitud multinomial relacionada con
datos de grupos sanguíneos. En Lange (1995) podemos encontrar aplica-
ciones relacionadas con probabilidades de cotejos positivos en situaciones
forenses.
112   Variación

2.4.6 Normal multivariante y correlación

Muy frecuentemente existe más de una característica de interés, por


ejemplo el índice de refracción, densidad y composición básica de frag-
mentos de cristal. Los datos (medidas de esas características) se denomi-
nan datos multivariantes, y cuando sólo hay dos reciben el nombre de datos
bivariantes.
Empleamos la siguiente notación: usamos una x en negrita para señalar
que se trata de una variable multivariante o un vector, que puede represen-
tarse como x = (x1, x2, ..., xp)’. El apóstrofo o una letra T en su lugar indican
que se trata de un vector columna. Para datos bivariantes p = 2. En el ejem-
plo del cristal de la ventana, x1 sería el índice de refracción, y x2 la densidad
del cristal. Para datos continuos, el vector x tiene una función de densidad
de probabilidad.
Si las características son independientes (Sección 1.6.5), la función de
densidad de probabilidad conjunta f(x) es el producto de las funciones de
densidad de probabilidad individuales:
p
f(x) = f(x1, x2, ..., xp) = ∏ f (x )
i (2.24)
i =1

Lo anterior puede justificarse como una extensión de la tercera ley de la


probabilidad para sucesos independientes (1.6).
Si las características no son independientes, sin embargo, no puede rea-
lizarse la simplificación anterior. Asumamos que las medidas de esas ca-
racterísticas están Normalmente distribuidas y que son dependientes: Se
dice que las medidas están correladas. Puede obtenerse una forma análoga
multivariante de una distribución Normal. La media multivariante θ es el
vector formado por las medias de las variables individuales θ. En lugar de
la varianza σ2, hay una matriz simétrica cuadrada (dimensiones p × p) Σ
de varianzas y covarianzas (consultar la Sección 11.9 para una breve intro-
ducción sobre matrices y terminología asociada). La matriz Σ se conoce
como la matriz de covarianzas.
La covarianza es la medida de la asociación entre un par de caracterís-
ticas y es el producto de las desviaciones estándar individuales y un factor
que mide la correlación (grado de asociación) entre las dos características.
Las varianzas de las p variables están en la diagonal de Σ. Las covarianzas
están fuera de la diagonal, de tal forma que las celdas (i,j) de Σ contienen
las covarianzas entre Xi y Xj. La correlación entre las dos variables es un
parámetro que mide la cantidad de asociación lineal entre las variables.
Medidas   113

Puede valer entre –1 y 1. Dos variables que tengan una relación lineal per-
fecta con una pendiente positiva (cuando una crece o decrece, la otra tam-
bién) tienen una correlación de 1. Si la pendiente es negativa (cuando una
crece, la otra decrece, o viceversa), tienen una correlación de –1. Una co-
rrelación de 0 implica que no existe correlación lineal entre las variables.
Observe que eso no quiere decir que no pudiera existir alguna relación en-
tre las variables, simplemente se dice que no es lineal.
Sea Var(Xi) = σ i2, (i =1, ..., p) y ρij la correlación entre Xi y Xj, (i = 1, ..., p;
j = 1, ..., p; i ≠ j). La covarianza entre las dos variables se representa como
Cov(Xi, Xj) y es igual a:

Cov(Xi, Xj) = ρij σi σj, donde i = 1,…,p; j = 1,…,p.

Sea el determinante de Σ representado como | Σ | y la matriz inversa Σ –1.


Entonces, la función de densidad de probabilidad de x viene dada por:

f(x) = (2π) –(1/2)p | Σ | –1/2 exp {–1/2 (x – θ)’ Σ –1 (x – θ)} (2.25)

Lo anterior cabe escribirlo, de forma resumida, de forma equivalente al


caso univariante, de la siguiente forma: (X|θ,Σ) ~ N(θ,Σ). (2.26)
Para el caso particular en que p = 2 (2 variables), la distribución Normal
multivariante se denomina distribución Normal bivariante:

 σ12 ρσ1σ2 
θ =  θ1  Σ =  2 
 (2.27)
 θ2   ρσ1σ 2 σ 2 

1  σ1−2 − ρ / σ1σ2 
Σ –1 = 
2  − ρ / σ1σ 2 −2

1− ρ  σ2 

| Σ | ½ = σ1 σ2 (1 − ρ2)
La matriz Σ –1 es representada, en ocasiones, por Ω (consultar Sección
4.5.5).
La matriz Σ –1 se ha calculado de la siguiente manera:
Sabemos que la inversa de una matriz A (n × n), puede calcularse apli-
 1 
cando la siguiente fórmula: A–1 =   (adj A)’, donde “adj” es la abre-
 det A 
viatura de adjunto. El adjunto de la matriz Σ (2 × 2), se representa por
 A11 A12  , que en este caso se transforma en la siguiente matriz:
A 21 A 22
114   Variación

 σ 22 − ρσ1σ2  2 2
− ρσ1σ2 , y el determinante de Σ es el siguiente: det Σ = σ1 σ2 – ( ρσ1σ 2 )2
σ1 
2

1  σ22 − ρσ1σ2  = 1  σ1
−2
− ρ / σ1σ2 
Por tanto, Σ–1 = 2 −2

2 
2 2 σ1  1 − ρ  − ρ / σ1σ2 σ2
2
σ1 σ2 - (ρσ1σ2 ) − ρσ1σ2 

Entonces, la expresión:


 (x1 − θ 1) (x − θ ) 
2 2
( x1 − θ 1)( x 2 − θ 2) 2 2

(x – θ)’ Σ –1 (x – θ) =  σ 2
− 2ρ + 2 
 1 σ1 σ 2 σ2 
(1 − ρ2 )

La función de densidad Normal bivariante se puede escribir de la si-


guiente forma:

 (x1 − θ1) (x − θ ) 
2 2
1  1 ( x1 − θ1)( x 2 − θ2) 2 2
f(x1,x2) = exp −  2
− 2ρ + 2 
 2 (1 − ρ )  σ1 σ1 σ 2 σ2
2
2π σ1 σ2 (1 − ρ2 ) 

A su vez, cuando θ1 = θ2 = 0:

1  1  x12 ( x1x 2) x 22 
f(x1,x2) = exp −  2 − 2ρ + 2 
 2 (1 − ρ )  σ1 σ1 σ 2 σ 2 
2
2π σ1 σ 2 (1 − ρ2 )

Otro caso especial es cuando ρ = 0:

1  1  ( x − θ ) 2 ( x − θ ) 2 
f(x1,x2) = exp −  1 2 1 + 2 2 2  , que puede formu-
2π σ1 σ 2  2  σ1 σ2 
larse así:

( x 1 − θ1 ) 2 (x 2 −θ2 )2
1 −
2 σ12 1 −
2 σ 22
f ( x1 )f ( x 2 ) = e e
σ1 2π σ 2 2π

Este es el producto de densidades de probabilidad para dos distribu-


ciones normales, una con media θ1 y varianza σ 12, y el otro con media θ2 y
varianza σ 22. Es un ejemplo de (2.24) con p = 2.
Pueden encontrarse aplicaciones en el Capítulo 11 y en las Secciones
4.5.5 y 4.6.3.
Capítulo 3
La evaluación de la evidencia La evaluación de la evidencia

3.1 Apuestas

3.1.1 Sucesos complementarios

Existe una medida de la incertidumbre, conocida como apuesta, que


resulta familiar a quienes practican el juego. Los corredores de apuestas
hacen apuestas en eventos deportivos tales como las carreras de caballos o
partidos de fútbol. Por ejemplo, se apuesta a favor de un caballo particular
“6 a 1” en que será el ganador, o en un partido de fútbol “3 a 2” a favor de
uno de los equipos. Las apuestas son equivalentes a las probabilidades. Las
frases anteriores se pueden relacionar directamente con otras en las que se
hable de probabilidades de que un caballo gane una carrera o un equipo de
fútbol gane un partido.
Antes de explicar más profundamente el concepto de apuesta se precisa
conocer el concepto de complementariedad o negación de un suceso y apor-
tar alguna notación. Sea R un suceso. El complementario o negación de
R, cuya notación es R , es el suceso que es cierto cuando R es falso y falso
cuando R es cierto. Si R ocurre, su complementario no puede ocurrir. Los
sucesos R y R se conocen como sucesos complementarios.
El suceso formado por la unión de R y R es el suceso seguro, es decir,
su probabilidad es 1. Por tanto, la probabilidad del complementario de R
viene dada por:

Pr( R ) = 1 – Pr(R)

A lo largo de este libro se calculará, frecuentemente, la probabilidad de


la evidencia bajo dos proposiciones competitivas: la del Fiscal y la de la
defensa. La del Fiscal se representa por Hp y la de la defensa por Hd. Los
subíndices p y d significan prosecutor (Fiscal) y defence (defensa), respecti-
vamente. La letra H significa hipótesis y ha prevalecido a pesar del más re-
ciente uso del término proposición. Esas dos proposiciones pueden repre-
sentar sucesos complementarios (como “culpable” e “inocente”) o no (“El
116   La evaluación de la evidencia

sospechoso y un desconocido estuvieron en la escena del crimen” y “Dos


desconocidos estuvieron en la escena del crimen”). Pueden existir otras po-
sibilidades de combinación de proposiciones no cubiertas por estas dos
proposiciones: hubo menos o más de dos personas en la escena del crimen;
dos personas conocidas estuvieron en la escena del crimen, etc…

3.1.2 Ejemplos

1: se lanza una moneda. Llamamos R a que salga cara. R será, por tan-
to, que salga cruz. Si la moneda está equilibrada: Pr(R) = Pr( R ) = 1 / 2.
2: se rueda un dado. Llamamos R a que salga un “6”. R será, por tanto,
que no salga un “6”. Si el dado está equilibrado: Pr(R) = 1 / 6; Pr( R ) = 5 / 6.
3: se chequea a una persona para averiguar si es Kell + o Kell –. Sea R el
suceso “ser Kell +”, y R será, por tanto, “ser Kell –“. Con la Tabla 1.4 llega-
mos a que Pr(R) = 0.6; y Pr( R ) = 0.4.
4: a una persona se le imputa un crimen. Sea G el suceso “ser culpable”.
G será, por tanto, el suceso “ser inocente”.
Observemos que, en todos los casos, el suceso compuesto por la unión
“R o R ” es cierto. De este modo, su probabilidad es la unidad por ser mutu-
amente excluyentes y exhaustivos sus sucesos simples.

Pr(R ∪ R ) = Pr(R) + Pr( R ) = 1;

Pr( R ) = 1 – Pr(R). (3.1)

En general, para sucesos complementarios: Pr( R ) + Pr(R) = 1. (3.2)

3.1.3 Definición

Si un suceso R tiene una probabilidad P(R) de ocurrir, la apuesta contra


R será:

Pr( R ) / Pr(R) = [1 – Pr(R)] / Pr(R)

La apuesta a favor de R será: Pr(R) / [1 – Pr(R)].


Si tenemos la probabilidad de que pueda ocurrir un suceso, es posible
derivar apuestas en su contra. Así mismo, si disponemos de un valor de
una apuesta contra un suceso, es posible determinar la probabilidad de
que el suceso ocurra.
Apuestas   117

Por ejemplo, si apostamos 6 a 1 que un caballo concreto perderá la ca-


rrera y R representa el suceso de que el caballo gane la carrera:

[1 – Pr(R)] / Pr(R) = 6
1 – Pr(R) = 6 × Pr(R)
1 = 6 × Pr(R) + Pr(R) = 7 Pr(R)
Pr(R) = 1/7

Las frases “apuestas sobre” y “apuestas a favor de” son equivalentes y se


utilizan como recíprocos de “apuestas contra”. Consideremos un equipo
de fútbol por el que se apuesta 3 a 2 en que ganará el partido. La frase “3 a
2” es equivalente a 3/2 pues es una apuesta a favor del equipo. La relación
entre la apuesta y las probabilidades es la siguiente:

Pr(R)/ [1 – Pr(R)] = 3/2


2 × Pr(R) = 3 (1 – Pr(R))
5 × Pr(R) = 3
Pr(R) = 3/5

Generalizando y llamando O a la “apuesta contra” la ocurrencia de un


suceso R:

[1 – Pr(R)] / Pr(R) = O
1 – Pr(R) = O × Pr(R)
(O + 1) Pr(R) = 1
Pr(R) = 1/(O + 1)

Se puede verificar que para la carrera de caballos O = 6, luego Pr(R) =


1/7. Para el equipo de fútbol O = 2/3, por lo que Pr(R) = 3/5.
Las apuestas igual a 1 se denominan tablas.
El concepto de apuesta es importante en la evaluación de la evidencia. La
evidencia se evalúa por su efecto sobre la probabilidad de que sea cierta una
proposición sobre un sospechoso (antes de que se inicie el juicio) o un im-
putado (una vez iniciado el juicio). Esa suposición pudiera ser que el sospe-
choso estuviera presente en la escena del crimen —ésta será la proposición
más estudiada en este libro—. Inicialmente, sin embargo, la discusión será
en términos del efecto de la evidencia en las probabilidades de culpabilidad
(Hp) o inocencia del sospechoso (Hd). Estos sucesos son complementarios.
La relación entre las probabilidades de esas proposiciones Pr(Hp) /
Pr(Hd) no es otra cosa que la apuesta contra la inocencia del sospechoso o
a favor de su culpabilidad. Se enfatiza que las probabilidades se refieren a
118   La evaluación de la evidencia

si el sospechoso es verdaderamente culpable o inocente, no a que sea de-


clarado culpable o inocente.
Los mismos principios mencionados con referencia a las apuestas se
aplican también a las probabilidades condicionales. Dada la información
I, la relación Pr(Hp|I) / Pr(Hd |I) es la apuesta a favor de la culpabilidad del
sospechoso, dada la información I.
La mayor parte del libro versará sobre la incidencia de la evidencia E
sobre la apuesta a favor de una suposición sobre el sospechoso.

3.2 Teorema de Bayes

El Teorema de Bayes es una parte importante del proceso de la con-


sideración de las apuestas. De hecho, el teorema permite la revisión,
gracias al conocimiento de una nueva información, de una medida de
incertidumbre sobre la verdad o no de un resultado o un asunto (como
pueden ser una hipótesis o una proposición). Esta perspectiva es común
a muchos campos científicos donde se combinan datos con información
a priori para hallar probabilidades a posteriori para un particular resul-
tado o asunto. La propiedad esencial de la inferencia bayesiana es que
permite moverse de probabilidades a priori (iniciales o anteriores al test)
a probabilidades a posteriori (finales o posteriores al test) basadas en da-
tos.

3.2.1 Enunciado del teorema

Consideremos las últimas dos partes de la tercera ley de la probabilidad


como en (1.8), concretamente para los sucesos R y S:

Pr(R) × Pr(S | R) = Pr(S) × Pr(R | S)

Si Pr(R) ≠ 0, es posible dividir por Pr(R) y obtener la siguiente expresión,


que no es otra que el Teorema de Bayes para dos sucesos, R y S:

Pr(S | R) = [Pr(R | S) × Pr(S)] / Pr(R) (3.3)

3.2.2 Ejemplos

Una verificación numérica de este resultado está disponible en la Tabla


1.4 y en el ejemplo 1.3. Sea R el suceso “ser Kell +”, y S “ser Duffy +”.
Teorema
Teorema de bayes   119
de Bayes  

Entonces, como antes, Pr(R | S) = 34 / 70; Pr(R) = 60 / 100; y [Pr(R | S) ×


Pr(S)] / Pr(R) = [(34 / 70) × (70 / 100)] / (60 / 100) = 34 / 60 = Pr(S | R).
La importancia del teorema de Bayes es que enlaza Pr(S) con Pr(S | R).
La incertidumbre sobre S, representada originalmente por Pr(S), es alte-
rada por el conocimiento de R, lo cual se representa mediante Pr(S | R).
Observe que la conexión entre Pr(S) y Pr(S | R) se realiza a través de Pr(R |
S) y Pr(R).
Un importante ejemplo de tal razonamiento lo podemos hallar en el
diagnóstico médico. Consideremos el caso de un doctor que trabaja en una
clínica que está interesado en la proposición: “este paciente tiene la en-
fermedad S”. Viendo al paciente como una muestra aleatoria de un gran
conjunto de pacientes (población) que se presentan, por sí mismos, en la
clínica (consúltese la Sección 8.5 sobre el concepto de población relevante
al caso), el doctor asocia una probabilidad con la proposición de interés:
esta probabilidad es la denominada probabilidad a priori (o pre-test). Se
trata de la probabilidad de que una persona tenga la enfermedad S antes
de que nuevas observaciones o tests se lleven a cabo.
Supongamos que el doctor realiza al paciente un análisis de sangre, el
cual arroja un resultado positivo; a ello le llamamos R. Después de esto,
el doctor está interesado en calcular, de nuevo, la probabilidad de que el
paciente tenga la enfermedad S. Este nuevo valor es la probabilidad a pos-
teriori o post-test. Se refiere a una nueva situación, expresada por la ecua-
ción (3.3). Observe que la probabilidad de un test sanguíneo positivo pu-
diera expandirse utilizando la extensión de la conversación (Sección 1.6.7).
El resultado consistente en un test sanguíneo positivo pudiera contem-
plarse bajo dos situaciones competitivas: primeramente, el paciente tiene
la enfermedad S (suceso S); y en segundo lugar, el paciente no tiene la en-
fermedad S (suceso S ). Así:

Pr(R) = [Pr(R | S) × Pr(S)] + [Pr(R | S ) × Pr( S )],

y la probabilidad a posteriori, sería:

Pr(S | R) = Pr(R | S) × Pr(S) / [(Pr(R | S) × Pr(S)) + (Pr(R | S ) × Pr( S ))] (3.4)

Reconsideremos el primer ejemplo en el que el doctor está interesado


en la probabilidad de que el paciente tenga la enfermedad S dado que el
test sanguíneo ha sido positivo, es decir, ha ocurrido el suceso R. Para la
valoración cuantitativa de las probabilidades condicionales, resulta muy
importante que en una etapa anterior (es decir, antes del análisis), el test de
120   La evaluación de la evidencia

sangre utilizado por el doctor fuera evaluado con dos grupos de pacientes,
unos con la enfermedad y otros sin ella. Los grupos se clasifican utilizando
un test de referencia (el denominado estándar de oro) al objeto de obtener
una tabla de contingencia dos por dos, como la Tabla 3.1.

Tabla 3.1 Tabla de contingencia dos por dos para frecuencias de pacien-


tes con o sin la enfermedad (S o S ), dado un test sanguíneo
positivo o negativo (R o R ).

S S Total

R n RS n RS nR

R n RS n RS nR

Total nS nS n

Hay n pacientes en total. Los subíndices restringen el número de pa-


cientes dentro de las categorías indicadas por ellos. Las sumas de los pares
numéricos en las filas y columnas son los valores marginales (fila de abajo
y columna de la derecha). De este modo, por ejemplo:

nRS + nR =nR

es el número de pacientes con resultado positivo en el test sanguíneo. En


terminología médica resulta común referirse a la sensibilidad y a la especi-
ficidad del test. La sensibilidad es la probabilidad de un resultado positivo
en el test sanguíneo dado que el paciente tiene la enfermedad S (verdadero
positivo). Se estima por la relación de nRS a nS, la proporción de pacientes
positivos en el grupo de enfermos. La especificidad es la probabilidad de
un resultado negativo en el test sanguíneo dado que el paciente no tiene la
enfermedad (verdadero negativo). Se estima mediante la relación n R S a
n S , la proporción de pacientes negativos en el grupo de pacientes no enfer-
mos de S. La sensibilidad y la especificidad proporcionan una medida de
la calidad del test, siendo el test de alta calidad cuando sendos valores son
altos.

Así pues, en la ecuación Pr(S | R) = [Pr(R | S) × Pr(S)] / Pr(R), Pr(S) repre-


senta la probabilidad a priori de que el paciente tenga la enfermedad S (en
términos médicos, esta probabilidad se denomina prevalencia) y Pr(R | S)
la sensibilidad del test. Pr(R | S ) se conoce como tasa de falsos positivos,
Teorema
Teorema de bayes   121
de Bayes  

que se estima mediante la relación entre n R S y n S . Pr( R | S) se denomina


tasa de falsos negativos, y se estima mediante la relación entre n RS y n S .
La Tabla 3.1 también puede representarse mediante probabilidades en
lugar de frecuencias (ver, por ejemplo, Leonard, 2000, pp. 35-40).
En la Tabla 3.2, Pr(S) es la probabilidad a priori o prevalencia de la enfer-
medad en la población relevante, y Pr(S,R) = Pr(R | S) × Pr(S) se valora utili-
zando la sensibilidad del test. Pr(S, R ) puede calcularse mediante la resta:
Pr(S) – Pr(S,R). Un procedimiento análogo se adopta para la columna S .

Tabla 3.2 Tabla de contingencia dos por dos para la tabulación


de pacientes con o sin la enfermedad (S o S ), dado un
test sanguíneo positivo o negativo (R o R ).

S S Total
R P(S,R) P( S ,R) P(R)
R P(S, R ) P( S , R ) P( R )
Total P(S) P( S ) 1

La distinción entre Pr(S | R) y Pr(R | S) es muy importante y necesita ser


reconocida. En Pr(S | R), R es conocido o dado, S es incierto. En el ejem-
plo 1.3, se asumió que el individuo era Kell +, y era incierto si era Duffy +
o Duffy –. En el ejemplo médico, el resultado del test sanguíneo se cono-
cía, sin embargo el estado de enfermedad del paciente era desconocido. En
Pr(R | S), S es conocido o dado, R es incierto. En el ejemplo 1.3 se asumió
que el individuo era Duffy +, siendo incierto si era Kell + o –. En el ejemplo
médico, se conocía el estado de enfermedad, siendo incierto si el test era +
ó –. Ejemplos posteriores enfatizarán, aún más, la diferencia entre esas dos
probabilidades condicionales.

Ejemplo 3.1: Sea S el suceso “Tengo dos brazos y dos piernas”, R el su-
ceso “Soy un mono”. Entonces: Pr(S | R) = 1, mientras que Pr(R | S) ≠ 1. La
primera probabilidad es equivalente a decir que “si soy un mono, tengo dos
brazos y dos piernas”. La segunda probabilidad es equivalente a decir que:
“si tengo dos brazos y dos piernas, no soy necesariamente un mono”. De
modo análogo, en el anterior ejemplo médico, un paciente está más intere-
sado en la probabilidad de no tener una enfermedad, dado que el test haya
sido positivo, que en la probabilidad de que el test sea positivo dado que
no se tenga la enfermedad. La última de esas probabilidades es la tasa de
falsos positivos, Pr(R | S ); la primera la probabilidad a posteriori Pr( S | R).
122   La evaluación de la evidencia

Si se quiere profundizar sobre este tema tan importante puede consultarse


el trabajo de Saks y Koehler (1991).

Ejemplo 3.2: Este ejemplo es de Lindley (1991). Consideremos estas


dos frases:
1. La tasa de mortandad entre los hombres es dos veces más alta que
entre las mujeres.
2. En los registros de defunciones en el último mes, hay dos veces más
hombres que mujeres.
Sea M el suceso “ser varón”, y F “ser mujer”, de forma que ambos suce-
sos son complementarios entre sí. Sea D el suceso de la muerte. Entonces,
las frases (1) y (2) pueden reescribirse así:

1. Pr(D | M) = 2 Pr(D | F).

2. Pr(M | D) = 2 Pr(F | D).

Observe que Pr(M | D) + Pr(F | D) = 1, puesto que M y F son complemen-


tarios.
Así, desde la frase (2) podemos concluir que: 1 – Pr(F | D) = 2 Pr(F | D).
Lo que tiene como consecuencia que Pr(F | D) = 1 / 3. Y Pr(M | D) = 2 / 3.
No es posible realizar inferencias similares desde (1). La Tabla 3.3 ilus-
tra este asunto de forma numérica.

Tabla 3.3 Resultados hipotéticos sobre fallecidos en una pobla-


ción.

Varón Mujer Total


Muertos 2 1 3
Vivos 98 99 197
Total 100 100 200

Observamos que hay 100 varones, de entre los cuales se produjeron dos
defunciones, y 100 mujeres, de quienes sólo una murió. De este modo, Pr(D
| M) = 0.02 y Pr(D | F) = 0.01, satisfaciéndose (1). Hubo tres muertos en to-
tal, de quienes 2 fueron varones y 1 mujer, cumpliéndose (2).

Ejemplo 3.3: consideremos el problema de determinar a cuál de las tres


subpoblaciones (Ψ1, Ψ2, Ψ3) pertenece un individuo, basándonos en los ge-
notipos de algunos marcadores y en el conocimiento de algunas frecuen-
Teorema
Teorema de bayes   123
de Bayes  

cias genotípicas en cada una de las subpoblaciones (Shoemaker y otros,


1999).
El contexto consiste en que se ha hallado una mancha de sangre en el
lugar del crimen, y quiere saberse a cuál de las tres subpoblaciones: cau-
cásica, maorí o polinésica occidental, pertenece el que ha dejado la man-
cha (asumiéndose que pudiéramos restringir nuestra atención a esas tres
subpoblaciones).
El censo neozelandés de 1991 aportó la siguiente información poblacio-
nal: 81.9% caucásicos; 13.7% maoríes; 4.4% polinesios occidentales. Se
dispone de información para calcular las probabilidades genotípicas del
perfil X de ADN de cualquier neozelandés. Para este ejemplo, supongamos
que las tres probabilidades son: Pr(X | Ψ1) = 3.96 x 10–9, Pr(X | Ψ2) = 1.18 x
10–8 y Pr(X | Ψ3) = 1.91 x 10-7. Las probabilidades a priori para las tres subpo-
blaciones son: Pr(Ψ1) = 0.819, Pr(Ψ2) = 0.137, y Pr(X | Ψ3) = 0.044. Entonces:

Pr(X | Ψi )Pr(Ψi )
Pr(Ψi | X) = =
Pr(X | Ψ1 )Pr(Ψ1 ) + Pr(X | Ψ 2 )Pr(Ψ 2 ) + Pr(X | Ψ3 )Pr(Ψ3 )
−9
3.96 × 10 × 0.819
−9 −8 −7
= 0.245.
3.96 × 10 × 0.819 + 1.18 × 10 × 0.137 + 1.91× 10 × 0.044

Obsérvese que la probabilidad de que un caucasiano sea el autor de la


mancha ha pasado de una probabilidad a priori de 0.819 a una probabili-
dad a posteriori de 0.245. Esto es así por la rareza del perfil X hallado en la
raza caucásica.
Puede también calcularse que Pr(Ψ2 | X) = 0.121, y Pr(Ψ3 | X) = 0.634.
De este modo, para la población polinésica occidental, la probabilidad
a priori ha aumentado de 0.044 a 0.634. Esto es así debido a que el perfil X
hallado es bastante común en esa subpoblación.

Ejemplo 3.4: otro ejemplo ilustrativo para destacar la diferencia entre


Pr(S | R) y Pr(R | S) es el que proporciona Darroch (1987). Considere una
ciudad en la que se ha cometido una violación. Hay 10.000 hombres en
la edad propicia en la ciudad, de los cuales 200 trabajan en una mina. Se
encuentra evidencia en el lugar del crimen para relacionar al autor con al-
guno de los mineros. Tal evidencia podría ser el hallazgo de algunos mine-
rales que sólo pudieran provenir de la mina. Se aprehende a un sospechoso
y se hallan en él restos de minerales similares a los que aparecieron en el
lugar del crimen: ¿cómo debe valorarse esa evidencia? Llamémosla E: “el
124   La evaluación de la evidencia

hecho de que se han encontrado minerales en la ropa del sospechoso como


los que se hallaron en la escena del crimen”. Llamamos Hp a la proposición
de que el sospechoso es culpable, y Hd de que es inocente (esas proposicio-
nes son complementarias: sólo una de las dos es cierta).
Una proposición puede pensarse como que ha sucedido algo, como un
suceso, siempre que se utilicen probabilidades subjetivas. Tal suceso pudiera
ser que se han medido características de interés, por ejemplo, la concentra-
ción de ciertos minerales en la muestra encontrada en la escena del crimen.
Puede ser que encontremos modelos que representen bien la variabilidad de
tales mediciones. Sin embargo, la culpabilidad o inocencia del sospechoso
no puede ser modelada de igual forma. Aún así es perfectamente razona-
ble que representemos mediante una probabilidad el estado de incertidum-
bre sobre la verdad o no de una proposición. (Obsérvese el uso del término
proposición. Como ya se explicó en la Sección 1.6.1, esta palabra se utiliza
preferentemente al término hipótesis para evitar confusión con el proceso
estadístico conocido como contraste de hipótesis. Las proposiciones pueden
ser complementarias del mismo modo que los sucesos. Una y sólo una pue-
de ser cierta, y juntas abarcan todas las posibilidades).
Asumimos que todos los que trabajan en la mina tienen similares restos
de minerales en sus ropas que los hallados en la escena del crimen. Esta
asunción está abierta a discusión, pero lo referente a las probabilidades
condicionales sigue siendo válido. La probabilidad de encontrar la eviden-
cia sobre una persona inocente puede determinarse como sigue. Hay 9.999
hombres inocentes en la ciudad, de los cuales 199 trabajan en la mina. Esos
199 hombres tendrán, como consecuencia de su trabajo, el mismo tipo de
evidencia en sus ropas que la encontrada en la escena del crimen, bajo las
condiciones que hemos asumido. De este modo Pr(E | Hd) = 199 / 9.999 ≅
200 / 10.000 = 0.02, un número pequeño. ¿Implica esto que un hombre con
esos minerales en sus ropas es inocente con una probabilidad de 0.02? En
absoluto. Hay 200 hombres en la ciudad con esa clase de evidencia, de los
cuales 199 son inocentes. De este modo: Pr(Hd | E) = 199 / 200 = 0.995. Si se
igualan ambas probabilidades condicionales se comete la falacia de trans-
posición del condicional (Diaconis y Freedman, 1981), la cual se tratará con
más detalle en las Secciones 3.3.1 y 3.5.5.

3.3 Errores de interpretación

Una gran parte de la controversia sobre la evidencia científica se debe


a la forma clásica de presentarla. En un juicio oral resulta ya complica-
Errores de interpretación   125

do asegurarse de que el Juez o el Jurado entienden la evidencia científica,


siendo una dificultad adicional el que el perito aporte al Tribunal una eva-
luación que ilustre sobre la fuerza de convicción sobre los resultados (véa-
se, por ejemplo, el malentendido en R. contra Adams, D.J.). La valoración
de los resultados analíticos está asociada a probabilidades como medidas
de incertidumbre. Por tanto, las conclusiones de los informes de los ex-
pertos conllevan incertidumbre. Es importante asegurarse que esta incer-
tidumbre se mide con exactitud y se representa correctamente para evitar
falacias o falsas intuiciones (Saks y Koehler, 1991; Fienberg y Kaye, 1991).
Investigaciones en psicología han demostrado que la intuición es un mal
sustituto de las leyes de la probabilidad cuando se evalúa la incertidumbre
(Bar-Hillel y Falk, 1982; Koehler, 1992; Piattelli-Palmarini, 1994) y que la
presentación de la argumentación científica en el juicio oral puede crear
confusión: víctimas de esto son tanto los juristas como los expertos foren-
ses (Koehler, 1993b; Reinstein, 1996). De este modo, el razonamiento esta-
dístico ayudará al experto forense y a los miembros del Jurado a realizar
sus conclusiones.
Desde los inicios del siglo XX, algunos científicos y juristas eran plena-
mente conscientes de la falta de intuición a la hora de realizar cálculos de
probabilidades. El matemático francés Henri Poincaré ofreció un remar-
cado ejemplo de estos límites en un curso impartido en 1895 bajo el título
“El problema de los tres estuches” (Poincaré, 1896). Aproximadamente un
siglo más tarde, el mismo problema genera grandes controversias (consúl-
tese Selvin, 1975; Engel y Venetoulias, 1991; Morgan y otros, 1991; Falk,
1992).
Consideremos tres cajas A, B, y C. Dentro de una de ellas hay un premio.
Tenemos un competidor K y un organizador del concurso L. El organiza-
dor sabe dónde está el premio. La probabilidad a priori Pr(i) de que cada
caja contenga el premio es 1/3, para i = A, B y C. K tiene que elegir una caja.
Si la caja elegida contiene el premio, K gana el concurso. La elección se
realiza en dos etapas. K elige una caja pero no se abre. L abre luego una de
las dos cajas restantes y muestra a K que está vacía (recuerde que L sabe
dónde está el premio). A K se le ofrece la oportunidad de elegir entre la caja
primeramente elegida o la que ha quedado sin abrir por L. ¿Qué debe ha-
cer K para aumentar la probabilidad de ganar el premio?
Supongamos, sin pérdida de generalidad, que el competidor elige C. El
organizador abre A o B, la que esté vacía. Asumamos, de nuevo sin pérdida
de generalidad, que ha abierto A. Si el premio está en C, Pr(L abre A) = Pr(L
abre B) = 1 / 2. Si el premio está en B, entonces Pr(L abre A) = 1. Si el pre-
mio está en A, Pr(L abre A) = 0.
126   La evaluación de la evidencia

La probabilidad de interés es Pr(“C es la caja con premio” | “L abre A” y


“K elige C”). Simplificamos lo anterior con la siguiente notación: Pr(C | LA,
KC). Como KC es común a todas las probabilidades que se pretenden calcu-
lar, la omitimos para simplificar las expresiones. Sean LB y LC los sucesos
de que el organizador abra B y C respectivamente. La probabilidad de inte-
rés es Pr(C | LA, KC), que se puede escribir de la siguiente forma:

Pr(LA | C) × Pr(C) / [Pr(LA | A) × Pr(A) + Pr(LA | B) × Pr(B) + Pr(LA | C) × Pr(C)],

lo que es igual a: (1 / 2 × 1 / 3) / [ 0 + (1 × 1 / 3) + (1 / 2 × 1 / 3)] = 1 / 3.

Las probabilidades a priori para cada una de las cajas era de 1 / 3. El


competidor eligió la caja C. El organizador abrió la caja A y mostró que no
tenía el premio. Los cálculos anteriores demuestran que la probabilidad a
posteriori de que C contuviera el premio era igualmente 1 / 3. Sin embargo,
A fue eliminada. De este modo, la probabilidad a posteriori de que fuera B
la caja con premio era de 2 / 3. La apuesta correcta era de 2 a 1 a favor de la
caja B. El competidor debió elegir esa opción.
Se han descrito muchas formas de falsas intuiciones analizando infor-
mes presentados en Tribunales y conclusiones de expertos sobre las evi-
dencias. Por ejemplo, se han estudiado casos relacionados con ADN y se
han entregado a profesionales (expertos forenses y juristas) y estudiantes
al objeto de evaluar su comprensión sobre la medida de la incertidumbre
(Taroni y Aitken, 1998b,c). Los resultados alcanzados permitieron suge-
rir mejoras en la presentación de la evidencia forense, así como para la
educación de futuros juristas y expertos forenses. Ejemplos de estas fala-
cias abundan en la literatura y se presentan a lo largo de esta Sección (ver
también Goodman, 1992; R. contra Deen, The Times, 10 de enero de 1994;
Matthews, 1994; Dickson, 1994; Balding y Donnelly, 1994b).

3.3.1 Falacia de la transposición del condicional

Ejemplos de esta falacia abundan en la literatura judicial y foren-


se. Como referencias jurisprudenciales citamos a R. contra Adams, D.J.,
R. contra Doheny y Adams, G., R. contra Clark, y Wilson contra Maryland.
Consideremos el siguiente ejemplo, tomado de Gaudette y Keeping (1974).
Los autores dirigieron un extenso experimento para intentar determinar
la capacidad discriminativa de muestras de pelos humanos para distinguir
a los individuos de procedencia. Se realizaron múltiples comparaciones
entre pelos de muchos individuos. En un experimento se seleccionaron 9
Errores de interpretación   127

pelos desemejantes entre sí pero provenientes de un mismo individuo y se


compararon con otro que procedía de un individuo diferente. Se estimó
que la probabilidad de que al menos una de las 9 comparaciones de dos
pelos, procedentes de fuentes distintas, diera como resultado que los pelos
eran indistinguibles sería 1/4500. Los autores concluyeron: “se estima que
si un cabello hallado en la escena del crimen es indistinguible de, al menos,
uno entre un grupo de nueve mutuamente desemejantes y procedentes de
una misma fuente, la probabilidad de que el pelo hallado proceda de otra
fuente es muy pequeña: 1/4500 aproximadamente” (Gaudette y Keeping,
1974, p.605).
Sea R el suceso por el que “un cabello hallado en la escena del crimen
sea indistinguible de entre, al menos, un grupo de 9 pelos desemejantes
entre sí y procedentes de una misma fuente”. Sea S el suceso: “los 9 pelos
desemejantes entre sí proceden de una fuente diferente a la del pelo halla-
do en la escena del crimen”. Los autores concluyeron sus investigaciones
pretendiendo calcular Pr(S | R), pero en realidad calcularon Pr(R | S).
Desde un punto de vista histórico resulta de interés recordar el caso
Dreyfus y el testimonio probabilístico ofrecido por Alfonso Bertillón.
Bertillón cometió un error al dejarse llevar por la intuición (para una com-
pleta descripción del caso judicial, con comentarios sobre conclusiones de
los expertos, consúltese Champod y otros, 1999). De acuerdo con Bertillón,
Dreyfus fue el autor del documento. Para incrementar la credibilidad de
sus alegaciones, Bertillón presentó un cálculo de probabilidad. Si la proba-
bilidad de observar una coincidencia era de 0.2, la probabilidad de obser-
var cuatro era de (0.2)4= 0.0016, y para N coincidencias: (0.2)N. Teniendo
en cuenta las cuatro coincidencias observadas por Bertillón, se consideró
que siendo tan escasa la probabilidad de que ese hecho se produjera, de
por sí demostraba la falsificación. Incluso admitiéndose que el valor pro-
babilístico p ofrecido por Bertillón fuera correcto (para un comentario al
respecto consúltese Darboux y otros, 1908; Champod y otros, 1999), él sos-
tuvo (indirectamente) que era posible deducir de p la probabilidad de que
el documento tuviera información para el enemigo: 1 – p. Esta última pro-
babilidad era muy próxima a la unidad, lo que constituía una demostra-
ción inequívoca, con un razonable grado de certeza científica, que Dreyfus
fue el autor. La conclusión de Bertillón es falaz porque parecía argumentar
que Pr(Hd | E) = p, por lo que Pr(Hp | E) = 1 – p, mientras que p sólo repre-
senta a Pr(E | Hd).
Otros ejemplos sobre falacia de transposición del condicional se pueden
encontrar en Thompson y Schumann (1987), los cuales la denominaron
falacia del Fiscal. También ha recibido el nombre de falacia de inversión
128   La evaluación de la evidencia

(Kaye, 1993b). Por ejemplo: “hay un 10% de probabilidad de que el impu-


tado pertenezca al grupo sanguíneo identificado en la mancha de sangre
hallada en la escena del crimen en el supuesto de que fuera inocente. Por
tanto, tiene un 90% de probabilidad de ser culpable”; o bien, “el test de san-
gre es muy relevante; el sospechoso pertenece al mismo grupo sanguíneo
que el autor del crimen y ese grupo sólo aparece en el 1% de la población,
así pues, sólo hay un 1% de probabilidad de que la sangre encontrada en la
escena del crimen pertenezca a otra persona diferente al sospechoso; como
sólo hay esa pequeña probabilidad para que otra persona pudiera haber
cometido el crimen, existe un 99% de probabilidad de que el sospechoso
sea culpable” (Thompson y Schumann, 1987, p.177).
En general, E representa la evidencia y Hd la proposición de que el sos-
pechoso es inocente. Cuando se calcula Pr(E | Hd), la probabilidad de la
evidencia si el sospechoso es inocente, hay dos posibles errores de falacia
de transposición del condicional al confundirla con las siguientes probabi-
lidades:
(a) La probabilidad de que el sospechoso no sea la fuente de la eviden-
cia (error de probabilidad de la fuente).
(b) La probabilidad de que el sospechoso no sea culpable (error en la
cuestión fundamental).
Esas falacias se tratan en Koehler (1993a), Balding y Donnelly (1994b),
Evett (1995) y Redmayne (1995, 1997).

3.3.2 Error de probabilidad de la fuente

Se ha cometido un crimen. Se halla evidencia de traza que se supone


procedente del criminal. Sea Hd la proposición de que la evidencia no fue
dejada por el sospechoso.
Por ejemplo, la evidencia E pudiera ser un cotejo positivo de ADN entre
la sangre de la víctima asesinada y la sangre extraída de la ropa del sospe-
choso. Un experto determina que la probabilidad Pr(E | Hd) es 1/7.000.000.
Consideremos la siguiente conclusión sobre el valor de la evidencia (ba-
sada en Wike contra el Estado, actas, páginas 147-148, transcrito en Koehler,
1993a). Se concluye, en el informe pericial, que con una probabilidad de 1
entre 7.000.000, la sangre encontrada en la ropa del sospechoso pudiera
atribuirse a una persona diferente de la víctima.
Otras formas posibles de cometer errores de este tipo (los primeros cua-
tro ejemplos no proceden de ningún caso real sino que sólo se aportan, con
sus cifras, a título ilustrativo):
Errores de interpretación   129

• La probabilidad de que el ADN encontrado en la escena del crimen


pudiera provenir de otra persona diferente al sospechoso sería de 1
a 7.000.000.
• La probabilidad de que el perfil hallado ocurra de forma aleatoria
es de 1 entre 18 billones de personas. Por tanto, la probabilidad de
que el perfil proceda de otra persona diferente al sospechoso sería
de 1 entre 18 billones.
• La probabilidad de encontrar la evidencia sobre una persona ino-
cente es de 0.01% (1 entre 10.000), por tanto, la probabilidad de que
el sospechoso sea culpable es del 99.99%.
• Los perfiles de ADN de la evidencia y del sospechoso son coinciden-
tes, por consiguiente la evidencia ha sido dejada por el sospechoso.
• Después de realizar un test de ADN con muestras de fluido vaginal
extraídas de la víctima y muestras de sangre del sospechoso (Ross),
los expertos de ADN establecen que Ross fue la fuente del fluido se-
minal (Ross contra el Estado de Indiana).
• El experto ofreció estadísticos probabilísticos sobre si la muestra de
ADN encontrada sobre la víctima pudiera provenir de alguien dis-
tinto al imputado (Estado de Vermont contra T. Streich).
Ninguna de las conclusiones anteriores está justificada por el valor dado
de Pr(E | Hd). Todas ellas cometen el error de la probabilidad de la fuente.

3.3.3 Error en la cuestión fundamental

Si el error sobre probabilidad de la fuente se extiende al error sobre la


cuestión fundamental (la culpabilidad del sospechoso), cometemos esta va-
riedad de error de transposición del condicional (Koehler, 1993a). Extiende
la hipótesis de que el sospechoso sea el autor de la evidencia a la hipótesis
de su culpabilidad. El caso del Pueblo contra Collins (ver el Capítulo 4) es
un ejemplo particular de esta falacia.
Consideremos un caso en el que Pr(E | Hd) sea de 1 entre 5 millones,
donde Hd es la proposición de que el sospechoso no sea la fuente de la evi-
dencia E. La falacia del error en la cuestión fundamental interpretaría esto
como una probabilidad de 1 entre 5 de que el sospechoso sea inocente.

3.3.4 Falacia del defensor

Al igual que existe una falacia del Fiscal, también existe otra denomi-
nada falacia del abogado (Thompson y Schumann, 1987). Consideremos
130   La evaluación de la evidencia

la conclusión siguiente dimanante de un abogado defensor: “La evidencia


sobre el grupo sanguíneo tiene muy poca relevancia en el presente caso.
Sólo el 1% de la población tiene ese extraño grupo sanguíneo que ha sido
hallado tanto en la mancha encontrada en la escena del crimen como en
el sospechoso. Sin embargo, en una ciudad como en la que ha ocurrido el
crimen, con una población de 200.000 habitantes que pudieran haberlo
cometido, eso supondría 2000 potenciales autores del crimen. La eviden-
cia sólo muestra que el sospechoso es uno de esos 2000 posibles autores
del crimen en esta ciudad. El grupo sanguíneo sólo ha determinado una
probabilidad de ser culpable de 1 a 2000. Resulta tan pequeña que es irrele-
vante para probar la culpabilidad del sospechoso”.
Estrictamente hablando (desde el punto de vista de la inferencia), el ar-
gumento de la defensa es matemáticamente correcto. Sin embargo, antes de
que apareciera la evidencia, el sospechoso tenía una probabilidad de ser cul-
pable de 1 a 200.000, en el supuesto de que un individuo de esa ciudad fuera
el autor del crimen y no tuviéramos en cuenta ninguna información más. La
consecuencia de que haya aparecido esa evidencia es que la probabilidad de
que el sospechoso sea el autor del crimen se ha multiplicado por 100. La evi-
dencia es 100 veces más probable si el sospechoso es culpable que si es ino-
cente. Esto puede pensarse como que la evidencia está soportando la hipóte-
sis de culpabilidad. Desde luego, por sí misma, esta evidencia es improbable
que sea suficiente para que se dictamine un veredicto de culpabilidad.
Dos errores más tratados por Koehler (1993a) son el error en la proba-
bilidad de encontrar otra coincidencia aleatoria y el error de conversión
numérica.

3.3.5 Error de probabilidad de encontrar otra coincidencia aleatoria

Como en el Ejemplo 1.1 imaginemos que se ha cometido un crimen y se


encuentra una mancha de sangre E con perfil Γ en la escena del crimen que
se cataloga como perteneciente al criminal. Se identifica a un sospechoso.
Sea Hd la proposición de que la mancha no fue dejada por el sospechoso.
Supongamos que la frecuencia de aparición en una población relevante
del perfil mencionado fuera γ (para ver detalles de esa estimación consúl-
tese el Capítulo 13). Así pues, Pr(E | Hd) = γ. La probabilidad de que una
persona seleccionada al azar en la misma población no tuviera ese perfil
sería (1 – γ). Sea N el tamaño de la población. Asumiendo independencia
entre los miembros de la población con respecto a E, la probabilidad de no
emparejamiento con el perfil de la mancha en la escena del crimen en la
Errores de interpretación   131

población sería: (1 – γ)N —una generalización para N sucesos de la tercera


ley de la probabilidad para sucesos independientes, (1.3)—. El suceso com-
plementario a que no existan emparejamientos es que, al menos, haya uno:
la probabilidad de, al menos, uno sería θ = 1 – (1 – γ)N. Se dan dos ejemplos
numéricos en la Tabla 3.4.
Sea N = 1.000.000 y tomamos γ como un valor estimado a partir de una
población mayor, asumiendo que se trata de una población similar a la po-
blación relevante en cuanto a las probabilidades de coincidencia aleatoria
del perfil de interés (ver Capítulo 13). Como en la Sección 2.4.4, consúltese
a Smith y Charrow (1975) y a Finney (1977) sobre comentarios acerca de
las superpoblaciones. De este modo, es posible que γ sea menor que 1 / N.

Tabla 3.4 Probabilidad θ de, al menos, una coincidencia aleatoria dada


una frecuencia de la evidencia de traza de γ, en una población
de tamaño 1 millón.

γ 1/1.000.000 1/10.000.000
θ 0.632 0.095

Como puede observarse, las dos probabilidades de θ son mucho mayo-


res que los correspondientes valores de γ.
El error que describimos en este apartado es el que se comete cuando se
equiparan las dos variables anteriores: θ y γ. En otras palabras, un pequeño
valor de γ se considera que implica un pequeño valor para la probabilidad
de que, al menos, otra persona, pueda producir la misma coincidencia. Los
resultados de la tabla 3.4 demuestran que esa implicación es falsa. Así, una
probabilidad de coincidencia aleatoria de 1 entre 1.000.000 (asumiendo
que el valor ha sido calculado correctamente y que no hay posibilidad de
error o falsa interpretación), significa que existe una posibilidad, entre 1
millón, de que una persona seleccionada al azar compartiera las caracte-
rísticas observadas. En otras palabras, asumiendo que los datos y su inter-
pretación son infalibles, esperaríamos ver ese perfil de ADN en, aproxima-
damente, una persona de cada millón de personas. Obsérvese que esto no
se identifica con la probabilidad de que exista alguien más que comparta
el perfil observado. Aunque pudiera ser extremadamente improbable que
una persona seleccionada al azar compartiera el perfil de ADN observa-
do de otra persona, pudiera ser bastante probable que otros tuvieran ese
mismo perfil (Koehler, 1996). Existe sólo una probabilidad de uno entre
un millón de que una persona elegida al azar tenga el perfil de ADN obser-
vado —ese perfil es común a una persona entre un millón— pero existe un
132   La evaluación de la evidencia

63,2% de probabilidad de que en una población de un millón de personas


haya alguien más, al menos, con el mismo perfil (ver Tabla 3.4).

3.3.6 Error de conversión numérica

Sea γ la probabilidad de coincidencia aleatoria (RMP – random match


probability en inglés, ver detalles en el Capítulo 13) de la mancha del cri-
men como en la Sección 3.3.5. Se ha producido un cotejo positivo entre el
perfil de la mancha y del sospechoso. Sea n el número de personas que ten-
dríamos que examinar hasta encontrar otra con el mismo perfil. Podríamos
pensar que el significado del valor de γ pudiera conocerse relacionando 1/γ
con n. Un valor pequeño de γ implicaría un gran valor de n.
Resulta de gran interés calcular n, dados γ y la probabilidad de que ocu-
rra otro cotejo positivo, digamos Pr(M). El error de conversión numérica
consiste en sostener que n es igual a 1/γ, cuando no es así en absoluto.
Supongamos que γ = 0.01. Existe una probabilidad de 0.01 de que un
individuo seleccionado de forma aleatoria pudiera dar un cotejo positivo
con la evidencia E. El error de conversión numérica consistiría en que 100
personas tendrían que ser examinadas hasta que encontráramos un nuevo
cotejo positivo.
Supongamos que, inicialmnte, Pr(M) fuera 0.5. Un valor de n mayor que
el valor utilizado para Pr(M) = 0.5 implicaría que el cotejo positivo tendría
más posibilidades de ocurrir si se examinaran n personas.
Sea n el número de gente que hubiera que examinar antes de que la pro-
babilidad de encontrar un nuevo cotejo positivo fuera mayor de 0.5.
La probabilidad de que un individuo seleccionado al azar no se cotejara
positivamente con la evidencia sería (1 – γ). Para n individuos independien-
tes seleccionados aleatoriamente, la probabilidad de que no se cotejaran
positivamente con la evidencia sería (1 – γ)n. La probabilidad de que haya,
al menos, un cotejo positivo, sería: 1 – (1 – γ)n. Para que un cotejo positivo
fuera más probable que lo contrario, con n individuos, tendría que ocurrir
que: 1 – (1 – γ)n > 0.5, es decir, (1 – γ)n < 0.5.
La desigualdad anterior podría escribirse también, tomando logarit-
mos:

n log(1 – γ) < log 0.5


n > log 0.5 / log(1 – γ) (recordemos que 1 – γ es menor a la unidad, por lo
que su logaritmo es negativo)
n > ψ5
Errores de interpretación   133

Si en lugar de valer Pr(M) = 0.5, valiera 0.9:

n log(1 – γ) < log 0.1


n > log 0.1 / log(1 – γ)
n > ψ9

Dando valores a γ y ψ en la siguiente tabla:

Tabla 3.5 La evidencia ocurre con una frecuencia (RMP) γ. El núme-


ro más pequeño ψ de las personas que son observadas des-
pués de que coincidan sus características con la eviden-
cia ocurre con una probabilidad dada de Pr(M)=0.5, 0.9;
ψ 5 = log 0.5 / log(1 − γ ), ψ 9 = log 0.1 / log(1 − γ ), n 5 es el número en-
tero más pequeño mayor que ψ 5 , n 9 es el número entero más
pequeño mayor que ψ 9 .

Pr(M) = 0.5 Pr(M) = 0.9


γ ψ5 n5 ψ9 n9
0.1 6.6 7 21.9 22
0.01 69.0 69 229.1 230
0.001 692.8 693 2301.4 2302

Tabla 3.6 La probabilidad θ’ de encontrar, al menos, otro cotejo positivo


con la evidencia, que ocurre con una frecuencia (RMP) γ, cuan-
do se examinan n’ = 1/γ personas es la siguiente:

γ n’ θ’
0.1 10 0.651
0.01 100 0.634
0.001 1000 0.632

Vale la pena resaltar que si se examinan n’ = 1/γ personas, este valor no


coincide con la probabilidad de que haya un cotejo positivo. Esta probabi-
lidad es igual a θ’ = 1 – (1 – γ)n’ (consultar la Tabla 3.6 para ver ejemplos).
Cuando γ tiende a cero, θ’ tiende a 1 – e–1 = 0.632... Obsérvese también que
n5 es menor que n’. Por tanto, el error de conversión numérica, basado
en Pr(M) = 0.5, exagera el número de personas que se necesitan examinar
para encontrar otra que pueda producir un cotejo positivo.
Como ilustración, consideremos el siguiente caso. Sea el RMP igual a 1
entre 209.100.000 y el experto dice que tiene una base de datos de muestras
134   La evaluación de la evidencia

de sangre procedentes de todo el país. Se le pregunta que cuánta gente ten-


dría que examinar antes de encontrar a otra persona como esa. La respues-
ta que aporta es 209.100.000 (Ross contra el Estado). Esto exagera la fuerza
probatoria del cotejo positivo encontrado y favorece al Fiscal.

3.3.7 Falacia de falso positivo

Consideremos la posibilidad de un error de clasificación de una muestra


clasificándola como positiva cuando de hecho es negativa. Un ejemplo de este
tipo sería clasificar falsamente dos muestras comparadas como procedentes
de una misma fuente —por coincidencia de perfiles de ADN— cuando, en rea-
lidad, proceden de dos fuentes distintas. Se pueden cometer serios errores de
interpretación si, por ignorancia o subestimación de su importancia, no tene-
mos en cuenta la posibilidad de encontrarnos ante un falso positivo.
Un valor pequeño de probabilidad de falso positivo no implica que la
probabilidad de una falsa coincidencia aleatoria sea también pequeña en
todos los casos.
Un experto forense que piense que existe sólo un 1% de probabilidad de
equivocarse al declarar documentalmente que se ha producido un cotejo
positivo entre las muestras comparadas, si realmente las muestras no pro-
cedieran de la misma fuente pudiera ser que asumiera que, necesariamen-
te, existe un 99% de probabilidad de que el cotejo positivo documentado
fuera un cotejo positivo cierto.
Sea M el suceso de que el sospechoso y el autor del crimen tengan el mis-
mo perfil de ADN, y R el resultado del informe afirmando que ha habido
un cotejo positivo. La probabilidad de falso positivo es Pr(R | M ), es decir,
la probabilidad de afirmar en el informe que ha existido un cotejo positivo
cuando las muestras analizadas provienen de personas distintas. La proba-
bilidad Pr(M | R) es la probabilidad de acertar en el cotejo positivo dado que
el informe se ha concluido diciendo que ha existido un cotejo positivo. La
falacia de falso positivo está en igualar Pr(M | R) con 1 – Pr(R | M ). Se trata
de una derivación de la falacia del Fiscal. Pueden verse ulteriores detalles
en la Sección 3.5.5, Capítulo 13, y en Thompson y otros (2003).

3.3.8 Unicidad

La propiedad de la identificación (o mejor, la individualización) —tam-


bién conocida como “unicidad” o “individualidad”— se utiliza normalmen-
te en campos como las huellas dactilares, huellas de calzado, marcas de
Errores de interpretación   135

herramientas, huellas balísticas, huellas de pabellones auditivos, y recono-


cimiento de locutor (por ejemplo: Simons, 1997), y se trata de forma regu-
lar en la literatura forense (por ejemplo: Champod, 2000).
La evidencia de ADN no es inmune a esta tendencia (Smith y Budowle,
1998; Budowle y otros, 2000; Kaye, 1997b; Zeisel y Kaye, 1997; Robertson
y Vignaux, 1998; Balding, 1999). De hecho, el FBI ha anunciado que per-
mite a sus expertos en ADN procedente de sangre, semen, u otra evidencia
biológica recuperada en la escena del crimen que manifiesten que provie-
nen de una determinada persona (Holden, 1997).
El FBI dijo oficialmente que su nueva política al respecto establece que
si la probabilidad de una coincidencia aleatoria es menor que 1 dividido
por 260.000 millones de personas, el experto puede testificar que las mues-
tras comparadas presentan una coincidencia perfecta, y que tal certeza
científica conlleva la afirmación de que se ha identificado a un individuo,
con la consiguiente exclusión de cualquier otro.
Así, hay expertos que sostienen que los genotipos de ADN son únicos, y
que no existe duda alguna de que las muestras comparadas en las condi-
ciones anteriores proceden del mismo ser humano —para leer comentarios
sobre la pertinencia de la estadística presentado, se pueden consultar Evett
y Weir (1998), y Buckleton y otros (2004)—.
El establecimiento de una identificación es una opinión sobre ese asun-
to en sí mismo considerado. La conclusión (ilógica) a la que se llega con los
presupuestos anteriores es fruto de considerar que la probabilidad de en-
contrar a otra persona en el mundo con las mismas características es cero.
Existe suficiente unicidad en las características observadas para eliminar
cualquier persona distinta como donante de las mismas. Ninguna eviden-
cia (incluso en el caso de gemelos) podría cambiar la certeza del experto.
A tal forma de razonar se le llama falacia sobre la unicidad porque pasar
de una probabilidad a una certeza es un acto de fe, no un razonamiento ba-
sado en la lógica (Stoney, 1991b), y ese tipo de conclusiones entrañan una
falsa interpretación sobre las misiones que corresponden a los expertos y
al Tribunal en un proceso de inferencia científico, así como sobre el papel
de los estadísticos forenses. Para consultar más opiniones al respecto, se
recomienda a Buckleton (1999), Champod (1999), Taroni y Margot (2000),
y Buckleton y otros (2004). En particular, los últimos autores comentan
que “teniendo en cuenta todos los factores, no puede irse más allá de de-
clarar una fuente común” (Buckleton y otros, 2004). El experto no puede
ser la persona que determine cuál es el nivel de duda razonable sobre la
relación muestra-sospechoso imponiendo una población de referencia de-
terminada: toda la población actual en el mundo al suponer que cualquiera
136   La evaluación de la evidencia

de ellas pudiera ser el origen de la muestra. Corresponde a los juristas fijar


el umbral de lo que se considera “duda razonable” en lo referente a una
identificación.

3.3.9 Otras dificultades

El científico forense tiene que evaluar el valor de la evidencia; esto sig-


nifica que debe valorar la fuerza del enlace entre, por ejemplo, un vestigio
recuperado y un sospechoso. Por consiguiente, resulta importante subra-
yar que la evaluación de la evidencia forense tiene —por propia naturale-
za— un estrecho vínculo con la valoración estadística (los resultados se
asocian a probabilidades como medidas de incertidumbre). Pero existe la
posibilidad de malinterpretar el valor de la evidencia estadística cuando,
de forma rutinaria, tal evidencia sostiene un argumento científico en el
sistema inquisitorial o acusatorio de un proceso judicial. En este apartado
se trata sobre el significado de algunas conclusiones dadas por expertos
europeos de ADN. Obsérvese que el significado probabilístico de esas con-
clusiones asume que la frecuencia relativa fue calculada correctamente y
que no existe posibilidad de error o de malinterpretar los datos (Taroni y
otros, 2002).

Frecuencia relativa de ocurrencia:


El método de la frecuencia relativa, γ, parece inapropiado cuando se
trata de describir una coincidencia en perfil de ADN en una comparación
entre dos muestras. Una forma típica de expresar el resultado por muchos
laboratorios es la siguiente: “El perfil de ADN en cuestión se encuentra en
una proporción de 1 a 100.000 en la población”. Hay cuatro objeciones a
esta forma de expresar el resultado de la comparación:
1. Si la población fuera considerablemente mayor en tamaño que 1 / γ
(por ejemplo: tres millones), resultaría razonable pensar que el Tribunal
consideraría que 3000000 × (1 / 100000) = 30 personas de la población po-
drían tener el mismo perfil. El Tribunal podría utilizar la evidencia de ADN
como una apuesta a priori antes de evaluar el resto de evidencias posibles
en el caso. Si, por el contrario, la población fuera mucho más pequeña en
tamaño que 1 / γ (por ejemplo: 1 persona entre 2.5 × 109), no esperaríamos
encontrar a nadie más en la población que tuviera ese perfil, pareciendo
así ilógico combinar la evidencia de ADN con otras evidencias en el caso
que pudieran aportar un soporte para la hipótesis de la defensa, por ejem-
plo, la evidencia convincente de una coartada.
Errores de interpretación   137

2. Una objeción más seria a la “frecuencia de ocurrencia” sucede cuando


el experto considera la hipótesis alternativa de que el ADN pudiera proce-
der de un familiar cercano al sospechoso. No tiene sentido alguno afirmar:
“El perfil de ADN en cuestión se manifiesta en 1 hermano de cada 400”, así
pues, el experto tiene que encontrar otra forma de expresar sus resultados,
lo que produce mayor confusión aún en el Tribunal.
3. Cuando empleamos el LR calculamos en el numerador la probabili-
dad de observar una coincidencia entre perfiles dado que el vestigio anali-
zado proceda del sospechoso, y en el denominador la misma cuestión pero
habiendo sucedido que el perfil proceda de una persona diferente al sospe-
choso. La utilización de la frecuencia relativa puede tener sentido cuando
no exista muestra de un sospechoso disponible, es decir, cuando el crimen
investigado siga pendiente de la identificación de su autor o, aunque sea
conocido, no haya sido detenido y no se disponga de muestra biométrica
indubitada. En otro caso, se deberá utilizar el LR.
4. Hay casos —por ejemplo: personas desaparecidas, paternidad y, en
particular, casos donde existan perfiles de ADN mezclados— donde no es
posible utilizar la frecuencia relativa para expresar el valor de la evidencia
de ADN. La razón estriba simplemente en que el numerador del LR es me-
nor a la unidad y, por tanto, el valor de la evidencia de ADN no puede estar
dado por 1 / γ.
Obsérvese que el punto 3 presenta la noción de probabilidad de coin-
cidencia aleatoria, la cual representa una forma aceptable de expresar el
valor de la evidencia de ADN; puede utilizarse como alternativa al LR en
algunos casos sencillos de coincidencia entre perfiles. Por ejemplo, el ex-
perto puede sostener lo siguiente: “He considerado dos proposiciones con
respecto a los perfiles de ADN: Hp, el semen procede del sospechoso; y Hd,
el semen procede de una persona desconocida no emparentada con el sos-
pechoso. Los resultados de los análisis muestran lo que esperaría obtener
en el supuesto de que fuera verdadera la primera proposición. He valorado
la probabilidad de obtener una coincidencia entre perfiles —si la segunda
proposición fuera la correcta— en 1 entre 1.000.000”.
También sería posible expresar la probabilidad de coincidencia entre
características sin establecer explícitamente las proposiciones: “Los perfi-
les genéticos de las muestras de semen son idénticos al del sospechoso. La
probabilidad de que una persona no emparentada con el sospechoso y de
origen europeo presente, por azar, el mismo perfil genético, se estima en 1
entre 1.000.000.000”, o “El perfil de ADN obtenido de la muestra coincide
con el del sospechoso. La probabilidad de que una persona elegida al azar
en la población y que no estuviera emparentada con el sospechoso com-
138   La evaluación de la evidencia

partiera este perfil sería menor de 1 entre 10.000.000”. Para más detalles
acerca del cálculo de la probabilidad de coincidencia aleatoria se puede
consultar el Capítulo 13.

La expresión “pudiera”:
Algunos expertos han preferido estimar la frecuencia relativa utilizan-
do frases como: “La mancha de semen pudiera proceder del Sr. X, el sos-
pechoso”, “La muestra A pudiera proceder del donante de la muestra B”,
“La mancha de semen pudiera provenir del sospechoso”, “Basándonos en
los análisis de ADN, puede concluirse que este semen pudiera proceder
del sospechoso”, “De acuerdo con los resultados de los análisis de ADN, la
mancha de sangre pudiera proceder de la víctima”, “De acuerdo a los resul-
tados de los análisis de ADN, la mancha de sangre pudiera tener su origen
en la persona en cuestión”.
Puede parecer útil al investigador decir lo que es una obviedad: si el
ADN de la mancha aparecida en la escena del crimen coincide con el del
sospechoso, el sospechoso pudiera ser el origen de la mancha. Si esto se
complementa con la frecuencia relativa del perfil, no parece claro cuál es la
fuerza de la evidencia. Una interesante discusión sobre este tema se puede
encontrar en Evett y Weir (1998), y en Evett y otros (2000a).
Una frase como “pudiera proceder del sospechoso” puede interpretarse
como la transposición del condicional, puesto que proporciona una valo-
ración acerca de la probabilidad de la proposición. Si este tipo de formu-
lación se considerase necesario, sería preferible utilizar formas de decir
como: “El perfil de ADN procedente de la mancha de sangre coincide con
el del sospechoso. Por consiguiente, el sospechoso, o cualquier otro con el
mismo perfil, pudieran ser los donantes de la mancha”. Esto pudiera in-
terpretarse como que serían necesarias posteriores explicaciones sobre la
coincidencia de los perfiles, evitándose la interpretación de que se valora la
probabilidad de una proposición.

La expresión “no puede excluirse”:


Entre otras posibles conclusiones, suele emplearse a menudo la siguien-
te: “el imputado no puede ser excluido como fuente de la mancha”. Esta
frase es semejante a la anterior forma de expresarse: “podría” debido a su
vaguedad. Pero está también relacionada con una forma de concluir los
informes —típica en casos de paternidad— cuando se calcula la “probabi-
lidad de exclusión”. Por ejemplo, si la característica es compartida por el
0.1% de la población, la probabilidad de exclusión es 0.999. Como expli-
caron claramente Robertson y Vignaux (1992), esa probabilidad le dice al
Errores de interpretación   139

experto qué proporción de la población excluiría el test, sin tener en consi-


deración quién es el padre (fuente) del niño (vestigio). Por tanto, esta esti-
mación es una medida de la eficacia del test porque contesta a la pregunta:
¿qué probabilidad existe de que el test excluya al Sr. X si no fuese el padre
(la fuente del vestigio)? Sin embargo, el Tribunal está interesado en otra
cuestión: “¿cómo de más probable sería la evidencia si el Sr. X fuera el pa-
dre (fuente) del niño (vestigio) que si lo fuera otra persona aleatoriamente
seleccionada? La probabilidad de exclusión no es relevante para contestar
a esta pregunta.
Hay que tener cuidado a la hora de elegir palabras que expresen con-
clusiones al objeto de evitar ambigüedades. Frases como “la probabilidad
de encontrar otra persona que tenga el mismo perfil genético es de 1 entre
1 millón en la población” pudieran ser interpretadas como si se dijera que
si se obtuvieran los perfiles genéticos de todos los miembros de la pobla-
ción, la probabilidad de encontrar otra persona con el mismo perfil es de 1
entre 1 millón. Claramente, si la población fuera de 50 millones, ¡entonces
habría una muy alta probabilidad de encontrar a alguien con el mismo
perfil! Un ejemplo similar en cuanto a la ambigüedad de las palabras es el
siguiente: “este genotipo puede encontrarse con una proporción de 4.07 ×
10–10 en la población de referencia”.

3.3.10 Evidencia empírica de errores en interpretación

La evidencia científica se presenta a menudo en forma numérica. Tal


tipo de evaluación utiliza, inevitablemente, probabilidades como medidas
de incertidumbre. A los jueces les preocupa que la evidencia científica pue-
da abrumar o inducir a error a los miembros del Jurado, especialmente
cuando su presentación por un experto pudiera otorgar a la evidencia un
valor probatorio mayor ante una persona no experta que en la situación
contraria. También esto preocupa a la comunidad jurídica cuando se ha
de tomar una decisión ante testimonios contradictorios de expertos. En
tales circunstancias, la probabilidad de decidir amparándose en argumen-
tos erróneos es considerable puesto que no es difícil equivocarse al inter-
pretar la incertidumbre de la evidencia científica (Fienberg y otros, 1996).
Las conclusiones estadísticas de la evidencia científica han provocado las
mayores confusiones y preocupaciones en los Tribunales a la hora de apli-
car la prueba de ADN (Kaye, 1993b; Consejo de Investigación Nacional,
1996). La confusión no sorprende dado que los Tribunales apenas tienen
expertos en genética y estadística. También los expertos han proporcio-
140   La evaluación de la evidencia

nado fuentes de errores de interpretación en sus informes y conclusiones


(Koehler, 1993a). Más aún, se ha sostenido que la presentación en un juicio
del valor de la evidencia en forma de LR pudiera ser muy perjudicial en el
proceso de toma de decisión judicial (Koehler, 1996). Koehler observó que
“incluso cuando se aportan valores de LR de forma correcta, hay pocas
razones para creer que los miembros de un Jurado los entiendan y los uti-
licen adecuadamente. Aunque tengan mérito científico, los LR —que son
relaciones entre probabilidades condicionales— no son fáciles de enten-
der”. Investigaciones llevadas a cabo por psicólogos han subrayado la faci-
lidad de caer en falacias cuando se manejan probabilidades e incertidum-
bres, especialmente cuando se trabaja con probabilidades condicionales
(si se quiere ver un resumen de estos estudios, se pueden consultar Kaye y
Koehler, 1991; Fienberg y Finkelstein, 1996).
Se han realizado diversas investigaciones empíricas en la última déca-
da. A tenor de los resultados se han propuesto una serie de métodos para la
mejora de las conclusiones de los informes y su presentación en juicio oral
al objeto de contestar a las siguientes cuestiones:
• ¿se interpreta la evidencia correctamente?;
• ¿puede influir en el veredicto la forma en que la evidencia se pre-
senta en el juicio?;
• ¿puede influir —en cuanto a modificar la probabilidad de culpabili-
dad— la forma en que se presenta la evidencia en el juicio oral?;
• ¿puede ser malinterpretada la explicación que se aporta acerca de
la evidencia?
Se han realizado una serie de estudios sobre casos en los que se han
presentado evidencias científicas ante los Tribunales y, utilizando la infor-
mación aportada por esos estudios, se han desarrollado ejercicios dirigi-
dos a estudiantes de ciencias forenses y de derecho, a abogados y expertos
forenses, así como a jurados simulados al objeto de evaluar el grado de
comprensión sobre la incertidumbre. Utilizando las respuestas de los es-
tudiantes y de los profesionales se investigaron los problemas inherentes a
la presentación de la evidencia científica en un juicio. Esas investigaciones
estudiaron el problema de la interpretación de los números relacionados
con la evidencia científica, números que fueron utilizados por los expertos
para valorar las evidencias. Por ejemplo, el impacto de presentar de formas
distintas los resultados, el valor de la similitud entre el ADN recuperado en
el vestigio y el ADN del material de control sobre el veredicto (culpable o
inocente) y sobre la modificación de la probabilidad de la culpabilidad.
Los resultados mostraron una subestimación de los valores respecto al
cálculo de las probabilidades a posteriori siguiendo el teorema de Bayes.
Errores de interpretación   141

El hecho de que las valoraciones de las probabilidades a posteriori estuvie-


ran sustancialmente por debajo de las que se obtienen con Bayes confir-
maron resultados de estudios anteriores (se pueden ver detalles en Taroni y
Aitken, 1998b, Koehler, 1996). Si se quiere tener un resumen de esos estu-
dios se puede consultar Fienberg y Finkelstein (1996).
Los resultados arrojaron luz sobre el hecho de que los expertos no uti-
lizaban los diferentes métodos de presentación de la evidencia (porcenta-
je de exclusión, frecuencia relativa, LR y apuestas a posteriori) de forma
pareja pero que había una asociación entre la valoración de las probabi-
lidades a posteriori y los veredictos. Más aún, los expertos parecían inca-
paces de distinguir las magnitudes de las diferencias valorativas entre los
escenarios, y el efecto de la tasa de error, en el supuesto que se aportasen
(Koehler y otros, 1995; Koehler, 2001a). Incluso en los casos en los que los
resultados tuvieran que ser tratados con precaución, por el limitado tama-
ño de la muestra y las áreas geográficas estudiadas, mostraban claramente
problemas al tratar con medidas de incertidumbre (Koehler, 2001b). Se
han descrito estudios en los que estadísticos de coincidencia en perfiles de
ADN con respecto a un sospechoso que se presentan como probabilidades
(esto es: “la probabilidad de que el sospechoso diera cotejo positivo con las
gotas de sangre, si no fuera la fuente, sería del 0.1%) son más persuasivas
que otras fórmulas matemáticas equivalentes que se relacionan con grupos
de referencia más amplios y que se expresan en términos de frecuencias
(esto es: “una persona de cada mil en Houston daría cotejo positivo con la
gota de sangre”), (Koehler, 2001b).
Existen otros estudios empíricos encaminados a mostrar errores de in-
terpretación debido a dejarse llevar por la intuición y a que se relacionan
con la presentación de la evidencia científica en forma numérica. Los datos
de ADN disponibles (los recogidos en estudios poblacionales) permiten al
científico ofrecer al Tribunal un número que cuantifica la fuerza del enlace
entre un sospechoso y un vestigio recuperado de la víctima o en la escena
del crimen. Este número generalmente representa la frecuencia relativa de
las características identificativas coincidentes en alguna población de refe-
rencia (o la probabilidad de coincidencia aleatoria, Sección 13.3). ¿Resulta
perjudicial utilizar estos números? Cuando las conclusiones se basan úni-
camente en las frecuencias relativas de las características identificativas
coincidentes se puede caer en la comisión de las consecuencias descritas
en las Secciones 3.3.1 a 3.3.6 (falacias), donde las formulaciones de las
conclusiones de los expertos son difíciles de comprender. Se han llevado a
cabo investigaciones que pretenden medir el grado de tergiversación que
se produce a la hora de razonar sobre el valor de la evidencia estadística.
142   La evaluación de la evidencia

Generalmente, se utilizaron frases empleadas por expertos en el desarrollo


de los juicios para que fueran interpretadas por los participantes en los
estudios. Los expertos aportaron diferentes explicaciones sobre el signifi-
cado de las valoraciones estadísticas. A los participantes se les pidió que se-
ñalaran qué afirmaciones eran correctas y qué afirmaciones eran erróneas.
En los supuestos en los que los participantes pensaban que estaban ante
una frase errónea, se les pidió que explicaran el porqué. Se contabilizaron
como respuestas correctas aquéllas en las que se acertó al afirmar que la
frase era correcta como al afirmar lo contrario (todos los detalles sobre
los casos y análisis pueden consultarse en Taroni y Aitken, 1998b, 1999a).
Lo que aquí se discute tiene que ver con los fundamentos del raciocinio.
Por ejemplo, tanto en Ross contra el Estado de Indiana (Sección 3.3.2), R.
contra Gordon, M. y R. contra Deen (consultar también la Sección 3.3), el
problema consistió en que el experto dio una opinión sobre una cuestión
planteada (si el sospechoso es la fuente de alguna evidencia, o si el sospe-
choso es el violador). Estos son ejemplos de transposición del condicional.
Los participantes en el estudio se equivocaron al razonar sobre las conclu-
siones que leyeron y, desafortunadamente, las aceptaron como correctas.
En R. contra Montella, el experto presentó el valor de la evidencia en for-
ma bayesiana, utilizando el LR. Este método lógico de presentación y eva-
luación de la evidencia, desafortunadamente, creó una notable confusión
en la comprensión de sus aseveraciones. Hubo comentarios procedentes
de todo tipo de participantes en el estudio (estudiantes y profesionales en
prácticas) que estimaron que la explicación era errónea, confusa y muy di-
fícil de comprender. Los resultados, pues, sostuvieron las tesis de Koehler
(2001,b).
La finalidad de este libro es limitar o, incluso, eliminar la incidencia de
esos problemas. En los Estados Unidos contra Jakobetz, el experto cayó en
el error de probabilidad de la fuente (Sección 3.3.6). Este error iguala la fre-
cuencia de la cualidad examinada con la de que alguna persona distinta al
imputado pudiera ser fuente del vestigio. El caso Ross contra el Estado pre-
senta otro problema estadístico. Esta falacia es un ejemplo del error de con-
versión numérica (Sección 3.3.6), porque se pensó que el valor significativo
de la frecuencia relativa podía medirse igualando la inversa de la frecuen-
cia relativa con el número de personas que tendrían que ser examinadas
antes de encontrar otro cotejo positivo aleatorio. Generalmente, los parti-
cipantes creyeron que los expertos tenían razón en sus conclusiones. En el
último ejemplo expuesto, los participantes procedentes de la Facultad de
Derecho de Escocia identificaron correctamente el valor estadístico de la
evidencia afirmando que “el hecho de que la apuesta sea de 1 a 209.100.000
Errores de interpretación   143

no significa que tengamos que examinar a 209.100.000 de personas antes


de que encontremos otra coincidencia aleatoria —la siguiente muestra po-
dría ser la siguiente coincidencia aleatoria—”.
Desde el punto de vista de la investigación, los estudios con simulacio-
nes de jurados y/o estudiantes se han centrado en dos clases de errores
como consecuencia de dejarse llevar de la intuición: la falacia del Fiscal
y la del defensor (Secciones 3.3.1 y 3.3.4; Thompson y Schumann, 1987;
Thompson, 1989; Carracedo y otros, 1996). Esos estudios se basaron en
juicios simulados en lugar de juicios reales. Otros investigadores presenta-
ron casos reales en los que se había explicado la evidencia estadística a gru-
pos de especialistas como estudiantes (futuros jueces, abogados o expertos
forenses) o profesionales (expertos forenses y abogados). Los resultados
obtenidos con ambos grupos mostraron que la gran mayoría de los partici-
pantes fallaron en la detección del error en los argumentos empleados por
los expertos en el juicio. La tendencia a llegar a conclusiones erróneas par-
tiendo de descripciones falaces sobre el significado de la evidencia es pro-
blemática. Se demuestra que existe una insuficiente comprensión sobre la
probabilidad condicional que es necesaria para valorar correctamente el
valor de la evidencia y apreciar correctamente el significado de ese valor.
Consideremos ahora evidencias de fibras y cristales. Como ha demostra-
do la investigación empírica, existe un riesgo de interpretación errónea de
los resultados si se utilizan frecuencias relativas. De hecho, la frecuencia
relativa es un parámetro entre muchos posibles para alcanzar una visión
completa sobre el valor de la evidencia (consultar Capítulo 8). El uso de
los LR constituye, para el experto, un interesante tema de reflexión sobre
la prueba científica, porque debe elegir las cuestiones relevantes conside-
rando la evidencia física desde dos puntos de vista alternativos. Los exáme-
nes sobre casos presentan un intento de estudiar los entornos de evalua-
ción en distintos escenarios: fibras, sangre y fragmentos de cristal (Taroni
y Aitken, 1998b). Estos escenarios fueron deliberadamente elegidos para
ilustrar las valoraciones y la evolución de los diferentes parámetros en si-
tuaciones distintas. Se estudiaron las reacciones en un caso donde más de
un grupo de fibras recuperadas en la escena del crimen y clasificadas como
procedentes del exterior se asignaron como provenientes de los agresores.
Sólo un grupo de las fibras resultó compatible con una prenda llevada por
el sospechoso. La literatura científica enseña que al evaluar una coinciden-
cia entre las fibras recuperadas y las procedentes de un sospechoso el cien-
tífico debe tener en cuenta qué elementos son coincidentes y qué otros no
lo son, como ya se sugirió en las evidencias de manchas de sangre (Evett,
1987b). Por consiguiente, no sólo es importante centrarse en las fibras que
144   La evaluación de la evidencia

son coincidentes con las del sospechoso, sino que también hay que tener
en cuenta otros grupos de fibras compatibles con los hechos, las cuales
pudieran haber sido potencialmente dejadas por el agresor (¡que no es el
sospechoso!). Se presentaron ante los participantes en un estudio dos es-
cenarios en los que era distinta la valoración sobre la evidencia de fibras
(Evett, 1983; y Buckleton y Evett, 1989). Resultó que los participantes no
distinguieron sus valoraciones. No tuvieron en cuenta el número de grupos
de fibras que eran compatibles con el asunto en cuestión. Ello provocó una
sobreestimación del valor de la evidencia en el supuesto en el que había
más de un grupo de fibras (se pueden encontrar detalles sobre los LR en las
Secciones 3.4 y 3.5).
Cuando dos individuos (o un individuo y un objeto) toman contacto en
una acción criminal, se produce una transferencia recíproca de material
(por ejemplo: fibras o cristales). Donde esto ocurre, los dos grupos de ma-
teriales recuperados deben considerarse como dependientes. Si ha tenido
lugar una transferencia en una dirección, y el experto ha recuperado vesti-
gios relacionados con ella, esperaría también encontrarlos en la dirección
opuesta. La presencia de vestigios procedentes de una transferencia apor-
ta información sobre la probabilidad de encontrar otros en la dirección
opuesta (en el Capítulo 8 se presentan detalles al respecto). Lo que se inves-
tigó fue la capacidad de los participantes para distinguir el escenario en el
que los dos conjuntos de vestigios recuperados eran dependientes, del es-
cenario en el que esos conjuntos no lo eran, prestándose especial atención
a la reacción ante una nueva información técnica acerca de la presencia o
ausencia de evidencias cruzadas como consecuencia del contacto habido
en el momento del crimen. También se ha de considerar la ausencia de
intercambio de material alguno a pesar del contacto a la hora de valorar
la evidencia coincidente recuperada. Los resultados obtenidos en el estu-
dio apoyaron otros anteriores y enfatizaron la incapacidad de las personas
para tener en cuenta información técnica en la estimación del valor real del
enlace detectado entre dos personas (u objetos) (Taroni y Aitken, 1998b).
También se investigó la valoración de los participantes sobre la fuerza
probatoria de un conjunto de evidencias. En un primer escenario se pre-
guntó a los participantes acerca de su juicio sobre un numeroso conjunto
de evidencias procedentes del mismo caso y consistentes en fragmentos de
cristal que fueron presentadas por los expertos para el Fiscal y la defensa. En
un segundo escenario, que interesaba comparar con el primero, los partici-
pantes hicieron valoraciones sobre dos subconjuntos de la evidencia, combi-
nándose después para aportar un solo valor. Esto requirió más estimaciones,
pues cada una fue realizada sobre una más pequeña y específica parte de la
Errores de interpretación   145

evidencia. Se compararon las probabilidades a posteriori realizadas por los


participantes en cada uno de los dos escenarios. La probabilidad a posteriori
de culpabilidad de quienes la estimaron partiendo del cuerpo completo de la
evidencia fue significativamente más pequeña que la obtenida por aquellos
que modificaron su probabilidad dos veces. Estos resultados indican que las
argumentaciones tienden a proporcionar probabilidades a posteriori meno-
res si el cuerpo de la evidencia no se divide. Obsérvese también que, en am-
bos escenarios, se obtienen valoraciones sobre probabilidades de culpabili-
dad menores que si se hubieran seguido las leyes de la probabilidad.
En general, los anteriores resultados muestran que los métodos de va-
loración utilizados por los participantes fueron insuficientes para lograr
una valoración correcta de la evidencia científica. Todavía queda el pe-
ligro de subestimación o sobreestimación del valor real de la evidencia.
Los expertos forenses tiene la obligación de proporcionar a los Tribunales
una valoración segura que ilustre sobre el verdadero alcance de los resul-
tados. Desafortunadamente, al juzgar sobre los resultados de los estudios,
las valoraciones de los expertos fallan al considerar todos los parámetros
involucrados en los escenarios propuestos. Además, teniendo en cuenta los
comentarios realizados sobre las probabilidades a posteriori se demuestra
que se han basado en “decisiones subjetivas” en lugar de tener en cuenta
las reglas de la probabilidad. Como ya se indicó anteriormente, los estu-
dios se diseñaron para responder a las siguientes cuatro cuestiones:
• ¿se interpreta la evidencia correctamente?;
• ¿puede influir en el veredicto la forma en que la evidencia se pre-
senta en el juicio?;
• ¿puede influir —en cuanto a modificar la probabilidad de culpabili-
dad— la forma en que se presenta la evidencia en el juicio oral?;
• ¿puede ser malinterpretada la explicación que se aporta acerca de
la evidencia?
Como ha comentado recientemente el Consejo de Investigación Nacional
de los Estados Unidos: “existe carencia de investigación en cuanto a cómo
los miembros de un Jurado reaccionan ante las diferentes formas de pre-
sentar resultados estadísticos” y “aún no existe investigación sobre las re-
acciones ante las pruebas de ADN realizadas en los juicios” (Consejo de
Investigación Nacional, 1996).
Las respuestas a las preguntas formuladas fueron un fracaso: la eviden-
cia puede ser malinterpretada, la forma en la que la evidencia se presenta
puede influir en el veredicto, la forma en que se presenta la evidencia en el
juicio oral puede influir en la modificación de la probabilidad de culpabili-
dad, y la explicación sobre la evidencia puede originar incomprensiones.
146   La evaluación de la evidencia

Este libro defiende el punto de vista de que el LR (en un marco baye-


siano) es el que debe utilizarse por los expertos porque tiene en cuenta la
evidencia bajo dos proposiciones alternativas, y permite considerar otros
factores relevantes en el cálculo del valor de la evidencia (como así se pre-
sentará en posteriores Capítulos). Los juristas deben apreciar también este
marco porque clarifica el papel del experto, del Juez y de los miembros del
Jurado; estos últimos toman las decisiones sobre algún asunto, mientras
que el primero compara las probabilidades de la evidencia bajo dos propo-
siciones propuestas en el juicio.
Es importante darse cuenta que en la evaluación de la evidencia, la pro-
babilidad de ésta tiene que ser calculada bajo dos proposiciones de forma
separada. Las siguientes citas ilustran este extremo:
• el concepto de coincidencia aleatoria es indefinido;
• la tarea del investigador de un hecho consiste en estimar la pro-
babilidad relativa de dos hipótesis: si las muestras vinieron de una
fuente común, o no;
• la evidencia consiste en los dos perfiles revelados por las muestras;
• un investigador de un hecho puede preguntarse cuánto de probable
es la evidencia dadas dos hipótesis competitivas, sin necesidad de
preguntarse si la evidencia satisface un estándar de coincidencia
arbitrariamente definido. (Friedman, 1996, p. 1826);
• tiene fuerza teórica, en el supuesto de una evidencia de ADN, el he-
cho de que un Fiscal presente evidencia de que dos muestras no son
coincidentes como consecuencia de la fuerte disparidad en las me-
didas realizadas. Tal conclusión le dice al investigador del hecho que
la evidencia sería muy improbable en el supuesto de que las mues-
tras tuvieron el mismo origen, pero ello no es fácil de combinar con
otras evidencias ya que no le aporta al investigador cómo de pro-
bable sería la evidencia bajo una hipótesis alternativa. (Friedman,
1996, p. 1827).

3.4 El Teorema de Bayes en forma de apuestas

3.4.1 El “Likelihood Ratio”(razón de verosimilitudes) o LR

Si en la ecuación siguiente: Pr(S|R) = [Pr(R|S) × Pr(S)] / Pr(R), cambia-


mos S por S , obtenemos la expresión:

Pr( S |R) = [Pr(R| S ) × Pr( S )] / Pr(R), donde Pr(R) ≠ 0 (3.5)


El
ElTeorema
teorema de bayes en forma de apuestas   147
de Bayes

La primera expresión (3.3) dividida por la segunda (3.5) conduce al


Teorema de Bayes en forma de apuestas:

Pr(S|R) / Pr( S |R) = [Pr(R|S) / Pr(R| S )] × [Pr(S) / Pr( S )] (3.6)

La división a la izquierda de la igualdad es la apuesta en favor de S, dado


que R ha ocurrido. A la derecha hay una multiplicación de dos divisiones,
siendo la segunda de las cuales la apuesta a favor de S, sin información
previa de R. La primera es una relación de probabilidades, pero no expresa
una apuesta. Los sucesos condicionantes S y S son diferentes en el nume-
rador y en el denominador, mientras que el suceso R, de cuya probabilidad
estamos interesados, es el mismo.
En la forma de apuesta del Teorema de Bayes se aprecia que la apuesta
a favor de S cambia cuando se tiene en cuenta R en un factor que es igual
a Pr(R|S) / Pr(R| S ). A esta relación se la denomina razón de verosimilitudes
o factor de Bayes y es importante en la evaluación de la evidencia. El LR
es una relación entre dos probabilidades: la probabilidad de R cuando ha
ocurrido S y la probabilidad de R cuando ha ocurrido el suceso comple-
mentario de S.
De este modo, al considerar el efecto de R sobre la apuesta a favor de S,
es decir, el paso de Pr(S) / Pr( S ) a Pr(S|R) / Pr( S |R), al primero se le multi-
plica por el LR.
La apuesta a favor de S a la izquierda de la igualdad se dice que es una
apuesta a posteriori y la existente a la derecha de la igualdad, apuesta a
priori. Con similar terminología, Pr(S) se conoce como probabilidad a prio-
ri de S, y Pr(S|R) probabilidad a posteriori de S. Obsérvese que para calcular
el cambio sobre las apuestas de S, se necesitan las probabilidades de R. La
diferencia entre Pr(R|S) y Pr(S|R), como se explicó en la Sección 3.3, es vi-
tal. Consideremos dos ejemplos:
1. Pr(R|S) / Pr(R| S ) = 3; el suceso R es tres veces más probable si S
fuera cierto que si fuera falso. La apuesta a priori a favor de S se
multiplica por un factor 3.
2. Pr(R|S) / Pr(R| S ) = 1/3; el suceso R es tres veces más probable si S
fuese falso que si fuese cierto. La apuesta a priori a favor de S se re-
duce por un factor de 3.
Cuando se considera el efecto de R sobre S se necesita considerar tanto
la probabilidad de R cuando S sea cierto como la probabilidad de R cuan-
do S sea falso. Es un error frecuente (la falacia de la transposición del con-
dicional. Sección 3.3.1 de nuevo) considerar que un suceso R, improbable
si S es cierto, proporciona evidencia a favor de S. Para que esto sea así, se
148   La evaluación de la evidencia

requiere, adicionalmente, que R no sea tan improbable cuando S sea cier-


to. En ese caso, el LR será mayor a la unidad, y así la apuesta a posteriori
será mayor que la apuesta a priori.
Obsérvese que el LR es una relación entre probabilidades. Esa relación
será siempre mayor de cero (excepto cuando Pr(R|S) sea cero, en cuyo
caso valdrá cero también) pero no tiene, teóricamente, límite superior. Por
tanto, su rango de valores va de 0 a ∞. El LR no puede considerarse es-
trictamente hablando una apuesta porque toda apuesta es la relación de
probabilidades entre dos sucesos complementarios, a veces condicionados
por otros sucesos. El LR es la relación entre probabilidades de un mismo
suceso condicionado por dos sucesos mutuamente excluyentes, si bien no
necesitan ser complementarios.
La ecuación (3.6) siguiente: Pr(S|R) / Pr( S |R) = [Pr(R|S) / Pr(R| S )] ×
[Pr(S) / Pr( S )] puede aplicarse también a proposiciones en lugar de a suce-
sos. Las proposiciones pueden ser complementarias, por ejemplo la presen-
cia (Hp) o no (Hd) del sospechoso en la escena del crimen, pero no necesitan
ser así de forma exclusiva (consúltese el ejemplo 3.6 y también la Sección
8.1.3, donde se comparan más de dos proposiciones). En general, las dos
proposiciones que se comparan han de ser competitivas y nada más. La
apuesta Pr(S) / Pr( S ) en tales circunstancias debe ser explícitamente consi-
derada como una apuesta a favor de S relativa a S . En el caso especial en el
que las proposiciones sean mutuamente excluyentes y exhaustivas, en ese
caso son complementarias. Las apuestas pueden, entonces, considerarse
como apuestas a favor de S, sin más, porque se consideraría implícita la
complementariedad entre las proposiciones

Ejemplo 3.5 Este ejemplo hipotético está tomado de Walsh y Buckleton


(1991). Consideremos tres sucesos:
• Sea XA el fenotipo Kell: A = Kell +, A = Kell –.
• Sea XB el fenotipo Duffy: B = Duffy +, B = Duffy –.
• Sea XC el color: C = rosa, C = azul.
La Tabla 3.7 cuenta frecuencias absolutas en un conjunto de 100 perso-
nas. Esas frecuencias pueden transformarse en frecuencias relativas divi-
diendo por 100. Esas frecuencias relativas se consideran como probabili-
dades para ilustrar con el ejemplo. En la práctica, las frecuencias relativas
a partir de una muestra proporcionan estimaciones de probabilidades; los
efectos de esas consideraciones no se tratan aquí.
El
ElTeorema
teorema de bayes en forma de apuestas   149
de Bayes

Tabla 3.7 Frecuencia de tipos Kell y Duffy por color en un área hipoté-


tica. (Reproducido con permiso de la Sociedad de la Ciencia
Forense).

Duffy Total
Kell
+ –
Rosa
+ 32 8 40
– 8 2 10
Total 40 10 50

Azul
+ 2 8 10
– 8 32 40
Total 10 40 50

Combinado
+ 34 16 50
– 16 34 50
Total 50 50 100

De la Tabla 3.7 se derivan las siguientes probabilidades, entre otras:


• Pr(A) = Pr(Kell +) = 50 / 100 = 0.5.
• Pr( B ) = Pr(Duffy –) = 50 / 100 = 0.5.
• Pr(A) × Pr( B ) = 0.5 × 0.5 = 0.25.
Sin embargo, Pr(A B ) = Pr(Kell +, Duffy –) = 16 / 100 = 0.16.
De este modo, Pr(A B ) ≠ Pr(A) × Pr( B ).
Los fenotipos Kell y Duffy no son independientes.
Al igual que la probabilidad conjunta, también podemos calcular las
probabilidades condicionales. Hay 50 personas que son Kell + (A). De ellas,
16 son Duffy – ( B ). De este modo, Pr( B |A) × Pr(A) = 0.32 × 0.5 = 0.16 =
Pr(A B ), lo cual corrobora que se cumple la tercera ley de probabilidad. De
forma similar, Pr(A| B ) = 16 / 50 = 0.32. La ecuación (3.5) Pr(S|R) = [Pr(R|S)
× Pr(S)] / Pr(R) se puede verificar haciendo Pr( B ) = 0.5, y de ese modo:
Pr(A| B ) = [Pr( B |A) × Pr(A)] / Pr( B ) = (0.32 × 0.5) / 0.5 = 0.32.
Consideremos ahora sólo a la gente “rosa” del suceso C:
• Pr(A | C) = Pr(Kell + | rosa) = 40 / 50 = 0.8.
• Pr(B | CA) = Pr(Duffy + | rosa y Kell +) = 32 / 40 = 0.8.
150   La evaluación de la evidencia

De este modo:
Pr(AB | C) = Pr(B | AC) × Pr(A | C) = 0.8 × 0.8 = 0.64 = 32 / 50, según la
tercera ley de probabilidad para sucesos dependientes (1.7).
La versión en apuestas del teorema de Bayes:

Pr(C | A) Pr(A | C) Pr(C)


= × ,
Pr(C | A) Pr(A | C) Pr(C)
que resulta particularmente relevante para evaluar la evidencia, puede tam-
bién verificarse. De la Tabla 3.7, cuando C = rosa, C = azul, P(C) = P( C )=0.5.
Para alguien de fenotipo Kell + (A), Pr(A|C) = 40 / 50 = 0.8; Pr(A| C ) = 10
/ 50 = 0.2. Así:

Pr(C | A) 0.8 0.5


= × =4 (3.7)
Pr(C | A) 0.2 0.5

También: Pr(C | A) = 40 / 50; y Pr( C | A) = 10 / 50. La división entre estas


dos probabilidades es igual a 4, igual a (3.7). El teorema de Bayes en forma
de apuestas ha sido verificado numéricamente.
Considere este ejemplo como un problema de identificación. Antes de
poseer información alguna sobre los tipos Kell, digamos, la persona puede
ser tanto “rosa” como “azul”. La apuesta a favor de un color o del otro es
tablas. Después se sabe que es Kell +. La apuesta ahora cambia, siendo 4:1
a favor de ser “rosa”. La probabilidad de que la persona sea “rosa” es 4 / 5 =
0.8. El efecto o valor de la evidencia ha consistido en multiplicar la apuesta
a priori por el factor 4. El valor de la evidencia es 4.

3.4.2 Logaritmo del LR

Las apuestas y los LR toman valores entre 0 e ∞. Los logaritmos de esos


estadísticos toman valores en el intervalo (– ∞, + ∞).
El Teorema de Bayes en forma de apuestas puede expresarse también
logarítmicamente en lugar de la típica relación multiplicativa, convirtién-
dose en una suma:

log {Pr(S|R) / Pr( S |R)} = log {Pr(R|S) / Pr(R| S )} + log {Pr(S) / Pr( S )}.

La idea de evaluar la evidencia sumándola al logaritmo de la apuesta a


priori está más en consonancia con la idea intuitiva del peso de la evidencia
en la balanza de la justicia. Al logaritmo del LR se le ha llamado peso de la
El
ElTeorema
teorema de bayes en forma de apuestas   151
de Bayes

evidencia (Good, 1950; ver también Peirce, 1878). Un LR > 1 implica un peso
positivo —inclina la balanza de la justicia a favor de S—; un LR < 1 implica un
peso negativo —conlleva una inclinación de la balanza en contra de S—. Un
LR = 1 deja la apuesta a favor de S igual que estaba y la balanza no cambia.
La evidencia resulta relevante, desde un punto de vista lógico, solamen-
te cuando la probabilidad de encontrarla dado que es verdad alguna pro-
posición relacionada con el caso difiere de la probabilidad de encontrar
esa misma evidencia dado que es falsa la mencionada proposición; en defi-
nitiva, cuando el logaritmo del LR no sea cero (Kaye, 1986).
El LR logarítmico (a veces denominado relación o peso de relevancia)
proporciona una medida equivalente de relevancia. Este método es venta-
joso, porque calcula la relevancia de la evidencia ofrecida por las partes:
Fiscal y defensor (Lempert, 1977).
El LR logarítmico tiene también cualidades de simetría y aditividad que
faltan en otras medidas (Edwards, 1986).
Lyon y Koehler (1996) creen que la apelación a la simplicidad y a la
intuición de la relación de relevancia la hace buena candidata para el uso
heurístico por los jueces.
La simetría matemática entre el peso de la evidencia para la proposición
del Fiscal y el peso de la evidencia para la proposición de la defensa puede
mantenerse invirtiendo el peso de la evidencia cuando se considere la pro-
posición de la defensa.
Aitken y Taroni (1998) han desarrollado una escala verbal para LR loga-
rítmicos.

Ejemplo 3.6: Consideremos las dos proposiciones siguientes:


S: la moneda tiene dos caras; si S es cierto, la probabilidad de que salga
cara es 1 y que salga cruz 0.
S : la moneda es equilibrada y tiene cara y cruz; si S es cierto, la proba-
bilidad de que salga cara o cruz es la misma: 1 / 2.
Observemos —esto es importante— que las dos proposiciones no son
complementarias.
La moneda se tira diez veces y en las diez sale cara. Al suceso de salir cara
se le llama R. Cada tirada se asume que es independiente de la anterior. Por
tanto, Pr(R | S) = 1; Pr(R | S ) = (1/2)10. El LR será: Pr(R | S) / Pr(R | S ) = 1 /
(1/2)10 = 210 = 1024.
Así pues, la evidencia es 1024 veces más probable que se produzca como
consecuencia de que la moneda tenga doble cara que si tuviera una cara y
una cruz. El peso de la evidencia es 10 log(2). Con cada tirada se contribuye
con un peso de log(2) a la hipótesis S de que la moneda tiene doble cara.
152   La evaluación de la evidencia

Supongamos que el resultado de la tirada fuera una cruz, suceso que


llamamos T. En ese caso, Pr(T | S) = 0; Pr(T | S ) = 1/2. El LR será: Pr(T | S)
/ Pr(T | S ) = 0 / (1/2) = 0 y la apuesta a posteriori a favor de S relativa a S
será igual a 0. Esto es lo que se esperaba. Una moneda con doble cara no
puede producir un resultado igual a una cruz. Si una cruz es la salida de
una moneda, forzosamente no puede ser de doble cara.
Good (1991) ofrece una breve historia sobre el uso del peso de la evidencia.
Cuando la base del logaritmo empleado es 10, Turing sugirió que la uni-
dad de medida se denominase ban. La décima parte de esa unidad se lla-
maría deciban (db).

3.5 El valor de la evidencia

3.5.1 Evaluación de la evidencia forense

Consideremos ahora el teorema de Bayes en forma de apuestas dentro


del contexto forense de valorar la fuerza de una evidencia. Comenzamos te-
niendo en cuenta la culpabilidad o inocencia del sospechoso. Este puede ser
el caso del Ejemplo 1.1 si todas las explicaciones inocentes sobre la mancha
de sangre se descartan. Más adelante, centraremos la atención en otras pro-
posiciones como, por ejemplo, si el sospechoso estuvo o no en la escena del
crimen. Empleamos la notación Hp en lugar de S para designar la proposi-
ción de que el sospechoso (o el imputado si el caso está ya en fase de juicio)
es verdaderamente culpable y Hd en lugar de S para lo contrario. Llamamos
a la evidencia Ev, en lugar de R. Ésta puede escribirse con la notación (M, E)
= (Mc, Ms, Ec, Es), el tipo de evidencia y las observaciones de ella tal y como
se explicó en la Sección 1.6.1. El teorema de Bayes en forma de apuestas
permite que la apuesta a priori (es decir, previa a la presentación de Ev) a
favor de la culpabilidad sea transformada en apuesta a posteriori dada Ev, la
evidencia en consideración. Esto se realiza multiplicando la apuesta a priori
por el LR, el cual, en este contexto, es la relación de probabilidades de la evi-
dencia asumiendo tanto la culpabilidad como la inocencia del sospechoso.
Con esta notación, el teorema de Bayes en forma de apuestas queda así:

Pr(H p | Ev) Pr(Ev | H p ) Pr(H p )


= ×
Pr(H d | Ev) Pr(Ev | H d ) Pr(H d )
Por razones de simplificación en la notación se ha omitido el suceso
relacionado con la información I que pueda conocerse fruto de la investi-
El valor de la evidencia   153

gación del caso. Si incluimos esa información, el teorema, ya completo, se


enuncia de esta forma:

Pr(H p | Ev, I) Pr(Ev | H p , I) Pr(H p | I)


= × .
Pr(H d | Ev, I) Pr(Ev | H d , I) Pr(H d | I)

Obsérvese que para evaluar la evidencia Ev hay dos probabilidades ne-


cesarias: la probabilidad de la evidencia si el sospechoso es culpable y la
probabilidad de la evidencia si el sospechoso es inocente. Por ejemplo, no
es suficiente considerar sólo la probabilidad de la evidencia si el sospechoso
es inocente y declarar que un valor pequeño de esta probabilidad indica que
el sospechoso es muy probablemente culpable. También hay que tener en
cuenta la probabilidad de la evidencia si el sospechoso es culpable. Tampoco
vale considerar únicamente la probabilidad de la evidencia si el sospecho-
so es culpable y declarar que un valor alto de esta probabilidad indica que
el sospechoso es muy probablemente culpable. También hay que tener en
cuenta la probabilidad de la evidencia si el sospechoso es inocente.
Un ejemplo de esto es el caso de una marca de mordedura en el asesi-
nato de Biggar en 1967-68 (Harvey y otros, 1968), un ejemplo temprano de
odontología forense. En dicho asesinato se encontró una marca de morde-
dura en el pecho de la víctima, una chica joven, la cual tenía ciertas marcas
características de la conformación de los dientes de la persona que la había
mordido. Se encontró un chico de 17 años con la misma conformación y se
le tuvo como sospechoso. Tal evidencia nos ayudaría a calcular Pr(Ev | Hp).
Sin embargo, no existía información disponible sobre la incidencia de esa
conformación en la población. Se hizo un trabajo experimental con 342
jóvenes de la misma edad que el sospechoso. Este estudio posibilitó reali-
zar una estimación —aunque intuitiva— de Pr(Ev | Hd), y demostró que la
conformación de los dientes del caso no era en absoluto común.
Consideremos el LR: Pr(Ev | Hp) / Pr(Ev | Hd), donde se ha omitido toda
explícita mención de I. Este es igual a:

Pr(E | H p , M ) Pr(M | H p )
× .
Pr(E | H d , M ) Pr(M | H d )

Recordemos la notación: M = (Mc, Ms) es el conjunto de la evidencia mate-


rial que un experto puede someter a análisis en un caso forense; Mc significa
evidencia material hallada en la escena del crimen; Ms evidencia material ha-
llada en el sospechoso; E = (Ec, Es) es el conjunto de las cualidades o medidas
154   La evaluación de la evidencia

obtenidas al analizar las evidencias materiales por un experto; Ec representa


las cualidades o medidas que pueden analizarse en Mc; Es representa las cua-
lidades o medidas que pueden analizarse en Ms. Cuando consideramos toda
la evidencia en su conjunto, nos referimos a M y a E a la vez: Ev = (M, E).
El segundo multiplicando en la anterior expresión se refiere al tipo y
cantidad de evidencia material encontrado en la escena del crimen y en el
sospechoso. Podemos escribirlo de la siguiente forma:

Pr(M s | M c , H p ) Pr(M c | H p )
× .
Pr(M s | M c , H d ) Pr(M c | H d )

El valor del segundo multiplicando en esta expresión vale 1 porque el


tipo y cantidad del material hallado en la escena del crimen son indepen-
dientes de si el sospechoso es el criminal o lo es otra persona. El valor del
primer multiplicando, que concierne a la evidencia material encontrada en
el sospechoso dada la evidencia material encontrada en la escena del cri-
men y si el sospechoso es o no culpable, se trata de un asunto que requiere
un juicio subjetivo y no vamos a analizarlo por ahora.
Vamos a concentrar, sin embargo, nuestra atención en el primer multi-
plicando de la ecuación anterior, es decir:

Pr(E | H p , M )
Pr(E | H d , M )

Como M está en el numerador y en el denominador como suceso dado,


podríamos subsumirlo dentro del suceso I y omitirlo, para clarificar la no-
tación. Entonces:
Pr(M | H p ) Pr(H p )
× ,
Pr(M | H d ) Pr(H d )
que es igual a:
Pr( H p | M )
Pr( H d | M )
será escrito como:

Pr( H p )
Pr( H d )
El valor de la evidencia   155

De este modo:
Pr(H p | Ev) Pr(H p | E, M )
=
Pr(H d | Ev) Pr(H d | E, M )
será escrito como:

Pr(H p | E)
,
Pr(H d | E)
y

Pr(Ev | H p ) Pr(H p )
×
Pr(Ev | H d ) Pr(H d )

será escrito como:

Pr(E | H p ) Pr(H p )
× .
Pr(E | H d ) Pr(H d )
El resultado completo es, entonces:

Pr(H p | E) Pr(E | H p ) Pr(H p )


= × , (3.8)
Pr(H d | E) Pr(E | H d ) Pr(H d )
y si la I se incluye:

Pr(H p | E, I) Pr(E | H p , I) Pr(H p | I)


= × . (3.9)
Pr(H d | E, I) Pr(E | H d , I) Pr(H d | I)

El LR es la relación:

Pr(H p | E, I) / Pr(H d | E, I)
. (3.10)
Pr(H p | I) / Pr(H d | I)

de la apuesta a posteriori con respecto a la apuesta a priori. Este es el factor


que convierte la apuesta a priori a favor de la culpabilidad en la apuesta a pos-
teriori a favor de la culpabilidad. La representación en (3.9) también enfatiza
la dependencia de la apuesta a priori de la información de contexto. Aquí pu-
dieran introducirse evidencias previas; ver, por ejemplo, la Sección 8.1.3.
156   La evaluación de la evidencia

En ocasiones no es posible considerar el efecto de la evidencia sobre la


culpabilidad o inocencia del imputado. Sin embargo, es posible considerar-
lo respecto a si hubo contacto entre el sospechoso y la escena del crimen.
Por ejemplo, una mancha de sangre en la escena del crimen pudiera ser
del mismo tipo que la del sospechoso. Considerando esta eventualidad de
forma aislada, no sería suficiente evidencia para considerar al sospechoso
culpable del hecho, sólo que el sospechoso estuvo en la escena del crimen.
Tengamos en cuenta las siguientes hipótesis complementarias:
• Hp: el sospechoso estuvo en la escena del crimen
• Hd: el sospechoso no estuvo en la escena del crimen
Si escribimos el Teorema de Bayes en forma de apuestas en este caso,
resulta que la expresión es idéntica a (3.9) pero Hp y Hd tienen significados
distintos:

Pr(H p | E, I) Pr(E | H p , I) Pr(H p | I)


= × . (3.11)
Pr(H d | E, I) Pr(E | H d , I) Pr(H d | I)

El LR convierte las apuestas a priori en favor de Hp en apuestas a poste-


riori en favor de Hp. Puede ser considerado como el valor de la evidencia.
La evaluación de la evidencia, el tema de este libro, quiere decir que se de-
termine el valor del LR. Ese valor se representa como V.
Definición 3.1. Consideremos dos proposiciones competitivas: Hp y Hd, y
una información sobre el caso I. El valor V de la evidencia E, será:

V = Pr(E | Hp,I) / Pr(E | Hd,I) (3.12)

donde V es el LR que convierte la apuesta a priori Pr(Hp | I) / Pr(Hd | I) a


favor de Hp relativa a Hd en apuesta a posteriori Pr(Hp |E,I) / Pr(Hd |E,I) a
favor de Hp relativa a Hd.
En la tabla 3.8 se ilustra el efecto de la evidencia con un valor V = 1000
sobre la apuesta a favor de Hp relativa a Hd. Esto no es una idea nueva.
Tengamos en cuenta las siguientes citas (Kaye, 1979):

“Este método no pide a los miembros del Jurado que calculen cualquier
número, sólo pide uno que pueda cualificarse como una probabilidad.
Sencillamente les muestra cómo una probabilidad a priori “verdadera”
puede alterarse, siempre que hubiere alguna disponible. De este modo
aporta al Jurado, de forma precisa y segura, una ilustración de la fuerza
probatoria de los datos cuantitativos tal y como puede hacerlo la teoría
matemática de la probabilidad. Tal tabla tiene valor pedagógico para el
El valor de la evidencia   157

Jurado que evalúa toda la evidencia únicamente mediante métodos in-


tuitivos, y que no intenta, por sí mismo, asignar una probabilidad a la
evidencia ‘débil’”.

“Una respuesta más fundamental es que no parece existir razón para que
un Jurado no pueda estimar una probabilidad a priori que pudiera des-
cribirse en términos de frecuencia relativa. Podríamos caracterizar esa
probabilidad como una estimación de la proporción de casos en los que
un imputado confrontado con el mismo patrón de evidencia no cuan-
titativa como la existente en el caso que nos ocupa hubiera de hecho
acuchillado al muerto.
Esta dificultad práctica no disminuye el valor de este punto conceptual.”

Tabla 3.8 Efecto sobre apuestas a priori a favor de Hp relativa a Hd de la


evidencia E con valor V = 1000. Se omite toda referencia a la
información del caso I.

Apuestas a priori Apuestas a posteriori


V
Pr(Hp)/Pr(Hd) Pr(Hp|E)/Pr(Hd|E)
1/10.000 1000 1/10
1/100 1000 10
1 1000 1000
100 1000 100.000

Resumen de proposiciones competitivas


Inicialmente, en la determinación del valor de la evidencia, se tuvieron
en cuenta dos proposiciones competitivas: que el sospechoso fuera culpa-
ble contra su inocencia. En el apartado anterior vimos que también podían
utilizarse otras proposiciones: que el sospechoso estuviera en la escena del
crimen contra lo contrario.
Se ha de tener cuidado con cualquier tratamiento estadístico aplicado a
la evaluación de la evidencia con respecto al fin de ese análisis. Puede ha-
ber equívocos. Por ejemplo, algunos han dicho que “los estadísticos tienen
como objetivo el cálculo de una probabilidad final, compuesta, de que el
sospechoso sea culpable” (Kind, 1994). Esto pudiera ser el objetivo inter-
medio de un estadístico que forme parte de un Jurado. Un estadístico en
esa posición tendría que tomar una decisión respecto a la culpabilidad o
no del imputado. La determinación de la culpabilidad o inocencia de un
imputado es misión del Tribunal o Jurado. El objetivo de un estadístico
que auxilie a un experto forense en la valoración de la evidencia científica
158   La evaluación de la evidencia

es bastante diferente. Consiste en evaluar la evidencia bajo dos proposicio-


nes competitivas. La evidencia que ha de ser evaluada a menudo será evi-
dencia de transferencia. Las proposiciones pueden ser la de culpabilidad
o inocencia. Sin embargo, en muchos casos, no serán así. Para ilustrar el
efecto de la evidencia sobre la apuesta a favor de la proposición Hp relativa
a Hd se puede consultar la Tabla 3.8.
Sin embargo, se ha subrayado que la determinación de la apuesta a prio-
ri es también una parte vital de la ecuación. Eso forma parte del deber de
un Tribunal o Jurado.
A continuación se muestran algunas sugerencias sobre proposiciones
competitivas, entre las que se incluyen las de culpabilidad e inocencia.
1. Hp: el sospechoso es culpable;
Hd: el sospechoso es inocente.
2. Hp: hubo contacto entre el sospechoso y la escena del crimen;
Hd: no hubo contacto entre el sospechoso y la escena del crimen.
3. Hp: la muestra del crimen procede de un caucasiano;
Hd: la muestra del crimen procede de un afrocaribeño (Evett y otros,
1992a).
4. Hp: el que dice ser el padre del chico lo es realmente;
Hd: el que dice ser el padre del chico no lo es realmente (Evett y
otros, 1989a).
5. Hp: las dos muestras del crimen procedieron del sospechoso y de
otro hombre;
Hd: las dos muestras del crimen procedieron de otros dos hombres
(Evett y otros, 1991);
6. Hp: el sospechoso fue la persona que dejó la mancha del crimen;
Hd: el sospechoso no fue la persona que dejó la mancha del crimen
(Evett y otros, 1989b);
7. Hp: la pintura que apareció en el vehículo de la víctima procedía del
vehículo del sospechoso ;
Hd: la pintura que apareció en el vehículo de la víctima procedía de
un vehículo cualquiera (McDermott y otros, 1999);
En general, las dos proposiciones pueden referirse a las que sostengan
el Fiscal y el abogado, respectivamente. La proposición del Fiscal es la que
se considera para calcular la probabilidad en el numerador del LR, y la
proposición relacionada con la defensa es la que se utiliza para calcular la
probabilidad en el denominador.
En un momento determinado del juicio el contexto se restringe a dos
proposiciones competitivas. Consideremos un caso de violación en el que
la víctima informó a la Policía de que había sido violada por un antiguo
El valor de la evidencia   159

novio. Se examina una camiseta del chico y se analizan fibras distintas al


tejido y que aparecen en esa prenda.
Las proposiciones que podríamos usar serían las siguientes:
• Hp: el sospechoso es el infractor ;
• Hd1: el sospechoso no es el infractor y no vio a la víctima en las últi-
mas tres semanas;
• Hd2: el sospechoso no es el infractor pero en la noche de la presunta
violación, él bailó con la víctima;
La evidencia incluye propiedades de fibras ajenas al objeto de interés
(no pertenecientes a la camiseta del novio) encontradas en la camiseta del
novio y propiedades de fibras tomadas de la ropa de la víctima. El valor de
la evidencia cambiará a medida que cambien las proposiciones del Fiscal y
la defensa. Las proposiciones se definen teniendo en cuenta el contexto del
caso y que denominamos I.

Ejemplo 3.7 (continuación del Ejemplo 1.1). Lo que se va a tratar a


continuación es simplista en el contexto de un perfil de ADN, pero se pro-
porciona para ilustrar cómo se utiliza el LR en la evaluación de la eviden-
cia. En el Capítulo 13 se pueden encontrar ejemplos más realistas.
Se ha cometido un crimen y encontrado una mancha de sangre en la
escena del crimen. Todas las fuentes inocentes de la mancha han sido des-
cartadas y el criminal ha sido determinado como la fuente de la misma.
El fin de la investigación es la determinación de la identidad del criminal;
hasta la fecha se desconoce. Para el locus LDLR, la mancha de sangre es de
genotipo Γ, con una frecuencia γ en la población relevante.
Se ha identificado a un sospechoso con el mismo genotipo para el locus
LDLR que el de la mancha del crimen. Ambos hechos, el genotipo del sos-
pechoso (Es) y el de la mancha (Ec) se representan como E = {Es, Ec), sien-
do las observaciones sobre la evidencia E. El LR puede ser evaluado de la
siguiente forma: si el sospechoso es culpable (Hp), la igualdad entre los dos
genotipos es evidente, siendo Pr(E | Hp) = 1; si es inocente (Hd), la igualdad
entre los dos genotipos es fruto de la frecuencia de Γ en la población rele-
vante, siendo la probabilidad Pr(E | Hd) = γ. Por tanto, el LR = Pr(E | Hp) /
Pr(E | Hd) = 1/γ. La apuesta a favor de la culpabilidad (Hp) del sospechoso
está multiplicada por el factor 1/γ.
Consideremos la siguiente ilustración numérica de lo que antecede,
para el locus LDLR. Los tres genotipos y sus frecuencias γ para la pobla-
ción caucasiana de la ciudad de Chicago son los de la Tabla 1.1 (Johnson y
Peterson, 1999).
160   La evaluación de la evidencia

Tabla 1.1 Frecuencias genotípicas para el locus LDLR entre caucásicos


en Chicago basada en una muestra de tamaño 200 (de Johnson
y Peterson, 1999)

Genotipo Γ para locus LDLR AA BB AB


Frecuencia γ (%) 18.8 32.1 49.1

El efecto (1/γ) sobre la apuesta a favor de Hp se muestra en la Tabla 3.9.


para cada genotipo. Podemos asociar una valoración verbal del LR para
esas cifras. Por ejemplo, si la mancha del crimen fuera del genotipo AA, po-
dría decirse que “la evidencia del genotipo de la mancha del crimen coin-
cidente con el genotipo del sospechoso es 5 veces más probable si el sos-
pechoso es culpable que si es inocente”. Si la mancha del crimen fuera del
genotipo AB, podría decirse que “la evidencia … es dos veces más probable
si el sospechoso es culpable que si es inocente”.

Tabla 3.9 Valores de la evidencia para cada genotipo

Genotipo Γ para locus LDLR AA BB AB


LR 1/γ 5.32 3.12 2.04

Escala cualitativa para el valor de la evidencia.


Al valor cuantitativo se le ha asociado una interpretación cualitativa
(Jeffreys, 1983; Evett, 1987a, 1990; Evett y otros, 2000a). Consideremos
dos proposiciones competitivas Hp y Hd, así como un valor V para una evi-
dencia. La escala cualitativa sugerida por Evett y otros (2000a) se presenta
en la Tabla 3.10.

Tabla 3.10 Escala cualitativa para informar sobre el valor de soporte de


la evidencia a favor de Hp contra Hd (Evett y otros, 2000a)

1 <V≤ 10 limitado
10 <V≤ 100 moderado
moderadamente
100 <V≤ 1000
fuerte
1000 <V≤ 10000 fuerte
10000 <V muy fuerte
El valor de la evidencia   161

Obsérvese que esta escala trabaja igualmente para valores de V < 1 a favor de
la proposición de la defensa. Para ADN, donde existen valores de LR muy gran-
des, la escala verbal resulta inadecuada. Sin embargo, se ha aceptado en la prác-
tica (Evett y otros, 2000a) la frase: “extremadamente fuerte” para LR ≥ 1.000.000.
En (Evett y otros, 2000c) se realizan algunos comentarios sobre los valores ex-
tremadamente altos de LR para ADN. Para afrontar este problema, Aitken y
Taroni (1998) propusieron una solución basada en los LR logarítmicos.
Es interesante la cita que proporciona Fienberg (1989) de un jurista del
siglo XIX, Jeremy Bentham, que parece anticipar la escala Jeffreys-Evett,
aunque quizá aplicándola a la fuerza de la creencia en la hipótesis de cul-
pabilidad en lugar de a la fuerza de la evidencia:

“La escala entendida como compuesta de diez grados —en el lenguaje em-
pleado por los filósofos franceses para los termómetros, una escala decígra-
da— hace decir: mi persuasión es 10, o 9, etc. afirmativamente, o al menos
10 etc. negativamente …” (Bentham, 1827; citado en Fienberg, 1989).

Obsérvese, también, lo que no se dice en la interpretación verbal.


Consideremos sangre de perfil AB en el locus LDLR de nuevo. No se ha
sostenido que la evidencia es tal que el sospechoso es dos veces más cul-
pable habiéndose la evidencia presentado que si no se hubiera hecho. Es
la evidencia la que es dos veces más probable, no la proposición de culpa-
bilidad. El valor mayor para 1/γ, en el ejemplo 3.7, es 5.32, un valor equi-
valente a decir que la evidencia soporta levemente Hp contra Hd utilizando
la escala de la Tabla 3.10. Hasta la fecha no existe acuerdo general, entre
los juristas, sobre la asociación entre las escalas numérica y verbal. Hasta
que se alcance tal acuerdo, la descripción verbal para cada valor numérico
permanecerá como un asunto de juicio personal.
Para ilustrar cómo se soporta una proposición, sirve de ejemplo el si-
guiente caso de 1998:

“Somos conscientes, seguimos y aceptamos de forma incondicional la


evidencia del Dr. Evett, y sus restricciones, de forma que no podemos
tener en cuenta una sola hipótesis, sino que tenemos que tener en cuen-
ta las dos, y que debemos chequear una respecto a la otra … ¿cuál es
la probabilidad de la evidencia si la hipótesis del que debe responder es
correcta?; ¿cuál es la probabilidad de la evidencia si la hipótesis del que
apela es correcta?
El Dr. Evett nos dice (y nosotros le seguimos) que si la respuesta a la pri-
mera cuestión es mayor que la respuesta a la segunda, entonces la hipó-
tesis del que debe responder está soportada por la evidencia” (Johannes
Pruijsen contra H. M. Customs & Excise).
162   La evaluación de la evidencia

Cualquier frase sobre la probabilidad de la culpabilidad requiere el co-


nocimiento de la apuesta a priori a favor de la culpabilidad, algo que no
forma parte del conocimiento del experto.
Una interpretación similar se da en Royall (1997, p. 13):

“un LR de k se corresponde con evidencia suficientemente fuerte para


causar un incremento k-ésimo en la relación de probabilidad a priori,
independientemente de si disponemos de una valoración sobre esa rela-
ción en un caso determinado”.

Obsérvese, pues, que se trata de una medida del valor de la evidencia.


Las implicaciones de un valor particular de la evidencia variarán de acuer-
do con el contexto (Evett, 1998).
Otras posibilidades incluyen una escala basada en logaritmos (Kass y
Raftery, 1995), que proporcionan una conversión del logaritmo de la apues-
ta a priori al logaritmo de la apuesta a posteriori.
La utilización de logaritmos transforma la relación entre las apuestas a
priori y a posteriori con el LR en una suma, pudiéndose hallar comentarios
acertados al respecto en Schum (1994). De este modo:

log [Pr(Hp|E) / Pr(Hd|E)] = log [Pr(E|Hp) / Pr(E|Hd)] + log [Pr(Hp) / Pr(Hd)]

Los logaritmos proporcionan una buena forma de comprimir números


muy altos.
Por ejemplo, consideremos los logaritmos decimales (base 10). Una
frecuencia relativa de 1 / 10.000.000 tiene un logaritmo de –7, y una fre-
cuencia relativa de 1 entre 1 millón, tiene un logaritmo de –6. Sus recí-
procos tienen logaritmos de 7 y 6 respectivamente. Estos números, 7 y 6,
tienen mayor significado para alguien que no sea experto en estadística,
y la diferencia entre ellos es mucho más comprensible. Esto muestra una
medida de la influencia sobre la valoración del Juez de la cuestión funda-
mental.
Los logaritmos se utilizan en otras áreas para las que a mucha gente les
son familiares. La escala Ritcher que mide la fuerza de los terremotos es
una escala logarítmica. Los sonidos se miden en decibelios, otra escala lo-
garítmica. La escala pH que mide acidez o basicidad es también una escala
logarítmica.
Consideremos el caso en el que el LR sea de 500.000.000 a favor de la
proposición del Fiscal. La apuesta a priori a favor de la inocencia era de
1.000.000 a 1. La apuesta a posteriori quedará, entonces, reducida a 500
El valor de la evidencia   163

a 1 a favor de la culpabilidad. En la escala verbal propuesta por Aitken


y Taroni (1998), la apuesta a priori a favor de la inocencia de 1.000.000
a 1 se relacionaría con una ciudad de 1.000.000 de personas en la que
hubiera un único culpable. Si se selecciona una persona aleatoriamente
de esa ciudad, la probabilidad de que sea culpable es, aproximadamen-
te, 1/1.000.000. Consideremos ahora la apuesta a posteriori de 500 a 1
a favor de la culpabilidad. Imaginemos una calle larga con 500 habi-
tantes. Todos —excepto uno— serían culpables. Si seleccionamos una
persona aleatoriamente en la calle, su probabilidad de ser culpable sería
de 499/500 y la apuesta es, aproximadamente, de 500 a 1 a favor de la
culpabilidad.
La apuesta a priori depende de quién la calcule, por lo que se obtendrán
así distintas apuestas a posteriori. La Tabla 3.8 muestra cómo las apuestas
a priori se convierten en apuestas a posteriori. La Tabla 3.11 de Aitken y
Taroni (1998) convierte apuestas logarítmicas a priori en apuestas logarít-
micas a posteriori.
La interpretación de estas apuestas logarítmicas puede hacer se en el
contexto de una escala por tamaño de comunidades de habitantes (Calman,
1996; Calman y Royston, 1997). Consideremos la apuesta de 1 millón a 1
contra la culpabilidad y una ciudad de 1 millón de habitantes (un poco
mayor de Glasgow). El criminal es una persona de esa ciudad. Todos los
demás son inocentes. Se selecciona una persona de forma aleatoria en la
ciudad. La apuesta a favor de la culpabilidad de esa persona es 1 entre
1.000.000. La ventaja de este proceder es que asocia una imagen con un
número.
Tabla 3.11 Valores de logaritmos de las apuestas a posteriori a favor de una hipótesis partiendo de los logaritmos de las apuestas
a priori a favor de la culpabilidad (log(apuestas a priori)) y del logaritmo del LR (Aitken y Taroni, 1998). Los valores
del cuerpo de la tabla se obtienen sumando los correspondientes valores de las filas y columnas. Los logaritmos son
de base 10. La descripción verbal se toma de Calman y Royston (1997). (Reproducido con permiso de la Sociedad de
la Ciencia Forense).

log de LR
Descripción verbal log de apuesta a priori
–2 –1 0 1 2 3 4 5 6 7 8 9 10

Individual 0 –2 –1 0 1 2 3 4 5 6 7 8 9 10

Familia –1 –3 –2 –1 0 1 2 3 4 5 6 7 8 9
164   La evaluación de la evidencia

Calle –2 –4 –3 –2 –1 0 1 2 3 4 5 6 7 8

Aldea –3 –5 –4 –3 –2 –1 0 1 2 3 4 5 6 7

Pequeño pueblo –4 –6 –5 –4 –3 –2 –1 0 1 2 3 4 5 6

Gran pueblo –5 –7 –6 –5 –4 –3 –2 –1 0 1 2 3 4 5

Ciudad –6 –8 –7 –6 –5 –4 –3 –2 –1 0 1 2 3 4

Provincia –7 –9 –8 –7 –6 –5 –4 –3 –2 –1 0 1 2 3

País –8 –10 –9 –8 –7 –6 –5 –4 –3 –2 –1 0 1 2

Continente –9 –11 –10 –9 –8 –7 –6 –5 –4 –3 –2 –1 0 1

Mundo –10 –12 –11 –10 –9 –8 –7 –6 –5 –4 –3 –2 –1 0


El valor de la evidencia   165

Interpretaciones erróneas
Los ejemplos anteriores son formas correctas de resumir el contenido
de la evidencia. Sin embargo, se dan casos en que aún se producen inter-
pretaciones erróneas cuando la evidencia se presenta como comentario
acerca de la verdad de la proposición del Fiscal. Nótese que el uso de las
escalas verbales sobre la verdad o no de una proposición está ampliamente
difundido en muchos campos científicos (por ejemplo, en medicina o pre-
dicción del tiempo). En esos casos, a diferencia del papel del experto foren-
se, el científico juega un papel distinto y utiliza diferente cantidad de in-
formación. Por consiguiente, las escalas a posteriori parecen aceptables de
un modo en que no lo son en el ámbito forense. Weiss (2003) propuso una
escala subjetiva a posteriori de 11 grados sobre la incertidumbre científica
basada en estándares de pruebas definidos legalmente, todo ello como con-
secuencia de los debates habidos en el seno del Panel Intergubernamental
sobre Cambio Climático (2001).
En respuesta a una encuesta realizada por Taroni y Aitken (2000) sobre
evidencia de fibras, se realizaron los siguientes comentarios sobre la fuer-
za de la evidencia en términos de probabilidad de la proposición del Fiscal:
resulta …
• más allá de la duda razonable,
• muy probable,
• probable,
• bastante posible, o
• posible.
que la evidencia coincidente asociada con el imputado proceda de la mis-
ma fuente que la encontrada en la escena del crimen. En este estudio, los
laboratorios generalmente hicieron comentarios sobre la veracidad o no
de la proposición del Fiscal. Esto fue lo que hicieron en lugar de evaluar el
valor de la evidencia.
También, en el contexto de una comparación entre pelos humanos,
Gaudette (2000) aporta una escala sobre si los pelos cuestionados pro-
cedían o no de la misma persona que los pelos de referencia conocidos.
Existe coincidencia y la escala interpreta ésta como sigue:
• Fuertemente positivo: los pelos cuestionados proceden de la misma
persona que los pelos de referencia conocidos;
• Positivo normal: los pelos cuestionados concuerdan con los pelos
de referencia conocidos;
• Inconcluso: no puede darse una conclusión;
• Negativo normal: los pelos cuestionados no concuerdan con los pe-
los de referencia conocidos;
166   La evaluación de la evidencia

• Fuertemente negativo: los pelos cuestionados no proceden de la


misma persona que los pelos de referencia conocidos;
Sin embargo, resulta que se ha hecho un juicio sobre el origen del pelo
sin tener previo conocimiento del contexto del caso. Problemas seme-
jantes se han tratado en el contexto de exámenes de pisadas de calzado
(Champod y otros, 2000; Taroni y Margot, 2001; Katterwe, 2002a; Taroni y
Buckleton, 2002; Champod y Jackson, 2002), y en reconocimiento de locu-
tores (Champod y Evett, 2000).
Explicaciones sobre las falacias de transposición del condicional y de la
defensa.
Utilizando el teorema de Bayes en forma de apuestas (3.11), podemos
profundizar en las falacias de transposición del condicional (o falacia del
Fiscal), falacia de falso positivo, y falacia de la defensa.

Falacia de transposición del condicional:


Se ha cometido un crimen y aparece una mancha de sangre en la escena
del mismo procedente del criminal sin género de duda. Se identifica a un
sospechoso y su grupo sanguíneo es el mismo que el de la mancha. Sea E
la evidencia de que el grupo sanguíneo de la mancha y el sospechoso es
el mismo. Sea Hp la proposición de que el sospechoso es culpable, y Hd la
proposición de que el sospechoso es inocente. Consideremos las siguientes
frases:
• El grupo sanguíneo se presenta únicamente en el 1% de la población;
• Existe un 99% de probabilidad de que el sospechoso sea culpable.
La segunda frase no se deduce de la primera sin una asunción gratuita
sobre la apuesta a priori a favor de la culpabilidad. La primera frase impli-
ca que la probabilidad de que una persona seleccionada al azar en la pobla-
ción pertenezca al mismo grupo sanguíneo que el de la mancha del crimen
es 0.01. Así pues, Pr(E | Hd) = 0.01. También, Pr(E | Hp) = 1. Por tanto, el
valor V = 100.
La segunda frase implica que la probabilidad a posteriori a favor de la
culpabilidad (posterior a la presentación de E) es 0.99; es decir, Pr(Hp | E) =
0.99 y Pr(Hd | E) = 0.01, puesto que Hp y Hd son proposiciones complemen-
tarias. La apuesta a posteriori es igual a 0.99/0.01 = 99, que es aproximada-
mente igual a 100. Sin embargo, V también vale 100. De (3.11) se sigue que
la apuesta a priori es aproximadamente igual a 1, es decir, Pr(Hp) ≈ Pr(Hd).
Por consiguiente, la segunda frase —la relacionada con la falacia del
Fiscal— se sigue de la primera sólo si Pr(Hp) ≈ Pr(Hd). En otras palabras,
el sospechoso sería tan probablemente culpable como inocente a priori.
Esto no es acorde con la presunción de inocencia. Así pues, la conclusión
El valor de la evidencia   167

del Fiscal —la segunda frase— no se seguiría de la primera a menos que se


sostuviera ésta de manera injustificada.
El uso de apuesta a priori igual a 1 también es defendido en exámenes
de huellas de calzado (Katterwe, 2003). Se postula una población de N cal-
zados a la que pertenece la huella hallada en la escena del crimen. Existe
un calzado que puede considerarse como el perteneciente al sospechoso.
En ausencia de ninguna otra información, la probabilidad de que el cal-
zado fuera del autor de la huella de pisada en la escena del crimen es 1/N.
La probabilidad de que cualquier otro calzado fuera el origen de la huella
cuestionada es (N–1)/N. La apuesta a priori de que fuera el calzado del sos-
pecho el origen de la huella cuestionada es 1/(N–1). El argumento aportado
por Katterwe (2003), sin embargo, es que aparte del calzado del sospecho-
so y en ausencia de ninguna otra información, sólo existe una población de
un calzado que pudiera haber producido la huella cuestionada. La propo-
sición de la defensa es que sólo un calzado distinto al del sospechoso pudo
ser el origen de la huella cuestionada. Por consiguiente, la población rele-
vante es de tamaño 2. Este argumento es semejante a la probabilidad de
acertar en el ojo de una diana, por ejemplo, jugando a los dardos. El dardo
se coloca en el ojo de la diana o no. Sólo hay dos posibilidades. En ausen-
cia de cualquier otra información, las probabilidades de “ganar” o “perder”
son 0.5. Sin embargo, en la realidad, siempre hay más información. Por
ejemplo, para el jugador de dardos existe la posibilidad de conocer qué
área tiene el ojo de la diana en relación con el área del resto de la diana y
el tamaño de la pared de la que cuelga. Para el examinador de huellas de
pisadas podríamos conocer el número de zapatos en el mundo que pudie-
ran haber sido el origen de la huella cuestionada. Podríamos disponer de
argumentos similares para otros tipos de evidencias, como en los casos de
paternidad (Sección 9.8).

Falacia de falso positivo:


Resulta muy importante disponer de información exacta cuando trata-
mos con probabilidades de coincidencia aleatoria (consultar Capítulo 13
para más detalles) y probabilidades de falso positivo relacionadas con la
evaluación de la evidencia de ADN.
Tanto la ignorancia como la subestimación de un falso positivo pueden
conducir a serios errores de interpretación, particularmente cuando la otra
evidencia (además de la de ADN) en contra del sospechoso sea débil.
Se considera esencial para la validez científica disponer de datos válidos
para calcular la probabilidad de coincidencia aleatoria pero, paradójica-
mente no se piensa lo mismo respecto a la probabilidad de falso positivo.
168   La evaluación de la evidencia

La explicación de esto es parcialmente común con la falacia lógica deno-


minada falacia de falso positivo. Se asume, erróneamente, que si la pro-
babilidad de falso positivo es baja, entonces la probabilidad de una falsa
coincidencia debe ser también baja en cualquier caso. Por ejemplo, un ex-
perto forense que piense que haya sólo un 1% de probabilidad de declarar
falsa coincidencia entre muestras si realmente no coinciden, quizá asuma
que haya, necesariamente, un 99% de probabilidad de que la coincidencia
declarada sea cierta. Esta asunción es falaz. La falacia estriba en que se
ha confundido la ecuación de la probabilidad condicional de declarar una
coincidencia cuando las muestras realmente no coinciden (probabilidad
de falso positivo) con la probabilidad de que las muestras no coincidan
cuando se ha declarado una coincidencia. Esas dos probabilidades no son
iguales.
La probabilidad de falso positivo es la probabilidad de declarar una co-
incidencia bajo una condición específica (no había realmente coinciden-
cia). No depende de la probabilidad de ocurrencia de esa condición. Por
contraste, la probabilidad de que las muestras no coincidan cuando se ha
declarado su coincidencia depende tanto de la probabilidad de declarar
una coincidencia bajo la condición de que no existía realmente tal coinci-
dencia, como de la probabilidad a priori de que esa condición ocurriera.
Por consiguiente, la probabilidad de que una declaración de coincidencia
sea tanto cierta como falsa no puede determinarse a partir de la probabi-
lidad de falso positivo exclusivamente. En términos formales, la asunción
de la falacia es que Pr(M | R) = 1 – Pr(R | M ), donde M es el suceso en el
que el sospechoso y el autor del crimen tengan el mismo perfil de ADN, M
es el suceso complementario. R es la declaración del perito, en la que éste
argumentó que se halló coincidencia entre las muestras, y Pr(R | M ) es la
probabilidad de falso positivo, es decir, la probabilidad de declarar una
coincidencia cuando las muestras no coinciden realmente. Esta asunción
es falaz porque ignora la apuesta a priori de que el perfil del sospechoso
coincida con el perfil de la muestra. Sea Pr(M) / Pr( M ) = 1 / k, la apuesta a
priori, donde k es grande. Entonces:

Pr(M | R ) Pr(R | M ) 1
= × .
Pr(M | R ) Pr(R | M ) k

Asumamos que Pr(R | M) = 1, es decir, no hay falsos negativos. Entonces:

1
Pr(M | R ) =
1 + k Pr(R | M )
El valor de la evidencia   169

la cual puede ser mucho menor que 1 – Pr(R | M ) cuando k sea grande.

Nota del traductor: la forma de obtener Pr(M|R) es:


Pr(M | R ) Pr(R | M ) 1 Pr(M | R ) 1 − Pr(M | R )
= × ⇒ Pr(M | R ) = = ⇒
Pr(M | R ) Pr(R | M ) k k Pr(R | M ) k Pr(R | M )
1 − Pr(M | R ) 1 1
k Pr(R | M ) = = − 1 ⇒ Pr(M | R ) =
Pr(M | R ) Pr(M | R ) 1 + k Pr(R | M )
Por ejemplo, supongamos que la apuesta a priori de que el sospechoso
es autor de la muestra es 1 / 1000 porque ha sido seleccionado a través de
una extensa investigación en red de perfiles de ADN y aparece, inicialmen-
te, como autor poco probable. Supongamos además que se ha informado
sobre la coincidencia con un perfil de ADN y que la probabilidad de falso
positivo es de 0.01. La probabilidad de que la coincidencia declarada sea
cierta es, por consiguiente, 1 / [1+(1000 × 0.01)] = 0.0909. En otras pala-
bras, la probabilidad de que la declarada coincidencia sea cierta no es 0.99,
como sugería la falacia, sino menor de 0.1.
Cuando se realizan búsquedas en una base de datos, puede esperarse que
la obtención de coincidencias ciertas sea algo raro. Por consiguiente, la pro-
babilidad de que en un caso particular una falsa coincidencia sea declarada
como cierta, aunque sea baja, puede aproximarse o superar la probabilidad
de que el sospechoso sea el autor de la muestra. La falacia de falso positivo es
similar a la falacia del Fiscal (Thompson y Schumann, 1987), pero difieren en
su contenido. Las víctimas de falacias de falso positivo asumen erróneamente
que Pr(M | R) = 1 – Pr(R | M ). Las víctimas de la falacia del Fiscal asumen erró-
neamente que Pr(S | M) = 1 – Pr(M | S ), donde:
• S es la proposición de que el vestigio vino del sospechoso;
• S es la proposición de que el vestigio no vino del sospechoso.
(Thompson y Schumann, 1987). Ambas falacias coinciden en que se falla
en no tener en cuenta las probabilidades a priori (o apuestas) cuando se eva-
lúa una nueva evidencia; ambas pueden conducir a significativas sobreestima-
ciones de las probabilidades a posteriori cuando la probabilidad a priori sea
baja. La falacia del Fiscal es una forma errónea de estimar la probabilidad de
que el sospechoso sea la fuente de una muestra basándose en la evidencia de
un cotejo positivo; la falacia de falso positivo es una forma errónea de estimar
una coincidencia cierta basándose en una declaración de cotejo positivo.

Falacia del defensor:


Respecto a la falacia del defensor, asumamos un LR de 100 en las con-
diciones descritas. Consideramos que la población relevante es de 200.000
170   La evaluación de la evidencia

personas. La defensa dice que hay 2.000 personas con el mismo grupo san-
guíneo que el acusado, la probabilidad de que el acusado sea culpable es
1/2000 y por tanto, la evidencia tiene un valor muy pequeño para mostrar
que ésta persona es culpable.
Como antes, Pr(E | Hp) = 1 y Pr(E Hd) = 0.01; V = 100. También, Pr(Hp |
E) = 1/2000 y Pr(Hd | E) = 1999/2000. La apuesta a posteriori a favor de Hp
es la siguiente: (1/2000) / (1999/2000) = 1/1999 ≈ 1/2000.
La apuesta a priori es la relación entre la apuesta a posteriori y V, es
decir, (1/1999) / 100 = 1/199900. Además, Pr(Hp) = 1/200.001, Pr(Hd) =
200.000/200.001. La probabilidad a priori de culpabilidad es 1/200.001. El
denominador es el tamaño de la población relevante (número de personas
equiprobables de ser autoras del crimen mas el culpable). La consecuencia
de esto es que todos son considerados potencialmente culpables, aunque
con la misma probabilidad de serlo inicialmente. Está claro que este plan-
teamiento no concuerda con la presunción de inocencia pero también que
esta falacia no es un error matemático. Los abogados utilizan la informa-
ción obtenida para sostener que es poco probable la culpabilidad de su de-
fendido y eso es engañoso. Coloquialmente, se podría decir que el acusado
es tan probablemente culpable como cualquier otra persona. La falacia de la
defensa no es verdaderamente una falacia. Si la evidencia incrementa la pro-
babilidad de culpabilidad de un individuo de 1/200.000 a 1/2000, es seguro
que no es irrelevante. En la escala de Jeffreys-Evett (Tabla 3.10) el LR expre-
sa moderada evidencia en apoyo de la proposición de la culpabilidad.
Obsérvese que es ilógico igualar la presunción de inocencia con una pro-
babilidad a priori de culpabilidad igual a 0, Pr(Hp) = 0. Si así fuera, entonces
Pr(Hp | E) = 0, de (3.8), no importa como sea de abrumadora la evidencia, no
importa como de grande sea el valor de V. La probabilidad de culpabilidad
puede ser sumamente pequeña, pero nunca podrá ser cero. Por tanto, si la
probabilidad apriorística de probabilidad es mayor que cero, será posible,
aportando la suficiente evidencia, alcanzar una probabilidad a posteriori de
culpabilidad suficientemente grande para asegurar un veredicto de culpabi-
lidad. Podría argumentarse que el imputado es tan probablemente culpable
como cualquier otra persona; su probabilidad a priori de culpabilidad sería
la recíproca del tamaño de la población definida por “cualquier otro”. Se
pueden consultar comentarios al respecto en Robertson y Vignaux (1994).

La probabilidad de culpabilidad.
Otro aforismo legal muy conocido es el convencimiento de la culpabilidad
del sospechoso por parte del Jurado cuando esté persuadido de que el Fiscal
haya demostrado “más allá de la duda razonable” que el sospechoso cometió
El valor de la evidencia   171

el crimen (Robertson y Vignaux, 1991). Sin embargo, ese “más allá de la duda
razonable” no es algo diáfano. Lord Denning ha dicho que “debe haber grados
de prueba dentro de ese estándar” (Eggleston, 1983). De hecho, a medida que
el crimen es más grave, mayor es la presunción de inocencia y, por consiguien-
te, mayor probabilidad se exige. Existe evidencia de que ésta es la forma en
que la gente se comporta en los cuestionarios facilitados a jueces, miembros
de Jurados y estudiantes de sociología (Simon y Mahan, 1971) y cuyos resul-
tados se extractan en la Tabla 3.12. Esta tabla muestra el valor de la probabili-
dad de culpabilidad que se tomaría como prueba más allá de la duda razona-
ble por esos grupos de personas ante distintos crímenes. La variabilidad entre
esas cifras es sorprendentemente pequeña. Para jueces, el rango va de 0.92 a
0.87, y para miembros de Jurado de 0.86 a 0.74. Esas probabilidades pueden
utilizarse para estimar apuestas a favor de la culpabilidad. Por ejemplo, para
los jueces, la apuesta a favor de la culpabilidad en casos de asesinato que se
estima como más allá de la duda razonable es de 0.92 contra 0.08, es decir,
aproximadamente 12 a 1. Una interpretación alternativa sería que 1 de cada
13 personas sentenciadas como culpables de asesinato mediante el menciona-
do estándar serían inocentes. Para un cargo de hurto la apuesta sería de 7 a 1.
Estas apuestas son realmente próximas entre sí mientras que las penas están
muy lejanas. Los resultados necesitan una cuidadosa interpretación.

Tabla 3.12 Probabilidad de culpabilidad requerida para considerar-


la prueba más allá de la duda razonable (Simon y Mahan,
1971).

Media entre el personal entrevistado


Delitos
Jueces Miembros de Jurado Estudiantes
Asesinato 0.92 0.86 0.93
Violación 0.91 0.75 0.89
Robo 0.89 0.79 0.86
Lesiones 0.88 0.75 0.85
Delitos menores 0.87 0.74 0.82

Por ejemplo, es improbable que los jueces de Norteamérica en 1971 se equi-


vocaran en 1 de cada 13 personas sentenciadas como culpables de asesinato.
Resulta mucho más que probable que los jueces no tengan una idea ade-
cuada del significado de las probabilidades de la Tabla. Como a medida
que se incrementa la pena se necesita incrementar la protección del ino-
172   La evaluación de la evidencia

cente, se hace más difícil demostrar la culpabilidad. Por ejemplo, Jaynes


(2003) comenta que:

“Si 1000 penados se ponen en libertad, sabemos por experiencia que


de 200 a 300 de ellos volverán a cometer delitos, y que provocarán que
100 personas cometan delitos a resultas de lo decidido sobre su situa-
ción. Así, resulta meridiano que permitir que 1000 penados salgan de
la cárcel es mucho más perjudicial que un inocente sea considerado
culpable.
Si tienes una reacción emocional contra lo mencionado arriba, te pido
que pienses lo siguiente: si fueras un Juez, ¿no preferirías enfrentarte a
un solo hombre a quién tú hayas declarado culpable falsamente que a
100 víctimas de crímenes que podías haber evitado?”

Consideremos ahora el siguiente ejemplo sobre el efecto de cambio en


probabilidad en el límite de la escala de apuestas. Supongamos un valor
de 0.999 de probabilidad de culpabilidad, es decir, el valor que se consi-
dera suficiente para probar la culpabilidad de una persona “más allá de
la duda razonable”. La apuesta a favor de la culpabilidad es de 999 a 1.
Un cambio en la probabilidad de culpabilidad a 0.99 provoca una apues-
ta de 99 a 1. Como puede apreciarse, un cambio en la probabilidad de
menos de 0.01 puntos ha provocado una reducción en la apuesta en un
factor 10.
Otra posible interpretación de “más allá de la duda razonable” puede
ser la fundamentada en la relación entre probabilidades a posteriori y a
priori propia del LR (3.10). Supongamos que la probabilidad a priori, rela-
cionada con el aforismo “inocente hasta que se demuestre lo contrario”, es
de 1/1000, aunque en la práctica pudiera ser mucho menor. Supongamos
también que la probabilidad a posteriori, relacionada con el aforismo “más
allá de la duda razonable” es de 1000/1, aunque en la práctica pudiera ser
mucho mayor. Entonces, el LR, el factor el cual convierte apuestas a priori
en apuestas a posteriori, toma el valor 1000/(1/1000) = 1.000.000. En otras
palabras, la evidencia ha de ser 1000000 de veces más probable si el sospe-
choso es culpable que si es inocente. Tal evidencia proporciona un apoyo
muy fuerte a la hipótesis de culpabilidad del sospechoso.
La determinación de la probabilidad de culpabilidad ha sido un asunto
largamente discutido. El problema se ha intentado resolver considerando
una población finita, como la que pudiera haber en una isla. Consideremos
una población de tamaño N + 1 (el culpable). Se comete un crimen y se
encuentra una evidencia (por ejemplo, una mancha de sangre del grupo Γ
con frecuencia γ en la población) en la escena del crimen. Se detiene a un
El valor de la evidencia   173

sospechoso que tiene el mismo grupo sanguíneo. ¿Qué probabilidad tiene


de ser culpable? Ese problema se ha denominado “el problema de la isla”
(Eggleston, 1983; Yellin, 1979; Lindley, 1987), y se han dado las siguientes
soluciones:
• {1 – (1 – γ)N+1} / {(N+1) γ} (Yellin, 1979);
• 1 / (1+Nγ), (Lindley, en correspondencia con Eggleston, 1983).
Balding y Donnelly (1994a), y Dawid (1994), en el contexto de una dis-
cusión de temas más amplios, demuestran que la segunda propuesta es
teóricamente correcta dentro del entorno en que se plantea el problema.
Le conceden, no obstante, limitado valor práctico.
El problema de la isla presenta muchos aspectos importantes en la
evaluación de la evidencia. Se ha cometido un crimen en una isla.
Consideremos la existencia de una mancha en la escena del crimen. La
isla tiene una población de N+1 individuos. En conexión con el crimen,
ha sido identificado un sospechoso a partir de otra evidencia. Los geno-
tipos Gs del sospechoso y Gc de la mancha en la escena del crimen coinci-
den.
La probabilidad de que una persona seleccionada aleatoriamente en la
población de la isla tenga el genotipo G es γ. Las dos proposiciones a consi-
derar son las siguientes:
• Hp: el sospechoso ha dejado la mancha del crimen;
• Hd: alguna otra persona fue la que la dejó.
Existe fuerte debate sobre cómo considerar la apuesta a priori. Está re-
lacionado con la expresión “inocente hasta que se pruebe lo contrario”.
Observe que, a partir de la ecuación básica, un valor 0 para la apuesta a
priori conlleva que la apuesta a posteriori será también 0, siendo irrele-
vante el valor de LR. De este modo, si “inocente hasta que se demuestre lo
contrario” se identifica con Pr(Hp) = 0, la probabilidad a priori, entonces
Pr(Hp | E) = 0, sea cual sea el valor del LR.
Una valoración más realista de la apuesta a priori es decir, ante una
evidencia presentada, que el sospechoso es tan probablemente culpable
como cualquier otra persona en la población relevante. En el contexto de
este ejemplo, eso implica que Pr(Hp | I) = 1 / (N+1) (Robertson y Vignaux,
1995a). Por tanto, la apuesta a priori es 1 / N. Teniendo en cuenta algunas
asunciones sencillas, como por ejemplo que Pr(Gc | Gs,Hp,I) = 1, se puede
demostrar que la apuesta a posteriori es 1 /Nγ.
Los valores de la apuesta a posteriori proporcionan información valiosa
sobre qué se quiere decir con la frase “prueba más allá de la duda razona-
ble”. Para más detalles, puede consultarse la Sección 8.5.
174   La evaluación de la evidencia

Resumen

Se han definido apuestas y el Teorema de Bayes, relacionando probabi-


lidades condicionadas. Se han tratado varios posibles errores de interpre-
tación en las medidas probabilísticas del valor de la evidencia. Han sido
definidos el LR y la versión del Teorema de Bayes en forma de apuestas. El
papel del LR como un valor de la evidencia ha sido definido como el factor
que convierte apuestas a priori en favor de una proposición en apuestas a
posteriori a favor de la proposición. Esto ha permitido la explicación de
las falacias de transposición del condicional y de la defensa. El capítulo
anterior trataba sobre cómo las probabilidades pueden evaluarse en cier-
tas situaciones y como se distribuyen sobre el conjunto de las salidas po-
sibles. Dadas estas distribuciones de probabilidad generales, es entonces
posible determinar procedimientos para evaluar la evidencia dentro de
una cierta secuencia general. Los tres próximos capítulos revisan el de-
sarrollo histórico de la evaluación de evidencias, presentan las ideas de la
inferencia Bayesiana y abordan temas asociados con el muestreo de evi-
dencias. Continuando con esto, se profundizará detalladamente en el papel
del Teorema de Bayes en la evaluación de la evidencia.
Antecedentes históricos   175

Capítulo 4
Revisión histórica Revisión histórica

4.1 Antecedentes históricos

El antecedente histórico más antiguo que se recuerda del uso de un


razonamiento probabilístico para tomar una decisión en asuntos legales,
aunque sea de una forma rudimentaria, lo tenemos escrito en el Talmud,
relacionado con las actividades de estudiantes de escuelas rabínicas en
Babilonia e Israel, hace dieciocho siglos (Zabell, 1976, en una revisión de
Rabinovitch, 1973). Por ejemplo, si nueve tiendas de la ciudad vendieron
carne preparada según la ley judía y una más vendió carne que no lo esta-
ba, cualquier pieza de carne escogida aleatoriamente en la ciudad se presu-
me preparada según la ley judía y, de este modo, puede injerirse porque se
presume proveniente de una de las tiendas que conforman el grupo mayo-
ritario (Rabinovitch, 1969). Sin embargo, consideremos la siguiente cues-
tión planteada en el Talmud:

“Todo lo que es estacionario (fijo) se considera a partes iguales … Si nue-


ve tiendas venden carne de animal preparada según la ley y otra vende
carne no preparada, y quien compró la carne no recuerda en cuál de ellas
lo hizo, le está prohibido hacerlo a causa de la duda; pero si la carne fue
encontrada en la calle, se aplica el criterio de la mayoría” (Kethuboth
15ª, citado en Rabinovitch, 1969).

El razonamiento parece ser el siguiente. Si nos preguntamos por el ori-


gen de la carne (es decir, si estaba dentro de las tiendas), la apuesta a fa-
vor de que se trata de carne preparada según la ley no es realmente de 9
a 1. Las otras nueve tiendas no se tienen en cuenta —la pieza de carne no
provino de ninguna de ellas con certeza—. Hay, por consiguiente, sólo dos
posibilidades: o la carne está preparada según la ley judía o no lo está. La
apuesta a favor de que esté preparada según la ley judía es tablas. Sin em-
bargo, si la carne se encontró fuera de las tiendas (por ejemplo, en la calle),
la probabilidad de que provenga de alguna de las tiendas es la misma para
176   Revisión histórica

todas ellas. De este modo, la probabilidad de que esté preparada según la


ley es de 0.9.
Garber y Zabell (1979) citan las obras de Cicerón (De Inventione y
Rethorica ad Herennium), y de Quintiliano (Institutio Oratoria), entre
otras. Garber y Zabell también citan un ejemplo de Jacob Bernoulli reco-
gido en su obra Ars Conjectandi (1713, parte 4, Capítulo 2) que resulta de
interés respecto a los ejemplos de la Sección 1.6.8 sobre la actualización
de la evidencia. Una persona, Titius, es hallada muerta en un camino. Otra
persona, Maevius, es acusada de asesinato. Existen algunas evidencias que
apoyan la acusación:
1. Era bien conocido que Maevius odiaba a Titius (se trata de una evi-
dencia de motivación: el odio pudo haber conducido a Maevius a
matarle);
2. En el interrogatorio, Maevius se puso pálido y contestó con nervio-
sismo (se trata de una evidencia de efecto: la palidez y el nerviosismo
pudieron provenir de su autoconciencia como autor del crimen);
3. Se halló una espada manchada de sangre en la casa de Maevius (se
trata de una evidencia de un arma);
4. El día que Titius fue abatido, Maevius viajaba por el mismo camino
(se trata de una evidencia de oportunidad);
5. Un testigo, Gaius, alegó que el día anterior al asesinato había inter-
cedido en una disputa entre Titius y Maevius.
Más adelante (en el Capítulo 3 de la Parte 4 de Ars Conjectandi) Bernoulli
(1713) trata sobre cómo calcular numéricamente el peso de la evidencia o
de la prueba.

“El grado de certeza o la probabilidad que esta prueba genera en estos ca-
sos puede calcularse por el método tratado en la primera parte (esto es,
la relación entre casos favorables y casos totales), igual que se hace en
los juegos de azar”. (Garber y Zabell, 1979, p. 44).

Garber y Zabell (1979) continúan diciendo luego:

“Lo que es nuevo en ‘Ars Conjectandi’ no es lo que dice de la evidencia


—se apoya en el tratamiento retórico de la evidencia circunstancial—
sino en el intento de cuantificarla mediante un nuevo desarrollo de cál-
culo de probabilidades”. (Garber y Zabell, 1979, p. 44).

De este modo, hace ya más de doscientos años que se hicieron conside-


raciones sobre un método para evaluar numéricamente la evidencia.
En Shafer (1978) puede encontrarse una amplia disertación sobre la
Parte 4 de Ars Conjectandi. Se distingue entre argumentos puros y mixtos.
Antecedentes históricos   177

Los puros son aquéllos que prueban una cosa en ciertos casos y nada en
otros. Los mixtos, por el contrario, prueban algo en algunos casos y lo con-
trario en los restantes. Shafer trata un ejemplo de este tipo tomado de la
Parte 4 de Ars Conjectandi.
Un hombre es apuñalado con una espada en medio de un tumulto.
Testimonios fidedignos de testigos oculares establecen que el crimen fue
cometido por un hombre vestido con una capa negra. Se encuentra a una
persona, llamada Gracchus, y a otras tres más en medio de la multitud que
llevaban capas de ese color. Existe la hipótesis de que Gracchus fuera el
autor del crimen pero es un argumento mixto. Tiene una posibilidad entre
cuatro de ser culpable, y tres entre cuatro de ser inocente, todo ello con-
siderando si el asesinato fue cometido por él o alguno de los otros tres. Si
alguno de los otros fuera el asesino, Gracchus sería inocente.
Sin embargo, si en la toma de declaración Gracchus se mostrara pálido,
se trataría ya de un argumento puro. Si su palidez se produjo como conse-
cuencia de su autoconciencia de haber sido el asesino, ello sería indicativo
de su culpabilidad. Si la palidez fue debida a otra causa, eso no probaría su
inocencia; pudiera suceder que la palidez obedeciera a otro motivo pero no
por ello dejaría de ser el asesino.
Shafer (1978) aporta una analogía entre esos dos tipos de argumenta-
ción y su teoría matemática de la evidencia (Shafer, 1976) y las funciones
de creencia (véase la Sección 1.2). En esa teoría se asigna una probabilidad
p a una proposición y una probabilidad q a su negación o complemento,
de modo que 0 ≤ p ≤ 1, 0 ≤ q ≤ 1, y p + q ≤ 1. No se necesita que p + q = 1, en
contradicción con (3.2). Existen, pues, tres posibilidades:
• p > 0, q = 0, que implica la presencia de evidencia a favor de la pro-
posición y la ausencia de evidencia en su contra;
• p > 0, q > 0, que implica la presencia de evidencia por ambos lados,
a favor y en contra de la proposición;
• p > 0, q > 0, p + q = 1 (aditividad), que sólo ocurre cuando existe evi-
dencia muy fuerte a favor de la proposición y en su contra.
En este libro sólo se consideran las probabilidades que cumplen la regla
de la aditividad (3.2). Sheynin (1974) comenta que:

“De acuerdo con Sambursky (Tratado sobre el gobierno divino, Cuestión


105, Artículo 7, Grandes Libros, volumen 9, página 544), Sócrates esta-
blece que en los Tribunales los hombres no tratan sobre la verdad sino
sobre convicciones, y eso está basado en la probabilidad”.

Sheynin también cita a Aristóteles (Rethorica, 1376a, 19) cuando dice:


178   Revisión histórica

“Si no tienes testigos … argumentarás que los jueces deben decidir sobre
lo que es probable … Si tienes testigos, y el otro no, argumentarás que
las probabilidades no pueden utilizarse como prueba, y si no necesita-
mos más que balancear las argumentaciones defendidas por cada parte,
podemos prescindir de la evidencia aportada por los testigos por com-
pleto”.

Sheynin (1974) también menciona que el uso de probabilidades en el


ámbito legal fue tratado por Santo Tomás de Aquino (Tratado sobre la Ley,
Cuestión 105, Artículo2, Grandes Libros, volumen 20, página 314) donde
realiza un comentario a propósito de la evidencia de colaboración:

“En los asuntos de los hombres no existe prueba demostrativa e infa-


lible que podamos tenerla como una probabilidad conjetural cierta …
Consecuentemente, aunque es bastante posible que dos o tres testigos
puedan acordar declarar una falsedad, no es fácil ni probable que ten-
gan éxito en su intento, por lo que su testimonio ha de ser tenido como
cierto”.

Jacob Bernoulli (1713) llevó a cabo un análisis probabilístico de la fuerza


cumulativa de la evidencia circunstancial. Su sobrino, Nicholas Bernoulli
(1709), aplicó el cálculo de probabilidades a problemas que incluían la pre-
sunción de la muerte, valor de las pensiones, seguros marítimos, la veraci-
dad en el testimonio y la probabilidad de la inocencia; consultar Fienberg
(1989).
La aplicación de la probabilidad para veredictos del jurado en juicios
civiles y criminales fue discutida por Poisson (1837), y hay también un tra-
bajo asociado a esto llevado a cabo por Condorcet (1785), Cournot (1838) y
Laplace (1886). Los modelos desarrollados por Poisson han sido actualiza-
dos por Gelfand y Solomon (1973).
Los dos primeros ejemplos del uso de la estadística para cuestionar la
autenticidad de las firmas en testamentos fueron dados por Mode (1963).
Uno de estos, el caso del testamento de Howland de 1860, ha sido tam-
bién estudiado por Meier y Zabell (1980). Este caso es probablemente el
primer caso en la ley americana en el que se usaron evidencias probabi-
lísticas y estadísticas. La evidencia fue aportada por el profesor Benjamin
Peirce, profesor de matemáticas de la Universidad de Harvard, y por su
hijo Charles, entonces miembro de la Inspección de Costas de los Estados
Unidos. La evidencia manifestaba la concordancia de 30 trazos hacia abajo
en una firma impugnada con los correspondientes trazos de la firma au-
téntica. Se argumentó que la probabilidad de esta concordancia, si la firma
impugnada fuese genuina, era extremadamente pequeña; la probabilidad
Caso dreyfus   179
Caso Dreyfus  

de observar dos firmas espontáneas con el número de trazos superpuestos


30
1
observados en estas dos firmas era   . Por lo tanto la firma se conside-
5
ró una falsificación. Algunos comentarios en este caso señalaron la aho-
ra famosa Falacia del Fiscal (Sección 3.3.1). Good (1983) argumenta que
Charles Peirce (1878) —en un modelo estadístico pre-Bayesiano— consi-
deró sólo dos hipótesis con apuestas iniciales implícitas de 1, de este modo
excluía algunas alternativas que podrían haber tenido una probabilidad a
priori mayor que cero. En el mismo artículo, Good (1983) subraya:

“Quizá fuera mejor llamar... al ‘contraste de hipótesis’ determinación de


la hipótesis, como sucede en un juzgado donde el juez o los miembros
del jurado ‘determinan’ si un acusado es inocente o culpable, y donde
defender una probabilidad numérica quizá hubiera sido considerada
como desacato”.

Para evaluar la evidencia se revisan en esta obra con más detalle inten-
tos más recientes.

4.2 Caso Dreyfus

Este ejemplo se relaciona con el juicio a Dreyfus a finales del siglo XIX.
Dreyfus, un oficial del Ejército francés destinado en el Ministerio de la
Guerra, fue acusado en 1894 de vender secretos militares al agregado mi-
litar alemán. Parte de la evidencia contra Dreyfus se centró en un docu-
mento denominado “bordereau”, cuya autoría admitió, y que, a decir de sus
enemigos, contenía mensajes cifrados. Se sostuvo esa argumentación como
consecuencia del examen de la posición de las palabras en el mencionado
documento. De hecho, después de reconstruirlo trazando sobre él líneas
verticales cada 4 mm, Alfonso Bertillón demostró que 4 pares de palabras
polisilábicas (entre 26 pares) tenían la misma posición relativa respecto a
la malla. Por tanto, citando la teoría de la probabilidad como referencia,
Bertillón defendió que las coincidencias descritas no podrían atribuirse a
un proceso normal de escritura. Así pues, el documento era falso. Bertillón
presentó cálculos probabilísticos en apoyo de su conclusión. Su argumen-
tación estadística podría expresarse como sigue: si la probabilidad para
una coincidencia es de 0.2, la probabilidad de observar N coincidencias
es 0.2N. Bertillón calculó que las cuatro coincidencias observadas por él
tenían, por tanto, una probabilidad de 0.24, ó 1/625, un valor demasiado
pequeño que demostraba la falsedad del documento (Charpentier, 1933).
180   Revisión histórica

Sin embargo, el valor 0.2 fue elegido a modo de ilustración y no tenía fun-
damentación evidencial alguna; para un comentario al respecto se puede
consultar Darboux y otros (1908).
La declaración de Bertillón incluyó no sólo el anterior cálculo sino una
extensa documentación para identificar a Dreyfus como el autor del do-
cumento sobre la base de otras medidas y una compleja construcción de
hipótesis. (Para una extensa descripción del caso se puede consultar la lite-
ratura citada en Taroni y otros, 1998, p. 189).
Como se mencionó en la Sección 3.3.1 y utilizando una perspectiva ba-
yesiana, no es difícil detectar dónde la lógica empleada por Bertillón falló
en sus conclusiones sobre la falsedad del documento. Parece que Bertillón
argumentaba que Pr(Hd | E,I) = p = 1/625 = 0.0016 y, por consiguiente, que
Pr(Hp | E,I) = 1 – p = 0.9984. Sin embargo, p representa Pr(E | Hd,I). Parece
que se trata de un temprano ejemplo de falacia del Fiscal (Sección 3.3.1).
La fiabilidad de la argumentación de Bertillón fue puesta en duda en un
nuevo juicio posterior sobre el mismo caso. Resultan destacables las opi-
niones vertidas por Darboux, Appell y Poincaré, matemáticos y miembros
de la Academia Francesa de Ciencias. Comentaron que la valoración pro-
babilística argumentada por Bertillón no tenía fundamentación matemá-
tica. De hecho, el valor 0.0016 es la probabilidad de observar cuatro coin-
cidencias independientes en cuatro comparaciones (con probabilidad θ de
una coincidencia fijada en 0.2), mientras que Darboux, Appell y Poincaré
determinaron que la probabilidad de observar cuatro coincidencias en 26
comparaciones es bastante diferente, concretamente 0.7, o 400 veces ma-
yor (0.7/0.0016 = 437,5) (Moras, 1906; Darboux y otros, 1908).
No está claro cómo se calculó la cifra de 0.7 mencionada anteriormente.
 26 4 22
La expresión binomial  0.2 0.8 = 0.176, y la probabilidad de cuatro o

4
más coincidencias en 26 comparaciones es 0.8, aproximadamente. No es
 26 4
posible elegir un valor de θ para el que 
 4 θ (1 − θ) = 0.7. El valor de θ
22

 
para el que la probabilidad de cuatro o más coincidencias, de 26 compa-
raciones, sea 0.7, es θ = 0.18. Se facilitan posteriores comentarios sobre el
cálculo de Bertillón en la Sección 7.3.6.
Otro argumento sostenido por los enemigos de Dreyfus fue que las pro-
porciones observadas en las letras del alfabeto obrantes en el documento
no guardaban relación con las que pudieran obtenerse en prosa francesa,
por término medio. Las proporciones observadas tenían una muy baja pro-
babilidad de ocurrencia (ver Tribe, 1971). Aunque se apuntó por los abo-
Caso dreyfus   181
Caso Dreyfus  

gados que la proporción más probable de letras del alfabeto era altamente
improbable, este extremo no fue apropiadamente comprendido.
Un ejemplo sencillo como el del lanzamiento de una moneda nos sirve
para explicar el sentido de la siguiente frase: “la proporción más probable
de las letras del alfabeto era también altamente improbable”. Consideremos
una moneda equilibrada, es decir, las probabilidades de cara o cruz son
iguales y valen 0.5. Si la moneda se tira 10.000 veces, el número esperado
de caras sería 5.000 (ver Sección 2.3.3 con n = 10000 y p = 1 / 2), siendo
también el resultado más probable. Sin embargo, la probabilidad de que
salgan concretamente 5.000 caras —que no es lo mismo que 4999 ó 5001,
o cualquier otra cifra, es aproximadamente 0.008 ó 1/125, que es una pro-
babilidad muy baja. El resultado más probable es, en sí mismo, altamente
improbable. La situación, desde luego, aumentaría teniendo en cuenta to-
das las posibles combinaciones de letras en la prosa francesa de tiempos
de Dreyfus. Esta idea puede expresarse de forma matemática como sigue:
si Dreyfus fuera inocente (Hd), las posiciones de las palabras (E) que ha-
bía utilizado serían altamente improbables; Pr(E| Hd) sería pequeña. Los
acusadores concluyeron que Dreyfus debió haber elegido la combinación a
propósito como cifra, por lo que se demostraba que era un espía. Estimaron
que Pr(Hd |E) debía ser muy pequeña. Los abogados no se dieron cuenta de
que cualquier otra combinación de letras también hubiera sido altamente
improbable y que, por consiguiente, la combinación utilizada por Dreyfus
no revelaba anormalidad alguna. Este es otro temprano ejemplo de la fala-
cia del Fiscal.
Darboux, Appell y Poincaré subrayaron también un punto fundamen-
tal: la naturaleza del proceso de inferencia que utilizaron para alcanzar su
conclusión. Dijeron que el caso expuesto era un clásico problema de cálcu-
lo de probabilidad de las causas, no un problema de cálculo de probabilidad
de los efectos. La diferencia entre esos dos conceptos estadísticos (y sus in-
ferencias) puede ilustrarse con el siguiente ejemplo (ver también Poincaré,
1992). Si sacamos una bola de una urna que contenga 90 bolas blancas y
10 bolas negras, la probabilidad de sacar una bola negra es 1/10, siendo
esta la probabilidad del efecto. Supongamos que disponemos de dos urnas
idénticas. La primera tiene una proporción de bolas como la ya menciona-
da 90:10. La segunda, por el contrario, tiene una proporción inversa: 10:90.
Elegimos una urna (ambas son equiprobables a estos efectos) y cogemos
una bola. Es blanca. ¿Qué probabilidad tenemos de haberla cogido de la
primera urna? En este ejemplo, el efecto es conocido —se ha sacado una
bola blanca—, pero la causa es incierta —no podemos conocer, a partir del
efecto, qué urna es más probable de haber sido elegida—.
182   Revisión histórica

Otro ejemplo con urnas puede verse en la Sección 1.6.2. Si se quieren


inferir las causas a partir de los efectos, se necesitan dos valoraciones: las
probabilidades a priori de las causas bajo examen (es decir, la falsedad o
no del documento en el caso Dreyfus), y las probabilidades de los efectos
observados para cada una de las posibles causas (las coincidencias obser-
vadas por Bertillón). Una descripción más detallada sobre esta clase de ra-
zonamiento aplicado a la ciencia forense fue propuesta por Poincaré y sus
colegas; se expondrá todo ello en la Sección 4.8 de este Capítulo.
Si se quiere realizar un análisis completo del documento del caso
Dreyfus se puede consultar el trabajo de Champod y otros (1999).

4.3 Argumentos estadísticos de los expertos de co-


mienzos del siglo XX

Una revisión de la literatura científica forense sugiere que, en la evalua-


ción de la evidencia forense, los primeros científicos forenses reconocían
que para alcanzar una decisión se debían tener en cuenta tanto los datos
adecuados como el contexto del caso. Sus puntos de vista fueron general-
mente compatibles con una estructura lógica de razonamiento bayesiana
(Taroni y otros, 1998).
A pesar de sus argumentos en el caso Dreyfus, Bertillón escribió que
los expertos debían estar preparados para presentar la evidencia en forma
numérica, que era más exigente que las opiniones de los expertos general-
mente requeridas. Proponía que los informes debían ser concluidos de la
forma siguiente:

“esta escritura, caracterizada por un conjunto de particularidades únicas


que el experto enumeró, sólo puede darse en un individuo entre cien,
uno entre mil, uno entre diez mil, o uno entre un millón de individuos”
(Bertillón, 1897/1898).

Más aún, Bertillón argumentaba que la única forma de aceptar una con-
clusión sobre la cuestión de fondo (por ejemplo, la identificación de quien
realizó un cuerpo de escritura) era considerar no sólo la evidencia estadís-
tica proporcionada por el examen del documento, sino también el resto de
información perteneciente a la investigación.
Bertillón consideraba que la presentación de resultados sin ese tipo de
información era una metodología errónea. El valor del resultado de una
comparación, aunque no sea concluyente, pudiera proporcionar suficiente
información como para posibilitar una declaración de culpabilidad cuan-
Argumentos
Argumentosestadísticos
estadísticosde
delos
losexpertos
expertosde
decomienzos
comienzosdel
delsiglo xx   183
sigloXX  

do el caso se contemple como un todo. La misma idea, más claramente


expresada de forma numérica, fue propuesta en 1934, para análisis de do-
cumentos escritos a máquina, por William Souder (1934/1935):

“Supongamos que el informe no remarcara una muy remota posibilidad


de recurrencia (de características o semejanzas entre los escritos indubi-
tados y dubitados). Supongamos que la fracción final de recurrencia de
las características tecleadas hubiera sido sólo de una entre cien. ¿Tiene
ese informe algún valor? Sí, si el número de mecanógrafos que pudieran
haber escrito el documento no pasara de cien: en ese caso el informe
sería fundamental. De forma similar, en examen de escritura manus-
crita no tenemos que realizar pruebas hasta conseguir una fracción de
uno dividido por la población de la tierra. Obviamente, el denominador
puede reducirse al número de personas que pueden escribir, y posterior-
mente incluso a las que pueden realizar ese tipo de trabajo. En un caso
especial, podría probarse que sólo uno de tres personas pudiera haber
escrito el documento. Nuestro informe, aunque mostrara una probabili-
dad matemática de sólo uno entre cien, establecería irresistiblemente la
conclusión”.

La misma idea de que la cuestión de fondo sólo puede ser valorada si el


caso se considera como un todo se encuentra reiteradamente en la litera-
tura jurídica:

“La ciencia forense, exclusivamente, no puede calcular la probabilidad


de que O.J. Simpson —o cualquier otro imputado— sea o no la fuente
de la evidencia genética recuperada. Se han de tener en cuenta factores
ajenos a la evidencia genética dentro de cualquier ecuación que inten-
tara calcular la probabilidad de que alguien sea la fuente de la muestra
genética” (Koehler, 1997a).

Uno de los ejemplos más antiguos de uso de la inferencia probabilísti-


ca es el de la identificación mediante huellas dactilares, y de forma nota-
ble los trabajos de Balthazard, un experto oficial francés. Los trabajos de
Balthazard tuvieron influencia en la determinación de estándares de iden-
tificación de huellas dactilares, como por ejemplo la exigencia de encon-
trar 17 concordancias de puntos característicos en la jurisprudencia ita-
liana desde 1954 (Balthazard, 1911). Se puede consultar Champod (1996)
para tener una visión general sobre reglas de identificación con huellas
dactilares.
A pesar de la debilidad de las hipótesis de Balthazard y las asunciones
utilizadas para realizar sus sencillos cálculos, los cuales han sido extensa-
mente revisados en la literatura científica (pueden verse comentarios en
184   Revisión histórica

Champod, 1996), es importante resaltar que el texto de Balthazard está de


acuerdo con la estructura de razonamiento lógico bayesiana:

“En el trabajo médico-legal, el número de puntos característicos en co-


rrespondencia puede bajarse a once o doce si estamos seguros de que
la potencial población de criminales no es igual a toda la población
de la tierra, sino que se restringe a un habitante de Europa, a un ciu-
dadano francés, o a un habitante de una ciudad, de un pueblo, etc…”
(Balthazard, 1911, p. 1964).

Así pues, como años más tarde Souder propuso para examinar docu-
mentos, aquí Balthazard estableció que la valoración a priori (basada en
información obtenida en la investigación y reduciendo el tamaño de la po-
blación origen del sospechoso) ha de asociarse al valor estadístico de la
evidencia para permitir juzgar al que ha de tomar la decisión sobre una
identificación (una valoración a posteriori). Desafortunadamente, noventa
años después, la discusión sobre la identificación a través de huellas dac-
tilares y el uso de modelos probabilísticos permanece abierta. Véase, por
ejemplo, Taroni y Margot (2000), Champod y Evett (2001), y Friedman y
otros (2002).

4.4 El Pueblo contra Collins

El caso Dreyfus es una caso arquetípico de abuso de ideas probabilísti-


cas, si bien la falacia de la que es ejemplo aún ocurre. Resulta fácil ahora
exponer la falacia a través de la consideración del Teorema de Bayes en
forma de apuestas (ver Sección 3.4). En su tiempo, sin embargo, la dificul-
tad para alcanzar un razonamiento correcto tuvo serias y desafortunadas
consecuencias para Dreyfus. Un ejemplo posterior de falacia ocurrió en un
caso que ha llegado a tener cierta notoriedad en la literatura legal probabi-
lística, conocido como El Pueblo contra Collins (Kingston, 1965a, b, 1966;
Fairley y Mosteller, 1974, 1977). En este caso, se defendieron en el Tribunal
valores de probabilidad carentes de justificación objetiva.
Brevemente, el crimen ocurrió así: una anciana llamada Juanita Brooks
fue tirada al suelo en un callejón del área de San Pedro, en Los Angeles
(USA), por alguien a quien no pudo ver ni oír. Según la Sra. Brooks, una
chica de pelo rubio, que llevaba ropa oscura, le robó el bolso y salió corrien-
do. John Bass, que vivía al final del callejón, oyó la conmoción y vio una
chica como la descrita corriendo a partir de la escena del crimen. También
se dio cuenta que llevaba cola de caballo y que se introdujo en un coche
El
ElPueblo
pueblo contra collins   185
contra Collins  

de color amarillo conducido por un negro, el cual tenía barba y mostacho


(Koehler, 1997a).
Una pareja que se correspondía con esas descripciones fue detenida
por la Policía y llevada a juicio. El Fiscal llamó al juicio a un matemático
para reforzar sus argumentos en pro de la identificación de los autores del
delito. Este testigo invocó la aplicación de la regla del producto para la
multiplicación de probabilidades de sucesos independientes (la 3ª ley de la
probabilidad (1.3), sección 1.6.5). La tercera ley podría ser extendida a un
conjunto de n sucesos independientes y también para dar cuenta de pro-
babilidades condicionales. Así, si E1 , E 2 ,...., E n son evidencias mutuamente
independientes y Hd representa la hipótesis de inocencia del sospechoso:

Pr(E1, E2, ..., En| Hd) = Pr(E1| Hd) Pr(E2 | Hd) ... Pr(En | Hd) (4.1)

Expresado en palabras, para sucesos mutuamente independientes, la


probabilidad de que todos ellos ocurran a la vez es igual al producto de las
probabilidades de que ocurra cada uno de ellos.
El matemático aplicó esta regla a cada una de las características descri-
tas por los testigos. Los valores sugeridos por el Fiscal para las probabili-
dades de las características descritas carecieron de justificación, un proce-
dimiento que hoy no se haría de modo distinto. Los miembros del Jurado
fueron invitados a elegir sus propios valores pero, naturalmente, no existe
registro alguno de si lo hicieron o no. En la Tabla 4.1 se han recogido los
valores sugeridos por el Fiscal.

Tabla 4.1 Probabilidades sugeridas por el Fiscal para varias ca-


racterísticas de la pareja observada en el caso El Pueblo
contra Collins.

Evidencia Característica Probabilidad


E1 Automóvil amarillo 1/10
E2 Hombre con mostacho 1/4
E3 Mujer con cola de caballo 1/10
E4 Mujer rubia 1/3
E5 Hombre negro con barba 1/10
E6 Pareja interracial en coche 1/1000
186   Revisión histórica

Utilizando la regla del producto para características independientes, el


fiscal calculó que la probabilidad de que una pareja seleccionada al azar
en una población reuniera todas estas características es de uno entre doce
millones (10 × 4 × 10 × 3 × 10 × 1000) = 12.000.000.
Así pues, el acusado fue declarado culpable. Sin embargo, el veredicto
fue recurrido en apelación por dos razones:
1. El testimonio estadístico carecía de un fundamento adecuado entre
la evidencia y la teoría estadística.
2. El testimonio y la forma en que el Fiscal lo utilizó, distrajo la aten-
ción del Jurado de su propia función: sopesar la evidencia de cara a
determinar la culpabilidad o no del sospechoso.
La primera de las razones se refiere a la falta de justificación de los valo-
res elegidos de probabilidad y a la asunción de que las características con-
templadas eran independientes entre sí. Como ejemplo de este último punto,
una asunción de independencia implica que la propensión de un hombre a
tener mostacho, no afecta a la propensión de dicho hombre a tener barba.
Además, se asumió implícitamente que las seis probabilidades calculadas
eran ciertas y fueron valoradas con seguridad. No se permitió la posibilidad
de que hubiera algo aparente (por ejemplo, que el pelo fuera teñido).
La segunda de las razones tiene aún considerable fuerza hoy. Cuando
se presenta evidencia estadística, se ha de tener mucho cuidado en no dis-
traer a los miembros del Jurado de su función acerca de sopesar la eviden-
cia de cara al veredicto de culpabilidad. La falacia de la transposición del
condicional es también evidente. La evidencia es (E1, E2, ..., E6) y Pr(E1, E2,
..., E6 | Hd) es muy pequeña (1 entre 12 millones). La tentación del Jurado es
interpretarla como que la probabilidad de que el sospechoso sea inocente
es muy grande.
Para que no se piense que las cosas han mejorado, consideremos el caso
de R. contra Clark. El primer hijo de Sally Clark, Christopher, murió ines-
peradamente a la edad de tres meses cuando Clark era la única otra perso-
na que estaba en la casa. La muerte fue inicialmente tratada como un caso
de muerte infantil súbita (SIDS). Su segundo hijo, Harry, nació al siguiente
año. Murió en similares circunstancias. Sally Clark fue detenida y acusada
de haber asesinado a sus hijos. En el juicio, un profesor de pediatría citó un
informe (Fleming y otros, 2000) que, en familias como la de Clark, la pro-
babilidad de que dos bebés murieran de SIDS era de 1 entre 73 millones.
Esto se basó en un estudio que estimaba la probabilidad de una muerte sú-
bita en una familia de ese tipo como de 1 entre 8500, por lo que dos supo-
nía multiplicar 8500 × 8500, una operación matemática que asumía que las
dos muertes eran independientes. En una carta abierta a Lord Canciller,
Poder de discriminación   187

con copia dirigida al Presidente de la Sociedad Legal de Inglaterra y Gales,


la Real Sociedad Estadística expresaba su preocupación por los errores es-
tadísticos que podían ocurrir en los Tribunales, con particular referencia a
Clark. Se cita de la carta:

“Un foco de especial atención pública fue la evidencia estadística dada por
un testigo médico, que basado en un estudio publicado [Investigación
confidencial sobre muerte súbita en la infancia] obtuvo una estimación
de [1 entre 8543] de la frecuencia de muertes súbitas (SIDS) en fami-
lias de las características de la familia de la imputada. Siguió el exper-
to elevando al cuadrado esa estimación, obteniendo un valor cercano a
uno dividido por 73 millones para la frecuencia de que se produzcan dos
muertes por SIDS en una familia como la del caso …
Algunos periódicos de aquél entonces subrayaron que aquélla era la
probabilidad de que las muertes de los dos hijos de Sally Clark fueran
accidentales. Esta falsa interpretación es un serio error de lógica conoci-
do como la falacia del Fiscal (Boletín de la Real Sociedad Estadística,
Marzo 2002)”.

Un caso similar es el ocurrido en Estados Unidos: Wilson contra Maryland.


Nótese que la falacia del Fiscal otorga el pequeño valor de probabilidad
de encontrar la evidencia en una persona inocente a la probabilidad de que
esa persona sea inocente.

4.5 Poder de discriminación

4.5.1 Derivación

¿Cómo de bueno es un método distinguiendo dos muestras como pro-


venientes de fuentes diferentes? Si un método falla al distinguir entre dos
muestras, ¿cómo se valora la fuerza de la evidencia consistente en que
las muestras proceden de una misma fuente? Estas preguntas fueron de
gran interés para los expertos forenses en los últimos años 60 y durante
la década de los 70. Consúltese, por ejemplo, el trabajo teórico de Parker
(1966, 1967), Jones (1972), y Smalldon y Moffat (1973). En Tippett y otros
(1968) se realizan experimentos para responder a las anteriores preguntas
con fragmentos de pintura; en Gaudette y Keeping (1974) para cabellos; en
Groom y Lawton (1987) para huellas de pisada; en Massonnet y Stoecklein
(1999) en pinturas; y en Adams (2003) para impresiones dentales.
Se seleccionan dos individuos de forma aleatoria en una población. La
probabilidad de que coincidan ciertas características dimanantes de ambos
188   Revisión histórica

individuos al compararlas entre sí (por ejemplo, tipo de sangre, fragmen-


tos de pintura sobre la ropa, cabellos) se conoce como probabilidad de no
discriminación o probabilidad de coincidencia (match) —se suele emplear
la notación PM en la literatura inglesa—. La probabilidad complementaria
se conoce como probabilidad de discriminación (Jones, 1972) o poder de
discriminación —se suele emplear la notación DP— (Smalldon y Moffat,
1973). La idea se aplicó, primeramente, en el campo de la diversidad eco-
lógica (Simpson, 1949), y más tarde a grupos sanguíneos (Fisher, 1951).
Consúltese también a Jeffreys y otros (1987) para una aplicación a perfiles
de ADN.
Consideremos una población y un locus con k genotipos, que se etique-
tan de 1 a k, donde el j-ésimo genotipo tiene una frecuencia relativa pj, de
forma que p1+p2+ … +pk=1. Esta suma obedece a la aplicación de la segun-
da ley de probabilidad para sucesos mutuamente excluyentes y exhausti-
vos (Sección 1.6.6.). Se seleccionan dos personas de forma aleatoria en la
mencionada población de forma que sus genotipos tengan la asunción de
independencia. ¿Cuál es la probabilidad de un cotejo positivo de tales ge-
notipos entre esas dos personas y en ese locus? Si a las dos personas las
denominamos como C y D, respectivamente, y por el hecho de tener ambas
el mismo genotipo 1 les ponemos un subíndice: C1 y D1, entonces:

Pr(C1) = Pr(D1) = p1

y la probabilidad de la intersección entre C1 y D1 viene dada por:

Pr(C1 D1) = Pr(C1) Pr(D1) = p12

tras aplicar la tercera ley de probabilidad a sucesos independientes (1.3).


Así pues, la probabilidad de que C y D tengan el genotipo 1 es p12.
Si Cj y Dj son los sucesos de que C y D sean de los genotipos j, (j = 1…k),
la probabilidad de que los dos individuos seleccionados aleatoriamente
produzcan un cotejo positivo en el genotipo j viene dado por:

Pr(Cj Dj) = Pr(Cj) Pr(Dj) = pj2

La probabilidad de un cotejo positivo de cualquier genotipo es la unión de


k sucesos mutuamente excluyentes, los cotejos positivos de los genotipos 1
… k. respectivamente. Sea Q la probabilidad PM de un cotejo positivo:
Poder de discriminación   189

Q = Pr(C1 D1 ∪ C2 D2 ∪ … ∪ Ck Dk) = Pr(C1 D1) + Pr(C2 D2) + … +


(4.2)
Pr(Ck Dk) = p12 + p22 + … + pk2

donde se ha aplicado la segunda y tercera ley de probabilidad ((1.3) y (1.2));


ver también (1.1) del Ejemplo 1.1.
El poder de discriminación, o probabilidad de discriminación, es el su-
ceso complementario al suceso cuya probabilidad es Q, o sea, 1 – Q.

Ejemplo 4.1 Consideremos las frecuencias de la Tabla 1.1, donde k = 3.


Entonces:

Q = 0.1882 + 0.3212 + 0.4912 = 0.379

DP = 1 – Q = 0.621

4.5.2 Evaluación de la evidencia mediante el poder de discriminación

El uso del poder discriminación tiene consecuencias en la estimación del


valor de la evidencia forense. Si dos muestras de material (por ejemplo, dos
manchas de sangre, dos conjuntos de fragmentos de pintura, dos grupos de
cabellos humanos) se declaran indistinguibles, resulta interesante ver si esto
tiene importancia forense. Si un sistema tiene un alto valor de Q, significa
que encontrar un cotejo positivo entre muestras materiales provenientes de
fuentes diferentes es bastante probable. Por ejemplo, si hubiera sólo una ca-
tegoría, no sería posible discriminación alguna. En ese caso, k = 1, p1 = 1 y Q
= p12 = 1. Es intuitivamente razonable pensar que un cotejo positivo en ese
sistema no tendría valor significativo. Inversamente, si el sistema tuviera un
bajo valor de Q, entonces sí tendría valor significativo un cotejo positivo.
Gettinby (1984) facilitó datos de grupos sanguíneos en la región esco-
cesa de Strathclyde para la cual encontró un poder de discriminación de
0.602. Él interpreta esto, en el contexto de grupos sanguíneos, diciendo
que “de cien casos donde dos muestras de sangre fueran comparadas vi-
niendo de personas distintas, con una media de 60 diríamos que vendrían
de personas distintas”.
Se pueden establecer límites para Q (Jones, 1972). Primero vemos que
p1 + … + pk = 1, y que 0 ≤ pj ≤ 1(j = 1 … k) según la primera ley de probabi-
lidad (1.4). Así, pj2 ≤ pj (j = 1 … k), y Q = p12 + … + pk2 ≤ 1; esto es, Q nunca
podrá ser mayor de la unidad. Sólo valdrá la unidad si y sólo si uno de los
pj vale la unidad y el resto cero. Un valor de Q = 1 quiere decir que todos
190   Revisión histórica

los miembros de una población están en la misma categoría. Por tanto, el


poder de discriminación es cero.
Veamos ahora el límite inferior. Ciertamente no podrá ser menor de cero.
Supongamos que la característica de interés (digamos, h0) divide el sistema
en k clases con la misma probabilidad 1 / k, de forma que pj = p0j = 1 / k (j =
1 … k). Q = Q0 = p012 + … + p0k2 = (1 / k2) + … + (1 / k2) = 1 / k. Ahora tenemos
en cuenta otra característica (h1, por ejemplo) que divide al sistema en k cla-
ses de probabilidades distintas, de forma que pj = p1j = (1 / k) + εj; (j = 1 … k).
Como Σj=1k pj = 1, puede inferirse que Σj=1k εj = 0. De este modo, para h1:

Q = Q1 = p112 + … + p1k2
= Σj=1k ((1 / k) + εj)2
= Σj=1k ((1 / k2) + (2εj / k) + εj2)
= (1 / k) + (2 / k) Σj=1k εj + Σj=1k εj2
= (1 / k) + Σj=1k εj2 (pues Σj=1k εj = 0)
≥ Q0

(pues Σj=1k εj2 nunca es negativo, y valdrá cero si y sólo si ε1 = ε2 = … = εk = 0;


es decir, si y sólo si p0j = p1j (j = 1 … k)).
Así pues, Q toma valores entre (1 / k) y 1, donde k es el número de cate-
gorías en el sistema. La probabilidad de cotejo positivo se minimiza, y el
poder de discriminación se maximiza, cuando las probabilidades de las
clases sean iguales entre sí. Esto es la confirmación de un resultado intui-
tivamente razonable, es decir, si tenemos que elegir qué técnica debemos
implementar entre varias posibles, las que tengan mayor variabilidad han
de ser preferibles a las que tengan menos variabilidad.
Partiendo del ejemplo de las frecuencias genotípicas para el locus LDLR
entre caucasianos en Chicago, basado en una muestra de tamaño 200
(Johnson y Peterson, 1999), el genotipo AA tiene una frecuencia relativa
del 18.8%, el BB del 32.1% y el AB del 49.1%. Por tanto, k = 3, y (1 / k) = 1/3
= 0.33. De este modo, Q no puede ser menor de 0.33, y el poder de discri-
minación no puede ser mayor que 0.67. El mínimo valor (1/k) de Q decrece
cuando k crece. El poder de discriminación crece cuando el número de
categorías también crece a la hora de clasificar unas determinadas caracte-
rísticas, un resultado que es intuitivamente atractivo.
Los anteriores cálculos asumen que el número N, tamaño de la pobla-
ción de interés, es muy grande y que para, al menos, un pj, pj2 es mucho
mayor que 1 / N. Si esto no se cumpliera podríamos obtener resultados
anómalos (Jones, 1972) con referencia a los resultados de Tippett y otros
(1968) en fragmentos de pintura; ver Ejemplos 4.2 y 4.3.
Poder de discriminación   191

Tippett y otros (1968) compararon, en un experimento, 2000 muestras


de fragmentos de pintura. Por varias razones, el número de muestras se re-
dujo a 1969, todas ellas procedentes de diferentes fuentes. Se examinaron
empleando varios test y sólo dos pares de muestras procedentes de fuentes
distintas fueron calificadas como indistinguibles. El número total de pares
que podemos formar aleatoriamente es: (1 / 2) × 1969 × 1968 = 1.937.496
(calculado mediante el número combinatorio que halla cuántas parejas
distintas de 2 elementos pueden formarse partiendo de 1969 elementos).
Dos pares de muestras se encontraron como indistinguibles. La probabi-
lidad de encontrar una pareja de muestras indistinguibles de forma aleatoria
se determina, empíricamente, como 2 / 1.937.496 = 1 / 968.748. Esta proba-
bilidad es una estimación de la probabilidad de un cotejo positivo (PM o Q).
El método por el cual fue determinado Q es extremadamente útil en situa-
ciones como la descrita por Tippett y otros (1968), donde no tenemos dispo-
nibles frecuencias relativas, y por tanto no se ha podido utilizar un sistema
de clasificación. El extremadamente bajo valor de Q (1 / 968.748) muestra el
alto valor discriminativo de los métodos usados por los autores. La conclu-
sión de este experimento es que estos métodos son muy buenos para diferen-
ciar pinturas provenientes de distintas fuentes. Gaudette y Keeping (1974)
también obtuvieron bajos valores de Q trabajando con pelos de cabeza hu-
mana. Groom y Lawton (1987) con zapatillas deportivas.
La equivalencia de las aproximaciones teórica y empírica para calcular
Q puede verificarse numéricamente usando el locus LDLR con frecuencias
genotípicas como las que se dan en la Tabla 1.1 señaladas anteriormente.
Asumamos una muestra de 1000 personas con frecuencias genotípicas en
las proporciones de la Tabla 1.1. Tenemos en cuenta todos los posibles pa-
res de personas en esta muestra y se comparan sus genotipos. Hay (1 / 2) ×
1000 × 999 = 499.500 (digamos, = P) pares diferentes. De estos pares hay el
número siguiente de coincidencias para cada genotipo:
• AA: (1 / 2) × 188 × 187 = 17.578.
• BB: (1 / 2) × 321 × 320 = 51.360.
• AB: (1 / 2) × 491 × 490 = 120.295.
Hay, así, M = {(188 × 187) + (321 × 320) + (491 × 490)}/ 2 = 189.233 pares
de personas que tienen el mismo genotipo. La probabilidad de un cotejo po-
sitivo utilizando este método numérico es M / P = 189233 / 499500 = 0.3788.
La probabilidad de un cotejo positivo es Q = p12 + … + p32 = 0.1882 + 0.3212 +
0.4912 = 0.3795. La aproximada igualdad de estos dos valores no es una coin-
cidencia, como lo demuestra un estudio de construcción de la razón M / P.
A Q se le llama, a veces, probabilidad promedio (Aitken y Robertson,
1987). Una probabilidad promedio proporciona una medida de la efectivi-
192   Revisión histórica

dad de un tipo particular de evidencia de transferencia distinguiendo entre


dos individuos seleccionados aleatoriamente (Thompson y Williams, 1991).
En el contexto de manchas de sangre, así se le llama porque es la media de
las probabilidades de que una persona inocente tenga el mismo alelo que
el extraído en una mancha de la escena del crimen. Por ejemplo, para el
locus TPOX, si la mancha del crimen fuera del alelo 8, la probabilidad de
que un sospechoso inocente diera positivo con la mancha de la escena del
crimen es, justamente, la probabilidad de tener el alelo 8: 0.554. Respecto
a los alelos 9, 10, 11 y 12, se obtienen las probabilidades 0.093, 0.054, 0.259
y 0.040. La probabilidad promedio sería el promedio de estas cuatro pro-
babilidades, ponderadas por sus frecuencias relativas en la población, que
son 0.554, 0.093, 0.054, 0.259 y 0.040, respectivamente. La probabilidad
media es, entonces, Q, dado por (0.554 × 0.554) + (0.093 × 0.093) + (0.054 ×
0.054) + (0.259 × 0.259) + (0.040 × 0.040) = 0.3872.

4.5.3 Muestras finitas

En Jones (1972) se explica la relación entre el resultado general para


una población, conceptualmente de tamaño infinito, y una muestra de ta-
maño finito. Consideremos un test para distinguir entre k clases: C1, …, Ck.
Se toma una muestra de n individuos entre la población relevante. Los nú-
meros de individuos por clase son: c1, …, ck, de forma que Σj=1k cj = n. Sea p̂ j
= cj / n, j = 1,2, ..,k una estimación de la probabilidad de que un individuo
seleccionado aleatoriamente sea de la clase Cj.
Hay n (n –1) / 2 posibles pares de individuos. Para una clase particular j,
el número de pares de individuos dentro de esa clase es cj (cj –1) / 2, j = 1,2
…,k. De este modo, la proporción total de pares que proporcionan un cote-
jo aleatorio positivo es: Q̂ ={ Σj=1k cj (cj –1) } / { n (n –1) }.
Entonces:

 k k
Q = (∑ c 2j − ∑ c j ) /{n (n − 1)}
j=1 j=1
k k
= (∑ c 2j − n ) /(n 2 − n ) pues ∑c j = n,
j=1 j=1 (4.3)
 k
1 1
= ∑ (c 2j / n 2 ) −  /(1 − )
 j=1 n n
 k 1  1
=  ∑ p̂ 2j −  / 1 − 
 j=1 n   n
Poder de discriminación   193

Cuando las frecuencias de las clases son conocidas, la probabilidad de un


cotejo positivo (PM) viene dada por la fórmula (4.2) Q = p12 + p22 + … + pk2 .
Sin embargo, cuando no sean conocidas y tengamos que estimarlas a
partir de una muestra, la fórmula (4.3) Q̂ = (Σj=1k p̂ 2j – (1 / n)) / (1 – (1 / n))
proporciona el cálculo estimado de la misma probabilidad para cualquier
muestra de todos los posibles valores de n y { p̂ j , j = 1, …,k}.
A medida que n crece hacia el tamaño de la población, se espera que
la probabilidad muestral observada converja hacia la probabilidad de la
población. Para un n grande puede verse que Q̂ tiende a Q̂ = Σ p̂ 2j , puesto
1
que 1 / n es despreciable. Cuando p̂ j tiende a pj, Q̂ tiende a Q. Sin embargo,
1
además del hecho de que n sea grande, se necesita que uno, al menos, de
los p̂ 2j sea mucho más grande que 1 / n, de tal forma que Σ p̂ 2j – (1 / n) ≅ Σ pj2.
Esto debe ser así para que k no sea muy próximo a n, o para n mucho ma-
yor que k, es decir, el número n de individuos ha de ser mucho mayor que
el número de categorías k.
Jones (1972) aporta dos ejemplos en los que la probabilidad de un cote-
jo positivo estimado por Q̂ = Σ p̂ 2j , no es una buena aproximación a dicha
1
probabilidad estimada con Q̂ de (4.3).
La probabilidad verdadera de un cotejo positivo (Q = Σ p 2j ) no podrá
ser conocida de forma exacta frecuentemente, a excepción de situaciones
como los sistemas de grupos sanguíneos en los que los tamaños muestrales
son extremadamente grandes y los {pj} son conocidos con precisión.

Ejemplo 4.2 (Muestra pequeña de tamaño n). Si n es pequeño, entonces


1 / n no es muy pequeño comparado con la unidad. Considere cuatro cartas
de juego de la cuales dos son rojas (R1 y R2: categoría 1) y dos son negras
(B1 y B2: categoría 2). Así, n = 4, c1 = c2 = 2, p1 = p̂1 = p2 = p̂ 2 = 1 / 2 y Q = Q̂1 =
(1 / 4) + (1 / 4) = 1 / 2. Obsérvese que 1 / n = 1 / 4, no es muy lejano a 1. Hay seis
posibles emparejamientos de las cartas: (R1R2; R1B1; R1B2; R2B1; R2B2; B1B2).
Entre ellos hay dos cotejos positivos: R1R2 y B1B2.
De este modo, Q̂ = 1 / 3. Puede verificarse por la fórmula Q̂ = (Σj=1k p̂ 2j
– (1 / n)) / (1 – (1 / n)). El hecho de que 1 / n no sea pequeño provoca la dis-
crepancia entre Q̂ y Q̂ .
1

Ejemplo 4.3 (Valores muy pequeños de pj2). Teniendo en cuenta el


trabajo de Tippett (1968) en el que se tuvieron en cuenta 1969 fragmen-
tos de pintura (n=1969), se encontraron dos parejas indistinguibles.
Etiquetamos esas parejas como clases 1 y 2. Los demás fragmentos los
consideramos pertenecientes a 1965 clases distintas de pintura etiqueta-
das con 3, ..., 1967. Estas últimas clases constan de un solo miembro, de
194   Revisión histórica

forma que p̂1 = 2 / 1969; p̂ 2 = 2 / 1969; p̂ 3 = … = p̂1967 = 1 / 1969. Entonces:


Q̂1 = (2 / 1969)2 + (2 / 1969)2 + (1 / 1969)2 + … + (1 / 1969)2 = 1973 / (1969)2
≅ 1 / 1965; mientras que Q̂ =  19732 − 1  / 1 − 1  = 4
=
1
, de
 1969 1969   1969  1969 × 1968 968748
acuerdo con el anterior resultado obtenido por los autores. Aquí el resultado
2
aproximado Q̂1 es muy inexacto porque ningún p̂ j es mucho mayor que 1/n.
De hecho, el más grande p̂ 2j es (2 / 1969)2, el cual es menor que 1 / n.

4.5.4 Combinación de sistemas independientes

Partiendo de (4.2) Q = p12 + p22 + … + pk2, es decir, de la probabilidad de en-


contrar un cotejo positivo entre dos individuos seleccionados aleatoriamen-
te en una población de referencia y utilizando un determinado sistema clasi-
ficador, supongamos ahora que disponemos de más de un sistema, digamos
p sistemas, entre sí independientes, cada uno con sus correspondientes va-
lores de Q: Q1, …, Qp. La probabilidad de encontrar un cotejo positivo entre
dos individuos seleccionados aleatoriamente en una población de referencia
con todos los sistemas (con los p tests) la denominamos PMp = ∏l=1p Ql. La
probabilidad de ser capaces de distinguir entre dos individuos utilizando es-
tos p tests es, por tanto: DPp = 1 – ∏l=1p Ql.
Consideremos el siguiente ejemplo de una comparación entre frecuencias
alélicas entre neozelandeses (NZ) y suizos caucasianos, contando con las fre-
cuencias relativas para los locus TPOX y TH01. Más abajo se aportan los cálcu-
los para hallar el poder de discriminación para la combinación de locus entre
TPOX y TH01. Los datos neozelandeses se extraen de Harbison y otros (2002).
Las frecuencias alélicas para los locus TPOX y TH01, tanto para suizos
como neozelandeses caucasianos, se muestran en las Tablas 4.2 y 4.3:

Tabla 4.2 Frecuencias alélicas para el locus TPOX para suizos y neozelan-


deses caucasianos y la probabilidad QTPOX de un cotejo positivo.

Alelo Frecuencia en Suiza Frecuencia en Nueva Zelanda (NZ)


8 0.554 0.529
9 0.093 0.082
10 0.054 0.063
11 0.259 0.294
12 0.040 0.032
QTPOX 0.3872 0.3780
Poder de discriminación   195

Tabla 4.3 Frecuencias alélicas para el locus THO1 para suizos y neo-


zelandeses caucasianos y la probabilidad QTHO1 de un cote-
jo positivo

Alelo Frecuencia en Suiza Frecuencia en Nueva Zelanda (NZ)


5 0.0 0.002
6 0.219 0.180
7 0.194 0.206
8 0.083 0.102
9 0.144 0.155
9.3 0.342 0.340
10 0.018 0.015
QTH01 0.2305 0.2251

La probabilidad de que dos muestras de sangre den cotejo positivo con


ambos criterios es: PM2 = QTPOX × QTH01.
• PM2 = QTPOX × QTH01 = 0.3872 × 0.2305 = 0.0892 (Suiza),
• PM2 = QTPOX × QTH01 = 0.3780 × 0.2251 = 0.0851 (Nueva Zelanda).
El poder de discriminación es DP2 = 1 – PM2 = 0.9108 (Suiza) y 0.9149
(Nueva Zelanda).

4.5.5 Atributos correlados

Atributos discretos: consideremos el ejemplo con pelos de Gaudette y


Keeping (1974) con más detalle. (El ejemplo de Tippett y otros (1968) con
pinturas tendría la misma argumentación).
Se dispuso de 366.630 pares de pelos, todos ellos provenientes de in-
dividuos distintos, que se compararon entre sí. Se encontraron 9 parejas
indistinguibles. Estos resultados se utilizaron para estimar la probabilidad
de que un pelo, procedente de A, tomado al azar, fuera indistinguible de
otro pelo, procedente de un individuo diferente B, también aleatoriamente
escogido. Esa probabilidad es 9 / 366.630 o 1 / 40.737. Se argumentó, des-
pués del experimento, que si se eligieran aleatoriamente 9 pelos distintos
entre sí, procedentes de la cabeza de un mismo individuo B, la probabili-
dad de que un pelo de A fuera distinguible de alguno de esos nueve sería:
[1 – 1 / 40.737]]9, que se simplifica, aproximadamente, con 1 – (1 / 4500). La
probabilidad complementaria, es decir, la probabilidad de que un pelo de A
196   Revisión histórica

sea indistinguible de, al menos, un pelo de B es 1 / 4500. Esta probabilidad


proporciona, en algún sentido, una medida de la efectividad de la compa-
ración entre pelos humanos en investigación de pelos forense.
Existen críticas a este planteamiento, cuyos detalles pueden verse en
Aitken y Robertson (1987). También existen comentarios al ejemplo en
Fienberg (1989). Barnett y Ogle (1982), por un lado, y Miller (1987) por
otro, critican la metodología, si bien Gaudette se defiende (1982, 1999).
Primero, observemos que la asunción de independencia entre los 9 pe-
los utilizados en el cálculo no es una cuestión importante. El uso de la
desigualdad conocida como “desigualdad de Bonferroni” otorga a la pro-
babilidad investigada por los autores una ligera corrección: 1 / 4526, pues
se trata de un límite superior del valor de la probabilidad investigada por
los autores. La desigualdad de Bonferroni establece que la probabilidad de
que, al menos, uno de varios sucesos ocurra, nunca es más mayor que la
suma de las probabilidades de las ocurrencias de los sucesos individuales.
Dados los sucesos R1, R2, …, Rn, la desigualdad establece que:

Pr(al menos, uno de R1, R2, …, Rn ocurra) ≤ Pr(R1) + …+ Pr(Rn)

Gaudette y Keeping (1974) compararon entre sí los nueve pelos, todos


ellos provenientes de una misma fuente, con un pelo del que se sabía que
provenía de una fuente distinta. Los sucesos R1, R2, …, R9 se corresponden
con la incapacidad de distinguir cada uno de los pelos procedentes de la
misma fuente con un pelo procedente de otra fuente. La probabilidad de
interés es la probabilidad de que, al menos, uno de ellos sea indistingui-
ble con un pelo proveniente de otra fuente. En definitiva, se trata de la
probabilidad de que, al menos, uno de esos sucesos R1, R2, …, R9 ocurra.
Utilizando la desigualdad de Bonferroni, puede verse que esta probabili-
dad nunca es mayor que la suma de las probabilidades individuales. Estas
probabilidades individuales son todas igual a 1 / 40.737. La suma de las
nueve es entonces igual a 9 / 40.737, lo cual es 1 / 4.526. Esta cifra es muy
próxima a la calculada previamente en el experimento original: 1 / 4.500.
Incluso si no se asume la independencia, existe un cambio muy ligero en el
cálculo de la probabilidad que antes se mencionó como medida del valor
de la evidencia.
Sin embargo, sí es importante la siguiente crítica. La probabilidad de
interés para el Tribunal es la probabilidad de que un pelo encontrado en el
lugar del crimen pertenezca al sospechoso. Otras probabilidades de interés,
cuya relevancia se explicará en el Capítulo 8, son las probabilidades de la
evidencia de la similitud entre los pelos (crimen y sospechoso) si tuvieran
Poder de discriminación   197

el mismo origen y las probabilidades de la evidencia de la similitud entre


los pelos si tuvieran orígenes distintos. Gaudette y Keeping (1974) propor-
cionaron una estimación de la probabilidad de que esos pelos, ‘seleccio-
nados al azar’, procedentes de individuos distintos, sean indistinguibles.
Esta probabilidad es una probabilidad promedio (Sección 4.5.2). Puede
utilizarse como guía, a grandes rasgos, de la eficacia de una comparación
entre pelos con fines identificativos. Sin embargo, el uso de la cantidad 1
/ 4.500 como el valor de la evidencia para un caso particular pudiera ser
muy sesgado.
La probabilidad promedio es la probabilidad de que dos individuos ele-
gidos al azar no puedan distinguirse entre sí con respecto al tipo de com-
paración que se realiza. Sin embargo, en una investigación particular, una
muestra tiene origen conocido (en este caso, la muestra de pelo del sospe-
choso, que es la muestra fuente) y la otra (la muestra en el lugar del crimen
o muestra receptora) no tiene origen conocido. Si el sospechoso no es el
autor del crimen, hay otra persona que sí lo es, y la probabilidad de interés
es la probabilidad de que una persona elegida aleatoriamente (que es como
el criminal debe ser considerado) en una población relevante pudiera tener
un pelo similar al del sospechoso —ver el Capítulo 9 para más detalles—.
Fienberg (1989) también subraya que “incluso si interpretamos la cifra
1 / 4.500 … como la probabilidad de un cotejo positivo entre el pelo de un
sospechoso y el de otro individuo diferente, aún estaríamos necesitados
de conocer tanto la probabilidad de un cotejo positivo entre dos pelos del
sospechoso y las probabilidades “a priori” de un cotejo positivo con pelos
procedentes del sospechoso y con pelos procedentes de individuos diferen-
tes”.

Medidas continuas: ahora nos enfrentamos al mismo problema pero


con distribuciones Normales multivariantes (Sección 2.4.6.). Smalldon y
Moffat trataron el tema en 1973. Para más detalles se puede consultar el
Capítulo 11.
Consideremos un conjunto de p atributos continuos incorrelados con
medidas {xl, siendo l = 1, …, p} y con las correspondientes funciones de
densidad de probabilidad f(x1), …,f(xp). Necesitamos estimar la probabi-
lidad de que dos individuos elegidos al azar en una población den cotejo
positivo en todos los p atributos.
Para el atributo l, la probabilidad de que la medida sobre el primer in-
dividuo caiga en un pequeño intervalo t de anchura dxl sobre la medida xl
es f(xl)dxl. Esto puede ser intuitivamente comprendido dándose cuenta que
f(xl) es la altura de la curva de densidad de probabilidad en xl. Por ejemplo,
198   Revisión histórica

en la Figura 2.1 la altura de la curva de densidad normal de media 0.7 y va-


rianza 0.005 en xl = 0.85 es 0.60 de (2.15). La probabilidad f(xl)dxl es el área
del estrecho rectángulo de altura f(xl) y anchura dxl. Esto se utiliza como un
método de cálculo de la probabilidad de que la medida caiga en el intervalo
t. Si f(xl) se asume lineal sobre un intervalo pequeño ±el centrado en xl, di-
gamos (xl – el, xl + el), entonces la probabilidad de que el segundo individuo
coteje positivamente con el primero, en el sentido de que la medida para el
atributo l del segundo individuo siga dentro de ±el de xl, será f(xl)2el. De este
modo, la probabilidad PMl de que dos individuos elegidos aleatoriamente
en la población den un cotejo positivo será: PMl = 2el ∫ {f(xl)}2 dxl.
La anterior expresión es una versión de la tercera ley de la probabilidad
aplicada a medidas continuas. Se trata del producto de la probabilidad de
que el primer individuo caiga en un cierto intervalo por la probabilidad de
que el segundo individuo caiga en el mismo intervalo condicionado a que
el primero ya lo estaba. Ese producto es luego integrado sobre todos los
posibles valores de la medida. Así se realiza una razonable aproximación al
cálculo de la probabilidad de un cotejo positivo, bien sentado que el ha de
ser suficientemente pequeño y que f(xl) podemos asumir que es razonable-
mente lineal en el intervalo (xl – el, xl + el). El poder de discriminación será
entonces: DPp = 1 – ∏l=1p PMl.

Atributos correlados normalmente distribuidos: la función de densi-


dad de probabilidad f(x) (2.25) para un conjunto de p atributos correlados
normalmente distribuidos x = (x1, ...,xp), donde, sin pérdida de generalidad,
la media puede ser tomada como el origen (0, ...,0), se puede expresar así:
f(x) = (√ |Ω| / (2π)p/2) exp {–(1 / 2) Σi,j=1p Ωijxixj } (Smalldon y Moffat (1973);
Anderson (1984)), donde la matriz Ω = {Ωij; i,j = 1, ...,p} es la inversa Σ–1 de la
matriz de varianzas y covarianzas Σ, y |Ω| es el determinante de Ω. El térmi-
no Σi,j=1p Ωijxixj es el resultado de la matriz multiplicación xTΩx, donde Ωij es
la entrada en la fila i-ésima y la columna j-ésima de Ω.
Asumiendo que los coeficientes de correlación no están muy próximos a
la unidad y que la superficie p-dimensional es razonablemente lineal sobre
el volumen de dimensiones ±el (l = 1, ...,p), la probabilidad de un cotejo po-
sitivo, generalizando el resultado para atributos incorrelados, es:
• PM = ∏l=1p 2el ∫ ... ∫ {f(xl)}2 ∏l=1p dxl = (√ |Ω| / πp/2){∏l=1p el} y
• DP = 1 – PM.
Para cada valor de p se encontrará una expresión (para p = 1,2,3 en
Tabla 4.4).
Poder de discriminación   199

Tabla 4.4 Cálculo de poder de discriminación DP para distribuciones


normales de p dimensiones

p DP
1 1 – e1 / (π1/2 σ1)
2 1 – e1 e2 / {π σ1 σ2 √ (1– ρ122 )}
3 1 – e1 e2 e3 / {π3/2 σ1 σ2 σ3 √ (1– ρ122 – ρ132 – ρ233 + 2 ρ12 ρ13 ρ23)}

Por tanto, los resultados son claramente dependientes de la elección del


valor de {el, l = 1, ...,p}. {el} ha de elegirse de tal modo que las probabilida-
des en la Tabla 4.4 sean menores que 1, porque en otro caso se incumpliría
la primera ley de la probabilidad (1.4). El otro criterio es que la superficie
p-dimensional ha de ser razonablemente lineal dentro del volumen de di-
mensiones ±el (l = 1, ...,p). Para hacerse una idea de lo que esto significa,
podemos imaginar, en una sola dimensión, las diferencias, d1 y d2 entre los
valores de la función de densidad de probabilidad en x y x + e para d1, y en
x y en x – e para d2. Si d1 y d2 tienen magnitudes muy parecidas, esto es in-
dicativo de linealidad.
Para la distribución normal estándar, tomamos para x el valor de 1 (o, de
modo más general, una desviación estándar de la media). Este es un punto
de inflexión en la función de densidad y cabe esperar que la curva sea más
o menos lineal en esa región. Esto puede verificarse tomando para e los
valores siguientes: 0.1x, 0.2x, 0.3x y 0.4x. Para 0.1x, d1 y d2 son similares
en cuatro cifras significativas; para 0.2x, d1 y d2 son similares en tres cifras
significativas; para 0.3x, d1 y d2 son similares en dos cifras significativas;
para 0.4x, d1 y d2 no son similares, ni si quiera en una cifra significativa.
Podemos contrastar los casos en que x = 1 y x =2 (o 2 desviaciones es-
tándar de la media). Cuando e = 0.05x, d1 y d2 son similares en dos cifras
significativas. Cuando e = 0.1x, d1 y d2 no son similares si quiera en una
cifra significativa.
Hemos de tener cuidado al considerar la correlación entre los atributos.
Resulta perfectamente posible que dos variables que tengan un alto grado
de correlación positiva fallen en su poder discriminador individualmente
consideradas, pero que funcionen muy bien en discriminación teniéndolas
en cuenta al mismo tiempo. Esto parece ir en contra de la intuición (con-
súltese, por ejemplo, Smalldon y Moffat (1973)). En la figura 4.1 se mues-
tra un ejemplo de lo que se acaba de comentar para escépticos.
200   Revisión histórica

Figura 4.1. Discriminación entre dos grupos, identificados por ∆ y o, con


dos variables perfectamente correladas

La evaluación de la evidencia para datos multivariantes se trata en el


Capítulo 11, con más detalles en Aitken y Lucy (2004).

4.6 Probabilidades de significación

4.6.1 Cálculo de probabilidades de significación

Durante el transcurso de un crimen se rompió una ventana. Se detuvo


a un sospechoso poco después y se encontró un fragmento de cristal en su
ropa. Al fragmento le llamamos F. Estamos interesados en valorar la incer-
tidumbre relacionada con el hecho de si el fragmento vino de la ventana
rota. La valoración se realiza, por el momento, dentro del contexto de las
denominadas probabilidades de significación. Más tarde, en las Secciones
4.7 y 10.4.2 se abordará este mismo problema bajo la perspectiva de las
probabilidades de coincidencia y desde los LR.
Sea θ0 el valor del parámetro que representa el índice de refracción de la
ventana rota. Se asume que se trata de un valor constante. Posteriormente
se considerará variable en las Secciones 4.7 y 10.4.2, por lo que se sustitui-
rá por un conjunto de medidas muestrales de índices de refracción de la
ventana rota.
Sea x el índice de refracción de F: fragmento de cristal encontrado en
la ropa del sospechoso. Esta medida puede considerarse como una obser-
vación de la variable aleatoria X, que representa la variación del índice de
Probabilidades de significación   201

refracción del cristal dentro de una ventana. Se asume que si F vino de una
ventana con índice de refracción θ, entonces X es tal que se distribuye así:
X ~ N(θ,σ2) (Sección 2.4.2). Por tanto, la función de densidad de probabili-
dad Normal para x es f(x|θ,σ2) = (1 / √2πσ2) exp{–(x–θ)2/2σ2).
La cuestión importante es ver si F vino de la ventana de la escena del cri-
men (y, por asociación, que el sospechoso estuvo en la escena del crimen) o
no. Si así fuera, θ sería igual a θ0.
Un argumento basado en las probabilidades de significación es como
sigue:
Supongamos que θ = θ0. La inferencia de que F procede de la ventana de
la escena del crimen requiere la asunción de que el índice de refracción me-
dio es único para esa ventana. Esto no es una asunción estadística particular
y es algo que quizá deba formar parte de I, la información de contexto.
La suposición de que θ = θ0 se llama hipótesis nula. Se representa como
H0. También se denomina hipótesis de trabajo o status quo. Esta nomencla-
tura no es particularmente apropiada aquí. No parece razonable comenzar
el análisis con la hipótesis de que el sospechoso estuvo en la escena del cri-
men. Sin embargo, se sostiene esta línea de razonamiento puesto que las
ideas estadísticas en las que está basada son de uso muy común.
Bajo la suposición anterior, θ = θ0, la desviación estándar de x, índice de
refracción de F, respecto de θ0, se esperaría que fuera muy pequeña. Lo que
entendemos por “pequeño” depende de σ, la desviación estándar.
La distribución de X se dice que es Normal. La desviación de una obser-
vación x respecto de θ se mide en términos de probabilidad de observar un
valor de la variable X tan extremo como x.
Si H0 es cierta, entonces: X ~ N(θ0,σ2).
Si Z = (X – θ0) / σ, entonces: Z ~ N(0,1).
También Pr(|X|>x) = Pr(|Z|>z).
Pr(|X|>x) es la probabilidad de haber observado x o algún valor más ex-
tremo si H0 (θ = θ0) es cierta (y por consiguiente, como se trató más arriba,
que F vino de la ventana rota de la escena del crimen). La frase “o algo más
extremo” se refiere a considerar un valor de x más extremo teniendo en
cuenta, implícitamente, una hipótesis alternativa: que H0 no es cierta, por
lo que θ ≠ θ0. La distancia de una observación x a una media θ se mide en
términos de la desviación estándar s.
Por ejemplo, si θ = 1.518458 y σ = 4 x 10–5, un valor de x = 1.518538 está
a (1.518538 – 1.518458) / 4 × 10–5 = 2 desviaciones estándar de la media. Un
valor del índice de refracción x más extremo de 1.518538 es aquél situado
más de 2 desviaciones estándar de la media en cualquier dirección, es decir,
mayor que 1.518538 o menor que 1.518378.
202   Revisión histórica

La probabilidad de lo que es observado o algo aún más extremo, partien-


do de la base de que la hipótesis nula es cierta, se conoce como probabilidad
de significación. Puede considerarse como una medida de compatibilidad
de los datos con la hipótesis nula. Normalmente se emplea la notación P
para expresar el resultado de esa probabilidad. Un valor de P pequeño arro-
ja dudas sobre la verosimilitud de la hipótesis nula. En el ejemplo tratado
aquí, un valor pequeño arrojaría duda sobre la hipótesis de que F viniera
de la ventana rota en la escena del crimen, y podría tomarse la decisión de
actuar como si la hipótesis nula fuera falsa. Sin embargo, no es claro lo que
entendemos por “pequeño”.
Ciertos valores de P se han utilizado para determinar valores conocidos
como niveles de significancia sobre los que un experto se apoya para deci-
dir que H0 es falsa y actuar en consecuencia.
Como valores típicos tenemos los siguientes: 0.1, 0.05 y 0.01.
De este modo, por ejemplo, para un valor x de índice de refracción en el
que P<0.05 se diría que es significativo al nivel del 5%.
Si para evaluar la evidencia se empleara el nivel de significancia, la elec-
ción del nivel de P es de importancia crucial. Cuando se decida sobre el
nivel de P resulta útil tener en cuenta las implicaciones de esa decisión. La
probabilidad de significación P es la probabilidad de lo que es observado o
algo más extremo si la hipótesis nula fuera cierta.
Supongamos que el nivel de significancia elegido es 0.05. Únicamente
por azar, en el 5% de las ocasiones en que se lleve a cabo el test y tengamos
que tomar una decisión, en función del valor resultante, se rechazará falsa-
mente la hipótesis nula.
En el ejemplo del cristal, en el 5% de las ocasiones en que hagamos tests,
con un nivel de significancia del 5%, y en el cual F proceda de la ventana
de la escena del crimen, se tomará una decisión que rechace la hipótesis
nula. La decisión será errónea. Obviamente habrá muchos otros factores
que influyan en la decisión en un caso particular. Sin embargo, el principio
permanece. El uso de este tipo de análisis proporciona la probabilidad de
un error. Se trata de un error muy bien conocido que se denomina error
tipo I, o error de primera clase.
La probabilidad de un error tipo I puede reducirse si se reduce el nivel
de significancia a 0.01 o 0.001, por ejemplo. Sin embargo, esto sólo puede
hacerse a expensas de incrementar la probabilidad de un error diferente
denominado error tipo II, o error de segunda clase. El error tipo II es el error
de fallar en el rechazo de una hipótesis nula cuando es falsa. En el ejem-
plo, sería el error de decidir que F venía de la ventana rota de la escena del
crimen cuando no procedía de allí. En general, si otros factores —como el
Probabilidades de significación   203

número de fragmentos considerados—, permanecen constantes, no es po-


sible elegir un nivel de significancia que provoque un descenso simultáneo
de los errores tipo I y II.
Asumamos que F procede de la ventana rota de la escena del crimen,
entonces θ = θ0. A modo de ilustración, puede contemplarse la Tabla 4.5
donde θ = 1.518458 y σ = 4 x 10–5, en la que se calculan probabilidades de
significación.
La determinación de la probabilidad del error tipo II requiere conocer
el valor de θ si F no procediera de la escena del crimen. Generalmente ese
conocimiento no está disponible y la probabilidad no se puede calcular. En
algunas ocasiones, sin embargo, sí puede hallarse. Por ejemplo, si la defen-
sa argumentara que F procede de otra determinada fuente. En cualquier
caso, aunque no pueda calcularse la probabilidad de ese error, hay que ser
conscientes de que se puede cometer.
Obsérvese que la filosofía descrita aquí encaja mal con el principio de que
todos son inocentes hasta que no se demuestre lo contrario. La hipótesis nula
del ejemplo es que F procede de la ventana de la escena del crimen. El error en
el rechazo de la hipótesis nula es una aceptación implícita de que el sospecho-
so se encontraba en la escena del crimen. La hipótesis que se chequea es la hi-
pótesis nula. Es la que se rechaza o se acepta. El cálculo de la probabilidad de
significación P se basa en la asunción de que la hipótesis nula es cierta. Sólo
si P es pequeña (y los valores de 0.05, 0.01 y 0.001 lo son) se sostiene que la hi-
pótesis nula es falsa. Se requiere evidencia para demostrar que el sospechoso
no ha estado en la escena del crimen. El principio de que todos son inocentes
hasta que se pruebe lo contrario requiere evidencia que demuestre que el sos-
pechoso estuvo en la escena del crimen, no al revés.
Este extremo también lo señala Gaudette (1999) en el contexto de un
examen de pelos. Podemos realizar una analogía con una alarma de incen-
dio. Un error tipo I se corresponde con el hecho de que la alarma no suene
cuando haya fuego. El error tipo II se corresponde con el hecho de que la
alarma suene cuando no existe incendio. En el supuesto contemplado, el
error tipo I es más grave que el tipo II. En la ciencia forense, el error tipo II
es más grave que el tipo I, puesto que conllevaría la falsa incriminación de
un inocente.
La interpretación de P se debe hacer de forma cuidadosa. Considere el
siguiente resultado de la Tabla 4.5: θ0 = 1.518458 y σ = 4 x 10–5, x = 1.518560,
y P = 0.01. Todo esto puede escribirse más explícitamente en la notación de
la probabilidad condicional como:

Pr(|X|>x | θ = θ0,σ) = 0.01 (4.4)


204   Revisión histórica

Resulta difícil relacionar lo anterior con la siguiente pregunta: ¿estuvo el sos-


pechoso en la escena del crimen? Un valor pequeño parecería indicar que la
hipótesis nula es falsa, pero nada se dice sobre la probabilidad de que la hipóte-
sis nula sea cierta. Sería incorrecto utilizar el valor de P como el valor de que el
sospechoso estuviera en la escena del crimen. La probabilidad transpuesta:

Pr(θ = θ0 | |X|>x, σ) (4.5)

sería más útil, pero eso no es lo que se ha calculado. La relación entre (4.4)
y (4.5) es similar a la existente entre la probabilidad de la evidencia dado
que el sospechoso es culpable y la probabilidad de que el sospechoso sea
culpable dada la evidencia. Confundirlas es el error de la falacia de transpo-
sición del condicional (Sección 3.3.1). Es posible, sin embargo, relacionar
la probabilidad de significación con la probabilidad de que el sospechoso
estuviera en la escena del crimen, a través del uso de los LR.

Tabla 4.5 Probabilidades de significación P para índices de refracción


x de cristal cuya media es θ0 = 1.518458 y desviación estándar
σ = 4 × 10–5, y decisiones asumiendo un nivel de significancia
del 5%.

Actuación como si F
procediera o no de la
x z = (x – θ0)/σ P=Pr(|X|>x) = Pr(|Z|>z)
ventana de la escena
del crimen

1.518500 1.05 0.29 procede


1.518540 2.05 0.04 no procede
1.518560 2.55 0.01 no procede

4.6.2 Relación con el LR

La relación entre las probabilidades de significación y el LR ha sido in-


vestigada por muchos autores. Las primeras referencias se deben a Good
(1956), Lindley (1957) y Edwards y otros (1963). Lo que exponemos aquí,
en el contexto de índices de refracción de fragmentos de cristal, está basa-
do en Berger y Sellke (1987).
Consideremos dos hipótesis competitivas y complementarias:
• Hp: el fragmento de cristal encontrado sobre la ropa de la víctima
procedía de la ventana de la escena del crimen;
Probabilidades de significación   205

• Hd: el fragmento de cristal encontrado sobre la ropa de la víctima


no procedía de la ventana de la escena del crimen.
Sea p la probabilidad de que Hp sea cierta, y 1 – p la probabilidad de que
Hd sea cierta. Si Hp es cierta, entonces θ, el índice de refracción medio de
la fuente del fragmento F encontrado sobre la ropa de la víctima, es θ0. Si
Hd es cierta, entonces se asume que F procede de una fuente distinta cuyo
índice de refracción medio no es θ0.
Asumamos que Hp es cierto. Representamos la función de densidad de
probabilidad de X, el índice de refracción de F, por f(x | θ0, Hp). En este con-
texto, se trata de una función de densidad Normal.
Asumamos que Hd es cierto. Representamos la función de densidad de
probabilidad de X por f(x | Hd). La media θ del índice de refracción del frag-
mento hallado sobre la ropa de la víctima puede verse como una variable
que varía de ventana en ventana en el contexto de un conjunto de ventanas
de características análogas y que conforman una población de referencia.
Como tal, esa variable tiene también una función de densidad de probabili-
dad que llamamos f(θ). Si θ es conocida, la función de densidad de probabi-
lidad de x viene dada por f(x | θ). Como extensión de la ley de probabilidad
total (Sección 1.6.7) para datos continuos, donde las integrales reemplazan
a los sumatorios, llegamos a la siguiente expresión:

f(x | Hd) = ∫ f(x | θ) f(θ) dθ.

La función de densidad de probabilidad de X, independientemente de


Hp y Hd, es entonces:

f(x) = p f(x | θ0,Hp) + (1 – p) f(x | Hd)

De este modo, la probabilidad de que Hp sea verdad, dado x, es la si-


guiente:

−1
 (1 − p)f ( x | H d ) 
Pr( H p | x ) = f ( x | θ0 , H p )p / f ( x ) = 1 +  (4.6)
 pf ( x | θ0 , H p ) 

expresión similar a la utilizada en casos de paternidad (ver Sección 9.8.1).


La apuesta a posteriori a favor de Hp es entonces, usando una versión
de (3.11):

Pr(H p | x ) p f ( x | θ0 , H p )
= ×
1 − Pr(H p | x ) 1− p f (x | Hd )
206   Revisión histórica

donde p / (1–p) es la apuesta a priori a favor de Hp y [f(x | θ0,Hp) / f(x | Hd)] el


LR, V de (3.12).
Para ilustrar el cálculo de LR asumimos que si θ ≠ θ0, es una variable
aleatoria que tiene una distribución Normal con media θ0 y varianza τ2,
donde τ2 >> σ2. Entonces:
• f(x | Hd) = ∫ f(x | θ) f(θ) dθ, y así:
• (X | Hd) ∼ N(θ0,σ2+τ2),
(consultar la Sección 10.2.2 para una ulterior derivación de este resultado).
Con τ2 >> σ2, la distribución de (X | Hd) es, aproximadamente, una N(θ0,τ2).
Así pues, el LR se puede expresar así:
−1 / 2
f ( x | θ0 , H p ) (2πσ2 ) exp(−( x − θ0 ) 2 / 2σ 2 )
V= = −1 / 2 ,
f (x | Hd ) (2πτ2 ) exp(−( x − θ0 ) 2 / 2τ2 )
Consideremos τ = 100 σ. Sea z2 = (x – θ0)2 / σ2 el cuadrado de la distancia
estandarizada entre la observación x y la media especificada por la hipóte-
sis nula θ0.
Entonces:

 − z2 z2   − z2 

V = 100 exp + 
4 
≅ 100 exp 
 2 2 × 10   2 

Por ejemplo, sean x = 1.518540, θ0 = 1.518458, σ = 4 x 10–5, y τ = 4 x 10–3.


Entonces, z2 = 2.052 y P = 0.04, como antes (ver Tabla 4.5), la cual, al
nivel del 5%, conduciría a rechazar la hipótesis nula: que el fragmento de
cristal procedía de la ventana de la escena del crimen. Sin embargo:

 − 2.052 
V = 100 exp  = 12.2 ,

 2 
un valor para V que, según la escala verbal de la Tabla 3.10, representa mo-
derada evidencia para soportar Hp frente a Hd. Esa aparente contradicción
entre los dos métodos no es nada nuevo, y se le ha dado el nombre de “pa-
radoja de Lindley” (ver, por ejemplo, Good, 1956; Lindley, 1957; Edwards y
otros, 1963; y Lindley, 1980, para una referencia de Lindley como “parado-
ja de Jeffreys”).
Supongamos que se han hallado n fragmentos de cristal sobre la ropa del
sospechoso en lugar de uno. Sea x la media de esos fragmentos. Entonces:
Probabilidades de significación   207

( X | θ) ∼ N(θ,σ2/n)

Si Hd es cierta: X ∼ N(θ0,τ2+σ2/n).
El LR se calcula así:

(2πσ 2 / n ) −1 / 2 exp{−n ( x − θ 0 ) 2 / 2σ 2 }
V= −1 / 2

{2π(τ 2 + σ 2 / n )} exp{−( x − θ 0 ) 2 /{2(τ 2 + σ 2 / n )}}


τ n  − (x − θ0 ) 2  n 1   − n(x − θ0 ) 2 
≅ exp   2 − 2 
≅ 100 n exp  
σ  2  σ τ   2σ 2 

Tabla 4.6 Variación del LR dado en (4.7) (V=100√n exp(–zn2 / 2)), con ta-
maño muestral n, para una distancia estandarizada zn = 2, con
nivel de significación del 5%.

n V
1 14
5 30
10 43
20 61

El cuadrado de la distancia estandarizada, zn, entre x y θ0, es:

zn2 = n( x –θ0)2 / σ2

y, de este modo:

V=100√n exp(–zn2 / 2) (4.7)

un valor que se incrementa en relación directamente proporcional al cua-


drado del tamaño muestral. Supongamos que zn = 2, un valor que es signi-
ficativo en el nivel del 5% en un test de la hipótesis θ = θ0 contra su alterna-
tiva θ ≠ θ0. En la Tabla 4.6 pueden encontrarse valores de V para distintos
valores de n. En cada caso, un resultado que es significativo en el nivel del
5%, tiene un LR que presta soporte a la hipótesis de que los fragmentos de
cristal encontrados en la ropa del sospechoso procedían de la ventana de la
escena del crimen.
208   Revisión histórica

4.6.3 Combinación de probabilidades de significación

Las probabilidades de significación se combinan de forma distinta que las


probabilidades de sucesos. A partir de la tercera ley de probabilidad (1.6), el
producto de dos probabilidades, tanto para sucesos dependientes como in-
dependientes, nunca será mayor que cualquiera de las probabilidades de los
multiplicandos. Sean A y B los sucesos que tengamos en cuenta. Entonces:

Pr(AB) = Pr(A) Pr(B | A) ≤ Pr(A), o bien, Pr(AB) = Pr(B) Pr(A | B) ≤ Pr(B)

con igualdad en el primer supuesto si y sólo si Pr(B | A) = 1, Pr(A) ≠ 0; y en


el segundo caso si y sólo si Pr(A | B) = 1, Pr(B) ≠ 0. Observe también que
Pr(AB) > Pr(A) Pr(B) si Pr(B | A) > Pr(B) o Pr(A | B) > Pr(A).
Sin embargo, resulta posible, para características que sean dependientes,
que la probabilidad de significación de la observación conjunta pueda ser
mayor que cualquiera de las probabilidades de significación individuales.
Supongamos, por ejemplo, que además del índice de refracción del frag-
mento de cristal se ha medido la densidad de éste. Utilizamos los subíndices
1 y 2 para hacer referencia a las mediciones, en el orden citado. Entonces
x = (x1, x2)T es un vector que contiene las mediciones de las dos caracterís-
ticas del cristal encontrado en la ropa del sospechoso, y θ = (θ1, θ2)T es un
vector de medias de índice de refracción y densidad del cristal de la ven-
tana situada en la escena del crimen.
Sea θ1 = 1.518458 (coincidente anteriormente con θ0), x1 = 1.518540, y σ1
= 4 × 10–5. Entonces, la probabilidad de significación (digamos, P1), para el
índice de refracción de F es 0.04 (ver tabla 4.5). Supongamos θ2 = 2.515 g
cm–3, con desviación estándar σ2 = 3 × 10–4 g cm–3, y x2 = 2.515615 g cm–3.
El estadístico estandarizado z2 es igual a:

z2 = (2.515615 – 2.515) / 0.0003 = 2.05

y la probabilidad de significación (digamos, P2) para la medida de densi-


dad de F es también 0.04.
El producto de P1 por P2 es 0.0016. Sin embargo, esa no es la probabi-
lidad de significación resultante. Se ha de tener en cuenta la correlación
entre el índice de refracción y la densidad.
Sea ρ el coeficiente de correlación entre el índice de refracción y la den-
sidad. Le otorgamos el valor 0.93 (Dabbs y Pearson, 1972), y asumimos que
la función de densidad de la probabilidad conjunta del índice de refracción
y la densidad es una Normal bivariante con media θ y matriz de covarianza
Probabilidades de coincidencia   209

Σ. Para el vector bivariante Normal x se puede demostrar que el estadístico


U dado por la expresión:

U = (x – θ)T Σ–1 (x – θ)

tiene una distribución chi-cuadrado con dos grados de libertad: U ∼ χ22


(Mardia y otros, 1979, p.39). Los valores de la distribución χ2 se pueden en-
contrar en libros de tablas o software estadístico especializado.
La probabilidad de significación resultante para las dos características
puede determinarse calculando U y refiriendo el resultado a las tablas de la
distribución. La matriz de covarianza es la siguiente:

 σ12 ρσ1σ 2   (4 × 10 −5 ) 2 1.116 × 10 −8   1.6 × 10 −9 1.116 × 10 −8 


Σ=  =  = .
 ρσ σ
 1 2 σ 22  1.116 × 10
−8
(3 × 10 − 4 ) 2  1.116 × 10 −8 9 × 10 −8 

La desviación de la observación x de la media θ es (x – θ)T = (8.2 × 10–5,


6.15 × 10–4). Haciendo operaciones (x – θ)T Σ–1 (x – θ) es igual a 4.204, un
resultado que tiene una probabilidad de significación P = 0.1225. Cada ca-
racterística individual es probabilísticamente significativa con un nivel del
5%, sin embargo juntas no lo son ni siquiera con un nivel del 10%.
Por tanto, hay que tener extremo cuidado al utilizar las probabilidades
de significación. La interpretación de esas probabilidades como medida de
la evidencia no es fácil.

4.7 Probabilidades de coincidencia

4.7.1 Introducción

Una de las críticas realizadas sobre la evidencia probabilística en el caso


Collins (Sección 4.4) fue la falta de justificación de las frecuencias relativas
que fueron citadas en la vista oral. Los trabajos de Tippett y otros (1968),
así como de Gaudette y Keeping (1974), fueron los primeros intentos de
recopilación de datos. La falta de datos sobre la distribución de las medi-
das de una característica de interés es algo que aún existe y es uno de los
principales problemas en la ciencia forense.
Si las medidas de ciertas características (tales como los índices de refrac-
ción de fragmentos de cristal) de la evidencia dejada en la escena del crimen
fueran similares a las medidas de las mismas características en la evidencia
encontrada en el sospechoso, el experto forense se plantea conocer en qué me-
210   Revisión histórica

dida son similares y si la similitud se refiere a características poco frecuentes o


muy frecuentes, lo cual recibe el nombre de tipicalidad por ciertos autores. En
ciertos casos, tales datos existen, ayudando a contestar esas preguntas.
Podemos poner como ejemplo un caso de un perfil de ADN. Tenemos
en cuenta varios locus y las frecuencias relativas de las categorías dentro
de cada uno de ellos bien tabuladas para poblaciones diferentes. De este
modo, si se encuentra en la escena del crimen una mancha de sangre de un
perfil particular, existen varias posibilidades:
a) que venga de la víctima
b) que venga del criminal
c) que venga de cualquier otra persona
Si la primera y tercera opción pueden descartarse y el perfil se encuen-
tra en el x% de la población, es decir, que pertenece a un subconjunto de
la población con Nx/100 miembros, donde N es el tamaño de la población
y Nx/100 no es menor que 1, necesariamente, una persona que tenga ese
alelo tiene una probabilidad 100/ Nx de ser el origen de la mancha si to-
dos los candidatos tienen las demás características iguales para ser elegidos
como tales. Esto es consecuencia de la falacia del abogado explicada en la
Sección 3.3.4.
Otro ejemplo en el que existen datos, aunque no en la extensión del ADN,
es el índice de refracción de fragmentos de cristal. Varios laboratorios han
recopilado información durante años para calcular frecuencias relativas
de fragmentos de cristal encontrados en distintos lugares (por ejemplo:
ropa, zapatillas deportivas y peinaduras). Curran y otros (2000) proporcio-
nan una lista de hasta 2000 piezas de orígenes distintos. Desde el punto de
vista estadístico, esos datos pueden conducir a conclusiones desviadas de
la realidad porque sólo se han obtenido datos de cristales relacionados con
hechos delictivos. Sin embargo, a modo de ejemplo en el que se es cons-
ciente de este problema, Walsh y Buckleton (1986) realizaron un estudio
de fragmentos de cristal en zapatillas deportivas obteniendo datos no rela-
cionados con hechos delictivos.
Evett (1977 y 1978) y el mismo autor junto con Lambert (1982, 1984 y
1985), usando datos de Dabbs y Pearson (1972) desarrollaron un método
de cálculo de probabilidades denominadas probabilidades de coinciden-
cia, con relación a índices de fragmentos de cristal, en el que se pregunta-
ron estas dos cuestiones:
1. ¿Son los fragmentos de control y los recuperados similares en algún
sentido?
2. Si son similares, ¿las características examinadas son raras o son fre-
cuentes?
Probabilidades de coincidencia   211

Un ejemplo sencillo y trivial de todo esto podría ser el siguiente: un tes-


tigo ocular dice que vio a una persona corriendo desde el lugar del cri-
men y que tenía dos brazos. Se encuentra a un sospechoso con dos brazos.
Ciertamente existe coincidencia en lo de los dos brazos pero eso es tan
común que no merece la más mínima atención. Si en lugar de lo anterior el
testigo ocular dice que vio a una persona muy alta con dos brazos, descar-
taríamos a las mujeres y a los hombres de escasa o mediana estatura. Pero
si el testigo ocular dice que vio a una persona manca correr desde el lugar
del crimen y el sospechoso es manco, esa similitud es una evidencia más
fuerte que todas las demás que hemos citado, con diferencia.
Si nos fijamos en un ejemplo más complicado y mucho menos trivial,
por ejemplo, en un análisis de fragmentos de cristal, existe posibilidad real
de aplicar el método de la probabilidad de coincidencia porque hay datos
suficientes para conocer la distribución de las medidas de los índices de re-
fracción. No ocurre lo mismo con fragmentos de pintura o comparaciones
de pelos porque no hay datos suficientes. Se comete un crimen y se encuen-
tran fragmentos de cristal provenientes de una ventana (fuente) en la escena
del crimen. Aparece un sospechoso (receptor) y se encuentran fragmentos
de cristal en su ropa. La interpretación de los datos se realiza cubriendo las
dos etapas a las que anteriormente hicimos referencia. Primero, las medi-
das de los índices de refracción se comparan mediante criterios estadísticos
que tienen en cuenta la variabilidad de los índices en la ventana fuente y la
variabilidad de esos índices entre ventanas o fuentes diferentes. En segundo
lugar, si se encuentran dos grupos de medidas similares, la significancia del
resultado se valora refiriéndola a los datos disponibles adecuados.
Se necesita realizar las siguientes asunciones para aplicar estas dos eta-
pas:
a) las medidas de los índices de refracción en fragmentos de cristal prove-
nientes de una ventana rota tienen una distribución Normal, centrada
en un valor medio θ, característico de esa ventana, y una varianza σ2.
b) la media θ varía de ventana a ventana, y en la población de ventanas
θ tiene su propia distribución de probabilidad cuya forma se desco-
noce.
c) la varianza σ2 es la misma para todas las ventanas y es conocida.
d) todos los fragmentos de cristal transferidos se asumen provenientes
de la misma fuente; puede emplearse un criterio estadístico basado
en el rango de las medidas para chequear este extremo (por ejem-
plo, Evett (1978)).
e) todos los fragmentos de partículas transferidas son cristales de ven-
tana.
212   Revisión histórica

4.7.2 Etapa comparadora

La comparación se realiza considerando la diferencia, escalada de for-


ma apropiada, entre la media de las medidas en los fragmentos de la fuente
y la media de las medidas de los fragmentos transferidos. El estadístico de
test es el siguiente:

X−Y
Z= ,
σ(n + m −1 )1 / 2
−1

donde X es la media de m medidas sobre fragmentos dimanantes de la fuen-


te e Y es la media de n medidas sobre fragmentos recogidos en el receptor.
Se asume que Z tiene una distribución estándar N(0,1). De este modo, si
| Z | > 1.96 se concluye que los fragmentos encontrados en el receptor no
son similares a los provenientes de la fuente, y si | Z | < 1.96 se concluye que
los fragmentos encontrados en el receptor son similares a los provenientes
de la fuente. El valor 1.96 se elige para que la probabilidad de error tipo I
(decidir que los fragmentos del receptor tienen un origen diferente que los
de la fuente) sea 0.05. Otros posibles valores que pudieran seleccionarse
serían 1.64, 2.33, o 2.58, que se relacionarían con probabilidades de error
tipo I de 0.10, 0.02 y 0.01 respectivamente. Este estadístico y el correspon-
diente test asociado responden a la primera pregunta (1).

4.7.3 Etapa de significancia

Si se concluye que los fragmentos en el receptor y de la fuente no son


similares, el asunto allí termina. Si son similares, hay dos posibilidades:
• que vengan de la misma fuente
• que no vengan de la misma fuente
Para valorar la significancia, hemos de estimar la probabilidad de una
coincidencia (conocida como probabilidad de coincidencia). Se define como
la probabilidad de que un conjunto de n fragmentos provenientes de algu-
na ventana escogida al azar entre una población de ventanas sea similar a
la ventana de control con índice de refracción medio X . Vamos a emplear
la notación C( X ).
Comparamos esta definición de probabilidad de coincidencia con la
dada en la discusión del poder de discriminación (Sección 4.5). Allí los
fragmentos de la fuente y del receptor provenían de una selección aleatoria
en la población relevante y la probabilidad estimada era la de la coinci-
Probabilidades de coincidencia   213

dencia entre sus características de dos muestras aleatoriamente escogidas.


Aquí la media de los índices de refracción de los fragmentos provenientes
de la fuente es X , se considera fija, y tratamos de averiguar en qué medida
los fragmentos encontrados en el receptor pudieran ser similares a los de
la fuente. Se ignora toda variabilidad del valor de X . En el Capítulo 10 se
muestra cómo abordar el problema de la variabilidad de X .
Observemos que tenemos dos niveles de variabilidad. En el Capítulo 11 se
estudiará el tema con mayor profundidad. Primero, existe la probabilidad de
que una ventana seleccionada al azar entre una población de ventanas tenga
un índice de refracción medio dentro de un intervalo (u, u+du), representán-
dose esta probabilidad por p(u). En la práctica, para éste método, los datos
que se utilizan para estimar p(u) se representan en un histograma y la distri-
bución de probabilidad viene dada como una distribución discreta sobre las
categorías formando el histograma, por ejemplo, { p(u1), … p(uk) }, donde hay
k categorías. En segundo término, se requiere hallar la probabilidad de que n
fragmentos seleccionados aleatoriamente de una ventana de índice de refrac-
ción medio u sean similares a los fragmentos provenientes de una ventana
fuente con media X de índice de refracción. A esta probabilidad la llamamos:
S (u). Entonces, es posible expresar C( X ) en función de p(u) y S (u):
X X

C( X ) = Σi=1k p(ui) S ( ui) (ver Evett, 1977)


X

Sean {x1,…,xm}, con media X , las medidas de los índices de refracción de


los fragmentos procedentes de una ventana W rota en la escena del crimen:

X ~ N(w,σ2/m), donde w es el índice de refracción medio de W

Sean {y1,…,yn}, con media Y , las medidas de los índices de refracción de T


fragmentos procedentes del receptor; si los T fragmentos procedieran de W:

Y ~ N(w,σ2/n), donde w es el índice de refracción medio de W

Como los dos conjuntos de medidas son independientes, entonces:


( X – Y ) ~ N(0,σ2((1/m) + (1/n)), y por tanto:
X−Y
Z= ~ N(0,1)
σ(n + m −1 ) 1 / 2
−1

Si los T fragmentos provienen de W y lo asumido para las distribuciones


es correcto, la probabilidad de que tenga Z un valor mayor de 1.96, es de-
cir: |Z| > 1.96 es de 0.05.
214   Revisión histórica

El resultado anterior puede interpretarse en sentido contrario a aceptar


que los T fragmentos procedan de W. Por consiguiente, la asunción origi-
nal pudiera cuestionarse y decidir que los T fragmentos no proceden de W.
Evett (1977) demostró que, con esta regla de decisión en la etapa compara-
tiva, la probabilidad S (u) en la etapa de significancia viene dada por:
X

S (u) = Φ {( X – u)m1/2 / σ + 1.96(1 + m/n) 1/2 }–


X
(4.8)
– Φ {( X – u)m1/2 / σ – 1.96(1 + m/n) 1/2 },

a partir de la cual C( X ) puede calcularse en cualquier circunstancia.


En la Sección 10.4.2 y en la Tabla 10.6 se pueden ver algunos ejemplos.

4.8 Relación de verosimilitudes (LR)

En la Sección 3.5.1 se presentó el concepto de LR como: Pr(E|Hp) /


Pr(E|Hd) que convierte apuestas a priori a favor de la proposición del Fiscal
(Hp) en apuestas a posteriori a favor de la proposición del Fiscal, dada la
evidencia E.
Desde un punto de vista histórico es útil recordar que, en el caso Dreyfus
tratado en la Sección 4.2, Poincaré y sus colegas defendieron la aproxi-
mación bayesiana apuntada y propusieron el uso del LR. De hecho, como
Poincaré escribió y como se ha discutido ya en secciones anteriores:

“un efecto puede ser producto de una causa A o de una causa B. El efecto
ha sido observado. Queremos averiguar la probabilidad de que el efecto
sea causado por A, es decir, la probabilidad a posteriori, pero no somos
capaces de averiguar, por adelantado, la probabilidad a priori de que esa
causa produzca el efecto. Queremos hablar de la probabilidad de que se
produzca un resultado sin que nunca antes hayamos observado ese re-
sultado” (Poincaré, 1912, página 229).

Sin embargo: “como es absolutamente imposible para nosotros (los ex-


pertos) conocer la probabilidad a priori, no podemos decir: esta coinciden-
cia prueba que la relación entre la probabilidad de que sea una farsa a la
contraria es un valor real. Sólo podemos decir: partiendo de la observación
de esta coincidencia, esta relación es X veces mayor que antes de haberla
hecho” (Darboux y otros, 1908, página 504).
Para más información sobre este argumento estadístico y un ejemplo de
aplicación sobre huellas de pisada, véase Taroni y otros (1998).
Probabilidades de coincidencia   215

De forma similar, en 1930, Bruno de Finetti expresaba el mismo punto


de vista:

“el cálculo de la probabilidad es la lógica de lo probable. Así como la lógi-


ca formal enseña la deducción de la veracidad o falsedad de determina-
das consecuencias, partiendo de la asunción de la veracidad o falsedad
de ciertas premisas, así el cálculo de la probabilidad enseña la deducción
de una mayor o menor verosimilitud o probabilidad de ciertas conse-
cuencias a partir de la mayor o menor verosimilitud o probabilidad de
ciertas asunciones” (de Finetti, 1930, página 259).

Olkin (1958) propuso una evaluación del problema de la identificación


en términos de cálculo estadístico del LR, lo cual —decía—, es la relación de
probabilidad de las características bajo la asunción de identidad con la rela-
ción de probabilidad de las características bajo la asunción de no identidad.
Kingston y Kirk (1964) hicieron el siguiente comentario sobre el LR:

“ahora consideramos el problema de evaluar la significancia de la co-


incidencia de determinadas propiedades en dos trozos de cristal.
Supongamos que la probabilidad de que dos fragmentos de diferentes
fuentes tuvieran esa coincidencia en propiedades fuera del 0.005, y que
la probabilidad de que esos dos fragmentos vinieran de la misma fuente
teniendo esa coincidencia en propiedades fuera del 0.999. ¿Qué signifi-
can esos datos? Son sólo guías para tomar una decisión sobre el origen
de los fragmentos”.

Parker y Holford (1968) realizaron un interesante y profético comen-


tario, en el cual el problema de la comparación fue tratado en dos fases
(similitud y discriminación) en lugar de una sola, tal y como lo hace el LR.
Las dos etapas abordan, dicen, las tradiciones de los científicos forenses.
Singularmente, hacen el siguiente comentario:

“podríamos configurar un índice R cuyo numerador fuese la verosimilitud


de que el pelo procediera del sospechoso y cuyo denominador fuera la ve-
rosimilitud de que procediera de una población de referencia. En lenguaje
vulgar, podríamos decir que es R veces más probable que el pelo proce-
diera del sospechoso que de alguien escogido al azar en una población de
referencia, pero esa frase sólo podría ser utilizada por lo expertos forenses
puesto que plantea en una sola fase la cuestión de la comparación”.

En posteriores capítulos se explicará cómo debe usarse el LR, que es el


índice R de Parker y Holford, que tiene bastante más que un ‘uso limitado’,
y cómo su uso considera la similitud de una forma natural. El siguiente
comentario es de Jeffrey en 1975:
216   Revisión histórica

“el método bayesiano no tiene la tarea de la metodología científica de es-


tablecer la verdad de una hipótesis científica, sino que establece grados
de confirmación o no de la misma partiendo de la evidencia disponible
—positiva, negativa, o neutra, según los casos—”.

Finalmente:

“la regla de Bayes nos dice que tenemos que multiplicar las apuestas a
priori por el LR de la evidencia sangre/ADN para calcular las apuestas a
posteriori a favor de la hipótesis de paternidad recayendo sobre el impu-
tado. El Tribunal, posteriormente, ha de reflexionar sobre si esa apuesta
cumple el estándar de prueba. De este modo, el experto debería decir:
‘cualquiera que fuere la probabilidad que ustedes piensen sobre si el im-
putado es el padre considerando otras evidencias, la mía multiplica la
apuesta por X’” (Robertson y Vignaux, 1992).

La importancia del LR para evaluar la evidencia crece cuando se consi-


deran todas las disciplinas a las que se dedican los citados autores: mate-
máticos (de Finetti y Olkin), filósofos (Jeffrey), expertos forenses (Kingston,
Kirk, Parker, Holford), juristas (Robertson), e investigadores operativos
(Vignaux).
Capítulo 5
Inferencia bayesiana Inferencia bayesiana

5.1 Introducción

La inferencia bayesiana puede incorporar información subjetiva en el


problema que se analiza. Algunos han criticado este modo de hacer infe-
rencia por la pérdida de objetividad que esto conlleva. Sin embargo, o bien
los datos obtenidos tienen suficiente fuerza como para que todo el mun-
do esté de acuerdo en cómo interpretarlos, sin tener en cuenta la infor-
mación a priori, o bien el analista debe utilizar información apriorística
para tomar las decisiones correctas relacionadas con los datos disponibles.
Incluso también es posible utilizar lo que se ha llamado un a priori ignoran-
te, donde la información subjetiva apriorística es mínima. En el Capítulo
3 se trató de la inferencia bayesiana con sucesos discretos. Este Capítulo
extiende las ideas a variables continuas, trata de distribuciones y verosimi-
litudes a priori y a posteriori, e incluye una comparativa entre intervalos
de confianza frecuentistas con intervalos de probabilidad bayesiana. Más
adelante nos referiremos a ideas bayesianas para muestreo (Capítulo 6) y
a paternidad (Sección 9.8). Se puede encontrar una introducción general a
la inferencia bayesiana en Berry (1996), Antelman (1997) y Lee (2004).
A lo largo de este Capítulo y, ciertamente, en este libro en general, debe
tenerse en mente que “la metodología bayesiana no pretende calcular pro-
babilidades ‘verdaderas’: se trata de un método eficaz para analizar, criticar
y comprobar la coherencia de las opiniones de la gente, ayudándoles a re-
visar sus opiniones de forma coherente. Nada más, y nada menos” (Taroni
y otros, 2001).
Hay una interpretación de la probabilidad, descrita en el Capítulo 1,
como una medida de creencia, lo cual es una propiedad de un individuo
concreto. Esta interpretación mantiene que la probabilidad es subjetiva.
Por el contrario, la definición frecuentista de probabilidad es la propiedad
de una secuencia. Todo aquél que observe esa secuencia estará de acuerdo
con su valor. Se trata de un interpretación objetiva.
Lindley (1991) aportó un excelente argumento en defensa de la proba-
bilidad subjetiva. Afirma que la objetividad es como un marchamo de que
218   Inferencia bayesiana

aquello es ciencia, siendo valorada la subjetividad como algo a evitar a toda


costa. En ciencia, si una hipótesis se cree digna de tener en cuenta y algunos
científicos dudan de su veracidad, se realizan experimentos repetidos (aná-
logo a la presentación o corroboración de la evidencia en un tribunal) hasta
que exista un acuerdo generalizado. Al igual que pasa con los científicos, los
miembros de un Jurado pudieran tener diferentes creencias apriorísticas,
(es decir, antes de realizar el ‘experimento’ de escuchar la evidencia).
Consideremos el siguiente ejemplo: se tiene una información inicial I y
dos personas tienen diferentes creencias sobre la veracidad de un evento
G, es decir, sus probabilidades Pr(G | I) no son iguales. Se produce una evi-
dencia E y se calculan las probabilidades a posteriori de cada uno de ellos
Pr(G | E,I). Se puede demostrar que la evidencia E acerca los valores de sus
probabilidades a posteriori. A medida que fuera mayor la evidencia E, la
cercanía entre los valores de las probabilidades a posteriori también sería
mayor. Lindley (1991) señala que es eso lo que exactamente ocurre en un
Tribunal. Los miembros del Jurado llegan a una convicción común sobre
lo que se dilucida gracias a lo que oyen en el juicio oral. Nada les fuerza a
que lleguen a un acuerdo y, sin embargo, la experiencia demuestra que ese
acuerdo común es generalmente alcanzado.
Otro campeón de la causa de la subjetividad ha escrito:
“aceptamos la definición de probabilidad subjetiva como el grado de
creencia que alcanza un individuo respecto a la ocurrencia de un cierto
suceso … Vale la pena considerar el significado preciso, técnico, sobre la
diferencia entre lo objetivo y lo subjetivo. De hecho, estimo que muchos
errores de interpretación y muchas discusiones acaloradas derivan de
una interpretación más o menos inconsciente y vaga sobre lo objetivo,
en cuanto sinónimo de ‘fundado, razonable, serio’, mientras que sole-
mos llamar subjetivo a un juicio ‘no fundado, precipitado, improvisado,
sacado de una chistera’. Nada puede estar más lejos de las intenciones
de la teoría de la subjetividad: su finalidad se centra en el estudio y pro-
moción de evaluaciones sobre la probabilidad con la misma profundi-
dad con que lo hacen quienes defienden evaluaciones objetivas y, si fue-
ra necesario, hasta con un mayor sentido de responsabilidad respecto a
no hacerse falsas ilusiones respecto a su pretendida naturaleza objetiva.
Aquellos a los que no les agradan o desprecian las probabilidades sub-
jetivas y creen que lo remedian utilizando probabilidades objetivas, no
alcanzarán mejores resultados que los que, debido al nivel imperfecto
de rigidez del material disponible, decidieran usarlas denominándolas
‘materiales perfectamente rígidos’”. (de Finetti, 1952).

La mayor parte de lo que vamos a tratar a continuación se refiere a la es-


timación de los valores de los parámetros poblacionales a partir de mues-
Introducción   219

tras. La variación en un parámetro se modela mediante una distribución


a priori, que es una distribución de probabilidad. La incertidumbre sobre
el valor de un parámetro es representada por la probabilidad. Es posible
realizar afirmaciones sobre el valor de un parámetro en la forma de una
distribución de probabilidad. Esta distribución está caracterizada por uno
o más parámetros (conocidos como parámetros apriorísticos).
Una de las críticas más comunes a la aproximación bayesiana para eva-
luar la evidencia (y también para otras áreas de análisis estadístico) es el
uso de probabilidades subjetivas. Sin embargo, la subjetividad no puede
confundirse con arbitrariedad. Un punto de vista repetido es que si la pro-
babilidad representa un grado de creencia, entonces tiene que ser arbitra-
ria, porque una persona pensará una cosa y otra persona otra cosa dife-
rente. Sin embargo, el que el grado de creencia sea personal no significa
que sea arbitrario. La probabilidad puede representar en qué medida una
persona cree en algo como cierto, pero esta creencia está basada en toda la
información relevante que esa persona tiene disponible. Tal información,
será diferente de la que disponga otra persona y por tanto esta otra perso-
na tendrá un grado de creencia diferente respecto al de la primera persona.
Esa diferencia no es una diferencia arbitraria. La implicación consiste en
que el grado de creencia, o probabilidad, está condicionado a lo que cono-
ce cada persona. Por tanto, todas las probabilidades son condicionales y
esas condiciones deben ser explícitamente establecidas. La necesidad de
explicitar esas condiciones es una de las ventajas del método bayesiano.
Forman parte de la estadística bayesiana las opiniones previas (medidas
a priori de creencia o probabilidades a priori), la actualización de la opi-
nión después de la observación de los datos (para producir una medida de
creencia a posteriori o una probabilidad a posteriori) y la cuantificación de
la incertidumbre a través de la utilización de distribuciones de probabili-
dad.
La gente que tenga diferentes probabilidades a priori observará los mis-
mos datos (evidencia), para los cuales tendrán la misma verosimilitud. El
término “verosimilitud” es la palabra utilizada para describir la probabili-
dad de observar los datos condicionados a los valores de los parámetros,
considerándola como una función de los parámetros. Las probabilidades a
posteriori se irán acercando entre sí en distintas personas a medida que se
acumule evidencia e información en el cálculo de la verosimilitud. Por tan-
to, la influencia del grado previo de creencia decrecerá a medida que ocu-
rre lo anterior. En definitiva, se genera un proceso donde la verosimilitud
va dominando a la probabilidad a priori y las probabilidades a posteriori
son cada vez menos subjetivas que las a priori.
220   Inferencia bayesiana

Las probabilidades subjetivas pueden medirse utilizando apuestas, por


analogía.
Resulta aquí importante el concepto de coherencia. Las apuestas se di-
cen coherentes si un individuo que apuesta a todo lo posible ni gana ni
pierde. Si las apuestas (probabilidades) se realizan de otra forma de tal
manera que, se haga lo que se haga, o gana el organizador o el que apuesta,
se dice que no son coherentes. Como ejemplo, consideremos una carrera
de tres caballos y que el organizador otorgue estas probabilidades de que
ganen, respectivamente: 1 / 4, 1 / 3 y 1 / 2. Sumadas entre sí superan la uni-
dad y son, de este modo, incoherentes. Un individuo que apueste a cada
caballo en esos términos perderá dinero. Supongamos que apuesta 13000
£ en total: 3000 £ al primer caballo, 4000 £ al segundo, y 6000 £ al tercero.
La elección realizada por el individuo parte de la base de que pretende
no perder dinero en la larga carrera respecto a cualquiera de los caballos.
Sin embargo, sea cual fuere el resultado de la carrera, el individuo recu-
pera 12000 £ y el organizador se lleva 1000 £. (Desde luego, en la práctica,
en carreras de caballos puntuales pudieran perder dinero los organizado-
res, pero a largo plazo, en carreras repetidas, con apuestas incoherentes,
ganan dinero, que es el modo por el que pueden mantenerse para vivir).
Cuando un científico considera probabilidades, tales deben ser formuladas
de modo que sean coherentes, de otro modo se producirá un resultado in-
coherente (o sin sentido).
La subjetividad entra también en la elección del modelo (distribución de
probabilidad) y en la elección de los valores a priori de los parámetros. De
este modo, dada una información inicial I, dos personas podrían estar de
acuerdo en la forma del modelo en cuanto a ser suficientemente flexible y a
que, en general, satisface la mayor parte de las creencias en un contexto par-
ticular. Sin embargo, podrían estar en desacuerdo en el valor de los paráme-
tros. Esto puede que no sea muy importante si los datos ofrecen suficiente
información para que la verosimilitud acabe dominando a la distribución a
priori, como podrá verse en los ejemplos. En otros casos, sí lo será porque
los datos no son determinantes. Sin embargo, esta situación sólo refleja la
realidad de que un dato irrelevante no proporciona mucha información.

Nota del traductor: Conviene repasar aquí un concepto muy importante en


la inferencia bayesiana: la función de verosimilitud. Este concepto se lo debemos
a Fisher y se define partiendo de la distribución conjunta de una muestra. Nos
valemos de lo que se refleja en el Capítulo 7 de la obra titulada Fundamentos de
Estadística de Daniel Peña, de Alianza Editorial.
Supongamos una variable discreta X, con distribución P(X,θ) conoci-
da. θ representa a un parámetro. Al tomar muestras de tamaño n de esa po-
Introducción   221

blación, cada muestra puede representarse por un vector X= ( x1 , x 2 ,..., x n ),


cuyos componentes son los valores observados. La distribución de ese vector cuan-
do tomamos distintas muestras se denomina distribución conjunta de la muestra.
Si la muestra es aleatoria simple (m.a.s) (es decir, que las variables x1 , x 2 ,..., x n son
independientes e idénticamente distribuidas (i.i.d)), como: P(X = X0) = P(x1 = x10, x2
= x20, ..., xn = xn0) = P(x10) ... P(xn0), la probabilidad conjunta de la muestra es el pro-
ducto de las probabilidades individuales. Conociendo P(X,θ) podemos fácilmente
conocer la probabilidad de cualquier muestra.
Cuando la variable sea continua, con función de densidad f(X,θ), entonces la
probabilidad de la muestra será: P(x1, x2, ..., xn) = ∏i=1n f(xi).
Supongamos una variable aleatoria continua X con función de densidad que re-
presentamos por f(X | θ) para indicar que depende de un vector de parámetros θ, y
una muestra aleatoria simple X = x1, x2, ..., xn. La función de densidad conjunta de la
muestra es: f(X | θ) = ∏i=1n f(xi | θ). Cuando θ es conocido, esta función determina la
probabilidad de aparición de cada muestra.
En un problema de estimación se conoce un valor particular de X, la muestra,
pero θ es desconocido. Sin embargo, la función f(X | θ) es útil porque si sustitui-
mos X por el valor observado, X0 = (x10, x20, ..., xn0), la función f(X0 | θ) proporciona,
para cada valor de θ, la probabilidad de obtener el valor muestral X0 para ese θ.
Si variamos θ manteniendo fijo X0 se obtiene la función de verosimilitud L (θ |
X), o L(θ).
L(θ) = L (θ | X0) = f(X0 | θ), donde X0 es fijo, y θ variable.
La función de verosimilitud invierte el papel de la función de densidad (o de
probabilidades en el caso de que la variable sea discreta), como consecuencia del
cambio de óptica que tenemos en la inferencia: en lugar de suponer que conoce-
mos θ y queremos calcular las probabilidades de distintas X posibles, suponemos
que hemos observado una muestra X0 concreta —que se convierte, por tanto, en
fija— y evaluamos la verosimilitud de los distintos valores de θ. Este cambio de
perspectiva puede hacer cambiar la forma de la función por completo.

Representamos el parámetro a priori por θ, que puede ser un vector, y f(θ)


una densidad a priori. Los datos, representados por la variable x, son mode-
lados por la verosimilitud. La verosimilitud envuelve a x y θ. Es proporcional
a la función de densidad de probabilidad (para la variable x continua) y a
la función de probabilidad (para la variable discreta x). Denominamos a la
expresión L(θ | x) como la verosimilitud, enfatizando que nos es de interés
como función de θ condicionada a un valor de x. Se puede ver un ejemplo, en
el contexto de un muestreo binomial, en la Sección 5.6.4.
La verosimilitud y la densidad a priori se combinan para formar la fun-
ción de densidad a posteriori f(θ | x) utilizando el teorema de Bayes: f(θ | x)
∝ L(θ | x) f(θ); o bien: f(θ | x) = L(θ | x) f(θ) / f(x), donde f(x) es la función de
densidad de probabilidad para x no condicionado a θ. Su valor es calcula-
ble mediante: f(x) = ∫ f(x | θ) f(θ) dθ.
222   Inferencia bayesiana

En el paradigma bayesiano, los datos se toman como fijos y conocidos.


La incertidumbre reside en los parámetros. Los datos modifican la distri-
bución a priori a través de la función de verosimilitud para llegar a la dis-
tribución a posteriori.

5.2 Inferencia bayesiana para una probabilidad de


Bernoulli

Vamos a realizar inferencias para una probabilidad binomial θ, es decir,


para una que está asociada a una prueba de Bernoulli (en la que sólo hay
dos posibles resultados; consultar la Sección 2.3.2). Imaginemos que θ sea
la proporción verdadera de drogas en un alijo. En el paradigma bayesiano,
θ tiene una distribución de probabilidad y se precisa determinar esa dis-
tribución para realizar inferencias sobre θ. La distribución más común en
este caso es la Beta, tratada en la Sección 2.4.4. Más adelante se presentará
un ejemplo de su uso en muestreo de drogas (Capítulo 6).
La función Beta es una distribución a priori conjugada para una dis-
tribución binomial. Ambas se combinan dando lugar a una distribución
a posteriori, que es también una distribución Beta. Véase Berry (1991c,
1993) para más detalles.
Otro ejemplo de conjugacidad, que no se desarrollará más de lo que se
hará aquí, es el de la distribución gamma. Esta distribución tiene dos pa-
rámetros: α y β (para más detalles véase Evans y otros (2000)). Resulta ser
una distribución a priori conjugada para una distribución de Poisson con
la siguiente función de densidad de probabilidad:

f(d | α,β) =cdα–1 e–βd, d > 0, α > 0, β > 0, (5.1)

donde c = βα / Γ(α). Γ es la función gamma (2.8).


La distribución Beta para θ, parametrizada por α y β, es la siguiente:

f(θ | α,β) = θα–1 (1 – θ)β–1 / B(α,β), 0 < θ < 1 (Sección 2.4.4) (5.2)

Consideremos una variable aleatoria X que tenga una distribución bino-


mial (Sección 2.3.3) con parámetros n y θ, de forma que:

n
Pr(X = x | n, θ) =  θ x (1 − θ) n − x , x = 0,1,..., n.
x 
Inferencia
Inferencia bayesiana
bayesiana para
para una
una probabilidad
probabilidad de bernoulli   223
de Bernoulli  

Esta es la función de verosimilitud y, en este contexto, podemos llamar-


la L(θ | n,x). Entonces, la distribución a posteriori de θ vendrá dada por:

f(θ | x+α, n–x+β) = θx+α–1 (1 – θ)n–x+β–1 / B(x+α, n–x+β), 0 < θ < 1 (5.3)

que suele resumirse con la notación Be(x+α, n–x+β).


En el caso particular donde x = n, la función de densidad viene dada por:

f(θ | n+α, β) = θn+α–1 (1 – θ)β–1 / B(n+α, β), 0 < θ < 1 (5.4)

De manera similar, cuando x = 0:

f(θ | α, n+β) = θα–1 (1 – θ)n+β–1 / B(α, n+β), 0 < θ < 1 (5.5)

Un caso especial de la distribución Beta ocurre cuando α = β = 1. Estamos


ante una distribución a priori uniforme para la que f(θ | 1,1) = 1 para 0 < θ <
1 de (5.2). Esta función representa la ignorancia a priori del valor de θ que
toma un valor constante, 1, en el rango de posibles valores de θ.
Nótese de (5.3) que si α y β son pequeños respecto a n, x y n – x, entonces
la elección de los parámetros para la distribución a priori no tiene mucha
importancia. Esto se ejemplifica en el Capítulo 6 para la elección del ta-
maño de la muestra cuando se precisa efectuar un muestreo sobre un alijo
de unidades discretas de pastillas de droga, CDs o cintas de video. Una
aplicación para la detección de metabolitos de nandrolona en orina puede
encontrarse en Robinson y otros (2001).
Weir (1996a) proporciona una aplicación para frecuencias de grupos
sanguíneos con referencia a los datos de Gunel y Wearden (1995). El pará-
metro, θ, de interés es la frecuencia del alelo M en el sistema de grupo san-
guíneo MN. Gunel y Wearden (1995) parten de una distribución a priori
Be(61,44), α = 61 y β = 44, para θ. De Race y otros (1949) se elige la frecuen-
cia x = 201 del alelo M en una muestra de tamaño n = 372 para la función
de verosimilitud. Asumiendo el equilibrio Hardy-Weinberg, la distribución
a posteriori f(θ | 372,201,61,44) es Be(61+201,44+171) = Be(262,215).
224   Inferencia bayesiana

Figura 5.1. Función de densidad a priori f(θ | α,β) con α = 61, β = 44, fun-
ción de verosimilitud L(θ | n,x) con n = 372, x = 201, y función de densidad a
posteriori f(θ | x+α, n–x+β) para un parámetro de Bernoulli.(Reproducido de
Weir, 1996a, con autorización de Sinauer Associates, Inc.)

En la Figura 5.1 se muestran las funciones de densidad a priori y a


posteriori, así como la función de verosimilitud. La densidad a posteriori
f(θ | 262,215) es más estrecha y menos dispersa que la densidad a prio-
ri f(θ | 61,44), viéndose en ello que la función de densidad a posteriori
tiene información más precisa sobre θ. Eso es lo que se espera gracias
a que la función de verosimilitud L(θ | 372,201) contiene información
sobre θ.
Con los datos anteriores vemos que se pueden hacer inferencias respecto
de θ, partiendo de la distribución a priori y de los datos (n,x), haciendo uso
de la distribución Beta a posteriori de (5.3). De este modo, puede determi-
narse el intervalo de probabilidad del 95% más preciso eligiendo el intervalo
(0,1) dentro del cual caiga el 95% de los datos de la distribución a posteriori.

5.3 Estimación con cero ocurrencias en una muestra

Consideremos el siguiente escenario: un experto forense encuentra co-


incidencia en una serie de características físicas entre el cristal procedente
de una ventana rota en la escena del crimen y fragmentos de cristal en-
contrados sobre el sospechoso. Examina 64 fragmentos y comprueba que
Estimación con cero ocurrencias en una muestra   225

ninguno de ellos coincide con las características del cristal de la escena del
crimen. (Stoney, 1992, p. 383).
No ha existido ningún cotejo positivo con la muestra del caso (la de la
ventana de la escena del crimen) en una muestra de 64 fragmentos de cris-
tal encontrados en el sospechoso.
Si sólo tenemos en cuenta la frecuencia relativa de un cotejo positivo
en el citado tamaño muestral, la probabilidad del mismo es cero, y el LR
infinito. Sin embargo, la muestra es de sólo 64 fragmentos. Intuitivamente,
esto es insuficiente para decir que el cristal de la ventana de la escena del
crimen fuera único.
Puede obtenerse un límite superior en la probabilidad para la propor-
ción de resultados positivos (por ejemplo, características del cristal, pa-
quetes de drogas ilícitas, CDs pirateados) en una población, no habiéndose
detectado ninguno en la muestra analizada de tamaño n, si utilizamos la
inferencia bayesiana con una distribución a priori Beta y una función de
verosimilitud binomial.
Llamemos θ a la proporción verdadera, aunque desconocida, de cotejos
positivos en la población de referencia de la que se ha tomado la muestra.
Se toma para la distribución a priori para θ una distribución Beta con
parámetros α = β = 1, correspondiéndose con una distribución a priori uni-
forme. La verosimilitud es una binomial con n pruebas, y la probabilidad
de un cotejo positivo es θ. En este ejemplo, no hay cotejos positivos.
La distribución de probabilidad a posteriori para θ es entonces una dis-
tribución Beta con parámetros x = 0, n, y α = β = 1 en (5.5).
La función de densidad de probabilidad es:

f(θ | 0+1, n–0+1) = θ0+1–1 (1 – θ)n–0+1–1 / B(0+1, n–0+1) = θ0 (1 – θ)n/ B(1, n+1) =
= (n+1) (1 – θ)n, 0 < θ < 1, que se resume con la notación Be(1, n+1).

La probabilidad de que θ > θ0 es:


θ0

Pr( θ > θ0 ) = 1 – Pr(θ < θ0) = 1 – (n + 1) ∫


0
(1 – θ)n dθ = (1 – θ0)n.

Teniendo en cuenta el ejemplo de Stoney (1992), n = 64, y f(θ | 1,65) =


65(1 – θ)64.
Un límite superior probabilístico θ0 para θ podría determinarse eligien-
do un nivel de probabilidad ε, y resolviendo la siguiente ecuación:
226   Inferencia bayesiana

θ0
ε = Pr(θ > θ0) = 1 – 65

0
(1 – θ)64 dθ = (1 – θ0)65. La solución es θ0 = 1 – ε1/65.

Tabla 5.1. Límite superior probabilístico θ0 para la proporción θ de ocu-


rrencias de un suceso en una población cuando no ha habido
ocurrencias en una muestra de tamaño n, para valores dados
de ε =Pr( θ > θ0 ), con una distribución a priori Beta para la que
α = β = 1.

ε θ0
0.05 0.0450
0.01 0.0684

Observemos que la solución —nada sorprendente— depende del tama-


ño de la muestra observada sin cotejos positivos. En la Tabla 5.1 se dan
soluciones para dos valores de ε. Así, en el contexto del ejemplo de Stoney
(1992), podemos decir que:
• hay una probabilidad de 0.95 de que la proporción verdadera de
cotejos positivos en la población de la que dimanan el cristal de la
ventana de la escena del crimen, los fragmentos del sospechoso y
los 64 fragmentos examinados sea menor que 0.0450;
• hay una probabilidad de 0.99 de que la proporción verdadera de
cotejos positivos en la población de la que dimanan el cristal de la
ventana de la escena del crimen, los fragmentos del sospechoso y
los 64 fragmentos examinados sea menor que 0.0684.
Es frecuente observar la inexistencia de un suceso al analizar una se-
cuencia de ADN mitocondrial humano (mtADN). El análisis de ADN mi-
tocondrial es muy utilizado en el ámbito forense, particularmente cuando
existe escasa presencia de ADN nuclear en las muestras analizadas.
Se comparan las secuencias de ADN mitocondrial de las muestras recupe-
radas y las de control. Si son inequívocamente distintas, podemos concluir
que proceden de fuentes diferentes. Si son iguales, pudieran provenir de una
misma fuente (obsérvese que no tenemos en cuenta, en adelante, los proble-
mas derivados de diferencias en nucleótidos, mutaciones o heteroplasma).
Cuando no hay diferencia entre dos muestras resulta deseable expresar
alguna información sobre el peso de la evidencia. En este caso, la práctica
consiste en contar el número de veces en que una particular secuencia (o
haplotipo) es observada en una base de datos relevante y aplicar una co-
rrección por error de muestreo (como puede ser un intervalo de confianza,
un valor bootstrap o una corrección de Balding y Nichols; consultar, por
Estimación de productos en identificación forense   227

ejemplo, Balding y Nichols, 1994, Curran y otros, 2002). Puede proporcio-


narse una medida del error de muestreo para estas estimaciones, la cual es
especialmente necesaria cuando las estimaciones se basan en muestras de
unos pocos cientos de perfiles. Esta aproximación permite al científico co-
municar el valor de la evidencia de ADN mitocondrial utilizando la inversa
de la frecuencia relativa como un LR (Carracedo y otros, 2000).
Análogamente, el uso del cromosoma Y ha llegado a ser común en los la-
boratorios forenses (Sinha, 2003). Entre sus aplicaciones se recogen casos
de paternidad con deficiente información (por ejemplo, cuando el padre no
está disponible para realizar análisis y se hacen inferencias por referencia
a parientes) y, especialmente, la discriminación de manchas en investiga-
ción forense cuando está involucrado un sospechoso varón (por ejemplo,
en casos donde aparecen manchas mezcladas en agresiones sexuales). El
método de cálculo para averiguar el número de candidatos en una base de
datos relevante juega un importante papel en la valoración de la evidencia
(Gill y otros, 2001). Si no existen observaciones de un perfil particular, ni
en la literatura científica ni en el peritaje bajo estudio, puede obtenerse un
límite superior probabilístico del perfil como, por ejemplo, se describió en
el ya mencionado caso del cristal de Stoney (1992).
Pueden encontrarse otras referencias relevantes para estimar los pará-
metros de Bernoulli en Crow y otros (1960), Louis (1981), Kaye (1987),
Balding y Nichols (1994), Taroni y Mangin (1999), y Curran y otros (2002).

5.4 Estimación de productos en identificación forense

Otro ejemplo del uso de la inferencia bayesiana para datos discretos y


un parámetro continuo se describe en Balding (1995) para estimar razones
de verosimilitud de perfiles de ADN. Este enfoque incluye lo que se ha de-
nominado corrección de tamaño desviado (Curran y otros, 2002) en el que
el resultado representa el efecto de añadir el perfil en cuestión a la base de
datos exactamente dos veces.
Consideremos dos bandas en un locus mutuamente independientes.
Llamemos a las bandas X = (X1, X2), con frecuencias θ = (θ1, θ2), donde
θ1 + θ2 ≤ 1. La observación X puede considerarse una variable aleatoria tri-
nomial (Sección 2.3.4) con tamaño muestral n, donde n es el número total
de observaciones en la muestra.
La derivación de la corrección de tamaño desviado se dará para la fre-
cuencia relativa del genotipo φ = 2θ1 θ2. El resultado correspondiente para
homocigotos (con φ = θ12) será citado al término de esta sección. Pueden
228   Inferencia bayesiana

verse más detalles en Balding (1995), Evett y Weir (1998), y Curran y otros
(2002).
El estimador usual para φ es 2 X1X2 / n2, pero no tiene en cuenta medida
alguna de incertidumbre en el procedimiento de estimación.
La incertidumbre puede explicarse utilizando una distribución a priori
para θ. La distribución a priori adecuada para una distribución trinomial
es la distribución de Dirichlet (Sección 2.4.5), con función de densidad de
probabilidad f(θ | α1, α2, α3) proporcional a:
3
∏ θiαi −1
i =1

donde θ3 = 1 – θ1 – θ2. La esperanza a posteriori de φs, s ≥ 0 viene dada por:

Γ (α + n ) 2 Γ (α i + x i + s )
E (φs) = 2 s ∏ ,y
Γ(α + n + 2s) i =1 Γ(α i + x i )

s +1 s Γ (α 1 + x 1 + s )Γ (α 2 + x 2 + s )
E (φ ) = 2 E (φ )
Γ(α + n + 2s)Γ(α + n + 2s + 1)

donde α = α1 + α2 + α3. Para un a priori uniforme, α1 = α2 = α3 = 1. Asumiendo


independencia para justificar la regla del producto, φ puede interpretarse
como la relación entre la verosimilitud de los datos bajo la asunción de
inocencia (φ2) y la verosimilitud de los mismos bajo la asunción de culpa-
bilidad (φ). De este modo, si dividimos E(φ2) entre E(φ), con αi = 1 (i = 1, 2,
3), obtenemos:
E ( φ2 ) ( x + 2)( x 2 + 2)
=2 1
E(φ) (2n + 5)(2n + 6)
Cuando φ = θ12 (Balding, 1995):

E(φ2) ( x1 + 3)( x1 + 4)
=
E(φ) (2n + 5)(2n + 6)

5.5 Inferencia bayesiana para una media normal

Consideremos la media θ de una distribución Normal. Por ejemplo, θ


puede ser el verdadero nivel medio de alcohol en sangre de un sospechoso
de conducir bajo la influencia del alcohol. En el paradigma bayesiano, θ
tiene una distribución de probabilidad que se desea determinar para ha-
Inferencia bayesiana para una media normal   229

cer inferencias sobre θ. La distribución más común de la media θ de una


distribución Normal es también una distribución Normal. La distribu-
ción Normal es una distribución a priori conjugada para una distribución
Normal. En una situación donde se conocen las varianzas de ambas distri-
buciones Normales, se combinan para crear una distribución a posteriori,
que también es Normal.
La distribución a priori de θ, parametrizada por ν, la media, y τ2, la va-
rianza, se representa por: (θ | ν, τ2) ~ N(ν,τ2) (de Sección 2.4.2).
Consideremos una variable aleatoria X con una distribución Normal de
media θ y varianza σ2 (asumida conocida): (X | θ, σ2) ~ N(θ,σ2).
Se puede demostrar (por ejemplo, ver Lee, 2004) que la distribución a
posteriori de θ, dado un valor x de X, y dados ν, τ2 y σ2 es:

(θ | x, σ2, ν, τ2,) ~ N(θ1, τ12) (5.6)

donde

θ1 = (ν σ2 + x τ2) / σ2 + τ2 (5.7)

y (τ12)–1 = (σ2)–1 + (τ2)–1, (5.8)

o de modo equivalente: τ12 = σ2 τ2 / σ2 + τ2

Por tanto, la media a posteriori θ1 es una media ponderada de la media


a priori ν y la observación x, donde los pesos son la varianza de la observa-
ción x y la varianza de la media a priori ν. El componente que tenga varian-
za más pequeña es el que más contribuye a la media a posteriori.
La recíproca de la varianza se conoce como precisión. De este modo, la
precisión de la distribución a posteriori de µ es la suma de las precisiones
de la distribución a priori y de la observación.
Si generalizamos, el resultado anterior vale también para la distribución
de la media θ de un conjunto de variables independientes y Normal e idénti-
camente distribuidas: x1, …, xn, de media θ y varianza σ2. La generalización
consiste en que X , la variable aleatoria correspondiente a la media muestral
x de una muestra de tamaño n, tiene la distribución ( X | θ, σ2) ~ N(θ,σ2/n).
La distribución a posteriori de θ está normalmente distribuida con media:

θ1 = (ν σ2/n + x τ2) / (σ2/n) + τ2 (5.9)

y precisión: (τ12)–1 = n(σ2)–1 + (τ2)–1 (5.10)


230   Inferencia bayesiana

Consideremos de nuevo el ejemplo de la Sección 2.4.2 de una persona


con un nivel de alcohol en sangre de 0.85 g/kg. Nos interesa determinar
la probabilidad de que el verdadero nivel de alcohol en sangre sea mayor
que 0.8 g/kg. Desde (5.6) podemos conseguir la distribución a posteriori
de θ y, como consecuencia, la probabilidad de que θ sea mayor de 0.8 g/kg
utilizando los métodos de la Sección 2.4.2. Para ello, se requiere disponer
de la distribución a priori de θ, así como de los valores de ν y τ2. La elección
de esos valores pudiera ser subjetiva pero no arbitraria, ya que existe un
contexto legal que lo impide. Existe un debate científico interesante sobre
el papel de las distribuciones a priori en la ley y en la ciencia forense. En
el Capítulo 6 se harán más comentarios. Puede suceder que algún día se
aceptan en los Tribunales bases de datos sobre distribuciones de medidas
de alcohol en sangre en distintos grupos de individuos diferenciados por
sexo, peso, salud, etc. De todas formas, aún queda un largo camino para
eso. Por supuesto, la información previa puede incluir la opinión del agen-
te actuante antes de la realización de la prueba de alcoholemia.
Un enfoque propuesto como distribución a priori que soslaya la subjetivi-
dad de la elección del a priori es la distribución uniforme. Se trata de aquella
que permanece constante a lo largo del rango de la variable de interés. Ya
se introdujo esta idea en el caso de la distribución binomial de la Sección
5.2, donde el rango de interés fue (0,1). En el contexto de la media de una
distribución normal el rango de interés es de: –∞ a +∞. Para una distribución
Normal no es posible tener un valor constante a lo largo del rango de interés
sin incumplir las propiedades de una distribución de probabilidad, puesto
que la función de densidad no se integrará resultando la unidad. La distribu-
ción a priori se conoce como distribución vaga o impropia. Sin embargo, esa
elección es válida si se combina con una función de verosimilitud para llegar
a una distribución a posteriori apropiada. En el siguiente ejemplo, la distri-
bución a priori es uniforme y tiene valor constante en toda la recta real.
Esto es así para la distribución Normal. La distribución a priori uniforme
se limita en rango teniendo en cuenta que ν → 0 y que τ2 → ∞. Inspeccionando
(5.7) y (5.8) se ve que los valores límite para la media y la varianza a poste-
riori son simplemente θ1 = x y τ2 = σ2; esto es, para una distribución a priori
uniforme, la distribución a posteriori de θ es una Normal:

θ ∼ N(x,σ2) (5.11)

En la Sección 10.2.3 se utiliza un resultado similar para ilustrar un valor


aproximado de la evidencia a partir de medidas del índice de refracción del
cristal.
Inferencia bayesiana para una media normal   231

En el ejemplo del alcohol en sangre, dada una medida x = 0.85, una va-
rianza conocida de 0.005, y una distribución a priori uniforme (impropia),
la distribución del nivel de alcohol en sangre verdadero θ es una normal
N(0.85, 0.005). La desviación estándar es σ = 0.0707. La probabilidad de que
el verdadero nivel de alcohol en sangre sea mayor que 0.8 es la siguiente:

Pr(θ > 0.8 | θ ~ N(0.85, 0.005)) = 1 – Pr(θ < 0.8 | θ ~ N(0.85, 0.005)) =
=1 – Φ ((0.80 – 0.85) / 0.0707) = 1 – Φ (–0.7071) = Φ (0.7071) = 0.76.

Este resultado nos invita a preguntarnos si la lectura de 0.85 combi-


nada con la distribución a priori uniforme es suficiente para encontrar al
sospechoso culpable más allá de la duda razonable fijada en 0.8 g/kg como
umbral máximo. La asunción de la distribución a priori uniforme resulta
favorable a la defensa e implica bastante imprecisión en el procedimiento.
En la práctica, se espera que la variabilidad del procedimiento sea muy pe-
queña y que la estimación a posteriori de τ sea a la baja. Esto conducirá a
un valor más alto para la probabilidad de que el verdadero nivel de alcohol
en sangre sea mayor de 0.8 g/kg. En el Capítulo 6 se entra en ulteriores dis-
cusiones, pero se ha de tener en mente que existen problemas respecto al
papel de las distribuciones a priori que escapan del ámbito de este libro.
Hasta ahora, la varianza de la distribución de las observaciones X se ha
asumido conocida. Si no es así, la distribución a posteriori para θ está rela-
cionada con una t-Student (Sección 2.4.3).
Supongamos que hay n observaciones de X. La media muestral es x y la
varianza muestral s2 = Σi=1n (xi – x )2 / (n – 1).
Las distribuciones a priori uniformes pueden tomarse para θ y log(τ2)
(la transformación logarítmica en el último caso asegura un rango entre
–∞ y +∞). La función de densidad de probabilidad será: t = (θ – x ) / s/√n,
siendo una t-densidad con (n – 1) grados de libertad. Obsérvese que x y s
se consideran fijos, como funciones de las observaciones. La cantidad des-
conocida es θ. Las inferencias probabilísticas sobre θ se pueden hacer con
referencia a la distribución t-Student.
Para ilustrar lo anterior, consideremos una distribución a priori θ ~ N(1.30,
0.0004), con datos de n = 31 observaciones tales que x = 1.35 y s2 = 0.0003.
Entonces:

θ−x θ − 1.35
t= =
s 0.0003 (5.12)
n 31
232   Inferencia bayesiana

teniendo una distribución t-Student de 30 grados de libertad. El límite inferior


de probabilidad del 95% para θ se obtiene del límite inferior de probabilidad
del 95% para una distribución t-Student con 30 grados de libertad. Ese valor
θ − 1.35
es –1.697. Entonces, la solución de t = = −1.697 da un θ = 1.3447.
0.0003
31
Existe, pues, una probabilidad de 0.95 de que el valor verdadero de θ sea ma-
yor de 1.345.

5.6 Estimación por intervalos

Una vez aceptado que la incertidumbre sobre un parámetro puede re-


presentarse mediante una distribución de probabilidad, resulta sencillo
determinar un intervalo de probabilidad para el parámetro. Existen múl-
tiples aproximaciones para estimar intervalos dentro de los cuales se en-
cuentre el verdadero valor del parámetro. Podemos hablar de intervalos
de confianza, con los que mucha gente está familiarizada, u otros menos
conocidos como intervalos con densidad posterior más alta, intervalos de
remuestreo (intervalos “bootstrap”) e intervalos de verosimilitud.

5.6.1 Intervalos de confianza

Un intervalo de confianza está definido por los datos (por ejemplo, la


media más o menos un múltiplo de la desviación estándar) y está fijado
por ellos. No hay distribución de probabilidad asociada con ello y, por
consiguiente, no hay probabilidad que pueda calcularse. Para un tamaño
muestral dado, la anchura del intervalo de confianza crece con el nivel de
confianza. De este modo, un intervalo de confianza del 95% es más ancho
que otro del 90%, pero más estrecho que el de 99%. Una aplicación común
es la de la estimación de la media µ de una distribución Normal de varian-
za desconocida σ2. Hace falta tomar una muestra aleatoria {x1, ...,xn} de
tamaño n de la distribución. Se calculan la media muestral x y la desvia-
ción estándar muestral s. Como la desviación estándar σ es desconocida,
se estima con s, necesitándose utilizar una t-Student para determinar los
intervalos de confianza. El punto 100(1 – α/2)% de la t-Student con n – 1
grados de libertad se representa como t(n–1; α/2) como ya se hizo en la Sección
2.4.3. Entonces, el intervalo de confianza para µ es:
Estimación por intervalos   233

 s s 
 x − t n −1;α , x + t n −1;α  (5.13)
 2 n 2 n
También es posible tener en cuenta un límite de un intervalo, el llamado lí-
mite de confianza. Por ejemplo, considere el problema de estimar la cantidad
de droga en un alijo a partir de la medida de la cantidad de droga en una mues-
tra escogida del alijo. Los Tribunales determinan un límite inferior a partir del
cual se considera probado un delito de tráfico de estupefacientes. Por ejemplo,
Frank y otros (1991) sugieren la siguiente forma de expresarse: “con un nivel
de confianza del 95%, el 90% o más de los paquetes aprehendidos contienen la
sustancia”. La naturaleza de la construcción del límite de confianza es que, en
el 95% de los casos estudiados en los que se obtengan esos resultados, el 90%
de los paquetes aprehendidos contendrán la sustancia. Sin embargo, la proba-
bilidad con la que un determinado intervalo en un caso particular contenga la
verdadera proporción de droga no se puede conocer.
Un intervalo de confianza es válido, como método de inferencia, ba-
sándose en la interpretación frecuentista de la probabilidad. Por ejemplo,
consideremos un intervalo del 95% de confianza para una proporción. La
probabilidad con la que un intervalo de confianza del 95% contenga el ver-
dadero valor de la proporción es desconocida. Sin embargo, supongamos
que el experimento que generó el intervalo del 95% de confianza se repite
muchas veces (en idénticas condiciones, una estipulación teórica que es
imposible de cumplir en la práctica) y en cada una de ellos se calcula un
intervalo de confianza del 95% para el verdadero valor de la proporción.
Entonces, puede decirse que el 95% de esos intervalos de confianza del
95% contendrán el verdadero valor de la proporción. Esto no prueba que
un intervalo del 95% concreto de los experimentados tenga el verdadero
valor de la proporción, ni siquiera será posible determinar la probabilidad
de que contenga al verdadero valor de la proporción (Kaye, 1987).
También se pueden obtener intervalos de confianza para la verdadera
proporción auxiliándose de un modelo binomial. Consideremos un inter-
valo de confianza del 95% y un modelo binomial. El punto 97.5% de una
distribución Normal es 1.96, de este modo podemos tener un 95% de con-
fianza de que la verdadera proporción caiga dentro de 1.96 desviaciones es-
tándar de la proporción muestral. Representaremos a la proporción mues-
tral x/n mediante p̂ . La desviación estándar muestral se estima mediante
1/ 2
la ecuación: (p̂(1 − p̂) / n ) , (habiendo reemplazado θ por p̂ ). El intervalo
de confianza del 95% para la verdadera proporción de θ es:
1/ 2
p̂ ± 1.96 (p̂(1 − p̂) / n ) (5.14)
234   Inferencia bayesiana

Un ejemplo del uso de una aproximación Normal para la estimación de


una proporción binomial lo da McDermott y otros (1999). Utilizaron en el
experimento 1000 vehículos en consonancia con la estimación del interva-
lo de confianza de Ryland y otros (1987) para este número de muestras. Si
un color determinado tiene una probabilidad de ocurrir θ, el intervalo de
confianza del 95% para estimar θ viene dado por (5.14), donde p̂ es la esti-
mación muestral de θ y n es el tamaño de la muestra.
Si y1, y2, ..., yn son n observaciones de un distribución de Poisson con
media λ (2.20), el intervalo de confianza del 95% para el verdadero valor de
la media λ es el siguiente:

y ± 1.96( y /n)1/2 (5.15)

reemplazando λ por ( y /n) como la estimación de la desviación estándar.


Un intervalo de confianza (5.13) y el correspondiente intervalo de pro-
babilidad derivada de una expresión similar a (5.12) son idénticos formal-
mente. Sin embargo, las filosofías que están detrás de sus construcciones
respectivas son muy diferentes.

5.6.2 Intervalos de densidad a posteriori más altos

Esta aproximación permite obtener una probabilidad sobre la verdade-


ra proporción. Esto está en claro contraste con la inferencia basada en la
obtención de un intervalo de confianza para la verdadera proporción. No
es casual que la palabra probabilidad no se utilice para describir un in-
tervalo de confianza. El término ”densidad a posteriori más alta” refleja
el hecho de que el intervalo elegido para una determinada probabilidad,
digamos 0.95, es aquél para el cual la función de densidad de probabilidad
a posteriori tiene su mayor valor mientras aseguremos que la probabilidad
total dentro del intervalo sea de 0.95.
Consideramos (5.7) y (5.8). Éstos son la media y varianza a posterio-
ri para una distribución Normal a posteriori. Debido a la simetría de la
Normal, el intervalo de densidad a posteriori más alto para un valor de
probabilidad dado es simétrico respecto a la media a posteriori. De este
modo, el intervalo de densidad a posteriori del 95% más alto será:

(θ1 – 1.96τ1, θ1 + 1.96τ1)

El uso de este método se ilustra en el contexto de la estimación de la


cantidad de alcohol en sangre θ bajo ciertas circunstancias. Por estas cir-
Estimación por intervalos 235

cunstancias, la distribución a priori de θ es N(1.30, 0.0004). Esta distri-


bución puede determinarse a partir de anteriores experimentos, bien por
la experiencia del experto, bien por hallarse en la literatura científica. Se
analiza una muestra y se obtiene una medida X. La distribución de (X | θ)
es N(1.35, 0.0003). La distribución a posteriori para (θ | X), sustituyendo
los valores en (5.7) y (5.8), es N(1.34, 0.0003) y el intervalo de densidad a
posteriori del 95% más alto (por simetría) es:

(1.34 ± 1.96√0.0003) = 1.34 ± 0.034 = (1.306, 1.374)

5.6.3 Intervalos de remuestreo (Intervalos “bootstrap”)

En ocasiones puede resultar de interés estimar el LR mediante interva-


los (Dujourdy y otros, 2003). Si cogemos diversas muestras de droga del
mismo paquete aprehendido, podemos obtener distintos valores de LR
para cada una de ellas. La distribución del LR, V, puede ser difícil de de-
terminar, así como la construcción directa de intervalos de probabilidad.
Una aproximación alternativa es la que se basa en técnicas de remuestreo
(Davison y Hinkley, 1997), como la llamada “bootstrap”. En una opera-
ción de este tipo se toman repetidamente nuevas muestras, generalmente
del mismo tamaño que la primera, y se realiza el muestreo con reem-
plazamiento. Este procedimiento de muestreo es repetido muchas veces,
digamos N. Dujourdy y otros (2003) hicieron 1000 repeticiones, aunque
N pudiera ser mucho mayor. El estadístico de interés, en este caso V, se
calcula para cada nuevo conjunto de datos. De este modo, se obtienen
N razones de verosimilitud. El histograma de los N valores de V propor-
ciona una estimación de la distribución de V. Partiendo de esta distri-
bución, pueden estimarse medidas de localización (por ejemplo, media
y mediana), dispersión (por ejemplo, desviación típica) e intervalos de
probabilidad. Por ejemplo, un intervalo de probabilidad del 95% para el
V se podría obtener observando los cuantiles muestrales 2.5% y 97.5% de
la muestra “bootstrap”. De este modo, para N = 1000, el cuantil 2.5% es
el valor por debajo del cual caen 25 de las observaciones de V realizadas;
se escribe V0.025. El cuantil 97.5% es el valor por debajo del cual caen 975
de las observaciones de V realizadas, o el valor por encima del cual caen
25 de las observaciones de V; se escribe V0.975. El intervalo de probabilidad
del remuestreo del 95% es (V0.025, V0.975).
236 Inferencia bayesiana

5.6.4 Intervalos de verosimilitud

Consideremos una gran población de individuos no emparentados en-


tre sí en la que se desea determinar la proporción γ de gente con el grupo
sanguíneo Γ. Se toma una muestra de tamaño n. La muestra es suficiente-
mente pequeña respecto al tamaño de la población de forma tal que la pro-
porción γ permanece prácticamente inalterada una vez que la muestra es
seleccionada y quitada de la población. El número X de personas de grupo
sanguíneo Γ en una muestra de tamaño n es una variable aleatoria con una
distribución binomial (Sección 2.3.3) tal que:

⎛n⎞
Pr(X = x | n, γ) = ⎜⎜ ⎟⎟ γ x (1 − γ ) n − x (5.16)
x ⎝ ⎠

Sin embargo, γ es desconocido. Se estima determinando el valor de γ,


digamos γ̂ , para el cual se maximice la probabilidad anterior.
Supongamos que el número de personas del grupo Γ en este ejemplo es
x0. Se puede demostrar que el valor de γ que maximiza la probabilidad an-
terior es γˆ = x 0 / n , la proporción muestral.
Podemos considerar otra aproximación. Se toma una muestra hasta
contener x0 personas con grupo sanguíneo Γ. Se hace notar que el tamaño
muestral total es n. Entonces, se puede demostrar que:

⎛ n − 1 ⎞ x0
Pr(X = x0 | n, γ) = ⎜⎜ ⎟⎟ γ (1 − γ ) n − x0 (5.17)
⎝ x 0 − 1⎠

(donde (x0 – 1) de los primeros (n – 1) son γ; el n-ésimo es también γ). De


nuevo, el valor de γ para el que se maximiza esta probabilidad es γˆ = x 0 / n .
De este modo, la estimación de γ no depende del procedimiento de mues-
treo utilizado. La parte de las expresiones (5.16) y (5.17) que contiene γ es
la misma tanto en (5.16) como en (5.17). Son funciones de verosimilitud
para γ, habiéndose dado referencia de ello en la Sección 5.1. (5.16) y (5.17)
son proporcionales a γx (1 – γ)(n – x), lo cual puede escribirse como L(γ | n,x).
El valor de γ̂ es el que se conoce como el estimador de máxima verosimili-
tud de γ; γ̂ es el valor de γ para el que se maximiza la función de verosimili-
tud. El valor exacto de L(γ | n,x) no resulta de interés por sí mismo, y puede
normalizarse para que su máximo valor sea 1. En la figura 5.2 se muestra
un ejemplo de función de verosimilitud para x = 6, n = 30 (con x / n = 0.2),
normalizando la función de tal forma que L(0.2 | 30,6) = 1.
Estimación por intervalos   237

Figura 5.2. Función de verosimilitud normalizada para la proporción de


personas con grupo sanguíneo Γ, a partir de una muestra de tamaño 30, en la
cual 6 eran del mencionado grupo. Con línea de puntos (0.081, 0.372) se indi-
ca un intervalo de verosimilitud, derivado de los datos observados, que apoya
muy fuertemente los valores de γ que están en su interior.

Un enfoque frecuentista para determinar un estimador de intervalo


para γ podría usar una aproximación Normal a una distribución binomial
(Sección 2.4.2), y el intervalo de confianza para el 95% sería entonces:

(x / n) ± 1.96 3
(5.18)

pero estaría sujeto a las habituales críticas contra los intervalos de confianza.
El enfoque de la verosimilitud considera como un estimador de interva-
lo de γ todos los valores de γ para los que L(γ) sea más grande que alguna
fracción de L( γ̂ ). En Royall (1997) se citan ejemplos para 1/8 y 1/32; el es-
timador de intervalo de γ se correspondería con aquellos valores de γ para
los cuales L(γ) > L( γ̂ ) / 8 y L(γ) > L( γ̂ ) / 32, respectivamente. Los valores de
8 y 32 son sugeridos por Royall como valores para definir estimadores de
intervalos de parámetros tal que para valores de γ que caigan fuera de los
intervalos, los datos proporcionen evidencia moderadamente fuerte o fuer-
te a favor de γ̂ frente a γ.
El uso de tales adjetivos para el apoyo de γ̂ no debe confundirse con los
adjetivos dados en la Tabla 3.10 para los valores de LR. Consideremos el
valor 8, y valores de γ para los cuales L(γ) > L( γ̂ ) / 8; éstos caen dentro del
238   Inferencia bayesiana

intervalo (γ1, γ2) (ver figura 5.2). Si γ cae en el intervalo (γ1, γ2) entonces no
hay valor alternativo a γ, digamos γ̂ , para el cual las observaciones (x, n) (tal
que γ̂ = x / n) representen moderadamente fuerte evidencia a favor de γ̂
frente a γ. Para un valor de γ fuera de (γ1, γ2) hay, al menos, un valor alterna-
tivo, llamémosle γ̂ , que es mejor soportado para un valor mayor de 8. Los
extremos de la línea horizontal de la Figura 5.2 son (γ1, γ2) para el ejemplo
x = 6, n = 30. Para este ejemplo, el valor máximo de L(γ) es:

 30  6 24
L(0.2) =  0.2 0.8 = 0.179.
6 

Los extremos del intervalo a favor de fuerte evidencia son los valores (γ1,
γ2), para los cuales L(γ1) = L(γ2) = L(0.2) / 8 = 0.022. Estos puntos pueden ve-
rificarse para que γ1 = 0.081 y γ2 = 0.372. Hay, además, muy fuerte evidencia
para una muestra de tamaño 30 en la que hay 6 “éxitos” de que la verda-
dera proporción de éxitos en la población de la que se extrajo una muestra
binomial esté en el intervalo (0.081, 0.372).
El intervalo correspondiente del 95% utilizando la aproximación fre-
cuentista es:

(6 / 30) ± 1.96 (6 (30 – 6) / 303) = 0.2 ± 1.96 (0.2 x 0.8) / 30) =


= 0.2 ± 0.143 = (0.057, 0.343)

Un intervalo determinado por 32 (en lugar de 8) tiene una interpretación


similar pero sustituyendo “moderadamente fuerte” evidencia por “fuerte”
evidencia.

5.7 Relaciones entre apuestas

La utilización de relaciones entre apuestas para comparar poblacio-


nes para ayudar a determinar la fuente de una muestra particular (Royall,
1997; Taroni y Aitken, 1999a) puede ilustrarse con un ejemplo sobre la fre-
cuencia de contaminación de billetes de banco.
En la Tabla 5.2 se muestran los billetes contaminados con cocaína en
dos grupos diferentes. El primer grupo se relaciona con billetes aprehen-
didos en investigaciones de tráfico de estupefacientes, y el segundo se rela-
ciona con billetes de curso corriente.
Relaciones entre apuestas   239

Sean X(=382) e Y(=562) el número de billetes contaminados con cocaí-


na procedentes de tráfico de estupefacientes y de billetes de curso corrien-
te respectivamente, y m(=462) y n(=992) representan el número total de bi-
lletes inspeccionados procedentes de tráfico de estupefacientes y de curso
corriente, respectivamente.

Tabla 5.2 Número de billetes de banco contaminados

Número de billetes Número de billetes


Total
contaminados no contaminados

Billetes relacionados
con investigaciones 382 80 462
de tráfico de drogas

Billetes de curso
562 430 992
corriente

Sean px y py las probabilidades de que los billetes estén contaminados


con cocaína en un contexto de investigación de tráfico de drogas y en un
contexto de circulación normal, respectivamente. A la luz de la Tabla 5.2, px
se estima con p̂ x = 382 / 462 = 0.83, y py se estima con p̂ y = 562 / 992 = 0.57.
Asumimos que los dos grupos de billetes son independientes. Entonces,
X e Y tienen distribuciones binomiales (Sección 2.3.3), de forma que X ∼
Bin(m, px) e Y ∼ Bin(n, py). La función combinada de verosimilitud para px
y py viene dada por:

L(px, py) ∝ pxx (1 – px)m–x pyy (1 – py)n–y

Si sustituimos los valores del ejemplo en la anterior fórmula:

L(px, py) ∝ px382 (1 – px)462–382 py562 (1 – py)992–562

La expresión px / (1 – px) constituye la apuesta (Sección 3.1) a favor de


que un billete procedente del grupo de la investigación de drogas esté con-
taminado con cocaína. La expresión py / (1 – py) es la apuesta a favor de que
un billete procedente del grupo de billetes de curso corriente esté contami-
nado con cocaína.
La expresión:
240   Inferencia bayesiana

p x (1 − p y )
θ= (5.19)
p y (1 − p x )

constituye la relación entre las anteriores apuestas y se conoce, en inglés, como


“odds ratio” (OR). Nótese que las relaciones entre apuestas no están definidos
para p x y p y iguales a 0 ó 1. Observe que los OR son siempre positivos y varían
entre 0 e ∞. El valor θ de un OR en este contexto puede interpretarse como
que la apuesta a favor de que el billete contaminado con cocaína provenga del
grupo de investigación de tráfico de estupefacientes es θ veces mayor que la
apuesta a favor de que el billete provenga de la circulación normal.
Los máximos valores de las probabilidades binomiales se alcanzan cuan-
do p x = 0.83, para billetes aprehendidos en investigaciones de tráfico de dro-
gas, y p y = 0.57, para billetes de curso corriente. Dados esos valores para p x
p x (1 − p y ) 0.83(1 − 0.57)
y py, se puede calcular el OR θ como θ = = = 3.7 .
p y (1 − p x ) 0.57(1 − 0.83)
En este ejemplo, el OR es 3.7: la apuesta a favor de la contaminación es
3.7 veces mayor si el billete procede de una investigación por narcotráfico
que si procede de billetes de curso corriente.
Podemos calcular una función de verosimilitud para los OR mediante la
distribución condicional de (X | X + Y = x + y), lo que se traduce en:

L(θ) ∝ Pr(X = x | X + Y = x + y, px, py)


−1
  m  n  j− x 
∝ ∑   θ  (5.20)
 j  j  x + y − j  
−1
 462  462  992  j− x 
∝ ∑   θ 
 0  j  944 − j  
el límite inferior de la suma es el máximo de (0, x + y – n), y el superior el
mínimo de (m, x + y) (Royall, 1997; Taroni y Aitken, 1999a).
El valor máximo de los OR puede normalizarse a 1. El valor neutral de
un (no normalizado) OR es la unidad; esto se corresponde con la inexisten-
cia de asociación entre la proporción de billetes contaminados y la fuente
de donde provienen (circulación corriente o la aprehensión). En el supues-
to de que hubiera asociación, el OR sería distinto a la unidad.
382 562
Las probabilidades observadas p x = y py = dieron un OR de 3.7,
462 992
y la relación de verosimilitudes L(3.7) / L(1), calculadas según las fórmulas
anteriores (5.20), es de 7 × 1021. Este valor proporciona una evidencia ex-
Relaciones entre apuestas   241

tremadamente fuerte sobre la existencia de asociación entre la contamina-


ción de los billetes de banco y la fuente de los billetes.
El enfoque de verosimilitud aquí descrito para la comparación de dos
grupos mediante la proporción de billetes con cocaína evita el problema
de la interpretación asociada a los intervalos de confianza. Mide el tama-
ño de la diferencia entre las dos poblaciones. Muestra si la proporción de
contaminación en una población es diferente de la proporción de conta-
minación en otra población. Esto no proporciona una medida del valor de
la evidencia en un caso particular. El ejemplo tratado aquí sobre billetes
de banco se trasladó a otros contextos. Naturalmente, habrá debate sobre
cómo es de relevante el conjunto de billetes con el que se trabajó; se trata
de un debate importante y ha de alcanzarse una solución.
El valor de la evidencia en un caso particular puede determinarse con-
siderando la relación entre dos probabilidades binomiales. Se han apre-
hendido varios billetes. El número de billetes aprehendido es n y, tras la
inspección adecuada, z están contaminados con cocaína. Esos números
son la evidencia E. Consideremos dos proposiciones:
• Hp: los billetes han estado relacionados con un asunto de tráfico de
estupefacientes;
• Hd: los billetes forman parte de la circulación de billetes normal.
Si Hp es cierta, entonces la probabilidad de que un billete esté contami-
nado con cocaína es 0.83, partiendo de la Tabla 5.2; de forma similar, si Hd
es cierta, entonces la probabilidad de que un billete esté contaminado con
cocaína es 0.57, partiendo de la misma Tabla 5.2.
El valor V de la evidencia E a favor de la proposición de que los billetes
hayan estado relacionados con tráfico de drogas es: Pr(E | Hp) / Pr(E | Hd),
es decir:

 n 0.83 z (1 − 0.83) n −z z n −z
 z  0.83   0.17 
V= =   
 n 0.57 z (1 − 0.57) n −z  0.57   0.43 
z

El uso de la distribución binomial aquí, puede ser cuestionado. Una de


las asunciones para modelar con una distribución binomial es que todos
los elementos de la muestra tengan una probabilidad constante de “éxito”,
independiente a todos los demás elementos de la muestra. Los modelos
que tienen en cuenta dependencia entre los elementos de la muestra están
más allá del alcance de este libro.
242   Inferencia bayesiana

El valor de la evidencia para ciertos valores de n y z se proporcionan en


la Tabla 5.3. La evidencia (n = 100, z = 66) y (n = 50, z = 33) es tal que sopor-
ta Hd. A medida que la relación z / n crece, fijando n, crece la fuerza de la
evidencia a favor de Hp. Para un mismo valor de z / n, cuanto mayores sean
z y n más fuertemente se soporta Hp o Hd.

Tabla 5.3. Valor de la evidencia comparando dos proporciones binomia-


les para diferentes valores de tamaño muestral n y número
de “éxitos” z, donde las muestras son billetes de banco y un
“éxito” es un billete contaminado con cocaína. La proporción
binomial en el numerador es 0.83, estimada a partir de bille-
tes aprehendidos en operaciones contra el narcotráfico, y la
proporción binomial en el denominador es 0.57, estimada a
partir de billetes de curso corriente.

Tamaño Número de billetes Proporción Valor de la


muestral contaminados z/n evidencia
n z V

100 66 0.66 1/854


100 72 0.72 2.9
100 76 0.76 538
50 33 0.66 1/29
50 36 0.72 1.7
50 38 0.76 23
Capítulo 6
Muestreo Muestreo

6.1 Introducción

En Cochran (1977) se puede encontrar una introducción general sobre


técnicas de muestreo. Smeeton y Adcock (1997) tratan sobre ideas en torno
a la determinación del tamaño muestral. Evett y Weir (1998) estudian de
forma muy sugerente los diversos tipos de muestras, como por ejemplo las
aleatorias, las representativas y las de conveniencia. Izenman (2001) apor-
ta una revisión de aspectos estadísticos y jurídicos sobre el estudio forense
de drogas ilícitas. Incluye una discusión sobre diversos procedimientos de
muestreo, diversos métodos para elegir el tamaño de la muestra, una es-
trategia para valorar la homogeneidad, y la relación entre la cantidad y es-
tándares posibles de pruebas. Bring y Aitken (1997) aportan otros comen-
tarios sobre muestreo, igualmente en varios capítulos de Gastwirth (2000),
así como en Aitken (2000), Gastwirth y otros (2000), Izenman (2003) y en
Izenman (2000 a, b, c).
Un caso relevante es el de los Estados Unidos contra Shonubi.
Aquí sólo vamos a tratar sobre inferencias a partir de muestras aleato-
rias simples. Puede que no sea posible conseguir un muestreo aleatorio
simple. Si ocurre, los siguientes comentarios son relevantes. Los comen-
tarios están hechos en el contexto de un muestreo para la estimación de
frecuencias alélicas de perfiles de ADN, pero son aplicables a cualquiera de
las otras áreas de la ciencia forense, incluyendo el muestreo en drogas, el
cual constituye el principal ejemplo de este Capítulo.

“Desde luego, un auténtico laboratorio de criminalística nunca inten-


taría … tomar una muestra aleatoria, representativa y estratificada de
individuos para responder al asunto en cuestión. En la gran mayoría de
los casos el laboratorio dispondría de una o más muestras de convenien-
cia. Tales muestras podrían proceder de la plantilla del laboratorio, o de
donantes de sangre con la cooperación de un banco de sangre local, o
de víctimas y sospechosos examinados en el transcurso de un caso.
244   Muestreo

… En el contexto forense, normalmente nos encontramos ante mues-


tras de conveniencia, no ante muestras aleatorias. ¿Esto es importan-
te? La primera respuesta a esta pregunta es que cada caso debe ser
tratado acorde a sus circunstancias, y la siguiente respuesta es que
éste es siempre un asunto a enjuiciar … En el último análisis, el cien-
tífico debe también convencer al Tribunal de la razonabilidad de su
inferencia dentro de las circunstancias, en el momento en que se pre-
senten como evidencia. (Evett y Weir, 1998, páginas 44-45)”.

En Izenman (2001) se tratan diversos procedimientos de muestreo, inclu-


yendo muestreo aleatorio. En primer lugar, en el marco de un envase, el exa-
men hecho por un químico de una muestra aleatoria de una sustancia extraí-
da del interior de una bolsa o envase ha sido aceptado por los tribunales para
probar la naturaleza del resto de esa sustancia en el envase. Cuando existen
varios envases y no hay homogeneidad, la regla consiste en tomar una mues-
tra, al menos, de cada envase para comprobar la posible presencia de una
droga ilícita. Un procedimiento alternativo es el muestreo compuesto. En este
procedimiento, se toma una muestra de cada fuente, luego se mezclan entre sí
y se extrae una submuestra de la mezcla. La mezcla es la muestra compuesta.
Este Capítulo está relacionado con la elección del tamaño de la muestra
y la interpretación de los datos muestrales (en particular, para una estima-
ción cuantitativa).
Hay dos cuestiones que nos queremos hacer y contestar:
• ¿Qué proporción de elementos discretos ilícitos existen en un alijo?;
• Dada una muestra procedente de un alijo de material homogéneo,
¿cuál es la cantidad de material que se considera ilícito?
Ambas cuestiones tienen respuestas probabilísticas, las cuales se deter-
minan utilizando una aproximación bayesiana. Realizaremos múltiples re-
ferencias al Capítulo 2 en cuanto a las definiciones de las distribuciones de
probabilidad, y al Capítulo 5 para consideraciones filosóficas.
Los principales resultados de este Capítulo se formulan en el contexto
de una inspección de una aprehensión de drogas. Sin embargo, las ideas
expresadas son aplicables a otros contextos forenses como, por ejemplo, a
la inspección de imágenes de pornografía en discos duros. En esas situa-
ciones el muestreo puede ser beneficioso, puesto que permite a los investi-
gadores reducir el estrés tanto como sea posible.
Consideremos una población o alijo que conste de unidades discretas,
como por ejemplo cada una de las pastillas en una aprehensión de un con-
junto de ellas o cada uno de los discos de ordenador en una aprehensión de
discos. Cada unidad puede o no contener algo ilegal, como por ejemplo dro-
ga o imágenes pornográficas. Resulta interesante al investigador científico
Introducción   245

determinar la proporción de lo aprehendido que contenga algo ilegal. Esto


se puede hacer de forma exacta (asumiendo que no se cometen errores) si se
examinan todas las unidades de lo aprehendido. Un examen de ese tipo puede
resultar extremadamente costoso. Se pueden ahorrar considerables recursos
si se puede alcanzar suficiente información como para satisfacer las necesi-
dades de los investigadores a partir del examen de una muestra de lo apre-
hendido. Aparece incertidumbre cuando se hace inferencia desde la muestra
a la población, puesto que la población entera no ha sido inspeccionada. Sin
embargo, esa incertidumbre puede cuantificarse de forma probabilística.
Con asunciones razonables, podemos hallar una distribución de probabili-
dad para la verdadera proporción de unidades en la aprehensión basándonos
en creencias a priori del experto (es decir, previa a la inspección de las unida-
des) y el resultado de la inspección de la muestra. La fuerza de las creencias
a priori del experto pueden expresarse mediante una función de densidad de
probabilidad como las descritas en el Capítulo 5. Es posible escoger la función
de forma que el efecto de las creencias a priori sea muy pequeño (o muy gran-
de). La elección del modelo utilizado para representar la incertidumbre intro-
ducida por el proceso de muestreo es una elección subjetiva influenciada por
las creencias a priori del experto. La elección del modelo binomial utilizado
aquí requiere asumir la independencia de la probabilidad para cada unidad
que sea ilegal y la elección de un valor constante para esa probabilidad.
Vamos a realizar una comparación entre los resultados obtenidos con un
enfoque bayesiano y otro frecuentista a la hora de valorar la incertidumbre,
al objeto de contrastar la claridad de la inferencia conseguida con el enfoque
bayesiano frente a la falta de claridad del enfoque frecuentista, y para ilus-
trar la gran flexibilidad del primero frente a la inflexibilidad del segundo.
Se ilustran los métodos con referencia a muestreos en aprehensiones de
drogas. Sin embargo, se aplican igualmente bien al muestreo en otros con-
textos forenses, por ejemplo, cristales (Curran y otros, 1998b) e imágenes
pornográficas.
En Tzidony y Ravreboy (1992) se describen procedimientos frecuentis-
tas para la elección del tamaño muestral del material aprehendido. Se rea-
liza una distinción entre un enfoque basado en una distribución binomial
(Sección 2.3.3) y el basado en una distribución hipergeométrica (Sección
2.3.5). Se argumenta en Tzidony y Ravreboy (1992) que el primero pue-
de utilizarse en grandes aprehensiones donde el muestreo de las unidades
puede considerarse que se realiza con reemplazamiento. Para muestras pe-
queñas las unidades se muestrean sin reemplazamiento, y en este caso se
utiliza la hipergeométrica (Frank y otros, 1991). El enfoque bayesiano uti-
liza distintos procedimientos para grandes y pequeñas aprehensiones.
246   Muestreo

En los Tribunales de los Estados Unidos se han aceptado diversos méto-


dos para seleccionar el tamaño de la muestra aleatoria en una aprehensión
(Frank y otros, 1991; Izenman, 2001). En Colón y otros (1993) se recoge
un resumen de los procedimientos utilizados en 27 laboratorios distribui-
dos por todo el mundo. Entre los diversos procedimientos sugeridos para
seleccionar el tamaño de la muestra se incluyen métodos basados en la
raíz cuadrada del tamaño de lo aprehendido, un porcentaje del tamaño
del mismo y un número fijo de unidades con independencia del tamaño de
lo aprehendido, así como la distribución hipergeométrica. Colón y otros
(1993) proponen la siguiente fórmula:

m = 20 + 10%(N – 20), (para N > 20) (6.1)

donde m es el tamaño de la muestra —el número de unidades inspeccio-


nadas— y N el tamaño total de lo aprehendido. Además de sencillo, este
método, como justamente reclama su autor, proporciona la oportunidad
de descubrir poblaciones heterogéneas antes de completar el análisis.
Se ha sugerido que “una inferencia realizada con un nivel de confianza del
95% de que el 90% o más de los paquetes en un estante contienen la sustancia
controlada debiera ser aceptada como suficiente prueba en tales casos” (Frank
y otros, 1991). Estas conclusiones se expresan con límites de confianza utili-
zando un enfoque frecuentista, y no en términos probabilísticos. Un enfoque
bayesiano proporciona conclusiones en términos probabilísticos tales como:
“¿qué tamaño ha de tener la muestra para que podamos decir que existe un
100p% de probabilidad de que la proporción de unidades en lo aprehendido
que contengan droga sea mayor del 100θ%?”, o, para un caso particular, con
p = 0.95 y θ = 0.50, “¿c qué tamaño ha de tener la muestra para que podamos
decir que existe un 95% de probabilidad de que la proporción de unidades en
lo aprehendido que contengan droga sea mayor del 50%?

6.2 Elección del tamaño de la muestra

6.2.1 Aprehensiones grandes

Hablamos de que lo aprehendido es grande cuando podamos considerar


que el muestreo se realiza con reemplazamiento (consultar Sección 2.3.5
para profundizar sobre esto). El mencionado calificativo al tamaño de lo
aprehendido puede ser tan pequeño como 50 unidades, si bien en muchos
casos nos referiremos a muchos miles.
Elección del tamaño de la muestra   247

Una aprehensión de droga que contenga N unidades se considerará


como una muestra aleatoria de una superpoblación (Sección 3.3.5) de uni-
dades con droga. Sea θ (0 < θ < 1) la proporción de unidades en la superpo-
blación que contienen droga.
Para tamaños de lo aprehendido del orden de miles de unidades, todos
los valores razonables de θ representarán un número exacto de unidades.
Para muestras pequeñas —menores de 50 unidades—, θ puede conside-
rarse un parámetro problemático (es decir, no de principal interés) e inte-
grado fuera del cálculo, dejando una distribución de probabilidad para un
número desconocido de unidades en lo aprehendido que contengan droga
como una función de valores conocidos. Para cálculos intermedios, θ pue-
de tratarse como un valor continuo en el intervalo (0 < θ < 1), sin detrimen-
to alguno para la inferencia. Como ya vimos en (6.1), sea m el número de
unidades muestreadas. La relación m / N se conoce como fracción de mues-
treo. Y llamamos z al número de unidades con droga.

Enfoque frecuentista para la estimación de θ


La proporción muestral p = z / m es un estimador insesgado de θ
(Sección 2.3.3).
La varianza de p viene dada por Cochran (1977) como:

[θ(1 – θ) / m] [(N – m) / (N – 1)] (6.2)

El factor (N – m) / (N – 1) se conoce como corrección de población finita


(siglas fpc en inglés). Obsérvese que si la fracción de muestreo m / N es baja, el
tamaño de la población no tiene efecto directo sobre la precisión en la estima-
ción de θ. Por ejemplo, si θ vale lo mismo en dos poblaciones, una muestra de
500 sobre una población de 200.000 aporta una estimación de la proporción
de la población casi tan precisa como la misma muestra para una población
de 10.000. La desviación estándar estimada de θ en el segundo caso es 0.98
veces la desviación estándar estimada en el primero. Poco se gana incremen-
tando el tamaño de la muestra en proporción al tamaño poblacional.
Consideremos el siguiente ejemplo. Para simplificar el tema, se ignora el
fpc y tanto el tamaño de la muestra como la proporción son tales que pode-
mos asumir que la proporción muestral p está distribuida Normalmente.
Se necesita disponer de creencia a priori sobre el valor de θ antes de deter-
minar el tamaño de la muestra. La expresión θ(1 – θ) alcanza su máximo
valor cuando θ = 1 / 2, y su valor mínimo de 0 cuando θ = 0 ó 1. Una elec-
ción conservadora de tamaño muestral consiste en asignarle a θ el valor de
1 / 2. Asumamos que θ vale el 75%, aproximadamente. Se estipula disponer
248   Muestreo

de un tamaño muestral m para estimar θ en un margen de un 25%, es decir,


en el intervalo (0.50, 1.00) con un 95% de confianza. (Puede pensarse que
se trata de un intervalo enorme pero es coherente con lo que más adelante
se va a tratar en esta sección). Se desea determinar el tamaño muestral de
forma que pueda decirse que si todas las muestras tuvieran droga, enton-
ces existe un 95% de probabilidad de que θ es mayor que el 50%.
El criterio para el tamaño muestral es que debe haber un 95% de con-
fianza de que la proporción muestral p caiga en el intervalo 0.75 ± 0.25. De
la Sección 2.4.2 se deduce que las dos desviaciones estándar son iguales a
0.25. La desviación estándar de p, ignorando el fpc, es: √(θ(1 – θ) / m).
Si las dos desviaciones estándar valen 0.25, y despejando m se alcanza la
siguiente expresión para m:

m = 4θ(1 – θ) / (0.25)2

Cuando θ = 0.75, m = 12. De este modo, una muestra de tamaño 12 es su-


ficiente para estimar que θ será mayor que 0.5 con una confianza del 95%.

Enfoque bayesiano para la estimación de θ


Como se mencionó anteriormente, se necesita especificar un criterio
para determinar el tamaño de la muestra. Consideremos el criterio de la
Sección 6.1 de que el experto desea tener el 95% de certeza de que el 50%
o más de las unidades de lo aprehendido contienen droga cuando todas
las unidades de la muestra contengan droga. Ese criterio puede escribirse,
matemáticamente, en la notación de (5.3) como:

Pr(θ > 0.5 | m + α, m – m + β) = 0.95, o


1

∫θ
m + α −1
(1 − θ) β−1 dθ / B(m + α, β) = 0.95 (6.3)
0.5

utilizando una distribución a priori conjugada Beta y una distribución bino-


mial para dar una distribución a posteriori Beta (5.3), con el caso especial de
que el número de “éxitos” es igual al número de pruebas (5.4). La cuestión
general en la que p y θ se especifican al final de la Sección 6.1 puede respon-
derse encontrando el valor de m que resuelve la ecuación siguiente:
1

∫θ
m + α −1
(1 − θ) β−1 dθ / B(m + α, β) = p (6.4)
θ
Elección del tamaño de la muestra   249

Estas integrales son fáciles de resolver utilizando paquetes estadísticos


estándar y dando valores a m, α y β. Dados valores específicos para θ y p, y
valores para α y β elegidos como creencias a priori, el valor apropiado de
m para resolver (6.4) se puede encontrar mediante prueba y error. Observe
que en la Tabla 6.1, donde se dan valores a α y β, a medida que ambos son
pequeños tienen poco efecto sobre m.

Tabla 6.1 Probabilidad de que la proporción de droga en una gran apre-


hensión sea mayor del 50% para varios tamaños muestrales
m, y parámetros a priori α y β. (Reimpreso con permiso de
ASTM Internacional).

α β m
2 3 4 5
1 1 0.94 0.97
0.5 0.5 0.92 0.97 0.985 0.993
0.065 0.935 0.90 0.95 0.97

Para grandes aprehensiones, de cualquier tamaño, el experto necesita exa-


minar sólo 4 unidades, en primera instancia. Si todas ellas contienen droga,
existe un 95% de probabilidad de que el 50% de las unidades contienen dro-
ga. Comparemos esto con los resultados derivados del enfoque frecuentista
usando una aproximación Normal a una distribución binomial, la cual dio
un valor de 12 para el tamaño de la muestra. Los tamaños de la muestra con-
siderados no son grandes. Sin embargo, no existe mucha información sobre
el verdadero valor de θ. Sólo se ha determinado que existe una probabilidad
de 0.95 de que θ > 0.5. Se trata de un intervalo muy amplio (de 0.5 a 1) den-
tro del cual estará muy probablemente la verdadera proporción.
Puede advertirse de que puede ser muy difícil para un experto forma-
lizar sus creencias a priori. Sin embargo, si α y β son pequeños, grandes
diferencias en las probabilidades asociadas con las creencias a priori no
conducirán a grandes diferencias en las conclusiones.
La metodología puede extenderse para tener en cuenta a las unidades
que no contienen droga. Por ejemplo, si una de las cuatro unidades ins-
peccionadas en primer lugar no contuviera droga, deberían inspeccionarse
tres más. Si todas contienen droga, puede demostrarse que la probabilidad
de que θ > 0.5, dado que seis de las siete contienen droga, es 0.96.
La dependencia entre el tamaño de la muestra sobre los valores de p y θ se
ilustra en la Tabla 6.2. Los parámetros a priori α y β valen 1. Consideremos
p = 0.90, 0.95 y 0.99, y los valores de θ = 0.5, 0.6, 0.7, 0.8, 0.9, 0.95 y 0.99.
250   Muestreo

Tabla 6.2 Tamaños de muestra requeridos para tener el 100p% de certeza


de que la proporción de unidades en lo aprehendido con droga
es mayor de θ, cuando todas las unidades inspeccionadas con-
tienen droga. Los parámetros a priori α y β = 1. (Reimpreso
con permiso de ASTM Internacional).
θ p
0.90 0.95 0.99
0.5 3 4 6
0.6 4 5 9
0.7 6 8 12
0.8 10 13 20
0.9 21 28 43
0.95 44 58 89
0.99 229 298 458

El tamaño muestral m requerido para que exista un 100p% de certeza


de que θ es mayor que el valor especificado viene dado por el valor de m
que satisface la ecuación:

Pr(θ > θ0 | m + 1, m – m + 1) = 1 – θ0m+1 = p

que es un caso especial de (6.4).


El valor de m viene, de este modo, dado por el entero más pequeño que
sea mayor que [log(1 – p) / log(θ0)] – 1.
Obviamente, cuando consideramos los resultados de la Tabla 6.2, el ta-
maño de lo aprehendido ha de ser tenido en cuenta de forma que el tamaño
muestral se considere pequeño respecto al tamaño total de la aprehensión.
De este modo, para que la última fila en particular sea útil, el tamaño de lo
aprehendido de lo cual se extrajo la muestra deberá ser del orden de varias
decenas de miles de unidades.
Puede haber situaciones en las que se quieran utilizar diferentes valores
de α y β.
Puede ser que el experto tenga sustanciales creencias a priori sobre la
proporción de droga en la aprehensión y para lo que esté preparado para
testificar ante el Tribunal. Estas creencias pueden provenir de anteriores ex-
periencias de aprehensiones similares, por ejemplo. En estos casos, se pue-
den utilizar algunas propiedades de la distribución Beta (2.21) para ayudar
al experto en la elección de valores para α y β. Por ejemplo, una creencia a
priori sobre la proporción en lo aprehendido de unidades con droga situa-
ría esa proporción en la media de la distribución, y una creencia sobre su
precisión sería un valor para la varianza (Sección 2.4.4). Alternativamente,
si se pensara que β fuera 1, de modo que la función de densidad de proba-
Elección del tamaño de la muestra   251

bilidad fuera monótona creciente con respecto a θ, y hubiera una creencia


a priori sobre el límite inferior de la proporción, es decir:

Pr(proporción > θ | α, β) = p

entonces:

α = log(1 – p) / log(θ)

Variaciones en las creencias a priori, expresadas a través de la variación


en los valores de α y β, pueden tener poca influencia sobre las conclusiones
una vez que hayan sido observados algunos datos. La Figura 6.1 ilustra la
probabilidad a priori de que la verdadera proporción de unidades ilegales
en lo aprehendido sea mayor que un valor θ, para 0 < θ < 1, para tres elec-
ciones de valores para α y β. La Figura 6.2 ilustra sobre la probabilidad
a posteriori de que la verdadera proporción de unidades con droga en la
aprehensión sea mayor de θ, para estas elecciones de α y β, una vez exami-
nadas 4 unidades y todas hayan contenido droga.

Figura 6.1. Probabilidad a priori 1 – F(θ) de que la proporción de unidades


en la aprehensión es mayor que θ, para diversas elecciones de α y β: α = β = 1
(curva de puntos y rayas); α = β = 0.5 (curva sólida); α = 0.065 y β = 0.935 (cur-
va de puntos). (Reimpreso con permiso de ASTM International).
252   Muestreo

Figura 6.2. Probabilidad a posteriori 1 – F(θ) de que la proporción de unida-


des en la aprehensión sea mayor que θ, para diversas elecciones de α y β: α =
β = 1 (curva de puntos y rayas); α = β = 0.5 (curva sólida); α = 0.065 y β = 0.935
(curva de puntos), después de observar cuatro unidades, habiéndose encon-
trado droga en todas ellas. La probabilidad correspondiente a que, al menos,
el 50% de las unidades de la aprehensión contengan droga, se marcan como
0.985 (α = β = 0.5), 0.970 (α = β = 1), 0.950 (α = 0.065 y β = 0.935). (Reimpreso
con permiso de ASTM International).

6.2.2 Aprehensiones pequeñas

Supongamos ahora que lo aprehendido tiene un tamaño pequeño N. Se


examina una muestra de m unidades de lo aprehendido, y se encuentran z
(≤ m) unidades con droga.

Enfoque frecuentista
Consideremos un enfoque frecuentista basado en la distribución hi-
pergeométrica (2.3). En Bates y Lambert (1991), así como en Faber y
otros (1999) se pueden encontrar ejemplos. Sea R = Z + Y el número
total de unidades en lo aprehendido que contienen droga, donde Z es el
número de unidades en la muestra de tamaño m con droga e Y el núme-
ro de unidades en el resto de lo aprehendido que contienen droga. En
este caso, la distribución de Z es hipergeométrica (ver la Sección 2.3.5),
con:
Elección del tamaño de la muestra   253

 R  N − R 
  
 z  m − z 
Pr( Z = z) = , z = 0,1 …, min(R,m)
 N
 
m
Cuando z = m,

Pr(Z = m) = R!(N – m)! / N!(R – m)! (6.5)

Llamamos a esta probabilidad Pm. Consideremos un ejemplo donde


N = 10 y θ = 0.7. Entonces R = Nθ = 7. Para m = 5, sustituyendo N = 10, R =
7 y m = 5 en (6.5) se obtiene Pm = P5 = 0.08. Para m = 6, P6 = 0.03 y para m
= 4, P4 = 0.17 (con N = 10, R = 7). Con N = 10 aún, y θ = 0.6, de forma que
R = 6, y m = 5, P5 = 1 / 42 = 0.02 de (6.5). De este modo, para N = 10 y m =
5, si las 5 pastillas muestreadas contienen droga, entonces podemos tener
un 92% de confianza en que la proporción de droga en lo aprehendido es,
al menos, 0.7, y un 98% de confianza en que la proporción de droga en lo
aprehendido es, al menos, 0.6. De forma similar, para N = 10 y m = 4, si
todas las pastillas contienen droga, podemos tener el 83% de confianza de
que la proporción de drogas en lo aprehendido es, al menos, de 0.7. Para
N = 10 y m = 6, si todas las pastillas tienen droga, podemos alcanzar un
97% de confianza en que la proporción de droga en lo aprehendido es, al
menos, del 0.7.
Coulson y otros (2001b) presentaron un enfoque bayesiano para apre-
hensiones pequeñas, utilizando la distribución hipergeométrica. Utilizaron
una distribución a priori discreta donde se divide lo aprehendido en N + 1
posibles bloques de unidades lícitas e ilícitas. La función de verosimilitud
se basó en la distribución hipergeométrica muestreando m de N unidades
y se obtuvo una distribución a posteriori.

Distribución Beta-binomial
La interpretación bayesiana anterior no es tan clara como la basada en
la distribución Beta-binomial (2.7). La distribución Beta-binomial propor-
ciona una probabilidad sobre el número de unidades en lo aprehendido
que contienen droga.
Como anteriormente, sea θ (0 < θ < 1) la proporción de unidades en la
superpoblación que contienen droga. La distribución de probabilidad de z,
dados m y θ, podemos considerarla binomial. Para cada unidad, indepen-
dientemente del resto de las unidades en la aprehensión, la probabilidad
254   Muestreo

de que contenga droga es θ. La distribución a posteriori de θ es otra distri-


bución Beta con parámetros α + z y β + m – z.
Como la aprehensión es pequeña, la mejor representación de la varia-
bilidad del número de unidades que contienen droga en lo aprehendido se
obtiene considerando una distribución de probabilidad para ese número,
digamos Y, explícitamente. Existen n unidades en el resto de la aprehen-
sión (m + n = N) que no han sido inspeccionadas. Entonces, Y (desconoci-
do y no mayor que n) es el número de unidades en ese resto que contienen
droga. Dado θ, la distribución de (Y | n, θ), al igual que de (Z | m, θ), es
binomial. Sin embargo, θ tiene una distribución Beta, y las distribuciones
de (Y | n, θ) y (θ | m, z, α, β) pueden combinarse para dar una distribución
predictiva bayesiana para (Y | m, n, z, α, β), que es una distribución Beta-
binomial (Sección 2.3.7).

Γ(m + α + β) ny Γ( y + z + α)Γ(m + n − z − y + β)


P ( Y = y | m , n , z , α , β) =   ( y = 0,1,..., n ) (6.6)
Γ(z + α)Γ(m − z + β)Γ(m + n + α + β)

Partiendo de esta distribución se pueden realizar inferencias sobre Y,


tales como intervalos de probabilidad o límites inferiores de Y.
La distribución Beta puede generalizarse con la distribución Dirichlet
(Sección 2.4.5). La distribución binomial puede también generalizarse con
la distribución multinomial (Sección 2.3.4). De forma análoga, la distribu-
ción Beta-binomial puede generalizarse con la distribución denominada
Dirichlet-multinomial.

Comparación entre los dos enfoques: frecuentista y bayesiano


Se puede demostrar que, en un caso límite, la distribución Beta y la bi-
nomial dan el mismo resultado numérico cuando se trata de aprehensiones
grandes. Ocurre lo mismo con la Beta-binomial y la hipergeométrica para
pequeñas aprehensiones. La diferencia está en que esos métodos ofrecen
diferentes interpretaciones sobre los resultados (Aitken, 1999).

Utilización de la distribución Beta-binomial


A modo de ejemplo, consideremos un caso en el que N = 10, donde se
inspeccionan 5 unidades y todas ellas contienen droga (m = z = 5). Para
que la proporción de unidades con droga en lo aprehendido sea, al menos,
0.7 (θ ≥ 0.7), se necesita que el número de unidades Y en las cinco unidades
no inspeccionadas sea, al menos, 2 (Y ≥ 2). La probabilidad Beta-binomial
(2.7) con un a priori uniforme (α = β = 1) viene dada por la expresión:
Elección del tamaño de la muestra   255

 5  5 
6  
5
5 y
Pr(Y ≥ 2 | 5,5,5,1,1) = ∑    = 0.985.
y=2  10 
11 
5 + y
La distribución hipergeométrica tiene la interpretación de que si m = z = 5,
tenemos el 92% de confianza de que θ ≥ 0.7. El enfoque Beta-binomial nos
permite asignar una probabilidad de 0.985 al suceso θ ≥ 0.7.
Respecto a grandes aprehensiones, podemos elegir subjetivamente va-
lores para α y β para representar las creencias a priori del experto antes
de la inspección acerca de la proporción de unidades en lo aprehendido
que contengan droga (a modo de muestra aleatoria de una superpobla-
ción).
Se pueden obtener resultados generales. El problema radica en elegir m
de modo que, dados n, α y β (y posibles valores para z, consecuentes con la
elección de m y el resultado de la inspección), pueda elegirse un valor de y
que satisfaga algún criterio probabilístico —por ejemplo, el valor y0 tal que
Pr(Y ≥ y0 | m, n, z, α, β) = p. En Aitken (1999) se ofrecen resultados para p = 0.9,
donde el tamaño de lo aprehendido, N, es 30.
Si el número de unidades inspeccionadas es 6 y una o dos no contienen
droga, el número de unidades en el resto de la aprehensión que contienen
droga, con una probabilidad de 0.9, cae de 17 a entre 12 y 9. Incluso si 16
unidades (de 30 en total) se inspeccionaran y todas contuvieran droga, sólo
podría afirmarse que existe una probabilidad de 0.9 de que 12 de las 14 res-
tantes contendrían droga (incluso con α = 4 y β= 1).
Estos enfoques dirigidos a estimar el tamaño de la muestra asumen que
la clasificación de las unidades como lícitas o ilícitas está libre de error.
Resulta obvio que esta asunción es deseable. Un beneficio adicional de esta
asunción es que la distribución a posteriori de la proporción de unidades
ilícitas en la aprehensión es robusta para elegir los parámetros a priori. Si
existe la posibilidad de clasificar erróneamente la distribución a posteriori
ya no resulta robusta para la elección de los parámetros a priori. Esa situa-
ción no se trata aquí, pero pueden encontrarse detalles en Rahne y otros
(2000). En Faber y otros (1999) puede hallarse un enfoque frecuentista uti-
lizando la distribución hipergeométrica, con una adaptación para tener en
cuenta tanto falsos positivos como falsos negativos.
En Curran y otros (1998b) se pueden encontrar aplicaciones de estas
ideas al muestreo de fragmentos de cristal.
256   Muestreo

6.3 Estimación de la cantidad

La estimación de la cantidad de droga se tratará en dos etapas: primera-


mente se modelará la proporción de unidades en la aprehensión que con-
tienen droga. En segundo lugar, se estima el peso de la droga en aquellas
unidades donde se encuentre. La incertidumbre sobre la creencia previa
sobre la proporción de unidades que contienen droga se representa me-
diante una distribución Beta. Se asume que no existe información previa
sobre la media y varianza de la distribución de la cantidad de droga en las
unidades. En Aitken y otros (1997) se puede encontrar información sobre
cómo utilizar el conocimiento previo mencionado.
Dado un tamaño muestral, y de este modo una estimación de la propor-
ción de droga en la aprehensión, así como una estimación de la media y des-
viación típica del peso de la droga en la aprehensión, se puede calcular un
intervalo de confianza para la verdadera cantidad de droga en ella (Tzidony
y Ravreboy, 1992). En el contexto bayesiano es apropiado un intervalo de
probabilidad. En este marco, la distribución de probabilidad se asocia con
un parámetro (digamos, Q), que representa la cantidad total de droga en
la aprehensión, lo que permite realizar cualquier cálculo de probabilidades.
Por ejemplo, la probabilidad de que Q sea mayor que un cierto valor, diga-
mos q, que fuera importante para la concreción de las sentencias.

6.3.1 Enfoque frecuentista

Sólo es posible realizar afirmaciones alcanzando certezas, considerando


la aprehensión como un todo, si se analiza todo lo aprehendido. Una vez
aceptado que sólo podemos analizar una muestra se necesita considerar
qué nivel de prueba se estima adecuado. Esto es un asunto que compete,
estrictamente, al Tribunal.
El método descrito por Tzidony y Ravreboy (1992) considera la apre-
hensión como una población y a las unidades examinadas como una mues-
tra. Las cantidades (pesos) de droga en las unidades se asume que son va-
riables aleatorias Normalmente distribuidas, con una media poblacional
µ y varianza poblacional σ2. La cantidad media por unidad se estima por
la media, representada por x , de las cantidades encontradas en la mues-
tra. Se determina un intervalo de confianza para µ basado en el tamaño
muestral m, la media muestral x y la desviación estándar muestral s de
las cantidades de droga en las unidades inspeccionadas, y una distribución
asociada t-Student. Posteriormente se determina una estimación de la can-
Estimación de la cantidad   257

tidad total de droga en la aprehensión teniendo en cuenta el tamaño N de


lo aprehendido y la proporción θ de paquetes del mismo que pensamos que
contengan drogas.
Por ejemplo, las desigualdades de la expresión (7) utilizadas por Tzidony
y Ravreboy (1992) son, como una generalización de (5.13):

s ( N − m) s ( N − m)
x − t ( m −1; α / 2 ) ≤ µ ≤ x + t ( m −1; α / 2 )
m N m N

( N − m)
donde es el factor fpc y el intervalo es 100(1 – α)% de intervalo
N
de confianza para la cantidad media por unidad.
El intervalo de confianza correspondiente para Q, la cantidad total de
droga en la aprehensión, se obtiene multiplicando todas las entradas en las
desigualdades por Nθ̂ , donde θ̂ es un estimador de θ basado en el tamaño
de la muestra m. Esto proporciona un intervalo de confianza del 100(1 – α)%
para Q, (expresión (9) de Tzidony y Ravreboy, 1992):

 s ( N − m)   s ( N − m)  (6.7)
Nθˆ x − t ( m −1; α / 2 )  ≤ Q ≤ Nθˆ x + t ( m −1; α / 2 ) 
 m N   m N 

Sin embargo, no se ha tenido en cuenta la incertidumbre en la estima-


ción de θ, sólo se ha realizado una estimación puntual de θ.
Podemos expresar un límite inferior para Q del 100(1 – α)% si conside-
ramos la parte izquierda de la desigualdad:

 s ( N − m) 
Nθˆ x − t ( m −1; α / 2 ) ≤Q (6.8)
 m N 

6.3.2 Enfoque bayesiano

En Aitken y otros (1997) se describen procedimientos para la estimación


de la cantidad de droga utilizando información a priori desde una perspec-
tiva estadística, y en Bring y Aitken (1997) desde una perspectiva jurídica.
Consideremos la aprehensión como una muestra aleatoria de una gran
superpoblación de unidades o paquetes, algunas de las cuales contienen
material ilegal. Sea θ (0 ≤ θ ≤ 1) la proporción de unidades de la superpo-
blación que contienen droga. La variabilidad de θ puede modelarse me-
diante una distribución Beta.
258   Muestreo

Sea n el número de unidades en la aprehensión que no son inspeccionadas.


Entonces N = m + n. Como antes, sea z (≤m) el número de unidades inspec-
cionadas que contienen droga, y sea y (≤n) el número de unidades con droga
entre las unidades no inspeccionadas. Llamamos (x1, …, xz) a las cantidades
de droga de cada una de las unidades inspeccionadas que contenían droga.
Llamamos (w1, …, wy) a las cantidades de droga de cada una de las unidades
z
no inspeccionadas que contenían droga. Sea x = ∑x
i =1
i / z la media muestral
de la cantidad de droga en unidades que la contienen entre las inspecciona-
das, y s la desviación estándar muestral, donde la varianza muestral es igual
z y
a la siguiente expresión: s 2 = ∑ (x i − x )2 /(z − 1). Sea w = ∑ w j / y la media
i =1 j =1
muestral de la cantidad de droga en unidades que la contienen entre las no
inspeccionadas. La cantidad total q de drogas en la aprehensión es zx + yw ,
y lo que tenemos que resolver es, primeramente, estimar w dados x , s y z,
mientras se desconoce y, y luego encontrar yw encontrando la distribución
a posteriori de f(y | x ). Un enfoque estimativo es aquél en el que los paráme-
tros (µ, σ2) de la distribución Normal que representa la cantidad de drogas en
una unidad individual se estiman por la correspondiente media muestral x y
la varianza muestral s2 (Tzidony y Ravreboy, 1992). Un enfoque predictivo es
aquél en el que la estimación de los valores de medidas desconocidas (w1, …,
wy) se predicen a partir de valores de medidas conocidas (x1, …, xz) (Aitchison y
Dunsmore, 1975; Aitchison y otros, 1977; Evett y otros, 1987; Geisser, 1993).
El enfoque predictivo predice los valores de w (y de q, consecuentemen-
te) a partir de x y de s a través de la función de densidad de probabilidad
siguiente:

f ( w | x , s) = ∫ f ( w | µ, σ 2 )f (µ, σ 2 | x , s) dµ dσ 2

donde f(µ, σ2 | x , s) es una función de densidad a posteriori bayesiana para


(µ, σ2) basada en la función de densidad a priori f(µ, σ2) y los estadísticos
resumen x y s.
Cuando la información apriorística para µ y σ2 no esté disponible, puede
utilizarse un a priori uniforme para µ y log(σ2) como se hizo en la Sección
5.5. La función de densidad predictiva para f(y | x ) es una distribución ge-
neralizada t-Student, como se describirá más adelante.
Existen dos ventajas en el enfoque predictivo respecto al estimativo.
Primero, cualquier conocimiento apriorístico sobre los parámetros (µ, σ2)
de la distribución Normal puede modelarse explícitamente. En Aitken y
Estimación de la cantidad   259

otros (1997) se aportan sugerencias sobre cómo llevarlo a cabo, con refe-
rencia al caso de los Estados Unidos contra Pirre.
Se aprehenden m + n (=N) unidades. Se examinan m. La elección de m
se puede hacer siguiendo los procedimientos descritos en la Sección 6.2.
Tras el examen se encuentran z (≤ m) unidades con droga, y (m – z) sin ella.
Los contenidos de las z unidades que contienen droga son pesados y regis-
trados sus pesos (x1, …, xz). Las restantes unidades, n, no se inspeccionan.
Las cifras de m, z y n se conocen.
Primeramente tengamos en cuenta una aprehensión pequeña. Y(≤ n) ex-
presa el número desconocido de unidades no examinadas que contienen
droga. Se puede estimar esa cantidad. Siguiendo los métodos descritos en
la Sección 6.2 se puede determinar una función de probabilidad para Y. Un
promedio ponderado de las cantidades obtenidas para cada uno de los po-
sibles valores de Y se puede alcanzar partiendo de los pesos de las probabi-
lidades de Y obtenidas de una distribución Beta-binomial apropiada (2.7).
Sean (X1, …, Xz) y (W1, …, Wy) los pesos de los contenidos de droga
de las unidades inspeccionadas y no inspeccionadas, respectivamente. Se
z
asume que esos pesos están Normalmente distribuidos. Sean X =
y
∑X / z
i =1
i

y W= ∑ W / y . El peso total, Q, de los contenidos de droga en las unida-


j=1
j

des de la aprehensión es el siguiente:

Q = z x +Y W

Sean (x1, …, xz) los valores observados de (X1, …, Xz). La distribución de


(Q | x1, …, xz), que es una distribución predictiva, es la que centra nuestro
interés. Una vez conocida, resulta posible realizar afirmaciones probabi-
lísticas sobre Q, a diferencia de las afirmaciones basadas en términos de
confianza. z y z
Sean x = ∑ ∑ ∑
x i / z y w = w j / y . También, sea s = ( x i − x ) 2 /(z − 1) la
2

i =1
i =1 j =1
varianza de las medidas sobre las unidades inspeccionadas que contenían
droga. En ausencia de información apriorística sobre la media o varianza
de la distribución de los pesos de la droga en las unidades que la contie-
nen, se puede utilizar una distribución apriorística uniforme. La función
w−x
de densidad de probabilidad de ( w | z, y, x , s2) es tal que 1 1 es una
s +
z y
distribución t-Student con z – 1 grados de libertad. Se pueden determinar
260   Muestreo

cuantiles de esta distribución y, por tanto, límites inferiores para la canti-


dad q = z x + y w , de acuerdo con las correspondientes cargas de prueba.
Para valores dados de m, z, n, y, x y s, se pueden determinar límites in-
feriores para w y, por tanto, para q, partiendo de la siguiente fórmula:

1 1
w = x + st ( z −1; α ) + (6.9)
z y
Para una aprehensión pequeña, el valor de y es una realización de una
variable aleatoria que tiene una distribución Beta-binomial (2.7). La distri-
bución de ( w | z, y, x , s2) puede combinarse con (2.7):
n
Γ(m + α + β) Γ( y + z + α)Γ(m + n − z − y + β)
Pr(Y = y | m, n , z, α, β) =  y ( y = 0,1,..., n )
Γ(z + α)Γ(m − z + β)Γ(m + n + α + β)

donde Γ(x+1) = x! para enteros de x > 0, y Γ(1 / 2) = √π, para obtener una
distribución ( w | s2, x , z). La distribución y la correspondiente función de
densidad de probabilidad de Q pueden determinarse por la relación Q = z
x + y W . Sea ft,z–1(.) la función de densidad de probabilidad de la distribu-
ción t-Student con z – 1 grados de libertad. La función de densidad de pro-
babilidad f(q) de Q viene dada por:

 
  −1
n
 q − ( z + y ) x  1 1
f (q ) = ∑ f t , z −1  sy +  Pr(Y = y) (6.10)
y=0  sy 1 + 1  z y
 z y 
(Aitken y Lucy, 2002)

En Tzidony y Ravreboy (1992) se muestra un ejemplo de una aprehen-


sión de droga con 26 dosis callejeras. Se dispuso de una muestra de 6 uni-
dades (m = 6) y cada una de ellas se analizó y pesó. No se inspeccionaron
20 unidades. Las 6 unidades inspeccionadas tenían droga. El peso neto
promediado x del polvo en las 6 unidades fue de 0.0425 gramos, con una
desviación estándar s de 0.0073 gramos. Se obtuvo un intervalo de con-
fianza al 95% para Q (26 dosis): 1.105 ± 0.175 gramos. Observe que este
intervalo incorpora el factor fpc de (6.2) para tener en cuenta el relativa-
mente grande tamaño de la muestra (m = 6) comparado con el tamaño de
la aprehensión (N = 26). El enfoque bayesiano descrito aquí no requiere de
esa corrección.
Estimación de la cantidad   261

Los valores de Q correspondientes a los puntos de porcentaje adecuados


de la distribución se pueden calcular con (6.10). Se presentan algunos re-
sultados en la Tabla 6.3, junto a los correspondientes resultados del méto-
do de Tzidony y Ravreboy, y en la Figura 6.3.
Tabla 6.3 Estimaciones de cantidades q de droga (en gramos), en una aprehensión de m + n uni-
dades, de acuerdo con varias posibles cargas de prueba, expresadas como porcentajes
P = 100 x Pr(Q>q |m, z, n, x , s) en 26 unidades, cuando 6 unidades se inspeccionan
(m = 6, n = 20) y z = 6, 5 ó 4 con droga. La media ( x ) y desviación estándar (s) de la
cantidad encontrada en las unidades inspeccionadas con droga son 0.0425 gr. y 0.0073
gr., respectivamente. Los parámetros para la a priori Beta son α = β = 1. Los números
entre paréntesis son los límites inferiores frecuentistas utilizando el factor fpc (6.2).
(Reimpreso con permiso de ASTM International).

Número de unidades examinadas


con droga Posible carga de prueba
Porcentaje P
(ilustrativo)
6 5 4
0.689 0.501 0.345
97.5
(0.930) (0.744) (0.575)
0.750 0.559 0.397
95 Más allá de la duda razonable
(0.968) (0.785) (0.613)
0.944 0.770 0.603
70 Claro y convincente
(1.067) (0.885) (0.704)
1.015 0.862 0.704
50 Balance de probabilidades
(1.105) (0.921) (0.737)

Figura 6.3. Probabilidad de que la cantidad total de droga Q, expresada en


gramos, en una aprehensión de 26 unidades sea mayor que q cuando se han
inspeccionado 6 unidades y 6 (curva sólida), 5 (curva de rayas) o 4 (curva
de puntos y rayas) contienen droga. La media y desviación estándar de las
cantidades encontradas en las unidades examinadas que contenían droga son
0.0425 gr. y 0.0073 gr. respectivamente. Los parámetros para la a priori Beta
son α = β = 1. (Reimpreso con permiso de ASTM International).
262   Muestreo

El límite inferior de 0.930 gr. del intervalo de confianza al 95% (1.105 ±


0.175) gr. para la cantidad de droga Q en las 26 unidades puede considerarse
como el límite de confianza inferior del 97.5% para Q. Podemos comparar
esto con el correspondiente valor de 0.689 gr. en la celda de la Tabla 6.3 que
es la cantidad asociada a la Pr(Q > 0.689) = 0.975 obtenida con el enfoque
predictivo. Este enfoque produce un valor más bajo debido a la incertidum-
bre asociada con los valores determinados por el número de unidades no
inspeccionadas que contengan droga. Esta diferencia se observa en todas las
probabilidades contempladas. En general, el enfoque bayesiano aporta valo-
res más bajos para las cantidades de droga que el enfoque frecuentista.
Se pueden encontrar más detalles en Aitken y otros (1997), Izenman
(2001), y Aitken y Lucy (2002), donde se demuestra que a medida que la
carga de la prueba, cantidad de droga en las unidades, se incrementa, me-
nor cantidad se necesita para imputar los cargos pertinentes, disminuyén-
dose el requisito cuantitativo en las sentencias para que se pruebe la co-
misión del delito. Por ejemplo, si se quiere encontrar prueba más allá de
la duda razonable y se asocia una probabilidad de 0.95 con ese criterio, la
cantidad que se precisa es de 0.750 gr. (asumiendo que las 6 unidades con-
tienen droga), como puede verse en la Tabla 6.3, Pr(Q > 0.750) = 0.95.
Alternativamente, si se quiere encontrar prueba según un balance de
probabilidades, estimándose que una probabilidad de 0.50 es acorde con
esta intención, la cantidad asociada con ese criterio es de 1.015 gr., como
puede consultarse en la Tabla 6.3, Pr(Q > 1.015) = 0.50.
Si menos de 6 unidades inspeccionadas contienen droga, las estimacio-
nes de q decrecen considerablemente, como puede contemplarse en las co-
lumnas segunda y tercera de la Tabla 6.3.
En segundo lugar, en los casos de grandes aprehensiones, se utilizan los
datos para proporcionar una distribución a posteriori Beta para la propor-
ción de drogas en la aprehensión. Se asume que el tamaño de lo aprehen-
dido es conocido. El peso total, Q, de los contenidos en droga en todo lo
aprehendido viene dado por la siguiente ecuación: Q = z x + y W .
La distribución de Q viene dada por la función de densidad t-Student,
condicionada a y, con Pr(Y = y) reemplazada por una parte apropiada de
una distribución Beta sobre el intervalo (0, n) (2.22). En la Tabla 6.4 y en la
Figura 6.4 pueden verse resultados para aprehensiones grandes, habiéndo-
se escalado los valores por un factor de 100 respecto a los datos de la Tabla
6.3., y consiguiéndose similares resultados con aprehensiones pequeñas.
Obsérvese que en la componente de la función de densidad t-Student de la
expresión y es considerada como una variable discreta en el intervalo (0,
…, n), y que la componente Beta de la expresión es considerada como una
Estimación de la cantidad   263

variable continua. El tratamiento de y como una variable continua para


integral Beta permite el cálculo de la probabilidad de que y valga un deter-
minado valor entero, el cual se usará en la función t-Student.

Tabla 6.4 Estimación de cantidades q de droga (en gramos), en una apre-


hensión de m + n unidades, de acuerdo con las posibles cargas
de prueba, expresadas como porcentajes P = 100 x Pr(Q > q |
m, z, n, x , s) en 2600 unidades cuando se han inspeccionado
6 unidades (m = 6, n = 2594) y z = 6, 5 o 4 con drogas. La me-
dia ( x ) y la desviación estándar (s) de las cantidades encontra-
das en las unidades inspeccionadas son 0.0425 gr. y 0.0073 gr.,
respectivamente. Los parámetros para la a priori Beta son: α
= β = 1. Los números entre paréntesis son los correspondien-
tes límites inferiores frecuentistas sin usar el factor fpc (6.8).
(Reimpreso con permiso de ASTM International).

Número de unidades inspeccionadas con droga


Porcentaje P
6 5 4
97.5 63 (95) 44 (78) 30 (61)
95 69 (98) 51 (80) 36 (63)
70 91 (106) 74 (88) 58 (70)
50 98 (110) 84 (92) 69 (74)

Figura 6.4. Probabilidad de que la cantidad total de droga Q (en gramos) en una
aprehensión de 2600 unidades sea mayor que q cuando se examinan 6 unidades y se
encuentran con droga 6 (curva sólida), 5 (curva a rayas) o 4 (curva de punto y raya).
La media y desviación estándar de las cantidades encontradas en las unidades ins-
peccionadas que contenían droga fueron 0.0425 gr. y 0.0073 gr. Los parámetros de la
a priori Beta son α = β = 1. (Reimpreso con permiso de ASTM International).
264   Muestreo

6.4 Evidencia engañosa

Consideremos la siguiente cita:

“El conocimiento estadístico trata de la relación entre datos cualita-


tivos y problemas del mundo real, a menudo en presencia de varia-
bilidad e incertidumbre. Intenta hacer preciso y explícito lo que los
datos tienen que decir sobre el problema de interés (Mallows, 1998; la
cursiva ha sido añadida)”.

Dos de los requisitos que los Tribunales norteamericanos exigen a las


pruebas científicas es que sean relevantes y fiables. Los LR tratan sobre
la relevancia. Se dice que la evidencia es relevante si el LR es distinto a
la unidad; es decir, la apuesta a posteriori después de la presentación de
la evidencia es distinta (mayor o menor) que la apuesta a priori realiza-
da antes de la presentación de la evidencia. En una serie de publicaciones
(Royall, 1997, 2000; Mellen, 2000; Mellen y Royall, 1997) Mellen y Royall
tratan sobre la fiabilidad a través de los conceptos de evidencia débil y de
evidencia fuertemente engañosa. La evidencia débil es la evidencia que tie-
ne un bajo LR. La fuertemente engañosa es aquella que tiene un alto LR a
favor de la proposición equivocada —por ejemplo, evidencia que tiene un
alto LR a favor de la proposición del Fiscal cuando es cierta la proposición
de la defensa—.
La Regla 401 perteneciente a las Reglas Federales sobre Evidencias de-
fine la relevancia como “aquello que hace la existencia de un hecho, conse-
cuencia de una determinada acción, más o menos probable y, por tanto, la
probabilidad de existencia del hecho variaría si no se produjera la eviden-
cia”.
Un cambio en la apuesta a favor de la proposición del Fiscal, a través
del valor de la evidencia distinto de la unidad, es un cambio en la probabi-
lidad de la proposición del Fiscal. De este modo, existe una conexión entre
la Regla 401 y los LR. Nótese que el concepto que ahora tratamos sobre
relevancia es distinto al definido en el Capítulo 9, donde se define como
la probabilidad de que la evidencia de traza recuperada de la víctima o
del sospechoso y que coincida (en algún sentido) con la evidencia de tra-
za procedente del sospechoso o de la víctima, esté relacionada con el cri-
men (Stoney, 1991a, 1994; Evett y otros, 1998a). La relevancia que es una
probabilidad se utiliza como un término dentro de la expresión de un LR,
como se muestra en el Capítulo 9. La relevancia tal y como se define en la
Regla 401 de las Reglas Federales de evidencia es una afirmación sobre el
valor del LR.
Evidencia engañosa   265

La Regla 702 de las Reglas Federales sobre Evidencias dispone lo si-


guiente cuando un experto tenga que testificar:

“Si conocimientos de orden científico, técnico o, en general, especia-


lizados, ayudan al que juzga los hechos a comprender la evidencia o
a determinar un hecho en cuestión, los expertos en esas materias por
conocimiento, habilidad, experiencia, adiestramiento o educación
pueden testificar en forma de opinión o de otro modo”.

En 1993, el Tribunal Supremo de los Estados Unidos dictaminó que los


conocimientos científicos ayudarán a los que juzgan los hechos sólo si son
fiables, o dignos de crédito:

“El requisito de que el testimonio de un experto pertenece al ‘conoci-


miento científico’, establece un estándar de … fiabilidad sobre la evi-
dencia —es decir, de credibilidad. En un caso en el que exista eviden-
cia científica, la fiabilidad de la evidencia estará basada en la validez
científica”. (Daubert contra Merrell Dow Pharmaceuticals).

En el año 1999, el Tribunal Supremo de los Estados Unidos estableció


que:

“Los principios generales de Daubert se aplican a los asuntos de ex-


pertos descritos en la Regla 702. La Regla, con respecto a todos los
asuntos ‘establece un estándar de fiabilidad de la evidencia’ (509 U.S.
en 590).
… el juzgador debe determinar si el testimonio tiene ‘bases fiables en
el conocimiento y en la experiencia de la disciplina [relevante]’ (509
U.S. en 592). (Kumho Tire Co. Ltd. contra Carmichael)”.

Fiabilidad es la probabilidad de observar evidencia fuertemente enga-


ñosa. Esto está relacionado con la cantidad de evidencia disponible. Si se
desea mejorar la fiabilidad de la evidencia, se ha de incrementar la canti-
dad de evidencia disponible. Esto es intuitivamente razonable.
Consideremos dos proposiciones competitivas, A y B, para la evidencia
E. El LR es Pr(E|A) / Pr(E|B). Llamemos a esto VAB. Decimos que una evi-
dencia con LR superior a un valor específico, digamos k, será considerada
fuerte evidencia a favor de una proposición A. De este modo, la probabi-
lidad de fuerte evidencia engañosa será aquella para la que Pr(VAB > k),
cuando es B la proposición correcta. El subíndice B puede utilizarse en la
notación para clarificar bajo qué proposición se determina la probabili-
dad, de forma que la probabilidad de fuerte evidencia engañosa podría es-
266   Muestreo

cribirse así: PrB(VAB > k). Consideremos a E como un conjunto de medidas


x (con la correspondiente variable aleatoria X), tales como perfiles de ADN
(sospechoso, víctima e información sobre el caso) o índices de refracción
de cristales (sospechoso, víctima e información sobre el caso). Entonces,
se puede demostrar (Royall, 1997) que es improbable que haya fuerte evi-
dencia a favor de A cuando B es cierta. En particular,
PrB(VAB > k) = PrB(Pr(X = x | A) / Pr(X = x | B) > k) < 1 / k, donde E ha sido
sustituido por X = x.
Consideremos el conjunto S de todos los posibles valores de X que pro-
ducen el valor VAB mayor que k. Para cada uno de esos valores x de X, se
cumple que:

Pr(X = x | B) < Pr(X = x | A) / k

haciendo la transformación adecuada partiendo de la desigualdad ante-


rior. Se pueden sumar todos los valores x de X en S para obtener:

Pr(S) = ∑ Pr(X = x | B) < ∑ Pr(X = x | A) / k.


x∈S x∈S

La suma del lado derecho ∑ Pr(X = x | A) no será mayor que 1 pues se tra-
x∈S
ta de una suma de probabilidades mutuamente excluyentes. De este modo,

Σx∈SPr(X = x | A) / k < 1 / k y, por tanto, Pr(S) < 1 / k

En Royall (1997) se pueden encontrar más detalles y resultados más


fuertes para que “si un investigador sin escrúpulos se propusiera delibera-
damente encontrar evidencia a favor de su hipótesis favorita pero equivo-
cada, cuando la hipótesis rival sea la correcta, por un factor de k, tendrá la
oportunidad de quedar eternamente frustrado”.
Valores de k de 8 y 32 son los que propone Royall (1997, p. 5) para repre-
sentar “moderadamente fuerte” y “fuerte” evidencia, respectivamente, y ya
se han utilizado en la Sección 5.6.4. Estos valores están justificados con re-
ferencia al ejemplo de una urna (consultar la Sección 1.6.2). Consideremos
una urna que contenga todas sus bolas blancas, o mitad blancas y mitad
negras. Si se extraen tres bolas sin reemplazamiento y todas son blancas,
esto puede suscitar una “ligeramente fuerte” evidencia de que todas las bo-
las son blancas. La probabilidad de que suceda eso si la mitad de las bolas
son blancas y la otra mitad negras es (1 / 2)3 = 1 / 8. Si se extraen cinco bolas
Evidencia engañosa   267

sin reemplazamiento y todas son blancas, esto puede representar “fuerte”


evidencia de que la urna contiene únicamente bolas blancas. La probabili-
dad de este suceso si la urna contiene la mitad de las bolas blancas y la otra
mitad negras es (1 / 2)5 = 1 / 32. Edwards (1992), Jeffreys (1983), y Kass y
Raftery (1995) han propuesto similares puntos de referencia. Deben com-
pararse estos resultados con los expuestos en la Sección 3.5.3.
Un ejemplo de aplicación de estas ideas a la evidencia de ADN podemos
encontrarlo en Mellen (2000). Sea s la fuente del ADN y d el defendido.
Consideremos dos proposiciones:
• el defendido es la fuente del ADN de la escena del crimen (s = d);
• cualquier otro posible sospechoso es la fuente (s ≠ d).
Supongamos que ha habido un cotejo positivo entre los perfiles de ADN
del sospechoso y el hallado en la escena del crimen. Sea z el genotipo ob-
servado. Sea Zi la variable aleatoria correspondiente al genotipo de la per-
sona i; Zs es la variable aleatoria correspondiente al genotipo de la escena
del crimen; y Zd la variable aleatoria del genotipo del defendido. Entonces:
Zs = Zd = z. La probabilidad de evidencia engañosa (evidencia cuyo valor V
sea mayor que k) se evalúa asumiendo que s ≠ d. De este modo:

Pr(V > k | Zs = z) = Pr(V > k, Zd = z | Zs = z) = Pr(V > k | Zs = z, Zd = z)


Pr(Zd = z | Zs = = z) < Pr(Zd = z | Zs = z).

Asumiendo que s ≠ d, esta probabilidad final es igual a la frecuencia


genotípica (después de descartar consanguinidad y parientes). La proba-
bilidad de evidencia fuertemente engañosa no es mayor que la frecuencia
genotípica. Como dijo Mellen (2000):

“como cabía esperar, si el genotipo z tiende a ser raro entre individuos


de la misma población genética que el defendido, entonces la proba-
bilidad de observar genotipos en el defendido y en la muestra de re-
ferencia que constituyan una evidencia fuertemente engañosa no es
grande. Si, en otro caso, el genotipo z tiende a ser bastante común en
la subpoblación, entonces la probabilidad puede ser mayor”.

Mellen y Royall (1997) realizan algunos comentarios sobre algunas pro-


piedades útiles de su análisis al final de su trabajo:
• separación entre las medidas de la evidencia y fiabilidad del proceso
que produce la evidencia;
• distinción entre la fuerza de la evidencia implicada y la improbabi-
lidad de su ocurrencia —existe una baja probabilidad de evidencia
implicada fuertemente engañosa—;
268   Muestreo

• explícito condicionamiento de las circunstancias del caso – condi-


cionante de la evidencia ajena al ADN que delimite la población del
sospechoso y condicionante del tipo de ADN de fuente conocida en
las probabilidades de fuerte evidencia de implicación;
• generalidad de los métodos, importancia de las probabilidades con-
dicionales (Balding y Donelly, 1995b) y extensión de los métodos de
identificación de evidencia distinta al ADN.
Royall (2000) extiende estas ideas a datos continuos. Consideremos dos
proposiciones para la evidencia en la forma de medidas de X, de forma que
para la primera utilizamos la notación f1: X ∼ N(θ1, σ2), y para la segunda la
notación f2: X ∼ N(θ2, σ2).
Tenemos los siguiente datos: x1, …, xn. Entonces, las funciones de verosi-
militud, en las dos proposiciones son las siguientes:

n
 1 
f 2 n = ∏ (2πσ 2 )
−1 / 2
exp− ( x i − θ2 ) 2  =
i =1  2σ 2 
 1 n 
(2πσ 2 ) − n / 2 exp− ∑
 2σ 2 i =1
( x i − θ2 ) 2 

n
 1 
f1n = ∏ (2πσ 2 )
−1 / 2
exp− ( x i − θ1 ) 2  =
i =1  2σ 2 
 1 n

(2πσ 2 ) − n / 2 exp− ∑
 2σ 2 i =1
( x i − θ1 ) 2 

f2n  1
= exp− [∑ (x i ]
− θ2 ) 2 − ∑ ( x i − θ1 ) 2  =
f1n  2σ 2 
 n (θ2 − θ1 )  θ + θ2 
exp x − 1 
 σ 2
 2 

Si la primera proposición es cierta, entonces: X ∼ N(θ1, σ2 / n), y se pue-


de demostrar (Royall, 2000) que:

f   ∆ n σ log e (k ) 
Pr1  2 n > k  = Φ − − ,
 f1n   2σ ∆ n 
donde ∆ = |θ2 – θ1| y el subíndice 1 asociado con Pr indica que la primera
proposición es considerada cierta. Con análoga notación, Pr2 indicaría que
Evidencia engañosa   269

se calcula la probabilidad asumiendo que la segunda proposición es la co-


rrecta. Si ∆, expresado como un múltiplo c del error estándar de X , es tal
que ∆ = |θ2 – θ1| = c σ / √n, entonces:

f   ∆ n σ log e (k ) 
Pr1  2 n > k  = Φ − − 
 f1n   2σ ∆ n 

asumiendo que θ1 es la media verdadera. Esta función se llama función


bache. Ver Figura 6.5.
Si θ1 es cierta, hay muy pocas posibilidades de observar fuerte evidencia
a favor de θ2 sobre θ1 cuando la diferencia ∆ entre los valores de los paráme-
tros sea una fracción pequeña del error estándar σ / √n.
Estas ideas se pueden utilizar para determinar un tamaño muestral ba-
sándose en los criterios de control de la probabilidad de fuerte evidencia
engañosa y para la probabilidad de evidencia débil. Consideremos un LR
f1 / f2 de funciones de densidad donde los subíndices representan las dos
proposiciones comparadas entre sí.

Figura 6.5. Función bache para la probabilidad de evidencia engañosa


(Pr1(f2n / f1n) > k) para k = 8 y k = 32 como una función de c, la distancia de la
media verdadera a la alternativa, en errores estándar (Royall, 2000; reimpreso
con permiso del Journal of the American Statistical Association. Copyright 2000
por la Asociación Americana de Estadística. Todos los derechos reservados.)
270   Muestreo

Evidencia fuerte se define como evidencia para la que f1 / f2 es mayor que


un prefijado valor k, o, inversamente, un valor menor que 1 / k;
Evidencia fuertemente engañosa se define como la evidencia para la que
f1 / f2 es mayor que un prefijado valor k cuando la segunda proposición se
asume como cierta, o a la inversa, un valor menor que 1 / k cuando la pri-
mera proposición se asume como cierta;
Evidencia débil es la evidencia que no es fuerte, es decir, evidencia para
la que 1 / k < f1 / f2 < k.
La probabilidad M(n) de observar fuerte evidencia engañosa, en función
del tamaño de la muestra n, viene dada por la siguiente ecuación:

f  f   ∆ n σ log e (k ) 
M (n ) = Pr1  2 n > k  = Pr2  1n > k  = Φ − −  (6.11)
f f 2σ ∆ n 
 1n   2n   

y la probabilidad W(n) de observar evidencia débil, en función del tamaño


de la muestra n, viene dada por la siguiente ecuación:

1 f  1 f 
W (n ) = Pr1 < 2n < k  = Pr2  < 2n < k  = F2 (k ) − F2 (1 / k ) =
 k f1n   k f1n 
 ∆ n σ log e (k )  (6.12)
= Φ − +  − M(n )
 2σ ∆ n 

Consideremos un ejemplo donde la característica de interés sea el índice


de refracción del cristal. Se ha roto una ventana en la escena del crimen. Se
detiene a un sospechoso poco después, y tiene fragmentos de cristal sobre
su ropa. Explica la presencia de los fragmentos diciendo que acababa de
rompérsele un vaso. Las dos proposiciones de interés son las siguientes:
• Hp: los fragmentos de cristal en la ropa del sospechoso procedieron
de la ventana de la escena del crimen;
• Hd: los fragmentos de cristal en la ropa del sospechoso procedieron
del vaso de cristal;
La ventana de la escena del crimen es de un tipo muy común. Existe una
población de referencia con un índice de refracción medio conocido (θ1) y
desviación estándar σ para la variación entre ventanas. El cristal con el que
se fabricó el vaso es también común, con índice de refracción medio cono-
cido (θ2) y la misma desviación estándar σ de variabilidad entre ventanas
que para el cristal de la ventana de la escena del crimen.
Evidencia engañosa   271

Una cuestión prevalorativa (ver Sección 7.2 para profundizar sobre el


tema) es la determinación del número de fragmentos de cristal proceden-
tes de la ropa del sospechoso que han de ser examinados. Una vez deter-
minado este número, se pueden medir los índices de refracción de los cris-
tales sobre la ropa del sospechoso y los que procedan de la ventana de la
escena del crimen, y se pueden comparar utilizando las expresiones de LR
expuestas en el Capítulo 10.
Partiendo de las ecuaciones de M(n) y W(n) anteriores, con ∆ = |θ2 – θ1| y
σ conocidos, lo que se desconoce son el tamaño de la muestra n y el criterio
k para la fuerte evidencia. Los valores de n y k pueden variar, y se pueden
investigar sus correspondientes valores de M(n) y W(n). Para determinar el
tamaño de la muestra en una etapa de prevaloración se necesitan tener en
cuenta los tres criterios siguientes:
• el significado de “fuerte” (el valor de k), y, como consecuencia:
• la probabilidad de evidencia fuertemente engañosa;
• la probabilidad de evidencia débil.
Podemos ilustrar este procedimiento utilizando los siguientes valo-
res para los parámetros: θ1 = 1.5195073; θ2 = 1.5195730; σ = 0.0000492.
Entonces, ∆ = |θ2 – θ1| = 0.0000657 y, como consecuencia de hallar M(n) y
W(n) podemos obtener los resultados de la Tabla 6.5.

Tabla 6.5 Probabilidades de evidencia fuertemente engañosa M(n) y evi-


dencia débil W(n) para valores límite de k de 8 y 32 para evi-
dencia fuerte y tamaños muestrales de n = 5, 10 y 20.

k M(5) W(5) M(10) W(10) M(20) W(20)


8 0.0143 0.1985 0.0046 0.0481 0.0004 0.0038
32 0.0040 0.3658 0.0017 0.0967 0.0002 0.0079

Supongamos que se decide que fuerte evidencia (bien soportando Hp, bien
soportando Hd) es aquélla que supere el valor de 8, y que es tolerable tener una
probabilidad de fuerte evidencia engañosa que no supere el 0.005 y una proba-
bilidad de evidencia débil no superior a 0.05. Estos criterios se satisfacen con
un tamaño muestral de 10. Esto se deduce de la inspección de la Tabla 6.5, en
la fila k = 8 y columnas M(10) y W(10) donde los valores de las correspondien-
tes celdillas son 0.0046 (<0.005) para M(10) y 0.0481 (<0.05) para W(10).
Una probabilidad de 0.005 de fuerte evidencia engañosa es la probabili-
dad de que haya fuerte evidencia de que los fragmentos de cristal sobre la
ropa del sospechoso puedan proceder de la ventana de la escena del crimen
272   Muestreo

cuando en realidad procedían del vaso, o que puedan proceder del vaso
cuando en realidad procedían de la ventana de la escena del crimen.
Se pueden contemplar otras aplicaciones. Por ejemplo, consideremos
el muestreo de una aprehensión de drogas, como la descrita en la Sección
6.2. El tamaño muestral n se determina por el criterio de satisfacer una
probabilidad pre especificada de que la verdadera proporción de droga en
lo aprehendido sea mayor de un determinado valor pre especificado.
En contraste con este criterio, consideremos dos proposiciones sobre la
posible fuente de lo aprehendido:
• Hp: las drogas proceden de una fuente con cantidad media de droga
por tableta de θ1;
• Hd: las drogas proceden de una fuente con cantidad media de droga
por pastilla de θ2.
Podemos elegir el criterio k de fuerte evidencia. Entonces, las proba-
bilidades de evidencia fuertemente engañosa y de evidencia débil pueden
determinarse.
En la Sección 6.3.2 se describió un procedimiento para estimar la can-
tidad de droga en una aprehensión, basándose en una muestra. Este pro-
cedimiento podría adaptarse para estimar la cantidad media de droga por
pastilla en una aprehensión.
Hay, de este modo, dos procedimientos. En el primero se determinan las
probabilidades de fuerte evidencia engañosa y evidencia débil en una etapa
valorativa previa antes del muestreo para comparar las dos proposiciones
sobre la fuente de lo aprehendido. En el segundo, se obtiene una estima-
ción de la cantidad de droga existente en lo aprehendido, sin referencia a la
fuente de lo aprehendido.
Los resultados del muestreo se pueden utilizar en la determinación del
LR que evalúe la evidencia de la aprehensión soportando Hp o Hd.
También resulta posible determinar el tamaño de la muestra a partir de
los criterios relacionados con M(n) (6.11) y W(n) (6.12). Esto puede pro-
porcionar un tamaño muestral distinto del explicado en la Sección 6.2. Sin
embargo, los dos conjuntos de criterios están diseñados para responder a
dos cuestiones distintas y, de este modo, pueden dar diferentes respuestas.
Los criterios basados en M(n) (6.11) y W(n) (6.12) están diseñados para
comparar dos proposiciones sobre el valor medio. El criterio de la Sección
6.2 está diseñado para satisfacer una probabilidad preespecificada de que
la verdadera proporción de droga en la aprehensión supere un determina-
do valor preespecificado.
Capítulo 7
Interpretación Interpretación

En este capítulo se recogen algunos casos periciales donde se aborda-


ron problemas de evaluación e interpretación de naturaleza probabilística.
Tiene especial interés cómo deben realizarse las proposiciones. Se ofrecen
principios de interpretación y una metodología para elegir las proposiciones
relevantes. En los Capítulos 12 y 13 se describe cómo evaluar la evidencia
cuando se dispone de muestras de fibras y de ADN. La evaluación de la evi-
dencia de fragmentos de cristal está en la base de muchas de las ideas que se
extrapolan a otro tipo de evidencias. La evidencia de fragmentos de cristal
está presente en numerosos capítulos (en lugar de uno exclusivo) porque se
trata de uno de los mejores ejemplos para ilustrar muchos temas tratados
en el libro. Hay otras muchas evidencias cuyas técnicas de evaluación no
están aún muy desarrolladas, y que se recogen aquí brevemente. Entre ellas
incluimos las huellas de orejas, huellas de trazas instrumentales y marcas de
balística, huellas dactilares, reconocimiento de locutores, pelos, documen-
tos, escritura manuscrita, y pinturas. Se presentan algunos principios gene-
rales que pueden ayudar a desarrollar métodos estadísticos para evaluar la
evidencia en esas áreas. Cuando es preciso, se hace referencia a esos tipos de
evidencia (como cristales, fibras, ADN) en cualquier momento.

7.1 Conceptos y casuística pericial

El uso de razonamientos probabilísticos en un proceso legal no está


exento de polémica. Existen diversas fuentes de controversia, y en este ca-
pítulo se contemplan algunos casos específicos. Se utiliza una aproxima-
ción bayesiana para evaluar la evidencia.

7.1.1 Población relevante

La evaluación de la evidencia requiere una población para estimar las


probabilidades correspondientes (Sección 8.5). En su forma más simple,
podríamos tener en cuenta la población mundial. Sin embargo, debemos
274   Interpretación

reducir la población a proporciones manejables si utilizamos el teorema de


Bayes, puesto que la apuesta a priori para miembros de una cierta subpo-
blación del mundo hará el LR tan pequeño como queramos.
En R. contra Doheny y Adams se recoge una idea interesante:

“Miembros del Jurado, si Vds. aceptan la evidencia científica presen-


tada por la Corona, ésta indica que hay probablemente sólo cuatro o
cinco varones de raza blanca en el Reino Unido de quienes pudiera
proceder el semen. El defendido es uno de ellos. Si tal es la situación,
la decisión que Vds. han de tomar, sobre toda la evidencia, es si Vds.
están seguros si fue el defendido el que dejó esa mancha o si es posi-
ble que fuera alguno de los otros que conforman el pequeño grupo de
hombres con las mismas características de ADN analizadas”.

La elección del Reino Unido como población relevante se ha presentado


aquí a título ilustrativo. El Tribunal reconoció que sería más apropiado elegir
una más limitada ‘población de sospechosos’, por ejemplo, “caucasianos, va-
rones sexualmente activos en el área de Manchester”, el área donde se cometió
el crimen. Observe que el Tribunal utiliza la palabra “sospechoso”, mientras
que en este libro se prefiere usar la palabra ‘relevante’. La población es defi-
nida inicialmente como varones blancos en el Reino Unido y luego limitada a
“caucasianos, varones sexualmente activos en el área de Manchester”. La defi-
nición de la población es importante porque restringe el número de potencia-
les criminales, pero también porque define la población de la que se necesita
calcular la frecuencia relativa de aparición de las características observadas
en un vestigio. Esto podría a menudo incluir perfiles de ADN, pero también
otros tipos de evidencia como características del pelo o fibras de ropa.

7.1.2 Consideraciones sobre apuestas

El experto forense, respecto a la evidencia, tiene la misión de calcular el LR.


El Tribunal y el Jurado tienen la misión de apostar a favor de las proposiciones
(la del Fiscal y la del defensor). La combinación del LR con la apuesta a priori
permite obtener la apuesta a posteriori. El LR es un valor numérico. De este
modo, la apuesta a priori ha de ser también cuantificada si se quiere combinar
con el LR para hallar el valor de la apuesta a posteriori (Berry, 1990).
La apuesta a priori puede proporcionarse en forma de rango de posibles
valores, lo cual entraña la obtención de un correspondiente rango de valo-
res para apuestas a posteriori. A continuación se presenta un criterio para
la elección de esos valores. Las cifras que se aportan sirven para ejemplifi-
car y ayudar a la reflexión. Se utilizan con los mismos fines en Thompson
Conceptos y casuística pericial   275

y otros (2003) en una discusión sobre tasas de error en análisis de ADN, del
que se dan más detalles en los Capítulos 13 y 14. El contexto que se tiene en
cuenta aquí, desde el punto de vista de la proposición del Fiscal, es que el
sospechoso es la fuente de la evidencia.
A continuación se presentan algunas sugerencias sobre cómo expresar
las apuestas a priori a favor de la proposición del Fiscal:
• 2:1 – otra evidencia anterior a la actualmente considerada es mode-
radamente fuerte pero, probablemente, no suficiente por sí misma
para sugerir que el sospechoso sea la fuente.
• 1:10, 1:100 – otra evidencia sugiere la posibilidad de que el sospecho-
so sea la fuente sin que haya una fuerte razón para creer en ello.
• 1:1000 – apenas hay otra evidencia además del vestigio.
Hay también algunas ideas que ayudan a cómo expresar las apuestas a
posteriori a favor de la proposición del Fiscal. Por ejemplo:
• ¿Qué significa la frase “más allá de la duda razonable”?
• Como se trató en la Sección 3.5.6, en un cuestionario se interpreta
la frase “más allá de la duda razonable” como variando entre 0.8 y
0.99 (Simon y Mahan, 1971).
• Puede suceder que un Jurado exija, en función de la severidad de la
sentencia, estar más convencido de la culpa en un caso importante
que en un caso de poca importancia antes de dar su veredicto.
• La frase “es mejor que diez culpables escapen que un inocente sea
condenado” (Blackstone, citado por Ceci y Friedman, 2000) ha sido
a veces utilizada, y equivale a una apuesta de 10:1.
• La frase “es mejor que noventa y nueve culpables sufran condena
que un inocente sea condenado” (Starkie, citado por el Tribunal
Supremo de los Estados Unidos, 1995) ha sido utilizada, y es equi-
valente a una apuesta de 99:1.
La cita de Jaynes (2003) en la Sección 3.5.6 es particularmente adecuada
aquí, y una parte en particular merece ser repetida: “si Vd. fuera un Juez,
¿preferiría mirar a la cara a alguien a quien hubiera condenado falsamente
o a 100 víctimas de crímenes que pudieran haberse evitado?”.
Aún puede que necesitemos alguna ulterior interpretación sobre las apues-
tas a priori y a posteriori. En la Sección 3.5.3 se expuso una aproximación con-
sistente en una escala de poblaciones propuesta por Aitken y Taroni (1998). La
escala está basada en una escala logarítmica para las apuestas a priori y a pos-
teriori, lo que nos permite manejar fácilmente grandes probabilidades. Los
logaritmos (en base 10) se relacionan con poblaciones que el Jurado será ca-
paz de relacionar con más facilidad que con las probabilidades originales. El
rango de tamaño de las poblaciones va desde un individuo, con log(apuesta)
276   Interpretación

de 0 (apuestas iguales a 1 o tablas), a la población mundial, con log(apuesta)


de 10 (apuestas de 10.000 millones). Por ejemplo, consideramos una ciudad
de 1 millón de personas (un poco mayor que la ciudad de Glasgow). El crimi-
nal es una persona de esta ciudad. El resto son inocentes. Se selecciona una
persona de la ciudad al azar. La apuesta es de 1 millón a 1 en contra de que
esa persona sea el criminal. Ahora consideremos un pueblo de 2000 personas.
Hay una persona inocente en el pueblo. El resto son culpables. Se selecciona
una persona al azar de entre los ciudadanos. La apuesta es de 2000 a 1 a favor
de que la persona seleccionada sea culpable. Estos ejemplos son ilustraciones
del problema de la Isla descrito en la Sección 3.5.6.

7.1.3 Combinación de evidencias

En las Secciones 8.1.1. y 8.1.3 puede encontrarse una descripción técni-


ca de los problemas aquí contemplados.
La combinación de evidencias fue relevante en el caso de Splatt
(Shannon, 1984; Davis, 1986). Un estadístico, John Darroch, aconsejó a la
Real Comisión que estaba investigando el caso. En el discurso presidencial
a la 7ª Conferencia Estadística de Australia, en agosto de 1984 (Darroch,
1985, 1987), proporcionó la siguiente cita tomada del caso Belhaven y
Stenton Peerage de 1875:
“Lord Cairns (1875): a veces se dice que tratando con evidencias circuns-
tanciales se debería considerar el peso que tendrían en su conjunto.
Puede que tengamos un rayo de luz tan débil que apenas ilumine una
esquina oscura pero, por otro lado, podríamos conseguir un número de
rayos tal, insuficiente cada uno de ellos para iluminar esa esquina, que
al converger y apuntar al mismo punto, es decir, unidos, produzcan un
cuerpo de luz que aclare la oscuridad que queramos disipar”.

Como Darroch comentaba, los rayos de luz combinados producen un


gran cuerpo lumínico si se relacionan con evidencias independientes. En el
caso Splatt, la mayoría de las evidencias no eran independientes puesto que
los diferentes objetos provenían de una misma fuente. El descubrimiento
de un conjunto de fragmentos no era independiente del descubrimiento de
otro conjunto distinto.

7.1.4 Casos específicos

A continuación se presentan algunos casos que ilustran las considera-


ciones anteriores.
Conceptos y casuística pericial   277

R. contra Adams, D.J. (Dawid, 2002)

Adams fue arrestado por violación. La evidencia E que le vinculaba con


el crimen fue, primero, una coincidencia entre su ADN y el del semen ob-
tenido de la víctima, y posteriormente, el hecho de que él vivió allí. Se in-
formó de una probabilidad de coincidencia para el ADN de 1 entre 200
millones. La defensa lo puso en duda e indicó que una cifra de 1 entre 20
millones o incluso 1 entre 2 millones podría ser más apropiada. Hubo otras
informaciones (a priori):
• Identificación (I1) – la víctima dio una descripción de su agresor
que era difícil de concordar con las características del acusado y no
lo eligió en una rueda de reconocimiento.
• Coartada (I2) – una antigua novia de Adams dio una coartada que no
fue puesta en duda. En el juicio, con el consentimiento del Fiscal, la
defensa y el Tribunal, el Jurado recibió instrucciones sobre la ma-
nera correcta de combinar toda la evidencia de la que se disponía.
Se presentó una probabilidad a priori de culpabilidad, seguida de
los LR para I1 e I2 que se consideraron creíbles. La evidencia de
ADN (E) fue luego presentada para proporcionar una probabilidad
a posteriori final de culpabilidad. Por supuesto, las cifras que se
dan a continuación podrían ser puestas en duda o el Jurado podría
emplear sus propias cifras.
Consideramos dos proposiciones:
• Hp, Adams es culpable;
• Hd, Adams no es culpable.
La probabilidad a priori de culpabilidad fue calculada como sigue:
Había aproximadamente 150.000 hombres entre 18 y 60 años en la re-
gión que, en ausencia de otra evidencia, pudieran haber cometido el cri-
men. Se añadieron otros 50.000 para tener en cuenta la posibilidad de que
el agresor pudiera haber venido desde fuera de la región (es decir, una pro-
babilidad de 0.25 para la posibilidad de que el agresor viniera desde fuera
de la región). Así,

1
Pr(H p ) = ,
200.000
Pr(H p ) 1 1
= ≅
Pr(H d ) 199.999 200.000
Las otras dos evidencias, la identificación (I1) y la coartada (I2), fueron
calculadas como sigue:
278   Interpretación

Evidencia de identificación: A I1 le fue asignada una probabilidad Pr(I1 |


Hp) = 0.1 si el acusado era culpable y una probabilidad Pr(I1 | Hd) = 0.9 si el
acusado era inocente. (Nótese que estas dos probabilidades suman 1 pero
esto no tiene por qué ser así necesariamente; ver la evidencia de coartada
más abajo). Estas asignaciones proporcionaron un LR: Pr(I1 | Hp) / Pr(I1 |
Hd) = 1 / 9 (o un LR Pr(I1 | Hd) / Pr(I1 | Hp) = 9 a favor de la defensa).
Evidencia de coartada: A I2 le fue asignada una probabilidad Pr(I2 | Hp)
= 0.25 si el acusado era culpable, y una probabilidad Pr(I2 | Hd) = 0.50, si
era inocente. Estas asignaciones proporcionan un LR: Pr(I2 | Hp) / Pr(I2 |
Hd) = 1 / 2 (o un LR Pr(I2 | Hd) / Pr(I2 | Hp) = 2 a favor de la defensa).
Estos dos elementos de la evidencia se asumieron como independientes.
Así, situando Hd en el numerador y Hp en el denominador:

Pr(I1 , I 2 | H d ) Pr(I1 | H d ) Pr(I 2 | H d )


= × = 18
Pr(I1 , I 2 | H p ) Pr(I1 | H p ) Pr(I 2 | H p )

un LR total de 18 a favor de la defensa. Este LR puede luego combinarse


Pr(H d )
con la apuesta a priori de 200.000, para dar apuestas antes de con-
Pr(H p )
siderar la evidencia de ADN de:

Pr(H d | I1 , I 2 ) Pr(I1 | H d ) Pr(I 2 | H d ) Pr(H d )


= × ×
Pr(H p | I1 , I 2 ) Pr(I1 | H p ) Pr(I 2 | H p ) Pr(H p )

que es igual a 3.6 millones a favor de la defensa o en contra de la acusación.


Ahora la evidencia de ADN, E, (con un LR de 200 millones a 2 millones a
favor de la acusación) se incluye a través de la multiplicación con la apues-
ta de 1 entre 3.6 millones, considerando I1 e I2. La evidencia de ADN, E, se
asume independiente de I1 e I2:

Pr(H p | E, I1 , I 2 ) Pr(E | H p ) Pr(I1 | H p ) Pr(I 2 | H p ) Pr(H p )


V= = × × ×
Pr(H d | E, I1 , I 2 ) Pr(E | H d ) Pr(I1 | H d ) Pr(I 2 |H d ) Pr(H d )

donde Pr(E | Hp) / Pr(E | Hd) puede tomarse como 200 millones (la sugeren-
cia de la acusación) o 2 millones (la mínima de las sugerencias de la defen-
sa). Estos resultados conllevan una apuesta a posteriori de 56 a 1 (200 / 3.6)
a favor de la culpabilidad, y 1.8 a 1 a favor de la inocencia. Estas apuestas a
su vez, conllevan una probabilidad a posteriori de culpabilidad en el inter-
valo 0.98 (56/57) a 0.36 (1–(1.8/2.8)). La defensa argumentó tomando como
referencia estas cifras, que no había pruebas de culpabilidad ‘más allá de la
Conceptos y casuística pericial   279

duda razonable’. El Jurado dio un veredicto de culpabilidad. El Tribunal de


apelación rechazó el intento de introducir un razonamiento probabilístico,
argumentando que “se entrometía en una zona exclusivamente dentro de
la competencia del Jurado”, y que “introducir el Teorema de Bayes, o cual-
quier método similar dentro de un juicio criminal, sume al Jurado dentro
de inapropiados e innecesarios terrenos de teoría y complejidad, desvián-
dolos de sus verdaderas tareas”. (Esto es una reminiscencia de comenta-
rios hechos en la apelación del caso Collins; ver Sección 4.4). La tarea del
Jurado se dijo que era ‘evaluar la evidencia y llegar a una conclusión no
por medio de una fórmula, matemática o de otra naturaleza, sino por la
aplicación colectiva del sentido común de cada miembro y apelando a su
conocimiento de las cosas antes de ser presentada la evidencia’.
No se reconoce que el llamado sentido común, por lo general, funciona
mal cuando se trata de calcular probabilidades.
La apelación fue concedida porque el Juez del juicio no trató adecuada-
mente la cuestión de qué era lo que debía hacer el Jurado si no quería usar
el Teorema de Bayes.
Fue ordenado un nuevo juicio. Se hicieron intentos para describir me-
diante una aproximación Bayesiana el conjunto de toda la evidencia. De
nuevo el Jurado declaró culpable al acusado, y fue presentada nuevamente
otra apelación, rechazándose la aproximación Bayesiana como inapropia-
da por la Sala, por lo que la apelación fue desestimada.
Nótese que Dennis Adams tenía un hermano carnal cuyo ADN no fue
investigado. La probabilidad de que el hermano tuviese el mismo perfil
de ADN que el acusado fue estimada como de 1 sobre 220. Esto se sostuvo
para debilitar el impacto de la evidencia de ADN contra Dennis Adams.
Este punto fue descartado a causa de que no se disponía del ADN del her-
mano, ni de ninguna pista sobre si pudiera haber cometido el delito. Sin
embargo, tampoco se disponía de otras evidencias contra Dennis Adams
excepto de la evidencia de ADN.

Los casos de Lashley y Smith (Redmayne, 2002)

En el contexto del fallo en Doheny, consideramos el caso de R. contra


Lashley. Lashley fue condenado por robo en una oficina de correos de
Liverpool. La única evidencia en su contra fue una coincidencia de ADN
que le consideraba sospechoso además de otros 7 a 10 varones en el Reino
Unido (en el argumento usado en Doheny). No hubo evidencia que le vin-
culase al área de Liverpool. Su condena fue anulada en apelación.
280   Interpretación

Sin embargo, el caso de R. contra Smith, con los mismos jueces y el mismo
día que Lashley, fue tratado de forma diferente. Él fue condenado por robo en
una oficina postal de Barley, Hertfordshire. La principal evidencia en su con-
tra fue una coincidencia de ADN (con probabilidad de 1 entre 1.25 millones),
que (como en Doheny) le consideraba sospechoso junto con otros 43 varones
en el Reino Unido. Su apelación fue anulada porque la evidencia de ADN ‘no
era suficiente por sí sola porque había también una clara evidencia de que este
hombre había sido arrestado a una cortísima distancia del hecho.’
Smith fue arrestado en un lugar llamado Potton, a 13 millas de Barley.
Un radio de acción centrado en Barley con Potton como frontera encierra
varias ciudades y, tras una valoración aproximada, unos 80.000 hombres
con edad adecuada vivían por lo menos tan cerca de Barley como Smith.
Esta cifra podría usarse para proporcionar una apuesta a priori de 1 en-
tre 80.000 contra la culpabilidad de Smith. Esto puede combinarse con la
evidencia de ADN para dar una probabilidad de culpabilidad de 0.94. Si se
considera que como mínimo, debería ser 16 veces mayor condenar a un
inocente que absolver a un culpable, Smith entonces no sería condenado.
Esta sería la situación con la sentencia Blackstone, pero no con la senten-
cia Starkie, ambas citadas en la Sección 7.1.2.
Asimismo, Smith provenía de una familia numerosa —su padre tenía
13 hermanos y hermanas. El Tribunal de Apelación no se interesó por esto.
Como en R. contra Adams, D.J., no había pruebas para implicar a los fa-
miliares, pero, aparte del ADN (y la geografía), tampoco había evidencia
para implicar a Smith. Si se asumiera que todos los miembros de la po-
blación de los posibles sospechosos tuvieran la misma probabilidad de ha-
ber cometido el crimen, entonces, cualquiera de los familiares entre esa
población sería, antes de la prueba de ADN, tan probablemente culpable
como cualquier otra persona. Los familiares tendrían más probabilidades
de coincidencia que otros miembros de la población y esto no debería ser
ignorado (Lempert, 1991, 1993; Balding, 2000; Redmayne, 2002; ver tam-
bién la Sección 13.6).

R contra Clark

El primer hijo de Sally Clark, Christopher, murió inesperadamente con


3 meses de edad cuando ella era la única persona que estaba en casa. La
muerte fue tratada, inicialmente, como un caso de muerte súbita infantil
(SIDS). Su segundo hijo, Harry, nació el año siguiente. Murió en circuns-
tancias similares. Ella fue arrestada y acusada del asesinato de sus hijos.
Conceptos y casuística pericial   281

En el juicio, un profesor de pediatría testificó que, en una familia de simi-


lar clase social que la de Sally Clark, la probabilidad de que dos niños mu-
rieran de SIDS era alrededor de 1 entre 73 millones. Esto estaba basado en
un estudio que estimaba que la probabilidad de que un niño muriera por
SIDS en familias de este tipo era de 1 entre 8.500, y ésta elevada al cuadra-
do sería la probabilidad de dos muertes. Elevando al cuadrado la cifra de
1 entre 8.500 estamos asumiendo la independencia de las dos muertes. La
probabilidad de que el segundo niño sufra muerte por SIDS, dado que el
primero murió de SIDS, se asume que es la misma que la probabilidad de
que el primer hijo muriese por SIDS. (De nuevo, esto es una reminiscencia
del caso Collins (Sección 4.4), esta vez porque se asumió inapropiadamen-
te independencia). El caso y los siguientes análisis se describen en Dawid
(2002). Se pueden considerar dos proposiciones:
• Hp, la madre realmente mató a sus dos hijos;
• Hd, los niños murieron de SIDS.
La aproximación Bayesiana considera la relación de verosimilitudes de la
evidencia E de las dos muertes bajo las dos proposiciones. Esto es la razón de
Pr(“dos niños muertos”| fueron asesinados) / Pr (“dos niños muertos” | murie-
ron de SIDS). Ambas probabilidades en esta relación valen 1: la probabilidad
de dos niños muertos si fueron asesinados es 1 y la probabilidad de dos niños
muertos si murieron de SIDS es también 1. Para estas dos proposiciones, el
valor de la evidencia de las muertes no es relevante. Sin embargo, la deter-
minación de la apuesta a posteriori Pr(Hp | E) / Pr(Hd | E) requiere la conside-
ración de las probabilidades a priori para Hp y Hd así como del LR. Primero,
consideramos Hd: la probabilidad de que se produzcan dos muertes por SIDS
es 1 entre 73 millones (asumiendo la cifra dada en el juicio como exacta). Para
la probabilidad de muerte por asesinato (Hp), Dawid (2002) cita los datos de
1997 de la Oficina Nacional de Estadística (ONS) en los que se refleja que hubo
642.093 nacimientos y que siete niños fueron asesinados en su primer año de
vida. La probabilidad de ser asesinados es estimada por Dawid (2002) como
de 7/642.093 o aproximadamente 1 entre 90.000. Asumiendo independencia,
y asumiendo muerte por SIDS (ninguna de las dos asunciones son particular-
mente razonables), elevando al cuadrado la probabilidad de los dos asesinatos
se obtiene una probabilidad de 1 entre 8.400 millones para la probabilidad
de que los dos niños hubieran sido asesinados siendo de la misma familia.
La razón Pr(Hp ) / Pr(Hd) de 1 entre 8.400 millones a 1 entre 73 millones es 1 /
115. Esta cifra es la apuesta a priori para Hp relativa a Hd. Como el LR tiene un
valor de 1, la apuesta a posteriori para Hp relativa a Hd, es también 1 entre 115.
Así, la probabilidad a posteriori de que los niños murieran por SIDS en lugar
de haber sido asesinados es 115/116 ó 0.99.
282   Interpretación

Es importante que las proposiciones sean cuidadosamente especifica-


das. Dawid (2002) proporciona un análisis alternativo en el que las pro-
posiciones consideradas no son tan restrictivas como las de arriba (ver
Sección 7.2.1 y la distinción entre proposición y explicación). En el análisis
alternativo, las proposiciones son:
• Hp, los niños fueron asesinados;
• Hd, los niños no fueron asesinados.
La evidencia E es, como en el análisis previo, que los niños murieron.
Aquí asumimos, además, que si los niños fueron asesinados entonces fue
Sally Clark la que los asesinó y si los niños no fueron asesinados, entonces
murieron de SIDS. Así Pr(E | Hp) = 1, como antes. Sin embargo, Hd no in-
cluye la implicación de que los niños murieran. Así, Pr(E | Hd) es la proba-
bilidad de que los niños murieran, asumiendo que no fueron asesinados.
Ésta es la probabilidad de que murieran por causas naturales, y más espe-
cíficamente por SIDS. Esta es entonces 1 entre 73 millones (usando aún
la cifra aportada en el juicio original). El LR es 1 dividido por 1 entre 73
millones, o 73 millones, una cifra que proporciona un soporte muy fuerte a
la evidencia de la proposición de que los niños fueron asesinados por Sally
Clark. Sin embargo, el cambio en las proposiciones desde el análisis inicial
hace que la apuesta a priori cambie también. En este (segundo) análisis,
Pr(Hp) = 1 / 8.400 millones usando las cifras aportadas por la ONS. Así,
Pr(Hp) / Pr( Hd) ≈ 1 / 8.400 millones. La combinación del LR y la apuesta a
priori conlleva la misma apuesta a posteriori que antes: 73 millones divi-
dido por 8.400 millones ó 1 entre 115. Existe una probabilidad a posteriori
de que los niños no fueron asesinados de 115 / 116, como antes.
La probabilidad de otras evidencias tiene que ser también calculada
bajo cada una de las dos proposiciones. La elección de probabilidades para
ellas es subjetiva. Sin embargo, el enfoque Bayesiano deja muy claro qué
características de las evidencias deben tenerse en cuenta y cuál es el efecto
de las decisiones sobre las probabilidades.
El Tribunal de Apelaciones escuchó una nueva evidencia médica en ene-
ro de 2003 y la condena de Sally Clark fue anulada. Un comentario alu-
diendo a este caso se aporta también en Aitken (2003).

Resumen

El enfoque Bayesiano aporta una aproximación intelectualmente rigu-


rosa para el análisis de la incertidumbre en la evaluación de la evidencia.
Conlleva que las implicaciones de las asunciones sean consideradas a con-
Prevaloración y proposiciones relevantes   283

ciencia. Permite preguntarse sobre la incertidumbre para aportar un resul-


tado probabilísticamente coherente. Los casos tratados aquí han ilustrado
sobre cómo pueden tratarse con un enfoque Bayesiano diversos aspectos
de un juicio:
• El LR – ilustrado aquí con respecto a cómo puede evaluarse la com-
binación de más de una evidencia (R. contra Adams, D.J.) y a cómo
puede facilitarse la interpretación de ciertos casos (R. contra Clark).
Ver también Kaye y Koehler (2003) para una justificación más del
uso del LR para medir el valor probativo de la evidencia.
• Consideración de toda la evidencia —ilustrado por el caso de R.
contra Adams, D.J.
• Definición de proposiciones —la evaluación de la evidencia depen-
de de las proposiciones presentadas por el Fiscal y la defensa (R.
contra Clark).
• Población relevante —necesita definirse cuidadosamente para que
la apuesta a priori esté apropiadamente cuantificada. Además, para
perfiles de ADN, la frecuencia de los perfiles depende del origen ét-
nico del donante del perfil, y hay que considerar además la posible
implicación de parientes.

7.2 Prevaloración y proposiciones relevantes

7.2.1 Niveles de Proposición

Está ampliamente aceptado que para valorar la evidencia científica, el


perito debe tener en cuenta distintas proposiciones que, normalmente, re-
presentan las alternativas que la defensa y la fiscalía defienden para ilustrar
los hechos. La importancia de éstas ha sido ilustrado con en el caso R. con-
tra Clark. Esas alternativas son representaciones formalizadas del cúmulo
de circunstancias. El perito evalúa la evidencia bajo esas proposiciones. La
formulación de las proposiciones es crucial para una aproximación lógica y
científica de la evaluación de la evidencia (Cook y otros, 1998b). El marco de
las proposiciones es una importante y difícil etapa del proceso de evaluación
que puede especificarse mediante tres principios clave (Evett y Weir, 1998):
• La evaluación sólo tiene sentido cuando exista, al menos, una pro-
posición alternativa (dos o más proposiciones competitivas), con-
vencionalmente denominadas Hp y Hd en este libro.
• La evaluación de la evidencia científica (E) considera la probabili-
dad de la evidencia dadas las proposiciones, Pr(E | Hp) y Pr(E | Hd).
284   Interpretación

• La evaluación de la evidencia científica se realiza dentro un mar-


co de circunstancias, que se representan mediante I. La evaluación
no sólo está condicionada por las proposiciones competitivas sino
también por la estructura y contenido del marco de referencia.
Por tanto, las proposiciones juegan un papel clave en todo ese proceso.
Generalmente, las proposiciones se consideran por parejas. Habrá si-
tuaciones donde haya tres o más. En la sección 8.1.3 pueden encontrarse
comentarios al respecto. Esto sucede a menudo en mezclas de ADN, por
ejemplo, donde el número de contribuyentes a la mezcla está bajo discusión
(Buckleton y otros, 1998; Lauritzen y Mortera, 2002). Generalmente es po-
sible reducir el número de proposiciones a dos, las cuales se identifican con
las posiciones de la defensa y de la fiscalía respectivamente. Claramente, las
dos proposiciones han de ser mutuamente excluyentes. Existe la tentación
de exigir que sean también exhaustivas, pero no es necesario. La forma más
simple de afirmar esto es añadiendo la palabra “no” a la primera proposi-
ción, diciendo, por ejemplo: “El Sr. C es el hombre que dio un puntapié al
Sr. Z” y “El Sr. C no es el hombre que dio un puntapié al Sr. Z”. Sin embargo,
esto no da al Tribunal información alguna sobre la forma en que el perito
ha valorado la segunda proposición. El Sr. C puede que no haya dado un
puntapié a la víctima, pero pudiera haber estado presente en el incidente.
Análogamente, considere las proposiciones “El Sr. B tuvo relaciones sexua-
les con la Sra. Y” y “El Sr. B no tuvo relaciones sexuales con la Sra. Y”. De
hecho, si se hubiera encontrado semen tras un lavado vaginal, podría con-
cluirse que hubo relaciones sexuales con la Sra. Y y, ciertamente, el perfil ge-
nético del semen sería evaluado considerando la probabilidad de que viniera
de otro hombre. Ayudaría al Tribunal que esto fuera explícitamente citado
en la proposición alternativa a la especificada. Así pues, la alternativa podría
ser: “Algún hombre desconocido, no emparentado con el Sr. B, tuvo relacio-
nes sexuales con la Sra. Y” (sin tener en cuenta a parientes). En resumen, el
simple uso de la palabra “no” para enmarcar la proposición alternativa pue-
de que no sea de ayuda al Tribunal (Cook y otros, 1998b).
En el mismo sentido, es útil evitar palabras equívocas como “contacto”
para describir el tipo de acción de las proposiciones. En efecto, existe peligro
si se utiliza una palabra tan vaga. Como afirmaron Evett y otros (2000a),
la declaración de que un sospechoso haya estado en contacto reciente con
cristales rotos puede significar múltiples cosas. Existe una clara necesidad
de especificar correctamente una proposición en el marco de sus circuns-
tancias. Además, el perito puede confundir proposiciones con explicaciones.
Por ejemplo, proposiciones como “la mancha del crimen procedió del sos-
pechoso”, y “la mancha del crimen procedió de alguna persona desconoci-
Prevaloración y proposiciones relevantes   285

da que tuviera el mismo genotipo que el sospechoso” son explicaciones. La


probabilidad de la evidencia de que el perfil de ADN de la mancha del cri-
men coincida con el del sospechoso dada la primera proposición es uno; la
probabilidad de la evidencia dada la proposición alternativa es también uno.
Por tanto, el LR es simplemente uno. La interpretación es que no existe in-
formación porque la proposición alternativa explica la observación pero no
es capaz de valorar el peso de la evidencia (Evett y otros, 2000b).
La anterior discusión sobre el análisis de Dawid (2002) del caso R. contra
Clark explica cómo la apuesta a priori y el LR interactúan de tal forma que
incluso aunque el LR fuera la unidad la apuesta a posteriori resultaría intui-
tivamente razonable. Las explicaciones pueden ser útiles como una especie
de herramienta exploratoria y juegan un importante papel en la reconstruc-
ción de los hechos (que normalmente se realiza en la fase de investigación).
Evett y otros (2000a) presentan ejemplos distinguiendo estos términos. Por
consiguiente, las identificaciones de las proposiciones por parte de los pe-
ritos no es una tarea fácil. Ha sido propuesta una aproximación fructífera
por Cook y otros (1998b). De una forma práctica, las proposiciones que se
manejan en un caso judicial dependen de (a) las circunstancias del caso, (b)
las observaciones que se hayan hecho y (c) los datos de contexto de los que
se disponga. Se ha propuesto una clasificación (denominada jerarquía) de
las proposiciones en tres niveles: el nivel de la fuente (nivel I), el nivel de la
actividad (nivel II), y el nivel del crimen (o de la ofensa) (nivel III).
La valoración del primer nivel (la fuente) depende del análisis y medi-
das sobre las muestras recuperadas y las de control. El valor de una traza
(o una mancha) bajo proposiciones del nivel de fuente (tales como “el jer-
sey de Mr. X es la fuente de las fibras recuperadas” y “el jersey de Mr. X no
es la fuente de las fibras recuperadas”, de forma que otra ropa es la fuente
de la traza) no necesitan tener en cuenta nada más que la información ana-
lítica obtenida en el examen pericial. La probabilidad de la evidencia bajo
la primera proposición (numerador) se obtiene a partir de una cuidadosa
comparación entre dos muestras (la recuperada y la de control). La proba-
bilidad de la evidencia bajo la segunda proposición (denominador) se ob-
tiene mediante comparación de las características de la muestra de control
y alguna clase de población de fuentes alternativas.
El siguiente nivel (nivel II) se relaciona con una actividad. Implica que las
definiciones de las proposiciones de interés deben incluir una acción. Tales
proposiciones pudieran ser, por ejemplo, “El Sr. X agredió a la víctima” y
“El Sr. no agredió a la víctima” (algún otro hombre la agredió y el Sr. X no
está involucrado en la ofensa), o “El Sr. X se sentó en el asiento del conduc-
tor del vehículo” y “El Sr. X nunca se sentó en el asiento del conductor del
286   Interpretación

vehículo”. La consecuencia de esta actividad (la agresión o el sentarse en el


asiento del conductor del vehículo) es el contacto (entre las dos personas
involucradas en la agresión, o entre el conductor y el asiento del vehículo) y,
consecuentemente, una transferencia de material (fibras, en este ejemplo).
Así pues, los peritos necesitan tener en cuenta información detallada sobre
la transferencia y persistencia de las fibras en el receptor (por ejemplo, el
jersey de la víctima). Las circunstancias del caso (por ejemplo, la distancia
entre la víctima y el criminal, la fuerza del contacto, y el modus operandi)
son clave para responder a cuestiones relevantes como ‘¿esta clase de trazas
son las que podríamos esperar ver si el Sr. X fuera el hombre que agredió a la
víctima?, o ¿esta clase de trazas son las que podríamos esperar ver si el Sr. X
no fuera el hombre que agredió a la víctima?’.
La valoración de la evidencia bajo el nivel I apenas requiere información
sobre las circunstancias. Sólo se necesita I (la información de contexto del
caso). Podría ser útil para definir la población relevante en orden a valorar
la rareza de las características de interés. Las proposiciones a nivel de acti-
vidad no pueden formularse sin un marco circunstancial. La importancia
de esto se percibirá claramente en el enfoque de prevaloración (secciones
7.2.2 y 12.3), cuando el experto está obligado a examinar el escenario del
caso y verificar que toda la información relevante para la apropiada va-
loración de la evidencia se encuentra disponible. La principal ventaja de
las proposiciones del nivel II sobre las del nivel I es que la valoración de
la evidencia bajo proposiciones de nivel II no depende estrictamente del
material recuperado; por ejemplo, es posible valorar el hecho de que no se
haya encontrado fibra alguna. Resulta muy importante valorar la ausencia
de material (tal ausencia de material es evidencia de interés).
El nivel III, el denominado “nivel de crimen” o “nivel de ofensa”, está
estrechamente relacionado con el nivel II. En el nivel III, las proposiciones
son las que realmente le interesan al Jurado. Informaciones no científicas
como si el crimen ocurrió o no, o si es fiable el testimonio de un testi-
go ocular o no, juegan un importante papel en la decisión. En el trabajo
diario, los expertos forenses generalmente utilizan el nivel de fuente para
valorar la prueba científica, sobre todo en ADN. La evidencia bajo proposi-
ciones de nivel de actividad requiere que un importante conjunto de infor-
mación circunstancial esté disponible para los peritos (ver la sección 7.2.3).
Desafortunadamente, ese no es el caso dada la falta de interacción entre
peritos e investigadores. Existen limitaciones en el uso de una evaluación a
nivel de fuente en una investigación criminal comparado con una evalua-
ción a nivel de actividad. Contra más bajo sea el nivel en que se valore la
evidencia, más baja será la relevancia de los resultados en el contexto de un
Prevaloración y proposiciones relevantes   287

caso discutido en un Tribunal. En aras de simplicidad, obsérvese que inclu-


so si el valor, V, de la evidencia fuera tal que añadiera considerable apoyo a
la proposición de que la mancha procediera del sospechoso, esto no ayuda
a determinar si la mancha fue transferida durante la acción criminal o lo
fue por una razón inocente. Consecuentemente, habrá insatisfacción si el
perito se constriñe a proposiciones de nivel I.
También puede haber incertidumbre sobre la relevancia de la evidencia
por otras razones. A causa de la sensibilidad de la tecnología de perfiles de
ADN, es posible prever situaciones donde un determinado perfil no proven-
ga de una zona acotada como mancha. En tales casos, puede que sean ne-
cesarias proposiciones denominadas de subnivel I. En un contexto de ADN,
proposiciones de nivel I como “el semen procede del Sr. Smith” y “el semen
procede de otro hombre” han de reemplazarse por “el ADN viene del Sr.
Smith” o “el ADN viene de otra persona” (Evett y otros, 2000a). La informa-
ción disponible y el contexto del caso influyen en la elección de la proposi-
ción. Pueden verse ejemplos de jerarquía de proposiciones en la Tabla 7.1.

Tabla 7.1 Ejemplos de jerarquía de proposiciones (reproducida con permiso de la


Sociedad de Ciencia Forense).

Nivel Género Ejemplos

III Ofensa A El Sr. A cometió el robo


Otra persona cometió el robo
B El Sr. B violó a la Sra. Y
Algún otro hombre violó a la Sra. Y
C El Sr. C agredió al Sr. Z
El Sr. C no tiene nada que ver con la agresión a la Sra. Z
II Actividad A El Sr. A es el hombre que rompió la ventana X
El Sr. A no estaba presente cuando se rompió la ventana X
B El Sr. B tuvo una relación sexual con la Sra. Y
Algún otro hombre tuvo una relación sexual con la Sra. Y
C El Sr. C es el hombre que golpeó al Sr. Z
El Sr. C no estaba presente cuando golpearon al Sr. Z

I Fuente A Los fragmentos de cristal vinieron de la ventana X


Vinieron de algún otro objeto roto de cristal
B El semen vino del Sr. B
El semen vino de otro hombre

C La sangre sobre la ropa del Sr. C vino del Sr. Z


La sangre sobre la ropa del Sr. C vino de una persona
desconocida
288   Interpretación

7.2.2 Prevaloración del caso

El proceso de evaluación empieza cuando los peritos se enfrentan al


caso por primera vez. Es en esta fase donde el experto piensa las cuestiones
a las que se debe enfrentar y las respuestas que espera obtener. El perito
debe intentar formular proposiciones y pensar sobre el posible peso de la
evidencia (Evett y otros, 2000a). Sin embargo, existe una tendencia a con-
siderar la evaluación de la evidencia como la etapa final de un caso real,
principalmente al término del informe pericial. Eso es así incluso existien-
do un previo interés en el proceso que pudiera capacitar al perito a tomar
mejores decisiones sobre la asignación de recursos. Por ejemplo, conside-
remos un caso de agresión que entrañase la posible transferencia cruzada
de fibras textiles entre la víctima y el atacante. El experto tiene que decidir
si primeramente busca las fibras potencialmente transferidas sobre el jer-
sey de la víctima o las fibras sobre el jersey del sospechoso. Si se encuen-
tran vestigios compatibles con el jersey del sospechoso en el de la víctima,
entonces la esperanza de detectar vestigios del jersey de la víctima en el del
sospechoso se ha de valorar. Esto incluye la posibilidad de transferencia
mutua. ¿Debemos tener expectativas? ¿Cómo podemos cuantificarlas? Si
es así, ¿cómo debemos interpretar las consecuencias cuando las expectati-
vas se cumplen o cuando no se cumplen (presencia o ausencia de eviden-
cia)?
Las cuestiones que podemos considerar son las siguientes:
• la naturaleza apropiada de las expectativas;
• la cuantificación de las expectativas;
• la interpretación de la presencia o ausencia de evidencia, a través
del éxito o fallo de las expectativas.
El experto requiere una adecuada apreciación de las circunstancias del
caso de forma que pueda elaborar un esquema de trabajo donde se especi-
fiquen qué exámenes se han de hacer y qué se puede esperar de ellos (Cook
y otros, 1998a) de cara a tomar una decisión lógica.
El procedimiento de prevaloración puede justificarse de muy diverso
modo.
Esencialmente se justifica porque la elección del nivel de las proposi-
ciones dentro de la evaluación de la evidencia científica se realiza en un
contexto de circunstancias determinado, y esas circunstancias han de co-
nocerse antes de realizar el examen de forma que puedan formularse pro-
posiciones relevantes (por ejemplo, a nivel de actividad en lugar de a nivel
de fuente). Este procedimiento puede exigir relacionarse con el usuario
antes de tomar decisión alguna (por ejemplo, sobre costes). Además, este
Prevaloración y proposiciones relevantes   289

proceso proporciona una base para la consistencia del enfoque científico


para todos los expertos que tengan que tener en cuenta cuidadosamente
factores tales como la información circunstancial y los datos que han de
utilizarse en la evaluación de la evidencia e incluirlos en el informe final.
El experto debe estimar la probabilidad de la evidencia encontrada dada
cada una de las proposiciones. Consideremos, por ejemplo, un caso donde
se haya roto una ventana, y asumamos que la fiscalía y la defensa proponen
las siguientes alternativas: “el sospechoso es el hombre que rompió la ven-
tana” y “el sospechoso no estuvo presente cuando la ventana se rompió”. El
examen del jersey del sospechoso revelará una cantidad Q de fragmentos
de cristal, donde Q puede ser, por ejemplo, uno de los siguientes estados
{sin fragmentos, pocos fragmentos, muchos fragmentos}.
• para valorar el numerador del LR, la primera cuestión que nos pedi-
rían es la siguiente: ¿cuál es la probabilidad de encontrar una can-
tidad Q de fragmentos de cristal coincidentes si el sospechoso fuera
el hombre que rompió la ventana?;
• para valorar el denominador del LR, la segunda cuestión que nos
pedirían es la siguiente: ¿cuál es la probabilidad de encontrar una
cantidad Q de fragmentos de cristal coincidentes si el sospechoso
no estuviera presente cuando se rompió la ventana?
Al experto se le pide inicialmente que calcule seis probabilidades dife-
rentes utilizando datos procedentes de estudios experimentales, publica-
ciones relevantes sobre la materia, o valoraciones subjetivas:
1. La probabilidad de no encontrar fragmentos de cristal coincidentes
si el sospechoso fuera el hombre que rompió la ventana;
2. La probabilidad de encontrar pocos fragmentos de cristal coinci-
dentes si el sospechoso fuera el hombre que rompió la ventana;
3. La probabilidad de encontrar muchos fragmentos de cristal coinci-
dentes si el sospechoso fuera el hombre que rompió la ventana;
4. La probabilidad de no encontrar fragmentos de cristal coincidentes
si el sospechoso no estuvo presente cuando se rompió la ventana;
5. La probabilidad de encontrar pocos fragmentos de cristal coinci-
dentes si el sospechoso no estuvo presente cuando se rompió la ven-
tana;
6. La probabilidad de encontrar muchos fragmentos de cristal coin-
cidentes si el sospechoso no estuvo presente cuando se rompió la
ventana;
Estas probabilidades puede que no sean fáciles de calcular por el ex-
perto por falta de información disponible (Cook y otros, 1998b). Por ejem-
plo, será muy difícil valorar probabilidades de transferencia (consultar las
290   Interpretación

secciones 8.3.3 y 10.5.4) si los peritos no tuvieran respuestas a cuestiones


como las siguientes:
• ¿La ventana se rompió por la acción de una persona o por un vehí-
culo? El hecho de que la ventana se rompiera por una persona o un
vehículo cambiaría la cantidad de fragmentos que el experto espe-
raría que fueran transferidos.
• ¿Cómo (modus operandi) se rompió la ventana? Si fue rota por
una persona, ¿estaba esa persona próxima a ella? ¿Fue un ladrillo
arrojado sobre la ventana? La información sobre cómo se rompió
la ventana es importante porque proporciona información sobre la
cantidad de fragmentos potencialmente proyectados. La informa-
ción sobre la distancia entre la persona que rompió la ventana y
ésta ofrece información relevante sobre la cantidad de fragmentos
de cristal que el perito espera recuperar.
Donde haya escasa información sobre la hora en que se llevó a cabo la
agresión y la hora en la que los investigadores cogieron las ropas, el inter-
valo de tiempo entre la agresión y el momento en el que se recogieron las
ropas no puede estimarse con precisión. También es difícil valorar la pro-
babilidad de persistencia de cualquier fragmento de cristal transferido (ver
la Sección 10.5.5). Por consiguiente, si el experto tiene poca información
sobre el caso que examina, entonces la valoración ha de restringirse al ni-
vel I (o subnivel I) de las proposiciones.
El proceso de prevaloración del caso puede resumirse en los siguientes
pasos:
• recogida de información que el perito pudiera necesitar sobre el
caso;
• consideración de las cuestiones que el experto puede acometer ra-
zonablemente, y, consecuentemente, nivel de las proposiciones que
el perito puede razonablemente elegir para valorar la evidencia;
• identificación de los parámetros relevantes que aparecerán en la re-
lación de verosimilitudes (LR);
• valoración de la fuerza de la relación de verosimilitudes (LR) espe-
rada dada la información de contexto del caso;
• determinación de la estrategia del examen pericial;
• realización de tests y observación de los resultados;
• evaluación de la relación de verosimilitudes (LR) e informe de su
valor.
Puede verse un procedimiento práctico en la Sección 12.3.
Estimación del valor de diferentes tipos de evidencia   291

7.2.3 Prevaloración de la evidencia

En la literatura científica pueden encontrarse ejemplos de prevaloración


de diversos tipos de evidencia. Cook y otros (1998b) explican la prevaloración
utilizando el ejemplo de un robo hipotético en el que se recogen fragmentos de
cristal potencialmente relacionados con el hecho (una cantidad desconocida
Q de fragmentos recuperados). Stockton y Day (2001) consideran un ejemplo
sobre firmas en documentos cuestionados. Champod y Jackson (2000) expo-
nen un caso de robo en el que se recogen fibras. Booth y otros (2002) tratan so-
bre un caso de drogas. Cook y otros (1999) ejemplifican un caso de transferen-
cia cruzada (también conocida como transferencia en doble sentido) con telas
donde se muestra cómo puede modificarse la prevaloración cuando se realiza
un estudio por etapas. Los resultados de los exámenes de una de las ropas se
utilizan para informar la decisión sobre si se ha de examinar la que queda.
Puch y Smith (2002) describen un procedimiento de prevaloración
dentro de un aplicativo para formación denominado Redes de Inferencia
Forenses para Ayuda a la Decisión (FINDS), utilizado en el Servicio de
Ciencias Forense de Inglaterra y Gales para valorar la evidencia de fibras.
El propósito es proporcionar ayuda al experto forense para determinar si
el análisis de las fibras recogidas es rentable. Se asignan posibles valores
de LR, determinados bajo las proposiciones de la fiscalía y del defensor, en
siete categorías:
(1) fuerte soporte para la defensa;
(2) soporte para la defensa;
(3) débil soporte para la defensa;
(4) no hay soporte;
(5) débil soporte para la fiscalía;
(6) soporte para la fiscalía;
(7) fuerte soporte para la fiscalía.
El perito considera las probabilidades para los LR dada la proposición
del cliente (fiscalía o defensa). Si existe alta probabilidad de apoyar la pro-
posición del cliente, entonces le aconsejan que solicite los análisis.

7.3 Estimación del valor de diferentes tipos de


evidencia

No se pretende realizar un estudio que abarque todas las ideas posibles


relacionadas con cualquier tipo de evidencia. Para ADN y fibras, que son
dos de los tipos más comunes de evidencia de trazas, tendremos sus pro-
292   Interpretación

pios capítulos en este libro (Capítulos 13 y 12). La evidencia de cristal se


menciona en otras partes (Secciones 10.4.2, 10.5.4, 10.6 y Capítulo 11). La
evidencia de pintura tiene una breve mención en la presente sección, pero
existen varias referencias en otros lugares (Sección 8.3.4). Para los tipos de
evidencias que aquí se presentan, nos centramos en recientes aportaciones
con el fin de ilustrar cómo los conceptos de valor de la evidencia que se
proponen en este libro se relacionan con estos tipos de evidencias.

7.3.1 Huellas de oreja

En primer lugar, distinguimos entre una huella de oreja y una marca de


oreja. La distinción la tomamos de Champod y otros (2001). Una huella de
oreja es una impresión de control tomada de la oreja u orejas de una perso-
na. Una marca de oreja es la impresión de una oreja humana que ha sido
revelada en la escena del crimen. En Champod y otros (2001) se puede en-
contrar una revisión crítica del papel de las huellas de oreja como evidencia.
Comentan que el proceso actual de identificación de huellas de oreja está
descrito principalmente como un proceso de coincidencia, que es una va-
loración de la adecuación de la superposición entre la marca y la huella. El
valor de la coincidencia no es considerado. Se necesita una base de datos
de huellas de oreja con el fin de estimar el valor de una coincidencia. Sin
embargo, los intentos para construir una base de datos no han considerado
la clasificación de huellas y marcas de oreja. Todo lo proporcionado es una
‘galería de imágenes sin una estructura forense’ (Champod y otros, 2001).
Champod y otros (2001) describen un procedimiento que puede usarse
para determinar el valor de la evidencia de huellas de oreja. El procedimiento
es lo suficientemente general como para que pueda ser usado en otros tipos
de evidencia (por ejemplo, en el examen de documentos —ver Sección 7.3.6).
Cualquier procedimiento de ese tipo requiere un algoritmo de coincidencia.
Este algoritmo puede usarse para cuantificar la coincidencia aparente en-
tre una huella de oreja y una marca de oreja (o cuando el texto escrito por
una persona conocida o de una fuente conocida es comparado con un texto
escrito por una persona desconocida o que procede de una fuente descono-
cida). La coincidencia está representada por la también llamada distancia. Así,
la cuantificación de la coincidencia entre una huella de oreja y una marca de
oreja puede representarse por un estadístico d, que es la distancia entre la
huella y la marca. El valor de la evidencia es entonces la razón de verosimi-
litud (LR) f (d | H p ) / f (d | H d ) donde f(.|.) es la densidad de probabilidad de d
bajo cada una de las dos proposiciones, H p y H d , y
Estimación del valor de diferentes tipos deevidencia    293

• H p es la proposición de que la marca de oreja haya sido dejada por


la persona que proporcionó la huella de oreja;
• H d es la proposición de que la marca de oreja haya sido dejada por
la oreja de alguna otra persona desconocida.
Consideremos una huella de oreja P proporcionada por una persona X y
una marca de oreja M que puede o no provenir de X. La distancia entre P y
M se representa por d.
El numerador f (d | H p ) proporciona una medida de la variabilidad dentro
de la fuente. Para estimarla, es necesario disponer de un conjunto de marcas
de oreja proporcionadas por X; éstas las representamos por M1 ,..., M m . Las
distancias de P a M1 ,..., M m se representan mediante a1 ,..., a m . A partir de es-
tos datos se puede determinar la función de densidad f (. | H p ) para el nume-
rador.
El denominador f (d | H d ) proporciona una medida de la variabilidad en-
tre fuentes. Para estimarla, es necesario disponer de un conjunto de huellas
de oreja proporcionadas por personas distintas de X; éstas las representa-
mos por P1 ,..., Pn . Las distancias de M a P1 ,..., Pn se representan mediante
b1 ,..., b n . A partir de estos datos, podemos determinar la función de densi-
dad f (. | H d ) para el denominador. Si bien, esto es sencillo de describir, hay
muchas dificultades que hay que superar antes de que este procedimiento
se pueda utilizar en la práctica. Estas dificultades incluyen:
• las características que quieren medirse;
• el algoritmo de coincidencia que ha de utilizarse;
• los tamaños muestrales necesarios para garantizar la precisión ade-
cuada en las estimaciones de las densidades.
De manera más general que en los ejemplos descritos por Champod y
otros (2001), hay tres niveles de variación a considerar:
• Error de medida. Si la distancia entre dos puntos en la huella y la
marca se mide en más de una ocasión, puede que no se obtenga
siempre la misma respuesta.
• Variación dentro de la fuente. Si las distancias entre un punto en la mar-
ca y el mismo punto en distintas huellas obtenidas de la misma oreja
se comparan, puede que no se obtenga siempre la misma respuesta.
• Variación entre fuentes. Si las distancias entre un punto en la marca
y el mismo punto en distintas huellas de orejas que provienen de
distintas personas se comparan, puede que no se obtenga siempre
la misma respuesta.
Estas dificultades son comunes a muchos tipos de evidencias. En hue-
llas de oreja también es necesario tener en cuenta las diferencias de presión
y orientación. Champod y otros (2001) comentan que ‘la variabilidad con
294   Interpretación

una misma huella individual mediante diferentes presiones es importante


y ha resultado ser mayor que la variabilidad de las marcas hechas por un
mismo individuo en una serie de robos’.
Los principios enunciados por Champod y otros (2001) y repetidos ante-
riormente son muy buenos, proporcionando una estructura para la recogi-
da de datos en bases de datos para diferentes tipos de evidencias. R. contra
Dallagher y R. contra Kempster son dos casos en los que se ha tratado sobre
la evidencia de huellas de oreja.

7.3.2 Armas de fuego y marcas de herramientas

El número de estriaciones coincidentes consecutivas (CMS), ha sido


propuesto por (Biasotti, 1959; Biasotti y Murdock, 1997) para valorar la
identificación de armas de fuego y de marcas de herramientas. El método
ha sido revisado por Bunch (2000). Pueden encontrarse en Nichols (1997,
2003) criterios generales para la identificación de armas de fuego y marcas
de herramientas.
La determinación de las estriaciones es, en parte, subjetiva. Las ideas
que se describen aquí son sólo para armas de fuego. Un forense estudia los
proyectiles bajo un macroscopio y decide qué es una estriación y, en lo que
respecta a la comparación, determina qué coincidencias hay entre los dos
proyectiles. Se comparan el proyectil recuperado y los proyectiles que se
obtienen al disparar el arma que se sospecha que ha sido utilizada en el cri-
men (arma sospechosa). Se observan las concordancias de las estriaciones
y las diferencias. El criterio para la (subjetiva) opinión de que el proyectil
fue disparado por el arma sospechosa está basado en una evaluación sub-
jetiva sobre si el número de coincidencias de las estriaciones y su calidad
son suficientes para la formación de esa opinión.
Para el análisis del CMS, se sigue el procedimiento general establecido
en Bunch (2000) describiendo el enfoque de Biasotti que consiste en dis-
parar numerosos proyectiles usando muchas armas de fuego de la misma
marca y modelo. Se hace entonces una comparación macroscópica entre
proyectiles disparados con la misma arma y proyectiles disparados por ar-
mas diferentes, y contamos el número de estriaciones coincidentes. Bunch
(2000) describe un modelo en el que el único CMS que nos importa es
aquél (o aquellos) que se caracteriza (–n) por representar el máximo núme-
ro de coincidencias. Podemos obtener dos conjuntos de datos, uno para los
proyectiles disparados con la misma arma (SG) y otro para los proyectiles
disparados con armas distintas (DG). En Bunch (2000) se aportan datos
Estimación del valor de diferentes tipos deevidencia    295

hipotéticos que se han reproducido en la Tabla 7.2, los cuales representan


las (hipotéticas) frecuencias relativas para el máximo número de CMS ob-
tenido a través de experimentos hipotéticos.

Tabla 7.2 Frecuencias relativas hipotéticas para el máximo CMS con-


siderado como (y) para proyectiles disparados con la misma
arma f (y | SG) y para proyectiles disparados con armas distin-
tas f (y | DG), y V = f (y | SG) / f (y | DG). (Reimpreso con permi-
so de ASTM International).

Máximo CMS (y) f (y | SG) f (y | DG) V


0 0.030 0.220 0.136
1 0.070 0.379 0.185
2 0.110 0.300 0.367
3 0.190 0.070 2.71
4 0.220 0.020 11.0
5 0.200 0.010 20.0
6 0.110 0.001 110
7 0.050 – *
8 0.020 – *
9 – – *
Total 1.000 1.000 –
* El LR es indefinido porque en los dos primeros casos, no existen casos de proyectiles dis-
parados desde dos armas distintas que tengan más de seis CMS, y en el tercer caso, no
existen casos de proyectiles disparados con la misma arma que tengan más de ocho CMS.

Esto podría resultar insatisfactorio si no hubiera resultados basados en nú-


meros altos de CMS por falta de datos empíricos suficientes. Bunch (2000)
explica cómo pueden extrapolarse los resultados para esos números más altos
postulando una distribución de probabilidad para el valor máximo CMS. La
distribución sugerida es una distribución de Poisson (Sección 2.3.6) donde el
parámetro es la media ponderada del máximo CMS. Se requieren dos distri-
buciones de Poisson, una para los proyectiles disparados con la misma arma y
otra para los proyectiles disparados desde diferentes armas. Para los primeros,
la media ponderada del máximo CMS, representada por S , viene dada por:

S = (0 × 0.030) + (1 × 0.070) + ...+ (8 × 0.020) = 3.91

Para los proyectiles disparados desde armas distintas, la media ponde-


rada del máximo CMS, representada por D viene dada por:

D = (0 × 0.220) + (1 × 0.379) + ... + (6 × 0.001) = 1.325


296   Interpretación

Sea Y el máximo CMS para un proyectil en particular encontrado en la es-


cena del crimen, cuando se compara con un proyectil disparado por un arma,
conocida como arma sospechosa. Si el arma sospechosa es la misma que la
que disparó el proyectil encontrado en la escena del crimen, entonces:
y
Pr(Y = y | S G) = S
e − S , y = 0,1,... (7.1)
y!
Si el arma es distinta de la que disparó el proyectil encontrado en la es-
cena del crimen, entonces:
y
Pr(Y = y | D G) = D
e − D , y = 0,1,... (7.2)
y!
Las proposiciones consideradas son:
• H p , el proyectil encontrado en la escena del crimen fue disparado
por el arma sospechosa;
• H d , el proyectil encontrado en la escena del crimen fue disparado
por otra arma distinta al arma sospechosa.
La evidencia E considerada es que el número observado de CMS es y 0 .
La razón de Pr(Y = y 0 | SG) a Pr(Y = y 0 | DG) es entonces el valor Pr(E | H p )
/ Pr(E | H d ) de la evidencia, E = y 0 , del máximo CMS. Bunch (2000) da los
resultados en la Tabla 7.3 para sus datos hipotéticos.

Tabla 7.3 Probabilidades de Poisson para el máximo CMS considerado como


(y) para proyectiles disparados con la misma arma Pr (Y = y | SG)
(7.1) con media S = 3.91 y para proyectiles disparados desde
armas distintas Pr(Y = y | DG) (7.2) con media D = 1.325, y los
LR V = Pr (Y = y | SG) / Pr(Y = y | DG). (Reimpreso con permiso
de ASTM International).

Máximo CMS (y) Pr (Y = y | SG) Pr(Y = y | DG) V


0 0.020 0.267 0.075
1 0.078 0.353 0.221
2 0.153 0.233 0.657
3 0.200 0.102 1.96
4 0.195 0.034 5.74
5 0.153 0.0089 17.2
6 0.099 0.00196 50.5
7 0.056 0.00037 151
8 0.027 0.000061 443
9 0.0118 0.000009 1311
10 0.0046 0.0000012 3833
Las sumas de las probabilidades no son totalmente iguales a 1 debido a erro-
res de redondeo.
Estimación del valor de diferentes tipos deevidencia    297

En Bunch (2000) se ilustra un enfoque Bayesiano para el análisis de


datos de CMS con datos hipotéticos. Como Nichols (2003) señala, el CMS
es uno de los muchos factores que pueden ser considerados en el estudio
de armas de fuego y marcas de herramientas. El criterio de CMS, según
Nichols, es sólo la ‘fruta del árbol’: ‘la raíz de todas las dificultades estriba
en la falta de una expresión y comunicación apropiadas de su significado’.
Sin embargo, el uso del CMS a través de la razón de verosimilitudes permi-
te sintetizar la evidencia de CMS con una frase de la forma: ‘la evidencia es
tantas veces más probable si H p es verdadera que si H d es verdadera’. Esto
proporciona una buena síntesis del significado del estadístico CMS en el
contexto de determinar el origen del proyectil encontrado en la escena del
crimen.
La determinación de estos recursos por Bunch (2000) usando datos hi-
potéticos pasa por alto problemas considerables que surgirán si se recopi-
lan datos reales. Los estudios experimentales generalmente presentan datos
obtenidos a partir de ‘perfectas’ marcas de test. Por ejemplo, las muescas
hechas en el plomo y los proyectiles recuperados en agua. Por otra parte,
las pruebas no son ciegas. Como se dijo primeramente en el contexto de las
huellas de oreja (Sección 7.3.1), habrá dos niveles de variación, en este caso
la variación en el máximo CMS para proyectiles disparados con la misma
arma y la variación en el máximo CMS para los proyectiles disparados des-
de armas distintas. Sin embargo, la razón de verosimilitudes descrita por
Bunch (2000) proporciona un buen punto de partida para la resolución de
estos problemas (Taroni y otros, 1996). Champod y otros (2003) mencio-
nan las diferencias lógicas entre el umbral CMS y las aproximaciones de
la razón de verosimilitud, apoyando estas últimas, mientras Moran (2001,
2002, 2003) apoya el umbral.

7.3.3 Huellas dactilares

Bunch (2000) comparó el número de estriaciones coincidentes conse-


cutivas con el número de similitudes en coincidencias de huellas dactila-
res. Citó un estudio hecho por Evett y Williams (1996) en el que ningún
experto en huellas dactilares erró en la comparación más difícil. Se tra-
taba de un conjunto de impresiones latentes e impresiones entintadas
de diferentes personas pero con las impresiones modificadas para mos-
trar muchas coincidencias. Sin embargo, los expertos dieron respuestas
muy diferentes sobre el número de similitudes. Puede aplicarse el mismo
principio que para contar el máximo número de coincidencias consecu-
298   Interpretación

tivas de estriaciones. Los expertos pudieran dar en ocasiones diferentes


razones de verosimilitud para el mismo proyectil. Como Bunch (2000)
explica, esto es análogo a lo que ocurre con los métodos tradicionales que
los expertos utilizan, pues se obtienen conclusiones diferentes sobre un
mismo proyectil.
La evaluación de la evidencia de huellas dactilares es un asunto muy
complejo, más allá del alcance de este libro, y ha habido unos cuantos in-
tentos de construir un modelo estadístico adecuado. Pueden consultarse
panorámicas de esta perspectiva en Stoney (2001) y en Pankanti y otros
(2002); el segundo aprovecha un sistema de identificación automático de
huellas dactilares. En ciencia forense, el último trabajo ha sido llevado a
cabo por Champod y Margot (Champod, 1996; Champod y Margot, 1996,
1997).
Champod y Margot (1997) exploraron la validez de un modelo estadís-
tico para calcular probabilidades de coincidencia asociadas a propiedades
de nivel II reducidas a puntos característicos. El modelo postulado sugería
que la probabilidad de una configuración de puntos característicos, Pr(C),
puede calcularse considerando:
• Pr(N), la probabilidad de un determinado número de puntos carac-
terísticos en la superficie considerada;
• Pr(T), la probabilidad de los tipos observados de puntos caracte-
rísticos (obtenida por la multiplicación de la probabilidad de cada
tipo);
• Pr(S), la probabilidad de las orientaciones de los puntos caracterís-
ticos (obtenida por la multiplicación de la probabilidad de la orien-
tación de cada punto característico);
• Pr(D), la probabilidad de la longitud de los puntos característicos
(cuando sea aplicable, se obtiene mediante la multiplicación de
cada longitud de punto característico);
• Pr(A), la probabilidad de la disposición de los puntos característi-
cos.
Los estudios estadísticos sobre los puntos característicos proporcionan
conocimientos muy valiosos, pero todavía no pueden ser utilizados en ca-
sos de cálculos específicos a gran escala. Stoney (2001), enfatizó que nin-
guno de los modelos propuestos ha estado sujeto a estudios de validación
empírica extensos. Mientras tanto, como propuso Kingston (1970), tales
estudios proporcionan datos valiosos para verificar los juicios subjetivos
de los expertos en lo que se refiere a las rarezas de las características de las
huellas dactilares. Se han explorado las discrepancias que pueden obser-
varse entre los expertos al estimar las frecuencias relativas de los distin-
Estimación del valor de diferentes tipos deevidencia    299

tos tipos de puntos característicos (Osterburg y Bloomington, 1964). Tales


variaciones tienen que ser minimizadas, y contempladas estadísticamente
proporcionan una excelente línea básica de investigación. Estos datos se
pueden encontrar en Champod y otros (2004).
Resulta interesante conocer algún aspecto del debate sobre la defini-
ción de población adecuada para la valoración de evidencias de huellas
dactilares. Supongamos que se ha elegido a un sospechoso sobre la base
de una única evidencia de huella dactilar. La población desde la cual va-
mos a seleccionar al sospechoso se ha argumentado que se trataría de la
población mundial (Kingston, 1964). Sin embargo, Stoney y Thornton
(1986) argumentaron que raramente se da el caso de que un sospecho-
so lo sea basándose únicamente en la evidencia de una huella dactilar.
Normalmente, habría un pequeño grupo de sospechosos que podrían
aislarse del resto de la población considerando otra evidencia, aunque
Kingston (1988) estuvo en desacuerdo con esto. La evidencia de huella
dactilar tiene entonces que ser considerada únicamente respecto a este
pequeño grupo. Aitken (1991) trata sobre este punto de manera más ex-
tensa.
Ha existido un debate considerable acerca del papel de un estándar para
la identificación fijando un número de puntos característicos coincidentes
entre dos impresiones (ver Champod, 1995, para un relato histórico y crí-
tico). Así, en un caso particular, si el número de puntos coincidentes fue-
se al menos el número estándar especificado, entonces el experto podría
testificar que la impresión provino de esa persona. Y si no se superase el
umbral, testificaría lo contrario. Esto dio lugar a una dicotomía en la que
la interpretación de las impresiones que cumplieron el estándar fue muy
diferente de la interpretación de las impresiones que no cumplieron las
características estándar.
En el año 2001 y en el Reino Unido, se presentó una evidencia estándar
de huella dactilar no numérica, siguiendo un informe de Evett y Williams
(1996). Knowles (2000) revisó ese estándar, comentándose que fue una
opinión unánime y categórica de los Jefes de Departamentos de Huellas
Dactilares, reunidos para discutir la eliminación del estándar de los 16 pun-
tos, que ‘la contundencia de la evidencia debería permanecer’. Esta visión
fue criticada por Taroni y Margot (2000) defendiendo que los expertos en
huellas dactilares deberían aceptar que ‘la identificación es puramente una
estimación probabilística del valor de cualquier tipo de evidencia’. Ellos
citan a Locard (1914): ‘hay pocas características: en ese caso, la (-s) impre-
sión (-es) no muestra (muestran) certeza sino una presunción proporcional
al número de puntos y su nitidez’. En conclusión, Taroni y Margot (2000,
300   Interpretación

p. 248) proporcionan tres criterios que son aplicables a muchas formas de


evidencia científica. Estos son necesarios para:
1. enfatizar que un elemento de evidencia científica proporcionado
por el experto es un elemento (tan fuerte como pueda ser) entre
otros, que ayuda al Tribunal en la toma de decisiones en una iden-
tificación, o más generalmente, en la toma de decisión a cerca del
vínculo existente entre la marca descubierta y el potencial autor de
la misma;
2. considerar la parte objetiva de este tipo de evidencia como proba-
bilística, en el sentido de que, desde las características observadas
en la marca, un experto excluiría a una población determinada (de
haberla causado), un argumento que tiene que estar integrado en el
proceso de decisión del Tribunal;
3. requerir que se hagan esfuerzos para recoger datos y establecer un
modelo que describa el proceso de decisión.
La posibilidad de un enfoque probabilístico para la evidencia de huellas
dactilares se trata en Champod y Evett (2001). Ellos concluyen que, con
formación adecuada, adoptar un enfoque probabilístico para la presenta-
ción de la evidencia de huellas dactilares no sería diferente de lo que se
hace en la actualidad y que la evidencia podría evaluarse de manera más
óptima en un mayor número de casos que en el presente. Nótese que seme-
jante discusión puede ser fácilmente trasladada a la odontología, otra área
forense donde se aplica un estándar numérico.
En un caso interesante en los Estados Unidos de América (U.S. contra
Llera Plaza), el Juez dictaminó que no se permitiera a los expertos presen-
tar ‘testimonios de evaluación como sus opiniones sobre si una particular
impresión latente fuera, de hecho, la impresión de una persona en particu-
lar’. Este dictamen fue posteriormente anulado por el Juez el cual dijo que:
‘En resumen, he cambiado mi forma de pensar’.

7.3.4 Reconocimiento de locutores

Rose (2002, 2003) describió un modo de evaluar la evidencia de voz


usando una razón de verosimilitud. Hace uso de la fórmula (10.9) dada
en la Sección 10.2.6. Parte de que la evidencia en identificación forense de
locutores es el resultado de un análisis acústico. Los sonidos de habla son
fluctuaciones rápidas de la onda de presión sonora. Se producen cuando
el aire mueve los órganos vocales. Las propiedades acústicas de la onda
de habla irradiada, constituyen la base del análisis acústico del fonetista
Estimación del valor de diferentes tipos deevidencia    301

y de la transcripción oral. Los datos son proporcionados por dos estructu-


ras básicas en la producción de la voz. Se trata de las cuerdas vocales y el
tracto vocal supralaríngeo. Funcionan independientemente y modulan la
producción de voz. El tracto vocal supralaringeo incluye la lengua, labios
y dientes.
Entre los datos continuos que se utilizan se incluye la frecuencia funda-
mental. Los locutores producen diferentes tonos controlando la frecuencia
de vibración de sus cuerdas vocales, y estas distintas frecuencias vibrato-
rias se representan mediante un parámetro acústico fácilmente mensura-
ble conocido como frecuencia fundamental, que se representa por F0. Se
mide en Hertzios (Hz); los valores promedios de F0 están comprendidos en
un rango de 180 a 300 Hz para mujeres, y 90 a 140 Hz para hombres (Rose,
2003). Sin embargo, hay factores como la raza, edad, si la persona es fuma-
dora o está en estado de embriaguez, que están asociados a la F0. Se puede
construir una distribución de F0 durante un periodo de tiempo, y Rose
(2002) comenta que existe soporte experimental para obtener mediciones
de F0 con resultados significativos con, al menos, 60 segundos del total
de un discurso. Dada una distribución para F0, es posible determinar una
media y una desviación estándar. Rose (2002) propone que F0 se distribuye
como una Normal.
Además de la frecuencia fundamental, hay otras frecuencias que tienen
relevancia forense. Éstas son producidas por el tracto vocal supralarin-
geo. Mediante la excitación del aire en el tracto vocal supralaringeo, por
ejemplo en una sección de una longitud total de 17.5 cm, se produce una
respuesta acústica en la que las vibraciones del aire alcanzan amplitudes
máximas a las frecuencias de 500 Hz, 1500 Hz, 2500 Hz, etc. En fonética
acústica, las resonancias del tracto vocal se llaman, generalmente, formantes.
El formante con la frecuencia más baja, 500 Hz, es el primer formante o
F1. Los demás formantes se etiquetan con F2 (1500 Hz), F3 (2500 Hz), etc.
Algunos formantes, aunque no todos, siguen una distribución Normal so-
bre sus valores centrales.
Rose (2002) aporta un ejemplo artificial para ilustrar cómo pudieran
determinarse las apuestas a priori. Se pudo interceptar una llamada tele-
fónica incriminatoria en una casa en la que cinco hombres, incluyendo al
sospechoso, estaban presentes durante la misma. Antes de tener en cuenta
cualquier evidencia de voz, la probabilidad de que el sospechoso hiciese la
llamada es 1/5. Las apuestas a priori son de 4 a 1 en contra de que el sospe-
choso realizase la llamada. Otros ejemplos de uso de la razón de verosimi-
litud para reconocimiento de locutores/voz se dan en Champod y Meuwly
(2000) y Meuwly y Drygajlo (2001).
302   Interpretación

7.3.5 Pelo

La imposibilidad de disponer de bases de datos relevantes, como se des-


cribe en Gaudette (1999), hace inviable, en la actualidad, considerar el uso
de la razón de verosimilitud para la evaluación de evidencia de pelo.
Como ya se trató en la Sección 4.6, resulta interesante conocer la rela-
ción entre los errores tipo 1 y tipo 2. Se debe elegir un nivel de discrimina-
ción que minimice el número de errores de tipo 2 sin incurrir en demasia-
dos errores de tipo 1. Sin embargo, cuando consideramos lo que Gaudette
(1999) llama exploración previa a la evidencia de análisis de ADN, los erro-
res de tipo 1 son importantes. Mejor que ‘en caso de duda, recházalo’, la
regla del pulgar sería ‘en caso de duda, inclúyelo’ (Gaudette, 1999).
Como consecuencia de no poder desarrollar bases de datos relevantes,
se utilizaron probabilidades promedio (ver Sección 4.5.2) en las compa-
raciones de pelos. Gaudette y Keeping (1974) determinaron que si selec-
cionaba al azar un pelo del cuero cabelludo procedente de un individuo
A y encontraban concordancia con una muestra representativa conocida
(formada por nueve pelos distintos entre sí) procedentes de B entonces,
en promedio, la posibilidad de una coincidencia fortuita era de 1 entre
4500. En un estudio similar llevado a cabo usando pelos púbicos, Gaudette
(1986) mostró que si un pelo púbico seleccionado al azar de un individuo
X concordaba con un pelo púbico seleccionado al azar procedente de un
individuo Y, estimaba la probabilidad promedio de que se produjera una
coincidencia fortuita en 1/6336. Gaudette (1999) señaló que encontrar dos
o más pelos cuestionados consistentes con una muestra conocida reduciría
enormemente la probabilidad de que se produjera una coincidencia fortui-
ta. No es posible, sin embargo, simplemente elevar al cuadrado la proba-
bilidad de coincidencia fortuita de un pelo (por ejemplo, 1/4500 × 1/4500
para cabello humano) puesto que no puede asumirse independencia.
Gaudette (1999) emplea probabilidades promedio en la escala de sopor-
te de las proposiciones de la fiscalía o de la defensa, como se describe en la
Sección 4.5.2. La probabilidad promedio para la evidencia de pelo puede
unirse a varios factores que refuerzan o debilitan una u otra proposición.
Gaudette advierte que debe tenerse mucho cuidado en la interpretación de
resultados negativos en la comparación de muestras de pelo. Por ejemplo,
‘encontrar unos cuantos pelos en la camiseta del sospechoso que ni sean
del propio sospechoso ni pertenezcan a la víctima puede que no tenga valor
probatorio. Por otro lado, sería muy significativo el hecho de que un grupo
de pelos encontrados en la mano de una víctima de asesinato ni coincidan
con ella ni con el sospechoso’ (Gaudette, 1999).
Estimación del valor de diferentes tipos deevidencia    303

Hoffmann (1991) presenta razones de verosimilitud para diversas situa-


ciones. Las frecuencias relativas ( p1,..., p k ) de categorías ( x1 ,..., x k ) de una
característica X de la fuente sospechosa se distinguen de las frecuencias
relativas ( q1 ,..., q k ) de las mismas categorías de la misma característica
determinada en una población relevante gracias a una existente base de
datos. Para el cálculo de ( p1,..., p k ) , es necesario hacer lo que Hoffmann
(1991) llama ‘una muestra grande y representativa de pelo que provenga de
una fuente sospechosa’. Hay un debate considerable sobre el significado de
‘representativa’ y ‘grande’.
Supongamos que un pelo se encuentra en la escena del crimen y que
pertenece a la categoría x i . Se encuentra a un sospechoso cuyo pelo coin-
cide con el recuperado en el escenario del crimen. Las proposiciones que
han de ser consideradas son:
• H p , el pelo en cuestión proviene del sospechoso fuente;
• H d , el pelo en cuestión no proviene del sospechoso fuente.
Entonces V = pi / q i .
Supongamos ahora que se han encontrado n pelos, todos procedentes
de la misma fuente. Esto es la evidencia E. Las proposiciones bajo esta
consideración son:
• H p , los n pelos proceden del sospechoso fuente;
• H d , los n pelos proceden de una fuente, diferente al sospechoso
fuente.
Sea n i el número de pelos en la categoría i encontrados en la escena
del crimen y n1 ,..., n k = n. Con frecuencia, algunos de los n i serán nulos.
Cuando H p es cierta,

n!
Pr(E | H p ) = p1n 1 ...p nk k ,
n1!...n k !
que es un ejemplo de la distribución multinomial (Sección 2.3.4).
Cuando H d es verdadera, las probabilidades q i no pueden utilizarse.
Estas probabilidades son sólo aplicables si todos los pelos proceden de
fuentes distintas. Representan la variabilidad de la característica X dentro
de la población aproximada por la base de datos. Sin embargo, se requiere
una variabilidad intra-individual. La base de datos debe contener archivos
de tal manera que cada uno se corresponda con una fuente y contenga las
frecuencias relativas de las categorías {x i , i = 1,..., k}dentro de esa fuente.
Sea N el número de archivos dentro de la base de datos y representamos
por qti a la frecuencia relativa de x i dentro del t-ésimo archivo. Entonces
la probabilidad de la evidencia, dado que H d es cierta, es estimada por el
304   Interpretación

promedio sobre los N archivos en la base de datos de las probabilidades


multinomiales individuales, esto es,
N
1 n!
Pr(E | H d ) = ∑ q nt 1...q nt kk
N n1!...n k ! t =1 1

El valor de la evidencia es entonces:


−1
 1 N  q n1  q 
nk 
V =  ∑  t 1  ... t k  
 N t =1  p1   p k  

En Hoffmann (1991) podemos encontrar un desarrollo ulterior más de la


situación para n pelos encontrados procedentes de r fuentes. Sin embargo,
como Hoffmann reconoce, el estudio tiene en cuenta una asunción bastante
poco realista sobre el conocimiento del número de fuentes. Además, el proce-
dimiento de Hoffmann (1991) requiere que la proposición de la fiscalía H p
se divida en r componentes Hpj, donde Hpj se corresponde con la proposición
de que la j-ésima fuente de pelos es el j-ésimo sospechoso. La proposición de
la defensa, H d , es que las r fuentes son diferentes del sospechoso. Esto es así,
como Hoffmann (1991) muestra, para obtener un valor total para la razón de
verosimilitud. Hay que tener cuidado con la declaración de las proposiciones.
Hoffmann (1991) trata de r fuentes pero con un solo sospechoso.
Sin embargo, existe aún el problema de que se requiere una base de da-
tos de características y variabilidad inter e intra-individuos. Además, hay
una desviación en la metodología a favor de un punto de vista psicológico.
La comparación se realiza con pelos de los que se sabe que provienen de
distintas personas. El juicio sobre la coincidencia o no entre dos pelos que
provienen de dos personas distintas estará influenciado por este conoci-
miento. Existe un juicio subjetivo hecho por el experto. Este extremo es
discutido en Barnett y Ogle (1982), Miller (1987) y el Boletín Científico de
Detectives (1988).
En Hoffmann (1991), Wickenheiser y Hepworth (1990, 1991), y Ogle
(1991) pueden ampliarse conocimientos al respecto.

7.3.6 Documentos

El caso Dreyfus (ver también la Sección 4.2) es un temprano ejemplo de


uso de la razón de verosimilitud en el peritaje de documentos. Otro ejemplo
Estimación del valor de diferentes tipos deevidencia    305

temprano es el de Souder (1934/1935), citado por Champod y otros (1999),


quienes también mencionan a Hilton (1995). Champod y otros (1999) tra-
tan sobre el caso Dreyfus haciendo referencia al informe de Darboux y
otros (1908). Las dos proposiciones que hay que considerar son:
• H p , la escritura manuscrita del bordereau es una falsificación;
• H d , la escritura manuscrita del bordereau no es una falsificación.
Las otras componentes de la aproximación Bayesiana son:
• la evidencia, E, consistente en las coincidencias observadas en el
bordereau;
• la información de contexto, I, relativa al caso (investigación poli-
cial, testimonio de los testigos oculares, etc.).
Bertillón (1899, 1905) fue uno de los que argumentó que Dreyfus fue
el autor del bordereau. Parte de su informe fue un temprano ejemplo de la
falacia del Fiscal. Como Pr(E | H d , I) era una probabilidad pequeña p, en-
tonces Pr( H d | E, I) se igualó a p, y de ahí Pr(E | H p , I) se transformó en una
probabilidad grande (1 – p).
Bertillón también cometió un error a la hora de calcular las probabili-
dades. Trazó intervalos de 4 mm. de líneas verticales en el bordereau y mostró
que cuatro pares de palabras polisilábicas (entre 26) tenían la misma po-
sición relativa con respecto a la malla que había dibujado. Bertillón, en-
tonces, afirmó que las coincidencias en las mismas posiciones relativas no
podían atribuirse a una escritura manual normal. Sostuvo que sería nece-
sario repetir la composición del documento algunos cientos de miles de
veces para observar tales coincidencias por azar. Bertillón concluyó que el
bordereau era un documento falsificado.
A continuación se muestra un ejemplo de cálculo de probabilidades.
Sea la probabilidad de una coincidencia individual 0.2. La probabilidad de
observar cuatro coincidencias en un total de cuatro sucesos es, entonces,
0.2 4 = 0.0016 = 1 / 625. Para N coincidencias, la probabilidad es 0.2 N . Para
Bertillón, las cuatro coincidencias tenían una probabilidad tan pequeña
(1/625) si el bordereau fuera el resultado de una escritura manual normal, que
aceptó la proposición alternativa de que el bordereau era una falsificación,
resultando ser un ejemplo de la falacia del Fiscal. Nótese que 1/625 es bas-
tante más grande que la probabilidad inicialmente sugerida por Bertillón
de ‘algunos cientos de miles de veces’.
Bertillón, sin embargo, no cometió sólo el error de la falacia del Fiscal.
Tampoco calculó correctamente la probabilidad de obtener cuatro coin-
cidencias. Se fijó en 26 pares de palabras polisilábicas e identificó cua-
tro coincidencias. Así, existían 22 pares donde no había coincidencias. La
probabilidad de cuatro coincidencias en 26 pares, cuando la probabilidad
306   Interpretación

de coincidencia es 0.2, y asumiendo las condiciones para una distribución


binomial (ver Sección 2.3.3), es:

 26  4 22
 0.2 0.8 = 14950 x0.0016 x0.0074 = 0.176
4 

Otro caso famoso sobre autoría, no tratado aquí, es el de los ensayos


Federalistas, un conjunto de 77 ensayos publicados anónimamente en
1787-1788 para persuadir a los ciudadanos del Estado de Nueva York para
que ratificaran la Constitución. Está en discusión la autoría de 12 de esos
ensayos, dudándose entre Alexander Hamilton y James Madison. Existen
otros tres ensayos donde la discusión se centra en el grado de contribución
de cada uno. Se pueden encontrar detalles en Mosteller y Wallace (1984).
En una primera publicación, Mosteller y Wallace (1963), sobre el mismo
tema, comentan en sus conclusiones que ‘se recomienda estudiar la varia-
ción de los resultados con diferentes prioris. Acotar los prioris resulta fá-
cil con frecuencia. Cuando se dispone de datos, la elección de los prioris
se realiza como una distribución de datos —‘subjetividad atemperada con
empirismo’’. El comentario de que la elección de la distribución de datos
está basada en ‘subjetividad atemperada con empirismo’ es pertinente para
aquellos que argumentan a favor de la objetividad del enfoque frecuentista
frente a la calificada por ellos como inadecuada subjetividad del enfoque
bayesiano.

7.3.7 Sobres

Como ejemplo simple de un caso real podemos ofrecer el cálculo de la


probabilidad de que un sobre S recuperado de la casa del sospechoso pro-
ceda de la misma fuente que los sobres cuestionados Q. Puede haber por
tanto uno o más sobres cuestionados. El caso descrito aquí tiene dos. El
objetivo de este ‘simplista’ enfoque consiste esencialmente en mostrar que
un marco Bayesiano puede ser usado fácilmente también en un campo fo-
rense tradicionalmente no relacionado con el uso rutinario de las probabi-
lidades.
La estructura del análisis requiere la especificación de:
• dos proposiciones, la del Fiscal ( H p ) y la de la defensa ( H d ) ;
• evidencia (E) para ser evaluada;
• información de contexto (I).
Estimación del valor de diferentes tipos deevidencia    307

Aquí, la información de contexto I incluye la evidencia que es aceptada


antes de la evaluación de E y las asunciones derivadas de las investigacio-
nes sobre el contexto del tipo de evidencia. Para el ejemplo que se descri-
be aquí, estas investigaciones se refieren a la impresión de los sobres y a
la ocurrencia de características identificativas en ellos. Los sobres se ven-
den en paquetes. No se pueden vender sobres individuales. Los paquetes
son de determinados tipos y se identifican mediante un código específico.
Los tres sobres del caso son del mismo tipo. Debido al proceso de fabrica-
ción, sólo se han vendido n paquetes de ese tipo. Para evaluar la eviden-
cia, es necesario disponer de una población de referencia de los paquetes.
Representamos por N el tamaño de esta población; esto es, hay N paque-
tes, que pueden ser subdivididos en diferentes tipos. Sólo n de los N son del
tipo visto en Q y S. La información de contexto es entonces:
• los sobres cuestionados son del mismo paquete y por tanto, del mis-
mo tipo;
• hay exactamente n paquetes de este tipo en una población de N pa-
quetes.
La evidencia E que va a ser evaluada consiste en que el sobre S proce-
dente de la casa del sospechoso sea del mismo tipo que los sobres cuestio-
nados.
Las proposiciones son:
• H p , S es del mismo paquete que los sobres cuestionados Q;
• H d , S procede de un paquete diferente de los sobres Q.
El numerador, Pr(E | H p , I), de la razón de verosimilitudes es 1. Si S
procede del mismo paquete que Q, entonces será del mismo tipo. El deno-
minador, Pr(E | H d , I), es, por tanto, n/N. Hay N paquetes, de los cuales n
son del mismo tipo que Q pero no del mismo paquete. Así, la probabilidad
de que S sea del mismo tipo que Q pero no del mismo paquete es n/N. El
valor de la evidencia es entonces N/n.
Es posible evaluar una probabilidad a posteriori Pr( H p | E, I) para H p ,
como una función de n, N y una probabilidad a priori Pr( H p | I).
El análisis de arriba es un aproximación simple para la evaluación. Hay
varios niveles de evidencia que pueden ser evaluados. Representamos éstos
como E1 , E 2 , E 3 . Existe una apuesta a priori inicial, Pr( H p ) / Pr( H d ), que
es actualizada a Pr( H p | E1 ) / Pr( H d | E1 ) , y ésta se convierte en las apuesta
a priori para la evaluación de E 2 . La apuesta a posteriori para la evalua-
ción de E 2 se convierte en la apuesta a priori para la evaluación de E 3 .
Consideramos las siguientes descripciones de la evidencia:
• E1 , la marca y el modelo de Q y S,
• E 2 , el código de fabricación de Q y S,
308   Interpretación

• E 3 , los defectos en el proceso de impresión encontrados en Q y S.


La apuesta a priori inicial tiene que ver con el número total de paque-
tes de sobres fabricados en Suiza, el país donde fue cometido el crimen.
Tenemos en cuenta los paquetes porque, en el caso que nos ocupa, los so-
bres fueron vendidos solamente en paquetes. Los paquetes contienen 50
sobres, y se asume constante (quizá irrealmente) el número de sobres en
todos los fabricantes de paquetes. El análisis pudiera extenderse incluyen-
do sobres fabricados en otros países, pero éstos o se eliminan todos juntos
o se les asigna una probabilidad a priori que podría considerarse dentro
del análisis. La consideración de E1 proporciona apuestas para la marca y
el modelo, la consideración de E 2 reduce éstas a apuestas para el código
de fabricación y, finalmente, E 3 permite la evaluación de los defectos en el
proceso de impresión. El tamaño, N, de la población de sobres en el caso
que nos ocupa es, entonces, el número de sobres con el código de fabrica-
ción de Q y S.
Sea N 0 el número total de paquetes de sobres en Suiza y N1 el número
total de paquetes de sobres de la marca y modelo especificado por Q y S.
Esto permite la evaluación de E1 . El número total de paquetes de sobres de
código de fabricación especificado por Q y S es N. Esto permite la evalua-
ción de E 2 . El número de paquetes de sobres con los defectos especifica-
dos en Q y S es n. Esto permite la evaluación de E 3 .
La apuesta a priori inicial es 1/ N 0 (estrictamente hablando, 1/( N 0 –1)).
Después de hallar E1 , la apuesta es 1/ N1 . Después de hallar E 2 , la apuesta
es 1/N. El valor de E 3 es, entonces, n/N y la apuesta a posteriori es 1/n.

7.3.8 Escritura manuscrita

Un problema típico que requiere un análisis de escritura manuscrita es


la comparación de dos cuerpos de escritura para determinar si fueron es-
critos por la misma persona. Los dos cuerpos podrían ser firmas, por ejem-
plo. El escritor de una de las firmas pudiera ser conocido y el de la segunda
desconocido pero una de las partes reclama que el escritor de la segunda es
el de la primera firma. Alternativamente, ninguno de los dos autores de la
firma sería conocido.
Otro problema sería identificar al escritor de un documento a partir de
un conjunto de posibles escritores entre los que se sabe que se encuentra el
escritor.
A diferencia del ADN o de la evidencia de cristal, por ejemplo, no hay
bases de datos generales con las que podamos modelar la variación en la
Estimación del valor de diferentes tipos deevidencia    309

escritura manuscrita. Así, no es posible una determinación directa del LR


a partir de medidas en cuerpos de escritura de control y recuperados (por
ejemplo, documentos o firmas).
Un enfoque posible, en ausencia de una base de datos, es el usado en
el caso del testamento de Howland, de 1860, descrito por Meier y Zabell
(1980), quienes detallan un análisis llevado a cabo por Benjamín Peirce,
Profesor de Matemáticas de Harvard, y su hijo Charles Sanders Peirce (ci-
tado ya en las Secciones 4.1 y 3.4.2) sobre una presunta falsificación de
firma en un testamento. Hubo una colección de n firmas (n = 42 en el caso
del testamento Howland) S1 ,.., Sn de las que se conoce que fueron realiza-
das por una persona particular, digamos A. Hubo una firma, S0 , aceptada
como hecha por A en un testamento, y una firma dubitada, Sd , presunta-
mente hecha por A. La cuestión de interés fue si la firma dubitada fue rea-
lizada por A. Se tuvo en cuenta un conjunto de m características. En la
comparación entre las firmas se cotejaron todas ellas. Un cotejo positivo
perfecto sería que se produjesen m coincidencias. El enfoque descrito por
Meier y Zabell (1980) fue el de desarrollar un estadístico que valorase la
similitud entre dos firmas. Se pueden hacer todas las posibles combinacio-
nes por parejas entre las n firmas. El número de comparaciones de carac-
n
terísticas es entonces   × m . Para el caso del testamento Howland m =
2
30, y el número de comparaciones es entonces:

 42 
  × 30 = 25830
2 

Se registra el número de concordancias, m 0 . Así, la probabilidad P0 de


que se produzca una conformidad en una característica en una compara-
ción de dos firmas, sabiendo que han sido hechas por la misma persona,
puede estimarse como:

 n  
m 0 /   × m .
 2  

En el caso del testamento de Howland, m 0 fue 5325, así P0 = 0.206, o


aproximadamente 1 entre 5. Podemos hallar el número m1 (≤ m) de coin-
cidencias en características entre la firma dubitada Sd y S0 (para el caso
del testamento Howland, m 0 = m). La probabilidad de coincidencia entre
características en firmas escritas por la misma persona es entonces:
310   Interpretación

m
  n  
1

m 0 /   × m  .
  2   30
1
Para el caso del testamento de Howland, ésta es aproximadamente   ,
5
un número muy pequeño. Meier y Zabell (1980) estudian críticamente los
méritos de este procedimiento con particular referencia a la asunción de
independencia. La inferencia es que la firma dubitada es una copia y, por
tanto, una falsificación de una firma conocida. El número de coincidencias
en características puede considerarse como una medida de distancia entre
dos firmas. Cuanto mayor sea el número de coincidencias, más similares
son.
Otro enfoque, ejemplificado por un estudio conducido por Srihari y
otros (2002) en el examen de documentos con escritura manuscrita, utiliza
una medida de distancia donde cuanto menor sea la distancia, más simila-
res son las escrituras manuscritas de los documentos comparados. El obje-
tivo del estudio fue obtener un conjunto de muestras de escritura manus-
crita que recogieran las variaciones en la escritura inter e intra-escritores.
Esto precisó recoger muestras de escritura manuscrita de múltiples escri-
tores además de múltiples muestras por cada escritor.
La población a la que el estudio se ajustó debía ser tan representativa de
la población de los Estados Unidos como fuera posible. La base de datos
tenía unas 1500 personas. Se midieron varias características. Los datos de-
rivados de esas características eran multivariantes. Para más detalles acer-
ca del análisis multivariante de datos consúltese el Capítulo 11. Nótese, en
particular, que hay un cambio de notación para datos multivariantes. Para
datos univariantes, los datos de control se representan por x, los datos re-
cuperados por y, y los datos de contexto por z. Para datos multivariantes,
los datos de control se representan mediante y1 y los datos recuperados me-
diante y2. Los datos de contexto se representan mediante x. El ejemplo aquí
tratado sobre datos multivariantes en escritura manuscrita es puramente
ilustrativo. Las características medidas incluyen la presión ejercida sobre
el bolígrafo, movimientos de la escritura, la formación del trazo, inclina-
ción y altura. A partir de estas características, pueden derivarse los vecto-
res asociados en la muestra a cada escritor. Consideremos dos escritores
( T
) ( ) T
con sus correspondientes vectores y11,..., y1p y y21,..., y 2 p , donde p es el
número de características bajo consideración. La distancia entre los es-
p 2
critores puede definirse mediante la distancia Euclídea ∑ (y1i − y 2i )  ,
 i =1 
Estimación del valor de diferentes tipos deevidencia    311

aunque pueden usarse otras medidas. Consúltense la Sección 10.1 y el


Capítulo 11 para más detalles sobre notación vectorial.
La precisión de la identificación fue evaluada mediante la comparación de
escritura inter e intra-escritores. La precisión de los métodos investigados fue
valorada a través de una serie de experimentos usando errores de tipo 1 y tipo
2. Un error de tipo 1 fue definido como la probabilidad de clasificar errónea-
mente dos muestras de escritura como si hubieran sido escritas por dos escri-
tores diferentes cuando realmente lo fueron por el mismo escritor. Un error de
tipo 2 fue definido como la probabilidad de clasificar erróneamente dos mues-
tras de escritura como si hubieran sido escritas por el mismo escritor, cuando
realmente lo fueron por dos escritores diferentes. El poder de discriminación
de la escritura manuscrita fue estimado mediante dos enfoques diferentes: la
identificación de un escritor dentro de un conjunto de posibles escritores y la
determinación de si dos documentos fueron escritos por el mismo escritor. El
uso de errores de tipo 1 y 2 puede ser criticado de la misma forma en que se
realizó para las probabilidades de significación (ver Sección 4.6). La evalua-
ción de la evidencia usando la razón de verosimilitud requiere distribuciones
de probabilidad para la variación en el estadístico inter e intra-escritores.
Se necesita una muestra de escritores, por ejemplo los 1500 usados por
Srihari y otros (2002). Se miden las variables para cada escritor. Así, asu-
mimos n muestras para cada uno de los m escritores y p variables para
cada muestra de escritura. Entonces, para cada muestra, se representa la
variable de características mediante:

xxijij = ( x ij1, ..., x ijp ) T , i = 1,..., m; j = 1,..., n.

A partir de estos datos, es posible estimar medidas de covarianza (va-


rianzas y correlaciones) inter e intra-escritores y obtener distribuciones
para las variaciones inter e intra-escritores. Representamos a los datos de
control y a los de las muestras recogidas por y1 e y2, respectivamente. La
razón de verosimilitud es entonces

f p (y1 , y 2 | H p )
, (7.3)
f d (y1 , y 2 | H d )

donde f p , f d representan las funciones de densidad de probabilidad bajo


las proposiciones del Fiscal y de la defensa, respectivamente, e I se ha omi-
tido. Esta relación puede ayudar a determinar si dos muestras fueron es-
critas por la misma persona. En el Capítulo 10 se ofrece un estudio más
general sobre la razón de verosimilitud expresada de esta forma para datos
312   Interpretación

univariantes, con (10.1) correspondiendo a (7.3). En la Sección 11.6 se en-


cuentran más detalles de la razón de verosimilitud para datos multivarian-
tes y en la Sección 11.9.2 para los componentes de la fórmula.
El siguiente enfoque puede usarse como ayuda para la identificación de
un escritor dentro de un conjunto de posibles escritores (consultar también
el Capítulo 8). Sean W1 ,..., WS el conjunto de posibles escritores (que se
asumen conocidos). Sea y el vector de medidas en el documento cuestiona-
do. Las funciones de densidad de probabilidad para y para cada W1 ,..., WS
son f l (y | Wl ), l = 1,..., s. Si las probabilidades a priori Pr( Wl ) de que los es-
critores Wl escribiesen el documento cuestionado son todas iguales, en-
tonces la probabilidad de que Wl * escribiese el documento es:

s
Pr( Wl* | y ) = f l* (y | Wl* ) / ∑ f l (y | Wl ),
l =1

donde l* es uno de 1,...,s. Si las probabilidades Pr( Wl ) no son todas iguales


entonces:

s
Pr( Wl* | y ) = f l* (y | Wl* ) × Pr( Wl* ) / ∑ f l (y | Wl ) × Pr( Wl ).
l =1

Los dos enfoques tratados aquí (Srihari y otros, 2002; y Meier y Zabell,
1980) ilustran un método estándar de valoración de la evidencia cuando no
hay bases de datos de la población y no existe un modelo subyacente con el
que desarrollar una razón de verosimilitud. Ambos enfoques conllevan:
• desarrollar un estadístico para estimar la similitud entre dos ele-
mentos de significancia evidencial;
• desarrollar una base de datos de medidas (digamos, x1 ,..., x N ) de
esos estadísticos para elementos de origen conocido;
• desde la base de datos, construir una distribución empírica para el
estadístico;
• determinar la medida ( x 0 ) del estadístico para los dos elementos
de significancia evidencial;
• considerar x 0 en el contexto de la distribución empírica.
La probabilidad promedio, como se describe en Gaudette y Keeping
(1974) y en la Sección 4.5.2, proporciona una medida de cómo de bueno es
un tipo particular de evidencia discriminando elementos que provienen de
distintas fuentes. Esto se determina haciendo muchos pares de compara-
ciones y contando la proporción de éstas en las que no es posible distinguir
Estimación del valor de diferentes tipos deevidencia    313

entre elementos de diferentes fuentes. La probabilidad promedio no valora


la fuerza de la evidencia en un caso particular.
Los enfoques de Meier y Zabell (1980) y de Srihari y otros (2002) reco-
gen la idea de comparar por parejas en una etapa ulterior. Una probabi-
lidad promedio está determinada por un proceso comparativo dicótomo:
los elementos son distinguibles o no lo son. El otro enfoque cuantifica la
diferencia entre dos elementos. Es de este modo capaz de considerar un
caso particular. En este caso particular se mide la diferencia entre los dos
elementos, el de control y lo recogido, y luego puede compararse con el
conjunto de diferencias en la base de datos.
A partir de esto, puede desarrollarse una razón de verosimilitud.
Primeramente, puede construirse una base de datos de distancias en compa-
raciones por parejas de elementos conocidos como provenientes de la mis-
ma fuente. A partir de esto puede determinarse una función de densidad
de probabilidad f p . Para un caso particular, puede medirse la distancia d 0
entre los elementos de control y los recuperados. El valor de f p puede ser
calculado en d 0 . De manera similar, puede construirse una base de datos de
distancias de comparaciones por parejas de elementos conocidos por prove-
nir de diferentes fuentes. Así puede determinarse una función de densidad
de probabilidad f d . El valor de f d puede ser calculado en d 0 . Los valores de
f p (d 0 ) y f d (d 0 ) pueden compararse usando una razón de verosimilitud.
Esto es bastante diferente del uso de la razón de verosimilitud que se lle-
va a cabo en la mayor parte de este libro, donde las bases de datos se com-
ponen de medidas o características de elementos individuales. La razón de
verosimilitud se determina posteriormente por la razón de las distribucio-
nes conjuntas de las medidas o características de los elementos de control
y los recuperados bajo las proposiciones H p y H d del Fiscal y la defensa,
respectivamente, donde se usa la información de la base de datos para faci-
litar el desarrollo de las distribuciones de probabilidad para las medidas o
características en los elementos de control y recuperados.

7.3.9 Pintura

El valor de la evidencia de pintura se trata en McDermott y Willis (1997)


y McDermott y otros (1999). Obsérvense las dos proposiciones:
• H p , la pintura en la parte abollada del vehículo procede del vehícu-
lo del sospechoso;
• H d , la pintura en la parte abollada del vehículo procede de otro ve-
hículo aleatorio cualquiera.
314   Interpretación

Hay una implicación en la elección de la proposición de la defensa con-


sistente en que ésta acepta que la pintura procede de un vehículo. Si esta
premisa no fuera aceptada por la defensa, una versión alternativa de H d
podría ser que la pintura de la abolladura del vehículo no coincide con la
pintura del vehículo del sospechoso. Se ofrece un tratamiento más detalla-
do de la evidencia de pintura en los Capítulos 8 y 9.

7.4 Cuestiones previas a los datos y posteriores a los


datos

El valor de algunos tipos de evidencias puede estimarse de forma gene-


ral. Por ejemplo, el poder de discriminación (Sección 4.5) proporciona una
medida del valor de los análisis de pelos. Esa medida es proporcionada con
independencia de crimen particular alguno. En este contexto, la valoración
de la evidencia estimada de esta forma se ha calificado como una cuestión
previa a los datos. El valor de la evidencia obtenida en un crimen particular
y utilizada como una medida de soporte a una u otra de las proposiciones
competitivas sobre el crimen se considera una cuestión posterior a los datos.
Pueden consultarse Koons y Buscaglia (1999b) y Curran y otros (1999a) para
una discusión sobre estas ideas en el contexto de una evidencia de cristal.
Se ha propuesto un estadístico denominado contenido de información
(Koons y Buscaglia, 1999a) como una medida del valor de la evidencia de
traza. El uso del estadístico se ilustra con referencia a la composición ele-
mental del cristal. Se tienen en cuenta diez elementos y las medidas de
la composición de estos diez elementos se consideran independientes. Al
final se construyen los histogramas de las distribuciones de las medidas
de cada uno de estos diez elementos a partir de los datos recogidos tras el
análisis en la escena del crimen.
Para facilitar la referencia y por generalizar, consideremos k variables
(las cuales pueden o no ser elementos) y las denominamos x1, x2, …, xk.
Al número de celdillas utilizadas en cada una de las k variables las llama-
mos n1, n2, …, nk. La elección del número de celdillas es subjetiva. Como
siempre, se ha de sopesar entre tener demasiado pocas celdillas, las cuales
obscurecen la variación subyacente en los datos realizando un suavizado
exagerado, y tener demasiadas, que obscurece la variación subyacente en
los datos con demasiada variación aleatoria (o ruido). El contenido de in-
formación en los datos se define como el producto del número de celdillas
en cada uno de los histogramas y se considera como “el número total de
resultados posibles distinguibles analíticamente”. De este modo:
Cuestiones previas a los datos y posteriores a los datos   315

contenido de información = n1 × n2, … × nk (7.4)


(Koons y Buscaglia, 1999a)

Cuanto mayor sea este estadístico, más información hay en los datos.
De este modo, mejor será el tipo de evidencia determinando el valor de
encontrar un cotejo positivo (en algún sentido) entre evidencias del mismo
tipo encontradas en la escena del crimen y sobre un sospechoso en casos
futuros.
Se ha tener precaución con tal interpretación por tres razones. La pri-
mera se relaciona con la asunción de independencia entre las variables que
han sido consideradas. No es suficiente considerar tan solo correlaciones
y descartar una de las dos variables que estén perfectamente correladas.
La Figura 4.1 muestra dos mediciones (llamadas variable 1 y variable 2) de
ocho elementos en cada uno de los dos grupos de datos, indicadas por un
triángulo ∆ y una circunferencia ○. Separadamente, están positivamente
correladas. Juntas, ignorando el agrupamiento, tienen una correlación de
0.9. Las medidas de la variable 1, por sí mismas, no discriminan entre los
dos grupos. Ocurre lo mismo con las medidas de la variable 2. Sin embar-
go, las medidas de la variable 1 y la variable 2 proporcionan una perfecta
discriminación.
La segunda razón para tener cuidado es la subjetiva elección del nú-
mero de celdillas elegido para el histograma de cada una de las variables.
Cuantas más celdillas se elijan para cada variable, mayor será el contenido
de información. Sin embargo, es difícil determinar el número óptimo de
celdillas que deben elegirse. Si hay demasiadas celdillas, puede que resul-
ten adecuadas para los datos presentes pero pobres para predecir datos
futuros. Si hay demasiado pocas, puede que se ajusten pobremente a los
datos y también tener escasa capacidad de predicción del futuro.
La tercera razón para tener precaución es que no todas las n1 × … × nk
celdillas en el conjunto de los datos combinados son equiprobables. Como
ejemplo extremo diríamos que algunas combinaciones de celdillas pudie-
ran estar vacías como consecuencia de la correlación entre las variables y,
por tanto, no proporcionan información pero se añaden al valor del esta-
dístico contenido de información.
El contenido de información responde a una ‘cuestión previa a los datos:
¿cuál es la probabilidad de que pueda cometerse un error si se lleva a cabo
este procedimiento de cotejo positivo?’ (obsérvense las correspondencias
en Curran y otros (1999a), y en Koons y Buscaglia (1999b)).
316   Interpretación

Una cuestión posterior a los datos es aquella que evalúa la evidencia en


un caso particular (Curran y otros, 1997a, b). En la Sección 11.7 se reali-
zan algunos otros comentarios.
Consideremos ahora una cuestión posterior a los datos. Tenemos una
base de datos de algún tipo de evidencia pero tan sólo de valoraciones cua-
litativas (y posiblemente subjetivas) generales de la variabilidad en las ca-
racterísticas de este tipo de evidencia. Se ha cometido un crimen. Se ha
hallado un vestigio en la escena del crimen; es el vestigio del crimen. Un
vestigio del mismo tipo de evidencia se ha relacionado con el sospechoso;
es el vestigio recuperado. Los dos vestigios son indistinguibles en algún
sentido. Se comparan con todos los existentes en la base de datos y se dis-
tinguen de todos los que se encuentran en la base de datos.
La evidencia de la huella dactilar es una ilustración obvia de este tipo
de escenario. Sin embargo, pudieran existir otros tipos de evidencias para
los cuales la base de datos no fuera grande, e incluso que pudiera ser bas-
tante pequeña. Consideremos un caso de huellas de oreja (Sección 7.3.1).
Tenemos dos proposiciones y una evidencia.
• La proposición del Fiscal (P), de que la huella de oreja del sospecho-
so y la marca de oreja encontrada en la escena del crimen pertene-
cen a la misma persona;
• La proposición de la defensa (D), de que la huella de oreja del sos-
pechoso y la marca de oreja encontrada en la escena del crimen no
pertenecen a la misma persona;
• La evidencia (E), de que la huella de oreja del sospechoso y la marca
de oreja encontrada en la escena del crimen son indistinguibles, de
acuerdo con la opinión de un testigo experto.
Asumamos que si P es cierta, Pr(E | P) = 1: no hay falsos negativos. Si D
es cierta, Pr(E | D) = φ. Esta es la probabilidad de un cotejo positivo por ca-
sualidad entre la huella de oreja del sospechoso y la marca de oreja dejada
por otra persona de alguna población; se espera que ésta sea pequeña.
Tenemos una base de datos con n huellas de oreja, todas ellas perte-
necientes a personas distintas. Todas las huellas son entre sí distintas de
acuerdo al testimonio de un experto. Asumimos que la base de datos es
representativa de la población de la que se presume que pertenece el crimi-
nal. Se asume, también, que el sospechoso es un miembro de esa población
(de otro modo, no sería un sospechoso).
Todas las huellas de oreja de la base de datos son distintas de la huella
de oreja del sospechoso. Se sabe que la huella de oreja viene del sospecho-
so. Si la marca de oreja de la escena del crimen viniera de otra persona
distinta al sospechoso, la probabilidad de que la marca de oreja pudiera
Cuestiones previas a los datos y posteriores a los datos   317

determinarse como indistinguible respecto de la huella de oreja del sospe-


choso sería φ.
El experto asume que la base de datos es representativa de la población.
De este modo, la información de la base de datos y la huella de oreja del
sospechoso pueden utilizarse para proporcionar una estimación significa-
tiva de φ.
El número de cotejos positivos, X, encontrados cuando se compararon
las huellas de oreja de la base de datos con la huella de oreja del sospe-
choso fue cero. De este modo, una estimación puntual de φ basada en este
resultado sería cero, el cual no tiene en cuenta la variabilidad implicada
desde la consideración de que se trata de una muestra y no de la población.
Una estimación más relevante sería la que proporcionaría un límite supe-
rior probabilístico para φ. Esto nos haría capaces de decir que tenemos un
100(1–γ)% de certeza de que el verdadero valor de φ sería menor que φ0,
donde γ es una cantidad pequeña. Por ejemplo, γ podría valer 0.01 o 0.001,
y el porcentaje de certeza sería del 99% o del 99,9%.
Existen ciertas asunciones sobre modelos que deben realizarse en aras a
considerar respuestas como las anteriormente expuestas.
1. Existen sólo dos posibles resultados (distinción o no distinción)
cuando se comparan dos huellas de oreja, una la del sospechoso y
otra perteneciente a la base de datos;
2. Las características de los miembros de la base de datos y las del sos-
pechoso son independientes;
3. La probabilidad φ de que las características del sospechoso y un
miembro de la base de datos sean indistinguibles es constante para
todos los miembros de la base de datos. Si esto se considera incier-
to, se necesitan ulteriores análisis sobre datos de características in-
dividuales.
4. El número de cotejos positivos, X, por casualidad exclusivamen-
te, en n comparaciones, se modela por una distribución binomial
Pr(X=x|n,φ) ∝ φx (1 – φ)n–x.
5. La distribución a priori para φ es una distribución Beta tal que
f(φ|α,β) ∝ φα–1(1 – φ)β–1.
Estas asunciones implican una distribución a posteriori Beta para φ, a
saber:

f(φ|x+α, n–x+β) ∝ φx+α–1(1 – φ)n–x+β–1

desde la cual Pr(φ < φ0) puede determinarse. La constante de proporcionali-


dad (el término que debe insertarse en la anterior expresión para asegurar
318   Interpretación

que f(φ|x+α, n–x+β) sea una función de densidad) puede determinarse con
referencia a (2.21):
θ α −1 (1 − θ) β −1 , con 0 < θ < 1, siendo la función
Be(α, β) = f (θ | α, β) =
B(α, β)
Beta la siguiente expresión:
Γ(α)Γ(β)
B(α, β) = , donde Γ(x+1) = x!, con x > 0; y Γ(1 / 2) = √π
Γ(α + β)
y en este ejemplo es igual a: 1 / B(x+α, n–x+β); es decir, el primer término
de la función Beta es uno más que la potencia de φ y el segundo término de
la función Beta es uno más la potencia de (1 – φ).
En las Tablas 7.4 y 7.5 se muestran algunos valores ilustrativos de φ0
para diferentes valores de n y γ. Se asume que α = β = 1 y que X = 0.

Tabla 7.4 Valores de un límite superior probabilístico γ para la probabili-


dad φ0 de un falso cotejo positivo para diferentes valores de n y γ.

n γ
0.01 0.001
250 0.0182 0.0271
600 0.0076 0.0114
900 0.0051 0.0076

Tabla 7.5 Valores de un límite inferior probabilístico γ para el LR 1/φ0 para


diferentes valores de n y γ, con valores redondeados a la baja.

n γ
0.01 0.001
250 54 36
600 131 87
900 196 131

El uso de estas tablas se ilustra mejor con un ejemplo. Supongamos que


900 huellas de oreja, todas ellas pertenecientes a personas distintas, han
sido examinadas y son entre sí distinguibles. También se distinguen todas
ellas de la del sospechoso. La huella de oreja del sospechoso es indistingui-
ble de la marca de oreja encontrada en la escena del crimen. Asumiendo
que los datos muestrales representan a la población a la que pertenece el
Cuestiones previas a los datos y posteriores a los datos   319

criminal, se puede decir que, con referencia a la última fila de la Tabla 7.5,
hay una probabilidad de:
• 0,99 de que el LR para la evidencia de que la huella de oreja del
sospechoso sea indistinguible de la marca de oreja de la escena del
crimen sea mayor de 196;
• 0,999 de que el LR para la evidencia de que huella de oreja del sos-
pechoso sea indistinguible de la marca de oreja de la escena del cri-
men sea mayor que 131.
Nótese que este análisis no es específico para un caso particular. La úni-
ca evidencia utilizada ha sido el tamaño de la base de datos (900) y el hecho
de que la huella de oreja del sospechoso se distingue de todas las existentes
en la base de datos. Si el examen de cualquier futura base de datos propor-
ciona ejemplos donde se encuentran huellas de oreja indistinguibles, en-
tonces el análisis debe modificarse para permitir esta circunstancia. Todas
las 900 huellas de oreja han sido consideradas distintas entre sí. Esto es:
(900 × 899) / 2 ó 404.550 comparaciones por parejas posibles. Como pudo
verse en la Sección 4.5, esa cantidad es el poder de discriminación del tipo
de evidencia y es una medida previa a los datos del valor de la evidencia.
Finalmente, el asunto sobre lo que es o no distinguible es algo que com-
pete a un experto y descansa considerablemente en el grado de pericia del
mismo realizando esa tarea.
Capítulo 8
Evidencia de transferencia Evidencia de transferencia

8.1 La razón de verosimilitud

8.1.1 Probabilidad de culpabilidad

La incertidumbre se puede medir con la probabilidad. Sin embargo, los


intentos de medir la incertidumbre en la evidencia forense sólo con ella
conducen a dificultades de interpretación. La aproximación en dos etapas
hecha en el Capítulo 4 ilustra este punto.
También, como se trató en la Sección 3.3.1, existe un considerable po-
tencial de confusión entre las siguientes probabilidades condicionales: la
probabilidad de la evidencia dada la culpabilidad del sospechoso y la pro-
babilidad de la culpabilidad del sospechoso dada la evidencia. Los intentos
de evaluar combinaciones de diversas evidencias están llenos de dificultad,
requiriendo tener en cuenta la posible dependencia entre ellas; ver Cohen
(1977, 1988) y Dawid (1987) para un debate sobre esto, debate que se resu-
mirá más tarde en este libro.
El experto se enfrenta a la incertidumbre respecto de su evidencia. No
es así respecto a la culpabilidad o no del sospechoso. Esto sólo concierne
al Tribunal.
Además, el Tribunal tiene que considerar otras informaciones y eviden-
cias, de las que el experto ni siquiera es consciente de su existencia.
Consideremos el siguiente ejemplo sobre la confusión que puede produ-
cirse si las probabilidades de culpabilidad se calculan para dos evidencias:
E1 y E2. Sea Hp la proposición de que el sospechoso es culpable. Para ambas
E1 y E2, supongamos que el Tribunal determina que Pr(Hp | E1) y Pr(Hp | E2)
valen 0.7. Si se tienen en cuenta las evidencias por separado, el Tribunal
se inclinaría por la culpabilidad del sospechoso. Al disponer de las dos, el
Tribunal decide multiplicar las probabilidades por considerar la existencia
de independencia entre las evidencias y se obtiene el valor de 0.7 2 = 0.49.
Esta última probabilidad es menor de 0.5. Paradójicamente, esto parece
322   Evidencia de transferencia

indicar que mientras dos evidencias consideradas separadamente implican


la culpabilidad del sospechoso, cuando se combinan implican la inocencia
del sospechoso.
Esta aparente contradicción fue denunciada por Cohen (1977) en su
crítica a los cálculos de la probabilidad estándar (el término de Cohen es
Pascaliano). Sin embargo, Dawid (1987) explicó cómo un riguroso análisis
bayesiano resuelve esta contradicción adecuadamente.
La probabilidad a posteriori de culpabilidad depende de la probabili-
dad a priori de culpabilidad. Consideremos que tenemos dos evidencias
de forma que Pr(Hp | E1) = Pr(Hp | E2) = 0.7. De lo anterior se desprende que
tenemos que rechazar la tentación de defender que estas dos probabilida-
des cuando se combinan implican que Pr(Hp | E1, E2) = 0.49. El teorema de
Bayes en forma de apuestas (Sección 3.4) aplicado a este caso proporciona
esta ecuación:
Pr(H p | E1, E 2) Pr(E1, E 2 | H p ) Pr(H p )
= ×
Pr(H d | E1, E 2) Pr(E1, E 2 | H d ) Pr(H d )

Se necesita clarificar el significado de ‘independencia’ cuando se aplica


a las dos evidencias E1 y E2. En este contexto, independencia significa que
la probabilidad conjunta de las dos evidencias, dado la hipótesis de cul-
pabilidad (Hp) o inocencia (Hd), es igual al producto de las probabilidades
individuales. Eso no significa, por ejemplo, que Pr(Hp | E1, E2) = Pr(Hp | E1)
× Pr(Hp | E2).
Así pues:

Pr(E1, E2 | Hp) = Pr(E1 | Hp) × Pr(E2 | Hp),

Pr(E1, E2 | Hd) = Pr(E1 | Hd) × Pr(E2 | Hd) y

Pr(E1, E 2 | H p ) Pr(H p ) Pr(E1 | H p ) Pr(E 2 | H p ) Pr(H p )


= (8.1)
Pr(E1, E 2 | H d ) Pr(H d ) Pr(E1 | H d ) Pr(E 2 | H d ) Pr(H d )
Si Pr(Hp) = Pr(Hd) ; esto es igual a:

Pr(E1 | H p ) Pr(H p ) Pr(E 2 | H p ) Pr(H p )


× =
Pr(E1 | H d ) Pr(H d ) Pr(E 2 | H d ) Pr(H d )
Pr(H p | E1 ) Pr(H p | E 2 ) 0.7 0.7 0.49
× = × =
Pr(H d | E1 ) Pr(H d | E 2 ) 0.3 0.3 0.09
La razón de verosimilitud   323

Así,

Pr(Hp | E1, E2) = (0.49 / 0.09) / (1 + (0.49 / 0.09)) = 0.49 / 0.58 = 0.84 > 0.7

Por tanto, si las apuestas a priori son iguales y si las dos evidencias son
independientes, condicionadas a las hipótesis de culpabilidad o inocencia,
respectivamente, entonces la intersección de E1 y E2 refuerza la probabili-
dad de culpabilidad.

8.1.2 Justificación

El teorema de Bayes en forma de apuesta presenta un argumento in-


tuitivo convincente para el uso del LR como una medida del valor de la
evidencia. Además de ello, existe un argumento matemático que justifica
su uso. En Good (1991) se puede encontrar una prueba sencilla, y se repite
aquí por conveniencia.
Se desea medir el valor V de la evidencia E a favor de la culpabilidad Hp.
Habrá dependencia de la información del caso, I, pero no se utilizará
esa notación para simplificar la exposición.
Se asume que este valor V es una función solamente de la probabilidad
de E dado que el sospechoso es culpable, Hp, y de la probabilidad de E
dado que el sospechoso es inocente, Hd.
Sea x = Pr(E | Hp), e y = Pr(E | Hd). Lo asumido anteriormente establece
que V = f(x,y) para alguna función f.
Consideremos otra evidencia, que llamamos T, que es irrelevante para
(o independiente de) E y Hp (y, por tanto, para Hd) y que es tal que Pr(T) =
θ. Entonces:

Pr(E,T | Hp) = Pr(E | Hp) Pr(T | Hp)

debido a la independencia entre E y T

Pr(E,T | Hp) = Pr(E | Hp) Pr(T | Hp) = Pr(E | Hp) Pr(T)

debido a la independencia entre T y Hp

Pr(E,T | Hp) = Pr(E | Hp) Pr(T | Hp) = Pr(E | Hp) Pr(T) = θx.

De forma similar, Pr(E,T | Hd) = θy.


324   Evidencia de transferencia

El valor de la evidencia combinada (E, T) es igual al valor de E, puesto


que T se ha asumido como irrelevante. El valor de (E, T) es f(θx,θy) y el va-
lor de E = V = f(x,y). Entonces:

f(θx,θy) = f(x,y)

para todo θ en el intervalo [0,1] de posibles valores de Pr(T). De aquí se


sigue que f es una función de x/y solamente y, por tanto, que V es una fun-
ción de Pr(E | Hp) / Pr(E | Hd) llamada razón de verosimilitud.

8.1.3 Combinación de evidencias y comparación de más de dos pro-


posiciones

La representación del valor de la evidencia como un LR permite la eva-


luación secuencial de sucesivas evidencias de una forma más intuitiva y
simple que con probabilidades de significación, por ejemplo como en la
Sección 4.6.
La apuesta a posteriori de una evidencia, digamos E1, se convierte en la
apuesta a priori para la siguiente evidencia, digamos E2. De este modo:

Pr(H p | E1) Pr(E1 | H p ) Pr(H p )


= ×
Pr(H d | E1) Pr(E1 | H d ) Pr(H d )
y

Pr(H p | E1 , E 2 ) Pr(E 2 | H p , E1 ) Pr(H p | E1 )


= × =
Pr(H d | E1 , E 2 ) Pr(E 2 | H d , E1 ) Pr(H d | E1 )
(8.2)
Pr(E 2 | H p , E1 ) Pr(E1 | H p ) Pr(H p )
= × × ,
Pr(E 2 | H d , E1 ) Pr(E1 | H d ) Pr(H d )

usando una generalización de (8.1). La posible dependencia entre E1 y E2 está


recogida en la forma de las sentencias sobre probabilidad dentro del LR.
Si las dos evidencias son independientes (como sucede en los sistemas
de marcadores genéticos) esto conduce a la combinación de los LRs por
simple multiplicación:

Pr(E1, E 2 | H p ) Pr(E1 | H p ) Pr(E 2 | H p )


= × ,
Pr(E1, E 2 | H d ) Pr(E1 | H d ) Pr(E 2 | H d )
La razón de verosimilitud   325

como en (8.1). Así pues, si V12 es el LR para la combinación de evidencia


(E1, E2), y si V1 y V2 son los LR para E1 y E2, respectivamente, entonces:

V12 = V1 × V2

Si se utiliza el peso de la evidencia (Sección 3.4.2), se pueden combi-


nar diferentes evidencias mediante su suma. Este procedimiento tiene una
analogía intuitiva con las balanzas de la justicia.

Ejemplo 8.1 Fijémonos en el caso del Estado contra Klindt discutido en


Lenth (1986). Este caso tiene dos aspectos de interés. Ilustra un método
para combinar y ponderar evidencias para más de dos proposiciones. El
ejemplo se basa en grupos sanguíneos, si bien ahora usaríamos perfiles de
ADN. Sin embargo, los principios básicos permanecen inalterables y, por
tanto, éste es también un buen ejemplo para ellos.
El caso incluyó la identificación de una parte del cuerpo de una mujer.
Se analizó esa parte y se determinó que era de raza blanca, con edad com-
prendida entre 27 y 40 años, había dado a luz, al menos, un hijo, y no había
sido esterilizada quirúrgicamente. Además, se identificaron siete marca-
dores genéticos. Se descartó la relación del cuerpo con todas las personas
desaparecidas menos con cuatro en los cuatro Estados alrededor de donde
apareció el cuerpo. Se etiquetaron a esas cuatro personas como P, Q, R
y S. Las mujeres Q, R y S habían desaparecido hacía 6 meses, 6 años y 7
años, respectivamente, y sus últimas localizaciones conocidas distaban, al
menos, 200 millas del lugar en que apareció el cuerpo. La mujer P había
desaparecido hacía un mes en el momento en que se descubrió el cuerpo y
había sido vista por la misma zona.
El grupo sanguíneo de P era A. Los grupos de Q, R y S no se conocían. No
se conocían tampoco otros marcadores de esas cuatro mujeres. Respecto a
los restantes seis fenotipos conocidos, muestras extraídas de tejido celular
de los padres de P posibilitaron un valor de 0.5 como probabilidad de que
la mujer cuyo cuerpo se encontró tuviera los fenotipos en el caso de que
fuera P, es decir, Pr(fenotipos referidos | P) = 0.5. (Consúltese la Sección 9.8
para encontrar otro ejemplo sobre el llamado test de parentesco). Para una
población general, la incidencia de estos fenotipos era 0.00764. Para Q, R
o S no se hicieron tests de parentesco. Se conocían las edades de las cuatro
mujeres y que todas ellas eran madres. Sin embargo, para ilustrar el modo
de combinar las evidencias, Lenth (1986) hizo los siguientes cambios a los
datos reales: no se sabía si Q era madre, la edad de R no se conocía tampo-
co, y el grupo sanguíneo de S era A.
326   Evidencia de transferencia

Toda la información anterior se resume en la Tabla 8.1 utilizando la in-


formación frecuencial dada por Lenth (1986).

Tabla 8.1 Probabilidades de las evidencias en el caso del Estado contra Klindt (alteradas con
fines ilustrativos) de Lenth (1986)

Indicador Atributo Mujer, X

P Q R S

Edad (años) 33 27 desconocido 37

E1 Madre | edad 1.0 0.583 1.0 1.0

E2 Esterilizada | madre, edad 1.0 0.839 0.662 0.542

E3 Sangre tipo A 1.0 0.362 0.362 1.0

E4 Otros seis fenotipos 0.5 0.00764 0.00764 0.00764

Pr(E1,E2,E3,E4 | edad, X) 0.5 0.00135 0.00183 0.00414

Pr(X | E, edad) 0.9856 0.0027 0.0036 0.0082

Si una característica particular es conocida respecto de alguna de las


mujeres, la probabilidad de la misma se iguala a la unidad (certeza). Si la
presencia o ausencia de un atributo es desconocida, se proporciona la pro-
babilidad de la incidencia del atributo en la población general. Hay cuatro
proposiciones a comparar, una por cada una de las mujeres cuyo cuerpo
pudiera haber sido encontrado. La evidencia a valorar es E = {E1, ..., E4}, las
cuatro evidencias listadas en la Tabla 8.1. Las probabilidades que debemos
calcular son de la forma Pr(E1,E2,E3,E4 | edad,X), donde X pudiera ser P, Q,
R o S. Éstas evidencias no son entre sí totalmente independientes. La evi-
dencia la describimos del siguiente modo:
• E1: madre (si / no);
• E2: no esterilizada (si / no);
• E3: sangre de tipo A (si / no);
• E4: otros 6 fenotipos.
Utilizando la tercera ley de probabilidad para sucesos dependientes (1.7):
Pr(E | edad,X) = Pr(E1,E2,E3,E4 | edad,X) = Pr(E1 | edad,X) ×
Pr(E2|E1,edad,X) × Pr(E3 | E2, E1,edad,X) × Pr(E4 | E3,E2,E1,edad,X) = Pr(E1 |
edad,X) × Pr(E2|E1,edad,X) × Pr(E3 | X)Pr(E4 | X), donde X es una de las mu-
jeres P, Q, R, o S, y la expresión final depende de la certeza de la relación
de independencia entre las cuatro evidencias. Por ejemplo, la probabilidad
de esterilización depende de la edad y de si se es madre o no, mientras que
la probabilidad de que un individuo tenga la sangre tipo A (E3) es indepen-
La razón de verosimilitud   327

diente de la edad, de si se es madre o no (E1), y de si ha sido esterilizada o


no (E2).
Las probabilidades para la evidencia combinada E se facilitan en la pe-
núltima fila de la Tabla 8.1, concretamente Pr(E | edad, P) = 0.5, Pr(E |
edad, Q) = 0.00135, Pr(E | edad, R) = 0.00183, Pr(E | edad, S) = 0.00414.
La dependencia explícita en ‘edad’ se omite por comodidad en la notación.
La probabilidad a posteriori de que el cuerpo hallado sea el de P: Pr(P | E),
puede determinarse en la medida en que la información sobre la identidad
del cuerpo antes de que se descubriera la evidencia esté disponible, y está
representada por las probabilidades a priori Pr(P), Pr(Q), Pr(R) y Pr(S).
Utilizando el Teorema de Bayes (3.3),

Pr(P | E) = [Pr(E | P) Pr(P)] / Pr(E)

con similares resultados para Q, R y S. Aplicando la ley de probabilidad total


(1.9), como los sucesos P, Q, R y S son mutuamente excluyentes y exhaustivos:

Pr(E) = Pr(E | P) Pr(P) + Pr(E | Q) Pr(Q) + Pr(E | R) Pr(R) + Pr(E | S) Pr(S)

Si se asume que las cuatro probabilidades a priori son mutuamente ex-


cluyentes, exhaustivas e iguales:

Pr(P) = Pr(Q) = Pr(R) = Pr(S) = 1 / 4

Por tanto:

Pr(P | E) = [Pr(E | P) Pr(P)] / Pr(E) =


= Pr(E | P) / [Pr(E | P) + Pr(E | Q) + Pr(E | R) + Pr(E | S)]

De la Tabla 8.1:

Pr(P | E) = 0.5 / (0.5 + 0.00135 + 0.00183 + 0.00414) = 0.9856

el valor dado en la última fila de la tabla. La apuesta a posteriori a favor


de P contra Q, R o S, será igual a 0.5 / (0.00135 + 0.00183 + 0.00414) ≅ 68.
Esto puede verificarse calculando Pr(P | E) / Pr( P | E) = 0.9856 / 0.0144 ≅
68, donde P es el complementario de P, que, por el momento se ha identi-
ficado con Q, R o S.
El valor V de la evidencia, que es igual a Pr(E | P) / Pr(E | P ), puede
determinarse siempre que estén disponibles las probabilidades a priori. A
partir del Teorema de Bayes (3.3):
328   Evidencia de transferencia

Pr(E | P ) = [Pr( P | E) Pr(E)] / Pr( P ) = [Pr(Q | E) + Pr(R | E) + Pr(S | E)] Pr(E) /

(Pr(Q) + Pr(R) + Pr(S)) = [Pr(E | Q) Pr(Q) + Pr(E | R) Pr(R) +

+ Pr(E | S) Pr(S)] /( Pr(Q) + Pr(R) + Pr(S) ). (8.3)

Si Pr(Q) = Pr(R) = Pr(S), entonces:

Pr(E | P ) = [Pr(E | Q) + Pr(E | R) + Pr(E | S)] / 3 = 0.00732 / 3 = 0.00244

Así pues: V = Pr(E | P) / Pr(E | P ) = 0.5 / 0.00244 = 204.92.


La evidencia es casi 205 veces más probable si el cuerpo es de P que si es
de cualquiera de las otras tres mujeres.
Si Pr(P) = Pr(Q) = Pr(R) = Pr(S) = 1 / 4, entonces Pr(P) / Pr( P ) = 1 / 3 y la
apuesta a posteriori a favor de P es igual a:

(0.5 / 0.00244) × 1 / 3 = 0.5 / 0.00732 ≅ 68

También podemos determinar el valor de la evidencia a favor de P rela-


tiva a cualquiera de las otras mujeres, digamos Q, de la manera usual com-
parando dos proposiciones:

Pr(E | P) / Pr(E | Q) = 0.5 / 0.00135 ≅ 370

La evidencia es aproximadamente 370 veces más probable si el cuerpo


fuera de P que si fuera de Q.
Además de la edad, el condicionamiento de la información de contexto
del caso I también se ha omitido por sencillez en la exposición. Sin embar-
go, existe información disponible sobre el tiempo en que las mujeres han
estado desaparecidas y sobre sus últimas localizaciones. Eso puede con-
siderarse como información de contexto del caso I. Así, esa información
podría incorporarse en las probabilidades a priori que pueden escribirse
como: Pr(P | I), Pr(Q | I), Pr(R | I) y Pr(S | I). Supongamos que (P | I) es el su-
ceso más probable y que los otros tres sucesos son todos igual de improba-
bles. Representamos esto por Pr(P | I) = 0.7, Pr(Q | I) = Pr(R | I) = Pr(S | I) =
0.1 (aunque ésta no es la única combinación posible de las probabilidades
que satisfacen ese criterio). La razón de verosimilitud Pr(E | P) / Pr(E | P )
= 204.92 es la misma que antes (204.92) puesto que se determinó asumien-
do sólo que Pr(Q) = Pr(R) = Pr(S), sin especificar un valor particular. La
apuesta a posteriori se altera, sin embargo. Las apuestas a priori son:
La razón de verosimilitud   329

Pr(P | I) / Pr( P / I) = 0.7 / 0.3

Las apuestas a posteriori son entonces:

204.92 x ( 0.7 / 0.3)≅ 478

y Pr(P | E ) = 0.998.
Las probabilidades a posteriori de la Tabla 8.1 se han calculado asu-
miendo que Pr(P) = Pr(Q) = Pr(R) = Pr(S) = 1 / 4. Si esas probabilidades
no fueran iguales, las probabilidades a posteriori tendrían que calcularse
teniendo en cuenta los valores relativos de las cuatro probabilidades indi-
viduales. Por ejemplo:

Pr(P | E) = [Pr(E | P) Pr(P)] / Pr(E) = [Pr(E | P) Pr(P)] /

/ [Pr(E | P) Pr(P) + Pr(E | Q) Pr(Q) + Pr(E | R) Pr(R) + Pr(E | S) Pr(S)].

También el LR tendría que calcularse de nuevo si no se cumpliera que


Pr(P) = Pr(Q) = Pr(R) = Pr(S). Por tanto, de (8.3):

Pr(E | P) / Pr(E | P ) = Pr(E | P) [Pr(Q) + Pr(R) + Pr(S)] /

/ [Pr(E | Q) Pr(Q) + Pr(E | R) Pr(R) + Pr(E | S) Pr(S)] (8.4)

Estos resultados, que comparan cuatro proposiciones diferentes, pue-


den generalizarse para cualquier número, digamos n, de proposiciones ex-
haustivas. Sean H1, ..., Hn dichas proposiciones y E la evidencia a evaluar.
Denotamos la probabilidad de E bajo cada una de las n proposiciones por
Pr(E | H i ), i = 1,..., n. Sean pi = Pr(H i ), i = 1,..., n , las probabilidades a priori

n
de las proposiciones, tales que p = 1. Entonces consideramos el valor
i =1 i
E comparando H1 con ( H 2 ,..., H n ) = H1 :
n
Pr(E | H1 ) Pr(E | H1 )(∑i = 2 pi )
=
∑ Pr(E | Hi )pi
n
Pr(E | H1 )
i=2

que se deriva de una extensión sencilla de (8.4). Así:

Pr(E | H1 ) Pr(E | H1 )(1 − p1 )


=
Pr(E | H1 ) ∑ n Pr(E | H i )pi
i=2
330   Evidencia de transferencia

∑i = 2 pi = 1 − p1 , y
n
con

Pr(E | H1 )p1 Pr(E | H1 )p1


Pr(H1 | E) = = n .
Pr(E) ∑ Pr(
i =1
E | H )
i ip

Las apuestas a posteriori están mejor evaluadas escribiendo Pr(H1 | E )


como 1 − Pr(H1 | E ) y entonces:

Pr(E | H1 )p1 / ∑i =1 Pr(E | H i )pi


n
Pr(H1 | E)
=
Pr(H1 | E) 1 −{Pr(E | H1 )p1 / ∑ n Pr(E | H i )pi }
i =1
Pr(E | H1 )p1
=
∑i = 2 Pr(E | Hi )pi
n

Ejemplo 8.1 (continuación): consideraciones sobre poblaciones.


Las cifras de las probabilidades sobre no esterilización de mujeres, y
para mujeres que son madres y tienen una cierta edad, han sido calcula-
das respecto a las de raza blanca, en general. Es improbable que esas pro-
babilidades sean las mismas entre mujeres blancas desaparecidas (Lenth,
1986). Sin embargo, éstos resultados son los mejores disponibles y sirven
para ilustrar la metodología.
Hay posibilidad, no demasiado extraña, de que el cuerpo fuera de una
mujer distinta a P, Q, R o S. Si se tiene en cuenta tal posibilidad, se puede
añadir una proposición extra a las cuatro ya consideradas y usar los resul-
tados generales con n = 5. Se necesita, pues, información sobre la proba-
bilidad p5 asignada a esta proposición, ajustando apropiadamente las pro-
babilidades anteriores p1,..., p 4 de tal forma que p1 + ... + p5 = 1. Se necesita
también información sobre Pr(E | H5). Algo puede extraerse de la Tabla 8.1
a partir de la información disponible de las otras mujeres. De este modo
Pr(madre | edad desconocida) = 0.583, gracias a Q. Sin embargo, Pr(no
esterilizada | se desconoce si ha sido madre, edad desconocida) no está
disponible. En la Tabla 8.1 se facilita información sobre madres de edad
desconocida y para mujeres de una cierta edad, pero no sobre si son ma-
dres o no lo son. Tampoco se dispone de datos sobre la probabilidad de que
una mujer esté esterilizada cuando su edad sea desconocida y no se sepa si
es madre o no. Las probabilidades para E3 (tipo de sangre A) y E4 (otros 6
Probabilidades de correspondencia   331

fenotipos) permanecerían iguales puesto que la mujer desconocida ha sido


identificada a partir de los restos encontrados como de raza blanca, y se
han facilitado al respecto las necesarias probabilidades.
Se tratará nuevamente sobre estas ideas en el contexto de perfiles de
ADN en la Sección 13.7.

8.2 Probabilidades de correspondencia

Una probabilidad de correspondencia se define como la probabilidad de que la evi-


dencia relacionada con el sospechoso se corresponda con la evidencia encon-
trada en la escena del crimen. Se discutió por Stoney (1991a), donde la llamó
frecuencia de correspondencia. Proporciona una respuesta a la pregunta realizada por
el investigador: dada la evidencia encontrada en la escena del crimen, ¿con
qué probabilidad podemos encontrar evidencia relacionada con el sospecho-
so que se corresponda con la de la escena del crimen? Se acepta la evidencia
encontrada en la escena del crimen. Resulta de particular interés la rareza de
una correspondencia con esa evidencia. Considere el Ejemplo 1.2 en el que la
evidencia en la escena del crimen es la forma originaria (fuente).
Dada las propiedades de la ventana rota en la escena del crimen, ¿cuál
es la probabilidad de ocurrencia aleatoria de fragmentos de cristal que se
correspondan con los de la ventana? La estimación de esta probabilidad re-
quiere información sobre la población de muestras de cristal. A partir de esta
población, puede ser determinada la probabilidad de una correspondencia
con las propiedades de la ventana en la escena del crimen. La frecuencia de
ocurrencia de este conjunto de propiedades entre los fragmentos de cristal
(la forma de partícula transferida) es la frecuencia de interés. No se necesita
la frecuencia de ocurrencia entre ventanas (la forma fuente).
Pueden existir muchos datos sobre las propiedades del cristal de ventana,
pero no puede asumirse que las frecuencias en cuanto a sus propiedades
sean idénticas en los fragmentos de cristal encontrados sobre las personas.
No todos los fragmentos de cristal que se encuentren sobre las personas pro-
ceden de ventanas rotas. Pueden venir de containers o de faros de automó-
viles, por ejemplo. Además, podrían diferir las frecuencias de determinadas
propiedades en distintas poblaciones. Propiedades extrañas en cristales para
ventanas pudieran ser muy frecuentes en fragmentos de cristal.
Walsh y Buckleton (1986) presentaron resultados sobre una búsqueda, en
un sendero de Auckland (Nueva Zelanda), de piezas de cristal roto y sin color.
El tipo predominante de cristal roto provenía de recipientes de cristal. La pro-
babilidad de un cotejo positivo aleatorio de índices de refracción puede estar
332   Evidencia de transferencia

afectada por el tipo de cristal en un estudio experimental. En 1984, un índice


de refracción de 1.5202 tuvo una frecuencia de 3.1% en recipientes de cris-
tal en el Reino Unido, mientras que disminuyó a 0.23% en cristal de edificios
(Lambert y Evett, 1984). Estos resultados van a utilizarse aquí solamente para
ilustrar. Consideremos un crimen en el que el índice de refracción de un cristal
procedente de una ventana rota en la escena del crimen sea 1.5202. Un sos-
pechoso pudiera tener fragmentos de recipiente de cristal incrustados en sus
zapatillas con un índice de refracción de 1.5202. Se dispone de una base de da-
tos construida a partir de medidas en cristales de edificios, preferentemente,
y proporciona una probabilidad muy baja de que se dé una coincidencia for-
tuita por un factor mayor a 10 (Sección 8.3.3). Se exagerará el valor de la evi-
dencia en contra del sospechoso. Como comentan Walsh y Buckleton (1986),
un estudio experimental encaminado a valorar la significación de la evidencia
de cristal ‘debe tener en cuenta, de forma realista, el tipo de cristal roto que es
más probable encontrar aleatoriamente en una comunidad’.
La base de datos poblacional de índices que deba elegirse pudiera depen-
der del lugar en el que los cristales se encontraron en el sospechoso. Si los
fragmentos se encontraron en zapatillas, pudiera esperarse que la mayoría
procediera de la calle y tener, por tanto, proporciones mayores de cristales
de automóviles o de botellas. Si los fragmentos se encontraron en la ropa,
pudiera esperarse que procedieran de contactos con objetos desligados de
alguna superficie o como consecuencia de estar cerca de objetos rotos. En
general, deben elegirse datos poblacionales relevantes para el tipo de dato
y entorno en que fue encontrado el material asociado con el sospechoso.
La base utilizada por Walsh y Buckleton (1986) tiene relevancia directa
únicamente para fragmentos de cristal encontrados en zapatillas. No sería
aplicable a fragmentos de cristal encontrados en la ropa de un sospechoso.
Harrison y otros (1985) aportaron una base de datos poblacional de índi-
ces de refracción de cristales recuperados en personas sospechosas de ha-
ber cometido un crimen y no relacionadas con las muestras de referencia
del crimen, donde observaron, de forma nada sorprendente, un predomi-
nio de fragmentos de cristal de recipientes en zapatillas pero también una
proporción significativa de cristal de edificio en ropa. Curran y otros han
aportado otras bases de datos más recientemente (2000).

8.3 Dirección de transferencia

Una de las propiedades de los LR es que con ellos no se necesita distinguir


entre la perspectiva del sospechoso y la perspectiva de la escena del crimen;
Dirección de transferencia   333

consultar más abajo y en Stoney (1991a). Sin embargo, a pesar de esta pro-
piedad, aún se necesita reconocer la posible importancia de la dirección de
la transferencia de la evidencia. Evett (1984) aporta resultados generales.

8.3.1 Transferencia de la evidencia desde el criminal a la escena del


crimen

Tengamos en cuenta el Ejemplo 1.1 de nuevo. Se encuentra una mancha


de sangre en la escena del crimen. Es del genotipo Γ para el locus LDLR.
Cualquier fuente inocente de la mancha ha sido eliminada, lo cual pue-
de entenderse que forma parte de la información de contexto del caso I.
(Nótese aquí que si se piensa que es poco razonable eliminar todas las
fuentes inocentes de la mancha entonces consideremos, análogamente, un
ejemplo de un caso de violación en el que haya una mancha de semen en
lugar de una mancha de sangre.) Habrá, normalmente, información adi-
cional que un Jurado, por ejemplo, tendrá que considerar. Sin embargo,
en este contexto, I se restringe a la información considerada relevante en
el sentido de que la evidencia de cuya probabilidad estamos interesados
es dependiente de I. Se ha identificado a un sospechoso. Tiene también el
genotipo Γ. La sangre de ese genotipo no es común en la población general
de donde se piensa que procede el criminal, encontrándose sólo en el 4%
de ella. Sin embargo, el sospechoso es de etnia Ruritana y el genotipo Γ en
el locus LDLR se presenta en el 70% de la población de esa etnia. ¿Cómo
debe tenerse en cuenta el conocimiento de la etnia del sospechoso? Se ha
asumido, hasta ahora, que no existe ninguna otra evidencia, como podría
ser la manifestación de un testigo ocular, sobre la etnia del criminal.

Tabla 8.2 Frecuencias de Ruritanos y de aquellos que poseen el genotipo


Γ para el locus LDLR en una población hipotética.

Etnias Ruritanos Otros Total


Genotipo Γ 700 100 800
Otros 300 18.900 19.200
Total 1.000 19.000 20.000

Observemos la Tabla 8.2. Notemos que sólo 800 / 20.000 (4%) de la po-
blación general tienen el genotipo Γ, mientras que 700 / 1.000 (70%) de la
etnia ruritana tienen el genotipo Γ, satisfaciendo la descripción anterior.
334   Evidencia de transferencia

La relevancia de pertenecer a la etnia ruritana por parte del sospechoso


puede evaluarse en el LR. La evidencia E puede considerarse dividida en
tres partes:
• Er, el grupo racial del sospechoso (Ruritano);
• Es, el genotipo (Γ) del sospechoso;
• Ec, el genotipo (Γ) de la mancha de la escena del crimen.
El LR es, entonces:

V = Pr(E | Hp) / Pr(E | Hd) = Pr(Er, Es, Ec | Hp) / Pr(Er, Es, Ec | Hd)

donde las dos proposiciones que se comparan son:


• Hp, hubo contacto entre el sospechoso y la escena del crimen;
• Hd, no hubo contacto entre el sospechoso y la escena del crimen.
Obsérvese que no se hace mención explícita a la información de contexto
del caso I consistente en que no hubo explicación inocente para la presencia
de la mancha en la escena del crimen. Sin embargo, debe recordarse que todas
las probabilidades están condicionadas a I. También se asume implícitamente
que si tuvo lugar el contacto (Hp), entonces la evidencia (mancha de sangre)
fue dejada por el sospechoso. Esto puede ser considerado como una implica-
ción de culpabilidad, pero la inferencia de culpabilidad por el contacto no es
algo que competa al experto. Esa inferencia es responsabilidad del Tribunal o
Jurado, teniendo en cuenta toda la evidencia presente en el juicio.

Perspectiva desde la escena del crimen

En esta perspectiva, la evidencia del sospechoso (Er, Es) está condiciona-


da a la de la escena del crimen (Ec). Usando el Teorema de Bayes en forma
de apuestas (3.6):

V = Pr(Er, Es, Ec | Hp) / Pr(Er, Es, Ec | Hd) =

Pr(Er, Es | Hp, Ec) Pr(Ec | Hp) / Pr(Er, Es | Hd, Ec) Pr(Ec | Hd)

Consideramos, primero, la razón Pr(Ec | Hp) / Pr(Ec | Hd). Si lo único que


se asume respecto al sospechoso es que estuviera en la escena del crimen
(Hp, el numerador) o que no estuviera en la escena del crimen (Hd, el deno-
minador) entonces la frecuencia de Γ es la misma tanto si estuvo como si
no estuvo presente. Así, Pr(Ec | Hp) = Pr(Ec | Hd) y

V = Pr(Er, Es | Hp, Ec) / Pr(Er, Es | Hd, Ec)


Dirección de transferencia   335

Esto puede escribirse como:

V = Pr(Er | Hp, Ec) Pr(Es | Er, Hp, Ec) / Pr(Er | Hd, Ec) Pr(Es | Er, Hd, Ec)

Si el sospechoso estuvo presente en la escena del crimen (Hp) y si la


mancha de la escena del crimen es del genotipo Γ (Ec), entonces la probabi-
lidad de que sea Ruritano es 7/8, la proporción de Ruritanos entre aquellos
que poseen el genotipo Γ . Así, Pr(Er | Hp, Ec) = 7/8.
Si el sospechoso estuvo en la escena del crimen (Hp) y si la mancha de la
escena del crimen es del genotipo Γ(Ec), entonces la probabilidad de que el
genotipo del sospechoso sea Γ(Es) es 1, con independencia de su etnia (Er).
Así, Pr(Es | Er, Hp, Ec) = 1.
Si el sospechoso no estuvo presente en la escena del crimen (Hd), el gru-
po sanguíneo (Ec) de la mancha encontrada en la escena del crimen no da
información sobre su etnia (Er). Así, Pr(Er | Hd, Ec) = Pr(Er | Hd) = 1/20, la
proporción de Ruritanos en la población general.
De forma similar, si el sospechoso no estuvo en la escena del crimen,
el grupo sanguíneo de la mancha no da información sobre el grupo san-
guíneo del sospechoso. Así, Pr(Es | Er, Hd, Ec) = Pr(Es | Er, Hp) y esta es
la proporción de Ruritanos que son del genotipo Γ o, alternativamente, la
probabilidad de que un Ruritano seleccionado al azar en una población de
su etnia, tenga grupo sanguíneo Γ. Esta probabilidad es 7/10. Entonces:

7
×1
V= 8
1 7
×
20 10
7/8 200
= =
7 / 200 8

Este es el valor recíproco de la proporción de gente de genotipo Γ en la


población general. La etnia del sospechoso no es relevante. La prueba ge-
neral de este resultado la proporciona Evett (1984).

Perspectiva del sospechoso

Se trata de aquella en la que la evidencia de la escena del crimen (Ec) está


condicionada a la evidencia del sospechoso (Er, Es). Aplicando el Teorema
de Bayes en forma de apuestas (3.6):
336   Evidencia de transferencia

V = Pr(Er, Es, Ec | Hp) / Pr(Er, Es, Ec | Hd) =

Pr(Ec | Hp, Er, Es) Pr(Er, Es | Hp) / Pr(Ec | Hd, Er, Es) Pr(Er, Es | Hd)

Consideramos la razón Pr(Er, Es | Hp) / Pr(Er, Es | Hd). Asumimos que no


existe una particular predisposición entre los Ruritanos (Er) o de quienes
tienen el genotipo Γ (Es) hacia la criminalidad. Entonces, Pr(Er, Es | Hp) =
Pr(Er, Es | Hd) y

V = Pr(Ec | Hp, Er, Es) / Pr(Ec | Hd, Er, Es)

El numerador Pr(Ec | Hp, Er, Es) de esta razón es igual a 1. Se asume que
el sospechoso estuvo presente en la escena del crimen (Hp), que es Ruritano
(Er) y su genotipo es Γ (Es). La información de contexto I, implícitamente
asumida, es que el sospechoso dejó la mancha de sangre en la escena del
crimen. De este modo, dado Es, Pr(Ec | Hp, Er, Es) = 1. (Recuérdese que si el
contacto entre sospechoso y escena del crimen tuvo lugar, se asume que el
sospechoso fue quien dejó la mancha del crimen).
Si se asume que el sospechoso es inocente (Hd), la información de que es
Ruritano y de genotipo Γ (Es) no es relevante para calcular la probabilidad
de que la mancha del crimen sea del genotipo Γ. Así, la estimación usada
para dichas probabilidades es 800 / 20.000 (8 / 200), que es la proporción
del grupo Γ en la población general. Entonces:

Pr(E c | H d , E r , E s ) = 8 / 200,

V = 200 / 8.

Se trata, de nuevo, del valor recíproco de la proporción de gente de ge-


notipo Γ en la población general. La etnia del sospechoso no es relevante.
Las dos perspectivas aportan el mismo resultado.
Supongamos ahora que no todas las fuentes inocentes de la mancha
fueran eliminadas y que nos encontramos en la perspectiva de la escena
del crimen. Asumamos que hubo contacto entre el sospechoso y la escena
del crimen (Hp) y que la mancha en la escena del crimen (aunque no nece-
sariamente es la mancha del crimen porque la mancha no fue dejada por
el criminal) es del grupo Γ(Ec). Ahora no existe información alguna en esta
evidencia relacionada con la etnia del sospechoso. De este modo:

Pr(Er | Hp, Ec) = 1.000 / 20.000 = 1 / 20


Dirección de transferencia   337

La mancha en la escena del crimen puede que no haya procedido del cri-
minal (Ver Sección 9.5 para una más detallada discusión sobre esta idea,
que se conoce como relevancia; ver también Stoney, 1991a, 1994). De esta for-
ma, la probabilidad de que el genotipo del sospechoso sea Γ, dado que es
Ruritano (Er) y que hubo contacto (Hp), es la frecuencia relativa del grupo
Γ entre los Ruritanos, que es 700 / 1000 (7 / 10). Así:

Pr(Es | Hp, Er, Ec) = 1.000 / 20.000 = 7 / 10

Las probabilidades del denominador tienen los mismos valores que an-
tes, es decir, Pr(Er | Hd, Ec) = 1 / 20, y Pr(Es | Hd, Er, Ec) = 7 / 10. Por consi-
guiente V = 1. En el presente caso, la evidencia no tiene valor probatorio
alguno puesto que la mancha pudiera haber provenido de otra fuente. Se
puede alcanzar el mismo resultado de V desde la perspectiva del sospecho-
so.

Evidencia de un testigo ocular

Pensemos ahora en un testigo ocular que afirme que el criminal es


Ruritano. Se asume que su testimonio es completamente fiable; no se
trata cómo tener en cuenta la evidencia cuando no sea completamente
fiable. Nótese, sin embargo, que tenemos que tener en cuenta dos proba-
bilidades condicionales. Sea T un suceso y WT la información acerca de
T aportada por un testigo ocular. Entonces, se necesita considerar tanto
Pr(T | WT), que es la probabilidad de que ocurriera el suceso dada la in-
formación aportada por el testigo ocular, como Pr(WT |T), que es la pro-
babilidad de lo que dijo el testigo ocular dado que ocurrió el suceso. Lo
que quiere ilustrarse aquí es cómo influye el testimonio del testigo ocular
para restringir el grupo de potenciales criminales a una subpoblación de
la población general.
Supongamos ahora, una vez más, que la mancha de la escena del cri-
men ha sido identificada como procedente del criminal. La información de
contexto del caso (I) tiene dos partes: la etnia del criminal y el hecho de que
se asuma que la mancha procede del criminal. La evidencia E se compone
ahora de sólo dos partes:
• Ec, el genotipo Γ de la mancha del crimen;
• Es, el genotipo Γ del sospechoso.
En este supuesto, la evidencia Er (etnia del sospechoso) se ha incluido
dentro de I y ahora representa la etnia del criminal.
338   Evidencia de transferencia

Desde la perspectiva de la escena del crimen, asumiendo I implícita-


mente:

V = Pr(Es | Hp, Ec) / Pr(Es | Hd, Ec)

El numerador Pr(Es | Hp, Ec) = 1 puesto que, si se ha asumido contac-


to entre el sospechoso y la mancha, y ésta es del grupo Γ, es cierto que el
grupo del sospechoso es Γ. El denominador Pr(Es | Hd, Ec) = 7 / 10, la fre-
cuencia de Γ entre los Ruritanos. Por tanto, V = 10 / 7. La manifestación del
testigo ocular hace que la etnia del sospechoso resulte ahora relevante.
Desde la perspectiva del sospechoso, asumiendo I implícitamente:

V = Pr(Ec | Hp, Es) / Pr(Ec | Hd, Es)

Si el sospechoso estuvo en contacto con la escena del crimen y su geno-


tipo es Γ, la mancha del crimen es de genotipo Γ. De esta forma, el numera-
dor, Pr(Ec | Hp, Es) = 1. El denominador Pr(Ec | Hd, Es) = 7 / 10, puesto que I
incluye la información de que el criminal es Ruritano y la frecuencia de Γ
entre los Ruritanos es 7 / 10.
Ambas perspectivas hacen que V = 10 / 7. No se diferencian sus resulta-
dos.

8.3.2 Transferencia de evidencia desde la escena del crimen al cri-


minal

Esta situación es análoga a la anterior en la que la mancha en la escena


del crimen no pudo ser identificada como procedente del criminal. Se dis-
cute en detalle en Evett (1984). La complicación que se introduce cuando
no puede asumirse que la partícula transferida esté asociada con el crimen
es más explícita si la transferencia se realiza desde la escena del crimen al
criminal.
Se ha cometido un crimen y en su transcurso se ha derramado sangre
de la víctima. Se ha identificado a un sospechoso. Se ha encontrado sangre
de genotipo Γ entre sus ropas. El genotipo del sospechoso no es Γ. El de la
víctima sí es Γ. Hay dos posibilidades:
• A1, la sangre procede de alguna otra fuente;
• A2, la sangre fue transferida durante la comisión del crimen.
Existen dos proposiciones a tener en cuenta:
• Hp, el sospechoso agredió a la víctima;
• Hd, el sospechoso no agredió a la víctima.
Dirección de transferencia   339

La evidencia E que consideramos es que se ha encontrado una única


mancha de sangre en las ropas del sospechoso y que es del genotipo Γ. La
información de que la víctima es del genotipo Γ se considera parte de la
información relevante del caso I. Estamos bajo la perspectiva de la escena
del crimen. El valor de la evidencia es, entonces:

V = Pr(E | Hp, I) / Pr(E | Hd, I)

Tengamos en cuenta, primeramente, el suceso A1 y el numerador de V.


Entonces, el sospechoso agredió a la víctima ( Hp ) pero no fue transferi-
da sangre al sospechoso. Este es un suceso con probabilidad Pr(A1 | Hp).
También, una mancha de genotipo Γ ha sido transferida desde algún otro
medio, un suceso con probabilidad Pr(B, Γ), donde B representa al suceso
de una transferencia de una mancha desde una fuente (la fuente de contex-
to) distinta a la escena del crimen.
Consideremos el suceso A2. Se ha transferido sangre al sospechoso, un
suceso con probabilidad Pr(A2 | Hp); dado A2, Hp y que el genotipo de la víc-
tima es Γ, es cierto que el grupo de la mancha transferida es Γ. Esto implica
también que no se ha transferido sangre al sospechoso desde una fuente
distinta a la escena del crimen.

8.3.3 Probabilidades de transferencia

Antes de continuar con las transferencias de manchas de sangre, se ne-


cesita realizar alguna consideración sobre la estimación de las probabili-
dades de transferencia. Cook y otros (1993) proporcionan un ejemplo con
un caso sobre fibras, el cual se utiliza en un programa de formación del
Servicio de Ciencia Forense de Inglaterra y Gales.
Se describe una agresión en la que un sospechoso fue arrestado res-
pondiendo a la versión facilitada por la víctima muy poco después de que
ocurrieran los hechos. Se encontraron seis fibras en la sudadera del sos-
pechoso que se consideraron indistinguibles respecto a las fibras proce-
dentes del jersey llevado por la víctima. La probabilidad de transferencia
de interés es la probabilidad de que más de una fibra del tipo relevante
pueda ser transferida, persista y sea recuperada de la ropa del sospechoso
si éste cometió el crimen. Cook y otros (1993) observan que, mientras que
lo que sería satisfactorio es considerar la probabilidad de que exactamente
seis fibras fueran encontradas en la ropa del sospechoso en las circunstan-
cias descritas, los imponderables de cada caso harían inviable encontrar
la distribución de probabilidad con algún grado de precisión. Cook y otros
340   Evidencia de transferencia

(1993) dicen que se ha de considerar una lista de factores como presión y


duración del contacto, naturaleza de las superficies que donan y reciben
las fibras, tipos de fibras involucradas y tiempo transcurrido hasta su reco-
gida. Estos factores pueden ser elementos de debate entre investigadores
y pueden determinarse probabilidades de transferencia de ninguna, una o
más de una fibra por consenso. Estas probabilidades pueden imaginarse
como tres números positivos que, entre los tres, sumen la unidad. Cook y
otros (1993) sugieren valerse de un gráfico de sectores. De este modo, se
divide un círculo en tres segmentos, cada uno relacionado con una proba-
bilidad: transferencia de ninguna fibra, transferencia de 1 fibra y transfe-
rencia de más de 1 fibra. Los investigadores pueden ponerse de acuerdo en
las áreas relativas de los segmentos de un gráfico de sectores, pudiéndose
obtener las probabilidades correspondientes. ¡Tal enfoque se recomienda
por sí mismo para aquellos que encuentren más sencillo un enfoque gráfi-
co que numérico!
Otro ejemplo para modelar probabilidades de transferencia es el que
aportan Evett y otros (1995). Se trata de un posible modelo para la distri-
bución de probabilidad relacionada con el número de fragmentos de cris-
tal que permanecen después de un tiempo t de haberse roto una ventana.
Se modela mediante una distribución de Poisson (Sección 2.3.6). Sea X el
número de fragmentos de cristal que permanecen después de un tiempo t,
y sea λt la media del número de fragmentos que permanecen después de un
tiempo t, la cual se determina experimentalmente examinando la persis-
tencia de los fragmentos de cristal. Entonces:

e − λ t λxt
Pr(X = x | λt) = , x = 0,1, ...
x!

De esta forma, si λt es conocida, las probabilidades son conocidas. La


elección del valor de λt es algo que depende del experto, quizá informado
por datos experimentales. Sin embargo, como Evett y otros (1995) señalan,
asumir una distribución de Poisson significa que la varianza de la distribu-
ción es también λt. Esto puede conllevar que se encuentre un valor para la
precisión (recíproco de la varianza), que puede no estar de acuerdo con la
opinión del experto. Si esto es así, debe asumirse otro modelo para el nú-
mero de fragmentos transferidos en un intervalo de tiempo de longitud t.
También se ha de incluir la probabilidad de que la sangre no haya sido
transferida de otra forma (desde otra fuente distinta al sospechoso). Sean t0
=Pr(A1 |Hp) y t1 =Pr(A2 |Hp) dos probabilidades que significan, respectivamen-
te, que ninguna mancha o una mancha han sido transferidas durante la co-
Dirección de transferencia   341

misión del crimen. Sean b0 y b1,1, respectivamente, las probabilidades de que


una persona de la población relevante no tenga mancha de sangre o tenga
una en sus ropas. Las probabilidades se calculan respecto a un objeto, en este
caso una persona pero no necesariamente será siempre así, que ha recibido
la evidencia. Tal cuerpo es un receptor (Evett, 1984; ver también la Sección 1.4).
Sea γ la probabilidad de que una mancha en la ropa de una persona de la
población relevante adquirida inocentemente sea del genotipo Γ. Esta proba-
bilidad puede ser distinta a la frecuencia relativa de Γ en la población general
(Gettinby, 1984). Entonces, Pr(B, Γ) = γ b1,1. Recuérdese que B conlleva que la
mancha procede de una fuente distinta a la escena del crimen.
El numerador puede escribirse (según Evett, 1984):

t0 γ b1,1 + t1 b0

El primer sumando se relaciona con A1, y el segundo con A2.


Ahora consideramos el denominador. El sospechoso y la víctima no es-
tuvieron en contacto. El denominador entonces toma el valor Pr(B, Γ) que
es igual a γ b1,1.
Por tanto, el valor de la evidencia es:

V = (t0 γ b1,1 + t1 b0) / γ b1,1 = t0 + (t1 b0 / γ b1,1) (8.5)

Consideremos las probabilidades que tenemos que estimar:


• t0: probabilidad de que no se transfiriera ninguna mancha durante
la comisión del crimen;
• t1: probabilidad de que se transfiriera una mancha durante la comi-
sión del crimen;
• b0: probabilidad de que ninguna mancha se transfiriera de forma
inocente;
• b1,1: probabilidad de que (un grupo de) una mancha se transfiriera
de forma inocente;
• γ: frecuencia del genotipo Γ entre manchas de fluidos corporales
sobre ropa.
Las cuatro primeras se relacionan con lo que se ha denominado evidencia
extrínseca; la quinta se denomina evidencia intrínseca (Kind, 1994). La estimación
de las probabilidades de la evidencia extrínseca es subjetiva y sus valores
son responsabilidad de los expertos. La estimación de la probabilidad in-
trínseca se realiza por experimentación y observación. La evidencia extrín-
seca en este ejemplo es la evidencia de transferencia de una mancha. La
intrínseca es el resultado de la frecuencia del perfil. De forma más general,
la evidencia extrínseca puede estar formada por atributos físicos (número,
342   Evidencia de transferencia

posición y localización de las manchas), mientras que la intrínseca puede


consistir en descriptores de las manchas (perfiles).
Observe que, en general, t0 es pequeño en relación con t1 b0 / γ b1,1, por lo
que puede despreciarse.
Sea Γ un perfil de ADN con probabilidad de coincidencia (Sección 13.5)
de, aproximadamente, 0.01 entre caucasianos en Inglaterra. Asumimos que
la distribución de perfiles de ADN entre manchas sobre la ropa es aproxi-
madamente la distribución entre la población relevante. Esta asunción no
es necesariamente correcta (Gettinby, 1984) y se discutirá este asunto más
adelante. Entonces, γ = 0.01. Briggs (1978) realizó un estudio sobre man-
chas en ropa de hombres de donde razonablemente se estima que b0 > 0.95
y b1,1 < 0.05. La estimación de las probabilidades de transferencia t0 y t1 re-
quieren un estudio de las circunstancias del crimen y, posiblemente, expe-
rimentación. Supongamos que t1 > 0.5 (Evett, 1984). Entonces, sin tomar
en consideración el valor de t0 (excepto que tiene que ser menor a 1 – t1, es
decir, menor a 0.5 en este caso):

V > (0.5 x 0.95) / (0.05 x 0.01) = 950

un valor que indica una evidencia muy fuerte a favor de la hipótesis de


que el sospechoso y la víctima estuvieron en contacto. La evidencia es, al
menos, 950 veces más probable si el sospechoso y la víctima estuvieron en
contacto que lo contrario.
Observe que (8.5) es considerablemente diferente a 1 / γ (= 100 en el ejem-
plo numérico). Este último resultado se obtendría si (t1 b0 / b1,1) fuera aproxi-
madamente igual a la unidad, lo cual entraña que se hayan considerado va-
lores no realistas sobre las probabilidades de transferencia necesarias.
Se han publicado numerosos estudios con información para investigar
numerosos aspectos de transferencia y persistencia y ofrecen estimaciones para el
cálculo de probabilidades. Ver Allen y Scranage (1998), Allen y otros (1998
a, b, c, d), y Coulson y otros (2001a) para partículas de cristal. En Curran y
otros (2000, Capítulo 5) puede verse un resumen de los estudios llevados a
cabo sobre la transferencia y la persistencia.
Veamos otro ejemplo (McDermott y otros, 1999) sobre evidencia de
transferencia de fragmentos de pintura entre el vehículo del sospechoso y
el vehículo de la parte agredida. Consideremos estas dos proposiciones:
• Hp, hubo contacto entre el vehículo del sospechoso y el de la parte
agredida;
• Hd, no hubo contacto entre el vehículo del sospechoso y el de la par-
te agredida.
Dirección de transferencia   343

El valor de la evidencia es, aproximadamente:

V = tn (1 – bi,m) / γ bi,m

donde:
• tn: es la verosimilitud de transferencia de pintura en el curso de un acci-
dente automovilístico, consistente en una capa de pintura superficial;
• bi,m: es la probabilidad de que un vehículo aleatoriamente seleccio-
nado tenga pintura de otro cualquiera sobre su superficie;
• γ: es la probabilidad de que la pintura procedente de vehículo aje-
no coincida con la del vehículo agredido (cuando se considere que
haya podido transferirse pintura del vehículo agredido al vehículo
del sospechoso).
McDermott y otros (1999) proporcionan los siguientes valores: tn = 0.8,
basándose en la experiencia, porque considera que, al menos, en el 80 % de
los accidentes investigados se encuentra pintura transferida entre vehícu-
los en forma de capa superficial; para bi,m fija un valor de 0.094, habiéndose
obtenido a partir de un estudio sobre vehículos dañados, en el que el 9.4%
presentaban pintura procedente de vehículos ajenos. Finalmente, para γ se
proporciona el valor de 0.127, siendo ésta la proporción de vehículos con
pintura sólida blanca. El valor de la evidencia es, entonces:

V = (0.8 × 0.906) / (0.094 × 0.127) = 61

Con argumentos similares se consigue calcular V cuando la transferen-


cia se realiza en sentido opuesto al contemplado, es decir, del vehículo del
sospechoso al vehículo de la parte agredida. Obsérvese que esto está en
desacuerdo con el argumento esgrimido por McDermott y otros (1999), los
cuales sólo contemplan la recíproca de la frecuencia relativa para el valor
de la transferencia de evidencia en esta dirección. El establecimiento de las
proposiciones es importante. Consideramos:
• Hp, la pintura sobre el vehículo de la parte agredida originaria del
vehículo del sospechoso; y
• Hd, la pintura sobre el vehículo de la parte agredida no es originaria
del vehículo del sospechoso.
En este caso, el valor de la evidencia es la recíproca de la frecuencia re-
lativa del color de la pintura en alguna población de pinturas de vehículos.
Sin embargo, si consideramos:
• Hp, el vehículo de la parte agredida y el vehículo del sospechoso es-
tuvieron en contacto;
344   Evidencia de transferencia

• Hd, el vehículo de la parte agredida y el vehículo del sospechoso no


estuvieron en contacto.
Ahora la evaluación de la evidencia contempla también la posibilidad de
que la pintura proceda de una fuente distinta de los vehículos implicados
en el accidente. Las probabilidades de transferencia y la información de
contexto del caso adquieren relevancia.

Manchas de sangre sobre ropas

Gettinby (1984) cuestionó la asunción de que los grupos sanguíneos so-


bre ropas tuvieran una distribución aproximadamente igual a la de la po-
blación relevante. Esto es así porque la sangre en un trozo de ropa pudiera
provenir de quien llevara la ropa y, de este modo, habría una desviación
a favor del genotipo del que la llevara. Los argumentos que se exponen a
continuación se basan en el trabajo de Gettinby (1984).
Consideremos una población de tamaño N donde una proporción p de esa
población tenga manchas de sangre de procedencia inocente sobre sus ropas.
Sean po, pa, pb y pab las proporciones de cada uno de los grupos sanguíneos O,
A, B y AB que se dan en la población, tales que po + pa + p b + pab = 1.
Si nos fijamos en personas del grupo O, la procedencia de las manchas
de sangre detectadas en la ropa puede tener su origen en las siguientes
causas:
• por autotransferencia (manchas del grupo O), con probabilidad α,
• manchas del grupo O procedentes de otros, con probabilidad βO,
• manchas de los tipos A, B o AB, necesariamente procedente de
otros, con probabilidad γo,
de manera que:

α + βO + γO = 1,

βO = (1 – α) pO (8.6)

La proporción α es independiente del grupo sanguíneo de los individuos


en consideración, a diferencia de βO y γO.
Extendiendo la argumentación, podemos establecer los siguientes re-
sultados para individuos de tipo A, B y AB:

α + βa + γa = 1,

βa = (1 – α) pa (8.7)
Dirección de transferencia   345

α + βb+ γb = 1,

βb = (1 – α) pb. (8.8)

α + βab + γab = 1,

βab = (1 – α) pab. (8.9)

De los individuos que tengan manchas de sangre de origen diferente al


suyo propio sólo podremos distinguir una proporción γ, donde:

γ = pO γo + pa γa + pb γb+ pab γab

Por ejemplo, p0 γ0 = Pr(encontrar una mancha en la ropa de tipo A, B o


AB | la persona es de tipo O) x Pr(la persona es de tipo O). La multiplica-
ción de los pares de ecuaciones (8.6) a (8.9) por p0, pa, pb y pab, respectiva-
mente, son:

po α + (1 – α) po2 + po γo = po.
p a α + (1 – α) pa2 + pa γa = pa.
p b α + (1 – α) pb2 + pb γb = pb.
p ab α + (1 – α) pab2 + pab γab = pab.

y sumando:

α + (1 – α) (1 – δ) + γ = 1, (8.10)

donde

δ = 1 – po2 – pa2– pb2– pab2,

que es el poder de discriminación (Sección 4.5) del sistema ABO. A partir


de (8.10),

α = 1 – (γ / δ)

Gettinby (1984) utiliza valores de γ = 0.182, y de δ = 0.602, citando a


Briggs (1978). A partir de ahí, se ha obtenido un valor de α ≅ 0.7 para la es-
timación de la probabilidad de que la mancha de sangre provenga de uno
mismo, dado que se encontró sobre la ropa; es decir, aproximadamente el
70% de las manchas de sangre en ropa proceden de uno mismo.
346   Evidencia de transferencia

Consideremos una persona del grupo sanguíneo O. Llamamos CO(O) a


la probabilidad de que tenga, inocentemente, una mancha de sangre del
tipo O. Entonces:
Co(O) = Pr(sospechoso tenga una mancha de sangre procedente de sí
mismo) + Pr(sospechoso tenga una mancha de sangre procedente de otra
persona, pero de tipo O) = p α + p (1 – α) po.
Con notación similar, para que una persona de grupo sanguíneo O lleve
una mancha de sangre de tipo A, B o AB, las probabilidades son:

CA(O) = p (1 – α) pa

CB(O) = p (1 – α) pb

CAB(O) = p (1 – α) pab

La suma de las cuatro ecuaciones es:

Co(O) + CA(O) + CB(O) + CAB(O) = p

la probabilidad de adquisición inocente de una mancha de sangre. Un valor


de p = 0.369 es el que proporciona Briggs (1978) y es utilizado por Gettinby
(1984). También puede determinarse la distribución de grupos sanguíneos
entre manchas de sangre adquiridas de forma inocente sobre ropa de per-
sonas de tipo O. Por ejemplo, la probabilidad de que una persona de tipo O
tenga una mancha de sangre de tipo O sobre su ropa, dado que fue adqui-
rida de forma inocente es: Co(O) / p = α + (1 – α) po. La distribución de los
grupos sanguíneos, para personas de tipo O, es:

Pr(tipo O | adquisición inocente de una mancha de sangre) = α + (1 – α) po.

Pr(tipo A | adquisición inocente de una mancha de sangre) = (1 – α) pa.

Pr(tipo B | adquisición inocente de una mancha de sangre) = (1 – α) pb.

Pr(tipo AB | adquisición inocente de una mancha de sangre) = (1 – α) pab.

con resultados similares para las personas de tipo A, B y AB. La comparación


de esta distribución con la distribución general se facilita en la Tabla 8.3.
Dirección de transferencia   347

Tabla 8.3  Distribución de grupos sanguíneos de manchas de sangre adquiridas


inocentemente en la ropa de personas de tipo O, comparadas con la
distribución en la población general

Grupo sanguíneo O A B AB Total

Ropa de personas
α + (1 – α) p0 (1 – α) pa (1 – α) pb (1 – α) pab 1
de tipo 0

Población general p0 pa pb pab 1

 Poblaciones:

La importancia de la población de la que puede haber venido la eviden-


cia de transferencia ha sido puesta de manifiesto desde hace tiempo. En
1935, se remarcó que:

“Uno necesita tan sólo considerar la frecuencia con que la evidencia de


sangre y semen se produce ante los Tribunales para ser consciente de
la necesidad de disponer de datos sobre la frecuencia relativa de ocu-
rrencia de tales manchas sobre ropa que no tenga nada que ver con
el crimen; por ejemplo, sobre cien prendas de ropa elegidas al azar
y procedentes de fuentes diversas, ¿cuántas mostrarían manchas de
sangre o manchas de semen? Cuestiones como éstas debieran produ-
cirse en los juicios orales y ser contestadas con investigaciones expe-
rimentales que probaran el valor considerable de evaluar la evidencia
de este tipo. (Tryhorn, 1935, citado por Owen y Smalldon, 1975)”.

Se han publicado datos sobre lo que se ha denominado datos de población en


entorno específico respecto a la incidencia de la forma de partícula transferida de
materiales sobre ropa (Stoney, 1991a). Incluyen datos sobre fragmentos de
cristal y pintura sobre ropa (Pearson y otros, 1971; Dabbs y Pearson, 1970,
1972; Pounds y Smalldon, 1978; Harrison y otros, 1985; McQuillan y Edgar,
1992; Lau y Beveridge, 1997; Petterd y otros, 2001); cristal en suela de zapa-
tillas deportivas (Davis y DeHaan, 1977; Walsh y Buckleton, 1986; Coulson
y otros, 2001a; Roux y otros, 2001); fibras sueltas sobre la ropa (Owen y
Smalldon, 1975; Briggs, 1978; Fong e Inami, 1986; y referencias citadas en
Chabli, 2001). Todos estos estudios son relevantes cuando el material asocia-
do con el sospechoso está en forma de partícula sobre la ropa. Si el material
se encuentra en forma fuente, entonces se precisan los datos de población
para esa forma. Ya se ha expuesto un ejemplo del valor de la evidencia de
pintura sobre vehículos (McDermott y otros, 1999, Sección 7.3.9).
348   Evidencia de transferencia

En Walsh y Buckleton (1986) se proporciona un ejemplo de la importan-


cia de la elección de la población correcta, ya tratado en la Sección 8.2. Se
comete un crimen en cuyo transcurso se rompe el cristal de una ventana.
El índice de refracción del cristal en la escena del crimen es 1.5202. Se
identifica a un sospechoso y se descubren fragmentos de cristal en su zapa-
tilla deportiva, los cuales también tienen el índice de refracción 1.5202. Sin
embargo, gracias al estudio de Lambert y Evett (1984), y dado que el cristal
en la zapatilla es cristal de recipiente, se sabe que el 3.1 % del mismo tiene
un índice de refracción 1.5202, mientras que sólo el 0.23% del cristal pro-
cedente de edificios tiene un índice de refracción de 1.5202. La frecuencia
relevante para valorar la evidencia E es 3.1%, por lo que la probabilidad de
encontrar E en una persona inocente (Hd) es: Pr(E | Hd) = 0.031.
Observe que la población relevante es la que es aplicable a la gente ino-
cente.
Esto es así porque se trata de la población de donde pudiera provenir la
partícula transferida. En el Capítulo 12 se muestra un ejemplo de cómo la
información de contexto del caso I y la proposición Hd influyen en la defi-
nición de la población relevante en un caso de fibras.
Consideremos, sin embargo, la transferencia a la escena del crimen de
una mancha de sangre. La población relevante es aquella de donde procede
el criminal, y nada tiene que ver con la población relacionada con el origen
del sospechoso, como suele suscitarse a menudo (ver, por ejemplo, Decorte
y Cassiman, 1993, y comentarios al respecto de Taroni y Champod, 1994,
o el estudio sobre casos criminales presentados por Wooley, 1991, Weir y
Evett, 1992, 1993, y Lewontin, 1993). Este argumento es una de las falacias
más persistentes en discusiones sobre ADN (Weir, 1992). Una descripción
completa sobre esta falacia puede encontrarse en Evett y Weir (1992).
La elección de la población no está tan clara, sin embargo, en estudios de
manchas de sangre sobre ropa. Owen y Smalldon (1975) realizaron un estu-
dio basándose en sus experimentos llevados a cabo en una tintorería. Briggs
(1978) utilizó datos procedentes de dos investigaciones de casos de asesinato
a gran escala durante las cuales se examinaron grandes cantidades de artícu-
los de ropa procedentes de numerosos varones sospechosos debido a la pre-
sencia en ellos de manchas de sangre. En esas investigaciones, Briggs (1978)
argumentó, muy razonablemente, que el muestreo no había sido aleatorio al
realizarse sobre artículos de personas envueltas en la investigación de un cri-
men. Podrían producirse agrupaciones de manchas que podrían perjudicar
a la aleatoriedad del muestreo. Briggs (1978) informó que, para los grupos
sanguíneos ABO, en la investigación del segundo asesinato, se examinaron
966 artículos de ropa procedentes de 122 sospechosos. Cuarenta y cinco de
Dirección de transferencia   349

los 122 sospechosos tenían sangre en sus ropas (45 / 122 = 0.369, el valor de p
utilizado por Gettinby, 1984). Hubo 22 sospechosos de los que se obtuvieron
grupos sanguíneos, cuatro de los cuales proporcionaron ropa con manchas
donde el grupo difería del grupo del donante; esto proporciona un valor de
4 / 22 = 0.182 para γ, como el utilizado por Gettinby (1984). De los 122 sos-
pechosos, sólo cuatro (el 3.2%), con nueve artículos de ropa en total, tenían
sangre procedente de otras personas ajenas a su dueño. Ocho de los nueve
artículos procedieron de tres de los cuatro sospechosos, todos ellos con his-
torial delictivo violento. La conclusión de Brigss fue que la proporción de
personas con sangre en su ropa con grupo sanguíneo diferente al suyo pro-
pio es del 3.2%. El parámetro γ de Gettinby es la proporción de personas que
tiene sangre en su ropa de grupo sanguíneo distinto al suyo, siendo distin-
guibles las citadas manchas: si n es el número de personas con manchas de
sangre en sus ropas que no proceden de los que las llevan, y n0 es el número
de personas que tiene manchas de sangre en sus ropas que no son suyas y
cuyos grupos sanguíneos son distintos (y así es distinguible que provenga de
alguien más), entonces: γ = n0 / n.
Este ejemplo se refiere a grupos sanguíneos, habiéndose ya superado el
uso de este tipo de evidencias. Sin embargo, la idea subyacente de que las
frecuencias relativas de las características de las manchas sobre la ropa no
son necesariamente las mismas que las de las características de las man-
chas de la población relevante sigue siendo aún importante.
Owen y Smalldon (1975) informaron que de 100 pares de pantalones
examinados en la tintorería, 16 tenían manchas de sangre. Sin embargo,
no fue posible determinar si los grupos sanguíneos eran diferentes de los
de sus dueños. De 100 chaquetas, 5 tuvieron manchas de sangre. Respecto
a los pantalones, el 44% tenían manchas de semen. Los resultados de este
estudio puede que tengan escasa relevancia 30 años más tarde, pero los
principios del estudio apuntan hacia una importante área de investigación
futura.

8.3.4 Doble transferencia

Tengamos en cuenta el ejemplo de la transferencia de pintura entre ve-


hículos, considerando:
• Hp, pintura en el vehículo de la parte agredida procedente del vehí-
culo del sospechoso, y
• Hd, pintura en el vehículo de la parte agredida no procedente del
vehículo del sospechoso.
350   Evidencia de transferencia

Entonces el valor de la evidencia es el recíproco de la frecuencia relativa


del color de la pintura en alguna población de pinturas de vehículos. Este es
el valor cuando la transferencia de la evidencia se considera sólo en una di-
rección. Podemos pensar que cuando tenemos en cuenta las dos direcciones
de la transferencia, el valor de la evidencia es simplemente el producto de
los recíprocos de las frecuencias relativas del color de la pintura de los dos
vehículos implicados. Sin embargo, esa consideración no tiene en cuenta la
asociación de las dos evidencias. Obsérvese que en este contexto, las propo-
siciones cambian de nivel de fuente (nivel I) a nivel de actividad (nivel II).
Si hay evidencia de transferencia en una dirección, digamos que desde
el vehículo del sospechoso al de la parte agredida, entonces la probabilidad
de transferencia en la otra dirección crece de forma muy considerable. De
este modo, el factor tn en la expresión:

tn (1 – b1,m) / γ b1,m (8.11)

crece notablemente.
Las probabilidades de información del caso respecto a cada una de las
direcciones de la transferencia pueden ser diferentes debido a la naturale-
za de los vehículos involucrados. Un coche procedente de una parte pobre
de la ciudad tendrá diferente probabilidad de tener pintura en el chasis que
otro procedente de una parte rica de la misma ciudad.
En los Capítulos 12 y 14 se entra en detalle sobre la doble transferencia
en casos de fibras (Champod y Taroni, 1999; Cook y otros, 1999) y fluidos
corporales (Aitken y otros, 2003).

8.3.5 Presencia de evidencia no coincidente

En casos de evidencia de transferencia puede ocurrir que haya eviden-


cia presente sobre el sospechoso que no coincida con las características
identificativas examinadas en la muestra procedente de la escena del cri-
men, o haya evidencia encontrada en la escena del crimen que no coincida,
en sus características identificativas, con la del sospechoso. Por ejemplo,
consideremos un caso de transferencia de fibras desde la escena del cri-
men al criminal. Se encuentra a un sospechoso con fibras en sus ropas que
coinciden, en algún sentido, con las encontradas en la escena del crimen.
Sin embargo, tiene muchas otras fibras en su ropa de diferentes tipos que
no coinciden con las de la escena del crimen (también llamadas fibras exte-
riores o ajenas al objeto de interés).
Agrupamiento   351

Grieve y Dunlop (1992) han desarrollado un cálculo de relación de ve-


rosimilitud para ese tipo de situaciones. Incluye factores que afectan a
las probabilidades de transferencia, probabilidades de encontrar en una
persona tipos de fibras ajenas al objeto de interés, frecuencias relativas de
ocurrencia de coincidencias entre diferentes tipos de fibras, y otros que
tienen en cuenta el número de fibras coincidentes respecto al número total
de fibras. Hay considerable subjetividad en la determinación de esas cifras.
La importancia del trabajo descansa en el reconocimiento de que el núme-
ro de objetos encontrados que no coinciden se ha de tener en cuenta para
valorar la evidencia, así como también el número de objetos encontrados
que coinciden (para más detalles, ver la Sección 12.3).

8.4 Agrupamiento

Se define como grupo al conjunto de elementos materiales (tales como


los elementos individuales de una evidencia de traza) que comparten las
mismas características forenses (Champod y Taroni, 1999). Un grupo no
está necesariamente definido por una separación espacial entre los ele-
mentos encontrados.
Cuando se recuperan elementos de una evidencia de traza de un sospecho-
so y se consideran evidencia, se ha tener en cuenta la posibilidad de que tales
elementos puedan proceder de más de una fuente. La muestra que forma la
integridad de la evidencia puede dividirse en grupos. Decimos que existe un
grupo cuando los elementos de la evidencia de traza parecen proceder, por
existir especificidad suficiente en las propiedades compartidas, de una única
fuente. Un grupo, pues, se define por la similitud de las características entre
los elementos del mismo, y por su desemejanza con otros grupos. El número
de grupos en la muestra es desconocido. En algunos casos, como por ejem-
plo en fibras, la decisión sobre la composición de los grupos sólo puede ha-
cerse con dificultad a través de una demostración numérica completa, aun-
que guiados por la lógica, pueden alcanzarse opiniones bien cualificadas.
Existen métodos de agrupamiento estadístico, ilustrados con medidas
de índices de refracción (i.r) en fragmentos de cristal, en (Evett y Lambert,
1982; Triggs y otros, 1997; Curran y otros, 1998c, 2000). Los métodos se
ilustran con un ejemplo de índices de refracción en fragmentos de cristal
pero podrían ser utilizados con otros tipos de evidencias de traza cuyas
características examinadas sean datos continuos, tales como composicio-
nes elementales, o para datos discretos con los que pudiera utilizarse una
adecuada medida de distancia.
352   Evidencia de transferencia

Consideremos una muestra de n fragmentos de cristal cuyos índices de re-


fracción fueran: x1, …, xn. Los fragmentos pudieran provenir de uno o más gru-
pos. Se define un grupo de fragmentos como un conjunto de ellos con similar
índice de refracción. Los grupos se distinguen entre sí por la desemejanza en
el índice de refracción. Se desconoce el número de grupos en la muestra. Se
consideran dos métodos de agrupamiento. El primero se denomina aproxima-
ción aglomerativa. Comienza asumiendo que los n fragmentos forman n gru-
pos separados. Posteriormente se van agrupando algunos en un único grupo.
El segundo método se denomina aproximación divisiva. Se parte de la base de
que todos los fragmentos son del mismo grupo. Posteriormente se considera
la división de los fragmentos en un número de grupos más grande.
Evett y Lambert (1982) describieron un método aglomerativo. Triggs y
otros (1997) propusieron una modificación, que es la que aquí se trata. El
principio básico es la comparación de distancias entre medidas de frag-
mentos con una tabla de valores críticos determinada por la asunción de
la subyacente distribución de las distancias. El procedimiento descrito por
Triggs y otros (1997), llamado por ellos ELM2 y aplicado a los índices de re-
fracción x1, …, xn, es el siguiente: asumamos que conocemos la desviación
típica σ de las medidas de índice de refracción y que están Normalmente
distribuidas. El rango estandarizado: (xmax – xmin ) / σ, representado por R,
se compara con los valores críticos de un rango muestral de una distri-
bución Normal estándar. Existen tablas publicadas de valores de R para
muestras de tamaño n y valores críticos α, en las que el valor r(α,n) está
tabulado de forma que Pr(R< r(α,n)) < (1 – α) para valores dados de n y α;
véase, por ejemplo, Owen (1962) o Pearson y Hartley (1966).
1. Clasificamos x1, …, xn en orden ascendente y etiquetamos las medi-
das clasificadas x (1) ,..., x ( n ) , de forma que x (1) es el mínimo y x ( n )
es el máximo.
2. Comprobamos si el rango estandarizado de las medidas
( x ( n ) − x (1) ) / σ = r, digamos, es menor que r(α,n). Si r ≤ r(α,n), entonces
consideramos que los fragmentos vienen de una sola fuente y no hay
necesidad de avanzar más. Si r > r(α,n) entonces avanzamos al paso 3.
3. Hallamos la distancia más pequeña |x(i) – x(j)|, para 1 ≤ j < i ≤ n, entre
las medidas.
4. Si el correspondiente rango estandarizado |x(i) – x(j)| / σ ≤ r(α,2), ha-
llamos el valor más próximo a x(i) o x(j) y comparamos el rango estan-
darizado de esas tres medidas con r(α,3), etc.
5. Repetimos el paso 4 hasta que todas las medidas estén en un mismo
grupo, o nos vamos al paso 2 para cualquier subgrupo de tamaño
mayor a la unidad.
Agrupamiento   353

En la Tabla 8.4 se facilitan algunos valores de r(α,n).

Tabla 8.4 Valores críticos de r(α,n) para el rango de una muestra de tamaño n


a partir de una distribución normal estandarizada (Owen (1962)).

n Percentiles
90% 95% 99%
r(0.10,n) r(0.05,n) r(0.01,n)
2 2.326 2.772 3.643
5 3.478 3.858 4.603
10 4.129 4.474 5.157
20 4.694 5.012 5.645

Como un ejemplo de uso de esta Tabla, consideremos el caso de medi-


das de los índices de refracción 1.51557 y 1.51559 en dos fragmentos de
cristal. El rango estandarizado es 0.00002 / σ = 0.00002 / (4 × 10–5) = 0.5, el
cual es menor que el valor crítico al 90% para muestras de tamaño 2, que
es 2.326. Podemos decir, entonces, que los dos fragmentos pertenecen al
mismo grupo. De modo alternativo, consideremos los valores 1.51557 y
1.51914, extraídos de otros dos fragmentos de cristal. El rango estandari-
zado es 0.00357 / σ = 0.00357 / (4 × 10–5) = 89.25, que excede en mucho el
valor crítico al 99% que es 3.643. Decimos ahora que los dos fragmentos
pertenecen a grupos distintos.
La aproximación divisiva descrita por Triggs y otros (1997) se basa en la
de Scott y Knott (1974). Se determina un estadístico λ y se proporcionan
los valores críticos λ(α,n), dependientes de una medida crítica α y del ta-
maño muestral n, en una tabla de consulta (Triggs y otros 1997).
1. Clasificamos x1, …, xn en orden ascendente como antes, y etiqueta-
mos las medidas clasificadas x(1) ,..., x( n ) .
2. Para j = 1, …, n – 1, calculamos:
B = j( x1 j − x ) 2 + (n − j)(x 2 j − x ) 2 , donde x1 j es la media de los frag-
   j
mentos x(1), …,x(j), x 2 j es la media de los fragmentos x(j+1), …,x(n), y x
es la media de todos los fragmentos. Esta es la suma de cuadrados
entre grupos para cada una de las (n – 1) particiones ordenadas de
datos dentro de dos subgrupos. Hallamos el valor máximo de Bj, j =
1, …, n, y lo llamamos B0, y denotamos al correspondiente valor de
j como j0 .
354   Evidencia de transferencia

3. Calculamos el estadístico:

λ = [π / 2(π–2)] (B0 / s2)


   (Scott y Knott, 1974).
4. Según el valor de λ vamos a la tabla de consulta de valores críticos
para elegir el valor de α y el valor apropiado de n. Si λ > λ(α, n), en-
tonces dividimos los correspondientes fragmentos en dos grupos,
x (1) ,..., x ( j0 ) y x ( j0 +1) ,..., x ( n ) .
5. Si hubiera una división en el paso 4, repetimos los pasos 2-5 para
cada nuevo subgrupo hasta que no se puedan hacer más divisiones.
Se proporcionan algunos valores críticos de λ(α, n) en la Tabla 8.5. El
método divisivo proporciona tasas de error más bajas que los otros méto-
dos (Triggs y otros, 1997).

Tabla 8.5 Valores críticos λ(α, n) para muestras de tamaño n para grupos en los
que se ha aplicado el algoritmo divisivo de Triggs y otros (1997).

n Percentiles
90% 95% 99%
λ (0.10,n) λ (0.05,n) λ (0.01,n)
2 3.73 5.33 9.29
5 8.88 10.91 15.21
10 15.18 17.54 23.09
20 26.45 29.20 35.45

8.5 Poblaciones relevantes

Partimos del hecho de encontrar semejanza entre la evidencia de trans-


ferencia (Ec) de un rasgo (por ejemplo, de un perfil de ADN) encontrado
en la escena del crimen y la evidencia del mismo rasgo encontrado en el
sospechoso (Es). El valor de la semejanza entre Ec y Es se valora, en parte,
comparándola con alguna población. La similitud pudiera ser puramente
fortuita. Ahora se proporciona una derivación más general de los resulta-
dos de las Secciones 5.3.1 y 5.3.2.
Consideremos la transferencia del criminal a la escena del crimen. Por
tanto, adoptamos la perspectiva del sospechoso. El valor de la evidencia
viene dado por:
Poblaciones relevantes   355

Pr(E c , E s | H p ) Pr(E c | E s , H p ) Pr(E s | H p )


V= = × .
Pr(E c , E s | H d ) Pr(E c | E s , H d ) Pr(E s | H d )

Cuando hay transferencia desde el criminal a la escena del crimen, la


evidencia encontrada sobre el sospechoso, Es, es independiente de si el sos-
pechoso estuvo en la escena del crimen (Hp) o no (Hd). De este modo:

Pr(Es| Hp) = Pr(Es| Hd)

y
Pr (E c | E s , H p )
V=
Pr (E c | E s , H d )

Si Hd es cierta, Ec es independiente de Es, y así:

Pr(Ec| Es,Hd) = Pr(Ec| Hd)

Asumamos que Pr(Ec | Es, Hp) = 1. Esto es razonable para datos frecuen-
ciales de grupos sanguíneos, por ejemplo. Entonces:
1
V= .
Pr(E c | H d )

Consideremos ahora la transferencia desde la escena del crimen al cri-


minal. Se ha tomado la perspectiva desde la escena del crimen. El valor de
la evidencia vendrá dado por:

Pr(E c , E s | H p ) Pr(E s | E c , H p ) Pr(E c | H p )


V= = ×
Pr(E c , E s | H d ) Pr(E s | E c , H d ) Pr(E c | H d )

La evidencia encontrada en la escena del crimen, Ec, es independiente


de si el sospechoso estuvo en ella (Hp) o no (Hd). De este modo:

Pr(Ec| Hp) = P(Ec| Hd).

y
Pr(E s | E c , H p )
V= .
Pr(E s | E c , H d )
356   Evidencia de transferencia

Si Hd es cierto, Es es independiente de Ec, y:

Pr(Es| Ec,Hd) = Pr(Es| Hd)

Asumamos que Pr(Es| Ec,Hp) = 1. Entonces:

1
V= .
Pr(E s | H d )

Los resultados desde ambas direcciones pueden representarse en un


solo resultado resaltando que en ambos casos la evidencia de interés es la
forma de partícula transferida. De este modo, si Etp representa la forma de
partícula transferida de la evidencia, entonces:

1
V= . (8.12)
Pr(E tp | H d )

¿Con referencia a qué población debemos evaluar Pr(Etp | Hd)? En el caso


de la evidencia de ADN encontrada en el lugar del crimen, la población po-
dría basarse en el grupo étnico del sospechoso, pero esto no es correcto,
como se demostró ya en anteriores apartados (Secciones 8.3.1 y 8.3.3). El
grupo étnico del acusado no es relevante para la probabilidad de obtener la
evidencia bajo la proposición alternativa de que alguien más dejara la tra-
za. La cuestión relevante es: ¿qué clase de alguien más?, y la respuesta de-
pende de lo que se conozca del autor del crimen, no del acusado (Robertson
y Vignaux, 1995b).
El concepto de población relevante fue introducido por Coleman y Walls
(1974), los cuales dijeron:

“La población relevante son aquellas personas que pudieron estar in-
volucradas; algunas veces puede sostenerse que el crimen debió haber
sido cometido por una particular clase de personas sobre la base de
la edad, sexo, profesión, u otro subgrupo cualquiera, y entonces es
cuando no es necesario tener en cuenta al resto, digamos, del Reino
Unido”.

El concepto de población sospechosa, definido como “la población más


pequeña conocida a la que pertenece el culpable” fue una propuesta de
Smith y Charrow (1975). También lo usó Lampert (1991), refiriéndose a
la población de posibles criminales relacionados con el hecho investigado.
Poblaciones relevantes   357

Estas poblaciones no deben confundirse con aquellas otras formadas en


torno, exclusivamente, al sospechoso, a pesar de su nombre. Podría argu-
mentarse que la ‘población sospechosa’ más pequeña posible sería la po-
blación mundial, pero no serviría de nada.
La población total involucrada, como una población ideal adecuada para
el estudio de la evaluación de la significación, fue la propuesta de Kirk y
Kingston (1964). Otra propuesta de Kingston (1965a) fue la de la pobla-
ción apropiada para tomar una muestra y realizar el estudio de significa-
ción, sin que hubiera un ulterior desarrollo del significado de “apropiada”.
Nuevamente Kingston (1965b) propuso estimar el número esperado de
personas en una población que tuvieran determinadas características, con-
cluyendo que la mejor solución sería desarrollar cálculos sobre la máxima
población posible.
No vamos a tratar aquí sobre la evidencia de la huella dactilar. Sin em-
bargo, parte del debate (presentado en la Sección 7.3.3) sobre la definición
de qué población podemos considerar adecuada para evaluar la evidencia
de la huella dactilar nos resulta ahora de interés.
En los trabajos de Balding y Donnelly (1995b), Dawid (1994) y en la
Sección 13.9 se trata sobre este tema en el contexto del problema de la isla
(Sección 3.5.6; Eggleston, 1983; Yellin, 1979; Lindley, 1987), incluyendo el
efecto de procedimientos de búsqueda para estimar la probabilidad de cul-
pabilidad a través de la reducción del tamaño de la población.
Muchos importantes aspectos sobre la evaluación de la evidencia se ilus-
tran con el denominado problema de la isla. Se ha cometido un crimen en
una isla. Hallamos una mancha en la escena del crimen. La isla tiene una
población de N+1 individuos (el tamaño de la población N, más el autor del
crimen). En conexión con este crimen, se ha detenido a un sospechoso gra-
cias a otra evidencia. El genotipo Gs del sospechoso y el genotipo Gc de la
mancha del crimen son iguales. La probabilidad de que una persona de la
isla seleccionada al azar tenga ese genotipo es γ. Las dos proposiciones son:
• Hp, el sospechoso dejó la mancha del crimen;
• Hd, otra persona fue quién dejó la mancha del crimen.
Hay considerable debate sobre cómo calcular la apuesta a priori (con-
sultar la Sección 3.5.6).
Una extensión de este análisis es tener en cuenta la variabilidad de la
probabilidad de coincidencia entre los habitantes de la isla. Sea φ0 la pro-
babilidad a priori de que el sospechoso dejara la mancha y se identifica al
habitante N + 1 como el sospechoso. Los habitantes i = 1,...,N son inocen-
tes. φi representa la probabilidad de que un habitante i dejara la mancha
del crimen (i = 1, …, N), así Σi=1N φi + φ0 = 1. Asumamos, como antes, que
358   Evidencia de transferencia

Pr(Gc | Gs, Hp, I) = 1. Ahora, generalizamos la probabilidad de coincidencia


π para que sea distinta para cada individuo, de forma que Pr(Gc | Gs, Hd, I) =
πi. Se puede demostrar, entonces, que:

Pr(Hp | Gc, Gs, I) = φ0 / (φ0 + Σi=1N φi πi)

Con esta expresión es posible tener en cuenta distintas probabilidades de


coincidencia y probabilidades a priori para distintos individuos. También es
posible escribir la anterior expresión en términos de wi = φi / φ0, donde wi pue-
de considerarse como una función de peso sobre cuánto más o menos pro-
bable es que el sospechoso dejara la mancha en lugar de la persona i-ésima
de la isla, basándonos en otras evidencias incluidas en I (Balding y Nichols,
1995; Evett y Weir, 1998; ver también el Capítulo 13 más adelante):

Pr(Hp | Gc, Gs) = 1 / (1 + Σi=1N wi πi) (8.13)

Nótese que la población no necesita describirse con un límite geográfi-


co. En la Sección 13.9 se dan más detalles.
Se necesita acuñar un nombre adecuado para la población en cuestión.
Un posible nombre, algo largo, es el de población de potenciales criminales.
Cuando existe información sobre la fuente de la evidencia de transferencia,
Pr(Etp | Hd) puede calcularse respecto a la población de potenciales fuentes.
En muchos casos, esas dos poblaciones son aproximadamente la misma.
Sin embargo, Koehler (1993a) cita la novela “Presunta Inocente”, de Scott
Turow, en la que una mujer comete un asesinato e introduce en la víctima se-
men de su marido para incriminarle. La mujer puede ser un miembro de la
población de potenciales criminales, pero no de la población de potenciales
fuentes. Alternativamente, consideremos un caso en el que una mujer es ase-
sinada en su cama una semana después de la muerte de su esposo (Koehler,
1993a). Algunos pelos recogidos en la escena del crimen pudieran pertenecer
al marido fallecido. Esto le situaría en la población de potenciales fuentes,
pero nunca podría serlo de la población de potenciales criminales.
Para casos relacionados con la evidencia de ADN, si consideramos a los fa-
miliares del sospechoso como integrantes de la población de potenciales fuen-
tes, eso conduciría a obtener valores de Pr(Etp | Hd) mayores que los valores
basados en la población general, y, por consiguiente, a valores menores para V
(Lempert, 1991; Robertson y Vignaux, 1993a). Los parientes de un sospecho-
so tienen mayor probabilidad de similitud genética con el sospechoso que las
personas seleccionadas aleatoriamente en una población general. La dificul-
tad de definir una población de potenciales fuentes puede causar problemas al
Poblaciones relevantes   359

evaluar Pr(Etp | Hd). Si en ella se incluyen parientes cercanos, puede producir-


se una alteración muy importante del valor de Pr(Etp | Hd).
En las Secciones 13.6 y 13.7 se trata sobre un caso en el que hay eviden-
cia de un perfil de ADN contra un sospechoso s, con existencia de un her-
mano b y de otros 100 hombres no emparentados con el sospechoso, que
también lo son. La presencia del hermano incrementa la probabilidad de
la proposición de la defensa. Un corolario de esto es que aunque el valor de
la evidencia decrezca si la alternativa es que el agresor es un hermano, así
también ocurre con la lista de posibles sospechosos. De hecho, el que haya
un hermano en la proposición alternativa puede reducir la apuesta a priori
de 1 entre varios millones, a 1 entre 3 ó 4. El efecto combinado de esto y la
evidencia de la sangre puede fortalecer el caso aún más contra el acusado
(Robertson y Vignaux, 1995a).
Un ejemplo práctico de lo anterior sería el siguiente:

“En algunos casos, no será de interés para la defensa sostener determi-


nados argumentos. Si, por ejemplo, el defendido reivindica que es de
la isla Pitcairn y argumenta que es posible que el criminal sea también
de esa isla, quedaría justificado utilizar una base de datos de ese lugar.
Sin embargo, si sólo hubiera 50 habitantes procedentes de esa isla
en el país donde se cometió el crimen, entonces la apuesta a priori se
reduce muy considerablemente y el impacto de la evidencia de ADN
puede crecer aún más (Robertson y Vignaux, 1993b, p.4).”

Como se dijo anteriormente, el concepto de población relevante fue in-


troducido por Coleman y Walls (1974). Más adelante se aporta una defini-
ción en el contexto de un acusado. Sin embargo, en el contexto de una in-
vestigación policial, la población relevante puede ser la que Lempert (1993)
denominó población sospechosa. Se trata del grupo de personas potencial-
mente sospechosas de la comisión del crimen investigado. Este grupo o po-
blación pudiera contener miembros de una etnia particular. A medida que
la proporción de miembros de la población relevante que pertenezca a una
etnia en particular crezca, el peso que debe darse a las frecuencias alélicas
relacionadas con ese grupo ha de ser mayor. Supongamos que la población
relevante estuviera formada por un 50% de caucasianos y otro 50 % por el
resto de grupos étnicos, y que las frecuencias alélicas entre esos dos grupos
fueran significativamente diferentes. La mitad de las muestras utilizadas
para realizar las estimaciones de la probabilidad de que un miembro se-
leccionado aleatoriamente de la población relevante pueda haber dejado
la evidencia de ADN debería ser caucasiano, y la otra mitad del resto de
360   Evidencia de transferencia

grupos étnicos. Esta composición es independiente de si el sospechoso es


caucasiano o de otro grupo étnico.
Este análisis, sin embargo, no significa que el uso de bases de datos de
frecuencias alélicas para una población negra sea el apropiado si la víctima
de una violación cometida en un barrio marginal negro dice que su agre-
sor era de raza blanca. Si la Policía acepta esa información, la población
relevante relacionada con la investigación se centraría en hombres de raza
blanca y que, por otras evidencias, pudieran ser declarados sospechosos. Si
la población relevante sólo debe incluir hombres de raza blanca entonces
debe elegirse la base de datos que refleje ese hecho para estimar la rareza
del perfil de ADN de un sospechoso.
Un grupo étnico particular pudiera constituir una población relevante
cuando, por ejemplo, determinadas formas de vida o alguna otra informa-
ción sobre el criminal limitase los potenciales sospechosos a los miembros
de una etnia concreta. De este modo, las frecuencias alélicas encontra-
das en una muestra de referencia caucásica mixta pudieran sobreestimar
o subestimar la rareza de un ADN de un sospechoso caucásico que fuera
miembro de una comunidad aislada y étnicamente homogénea dentro de
la cual ocurriera una violación. De forma similar, las frecuencias alélicas
encontradas en una muestra de referencia de raza negra en los Estados
Unidos pudieran sobreestimar o subestimar la rareza (dentro de la pobla-
ción relevante) del ADN de un individuo de raza negra de la parte oeste del
país arrestado en un barrio negro marginal, si la descripción de la víctima
sobre el agresor determinara que el acento de los miembros de esa raza
fuera la clave para determinar la población relevante. El hecho de que ocu-
rra o no esa sobreestimación o subestimación, o qué probabilidades tienen
de suceder, son cuestiones de naturaleza empírica (Lempert, 1993).
La situación es diferente, sin embargo, si los que pertenecen a la pobla-
ción relevante tienen configuraciones alélicas en los loci analizados con
una relativamente alta probabilidad de coincidencia con las del sospecho-
so. Con frecuencia, la población relevante incluirá gente de ese tipo; por
ejemplo, parientes próximos al sospechoso. No sólo se trata de personas
que pudieran vivir en las cercanías del sospechoso, sino que podrían com-
partir algunas de las características (por ejemplo, aspecto general, acento,
modos de ser) que llamaron la atención del sospechoso a la Policía. Si un
sospechoso es inocente, puede que al centrarse la investigación sobre él,
la Policía le haya confundido con alguien asociado o emparentado con él
(Nichols y Balding, 1991; Thompson, 1993).
Como previamente se mencionó, aunque la probabilidad de que el ADN de
un miembro seleccionado aleatoriamente de la población relevante coincida
Poblaciones relevantes   361

con el ADN del sospechoso en los loci analizados pueda ser bastante baja, la
probabilidad de que al menos un miembro de la población relevante coincida
en ADN será sustancialmente más alta, porque los alelos de parientes no están
distribuidos de manera aleatoria con respecto a los del sospechoso.
Walsh y Buckleton (1994) hacen una interesante contribución a esta dis-
cusión. Aportan los resultados de un estudio que intenta estimar, en gene-
ral, el lugar de residencia de un criminal, dado que se había cometido un
crimen en Auckland, Nueva Zelanda. Pueden verse en la Tabla 8.6.

Tabla 8.6 Probabilidad de que el criminal viva en un área particular, dado que el


crimen se cometió en Auckland, Nueva Zelanda.

Residencia del Resto de la Resto de Resto del


Auckland
delincuente Isla del Norte Nueva Zelanda mundo
Población
809 000 1 603 000 1 660 000 ≈ 4 × 109
aproximada
Probabilidad 0.92 0.05 0.03 0.00

Las proposiciones de interés son: el sospechoso es el criminal ( H p ) y


alguna otra persona en el mundo es el criminal ( H d ) . En ausencia de cual-
quier información sobre el crimen, incluyendo dónde tuvo lugar, las apues-
tas a priori a favor de un contacto entre el sospechoso y la escena del cri-
men son entonces Pr(H p ) / Pr(H d ) = 1 / N, donde N es la población mundial,
como fue argumentado por Kingston (1964). Consideramos la información
I dada en dos partes:
• I1 , el delito fue cometido en Auckland;
• I 2 , el sospechoso vive en Auckland.
Así I, la otra información, cuya referencia ha sido normalmente supri-
mida, puede escribirse como I = ( I1 , I 2 ) y las apuestas a priori a favor de
H p , dado I, pueden escribirse como:

Pr(H p | I1, I 2 )
.
Pr(H d | I1, I 2 )

Se puede demostrar (Walsh y Buckleton, 1994) que:

Pr(H p | I1 , I 2 ) Pr(I1 , I 2 ) Pr(I1 , I 2 , H p ) Pr(I1 , I 2 | H p ) Pr(H p )


× = = × =
Pr(H d | I1 , I 2 ) Pr(I1 , I 2 ) Pr(I1 , I 2 , H d ) Pr(I1 , I 2 | H d ) Pr(H d )
Pr(I 2 | I1 , H p ) Pr(I1 | H p ) Pr(H p )
= × .
Pr(I1 | I 2 , H d ) Pr(I 2 | H d ) Pr(H d )
362   Evidencia de transferencia

Asumamos que Pr(I1 | H p ) = Pr(I1 | I 2 , H d ) = Pr(I1 ). En otras palabras, se


asume, primeramente, que la probabilidad de que el crimen fuera come-
tido en Auckland es independiente de si el sospechoso lo cometió o no
(puesto que no se asume nada más sobre el sospechoso —en particular, no
se asume que el sospechoso viva en Auckland). Análogamente, se asume
que la probabilidad de que el crimen fuera cometido en Auckland es in-
dependiente de la información de que el sospechoso viviese en Auckland
dado que el sospechoso no tuvo contacto con la escena del crimen (pro-
posición Hd ).
También asumimos que Pr(I 2 | H d ) = Pr(I 2 ) , esto es, la probabilidad de
que el sospechoso viva en Auckland dado que él no tuvo contacto con el
escenario del crimen es igual a la probabilidad de que él viva en Auckland.
De este modo:

Pr(H p | I1, I 2 ) Pr(I 2 | I1, H p ) Pr(H p )


= × .
Pr(H d | I1, I 2 ) Pr(I 2 ) Pr(H d )

Con los resultados de la tabla anterior, Pr(I 2 | I1 , H d ) = 0.92 y Pr( I2 ) ≈


809 000 / 4 000 000 000. También Pr(Hp) / Pr(Hd) = 1 / 4 000 000 000. Así :

Pr(H p | I1 , I 2 ) 0.92
= = 1.14 × 10− 6 .
Pr(H d | I1 , I 2 ) 809000

Se ha reducido considerablemente la apuesta a priori de 1/(población


mundial). Sin embargo, la apuesta de 1/(población de Auckland) ha sido
también alterada por un factor de 0.92 debido a la información de que el
sospechoso vivía en Auckland. Esto parece intuitivamente razonable.
Esta discusión ilustra los considerables problemas que rodean las de-
finiciones de poblaciones y la elección de nombres adecuados. Por ejem-
plo, la distinción entre población de potenciales criminales y población de
fuentes potenciales hay que considerarla cuidadosamente.
En general, se usará el término ‘población relevante’ siguiendo algunas
definiciones técnicas.
Definición: La población relevante es la población que viene definida por
la combinación de la proposición Hd propuesta por la defensa y la informa-
ción del caso I.
Sin embargo, habrá ocasiones durante la investigación policial en las
que no haya un acusado pero sí un sospechoso. El término ‘población rele-
vante’ se usará aún entonces. De hecho, ya se usó cuando se trató de grupos
Poblaciones relevantes   363

étnicos y frecuencias alélicas, donde otros (por ejemplo, Lempert, 1993)


han usado el término ‘población sospechosa’.
Para transferencias de la escena al criminal, I puede incluir información
sobre el sospechoso. Por ejemplo, con la evidencia de manchas de sangre
encontradas en la ropa del sospechoso, el estilo de vida del sospechoso es
relevante, así como su grupo étnico (Gettinby, 1984; ver también la Sección
8.3.2). Para la transferencia del criminal a la escena, Hd disocia al sospe-
choso de la escena. La población de la cual ha podido provenir la evidencia
y que podría usarse para la determinación de V se especifica con la ayuda
de I.
Capítulo 9
Datos discretos Datos discretos

9.1 Notación

Como hasta ahora, sea E la evidencia, cuyo valor deseamos estimar. Las
dos proposiciones que queremos comparar se representan mediante Hd y
Hp. La razón de verosimilitud, V, es entonces:

V = Pr(E| Hp) / Pr(E| Hd)

Las proposiciones pueden adaptarse explícitamente a cualquier contex-


to particular. En los ejemplos sobre perfiles de ADN y la proposición de que
la mancha no provino del sospechoso, se sobreentendió que el origen de la
mancha vino de alguna persona no emparentada con él y no compartiendo
la misma subpoblación que el sospechoso. Para evaluaciones en estos con-
textos véanse las Secciones 13.5 y 13.6.
La información de contexto sobre el caso, I, tiene también que valorar-
se. El LR es entonces:

V = Pr(E | Hp, I) / Pr(E | Hd, I). (9.1)

(ver (3.12)).
En la Sección 8.3.1 se proporciona una discusión sobre la interpreta-
ción de la evidencia de transferencia de una única mancha de sangre desde
el criminal a la escena del crimen. Esto se extiende luego a casos en los que
hay varias manchas de sangre y varios imputados.

9.2 Una sola muestra

9.2.1 Introducción

Ya sabemos, por la Sección 3.5.1, que:


366   Datos discretos

Pr(H p | E, I) Pr(E | H p , I) Pr(H p | I)


= × .
Pr(H d | E, I) Pr(E | H d , I) Pr(H d | I)

Tengamos en cuenta el Ejemplo 1.1 en el que una mancha de sangre


ha sido dejada en la escena del crimen por la persona que lo cometió. Se
identifica a un sospechoso y se desea establecer la fuerza del enlace entre el
sospechoso y el crimen. Un experto forense realiza un cotejo entre el perfil
de ADN obtenido de la mancha y el de una muestra indubitada del sospe-
choso. Se comparan las siguientes proposiciones:
• Hp, la mancha del lugar del crimen viene del sospechoso;
• Hd, la mancha del lugar del crimen viene de otra persona distinta al
sospechoso.
Los resultados del experto, representados por E, pueden dividirse en dos
partes (Ec, Es ) como sigue:
• Es, el perfil de ADN, Γ, del sospechoso;
• Ec, el perfil de ADN, Γ, de la mancha del crimen.
En la Sección 8.3.1 ya se vio un ejemplo de todo esto. Aquí vamos a estu-
diar una formulación general del problema. Los expertos saben, además, a
partir de bases de datos previamente elaboradas, que el perfil Γ se presenta
en un 100γ % de alguna población, que denominamos ψ.
El valor asociado a E viene dado por:

Pr(E | H p , I) Pr(E c , E s | H p , I) Pr(E c | E s , H p , I) Pr(E s | H p , I)


V= = = ×
Pr(E | H d , I) Pr(E c , E s | H d , I) Pr(E c | E s , H d , I) Pr(E s | H d , I)

Ahora, E s es la evidencia de que el perfil del sospechoso es Γ. Como


vimos en la Sección 8.3.1 se asume que el perfil de una persona es indepen-
diente de si estaba en la escena del crimen (Hp) o no lo estaba (Hd). De este
modo:

Pr(Es | Hp, I) = Pr(Es | Hd, I)

y
Pr(E c | E s , H p , I)
V=
Pr(E c | E s , H d , I)
Si el sospechoso no estuvo en la escena del crimen (Hd es cierta), enton-
ces la evidencia (Ec) sobre el perfil de la mancha del crimen es indepen-
diente de la evidencia (Es) del perfil del sospechoso. De este modo:
Una sola muestra   367

Pr(Ec | Es, Hd, I) = Pr(Ec | Hd, I)

y
Pr(E c | E s , H p , I)
V= (9.2)
Pr(E c | H d , I)

Obsérvese que el argumento anterior se ha expuesto desde la perspec-


tiva del sospechoso. Si se expone desde la perspectiva de la escena del cri-
men, se llegaría de similar modo a la siguiente expresión:

Pr(E s | E c , H p , I)
V=
Pr(E s | H d , I)

Este resultado asume que Pr(Ec | Hp, I) = Pr(Ec | Hd, I), es decir, el perfil
de la mancha del crimen es independiente de si el sospechoso estuvo pre-
sente en la escena del crimen o no (recuérdese que no se conoce nada más
del sospechoso que su perfil). Esta asunción se discute posteriormente en
el Capítulo 13. La asunción de que las características del sospechoso sean
independientes de que cometiera el crimen o no, no debiera realizarse a la
ligera. Es correcta respecto al perfil de ADN del sospechoso. Sin embargo,
algunas escenas del crimen pueden ser más aptas para dar lugar a una
transferencia de material a la ropa del sospechoso que otras. Si las carac-
terísticas de interés se relacionan con esos materiales y el que perpetró el
crimen es más tarde identificado como sospechoso, la presencia de tales
materiales no son independientes de la presencia del sospechoso en el lu-
gar del crimen. Si se cuestiona la legitimidad de las simplificaciones, debe
usarse la expresión original (9.1).
La información de contexto del caso, I, se debe emplear para ayudar a
determinar la población relevante de la que se supone que proviene el au-
tor del crimen. Por ejemplo, consideremos un ejemplo centrado en Nueva
Zelanda, donde I fuera la descripción de un testigo ocular sobre el criminal
como de origen chino. Esto puede valorarse, puesto que las frecuencias de
perfiles de ADN pueden variar entre grupos étnicos y eso afectaría al valor
de la evidencia; consúltese la Sección 8.3.1.
Primeramente, consideremos el numerador Pr(Ec | Es, Hp, I) del LR des-
de la perspectiva del sospechoso. Se trata de la probabilidad de que la man-
cha del crimen sea de perfil Γ dado que el sospechoso estuvo presente en la
escena del crimen y tiene el mismo perfil de ADN Γ y el resto de informa-
ción, incluyendo, por ejemplo, el testimonio de un testigo ocular referente
368   Datos discretos

a que el criminal era de raza china. Esta probabilidad será 1 puesto que
si el sospechoso estuvo en el lugar del crimen y tiene perfil Γ, entonces la
mancha del crimen tendrá también perfil Γ, asumiendo como antes que
todas las procedencias inocentes de la mancha del crimen han sido elimi-
nadas. Así pues:

Pr(Ec| Es,Hp,I) = 1

Ahora, consideramos el denominador: Pr(Ec | Hd, I). Aquí se asume Hd


como cierta; es decir, el sospechoso no estuvo presente en el lugar del cri-
men. I también se asume como conocida. Por tanto, I y Hd definen la po-
blación relevante (ver la Sección 8.5).

9.2.2. Población general

Supongamos, inicialmente, que I no proporciona información sobre el


criminal que afecte a la probabilidad de que su grupo sanguíneo sea de un
determinado tipo. Por ejemplo, I pudiera consistir en la manifestación de
un testigo ocular que dijera que el criminal era alto, joven y varón. Sin em-
bargo, un perfil de ADN es independiente de esas tres características, por
tanto, I no incluye información que afecte a la probabilidad de que el perfil
de ADN sea de un tipo particular.
Se asume que el sospechoso no estuvo en la escena del crimen. De este
modo, el sospechoso no es el criminal. La población relevante (Sección
8.5) se representa por ψ. El criminal es un miembro desconocido de ψ. La
evidencia Ec representa que la mancha del crimen es de perfil Γ. Esto es
lo mismo que decir que un miembro desconocido de Ψ tiene perfil Γ. Nos
hallamos, pues, ante la probabilidad de que una persona elegida aleatoria-
mente de ψ tenga perfil Γ, lo cual se representa por γ. Así:

Pr(Ec | Hd, I) = γ

El LR, V, es entonces:

Pr(E c | E s , H p , I) 1
V= = (9.3)
Pr(E c | H d , I) γ

El valor 1/γ es el valor de la evidencia del perfil de la mancha de sangre


cuando el criminal sea un miembro de ψ.
Una sola muestra   369

9.2.3 Población particular

Supongamos que I proporciona información sobre el criminal relevante


para las frecuencias alélicas y que la población relevante es ahora ψ0, un
subconjunto de ψ. Por ejemplo, como ya se mencionó, I pudiera incluir la
manifestación de un testigo ocular que dijera que el criminal era de raza
china. Supongamos que la frecuencia alélica de Γ entre los chinos fuera
100β%. Entonces: Pr(Ec | Hd, I) = β, y

V=1/β

9.2.4 Ejemplo

Para que sirva de ilustración, se expone un ejemplo con marcadores ge-


néticos clásicos (sistema ABO). Buckleton y otros (1987) proporcionan da-
tos sobre frecuencias genéticas de grupos sanguíneos por razas en Nueva
Zelanda que nos servirán para ejemplificar lo tratado en las Secciones
9.2.2 y 9.2.3. Consideremos, pues, el sistema de grupos sanguíneos ABO y
que tanto la fuente (sospechoso) como el receptor (mancha en el lugar del
crimen) son del grupo B.

Población general

La Tabla 9.1 contiene los datos de frecuencias genéticas para el sistema


ABO en Nueva Zelanda, los cuales han sido proporcionados por Buckleton
y otros (1987).

Tabla 9.1 Frecuencias genéticas para el sistema ABO en Nueva Zelanda.

Grupo sanguíneo A B O
Frecuencia relativa 0.254 0.063 0.683

Así, para un crimen en el que la población relevante fue ψ, la población


general de Nueva Zelanda,

V = 1 / 0.063 = 15.87 ≅ 16

La evidencia es 16 veces más probable si el sospechoso estuvo presente


en la escena del crimen que si no lo estuvo.
370   Datos discretos

Población particular

La información de contexto del caso I incluye la manifestación de un


testigo ocular que describe al criminal como de raza china. Buckleton y
otros (1987) aportan las frecuencias genéticas de los habitantes de raza
china en el sistema ABO, las cuales se presentan en la Tabla 9.2:

Tabla 9.2 Frecuencias genéticas para la población china en Nueva


Zelanda en el sistema ABO.

Grupo sanguíneo A B O
Frecuencia relativa 0.168 0.165 0.667

Así, para un crimen en el que la población china ψ0, un subconjunto de ψ,


fue la población relevante:

V = 1 / 0.165 = 6.06 ≅ 6

La evidencia es 6 veces más probable si el sospechoso estuvo en la esce-


na del crimen que si no lo estuvo. De esta forma, el valor de la evidencia ha
sido reducido por un factor de 15.87/6.06 = 2.62 si existe evidencia externa
de que el criminal era de raza china.
Observe, sin embargo, como ya se discutió en la Sección 2.1, que en los
casos en los que existe transferencia del criminal a la escena del crimen,
la evidencia respecto a las frecuencias de grupos sanguíneos tiene que re-
lacionarse con la población de la que provenga el criminal, no así con la
población de la que provenga el sospechoso (aunque pudieran coincidir).
No es relevante para la investigación saber si se ha detenido al sospechoso,
sino que se aprecie que es de raza china y esto justifica que de forma ex-
clusiva se utilicen las frecuencias de los grupos sanguíneos en la población
china. Para usar las frecuencias de grupos sanguíneos en la población chi-
na, I tiene que contener información sobre el criminal como podría ser la
evidencia de un testigo ocular.
Sin embargo, si considerásemos la evidencia de transferencia de la es-
cena del crimen al criminal, el estilo de vida del sospechoso pudiera ser
relevante.
Observe también, como se señaló Buckleton y otros (1987), que las fre-
cuencias de grupos sanguíneos en la población general se derivan de una
media ponderada de las frecuencias de grupos sanguíneos de cada una de
Dos muestras   371

las razas o subpoblaciones que configuren la población de la que pudiera


provenir un criminal. Las ponderaciones se toman como la proporción de
cada raza en la población general.

9.3 Dos muestras

9.3.1 Dos manchas, dos criminales

El caso de una única muestra descrito en la Sección 9.2 se puede ampliar


a un caso en el que se hayan dejado dos manchas de sangre en la escena del
crimen (Evett, 1987b). Dos hombres han cometido un crimen, cada uno de
los cuales dejaron sendas manchas de sangre en la escena del crimen. Las
manchas se agrupan; una pertenece al grupo Γ1 y la otra al grupo Γ2. Más
tarde, como consecuencia de información completamente independiente a
la evidencia de sangre, se identifica a un sospechoso. Su sangre resulta ser
del grupo Γ1. Se asume que no existen evidencias relacionadas con heridas
casuales. La evidencia científica está circunscrita, exclusivamente, a los re-
sultados de los perfiles sanguíneos. Las dos proposiciones que considera-
mos son las siguientes:
• Hp, las manchas del crimen vienen del sospechoso y de otro hom-
bre;
• Hd, las manchas del crimen vienen de otros dos hombres.
La evidencia científica E consta de:
• Ec, las dos manchas del crimen de perfiles Γ1 y Γ2;
• Es, la sangre del sospechoso es de perfil Γ1 (sin pérdida de genera-
lidad puesto que se consigue idéntico resultado si se supone que el
sospechoso tiene perfil Γ2).
El valor, V, de la evidencia es:

Pr(Ec | Es, Hp, I) / Pr(Ec | Hd, I) (9.4)

Nótese que si la mancha de sangre no viniera del sospechoso, su perfil


sería irrelevante.
El experto sabe que los perfiles Γ1 y Γ2 ocurren con probabilidades γ1 y γ2,
respectivamente, en alguna población relevante.
Asumimos que I no contiene información que restrinja la definición de
población relevante a un subconjunto de la población general.
Primero consideramos el numerador de (9.4). Esta es la probabilidad de
que las dos manchas sean de los perfiles Γ1 y Γ2, dado que:
372   Datos discretos

• el sospechoso es la fuente de una de las dos manchas del crimen,


• el sospechoso tiene perfil Γ1;
• exista cualquier otra información, I (de la asunción realizada an-
teriormente, I implica que las frecuencias de los perfiles relevantes
son las de la población general).
Asumimos que las dos manchas del crimen son evidencias independien-
tes en el sentido de que el conocimiento del perfil de una de ellas no influye
en la probabilidad de que la otra tenga un perfil particular. A los criminales
los llamamos A y B.
Ec puede descomponerse en dos particiones mutuamente excluyentes:
• Ec1: A es del perfil Γ1, B del perfil Γ2;
• Ec2: A es del perfil Γ2, B del perfil Γ1.
A su vez, las particiones Ec1 y Ec2 pueden subdividirse asumiendo inde-
pendencia. De este modo Ec1 = (Ec11, Ec12), donde
• Ec11: A es del perfil Γ1;
• Ec12: B es del perfil Γ2.
De modo similar, Ec2 = (Ec21, Ec22), donde
• Ec21: A es del perfil Γ2;
• Ec22: B es del perfil Γ1.
Así, como Ec1 y Ec2 son mutuamente excluyentes:

Pr(Ec| Es,Hp,I) = Pr(Ec1 ∪ Ec2| Es,Hp,I) = Pr(Ec1| Es,Hp,I) + Pr(Ec2| Es,Hp,I)

de (1.2), la segunda ley de la probabilidad para sucesos mutuamente excluyen-


tes. Sin embargo, sólo una de esas dos probabilidades es distinta de cero. Si el
sospechoso es A, entonces la última de ellas es cero; si es B, la primera es cero.
Asumamos, sin pérdida de generalidad, que el sospechoso es A. Entonces:

Pr(Ec| Es,Hp,I) = Pr(Ec1| Es,Hp,I) = Pr(Ec11| Es,Hp,I) x Pr(Ec12| Es,Hp,I), debido a

la independencia (1.6).
Ahora bien, Pr(Ec11 | Es, Hp, I) = 1 puesto que si el sospechoso fue la fuen-
te de una de las manchas del crimen y su perfil es Γ1, entonces es cierto que
uno de los perfiles de las manchas es Γ1.
Por otra parte, Pr(Ec12 | Es, Hp, I) = γ2, puesto que la segunda mancha de
sangre fue dejada por el otro criminal. Hasta ahora, en ausencia de infor-
mación de contexto del caso I, B se considera miembro de la población
relevante. La probabilidad es, de este modo, la frecuencia relativa del perfil
Γ2 en la población de referencia, que es γ2. Entonces el numerador (de V)
toma el valor γ2.
Dos muestras   373

Este resultado debe compararse con el caso en el que tenemos una úni-
ca muestra, donde V = 1 / γ. El LR en el caso de dos muestras es la mitad del
LR para el caso de una única muestra. Esto es intuitivamente razonable.
Si hay dos criminales y un sospechoso, uno no esperaría que la evidencia
de una coincidencia con la mancha de sangre tuviera tanto valor como en
el caso en el que hubiera un criminal y un sospechoso. Observe que si γ1 es
mayor de 0.5, entonces V es menor que 1. La evidencia soporta la proposi-
ción de que la mancha del crimen vino de dos hombres, no siendo ningu-
no de ellos el sospechoso. Como ha sido anteriormente comentado, “esto
contradice la intuición a primera vista, demostrándose así que la intuición
puede a veces no ser fiable” (Evett, 1990). Evett y Weir (1998) aportan un
ilustrativo ejemplo usando la idea de la tirada de dos monedas.
En otras situaciones pueden parecer más apropiadas otros pares de pro-
posiciones. Por ejemplo, supongamos que las manchas están individual-
mente identificadas. Podríamos considerar que una estuviera sobre la al-
fombra y la otra sobre una funda de almohada. Las proposiciones podrían
ser entonces:
• Hp, el sospechoso dejó la mancha sobre la alfombra;
• Hd, dos personas desconocidas dejaron las dos manchas;
o bien,
• Hp, el sospechoso dejó la mancha sobre la alfombra;
• Hd, una persona desconocida dejó la mancha;
El contexto del caso o las estrategias del Fiscal y la defensa pueden in-
fluir en la elección de las proposiciones. Diferentes proposiciones lleva-
rían consigo valoraciones diferentes de la evidencia. Se necesita entonces
considerar el Teorema de Bayes (3.9) en toda su extensión. Proposiciones
distintas pueden conducir a apuestas a priori diferentes
Pr(Hp | I) / Pr(Hd | I) así como a distintos valores de la evidencia. Por
tanto, las apuestas a posteriori Pr(Hp | E, I) / Pr(Hd | E, I) también pueden
ser diferentes para distintas proposiciones. En Meester y Sjerps (2003)
pueden encontrarse más comentarios sobre estas ideas. Pueden también
hallarse más comentarios sobre el problema de dos trazas en el nivel de
actividad en Triggs y Buckleton (2003), los cuales subrayan varios facto-
res a tener en cuenta: el número de criminales que se dice que hubo, la
relevancia de cada mancha y la especificación de las probabilidades de
transferencia. En la Sección 9.4 puede encontrarse una generalización
para los casos con n manchas, k grupos de manchas, y m criminales, si
bien no se ha tenido en cuenta la relevancia de las manchas ni las proba-
bilidades de transferencia.
374   Datos discretos

9.3.2 Perfiles de ADN

La evidencia de un perfil de ADN puede interpretarse de forma simplis-


ta como datos discretos. En Evett y otros (1991) puede hallarse una aplica-
ción de esta interpretación de los perfiles de ADN para pruebas de un solo
locus de más de una persona.
Se afirma que una mujer ha sido violada por dos hombres. Un sospecho-
so, al que llamamos A, ha sido arrestado. De una muestra de lavado vagi-
nal, usando un test de un solo locus, se obtuvo la evidencia E de cuatro ale-
los: a1, a2, a3 y a4. La muestra del sospechoso proporcionó dos alelos: a1 y a2,
coincidiendo con dos de las bandas en la muestra del crimen. Asumamos
que las frecuencias relativas de los alelos a1, a2, a3 y a4 en la población ge-
neral son: p1, p2, p3 y p4, respectivamente. (La notación persigue distinguir
las frecuencias alélicas, representadas por p, de las frecuencias de perfil,
representadas por γ). Se asume que ninguno de los alelos de la muestra del
crimen se atribuye a la víctima.
Las dos proposiciones consideradas en la evaluación del LR son:
• Hp, la muestra del crimen vino del sospechoso A y de otro hombre;
• Hd, la muestra del crimen vino de dos hombres distintos al sospe-
choso.
Si Hp es cierta, el sospechoso ha contribuido a las bandas a1 y a2 con pro-
babilidad 1. La probabilidad de que otro hombre contribuyera a las bandas
a3 y a4 sería 2p3p4 (recordemos que Pr(Ec | Hd, I) = 2γ1 γ2). Así,

Pr(E | Hp) = 2p3p4

 4
Si Hd fuera verdad, hay   = 6 modos (i.e, combinaciones de 4 elemen-
2
 
tos tomados de 2 en 2) de que dos hombres pudieran contribuir a formar el
perfil observado. Cada modo tiene probabilidad 4p1p2p3p4. Por ejemplo, si
un hombre es a1a2, con probabilidad 2p1p2, y otro es a3 a4, con probabilidad
2p3p4, la probabilidad conjunta es 4p1p2p3p4. Así pues,

Pr(E | Hd) = 24p1p2p3p4

El valor de la evidencia es entonces:

V = Pr(E | Hp) / Pr(E | Hd) = 2p3p4 / 24p1p2p3p4 = 1 / 12p1p2

Si sólo hubiera habido un asaltante y sólo tuviéramos alelos en las po-


siciones 1 y 2 para ese locus, el LR asociado sería 1 / (2p1p2). La existencia
Muchas muestras   375

de otros dos alelos y la implicación de otro asaltante, ha reducido 6 veces el


valor de la evidencia.
Evett y otros (1991) aportan otros ejemplos. Supongamos otro sospe-
choso, B, que proporciona una muestra que da un perfil con alelos en las
posiciones 3 y 4. Si las dos proposiciones son ahora:
• Hp, la muestra del crimen vino de los sospechosos A y B;
• Hd, la muestra del crimen vino de dos hombres desconocidos,
entonces

V = 1 / 24p1p2p3p4

ya que el numerador tiene el valor 1.


Otros ejemplos incluyen la situación en la que el análisis revela sólo tres
bandas, en las posiciones 1, 2 y 3, pero no en la 4. Las dos proposiciones
serían, en este caso:
• Hp, la muestra del crimen vino del sospechoso A y de otro hombre,
• Hd, la muestra del crimen vino de otros dos hombres.
Asumimos que la banda en la posición 3 es una banda simple y que uti-
lizamos el estimador conservador 2p3 (Weir y otros, 1997) para su frecuen-
cia. Entonces:

V = 1 + p1 + p2 / 4 p1 p2 (3 + p1 + p2 + p3)

Si se utiliza el estimador p32 para su frecuencia. Entonces:

V = p3 + 2p1 + 2p2 / 12 p1 p2 (p1 + p2 + p3)

En la Sección 13.10 se presentan más detalles sobre mezclas de ADN en


muestras.

9.4 Muchas muestras

9.4.1 Muchos perfiles distintos

Consideremos el caso de un crimen en el que se encuentren n manchas


de sangre en el lugar de su comisión, una por cada uno de los n criminales
actuantes. Se identifica a un único sospechoso cuyo perfil de ADN coincide
con el de una de las manchas de sangre de la escena del crimen. Asumimos
siempre que I no contiene información relevante. Aunque se trata de un
ejemplo hipotético, ilustra sobre puntos que han de tenerse en cuenta en la
evaluación de la evidencia. Argumentos análogos pueden aplicarse a un es-
376   Datos discretos

cenario en el que encontremos n grupos de fibras procedentes de n fuentes


distintas, habiéndose identificado a un sospechoso que viste una prenda
con fibras coincidentes a uno de los grupos. Asumamos que las n manchas
de sangre, cada una de criminales diferentes, tienen distintos perfiles entre
sí. Las dos proposiciones que consideramos son:
• Hp, la muestra del crimen vino del sospechoso y de n – 1 hombres más;
• Hd, la muestra del crimen vino de n hombres desconocidos.
La evidencia científica E consiste en:
• Ec, las manchas del crimen tienen los perfiles Γ1, Γ2, ..., Γn,
• Es, el perfil del sospechoso es Γ1 (sin pérdida de generalidad).
Las frecuencias de Γ1, Γ2, ..., Γn son, respectivamente, γ1, γ2, ..., γn.
Consideremos el numerador Pr(Ec | Es, Hp, I). El perfil del sospechoso
es coincidente con la mancha de perfil Γ1. Hay otros n – 1 criminales que
pueden estar relacionados con las otras n – 1 manchas de (n – 1)! formas
distintas (variaciones sin repetición de n – 1 elementos tomados de n – 1 en
n – 1). De este modo:

Pr(Ec | Es, Hp, I) = (n – 1)! ∏i=2n γi = (n – 1)! (γ2 ... γn)

Ahora, considerando el denominador, encontramos n! formas en que n


criminales, entre los que no está el sospechoso, pueden asignarse a las n
manchas. De este modo:

Pr(Ec| Hd,I) = n! ∏i=1n γi = n! (γ1 ... γn)

Por tanto,

n
(n − 1)! ∏i = 2 γ i 1
V= n
= (9.6)
n!∏i =1 γ i nγ1

9.4.2 Casos generales

n manchas, k grupos, k criminales

Supongamos ahora que hay k perfiles distintos Γ1, Γ2, ..., Γk con frecuen-
cias γ1, γ2, ..., γk, correspondiéndose con k personas distintas entre sí en n
manchas (k<n) formando la muestra del crimen, y que el sospechoso tiene
uno de esos perfiles. Las dos proposiciones que consideramos son:
• Hp, la muestra del crimen vino del sospechoso y de k – 1 hombres
distintos más;
Muchas muestras   377

• Hd, la muestra del crimen vino de k hombres desconocidos.


La evidencia científica consiste en:
• Ec, las manchas del crimen tienen los perfiles Γ1, Γ2, ..., Γk, y hay s1,
s2, ..., sk (∑i=1k si = n) de cada uno de ellos;
• Es, el perfil del sospechoso es Γ1 (sin pérdida de generalidad).
Las probabilidades que se muestran a continuación están en la forma de
distribución multinomial (Sección 2.3.4).
Consideramos el numerador Pr(Ec | Es, Hp, I). El perfil del sospechoso
coincide con las manchas de perfil Γ1. Hay otras n – s1 manchas de sangre
que pueden repartirse en (n – s1)! / (s1! s2! ... sk!) formas distintas, donde
∑i=2k si = n – s1, para dar:
s2 sk
Pr(Ec| Es,Hp,I) = [(n – s1)! / (s1! s2! ... sk!)] 2 ... k

Ahora, consideramos el denominador. Hay n! / (s1! s2! ... sk!) formas en


que n manchas, ninguna de ellas asociada con el sospechoso, pueden asig-
narse a los perfiles. Así:
s1 sk
Pr(Ec| Hd,I) = [n! / (s1! s2! ... sk!)] 1 ... k

Por tanto,
n s1
V = (n – s1)! s1! / n! γ1s1 = 1 /   γ1 (9.7)
s1  
Observe que V es independiente de k, el número de criminales, y que si
s1 = 1, el resultado se reduce al resultado (9.6).

n manchas, k grupos, m criminales

Un resultado similar se puede obtener en la siguiente situación. Hay n


manchas de sangre con k perfiles distintos, con si en el grupo i-ésimo (∑i=1k
si = n). Hay m criminales, con mi en cada perfil (∑i=1k mi = m), de forma que
sij (j = 1, ..., mi) representa el número de manchas pertenecientes al crimi-
nal j-ésimo en el grupo i-ésimo y ∑j=1mi sij = si cuando se asume, sin pérdida
de generalidad, que el primer conjunto de manchas del primer grupo vie-
nen del sospechoso. El denominador es igual a:

[n! / (s11! ... skmk!)] γ1s1 ... γksk

El numerador es igual a:
[(n – s11)! / (s12! ... skmk!)] γ2s1–s11 γ2sk... γksk
378   Datos discretos

Entonces:
 n  s11
V = [(n – s11)! s11! / n!](1/ γ1s11 )= 1 /   γ 1
 s11 
un resultado similar a (9.7).

9.5 Relevancia de la evidencia y material relevante

9.5.1 Introducción

Evett (1993a) considera una extensión de los resultados de la sección an-


terior ocupándose de dos cuestiones más. La primera cuestión concierne al
material que puede ser calificado como no relevante (Stoney, 1991a, 1994). Se
dice que el material del crimen procedente del criminal es relevante en la me-
dida en que a un sospechoso le convierta en un posible criminal. El material
relevante debe distinguirse de las poblaciones relevantes de la Sección 8.3.1.
La segunda cuestión concierne al reconocimiento de que si el material del cri-
men no es relevante para la resolución del caso, entonces ha llegado a la esce-
na del crimen a través del sospechoso por razones inocentes. En esta sección
la referencia a I, en general, ha sido omitida para una mayor claridad.
Se comete un crimen por k criminales. Se encuentra una mancha de
sangre en la escena del crimen en una posición donde pudiera haber sido
dejada por alguno de los criminales. Se detiene a un sospechoso y pro-
porciona una muestra de sangre. La muestra recogida del sospechoso y la
mancha del crimen (las muestras indubitada y dubitada) tienen el mismo
perfil Γ, con frecuencia relativa γ en la población relevante de donde proce-
den los criminales. Como antes, consideramos dos proposiciones:
• Hp, el sospechoso es uno de los k criminales;
• Hd, el sospechoso no es uno de ellos.
Nótese la diferencia entre estas proposiciones y las de la Sección 9.4.
Allí, las proposiciones se refieren al sospechoso como donante o no de las
manchas de sangre encontradas en la escena del crimen. Ahora, las propo-
siciones son más fuertes, concretamente que el sospechoso sea o no uno de
los criminales. El valor V de la evidencia es:

Pr(E c | H p , E s )
V= (9.8)
Pr(E c | H d )
donde Ec es el perfil Γ de la escena de la mancha del crimen y Es es el perfil
Γ del sospechoso.
Relevancia de la evidencia y material relevante   379

9.5.2 Probabilidades subjetivas

Se necesita un enlace entre lo que es observado, la mancha en la escena


del crimen, y las proposiciones, es decir, que el sospechoso sea o no sea
uno de los criminales. El enlace se realiza en dos pasos.
El primer paso es la consideración de una proposición consistente en que
la mancha de la escena del crimen hubiera venido de uno de los k criminales,
y la proposición alternativa, que no hubiera venido de ninguno de ellos. Estas
proposiciones se conocen como proposiciones de asociación (o hipótesis de aso-
ciación según Buckleton, comunicación personal, citada por Evett, 1993a).
Asumamos que la mancha del crimen viniera de uno de los k criminales.
El segundo paso consiste en considerar la proposición de que la mancha
del crimen viniera del sospechoso, y la proposición alternativa de que no
procediera de él. Estas proposiciones se conocen como proposiciones de
asociación intermedia.
El desarrollo de estas proposiciones entraña tener en cuenta otros factores.
Se trata de la adquisición inocente y la relevancia. La evaluación de estos fac-
tores puede hacerse descomponiendo las expresiones en el numerador y deno-
minador de (9.8). Existen dos tipos de probabilidades subjetivas de interés:
La adquisición inocente, normalmente expresada mediante p, es una
medida de creencia de que la evidencia ha sido adquirida de forma no rela-
cionada con la comisión del crimen (Evett, 1993a).
La probabilidad de relevancia, normalmente expresada por r (Stoney,
1991a, 1994; Evett y otros, 1998a). En el presente contexto, se trata de la pro-
babilidad de que la mancha recuperada de la escena del crimen esté conectada
con la comisión del crimen; que haya sido dejada por uno de los criminales.

9.5.3 Proposiciones de asociación

Consideremos lo siguiente:
• B, la mancha del crimen proviene de uno de los k criminales;
• B , la mancha del crimen no proviene de ninguno de los k criminales.
El valor, V, de la evidencia puede escribirse, utilizando la ley de probabi-
lidad total (Sección 1.6.7) como:

Pr(E c | H p , B, E s ) Pr(B | H p , E s ) + Pr(E c | H p , B, E s ) Pr(B | H p , E s )


V=
Pr(E c | H d , B) Pr(B | H d ) + Pr(E c | H d , B) Pr(B | H d )

En ausencia de Ec, la evidencia del perfil de la mancha del crimen, el co-


nocimiento de Hp y de Es no afecta a nuestra creencia acerca de la verdad o
380   Datos discretos

no de B. Esto es lo que quiere decir relevancia en el presente contexto. Así


pues,

Pr(B|Hp,Es) = Pr(B|Hp) = Pr(B)

Pr(B | H p , E s ) = Pr(B | H p ) = Pr(B).

Sea Pr(B) = r, Pr(B) = 1 – r y llamamos a r término de relevancia; es decir,


la relevancia se identifica con la probabilidad de que la mancha hubiera
sido dejada por uno de los criminales. A medida que r crece, la mancha es
más relevante. De este modo:

Pr(E c | H p , B, E s )r + Pr(E c | H p , B, E s )(1 − r )


V= (9.9)
Pr(E c | H d , B, E s )r + Pr(E c | H d , B, E s )(1 − r )

9.5.4 Proposiciones de asociación intermedia

Para determinar las probabilidades que componen (9.9), necesitamos


proposiciones de asociación intermedia como estas:
• A, la mancha del crimen procede del sospechoso;
• A , la mancha del crimen no procede del sospechoso.
Tenemos ahora que desarrollar las cuatro probabilidades condicionales
de (9.9). El primer término del numerador, Pr(E c | H p , B, Es ) ,se corresponde
con la probabilidad de que la mancha del crimen sea del perfil Γ si hubiera
sido dejada por uno de los criminales (B), el sospechoso hubiera cometido
el crimen (Hp) y fuera de perfil Γ. Esto puede escribirse como:
Pr(E c | H p , B, E s ) = Pr(E c | H p , B, A, E s ) Pr(A | H p , B, E s )
+ Pr(E c | H p , B, A, Es) Pr(A | H p , B, E s )
Aquí, Ec = Es = Γ y Pr( E c | H p , B, A, E s ) = 1. En ausencia de Ec, A es inde-
pendiente de Es, y así:

Pr(A | H p , B, E s ) = Pr(A | H p , B) = 1 / k.
Se ha asumido, pues, que no existe nada en la información del caso I
que distinga al sospechoso, dado Hp, de los otros criminales respecto a la
sangre derramada. De forma similar,

Pr(A | H p , B, E s ) = (k − 1) / k.
Relevancia de la evidencia y material relevante   381

También:

Pr(E c | H p , B, A, E s ) = Pr(E c | H p , B, A) = γ
ya que si A es cierto, Ec y Es son independientes y uno de los otros crimina-
les dejaron la mancha (puesto que B se mantiene). De este modo:

Pr(E c | H p , B, E s ) = {1 + (k − 1) γ}/ k.

El segundo término del numerador de (9.9), Pr( E c | H p , B, E s ), es la pro-


babilidad de que la mancha del crimen sea del perfil Γ si hubiera sido dejada
por una persona desconocida y no relacionada con la comisión del crimen.
(Ésta es la implicación de asumir que B es cierto). La población de personas
que pudieran haber dejado la mancha no es necesariamente la misma que la
población relacionada con la procedencia de los criminales. De este modo:

Pr(E c | H p , B, E s ) = γ '

donde γ’ es la probabilidad del perfil Γ entre la población de personas que


pudieran haber dejado la mancha (la tilde, ‘, indica que puede no ser el
mismo valor de γ, relacionado con la población de la que proceden los cri-
minales ).
Consideremos ahora que el sospechoso es inocente y que Hd es cierta. El pri-
mer término del denominador de (9.9) es Pr( E c | H d , B, E s ) = Pr( E c | H d , B) = γ,
la frecuencia de Γ entre la población de procedencia de los criminales. No
hay necesidad de descomponer esta probabilidad para tener en cuenta a
los sucesos A y A , puesto que se asume que el sospechoso no es uno de los
criminales y B establece que la mancha fue dejada por uno de ellos.
El segundo término del denominador es

Pr(E c | H d , B, E s ) = Pr(E c | H d , B, A, E s ) Pr(A | H d , B, E s )


+ Pr(E c | H d , B, A, E s ) Pr(A | H d , B, E s )

Si A es cierto, Pr( E c | H d , B, A, E s ) = 1 .
También Pr( A | H d , B, E s ) = Pr( A | H d , B) . Esta es la probabilidad p de ad-
quisición inocente, es decir, que la mancha podría haber sido dejada por el sos-
pechoso aunque éste fuera inocente del crimen. Aquí se asume que la propen-
sión a dejar una mancha es independiente del perfil de la persona que la dejó.
Por consiguiente: Pr( A | H d , B) = p y Pr( A | H d , B, E s ) = Pr( A | H d , B) = 1 − p .
También Pr( E c | H d , B, A ) = γ ' . De este modo:
382   Datos discretos

Pr(E c | C, B, E s ) = p + (1 − p) γ '.
La sustitución de las anteriores expresiones en (9.9) proporciona que:

V=
[r{1 + (k − 1)γ} / k ]+ {γ ' (1 − r)} =
γr + {p + (1 − p) γ ' }(1 − r )
(9.10)
r{1 + (k − 1) γ} + kγ ' (1 − r )
=
k[γr + {p + (1 − p) γ ' }(1 − r )]

9.5.5 Ejemplos

Ejemplo 9.1 Consideremos el caso donde asumimos que γ y γ’ sean


aproximadamente iguales y que p = 0. La última asunción se sostiene si no
hay posibilidad de que el sospechoso hubiera dejado la mancha por razo-
nes inocentes. Entonces:

r (1 + (k − 1) γ ) + kγ (1 − r ) r + (k − r ) γ
V= = (9.11)
k ( γr + γ (1 − r ) kγ

Si γ es tan pequeña que r/kγ >> 1, entonces V ≅ r/kγ. Si r = 1, V ≅ 1/kγ (ver


(9.6)), el valor de la evidencia ha sido reducido por un factor que se corres-
ponde con el número de criminales.

Ejemplo 9.2 Asumimos ahora que p ≠ 0, pero siguen siendo aproxima-


damente iguales γ y γ’. Entonces:
r + (k − r ) γ r + (k − r ) γ
V= =
k (p(1 − r ) + γ (r + (1 − p)(1 − r )) k (p(1 − r ) + γ (1 − p + pr ))

Ejemplo 9.3 Evett y otros (1998a) proporcionan un ejemplo del uso de


probabilidades subjetivas en la evaluación de huellas de pisadas. La eva-
luación es análoga a la llevada a cabo en la Sección 9.5.4 con k = 1. Las pro-
posiciones son diferentes. Para huellas de pisadas, las proposiciones son:
• Hp, el sospechoso es el criminal;
• Hd, alguna persona desconocida es el criminal.
Las proposiciones de asociación son:
• B, la huella de pisada fue dejada por el criminal;
• B , la huella de pisada fue dejada por alguien distinto al criminal.
Las proposiciones de asociación intermedia son:
Relevancia de la evidencia y material relevante   383

• A, la huella de pisada fue dejada por un zapato particular (digamos,


X), propiedad del sospechoso;
• A , la huella de pisada fue dejada por algún zapato desconocido, el
cual puede o no haber sido propiedad del sospechoso.
Ahora escribamos Pr( A | H p , B, E s ) = Pr( A | H p , B) = w , la probabilidad
de que el sospechoso llevara el zapato X dado que fuera el criminal y que
sus zapatos dejaran la huella de pisada. Evett y otros (1998a) ilustran cómo
determinar w. El sospechoso fue entrevistado un día después de que se co-
metiera el crimen, tenía diez pares de zapatos de su propiedad, y se asumió
que todos ellos eran equiprobables de cara a ser llevados en la comisión del
crimen, por eso se estimó w = 0.1.
Para huellas de pisadas, una variante de (9.10) es aquella en la que
Pr(E c | H p , B, A, E s ) puede ser diferente a la unidad; a esta probabilidad la de-
notamos mediante pmrk. La frecuencia de las características de la huella de pi-
sada es γ. Consideramos a γ y γ’ iguales. Un análisis más detallado trataría a
éstas como diferentes puesto que la frecuencia de una huella de pisada particu-
lar puede ser dependiente de la persona que la produjera. Evett y otros (1998a)
consideraron la frecuencia en dos partes: una relevante para el fabricante, y otra
para las propiedades adquiridas. También se asumió que la huella de pisada no
había sido dejada por razones inocentes, lo que hace que p = 0. Entonces:
Pr(E c | H p , B, E s ) = wp mrk + γ (1 − w ) y

Pr(E c | H p , B, E s ) = Pr(E c | H d , B, E s ) = Pr(E c | H d , B, E s ) = γ.

Por tanto, de (9.10),

r{wp mrk + γ (1 − w )}+ γ (1 − r )


V= =
γr + γ (1 − r )
rwp mrk − rwγ + γ
= = (9.12)
γ
rw
= (1 − rw ) + p mrk
γ
Evett y otros (1998a) proporcionan ejemplos numéricos.

Probabilidades subjetivas
Llegados hasta aquí es necesario pensar más sobre r y p. El primero, r, es
la probabilidad de que la mancha del crimen proceda de uno de los crimi-
384   Datos discretos

nales, y esta probabilidad ha sido definida como relevancia de la mancha del


crimen. El segundo, p, es la probabilidad de que la mancha del crimen pro-
ceda del sospechoso, dado que el mismo no cometió el crimen y que la man-
cha no viniera de ninguno de los criminales; es decir, es la probabilidad de
que la mancha fuera dejada de forma inocente por alguien que se considera
ahora sospechoso. La validez de combinar probabilidades pensadas como
medidas de creencia y probabilidades como frecuencias relativas, ha sido
cuestionada (Freeling y Sahlin, 1983; Stoney, 1994). Sin embargo, lo expues-
to en la Sección 1.6.4, así como los comentarios sobre dualidad de Hacking
(1975) explican por qué esas combinaciones pueden considerarse válidas.
Evett (1993a) sugiere que la determinación de probabilidades como las
expuestas anteriormente puede ser de la competencia del Tribunal y que es
necesario establecer las condiciones bajo las cuales la evidencia científica
pueda ser de ayuda a los Tribunales. Evett sugiere un examen de la sensibi-
lidad de V para valores de p y r. A modo de ilustración, toma k = 4 (número
de criminales), y las frecuencias γ y γ’ iguales a 0.001. Entonces,
r + 0.004
V= , donde r + (k – r)γ ha sido aproximado
4(p(1 − r ) + 0.001(1 − p + pr ))
por r + kγ. La variación de V con r y p se muestra en la Figura 9.1

Figura 9.1. Variación en el logaritmo de base 10 del LR, V, de la evidencia con


p, la probabilidad de que la mancha pudiera haber sido dejada por el sospechoso
incluso aunque no hubiese cometido el crimen, para varios valores de r, la probabili-
dad de que la mancha hubiera sido dejada por uno de los criminales. El número de
criminales, k, igual a 4 y la frecuencia relativa de perfil γ es 0.001. Adaptado de Evett
(1993a), con la inclusión de una curva para r = 0. La línea de puntos de log ( V ) = 0
indica dónde es igual de probable la evidencia bajo ambas proposiciones.
Relevancia de la evidencia y material relevante   385

La gráfica se ha dibujado a escala logarítmica para V. La variable p se


representa en abcisas y se muestran distintas curvas para distintos valores
de r: 1, 0.75, 0.5, 0.25 y 0. Resulta útil considerar aisladamente cada uno de
los términos de la expresión de V para el caso en el que sólo haya una man-
cha de sangre del perfil Γ y frecuencia γ (se asume que es bien conocida).
• El número de criminales, k: se asume bien conocido;
• La relevancia, r: la probabilidad (subjetiva) de que la mancha del
crimen viniera de alguno de los criminales; se pueden señalar los
siguientes factores para su estimación: localización, abundancia y
frescura aparente de la sangre.
• Inocencia, p: la probabilidad (subjetiva) de que la mancha del cri-
men viniera del sospechoso, dado que el sospechoso no cometiera
el crimen y que la mancha no procediera de ninguno de los crimi-
nales.
Se pueden proponer valores para la relevancia y la inocencia por par-
te de los expertos forenses, pero son asuntos de la competencia de los
Tribunales. En general, V decrece a medida que r decrece o p crece.
Para r = 1, es cierto que la mancha del crimen procediera de uno de los
criminales y

V = 1.004/0.004 = 251
log10 (V) = 2.40.

Para r ≠ 1, V es muy sensible a p. Si la probabilidad de que la mancha


no procediera de ninguno de los criminales no fuera cero, la probabilidad
de inocencia tiene una considerable influencia sobre V. Por ejemplo, si r =
0.25, de forma que hay escasa probabilidad de que la mancha procediera
de uno de los criminales, V sería menor que 1 para p > 0.083 ≅ 1/12. De este
modo, si p > 1/12 (y hay escasa probabilidad de que la mancha procediera
del sospechoso, condicionado a todo lo demás) entonces la evidencia so-
porta la proposición de que es otra persona el criminal en lugar de la pro-
posición de que el sospechoso es el criminal.

9.5.6 Dos manchas, un criminal

El problema de las dos manchas de sangre de la Sección 9.3 ha sido


modificado por Stoney (1994) a un caso donde existen dos manchas
de sangre, de perfil Γ1 y Γ2, respectivamente, como antes, pero sólo un
criminal (en vez de dos, como en la Sección 9.3.1) dejó una de las man-
386   Datos discretos

chas de sangre (no se conoce cuál de ellas). Se halla a un sospechoso del


grupo sanguíneo Γ1. Se aplica aquí la relevancia pues proporciona una
medida de creencia (probabilidad) de que la mancha en la escena del
crimen que proviene del criminal tiene el mismo grupo sanguíneo que
el sospechoso. Las dos proposiciones que hemos de considerar son las
siguientes:
• Hp, el sospechoso es el criminal;
• Hd, el sospechoso no es el criminal.
Sea r la probabilidad de que la mancha coincidente (Γ1) sea del crimi-
nal. Como antes, se trata de una probabilidad subjetiva. Se ha asumido que
una de las manchas proviene del criminal, por lo que hay una probabilidad
de 1 – r de que la otra mancha (Γ2) sea la que procede del criminal.
Supongamos que Hp es cierto. Entonces, a través del uso de las proposi-
ciones de asociación, la mancha puede o no haber procedido del criminal.
• Pr(coinciden los perfiles del sospechoso y una mancha | la mancha
Γ1 vino del criminal) = 1;
• Pr(de que la mancha Γ1 vino del criminal) = r;
• Pr(coinciden los perfiles del sospechoso y una mancha | la mancha
Γ2 vino del criminal) = 0;
• Pr(de que la mancha Γ2 vino del criminal) = 1 – r;
De este modo: Pr(coincidencia en Γ1 | Hp) = r.
Supongamos que Hd es cierto. (No hay necesidad de desarrollar el deno-
minador de V utilizando proposiciones de asociación.) La probabilidad de
una coincidencia en Γ1 es la probabilidad de que una persona seleccionada
aleatoriamente sea del perfil Γ1. Ésta es la frecuencia de perfil γ1. Por tanto,

V = r / γ1.

Este es un caso particular de (9.11) con k = 1.


Si las dos manchas tienen igual probabilidad de haber sido dejadas por
el criminal, r = 1 / 2, y V = 1 / 2γ1. Esto es numéricamente equivalente a la
cifra 1 / 2γ1 obtenida por Evett (1987b) y citada antes en (9.5) para un pro-
blema con dos manchas, dejada cada una por cada uno de los criminales,
y con existencia de un único sospechoso cuyo perfil coincide con el de una
de las manchas y cuya frecuencia es γ1. El procedimiento para llegar a esta
cifra, sin embargo, es muy distinto.
Stoney (1994) continuó el desarrollo del caso en el que ninguna de las
manchas fuera relevante, pero en el que hubiera un único criminal. El sos-
pechoso tiene perfil Γ1. Las probabilidades necesarias serían las siguien-
tes:
Resumen   387

• Pr(la mancha de perfil Γ1 proviene del criminal) = r1,


• Pr(la mancha de perfil Γ2 proviene del criminal) = r2,
• Pr(ninguna de las manchas procede del criminal) = 1 – (r1 + r2).
Si Hp es cierta (i.e., el sospechoso es el criminal), hay tres componentes
de probabilidad:
• La mancha de perfil Γ1 es del criminal. Hay una coincidencia con
probabilidad r1.
• La mancha de perfil Γ2 es del criminal. No hay coincidencia. Este
suceso tiene probabilidad cero pues se ha asumido que el sospecho-
so es el criminal y hay sólo uno.
• Ninguna de las manchas proceden del criminal. Este suceso tiene
probabilidad 1 – (r1 + r2), y si es cierto hay una probabilidad γ1 de
una coincidencia entre el perfil del sospechoso (Γ1) y la mancha del
crimen del mismo perfil. La probabilidad de una combinación de
esos sucesos es (1 – r1 – r2) γ1.
Estas tres componentes son mutuamente excluyentes, por lo que la pro-
babilidad en el numerador de V será la suma de ellas: r1 + (1 – r1 – r2) γ1.
Si Hd es cierto (i.e., el sospechoso no es el criminal). La probabilidad de
coincidencia es como antes, concretamente γ1. El LR es entonces:

r1 + (1 − r1 − r2 ) γ1
V=
γ1
Se pueden presentar ciertos casos especiales. Cuando r1 y r2 tiendan a
cero, lo que implica que ninguna de las manchas es relevante, entonces
el LR tiende a uno. Un LR de 1 no proporciona ningún soporte a cual-
quiera de las proposiciones, algo enteramente consistente con la falta de
relevancia de las manchas. Para r1 = r2 = 1 / 2, V = 1 / 2γ1. Para r1 = 1, V = 1 /
γ1. Cuando r2 → 1, entonces r1 → 0 y V → 0. Todos estos resultados son abso-
lutamente razonables.

9.6 Resumen

Por su utilidad, a continuación se resumen los resultados de las anterio-


res secciones relacionadas con manchas de sangre.
388   Datos discretos

9.6.1 Mancha que se sabe que ha sido dejada por los criminales

Una mancha de la que se conoce que proviene de un criminal


El perfil de la mancha del crimen y del sospechoso es Γ con frecuencia γ.
Las proposiciones a comparar son:
• H p , la mancha de la escena del crimen procedió del sospechoso;
• H d , la mancha de la escena del crimen no procedió del sospechoso.
Entonces:
1
V=
γ
Dos manchas, una de cada uno de los dos criminales
Hay dos manchas del crimen, de perfiles Γ1 y Γ2 , con frecuencias g1 y g2.
Hay un sospechoso con perfil Γ1 , con frecuencia g1. Las proposiciones que
vamos a comparar son:
• H p , la mancha del crimen provino del sospechoso y de otro hombre;
• H d , las manchas del crimen provinieron de dos hombres descono-
cidos.
Entonces:
1
V= .
2 γ1

n manchas, una de cada uno de los n criminales

Hay un sospechoso con perfil Γ1 , con frecuencia g1. Las proposiciones a


comparar son:
• H p , la muestra del crimen provino del sospechoso y de otros n–1
hombres;
• H d , la muestra del crimen provino de n hombres desconocidos.
Entonces:
1
V= .
nγ1
n manchas, k perfiles distintos, k criminales distintos


k
Hay si manchas de tipo i (i = 1, ..., k; s = n). Hay un sospechoso con
i =1 i
perfil Γ1 , con frecuencia g1. Las proposiciones que vamos a comparar son:
• H p , la muestra del crimen provino del sospechoso y de otros k – 1
hombres;
• H d , la muestra del crimen provino de k hombres desconocidos.
Resumen   389

Entonces:
1
V= .
 n  s1
  γ1
 s1 
n manchas, k perfiles distintos, m criminales

Esta situación puede presentarse cuando hay resultados analíticos li-



k
mitados. Hay m i criminales con perfil i (i = 1, ..., k; m = m ). Hay
i =1 i
sij manchas siendo el j-ésimo criminal para el i-ésimo perfil. Hay un sos-
pechoso con grupo sanguíneo Γ1 , con frecuencia g1. Asumimos que éste
pudiera ser el primer criminal con el primer perfil. Las proposiciones a
comparar son:
• H p , la muestra del crimen provino del sospechoso y de otros m – 1
hombres;
• H d , la muestra del crimen provino de otros m hombres.
Entonces:
1
V=
 n  s11
  γ1
 s11 
9.6.2 Relevancia: mancha que puede no haber sido dejada por los
criminales

Una mancha, k criminales

La probabilidad de que una mancha del crimen provenga de uno de los


k criminales es la relevancia, r. Las proposiciones a comparar son:
• H p , el sospechoso es uno de los k criminales;
• H d , el sospechoso no es uno de los k criminales.
La mancha es de perfil Γ. Puede haber sido dejada por un criminal. Hay
k criminales. El sospechoso es de perfil Γ. Este perfil tiene frecuencia γ en la
población de la que puede pensarse que provienen los criminales. Tiene fre-
cuencia g’ entre la población de personas que pueden haber dejado la man-
cha, que pudiera no ser la misma población que de la que se piensa que pro-
vienen los criminales. Por ejemplo, puede existir evidencia de testigos ocula-
res de que los criminales son de un determinado grupo étnico, mientras que
las personas normalmente asociadas con la escena del crimen puedan ser
de otro. La probabilidad de que la mancha pudiera haber sido dejada por el
sospechoso aunque fuese inocente del crimen es p. Entonces:
390   Datos discretos

V=
[r{1 + (k − 1)γ} / k ]+ {γ ' (1 − r)} =
γr + {p + (1 − p) γ ' }(1 − r )
r{1 + (k − 1) γ} + kγ ' (1 − r )
=
k[γr + {p + (1 − p) γ ' }(1 − r )]
Hay varias simplificaciones.
Si γ = γ ' y p = 0, entonces
γr + {p + (1 − p) γ ' }(1 − r ) r + (k − r ) γ
+ (k − 1) γ} + kγ ' (1 − r ) V=

r + {p + (1 − p) γ ' }(1 − r )]
Si, además, r = 1,

1 + (k − 1) γ
V=

Comparemos esto con el caso en el que haya n manchas (más de 1) y el


número (k) de criminales sea igual al número de manchas (n). (Hay una
mancha que procede de cada uno de los n criminales.) Entonces V = 1 / nγ
= 1 / kγ.

Si hay una mancha y k criminales,

1 + (k − 1) γ
V= =

1 1
= 1+ + ,
kγ k

se produce un incremento debido a 1 / kγ. El valor de la evidencia es el


mismo cuando hay k criminales y un sospechoso si hay una mancha, co-
incidiendo con el perfil del sospechoso, o muchas manchas de diferentes
perfiles.
Si γ = g’ y p ≠ 0, entonces


V=
[r{1 + (k − 1)γ} / k ]+ {γ (1 − r )} = r + (k − r ) γ
=
r + (k − r
[γr + {p + (1 − p)γ}(1 − r )] k[p(1 − r ) + γ{r + (1 − p)(1 − r )}] k[p(1 − r ) + γ (1 −
)} r + (k − r ) γ r + (k − r ) γ
= =
k[p(1 − r ) + γ{r + (1 − p)(1 − r )}] k[p(1 − r ) + γ (1 − p + pr )]
Resumen   391

Dos manchas, una de las cuales es relevante, un criminal

El criminal dejó una de las manchas de sangre, pero no se conoce cuál


de ellas. Las proposiciones a comparar son:
• H p , el sospechoso es el criminal;
• H d , el sospechoso no es el criminal.
Un sospechoso posee perfil Γ1 , con frecuencia g1. Sea r la probabilidad
de que la mancha del crimen cuyo grupo coincide con el grupo del sos-
pechoso sea del sospechoso. Entonces 1 – r es la probabilidad de que la
mancha del crimen, la cual no coincide con el perfil del sospechoso, sea del
criminal. Entonces:
r
V= .
γ1

Dos manchas, ninguna de ellas relevante, un criminal

Las proposiciones a comparar son:


• H p , el sospechoso es el criminal;
• H d , el sospechoso no es el criminal.
Un sospechoso tiene perfil Γ1 ( Γ2 ) con frecuencia g1. Sea r1 (r2 ) la probabili-
dad de que la mancha de perfil Γ1 ( Γ2 ) sea del criminal. Entonces 1 – r1 – r2 es
la probabilidad de que ninguna mancha sea del criminal y

r1 + (1 − r1 − r2 ) γ 1
V=
γ1

9.6.3 Relevancia y nivel de crimen

La relevancia es un factor a tener en cuenta cuando se valoran las proposi-


ciones respecto al nivel de crimen, pero no respecto al nivel de actividad. Sea
γ la frecuencia relativa de un rasgo en la población relevante. Al nivel de la co-
misión del crimen, el valor de la evidencia no puede ser mayor de 1 / γ. Puede
reducirse este valor como consecuencia de que la relevancia, expresada como
una probabilidad, puede ser menor a la unidad. En el nivel de actividad, el
valor de la evidencia puede ser mayor de 1 / γ. En este caso, se han de tener en
cuenta factores como la transferencia o la información de contexto del caso.
Sin embargo, si nos centramos en el nivel de comisión del crimen y se
asume que el sospechoso ha estado presente en la escena del crimen para
cometerlo, entonces no se necesita tener en cuenta el nivel de actividad.
392   Datos discretos

Sean dos proposiciones, Hp1 que el sospechoso cometió el crimen (nivel del
crimen) y Hp2 que el sospechoso estuvo presente en la escena del crimen
mientras se cometía (nivel de actividad). Entonces:

Pr(E | Hp1, Hp2) = Pr(E | Hp1)

9.7 Personas desaparecidas

Consideremos un caso de una persona desaparecida en el que hay evi-


dencia de que se ha cometido un crimen y donde un sospechoso ha sido
identificado. No tenemos evidencia ni del grupo sanguíneo de la persona
desaparecida ni de otros valores fenotípicos. En su lugar, tenemos valores
fenotípicos de sus padres (la pareja del caso) a partir de los cuales pode-
mos realizar inferencias. La disertación subsiguiente se corresponde con
casos ocurridos hace una veintena de años y empleando los sistemas de
marcadores existentes en aquella época. Sin embargo, los principios de la
disertación se mantienen perfectamente validos en nuestros días.
Las manchas de sangre encontradas en el domicilio del sospechoso pu-
dieran proceder de uno de sus hijos. Las hipótesis a comparar son las si-
guientes:
• Hp, las manchas de sangre procedieron de un hijo de la pareja;
• Hd, las manchas de sangre no procedieron de un hijo de la pareja.
El valor de la evidencia es:
V = probabilidad de que los padres hayan transmitido el fenotipo de la
mancha / probabilidad de que una pareja aleatoriamente escogida en la po-
blación de referencia pudiera haber transmitido el fenotipo de la mancha.
Esto podría expresarse, verbalmente, como “los padres de la persona
desaparecida son V veces más probables como transmisores del conjunto
de genes de la mancha que una pareja seleccionada al azar en la población
de referencia”. Consúltese la Sección 8.1.3 donde se expuso una primera
discusión sobre este tema.
Veamos los siguientes dos casos de personas desaparecidas con los feno-
tipos descritos en la Tabla 9.3, el primero (caso 1) descrito por Kuo (1982),
y el segundo (caso 2) descrito por Ogino y Gregonis (1981), ambos revisa-
dos por Stoney (1984b).
Es posible calcular las frecuencias fenotípicas de las manchas en cada
uno de los casos. Son las probabilidades de que una pareja aleatoriamente
escogida en la población de referencia pudieran transmitir los fenotipos en
cuestión, y se dan en las Tablas 9.4 y 9.5.
Personas desaparecidas   393

Tabla 9.3 Fenotipos para dos casos de personas desaparecidas.

Sistema Caso 1 Caso 2


marcador Padre Madre Mancha Padre Madre Mancha
AB0 B O B O O O
EAP BA BA A B BA B
AK 1 2–1 2–1 1 1 1
ADA 1 1 1 1 1 1
PGM 2–1 1 2–1 1 1 1
Hp 2–1 2 2–1 1 1 1
EsD 1 1 1

Tabla 9.4 Frecuencias génicas e incidencias fenotípicas para el Caso 1


(Kuo, 1982).

Sistema Fenotipo de Frecuencias


Incidencias fenotípicas
marcador la mancha génicas
ABO B B: 0.074 0.0742 + 2 x 0.074 x 0.664 = 0.1037
O: 0.664
EAP A A: 0.327 0.3272 = 0.1069
AK 2–1 2: 0.038 2 x 0.038 x 0.962 = 0.0731
1: 0.962
ADA 1 1: 0.952 0.9522 = 0.9063
PGM 2–1 2: 0.229 2 x 0.229 x 0.771 = 0.3531
1: 0.771
Hp 2–1 2: 0.578 2 x 0.578 x 0.422 = 0.4878
1: 0.422

Tabla 9.5 Frecuencias génicas e incidencias fenotípicas para el Caso 2


(Ogino y Gregonis, 1981).

Sistema Fenotipo Frecuencias


Incidencias fenotípicas
marcador de la mancha génicas
ABO O O: 0.664 0.6642 = 0.4409
EAP B B: 0.612 0.6122 = 0.3745
AK 1 1: 0.962 0.9622 = 0.9254
ADA 1 1: 0.952 0.9522 = 0.9063
PGM 1 1: 0.771 0.7712 = 0.5944
Hp 1 1: 0.422 0.4222 = 0.1781
EsD 1 1: 0.884 0.8842 = 0.7815
394   Datos discretos

9.7.1 Caso 1 (Kuo, 1982)

Una mujer joven desapareció después de un viaje en barca con su novio.


El novio fue el principal sospechoso. Se encontraron manchas de sangre en
su barca, pero no había sangre de la mujer desaparecida que pudiera cotejar-
se con las manchas. Se tipó la sangre de los padres de la mujer para intentar
relacionar su grupo con el de las manchas de sangre halladas en la barca.
La incidencia fenotípica combinada a partir de la Tabla 9.4 es
0.1037 × 0.1069 × 0.0731 × 0.9063 × 0.3531 × 4878 = 1.2650 × 10–4, justifi-
cándose esta multiplicación por la independencia entre los sistemas marca-
dores. Obsérvese la implícita extensión de la aproximación basada en el LR
para incluir evidencia de más de un marcador; consultar la Sección 8.1.3.

9.7.2 Caso 2 (Ogino y Gregonis, 1981)

La familia de un hombre denunció su desaparición. Un sospechoso, que


llevaba el vehículo de la víctima, fue arrestado por la presunta comisión de
un asesinato. Se encontraron varias manchas de sangre en distintas par-
tes del vehículo. Se consiguieron muestras de sangre de los padres de la
víctima, así como de otros parientes. La incidencia fenotípica combinada,
basada en la de los padres (Tabla 9.3), a partir de la Tabla 9.5 es 0.4409 ×
0.3745 × 0.9254 × 0.9063 × 0.5944 × 0.1781 × 0.7815 = 1.146 × 10–2.

9.7.3 Cálculo del LR

El LR, V, compara dos probabilidades. La probabilidad de que los pa-


dres pudieran haber transmitido el fenotipo de la mancha se compara con
la probabilidad de que lo hubiera hecho una pareja escogida aleatoriamen-
te en la población de referencia. La última es simplemente el producto de
las frecuencias génicas, y estos valores han sido ya calculados en los dos
casos.
Vamos, a continuación, a calcular las probabilidades de que fueran los
padres los transmisores de los fenotipos de las manchas, en cada caso.
En la Tabla 9.6 se presentan las posibles combinaciones de pareja-man-
cha con hasta tres alelos codominantes.
El sistema ABO requiere un tratamiento especial respecto a la dominan-
cia. Las probabilidades de transferencia dependen de las frecuencias con
las que se encuentra a los individuos homocigotos y a los heterocigotos;
véase la Tabla 9.7. Los padres tipo A y tipo B pueden ser homocigotos con
Personas desaparecidas   395

el alelo dominante o heterocigotos con el alelo recesivo O. Stoney (1984b)


incluye más detalles. Estas frecuencias pueden calcularse directamente a
partir de las frecuencias génicas.
La probabilidad de que se transfiera un gen particular se determina por
la combinación de las verosimilitudes de heterocigosidad y homocigosidad
con la verosimilitud de transferir el gen en cada caso.

Tabla 9.6 Frecuencias hasta tres alelos codominantes.

Pareja Posibles manchas y frecuencias


PP,PP PP = 1.00
PP,PQ PP = 0.50 PQ = 0.50
PP,QQ PQ = 1.00
PQ,PQ PP = 0.25 PQ = 0.50 QQ = 0.25
PQ,PR PP = 0.25 PR = 0.25 PQ = 0.25 QR = 0.25
PQ,RR PR = 0.50 QR = 0.50

Tabla 9.7 Frecuencias relativas para el sistema ABO

Tipo P Homocigoto PP Heterocigoto PO


A (a)/(a+2o) = 0.262 / 1.590 = 0.1648 (2o)/(a+2o) = 1.328 / 1.590 = 0.8352
B (b)/(b+2o) = 0.074 / 1.402 = 0.0528 (2o)/(b+2o) = 1.328 / 1.402 = 0.9472

Caso 1:
La probabilidad de que los padres fueran los responsables de la existen-
cia del fenotipo de la mancha es igual a 0.5264 × 0.25 × 0.50 × 1.00 × 0.50 ×
0.50 = 0.0164; ver Tabla 9.8. La probabilidad de que el fenotipo de la man-
cha ocurra por casualidad es 1.2650 × 10–4. Por tanto:

V = 0.0164 / 1.2650 × 10–4 =130.0

Los padres de la persona desaparecida en el Caso 1 puede decirse que


son 130 veces más probables de haber transferido el fenotipo a la mancha
que si lo hubiera hecho cualquier pareja elegida aleatoriamente. Haciendo
uso de la escala cualitativa de la Tabla 3.10, la evidencia proporciona mo-
derado soporte a la proposición de que las manchas de sangre procedían
del hijo de la pareja del caso.
396   Datos discretos

Caso 2:
La probabilidad de que los padres fueran los responsables de la transfe-
rencia del fenotipo de la mancha es igual a 1.00 × 0.50 × 1.00 × 1.00 × 1.00
× 1.00 × 1.00 = 0.50; ver Tabla 9.9. La probabilidad de que el fenotipo de la
mancha ocurra por casualidad es 1.146 × 10–2, y

V = 0.50 / 1.146 × 10–2 = 43.6

Los padres de la persona desaparecida en el Caso 2 puede decirse que


son aproximadamente 44 veces más probables de haber transferido el fe-
notipo a la mancha que si lo hubiera hecho cualquier pareja elegida alea-
toriamente. De manera similar, haciendo uso de la escala cualitativa de la
Tabla 3.10, la evidencia proporciona moderado soporte a la proposición de
que las manchas de sangre procedían del hijo de la pareja del caso.
Estos ejemplos se corresponden con hechos de hace 20 años y utilizan
sistemas marcadores clásicos, que han sido reemplazados por marcadores
de ADN. Sin embargo, los principios siguen vigentes.

Tabla 9.8 Probabilidades de que los padres transfieran el fenotipo a la mancha espe-


cificada, Caso 1
Fenotipos Probabilidad de que los
Sistema de los padres Fenotipo
padres transmitieran el
marcador de la mancha
F M fenotipo a la mancha
ABO B O B (1×0.0528) + (0.5×0.9472) = 0.5264
EAP BA BA A 0.25
AK 1 2–1 2–1 0.50
ADA 1 1 1 1.00
PGM 2–1 1 2–1 0.50
Hp 2–1 2 2–1 0.50

Tabla 9.9 Probabilidades de que los padres transfieran el fenotipo a la mancha espe-


cificada, Caso 2.
Fenotipos Probabilidad de que los
Sistema de los padres Fenotipo de la
padres transmitieran el
marcador mancha
F M fenotipo a la mancha
ABO O O O 1.00
EAP B BA B 0.50
AK 1 1 1 1.00
ADA 1 1 1 1.00
PGM 1 1 1 1.00
Hp 1 1 1 1.00
EsD 1 1 1 1.00
Paternidad:
Paternidad:Combinación
combinacióndede lrs   397
LRS  

Un método de valoración sería considerar la frecuencia de las parejas


no excluidas. Otro el de las manchas no excluidas. Para los dos casos aquí
descritos, las frecuencias de las parejas no excluidas son 0.0062 (Kuo) y
0.2564 (Ogino y Gregonis), y las frecuencias de las manchas no excluidas
son 0.3386 (Kuo) y 0.0237 (Ogino y Gregonis) (Stoney, 1984b). De este
modo, existen conclusiones contradictorias. La evidencia es rara para Kuo
pero no para Ogino y Gregonis si la frecuencia de las parejas no excluidas
se considera como el estadístico para la valoración de la evidencia. La evi-
dencia no es rara para Kuo, pero sí para Ogino y Gregonis si la frecuencia
de las manchas no excluidas se considera como el estadístico para valorar
la evidencia. En contraste con esto, el LR considera ambas cosas, las pare-
jas y las manchas, proporcionando un estadístico unificado.
Evett y Weir (1998) desarrollan lo anterior para sistemas de marcadores
de ADN y para ejemplos en los que aparecen otros familiares distintos al
cónyuge e hijo, o en los que el padre ha fallecido. Brenner y Weir (2003)
presentan una fórmula general para el cálculo del LR apropiado en mul-
titud de casos en los que existe relación entre dos perfiles de ADN. Fung
(2003) propuso una aproximación automática para el cálculo de genealo-
gías complicadas.

9.8 Paternidad: combinación de LRs

En tests de paternidad, el LR se utiliza para comparar dos probabilida-


des, como en un contexto criminológico. En este contexto, las dos proposi-
ciones que se han de comparar son las siguientes:
• Hp, el presunto padre realmente lo es;
• Hd, el presunto padre no lo es realmente.
La probabilidad de que el presunto padre transfiera los alelos no ma-
ternos al hijo se compara con la probabilidad de que otra persona, aleato-
riamente seleccionada en la población de referencia, los pueda transmitir
igualmente. Así, el valor V de la evidencia es:
V = Probabilidad de que el presunto padre transfiriera los alelos /
Probabilidad de que los alelos hayan sido transferidos por un varón al azar.
Lo anterior se puede expresar verbalmente de esta forma: “el presunto
padre es V veces más probable que cualquier otro varón seleccionado alea-
toriamente en la población de referencia a la hora de transferir los alelos
no maternos al hijo”.
Obsérvense las diferencias entre los casos de personas desaparecidas y
los de paternidad. En un test de paternidad, la relación madre-hijo es co-
398   Datos discretos

nocida. La cuestión se centra en si un varón concreto pudiera ser el padre


biológico. Sin embargo, en los casos de personas desaparecidas y de man-
chas de sangre, los padres son conocidos. La cuestión es si la mancha pu-
diera provenir de alguno de sus descendientes.
Evett y Weir (1998) aportan un ejemplo del uso del LR en casos de pa-
ternidad. La relación en este contexto, ha sido denominada índice de pater-
nidad (PI) por Salmon y Salmon (1980). El ejemplo que se expone a conti-
nuación se centra en el uso del LR cuando hay varias evidencias constitui-
das por más de un marcador de ADN.
Tenemos dos evidencias: E1 y E2, consistentes en dos perfiles de ADN
correspondientes al hijo, madre y presunto padre bajo los sistemas PentaD
y VWA, respectivamente, los datos se muestran en la Tabla 9.10. El índice
de paternidad o LR para Ei, i = 1,2, es:

PI = Pr(Ei | Hp) / Pr(Ei | Hd)

Tabla 9.10 Dos evidencias sobre marcadores de ADN.

Perfiles
Evidencia Locus Presunto
Hijo Madre
padre
E1 PentaD 13-13 9-13 11-13
E2 VWA 18-19 16-19 18-18

Sean GCi, GMi y GAFi los genotipos del hijo C (C-child), madre M (M-mother)
y presunto padre AF (AF-alleged father), respectivamente, para la eviden-
cia Ei. AMi y APi representan los alelos maternos y paternos para la evidencia
Ei. Sea γi,j la frecuencia del alelo j para la evidencia Ei.
Para E1, el numerador del LR es igual a Pr(GC1| GM1,GAF1,Hp) = 1 / 4. Esto
es así porque 9 - 13 cruzado con 11 - 13 produce 13 - 13 con probabilidad
de 1 / 4. El denominador es igual a Pr(GC1| GM1,GAF1,Hd) = Pr(AM1 | GM1) ×
P(AP1 | Hd) = Pr(AM1 = 13 | GM1 = 9 - 13) × Pr(AP1 = 13 | Hd) = (1 / 2) × γ1,13. Por
tanto, el LR para PentaD es 1 / 2γ1,13.
Para E2, el numerador del LR es igual a Pr(GC2| GM2,GAF2,Hp) = 1 / 2. Esto
es así porque 16 - 19 cruzado con 18 - 18 produce 18 - 19 con probabilidad
de 1 / 2. El denominador es igual a Pr(GC2| GM2,GAF2,Hd) = Pr(AM2 | GM2) ×
Pr(AP2 | Hd) = Pr(AM2 = 19 | GM2 = 16 - 19) × Pr(AP2 = 18 | Hd) = (1 / 2) × γ2,18. Por
tanto, el LR para VWA es 1 / γ2,18.
Bajo la asunción de independencia, el LR para la combinación (E1, E2)
de la evidencia es:
Paternidad:
Paternidad:Combinación
combinacióndede lrs   399
LRS  

Pr(E1,E2 | Hp) / Pr(E1,E2 | Hd) = [Pr(E1 | Hp) / Pr(E1 | Hd)] × [Pr(E2 | Hp) /
/ Pr(E2 | Hd)] = (1 / 2γ1,13) × (1 / γ2,18).

(ver Sección 8.1.3). Dando valores a las frecuencias: γ1,13 = 0.206 y γ2,18 =
0.2274, entonces (1 / 2γ1,13 γ2,18) = 10.7 ≅ 11; la evidencia de los sistemas de dos
marcadores es 11 veces más probable si el presunto padre es el verdadero
padre que si no lo es. Utilizando la Tabla 3.10 esto proporciona un soporte
moderado a la proposición de que el presunto padre es el verdadero padre.

9.8.1 Verosimilitud de paternidad

En el contexto de un problema de paternidad, resulta apropiado no sólo


hablar del LR sino también de la probabilidad de que el presunto padre lo
sea realmente. En términos formales, que Hp sea cierta. Esta probabilidad
es conocida como verosimilitud de paternidad.
Consideremos de nuevo las dos evidencias E1 y E2 de la Tabla 9.10. La
apuesta a favor de Hp, dado E1, puede escribirse, utilizando el teorema de
Bayes en forma de apuestas (3.6) como:

Pr(H p | E1 ) Pr(E1 | H p ) Pr(H p )


= ×
Pr(H d | E1 ) Pr(E1 | H d ) Pr(H d )
y
Pr(H d | E1 ) = 1 − Pr(H p | E1 ),

así:
Pr(E1 | H p ) Pr(H p )
Pr(H p | E1 ) =
Pr(E1 | H d )
×
Pr(H d )
{
× 1 − Pr(H p | E1 ) }
y
 Pr(E1 | H p ) Pr(H p )  Pr(E1 | H p ) Pr(H p )
Pr(H p | E1 )1 + × = × ,
 Pr(E1 | H d ) Pr(H d )  Pr(E1 | H d ) Pr(H d )
así −1
 Pr(E1 | H d ) Pr(H d ) 
Pr(H p | E1 ) = 1 + ×  (9.13)
 Pr(E1 | H p ) Pr(H p ) 
un resultado análogo a (4.6). Supongamos, de forma bastante poco realis-
ta, que el presunto padre y sólo otro hombre (cuyo grupo sanguíneo des-
400   Datos discretos

conocemos) pudieran ser el verdadero padre, y que estas dos posibilidades


son equiprobables (Essen-Möller, 1938). Entonces:

Pr(Hp) = Pr(Hd) = 0.5

Pr(Hp | E1) = 1 / (1 + 2γ1,13) = 1 / (1 + 0.412) = 0.708


Pr(H p | E1 )
Ahora incluimos E2. La apuesta a posteriori a favor de Hp,
Pr(H d | E1 )
dado E1, ahora reemplaza a la apuesta a priori (ver Sección 8.1.3), y la pro-
babilidad a posteriori para Hp, dados E1 y E2, viene dada por:

−1
 Pr(H d | E1 ) Pr(E 2 | H d ) 
Pr(H p | E1 , E 2 ) = 1 + × 
 Pr(H p | E1 ) Pr(E 2 | H p ) 

−1 (9.14)
 0.292 0.227 / 2 
= 1 + × 
 0.708 1/ 2 

= 0.914,
donde se ha asumido la independencia entre E1 y E2. La probabilidad de
que el presunto padre fuera el verdadero padre, la verosimilitud de pater-
nidad, fue inicialmente 0.5. Después de la presentación de la evidencia
PentaD (E1) fue de 0.708. Tras la presentación de la evidencia VWA (E2) se
llegó a 0.914. Obsérvese que esta probabilidad a posteriori es justo la rela-
ción PI / (1+ PI); en este caso: 10.7 / 11.7 = 0.914.
Nótese que la asunción Pr(Hp) = Pr(Hd) = 0.5 no es realista y puede condu-
cir a tergiversar las leyes de la probabilidad (Berry, 1991b; Allen y otros, 1995).
Si hubiera dos presuntos padres, ambos del tipo (11 – 13, 18 – 18), ambos ten-
drían probabilidad a posteriori 0.914 de ser el verdadero padre. La probabili-
dad de la unión de ambos sucesos —que sea padre uno u otro— sería la suma
de sus probabilidades, lo que supondría una clara violación de la primera ley
de la probabilidad (1.4) al sumar 1.828 pues una probabilidad mayor que 1
no tiene sentido. Ha habido muchas críticas de esta asunción (Ellman y Kaye,
1979; Kaye, 1989; Allen y otros, 1995; Taroni y Aitken, 1998a, y otras referen-
cias en esos trabajos). Algunos Tribunales se han dado cuenta de la falta de
realismo de esa asunción desde hace mucho tiempo. Por ejemplo:
Paternidad:
Paternidad:Combinación
combinacióndede lrs   401
LRS  

“Dejar la elección de la apuesta a priori a quienes legalmente les co-


rresponde es preferible a presentar o usar probabilidades a priori de
forma irresponsable”. (Sobre la paternidad, de M.J.B.:T.A.T.)

Nótese que en el caso en que se contase con dos presuntos padres, pu-
diera alegarse una tercera opción, es decir, que no fuera ninguno de ellos.
Las probabilidades a priori asignadas a esos sucesos valdrían 1 / 3. Sin em-
bargo, es mejor dejar la decisión a quien legalmente le corresponde, como
se argumentó en el caso sobre paternidad, de M.J.B.:T.A.T.
El efecto en la probabilidad a posteriori como consecuencia de alterar la
probabilidad a priori puede ser determinado a partir de (9.13) y (9.14). En
la Tabla 9.11 pueden verse algunos resultados.

Tabla 9.11 Probabilidades a posteriori de paternidad para varias pro-


babilidades a priori para la evidencia de presunto padre
E1 = 11 − 13, E 2 = 18 − 18

Pr(Hp) 0.5 0.25 0.1 0.01


Pr(Hp |E1) 0.708 0.447 0.195 0.024
Pr(Hp | E1, E2) 0.914 0.781 0.516 0.097

Esto es un ejemplo de una idea general expresada en la Sección 3.5.1.


Un ejemplo específico para paternidad es el siguiente.

“Se requiere el testimonio del experto para explicar al Jurado qué pro-
babilidades de paternidad se obtendrían partiendo de un amplio ran-
go de valoraciones de probabilidades a priori: desde 0.1 a 0.9”. (Estado
de Nueva Jersey contra J.M. Spann.)

La probabilidad Pr(Hp | E1, E2) puede escribirse así:


−1
 Pr(E1 | H d ) Pr(E 2 | H d ) Pr(H d ) 
1 + × × 
 Pr(E1 | H p ) Pr(E 2 | H p ) Pr(H p ) 

y si Pr(Hp) = Pr(Hd) = 0.5 entonces:


−1
 Pr(E1 | H d ) Pr(E 2 | H d ) 
Pr(H P | E1 , E 2 ) = 1 + ×  .
 Pr(E1 | H p ) Pr(E 2 | H p ) 
En general, para n marcadores de ADN independientes, con evidencias
E1, E2 ... En, con Pr(Hp) = Pr(Hd),
402   Datos discretos

−1
 n
Pr(E i | H d ) 
Pr(H p | E1 ,..., E n ) = 1 + ∏ 
 i =1 Pr(E i | H p ) 
n
donde ∏ Pr(Ei | Hd ) / Pr(Ei | H p ) es el producto de los inversos de las n ra-
i =1
zones de verosimilitud Pr(E i | H p ) / Pr(E i | H d ) . A la expresión anterior se
le llama plausibilidad de paternidad (Berry y Geisser, 1986). Obsérvese que
depende de suponer Pr(Hp) = Pr(Hd) = 0.5, que es muy poco realista en la
mayoría de los casos. Se puede prescindir de la asunción de que Pr(Hp) sea
igual a Pr(Hd) resultando:
−1
 Pr(H d ) n Pr(E i | H d ) 
Pr(H p | E1 ,..., E n ) = 1 + ∏  .
 Pr(H p ) i =1 Pr(E i | H p ) 

La plausibilidad de paternidad se ha transformado en verosimilitud de


paternidad (Hummel, 1971, 1983) para proporcionar una escala verbal, que
se presenta en la Tabla 9.12.

Tabla 9.12 Verosimilitud de paternidad de Hummel

Plausibilidad de paternidad Verosimilitud de paternidad


0.9980-0.9990 Prácticamente probado
0.9910-0.9979 Extremadamente probable
0.9500-0.9909 Muy probable
0.9000-0.9499 Probable
0.8000-0.8999 Indecisión
< 0.8000 No aporta información útil

Nótese que esta escala verbal es para probabilidades. La escala verbal


proporcionada por la Tabla 3.10 es para razones de verosimilitud.
Los expertos forenses suelen usar fórmulas para calcular probabilida-
des de perfiles de ADN respecto a dos individuos relacionados bajo la asun-
ción de independencia entre los genes. Balding y Nichols (1995) estudiaron
índices de paternidad en el caso en el que la madre, el presunto padre y el
padre alternativo pertenecieran a la misma subpoblación, cuando las esti-
maciones de las proporciones alélicas sólo estuvieron disponibles para una
Paternidad:
Paternidad:Combinación
combinacióndede lrs   403
LRS  

población total (general). Ayres (2000) y Lee y otros (2000) proporcionan


fórmulas de paternidad teniendo en cuenta parentesco u otras presuntas
relaciones, cuando se examinen dos individuos únicamente (por ejemplo,
el presunto padre y el hijo). Las fórmulas incorporan el denominado co-
eficiente de consanguinidad (coancestry coefficient) FST (Sección 13.5). El
efecto de la incorporación del coeficiente FST dentro de las ecuaciones con-
siste, en la mayoría de los casos, en un descenso del índice de paternidad
debido al parentesco. De hecho, la incertidumbre surge del hecho de que
las coincidencias pudieran deberse a que se comparten alelos entre el pre-
sunto padre y el conjunto de alternativas especificadas por Hd.
Fung y otros (2003) facilitaron fórmulas para los índices de paternidad
desarrolladas para algunas de las relaciones más frecuentes entre dos indi-
viduos (por ejemplo, presuntos hermanos carnales y hermanastros contra
personas no emparentadas). Se han incorporado probabilidades de mu-
tación en el cálculo de los LR,s. Se recomienda consultar los trabajos de
Dawid y otros (2001), Dawid (2003) y de Vicard y Dawid (2003) al respec-
to.
También se ha demostrado que es importante tener en cuenta el hecho
de que un pariente próximo al presunto padre pudiera ser el verdadero pa-
dre, además de la común alternativa de otro hombre no emparentado con
el primero. En Lee y otros (1999) pueden encontrarse fórmulas que tienen
en cuenta esta cuestión.

9.8.2 Probabilidad de exclusión en paternidad

Weir (1996a) comenta que puede ser útil caracterizar un marcador gené-
tico por su habilidad por excluir a un hombre aleatoriamente seleccionado
como presunto padre. Las llamadas probabilidades de exclusión dependen
de las frecuencias alélicas para los locus pero no de las probabilidades ge-
notípicas.
Consideremos un locus autosómico simple con alelos codominantes.
Hay K alelos en ese locus. A cada uno de ellos los llamaremos como u, v e
y. Primeramente, asumimos que la madre es de genotipo AuAu. Esto tiene
probabilidad pu2. El hijo puede ser Au Au con probabilidad pu o Au Av con
probabilidad pv (v≠u) (dado el genotipo de la madre). Si la madre es de
genotipo Au Av con probabilidad 2 pu pv, hay cinco posibles genotipos para
el hijo: Au Au; Av Av; Au Av; Au Ay; Av Ay, donde y ≠ u, v. Weir (1996a) tiene en
cuenta las probabilidades para los hombres excluidos para cada una de las
posibles combinaciones madre-hijo. La probabilidad de exclusión se calcu-
404   Datos discretos

la multiplicando todas las probabilidades para las combinaciones madre-


hijo-padre excluido y luego sumando las de las siete posibilidades. Esto da
una probabilidad de exclusión de:

Q = ∑ p u (1 − p u ) 2 − (1 / 2)∑∑ p 2u p 2v (4 − 3p u − 3p v )
u u v≠u

La anterior fórmula se maximiza cuando los K alelos del locus tienen


frecuencia 1 / K (ver Sección 4.5.2 para la obtención de un resultado simi-
lar asociado con el poder de discriminación), y entonces:

2K 3 + K 2 − 5K + 3
Q max = 1 −
K4

Cuanto más alelos haya, mejor es el locus de cara a la exclusión. Con 10


alelos, Qmax = 0.79. Con 30 alelos igualmente frecuentes, Qmax = 0.9324.
Como se discutió en la Sección 4.5.4 en el contexto de una combinación
de sistemas independientes y del poder de discriminación, el uso de varios
loci incrementará las probabilidades de exclusión. Sea Ql la probabilidad
de exclusión del locus l. La probabilidad de exclusión total Q, para loci in-
dependientes es:

Q = 1 − ∏ (1 − Q l )
l

Para dos loci independientes, cada uno de ellos con 10 alelos equiproba-
bles, Q aumenta de 0.79 a 0.96.
Fung y otros (2002) han estudiado la probabilidad de exclusión cuando
el verdadero padre pueda ser un pariente del presunto padre.
Capítulo 10
Datos continuos Datos continuos

10.1 La razón de verosimilitud

El capítulo anterior trató sobre la evaluación del LR cuando la evidencia


estaba representada por datos discretos, con referencia específica a siste-
mas de marcadores genéticos. Se obtuvo el valor de la evidencia en distin-
tos contextos. Sin embargo, hay mucha evidencia en forma tal que permite
que sobre ella se tomen medidas y para la que los datos son continuos. La
forma del estadístico para la evaluación de la evidencia bajo esas circuns-
tancias es similar al utilizado para datos discretos. Muchos de los ejemplos
en este capítulo se refieren a la interpretación de la evidencia de cristales;
en Curran (2003) puede encontrarse un análisis crítico sobre la interpreta-
ción estadística de tal evidencia.
Llamemos E a la evidencia, Hp y Hd a las dos proposiciones competiti-
vas, e I a la información de contexto sobre el caso. Formalmente, el valor V
de la evidencia viene dado por la fórmula:

P r (E | H p , I)
V=
P r (E | H d , I)

como anteriormente (ver (3.12) y (9.1)). La parte cuantitativa de la evidencia


está representada por las medidas de las características de interés. Sea x una
medida sobre la evidencia fuente e y una medida sobre el objeto receptor.
Por ejemplo, si se ha roto una ventana durante la comisión de un crimen,
las medidas de los índices de refracción de los m fragmentos de cristal en-
contrados en la escena del crimen se representarán mediante x1, …, xm (tam-
bién xT). Los índices de refracción de los n fragmentos de cristal encontrados
sobre el sospechoso se representarán mediante y1, …, yn (también yT). Por
convención, los vectores se muestran en negrita y los elementos de un vector
se escriben en columna. Como se mencionó en la Sección 7.3.8, el vector fila
correspondiente se escribe con el superíndice T que indica transposición (de
406   Datos continuos

una columna a una fila). Consúltese el Capítulo 11 para más detalles. La par-
te cuantitativa de la evidencia sobre fragmentos de cristal en este caso puede
escribirse de la siguiente forma:

E = (x, y)

En la notación de la Sección 1.6.1, Mc es la ventana rota de la escena del


crimen, Ms es el conjunto de fragmentos de cristal del sospechoso, Ec es x,
Es es y, M es (Mc, Ms) y E = (Ec, Es) = (x, y). Como estamos considerando
medidas continuas, las probabilidades Pr son, por tanto, reemplazadas por
funciones de densidad de probabilidad f (consultar Sección 2.4.2), de for-
ma que:

f(x, y | H p , I)
V= (10.1)
f(x, y | H d , I)

El teorema de Bayes y las reglas de la probabilidad condicional se apli-


can a las funciones de densidad de probabilidad igual que a las probabi-
lidades. El valor, V, de la evidencia (10.1) puede escribirse de la siguiente
forma:

f(x, y | H p , I) f(y | x, H p , I) f(x | H p , I)


V= = ×
f(x, y | H d , I) f(y | x, H d , I) f(x | H d , I)

Las medidas de x son las de la fuente, las de control o las del objeto. Su
distribución y la función de densidad de probabilidad correspondiente son
independientes de si Hp o Hd son ciertas. De este modo:

f(x | H p , I) = f(x | H d , I)

y entonces:

f(x, y | H p , I) f(y | x, H p , I)
V= =
f(x, y | H d , I) f(y | x, H d , I)

Si Hd es cierta, se asume que las medidas (y) sobre el objeto receptor y


las medidas (x) sobre el objeto fuente son independientes. De este modo:

f(y | x, H d , I) = f(y | H d , I)
La razón de verosimilitud   407

f(x, y | H p , I) f(y | x, H p , I)
V= = (10.2)
f(x, y | H d , I) f(y | H d , I)

La asunción de independencia está relajada en el Capítulo 13 en la dis-


cusión sobre perfiles de ADN. El numerador es una distribución predictiva
(Sección 6.3.2). El denominador se denomina distribución marginal de las
medidas del receptor en la población relevante, cuya definición está auxi-
liada por I. Esta formulación de la expresión para V muestra que en el
numerador consideramos la distribución de las medidas del receptor, con-
dicionada a las medidas de la fuente y a la información de contexto I. En
el denominador consideramos la distribución de las medidas del receptor
sobre la distribución de toda la población relevante.
Las dos proposiciones comparadas son:
• Hp, la muestra receptora viene de la misma fuente que la muestra
originaria;
• Hd, la muestra receptora viene de una fuente diferente que la mues-
tra originaria.
Primeramente, consideremos Hp. Las medidas originaria y del receptor
provienen de la misma fuente. Las medidas sobre esta fuente tienen una
media cierta θ, digamos. Por ejemplo, si las medidas son de índices de re-
fracción de cristal, entonces por θ denominamos a la media de índices de
refracción de la ventana de la que proceden los cristales. Por razones de
simplicidad, los elementos condicionantes Hp e I, la información de con-
texto del caso, se omitirán en las ecuaciones que siguen. La distribución
predictiva f(y | x) puede expresarse del siguiente modo:

f (y | x) = ∫ f(y | θ)f (θ | x)dθ =


∫ f(y | θ)f (x | θ)f (θ)dθ = ∫ f(y | θ)f (x | θ)f (θ)dθ
f ( x) ∫ f (x | θ)f (θ)dθ
la razón de la distribución conjunta de x e y con la distribución marginal
de x. Ambas distribuciones son independientes de θ, la cual es integrada
aparte. Las distribuciones están hechas a partir de medidas sobre todas las
ventanas.
Para Hd, situación en la que las medidas originarias y del receptor pro-
vienen de fuentes distintas, las medidas de interés se centran en las reali-
zadas sobre el objeto receptor, denominadas y. La función de densidad de
probabilidad para y es la siguiente:
408   Datos continuos

f(y ) = ∫ f(y | θ)f (θ)dθ

V puede escribirse del siguiente modo:

∫ f (y | θ)f (x | θ)f (θ)dθ


(10.3)
∫ f (x | θ)f (θ)dθ∫ f (y | θ)f (θ)dθ
Para aquellos que no están familiarizados con esta clase de transforma-
ciones, se ha utilizado el teorema de Bayes aplicado a las distribuciones de
probabilidad condicional para escribir f(θ | x) como f(x | θ) f(θ) / f(x). Para
sustituir f(x) por ∫f(x|θ)f(θ)dθ se ha utilizado la ley de la probabilidad total
reemplazando la suma por una integral.

10.2 Distribución normal para datos interfuente

La aproximación para evaluar la evidencia descrita en el apartado an-


terior fue propuesta por Lindley (1977a) en el contexto de un problema
relacionado con medidas de índices de refracción de cristales. Esas medi-
das pueden realizarse sobre fragmentos de cristal en la escena del crimen
y sobre fragmentos de cristal de ventana encontrados en la ropa del sospe-
choso (ver el Ejemplo 1.2). Tales medidas están sujetas a error, y ese error
se incorpora a V.

10.2.1 Fuentes de variación

Observemos que hay a menudo dos fuentes de variación que tenemos


que considerar en las medidas. Hay variación dentro de una fuente parti-
cular (intrafuente) y variación entre fuentes diferentes (interfuente).
Por ejemplo, consideremos la evidencia de fragmentos de cristal pro-
cedentes de una ventana rota de los que se han obtenido medidas de
sus índices de refracción. Existe variación en las medidas de los índi-
ces de refracción entre los diferentes fragmentos de cristal. Esas me-
didas distintas pueden considerarse como muestras de una población
correspondiente a todas las posibles medidas de índices de refracción
de una ventana en particular. La población tiene una media, digamos
θ, y una varianza σ2. Asumimos que las medidas de índice de refracción
de los fragmentos de la ventana se distribuyen Normalmente con media
Distribución normal para datos interfuente   409

θ y varianza σ2. En segundo término, existe variación en la media θ de


los índices de refracción entre distintas ventanas. La media θ tiene una
distribución de probabilidad con su propia media µ, digamos, y varian-
za τ2. Generalmente, τ2 será mayor que σ2. Inicialmente, se asume que
θ se distribuye Normalmente también. Sin embargo, si observamos la
Figura 10.1, que representa un histograma de las medidas de índices
de refracción de 2269 muestras de cristal “float” de edificios recogidas
en la Tabla 10.5 (Lambert y Evett, 1984), se percibe que la asunción de
Normalidad no es particularmente realista. En la Sección 10.4 se mues-
tra una aproximación más realista.
Podemos hacer consideraciones semejantes con otros tipos de eviden-
cia. Para medidas de anchuras medulares de pelos de gato, por ejemplo,
habrá variación entre pelos del mismo gato y entre pelos de distintos gatos.
Para pelos humanos habrá variaciones entre las características en cabellos
de la misma cabeza (y también dentro del propio pelo) y entre cabellos
de diferentes cabezas. Para medidas de huellas de calzado, encontramos
considerable variabilidad entre huellas de calzado de distintas personas y
considerable similitud entre múltiples impresiones tomadas de la misma
persona (Kennedy y otros, 2003).
De este modo, cuando consideramos la valoración de datos continuos
tenemos en cuenta, al menos, dos fuentes de variabilidad: la variabilidad
intrafuente (por ejemplo, en una ventana) de la que se obtuvieron múlti-
ples medidas, y la variabilidad entre múltiples posibles fuentes (por ejem-
plo, entre múltiples ventanas).

10.2.2 Derivación de la distribución marginal

Sea x una medida tomada de un fragmento particular en su forma origi-


naria. Sea θ1 la media de las medidas en la fuente de este fragmento. Sea y
una medida de fragmento receptor particular, y θ2 la media de las medidas
en la fuente de este fragmento. La varianza de las medidas dentro de una
misma fuente se asume constante, y esto ocurre para todas las fuentes, de-
nominándose σ2.
410   Datos continuos

Figura 10.1. Medidas del índice de refracción de 2269 fragmentos de cristal


“float” de edificios (de Lambert y Evett, 1984).

La dependencia de la distribución de esas medidas sobre la fuente de la


que proceden debe explícitamente señalarse en la notación. Las distribu-
ciones de X e Y, dadas θ1, θ2 y σ2, son las siguientes:

(X | θ1, σ2) ∼ N(θ1, σ2)


(Y | θ2, σ2) ∼ N(θ2, σ2)

donde la dependencia de θ1 ó θ2 y σ2 está reflejada explícitamente.


Obsérvese también que la variación en X está modelada. Contrastemos
esta aproximación con la de probabilidad de coincidencia realizada en
la Sección 4.7 en la cual la media de las medidas de los fragmentos des-
de su forma originaria se consideró fija. El condicionamiento sobre Hd
está implícito. Las medias θ1 y θ2 de esas distribuciones pueden conside-
rarse observaciones de otra distribución (que representa la variabilidad
interfuentes) que por el momento consideramos Normal, con media µ y
varianza τ2. De este modo, θ1 y θ2 tienen la misma función de densidad de
probabilidad y:

(θ | µ, τ2) ∼ N(µ, τ2)

Las distribuciones de X y de Y, independientemente de θ, pueden hallar-


se mediante las denominadas convoluciones de x y de y con θ para dar:
Distribución normal para datos interfuente   411

f ( x | µ, σ2 , τ2 ) = ∫ f ( x | θ, σ2 )f (θ | µ, τ2 )dθ =
1  1   1 
=∫ exp− ( x − θ) 2  exp− (θ − µ) 2 dθ =
2πσ2 τ2  2σ 2   2τ2 
1  1 
exp− ( x − µ) 2 
2π(σ 2 + τ2 )  2(σ 2 + τ2 ) 
utilizando el resultado de que:

1 1 (θ − µ1 ) 2 ( x − µ) 2
( x − θ) 2 + (θ − µ ) 2 = +
2σ 2 2τ 2 τ12 σ2 + τ2
donde
σ 2µ + τ 2 x
µ1 =
σ2 + τ2
σ2 τ2
τ12 =
σ2 + τ2
De forma similar:

1  1 
f ( y | µ, σ 2 , τ 2 ) = exp− ( y − µ) 2 
2π(σ 2 + τ 2 )  2(σ 2 + τ 2 ) 
Obsérvese que τ2 ha sido omitido de las distribuciones de x y de y dados
θ1, θ2 y σ2. Esto es porque las distribuciones de x e y dados esos parámetros
son independientes de τ2. De forma similar, la distribución de θ, dados µ y
τ2, es independiente de σ2.
El efecto de las dos fuentes de variabilidad es que la media de las medi-
das de índices de refracción es la media total µ y la varianza es la suma de
las varianzas σ2 y τ2. La distribución permanece Normal. De este modo:

(X | µ, σ2, τ2) ∼ N(µ, σ2 + τ2),

(Y | µ, σ2, τ2) ∼ N(µ, σ2 + τ2) (10.4)

10.2.3 Derivación aproximada del LR

Consideremos una aplicación a una ventana rota como en el Ejemplo


1.2. Hubo un crimen en cuyo transcurso se rompió una ventana. Se arrestó
412   Datos continuos

a un sospechoso poco después del suceso y se encontró un fragmento de


cristal en sus ropas. El índice de refracción es y. Tomamos una muestra
de m fragmentos de cristal de la ventana rota en la escena del crimen y las
medidas de sus índices de refracción son: x = (x1, …, xm)T, con media x . Las
dos proposiciones que han de compararse son:
• Hp, el fragmento receptor viene de la ventana de la escena del crimen;
• Hd, el fragmento receptor no viene de la ventana de la escena del
crimen.
Podemos obtener una derivación aproximada del LR reemplazando θ
por x en la distribución de y, de forma que f(y | θ, σ2) se convierte en f(y
| x , σ2). (Véase (5.11) para encontrar un resultado similar utilizando un a
priori uniforme para una distribución Normal). Esto es sólo un resulta-
do distribucional aproximado. Se conseguirá un resultado más exacto más
adelante teniendo en cuenta la variabilidad del muestreo de x . Por el mo-
mento, un resultado aproximado para el numerador sería:

(Y | x , σ2, Hp, I) ∼ N( x , σ2) (10.5)

una aplicación de (5.11). También, de (10.4):

(Y | µ, σ2, τ2, Hd, I) ∼ N(µ,τ2 + σ2) (10.6)

Para τ2 mucho mayor que σ2, asumimos también que τ2 + σ2 puede aproxi-
marse por τ2. El LR es entonces:

1  ( y − x)2 
exp − 
2σ 2  τ  ( y − µ) 2 ( y − x ) 2 
V = σ 2π  = exp  − 
1  ( y − µ) 2  σ  2τ2 2σ 2 
exp− 
τ 2π  2τ2 

(Evett, 1986). Observe que este LR depende de la asunción de que los


fragmentos encontrados en el sospechoso proceden de una única fuente y
que además proceden de la escena del crimen.
Este resultado tiene intuitivamente algunas propiedades interesantes.
El LR es mayor para valores de y que estén lejos de µ y, por consiguiente,
podemos asumir que son más raros; es decir, cuanto más raro sea el va-
lor del índice de refracción del fragmento recuperado, mayor será el LR.
También, cuanto mayor sea el valor de |y – x |, menor será el valor del LR; es
decir, cuanto más lejos esté el valor del índice de refracción del fragmento
de cristal recuperado de la media de los valores del índice de refracción de
los fragmentos fuente, menor será el LR.
Distribución normal para datos interfuente   413

Evett (1986) aporta valores para τ iguales a 4 × 10–3 y para σ iguales a 4 ×


10–5. En la Tabla 10.1 se pueden encontrar valores de V para diversos valo-
res de (y – µ)/τ y de (y – x )/σ, las distancias estandarizadas de y de la media
total y de la media de la fuente.
Observe que la razón τ / σ = 100, dando amplia justificación para la
aproximación τ2 para la varianza de y, dado Hd, más arriba. También, que
esta razón contribuye en gran medida al valor de V.
Para la Sección 10.5 se deja la consideración de las probabilidades de
transferencia de fragmentos (Sección 8.3), tanto desde la escena del cri-
men como por motivos inocentes (Evett, 1986).

Tabla 10.1 Valores de LR para valores variantes de [(y – x )/σ] e [(y – µ)/τ].

[(y – x )/σ] [(y – µ)/τ]


0 1 2
0 100 165 739
1 61 100 448
2 14 22 100
3 1 2 8

10.2.4 La aproximación de Lindley

Lindley (1977a) aporta un análisis más detallado. Asumamos, como an-


tes, que las medidas se distribuyen alrededor de un valor desconocido ver-
dadero, θ, del índice de refracción con una distribución Normal y una va-
rianza constante conocida σ2, y que las proposiciones Hp y Hd que se com-
paran son las que enunciamos en la Sección 10.2.3. Si tomamos m medidas
en la escena del crimen (medidas fuente, x1, …, xm), entonces es suficiente
m xi
considerar su media: x=∑ . La media X está distribuida Normalmente
i =1 m
alrededor de θ1 con varianza σ2/m y condicionada a θ1, la media del índice
de refracción de la ventana del crimen; denominamos y a la media de n
medidas similares (medidas del receptor, y1, …, yn), tomadas del material
encontrado en el sospechoso; la media Y está distribuida Normalmente al-
rededor de θ2 con varianza σ2/n y condicionada a θ2, la media del índice de
refracción de los fragmentos recuperados. En el caso de Hp, donde las me-
didas de la fuente y del receptor proceden del mismo origen, θ1 = θ2. De otro
modo, en el caso de Hd, θ1 ≠ θ2.
414   Datos continuos

También se ha de considerar la distribución de los verdaderos valores


de θ. Existe considerable evidencia sobre la distribución de los índices de
refracción; consultar, por ejemplo, Curran y otros (2000). Primeramente,
asumamos como antes que los verdaderos valores de θ están distribuidos
Normalmente alrededor de la media µ y con varianza τ2, las cuales se asu-
men conocidas. Generalmente, τ será mayor, a veces mucho mayor, que σ
(véase lo anterior, donde τ /σ = 100). Esta asunción de Normalidad no es
realista en este contexto donde la distribución tiene un pico pronunciado
y una larga cola hacia la derecha; ver la Figura 10.1. Sin embargo, el uso
de la asunción de Normalidad permite que obtengamos valores analíticos
que nos sirven como ilustración de una aplicación general del método. Las
distribuciones no condicionadas de X y de Y son N(µ, τ + (σ2/m)) y N(µ, τ
+ (σ2/n)), respectivamente.
En el Apéndice de este capítulo (Sección 10.7) se aporta una breve de-
rivación de V siguiendo los argumentos de Lindley (1977a). De la Sección
10.7, si el número de medidas de control es igual al número de medidas
recuperadas, m = n, se desprende que z = w = 1 / 2 ( x + y ) y que σ1 = σ 2 .
2 2

Entonces:

m1/2 τ  m( x − y) 2   ( z − µ) 2 
V≅ exp−  exp−  (10.7)
21 / 2 σ  4σ 2   2τ2 
Observe de nuevo que este resultado asume implícitamente que los
fragmentos provienen de una sola fuente. Denotemos esta asunción por S.
Entonces, el resultado anterior es la razón entre las funciones de densidad
f ( x , y | H p , S)
de probabilidad . Grove (1980) aportó un resultado incluyen-
f ( x , y | H d , S)
do a S como uno de los elementos de incertidumbre y derivando la siguien-
f ( x , y, S | H p , S)
te expresión: .
f ( x , y, S | H d , S)
Sea T el suceso de que los fragmentos fueron transferidos desde la ven-
tana rota al sospechoso y persistieron en él hasta que fueron descubiertos
por la policía. Sea A el suceso de que el sospechoso hubiera tenido contac-
to con otros cristales de distinta fuente. Asumamos que Pr(A | Hp) = Pr(A
| Hd) = pA, que Pr(T | Hp) = pT, que A y T son independientes dado Hp y que
Pr(T | Hd) ≅ 0. Grove (1980) demostró que:
Distribución normal para datos interfuente   415

f ( x , y, S | H p )  f ( x, y | H p ) 
V= = 1 + p T (p −A1 − 1) − 1
f ( x , y, S | H d )  f ( x, y | H d ) 

p T (1 − p A ) f ( x , y | H p )
= (1 − p T ) + × (10.8)
pA f ( x, y | H d )
f (x, y | H p )
donde es la razón de Lindley (1977a). El valor derivado por
f (x, y | H d )
Grove (1980) tiene en cuenta la transferencia y la persistencia en una for-
ma ya derivada para datos discretos (ver la Sección 8.3.3). En la Sección
10.5.2 se proporciona otra derivación para datos continuos (10.14).

10.2.5 Interpretación de resultados

La interpretación de (10.7) se considera ahora en el caso particular de que


m = n = 1. V consta de dos factores de los cuales depende la medida. El prime-
 − ( x − y) 2 
ro es exp 2  . Este término compara el valor absoluto de la diferen-
 4σ 
cia | x − y | de las medidas de control y recuperadas con su desviación estándar
σ√2, sobre la proposición (θ1 = θ2) de que proceden de la misma fuente. Sea:

|x−y|

σ 2
Entonces, el valor del primer factor es exp(–λ2/2). Un valor grande de λ
favorece la hipótesis de que los dos fragmentos proceden de fuentes dis-
tintas. Este factor tiene un efecto similar al contraste de una hipótesis de
identidad nula (θ1 = θ2).
 − ( z − µ) 2  1
El segundo factor, exp 2  , con z = ( x + y) , mide la rareza de
 2τ  2
las dos medidas. Este factor alcanza su valor mínimo, el valor 1, cuando z
= µ, y sube a medida que |z – µ| se incrementa con respecto a su desviación
estándar. De este modo, cuanto más raro sea el cristal (es decir, cuanto
más grande sea el valor de |z – µ|), mayor será el valor de V y más fuerte
será la inferencia a favor de que las dos medidas provienen de una misma
fuente. Tengamos en cuenta el comentario de Parker y Holford (1968) en
la Sección 4.7. El primer factor tiene en cuenta la similitud. El segundo la
rareza. No se ha pasado por alto la valoración de la similitud.
416   Datos continuos

Evaluación de los LR: las curvas Tippett

El resultado de un método de evaluación basado en el LR puede esti-


marse comparando los valores que se obtengan en cotejos donde se conoz-
ca que los ficheros enfrentados procedan de la misma fuente con los que
se obtengan cuando igualmente se conozca que los ficheros enfrentados
procedan de fuentes distintas.
El primer paso consiste en estimar el funcionamiento del método utilizado
en dos situaciones. Por un lado, se determinan los valores de la evidencia para
objetos conocidos que proceden de la misma fuente. De manera análoga, se de-
terminan los valores de la evidencia para objetos procedentes de fuentes dis-
tintas. Los resultados se representan como sigue. El eje de abscisas se gradúa
en función de los valores ascendentes del LR (frecuentemente en escala loga-
rítmica) y en el eje de ordenadas se representa el número de casos que exceden
cada valor del LR. La gráfica consta de dos curvas, la primera representando el
número de veces en que se supera cada valor de LR enfrentando en cada cote-
jo ficheros procedentes de la misma persona (comparaciones intrafuente), y la
segunda representando el número de veces en que se supera cada valor de LR
enfrentando en cada cotejo ficheros procedentes de personas distintas (compa-
raciones interfuente). La potencia del método se mide comparando las propor-
ciones que exceden cada valor de LR en cada una de las curvas. Por ejemplo,
en comparaciones intrafuente, la proporción de valores que excedan la unidad
ha de ser mayor que para las comparaciones interfuente. En comparaciones
interfuente, la proporción de valores menores de la unidad ha de ser mayor que
para las comparaciones intrafuente. Esto proporciona un método alternativo de
demostrar el poder discriminante del método analítico utilizado por el experto.
En la práctica, el experto simula las comparaciones intrafuente. En la
evidencia de ADN, por ejemplo, y en casos donde el autor de la ofensa y el
sospechoso sean la misma persona, el LR está determinado por las perso-
nas que componen una base de datos de tamaño n. Existen n valores para
los LR correspondientes a comparaciones de perfiles tomados de la misma
persona. El siguiente paso consiste en realizar comparaciones entre todos
los posibles pares de perfiles pertenecientes a las personas que conforman
la base de datos. Se realizan, por tanto, n (n –1) / 2 comparaciones inter-
fuente y, consecuentemente, se calculan n (n –1) / 2 valores de LR.
Se han descrito aplicaciones mediante este procedimiento que produ-
ce curvas Tippett para ADN (Evett y otros, 1993; Evett y Buckleton, 1996;
Evett y Weir, 1998), para reconocimiento de locutores por la voz (Meuwly,
2001; Meuwly y Drygajlo, 2001), y para relaciones entre incautaciones de
heroína (Dujourdy y otros, 2003).
Distribución normal para datos interfuente   417

10.2.6 Ejemplos

Consideremos un caso con sólo un fragmento de cristal de control (m =


1) y un fragmento recuperado (n = 1). Los llamamos x e y por consisten-
cia con (10.7). Supongamos que la relación entre la desviación estándar in-
tergrupos τ y la desviación estándar intragrupos σ sea 100. Las medidas de
control y recuperadas tienen desviaciones estándar intragrupos diferentes.
|x−y|
Como la varianza de x − y es 2σ2, esta separación implica que =2.
σ 2
Un contraste de hipótesis tradicional (Sección 4.6) rechazaría la hipótesis
de una fuente común con un 5% de nivel de significación. Asumamos que
x+y
el punto medio de x e y , que es , la media, que llamamos z (en 10.7),
2
es la media poblacional µ. Entonces, de (10.7):

100e −2
V= = 9.57
2
La apuesta a favor de una fuente común ha sido incrementada por un
factor cercano a 10, un resultado que contrasta con el rechazo con un nivel
de significación del 5% en un contraste de hipótesis convencional. En la
Tabla 10.2 pueden verse los valores de (10.7) para (τ / σ) = 100 como una
función de λ y δ = |z – µ| / τ, la desviación de la media de las dos medidas de
µ, estandarizada sobre la asunción de que la hipótesis de que proceden de
una misma fuente es cierta.

Tabla 10.2 Valor de τ(21/2σ)–1 exp(–(1/2)λ2+(1/2)δ2) (10.7) en función de


|x−y|
λ= y δ = |z – µ| / τ para τ /σ = 100.
σ 2

λ
δ
0 1.0 2.0 4.0 6.0
0 70.7 42.9 9.57 0.024 1.08 x 10–6
1.0 117 70.7 15.8 0.039 1.78 x 10–6
2.0 522 317 70.7 0.175 7.94 x 10–6
3.0 6370 3860 861 2.14 9.71 x 10–5

Consideremos la fórmula más general para V dada en (10.25) en la


Sección 10.7, es decir:
418   Datos continuos

τ  ( x − y) 2   ( w − µ) 2 ( z − µ) 2 
V≅ exp−  exp− +  (10.9)
aσ  2a 2 σ 2   2τ 2 τ2 
Se necesita la siguiente información para evaluar V:
• el número de medidas de la fuente (m);
• la media de las medidas de la fuente ( x );
• el número de medidas del receptor (n);
• la media de las medidas del receptor ( y );
• la varianza (se asume conocida) de las medidas en las muestras de
la fuente y del receptor (σ2);
• la media total (se asume conocida) de los índices de refracción (µ);
• la varianza total (se asume conocida) de los índices de refracción (τ2).
Los siguientes valores se derivan de los anteriormente referidos:
x+y
z= ;
2
mx + ny
w= ;
m+n
1 1
a2 = + .
m n

En el siguiente ejemplo numérico utilizando datos de Evett (1977) y de


Lindley (1977a) tenemos que x = 1.518458, m = 10, y = 1.518472, n =
5, σ = 0.00004, τ = 0.004. La media total µ vale 1.5182 y se ha derivado
de 2269 medidas de cristal “float” de edificio publicadas por Lambert y
Evett (1984); ver la Figura 10.1. Con estos datos, a2 = 0.3, w = 1.518463, z =
1.518465, y:
τ
= 182.5742

( x − y) 2
= 0.2042
2a 2σ 2
( w − µ) 2
= 0.00216
2τ 2
( z − µ) 2
= 0.00439
τ2
V = 149.19
Estimación de una función de densidad de probabilidad   419

La apuesta a favor de que el sospechoso estuviera en la escena del cri-


men ha sido incrementada por un factor de 150.

10.3 Estimación de una función de densidad de proba-


bilidad

La estimación de una media (µ) y varianza (σ2) poblacionales a partir de


una media ( x ) y una varianza (s2) muestrales de datos muestreados desde
una población de referencia es una idea común. También, la función de
densidad de probabilidad puede estimarse a partir de datos tomados de la
población. Este procedimiento es especialmente necesario cuando se cons-
tate que no todos los datos tienen una distribución fácilmente modelable
por una distribución estándar. En particular, no todos los datos son unimo-
dales, simétricos y acampanados, de forma que puedan ser modelados me-
diante una distribución Normal. El histograma de los índices de refracción
de los fragmentos de cristal (Figura 10.1) y un histograma de las anchuras
medulares de los pelos de gato (Figura 10.2, a partir de los datos de la Tabla
10.3) ilustran este asunto.

Figura 10.2. Anchura medular (en micras) de 220 pelos de gato (de Peabody
y otros, 1983).
420   Datos continuos

La estimación de una función de densidad de probabilidad no es de-


masiado complicada si la distribución es bastante suave. Se utiliza un
procedimiento denominado estimación de la densidad de núcleo; consúl-
tese Silverman (1986) para detalles técnicos. Las primeras aplicaciones
a la ciencia forense pueden verse en Aitken y MacDonald (1979) con res-
pecto a datos discretos en odontología forense, y en Aitken (1986) para la
discriminación entre pelos de gatos y perros en la que se consideran dos
variables, y en Evett y otros (1992b) para perfiles de ADN. En este libro
presentamos un ejemplo de la aplicación de esta técnica a la distribución
de la anchura medular de pelos de gato. En el Capítulo 11, se presenta un
ejemplo con tres variables relacionadas con la composición elemental del
cristal.
Consideremos los datos de anchuras medulares (en micras) de 220 pe-
los de gato (Peabody y otros, 1983). En la Tabla 10.3 se presenta una ver-
sión modificada para realizar los análisis más fácilmente, y en la Figura
10.2 un histograma que ilustra la distribución, en el que se observa que
los datos están positivamente desplazados y quizá no sean unimodales.
El histograma se ha construido a partir de todos los datos del conjun-
to seleccionando intervalos de anchura y extremos fijos, concretamente:
15.0 – 20.0, 20.01 – 25.0, …, 105.01 – 110.0 micras. Las observaciones
individuales se reparten entre los intervalos apropiados y se cuentan las
frecuencias obtenidas. Cada intervalo tiene una anchura de 5 unidades
(micras), y contamos con 220 observaciones. Si a cada observación se le
asigna la altura unidad, el área total cubierta por el histograma es de 5 ×
220 = 1.100 unidades. De este modo, si la altura de cada barra del histo-
grama se divide por 1.100, el área bajo el nuevo histograma será la uni-
dad. Este nuevo histograma puede considerarse una función de probabi-
lidad muy simplificada (con escalones en los puntos límite de las barras
del histograma).
Estimación de una función de densidad de probabilidad   421

Tabla 10.3 Anchuras medulares en micras de 220 pelos de gatos (Peabo-


dy y otros, 1983)

17.767 28.600 39.433 52.233 68.467


18.633 28.600 39.867 52.867 69.333
19.067 29.033 39.867 53.300 71.067
19.067 29.033 39.867 53.300 71.500
19.067 29.467 40.300 53.733 71.667
19.133 30.333 40.300 53.733 73.233
19.300 30.767 40.733 54.167 74.533
19.933 31.200 41.167 54.600 75.400
19.933 31.200 41.167 55.033 76.267
20.367 31.300 41.600 55.467 76.267
20.367 31.633 41.600 55.900 77.133
20.367 31.633 42.033 56.767 77.367
20.600 31.807 42.467 57.200 78.000
20.800 32.000 42.467 57.200 78.000
20.800 32.067 42.467 57.200 79.500
21.233 32.067 42.467 57.633 79.733
21.233 32.500 42.467 58.067 80.167
21.400 32.500 42.467 58.067 80.167
22.533 33.800 42.900 58.500 80.167
22.967 33.800 42.900 58.933 81.467
22.967 34.233 42.900 58.933 81.467
23.400 34.667 42.900 60.233 81.900
23.833 34.667 43.333 60.533 82.767
23.833 35.533 44.200 60.667 84.067
24.267 35.533 44.200 60.667 87.100
24.700 35.533 44.300 60.667 87.967
25.133 35.533 45.067 61.100 90.133
25.133 35.533 45.933 61.967 90.267
25.133 36.400 45.933 62.400 91.867
25.133 36.400 45.933 62.400 91.867
25.300 37.267 46.150 63.000 92.733
26.000 37.267 46.583 63.267 93.167
26.000 37.267 46.800 63.700 93.600
26.233 38.567 46.800 65.433 95.333
26.433 38.567 47.167 65.867 96.267
26.433 38.567 48.100 66.300 97.067
26.867 39.000 48.317 66.733 97.500
26.867 39.000 48.967 66.733 97.500
27.133 39.000 48.967 66.733 97.933
27.733 39.000 49.400 67.167 99.667
27.733 39.000 50.267 67.600 100.100
27.733 39.433 51.567 67.600 106.600
28.167 39.433 51.567 68.033 106.600
28.167 39.433 52.000 68.033 107.467

El método de la estimación de la densidad de núcleo puede considerarse


como un desarrollo del histograma. Consideremos un histograma construido
422   Datos continuos

con bloques rectangulares, correspondiendo cada bloque a una observación.


El bloque se posiciona en el intervalo en el que encaja cada observación. El
método de la estimación de la densidad núcleo aquí utilizado reemplaza cada
bloque rectangular por una curva de densidad de probabilidad Normal, cono-
cida en este contexto como función núcleo. La curva se posiciona centrándose
sobre la observación con la que se relaciona. La estimación de la curva de den-
sidad de probabilidad se obtiene sumando todas las curvas individuales rela-
cionadas con las observaciones del conjunto de datos y dividiendo esta suma
por el número total de observaciones. Como cada componente de la suma es
una función de densidad de probabilidad, cada componente tiene área unidad.
De este modo, la suma de las funciones dividida por el número de observacio-
nes también tiene área unidad y es una función de densidad de probabilidad.
Cuando se construye un histograma, se ha de tomar inicialmente una de-
cisión con respecto a la anchura de los intervalos. Si la anchura es amplia, el
histograma es poco informativo con respecto a la distribución subyacente.
Si es estrecha, hay demasiado detalle y pueden perderse propiedades genera-
les de la distribución. De forma análoga, en la estimación de la densidad de
núcleo se ha de determinar la extensión de las curvas de densidad Normales.
La extensión de las curvas está representada mediante la varianza. Si la va-
rianza es grande, la curva resultante es demasiado suave. Si la varianza es
demasiado pequeña, la curva es muy picuda (ver la Figura 10.3).

Figura 10.3. Ejemplos de estimaciones de densidad núcleo mostrando nú-


cleos individuales. Los valores del parámetro de suavizado son (a) λ = 0.5 y
(b) λ = 1.
Estimación de una función de densidad de probabilidad 423

Matemáticamente, la estimación de la densidad de núcleo de una fun-


ción de densidad de probabilidad subyacente puede construirse como si-
gue. Lo que va a exponerse está enmarcado en el contexto de la estimación
de la distribución de la anchura medular de pelos de gato. Existen varia-
ciones en la anchura medular entre pelos de un mismo gato y de distintos
gatos. Llamamos θ a la medida de la media de anchura medular de pelos
procedentes de un gato en particular. Tenemos que estimar la función de
densidad de probabilidad correspondiente f(θ). Disponemos de un conjun-
to de datos para hacer esto: D={z1, …, zk}. La varianza de la anchura de los
pelos de diferentes gatos se estima mediante la fórmula:

k
(z i − z ) 2
s2 = ∑ (10.10)
i =1 ( k − 1)

donde z es la media muestral. Esta varianza es una mezcla de las varianzas


midiendo la variabilidad de la anchura medular entre distintos gatos y dentro
de un mismo gato, y se utilizará como una aproximación para la varianza de
la anchura medular entre distintos gatos. La desviación estándar muestral s se
multiplica entonces por un parámetro, conocido como parámetro de suaviza-
do, representado aquí por λ, el cual determina la suavidad de la estimación de la
densidad. La función de densidad de núcleo K(θ|zi, λ) para el punto zi es enton-
ces considerada como una distribución Normal de media zi y varianza λ2s2,

1 ⎧ (θ − z i ) 2 ⎫
K (θ | z i , λ ) = exp⎨− 2 2 ⎬
λs 2 π ⎩ 2λ s ⎭

La estimación f̂ (θ | D, λ) de la función de densidad de probabilidad vie-


ne dada por la siguiente expresión:

1 k
f̂ (θ | D, λ) = ∑ K (θ | z i , λ )
k i =1
(10.11)

Obsérvese que existe una asunción implícita de que existe un conjunto


de datos adecuado que denominamos D y que procede de una población
relevante. Este último comentario es de particular relevancia cuando trate-
mos con perfiles de ADN donde existe un profundo debate sobre la elección
de la población relevante en un caso particular. También, si existieran da-
tos disponibles sobre la variabilidad intergrupos, podría realizarse un ajus-
te para la estimación de la varianza intergrupal s2 (10.10). Consideremos
424   Datos continuos

datos de la forma siguiente: {zij, i = 1,…,k, j = 1,…,l}, donde k es el número


de grupos y l el número de miembros de cada grupo, asumidos constantes
entre los grupos. Sea zi la media del i-ésimo grupo y z la media global. La
varianza intragrupo σ2 se estima de la siguiente manera:
k l
(z ij − zi ) 2
σˆ 2 = ∑∑
i =1 j=1 (kl − k )
y la varianza intergrupo τ2 de esta otra:

k
(z i − z ) 2
s2 = ∑
σˆ 2
i =1
(k − 1) −
k
σˆ 2
un ajuste de si nos fijamos en (10.10).
k
El parámetro de suavizado k se tiene que elegir. Existen procedimien-
tos matemáticos para una elección automática. Por ejemplo, el llamado
procedimiento de pseudomáxima verosimilitud (Habbema y otros, 1974) se
utilizó para determinar el valor de λ (0.09) usado en la Figura 10.4. Un va-
lor de λ igual a 0.5 fue utilizado para generar la curva de la Figura 10.5 que
ilustra el efecto de que un valor mayor de λ produce una curva más suave.

Figura 10.4. Anchuras medulares, en micras, de pelos de gato (Peabody y


otros, 1983) y estimación de la densidad de núcleo asociada con un parámetro
de suavizado igual a 0.09
Estimación de una función de densidad de probabilidad   425

Figura 10.5. Anchuras medulares, en micras, de pelos de gato (Peabody y


otros, 1983) y estimación de la densidad de núcleo asociada con un paráme-
tro de suavizado igual a 0.50.

La elección de λ ha de realizarse teniendo en cuenta que el fin del aná-


lisis es proporcionar un valor V para la evidencia en un caso particular,
como el representado por el LR. Utilizando el procedimiento de estima-
ción de la densidad de núcleo se ha obtenido una expresión para V; ver
(10.13). Tiene gran interés investigar cómo varía V en función de λ. Si V
no varía demasiado cuando λ varía, entonces no es necesario un valor
preciso para λ. Por ejemplo, resulta viable elegir un valor de λ de forma
subjetiva comparando la curva de estimación de densidad f̂ obtenida para
varios valores de λ con el histograma de los datos. Puede elegirse el valor
que proporcione el mejor encaje visual. Alternativamente, partiendo de
la experiencia personal del experto sobre la distribución de las medidas
de la característica de interés, se puede pensar que faltan determinados
valores en el conjunto de datos D disponible para la estimación. En tales
casos, puede elegirse un valor de λ mayor para proporcionar una curva
más suave, más representativa de la experiencia del perito. La compara-
ción subjetiva de distintos gráficos de datos, generados con distintas can-
tidades de suavizado, puede ayudar a alcanzar una mejor comprensión
de los datos que la consideración de una sola curva producida mediante
un método automático.
426   Datos continuos

La elección de λ es también sensible a observaciones atípicas. Los da-


tos originales de pelos de gato incluían un pelo con una anchura medular
superior a 139 micras, estando el valor más próximo a éste por debajo de
108 micras. El valor de λ elegido por el método automático de pseudo-
máxima verosimilitud fue de 0.35, un valor que produjo una estimación
de la función de densidad de probabilidad muy diferente de la producida
por el valor de λ = 0.09 cuando el conjunto de datos fue modificado al re-
emplazar el valor de 139 micras por un valor de 63 micras. La elección de
λ es también difícil si los datos se presentan agrupados, como en el caso
de los datos de cristales (Tabla 10.5). En este caso, el valor de λ fue elegi-
do subjetivamente; consúltense las Figuras 10.6 y 10.7, con valores de λ
de 0.025 y 0.25.

Figura 10.6. Estimación de la densidad núcleo con parámetro de suavizado


0.025 de las medidas de los índices de refracción de 2269 fragmentos de cris-
tal “float” de edificios (Lambert y Evett, 1984).
Estimación de la densidad de núcleo para datos interfuente   427

Figura 10.7. Estimación de la densidad núcleo con parámetro de suavizado


0.25 de las medidas de los índices de refracción de 2269 fragmentos de cristal
“float” de edificios (Lambert y Evett, 1984).

10.4 Estimación de la densidad de núcleo para datos


interfuente

Si la asunción de una distribución Normal para θ se considera no realista, el


argumento puede modificarse con una distribución general para θ utilizando
una estimación de densidad núcleo como el descrito por Chan y Aitken (1989)
para pelos de gato, por Berry (1991a) y Berry y otros (1992) para perfiles de
ADN, y por Aitken y Lucy (2004) para composición elemental de cristales.
En Evett y otros (1987) puede encontrarse una aplicación para la evalua-
ción de la evidencia de fibra en la que la distribución marginal de las medidas
del receptor, y, se estimó mediante una función de densidad de núcleo, y de
una forma bastante más elaborada en Wakefield y otros (1991). Este fue un
caso bivariante en el que había medidas de color. En el Capítulo 11 se aportan
más detalles de estas ideas, aplicándose a datos multivariantes sobre la com-
posición elemental del cristal. El método descrito aquí vale para situaciones
en las que los datos sean univariantes y en las que existan dos componentes de
variabilidad: la variabilidad intrafuente (por ejemplo, en el cristal o en el gato)
y la variabilidad interfuente (por ejemplo, entre ventanas o entre gatos).
Consideremos el numerador en la expresión original (10.3) para V, con-
cretamente:
428   Datos continuos

∫ f(y | θ)f (x | θ)f (θ)dθ


Dado el valor para θ, la distribución de x − y es una N(0, a2σ2) y la distribu-
σ2
ción de W, dado θ, es una N(θ, ). Si se realiza un cambio en el numera-
(m + n )
dor de ( x , y) a ( x − y, w ) , entonces V puede escribirse del siguiente modo:

1  ( x − y ) 2  ( m + n )1 / 2  ( w − θ) 2 (m + n ) 
exp− ∫ exp− f (θ)dθ
aσ  2a σ 
2 2 σ  2σ 2 
V≅ (10.12)
m  ( x − θ) m 
2
n  ( y − θ) n 
2

∫ σ exp− 2σ 2 f (θ)dθ∫ σ exp− 2σ 2 f (θ)dθ


(Lindley, 1977a). Previamente se asumió que la función de densidad de
probabilidad para θ, f(θ), sigue una Normal. Si esto se considera no realis-
ta, la función de densidad de probabilidad puede estimarse mediante una
estimación de densidad de núcleo.
La expresión para V en (10.12) puede evaluarse cuando f(θ) sea reem-
plazada por la expresión de (10.11). Tras algunas transformaciones mate-
máticas sencillas, pero tediosas, obtenemos el siguiente resultado:

 ( x − y) 2  k  (m + n )( w − z i ) 2 
K exp− ∑
 2a 2 σ 2  i =1
exp − 
2[σ 2 + (m + n )s 2 λ2 ]
V≅ 
 m( x − z i ) 2  k  n ( y − z i ) 2  (10.13)
∑i =1 exp− 2(σ 2 + ms 2 λ2 ) ∑i =1 exp− 2(σ 2 + ns 2 λ2 ) 
k

   
donde:

k m + n σ 2 + ms 2 λ2 σ 2 + ns 2 λ2
K=
aσ mn σ 2 + (m + n )s 2 λ2
Existen cuatro factores, explícitamente dependientes de los datos, en la
expresión para V que contribuyen al valor final:

 ( x − y) 2 
(a) exp− ;
 2a 2σ 2 
 (m + n )( w − z i ) 2 

k
(b) exp− ;
 2[σ 2 + (m + n )s 2 λ2 ]
i =1
Estimación de la densidad de núcleo para datos interfuente   429

 m( x − z i ) 2 

k
(c) exp  − ;
 2(σ 2 + ms 2λ2 ) 
i =1

 n( y − zi )2 

k
(d) exp  − .
 2(σ 2 + ns 2λ2 ) 
i =1

El primer factor, (a), se considera para la diferencia entre la evidencia


fuente y la receptora. Una diferencia grande conduce a un valor más pe-
queño de V, una diferencia pequeña, a un valor de V más grande.
El segundo factor, (b), se considera para la localización de la evidencia
combinada en la distribución global de la población relevante. Si se en-
cuentra lejos del centro de esa distribución, entonces V será más pequeña
que si estuviera cerca. Esto proporciona una medida de la rareza de la evi-
dencia combinada.
Los factores tercero y cuarto, (c) y (d), se consideran para la rareza o no
de la evidencia fuente y receptora, de forma separada. Cuanto más separa-
das se encuentren del centro de la distribución global, más pequeño será el
correspondiente factor y mayor será el valor de V.
Obsérvese también la diferencia entre σ2, que mide la varianza intrafuen-
te (por ejemplo, en una ventana o un gato) y s2, que estima la varianza total.

10.4.1 Aplicación a las anchuras medulares de pelos de gato

Consideremos un crimen en el que está involucrado un gato. Por ejem-


plo, en un robo doméstico, puede que haya habido un gato en la escena del
crimen. Se ha identificado a un sospechoso con pelos de gato en sus ropas.
Una valoración de la evidencia completa requeriría la explicación del sos-
pechoso sobre la presencia de los pelos y de las posibilidades de transfe-
rencia de los pelos del gato en la escena del crimen y desde cualquier otro
lugar. Tales asuntos no los debatimos ahora. Se miden las anchuras medu-
lares, entre otras características, de esos pelos así como de una muestra de
pelos del gato. Sea x la media de los m pelos provenientes de la fuente (el
gato), y sea y la media de los n pelos del receptor (la ropa del sospechoso).
En la Tabla 10.4 se muestran algunos valores de V, tal y como se obtienen
utilizando (10.13), para diversos valores de x, y, y σ. La variación de σ se
aporta para ilustrar el efecto de los cambios en la variación de la anchura
medular dentro de los propios gatos sobre el valor de la evidencia. El valor
del parámetro de suavizado λ se ha fijado en 0.09 y 0.5 para ilustrar la va-
430   Datos continuos

riación de V respecto a λ. En las Figuras 10.4 y 10.5 se muestran las corres-


pondientes curvas de estimación de la densidad que pueden utilizarse para
valorar la rareza relativa de la evidencia.

Tabla 10.4 Valor de la evidencia para distintos valores de x y de y , el


parámetro de suavizado λ y la desviación estándar dentro de
los propios gatos σ; m = n = 10; s = 23 micras.

x y σ V
λ = 0.09 λ = 0.50
15 15 10 16.50 12.01
15 25 10 1.39 0.782
15 35 10 9.81 x 10–4 4.47 x 10–4
110 110 10 84.48 53.61
50 50 10 6.97 6.25
50 50 16 3.86 3.93
50 50 5 16.14 12.48
50 55 10 3.75 3.54

10.4.2 Índices de refracción de cristales

En la Tabla 10.5 se muestran estos datos, procedentes de Lambert y


Evett (1984), y se ilustran mediante la Figura 10.1. Hay muchos puntos
coincidentes y una elección automática de λ es difícil y quizá no aconseja-
ble. Las Figuras 10.6 y 10.7 muestran las curvas de estimación de densidad
de núcleo para λ = 0.025 y 0.25. En la Tabla 10.6 se muestran las probabi-
lidades de coincidencia, de la ecuación (4.8), y valores V de la evidencia,
utilizando (10.9) y (10.13).
Obsérvese que, en general, la aproximación núcleo conduce a valores
de V considerablemente más altos que desde la aproximación de Lindley.
Esto se deduce de la naturaleza más dispersada de la expresión de Lindley.
Dos ejemplos en la Tabla 10.6 muestran los fallos de la aproximación de la
probabilidad de coincidencia. Son ejemplos en los que la separación de los
fragmentos de la fuente ( x ) y del receptor ( y ) es tal que una aproximación
basada en probabilidades de coincidencia declararía esos conjuntos de
fragmentos como provenientes de ventanas diferentes. Sin embargo, tanto
la aproximación núcleo como la de Lindley dan soporte a la proposición de
que proceden de la misma ventana.
Estimación de la densidad de núcleo para datos interfuente   431

Tabla 10.5 Índices de refracción de 2269 fragmentos de cristal “float” en edificios, Lambert y


Evett (1984)

Índice de Índice de Índice de Índice de


Cantidad Cantidad Cantidad Cantidad
refracción refracción refracción refracción

1.5081 1 1.5170 65 1.5197 7 1.5230 1

1.5119 1 1.5171 93 1.5198 1 1.5233 1

1.5124 1 1.5172 142 1.5199 2 1.5234 1

1.5128 1 1.5173 145 1.5201 4 1.5237 1

1.5134 1 1.5174 167 1.5202 2 1.5240 1

1.5143 1 1.5175 173 1.5203 4 1.5241 1

1.5146 1 1.5176 128 1.5204 2 1.5242 1

1.5149 1 1.5177 127 1.5205 3 1.5243 3

1.5151 1 1.5178 111 1.5206 5 1.5244 1

1.5152 1 1.5179 81 1.5207 2 1.5246 2

1.5153 1 1.5180 70 1.5208 3 1.5247 2

1.5154 3 1.5181 55 1.5209 2 1.5249 1

1.5155 5 1.5182 40 1.5211 1 1.5250 1

1.5156 2 1.5183 28 1.5212 1 1.5254 1

1.5157 1 1.5184 18 1.5213 1 1.5259 1

1.5158 7 1.5185 15 1.5215 1 1.5265 1

1.5159 13 1.5186 11 1.5216 3 1.5269 1

1.5160 6 1.5187 19 1.5217 4 1.5272 2

1.5161 6 1.5188 33 1.5218 12 1.5274 1

1.5162 7 1.5189 47 1.5219 21 1.5280 1

1.5163 6 1.5190 51 1.5220 30 1.5287 2

1.5164 8 1.5191 64 1.5221 25 1.5288 1

1.5165 9 1.5192 72 1.5222 28 1.5303 2

1.5166 16 1.5193 56 1.5223 13 1.5312 1

1.5167 15 1.5194 30 1.5224 6 1.5322 1

1.5168 25 1.5195 11 1.5225 3 1.5333 1

1.5169 49 1.5196 3 1.5226 5 1.5343 1


Tabla 10.6 Probabilidad de coincidencia y valor de la evidencia (aproximaciones núcleo y de Lindley) para varios valores de x ,
y , y el parámetro de suavizado λ (para la aproximación núcleo); m = 10, n = 5; desviación estándar dentro de una
misma ventana σ = 0.00004; desviación estándar entre ventanas τ = 0.004; media total µ = 1.5182.

λ para la aproximación núcleo


x y Probabilidad de coincidencia Lindley
0.025 0.05 0.25
1.51500 1.51501 2.845×10–9 17889 7055 2810 226
432   Datos continuos

–3
1.51600 1.51601 2.643×10 563 489 419 191
1.51700 1.51701 2.863×10–2 54.3 52.4 48.9 172
1.51800 1.51801 3.083×10–2 53.3 54.4 49.2 164
–2
1.51900 1.51901 2.246×10 70.0 69.2 102.4 167
–9
1.52000 1.52001 8.536×10 5524 2297 471.2 182
1.52100 1.52101 4.268×10–9 13083 4381 1397 210
1.52200 1.52201 1.321×10–2 128 143 304 259
1.51500 1.51505 – 740 519 217 18.4
1.51600 1.51605 – 48.4 42.4 32.6 15.6
1.51600 1.51610 – 1.74×10–2 1.74×10–2 1.22×10–2 6.30×10–3
1.51700 1.51710 – 1.35×10–3 1.35×10–3 1.51×10–3 5.69×10–3
Probabilidades de transferencia   433

10.5 Probabilidades de transferencia

10.5.1 Introducción

Consideremos la transferencia de material desde la escena del crimen


al criminal. Se ha encontrado a un sospechoso con material similar so-
bre sus ropas. Este material pudiera haber venido de la escena del crimen.
Alternativamente, pudiera proceder de cualquier otro lugar bajo circuns-
tancias absolutamente inocentes. Consideremos dos conjuntos de circuns-
tancias. Primeramente, existe probabilidad de que el material hubiera sido
transferido desde la escena del crimen al sospechoso, condicionada a que
el sospechoso hubiera estado presente en la escena del crimen (Hp). Tiene
en cuenta, también, que alguien conectado con el crimen pudiera no tener
fragmentos transferidos desde la escena del crimen a su persona pero pu-
diera tener fragmentos similares a los encontrados en la escena del crimen
procedentes de algún lugar por procedimientos absolutamente inocentes.
En segundo término, existe probabilidad de que una persona no relaciona-
da con el crimen (es decir, condicionada a un sospechoso que no estuviera
presente en la escena del crimen, Hd) pudiera tener sobre sí misma mate-
rial similar al de la escena del crimen.
Consideremos el caso de los fragmentos de cristal como lo describió
Evett (1986). Sea ti (i = 0, 1, 2, …) la probabilidad de que, dado Hp, se
hayan transferido i fragmentos de cristal. Más correctamente, sea tn la
probabilidad de que, dado Hp, la presencia del sospechoso en la escena
del crimen, se hubieran encontrado n fragmentos sobre la ropa del sospe-
choso tras la correspondiente búsqueda. Esta última forma de expresarse
incluye no sólo el mecanismo de transferencia sino también los meca-
nismos de persistencia y recuperación. Sea b1,m (m = 1, 2, …) la probabi-
lidad de que una persona en la población relevante tenga un grupo de m
fragmentos de cristal sobre sus ropas. En general, la proporción de gente
en la población relevante que tenga k grupos, con m1, …, mk fragmentos
de cristal por grupo, sobre sus ropas puede expresarse mediante b k ,m1 ,...,mk
o {bk,m ; mk = m1,…,mk}. Aquí k sólo tomará valores de 1 o 2. Para k = 1,
k
bk,m se escribirá b1,m. También, b1,s y b1,l representan las probabilidades
k
condicionales de que si se ha encontrado un grupo de fragmentos, enton-
ces contiene un número de fragmentos pequeño (s) o grande (l). Vamos a
considerar dos casos, el primero cuando encontramos un solo fragmento
y el segundo cuando encontramos dos fragmentos (un grupo, dos frag-
mentos). En Evett (1986) puede hallarse una expresión más general para
más de dos grupos.
434   Datos continuos

10.5.2 Un único fragmento

La evidencia E consta de tres partes. La primera parte es la existencia


(m1) de un fragmento en la ropa del sospechoso. La segunda parte es que
el índice de refracción del fragmento es y. Esta es la forma de partícula
transferida de la evidencia. Sea Pr(m1 | Hd, I) la proporción de personas
en la población relevante que tiene un fragmento de cristal en su ropa.
Llamemos a esta probabilidad b1,1. De forma similar, b0 es la proporción de
personas en la población general que no tiene fragmentos de cristal en sus
ropas. La tercera parte de la evidencia son las medidas x sobre el material
fuente. Esto es relevante para la determinación del numerador, pero no del
denominador.
Consideremos el denominador del LR. Esto es:

Pr(E | H d , I) = Pr(m 1 , y | H d , I)
= Pr(m 1 | H d , I) × f ( y | H d , I, m 1 ) = b 1,1 f ( y | H d , I, m 1 )

La función de densidad de probabilidad f( y | H d , I, m1 ) será tomada


como una función de densidad Normal, con media µ y varianza τ2 (o más
correctamente, τ2 + σ2), como en la Sección 10.2.3.
Consideremos el numerador. Si el sospechoso estuvo presente en la es-
cena del crimen hay dos posibles explicaciones para la presencia de frag-
mentos de cristal sobre su ropa. O bien el fragmento ha sido adquirido de
forma inocente y ningún fragmento ha sido transferido desde la escena
del crimen (un suceso con probabilidad t0) o el fragmento fue transferido
desde la escena del crimen y ninguno fue transferido de forma inocente, un
suceso con probabilidad t1 (en la Sección 14.6.2 estas explicaciones están
esquematizadas para tener en cuenta distintas situaciones como la presen-
cia de dos grupos en el material recuperado, uno transferido desde la esce-
na del crimen, y el otro transferido por razones inocentes). Sea x el vector
de medidas sobre la muestra fuente. El numerador es entonces:

t 0 b1,1f ( y | H d , I, m1 ) + t 1b 0 f ( y | H p , x, I)

Obsérvense los términos t0b1,1 y t1b0. El primero es la probabilidad de que


ninguna partícula sea transferida desde la escena del crimen y de que una
partícula sea transferida desde otro lugar. El segundo es la probabilidad de
que una partícula sea transferida desde la escena del crimen y de que ningu-
na partícula sea transferida desde otro lugar. Obsérvese, también, que en el
término en el que se encuentra Hd, el fragmento se asume que se transfiere
Probabilidades de transferencia   435

de forma inocente. La función de densidad de probabilidad para y en esta


situación es la que se relaciona con una desconexión entre el sospechoso y el
crimen. Por consiguiente, el condicionamiento sobre Hd está permitido.
El LR es entonces:

t 1 b 0 f( y | H p , I, x)
V = t0 + (10.14)
b1,1 f( y | H d , I, m1 )

Hay dos comparaciones que tenemos que hacer. La primera, consideran-


f( y | H p , I, x)
do (8.5), donde 1 / γ ha sido reemplazado por . La segunda,
f( y | H d , I, m1 )
comparando este resultado teórico con (10.8), derivado por Grove (1980),
donde aquí t0 reemplaza a 1– pT, t1 a pT, b0 a 1 – pA, y b1,1 a pA. La relación
f( y | H p , I, x)
entre las funciones de densidad fue considerada anterior-
f( y | H d , I, m1 )
mente. La extensión descrita aquí explica posibles fuentes diferentes del
fragmento. Para el caso de un único fragmento:

t 1b 0 σ2 + τ2  ( y − µ) 2 (y − x) 2 
V = t0 + exp − .
b1,1 σ  2(σ 2 + τ 2 ) 2σ 2 
En las Tablas 10.7 y 10.8 (Evett, 1986) se encuentran valores para los
parámetros distribucionales y para las probabilidades de transferencia.

Tabla 10.7 Parámetros distribucionales para problemas de cristales

µ τ α σ
1.5186 4 x 10–3 3 x 10–3 4 x 10–5

Tabla 10.8 Probabilidades de transferencia para problemas de cristales

b0 b1,1 b1,2 t0 t1 t2
0.37 0.24 0.11 0 0.056 0.056

Los valores para b0, b1,1 y b1,2 son sugeridos por Evett (1986), que citó a
Pearson y otros (1971). Evett se refiere a b2f2(y) como la probabilidad de
436   Datos continuos

que una persona no relacionada con el crimen tenga dos fragmentos de


cristal de índice de refracción y en sus ropas. Se asume implícitamente
en la notación b1,2 utilizada aquí que los dos fragmentos vienen del mismo
grupo. El uso de b con un único subíndice, bn, indica n grupos pero con in-
determinado número de miembros. Evett contrastó las probabilidades que
aparecen en las Tablas 10.7 y 10.8 con los resultados de Harrison y otros
(1985) en los cuales la diferencia en proporciones de personas con uno o
dos fragmentos de cristal sobre sus ropas era más pequeña. Se necesita
una investigación más minuciosa para estimar esas probabilidades. En la
Sección 10.4 se aportan más ejemplos. Esas probabilidades de transferen-
cia son proporcionadas por Evett (1986) citando una comunicación per-
sonal de C.F. Candy. Todas esas probabilidades se proporcionan, primor-
dialmente, con fines ilustrativos. Los datos aportados, desde la mitad de
los ochenta hasta el comienzo del siglo XXI, necesitan ser revisados para
conocer su relevancia.
Partiendo de esos valores t1b0 / b1,1 = 0.086. Nótese que τ / σ = 100 y que
τ2 + σ2 ≅ τ2. De este modo:

τ2 + σ 2 τ

σ σ

Para el caso de un solo fragmento:

 ( y − µ) 2 ( y − x ) 2 
V ≅ 8.6 exp − . (10.15)
 2τ 2 2σ 2 
En la Tabla 10.9 se muestran algunos valores para distintos valores de
( y − µ) ( y − x )
y (diferencias estandarizadas de y respecto de la media de
τ σ
los fragmentos fuente y respecto de la media global). Pequeños valores de
(y − x)
implican similitud entre los fragmentos fuente y los recuperados.
σ ( y − µ)
Pequeños valores de implican un valor común de y.
τ (y − x)
Nótese que los mayores valores de V se dan cuando tiene un va-
( y − µ) σ
lor pequeño y un valor grande.
τ
Probabilidades de transferencia   437

Tabla 10.9 Algunos valores para el LR, V, para el caso de un único frag-


mento, de Evett (1986)

( y − µ)
(y − x) τ
σ
0.0 1.0 2.0
0.0 9 14 63
1.0 5 9 38
2.0 1 2 9
3.0 0.1 0.2 0.7

10.5.3 Dos fragmentos

La evidencia E de nuevo consta de tres partes. La primera es la existen-


cia de dos fragmentos (un grupo, dos fragmentos), la forma de partícula
transferida, sobre la ropa del sospechoso (m2). La segunda parte son las
medidas y1 e y2 de sus índices de refracción. La tercera parte es la forma
originaria x.
El denominador del LR es la probabilidad de que una persona no rela-
cionada con el crimen tenga sobre sus ropas dos fragmentos de cristal de
un solo grupo con medidas (y1, y2). Esto es:

Pr(m 2 , y1 , y 2 | H d , I) = Pr(m 2 | H d , I)f ( y1 , y 2 | H d , I, m 2 )


= b 2 ,1f ( y1 , y 2 | H d , I, m 2 ).

Para el numerador hay cuatro posibilidades, dadas en la Tabla 10.10.


Los fragmentos que se califican de “no transferidos” se asumen como ad-
quiridos por medios no relacionados con el crimen. Esas cuatro posibilida-
des son exclusivas, y el numerador puede expresarse de la siguiente forma:

t 0 b1, 2 f( y1 , y 2 | H d , I, m 2 ) + t 1b1,1 f( y1 | H p , x) f( y 2 | H d , I, m1 )
+ t 1 b1,1 f( y 2 | H p , x) f( y1 | H d , I, m1 ) + t 2 b 0 f( y1 , y 2 | H p , x)
438   Datos continuos

Tabla 10.10 Posibles fuentes de dos fragmentos.

Fragmento 1 Fragmento 2 Fragmento 3


No transferido No transferido t0b1,2
No transferido Transferido t1b1,1
Transferido No transferido t1b1,1
Transferido Transferido t2b0

El primer término se corresponde con la transferencia de dos fragmen-


tos desde otro contexto. La distribución de y1 e y2 es independiente de x, y
puede escribirse como se mostró. Los otros términos pueden obtenerse de
forma similar.
El LR es entonces:

V = t0 + φ(1) + φ(2) (10.16)

donde:

t 1b1,1{f( y1 | H p , x, m1 ) f( y 2 | H d , I, m1 ) + f( y 2 | H p , x, m1 ) f( y1 | H d , I, m1 )}
φ(1) =
b1, 2 f( y1 , y 2 | H d , I, m 2 )

t 2 b 0 f( y1 , y 2 | H p , x, m 2 )
y φ(2) = .
b1, 2 f( y1 , y 2 | H d , I, m 2 )
El término φ(1) se considera para el caso en el que un fragmento se haya
transferido desde la escena del crimen y el otro desde otro contexto. El tér-
mino φ(2) se considera para el caso en el que ambos fragmentos se hayan
transferido desde la escena del crimen. Se han de tener en cuenta varias
asunciones para comprender mejor numéricamente la variabilidad de V.
Algunas se corresponden con las asunciones de Evett (1986), pero otras di-
fieren con respecto a las distribuciones de y y de (y1, y2), tanto en los casos
de uno como de dos fragmentos, respectivamente.
En primer lugar, se ha asumido que los fragmentos de cristal proceden-
tes de una misma fuente tienen una distribución Normal con una media θ
y varianza σ2. Esta media θ, a su vez, se distribuye Normalmente con me-
dia µ y varianza τ2 (se discutió este asunto en la Sección 10.2.1). Cuando se
consideró el caso de los dos fragmentos con medidas de índices de refrac-
y1 + y 2
ción (y1, y2), se asumió que la media y = está Normalmente distri-
2
Probabilidades de transferencia   439

buida, y también que la diferencia (valor mayor – valor menor), δ, de la dos


medidas tiene una distribución exponencial, y que ambas distribuciones
son independientes.
En Evett (1986) se aportan estimaciones para los valores paramétricos
de esas distribuciones basándose en estudios experimentales y casos rea-
les. Las asunciones son las siguientes:
• las dimensiones de los fragmentos de cristal no son relevantes para
la estimación del valor de la evidencia;
• las distribuciones de las medidas del índice de refracción llevadas a
cabo sobre los fragmentos de una ventana rota son independientes
en magnitud del número de los mismos;
• (Y | Hd, I, m1) ∼ N(µ, τ2 + σ2).
• f(y1, y2 | Hd, I, m2) = f( y , δ | Hd, I, m2) = f( y | Hd, I, m2) f(δ | Hd, I, m2).
• ( Y | Hd, I, m2) ∼ N(µ, (τ2 + σ2) / 2), una distribución Normal.
• (δ | Hd, I, m2) ∼ α–1 exp(–δ / α), una distribución exponencial; ver
Figura 10.8.
• (Y | Hp, x, m1) ∼ N( x , σ2).
• ( Y | Hp, x, m1) ∼ N( x , σ2 / 2).

Figura 10.8. La diferencia en las medidas de los índices de refracción


(valor mayor – valor menor) para cada par de fragmentos en individuos a los
que se les encontró dos fragmentos de cristal en su ropa, de Harrison y otros
(1985). (Reproducido de Evett, 1986, con permiso de la Sociedad de Ciencia
Forense).
440   Datos continuos

En el caso de dos fragmentos, V puede escribirse como la suma de dos


términos, de (10.16). Primeramente, se asume que en el caso de que no se
transfiera fragmento alguno desde la escena del crimen tiene una probabi-
lidad insignificante, de forma que t0 puede igualarse a cero. Entonces, de
(10.16) obtenemos:

V = φ(1) + φ(2)

Asumamos, como siempre, que τ2 sea mucho mayor que σ2, de forma
que τ2 + σ2 pueda aproximarse por τ2. Las expresiones generales para φ(1)
y φ(2), utilizando los resultados distribucionales anteriores, puede demos-
trarse que son las siguientes:

  ( y − x ) 2 ( y 2 − µ) 2   ( y − x ) 2 ( y 1 − µ ) 2 
t 1b1,1α exp− 1 −  + exp− 2 − .
  2σ 2 2τ 2   2σ 2 2τ 2 
φ(1) =
 ( y − µ) 2   | y1 − y 2 | 
σb1, 2 2π exp−  exp− 
 2τ 
2
 α 
y

 (y − x) 2 (y 2 − x) 2 
t 2 b 0 ατ exp− 1 − 
 2σ 2 2σ 2 
φ(2) =
 ( y − µ) 2   | y1 − y 2 | 
σ 2 b1, 2 2π exp−  exp− 
 2τ 
2
 α 
|y−x|
Se presentan aquí dos conjuntos de resultados en términos de
σ
cuando se asume que y es igual a µ y que los valores paramétricos y las
probabilidades de transferencia son las que figuran en las Tablas 10.7 y
|y−x|
10.8. Sean k = ; V = φ(1) + φ(2). Si |y1 – y2| = σ, entonces:
σ
φ(1) = 3.675 exp{− (4k 2 + 1) / 8}(e k / 2 + e − k / 2 )

φ(2) = 566 exp{− (4k 2 + 1) / 4}.


Si |y1 – y2| = 4σ, entonces:
φ(1) = 3.825 exp{− (k 2 + 4) / 2}(e 2 k + e −2 k )

φ(2) = 589 exp{− (k 2 + 4)}


Probabilidades de transferencia   441

En la Figura 10.9 se muestran gráficos de los logaritmos en base 10 de


φ(1), φ(2) y φ(1) + φ(2) (que no es lo mismo que log10 (φ(1)) + log10 (φ(2))),
|y−x|
representados frente a .
σ

Figura 10.9. Gráficos de log 10 φ(1), log 10 φ( 2), log 10 V = log 10 (φ(1) + φ(2))
frente a | y − x | / σ para y = µ , para la transferencia de dos fragmen-
tos de cristal desde la escena del crimen al criminal: (a) | y 1 − y 2 |= σ, (b)
| y 1 − y 2 |= 4σ. El valor de la evidencia es V = φ(1) + φ(2). La línea de puntos
es log 10 V . (Adaptado de Evett, 1986).

Observe que los gráficos de log10 φ(2) son cuadráticos. También que para
|y1 – y2| = σ, la mayor contribución a V procede de la transferencia de los
|y−x|
dos fragmentos. Para |y1 – y2| = 4σ, cuando es próximo a 2, la mayor
σ
contribución a V procede de φ(1), el término correspondiente a la transfe-
rencia de un único fragmento. Esto es razonable, puesto que para |y1 – y2| =
4σ y | y − x |= 2σ , y1 ó y2 debe ser igual a x .

10.5.4 Una aproximación práctica para la evaluación de cristales

La utilización de funciones de densidad de probabilidad y los procedi-


mientos de estimación de densidad de núcleo son muy sofisticados y re-
442   Datos continuos

quieren considerable habilidad para su correcta implementación. Evett y


Buckleton (1990) describen lo que denominan ‘aproximación práctica’ para
la interpretación de la evidencia de cristal. Se describen cuatro escenarios,
y para cada uno se obtiene una expresión para el LR. En las Secciones
10.5.2 y 10.5.3 se dieron expresiones para el valor del LR en casos en los
que uno o dos fragmentos habían sido transferidos a la ropa del sospecho-
so. Los cuatro escenarios descritos por Evett y Buckleton (1990) tienen que
ver con la transferencia de uno o dos grupos de fragmentos que pudieran
o no haber venido de una o dos ventanas que habían sido rotas durante la
comisión del crimen.
Las circunstancias son las siguientes. Se han roto una o dos ventanas
con intención criminal. Ha sido detenido un sospechoso muy poco des-
pués de la comisión del crimen y se han encontrado uno o dos grupos de
fragmentos de cristal en sus ropas. Las dos proposiciones que se han de
comparar son las siguientes:
• Hp, el sospechoso es el hombre que rompió la/s ventana/s en la esce-
na del crimen;
• Hd, el sospechoso no es el hombre que rompió la/s ventana/s en la
escena del crimen.
Necesitamos hallar las probabilidades de algunos sucesos. Estas pro-
babilidades pueden estimarse por referencia a un apropiado estudio sobre
ropas (por ejemplo, Pearson y otros, 1971; Dabbs y Pearson, 1970, 1972;
Pounds y Smalldon, 1978; Harrison y otros, 1985; McQuillan y Edgar,
1992; Lambert y otros, 1995; Allen y Scranage, 1998; Allen y otros, 1998a,
b, c, d; Coulson y otros, 2001a), con el debido cuidado para asegurarse de
la relevancia del estudio para el caso en cuestión, o bien por experiencia
personal. Las probabilidades utilizadas aquí son las que aportan Evett y
Buckleton (1990). Los diversos sucesos, con sus probabilidades, son:
• que una persona no tenga cristal alguno sobre su ropa únicamente
por azar, probabilidad p0 = 0.636;
• que una persona tenga un grupo de fragmentos sobre su ropa úni-
camente por azar, probabilidad p1 = 0.238;
• que una persona tenga dos grupos de fragmentos sobre su ropa úni-
camente por azar, probabilidad p2 = 0.087;
• que se encuentre un grupo grande de fragmentos en miembros de la
población, probabilidad s l = 0.029;
• que, en la comisión de un crimen, no se transfiera cristal alguno,
probabilidad t0 = 0.2;
• que, en la comisión de un crimen, se transfieran, retengan y recupe-
ren un grupo grande de fragmentos, probabilidad t l = 0.6;
Probabilidades de transferencia   443

Este conjunto de probabilidades es distinto de las de la Sección 10.5.2,


así como la notación. Lo que fue previamente representado mediante bi,j
ha sido dividido en pi y si,j. No se ha justificado que los conjuntos puedan
ser considerados como definitivos. Más bien, los valores dados se facili-
tan a título ilustrativo y simplemente se tendrán que sustituir esos valores
por otros cuando se piense que son los adecuados. Asimismo, la defini-
ción de grande es indeterminada pero, nuevamente, en un caso particular,
puede realizarse una definición particular con una probabilidad adecua-
da. Cuando no sea posible establecer un valor particular para una proba-
bilidad, entonces puede emplearse un rango de valores. Si V permanece
relativamente estable sobre el rango de valores de probabilidades, esto
proporciona confianza en que un valor exacto no es crucial. Si V depende
crucialmente de la elección de una probabilidad, entonces se ha de prestar
especial cuidado sobre la utilidad del método aplicado al caso en cuestión.
Para ambas ventanas, las frecuencias de ocurrencia (γ1, γ2) del cristal de
los índices de refracción observados sobre la ropa son de un 3% en ambos
casos, de forma que γ1 = γ2 = 0.3, donde γ1, γ2 se refieren a la primera y a la
segunda ventana, respectivamente. Estas frecuencias pueden obtenerse a
partir del histograma de medidas de índices de refracción. En una aproxi-
mación más detallada, esos valores serían reemplazados por estimaciones
de densidades de probabilidad. Podemos considerar cuatro casos.

Caso 1. Se ha roto una ventana, ha sido hallado un gran grupo de frag-


mentos sobre el sospechoso y resultan similares sus propiedades a las de la
ventana rota.
El denominador, que se deduce asumiendo que el sospechoso es inocen-
te, es p1s1γ1; esto es, el producto de la probabilidad (p1) de que una persona
tenga un grupo de fragmentos sobre su ropa, la probabilidad ( s l ) de que
ese grupo sea grande, y la frecuencia (γ1) de un cristal de las propiedades
observadas sobre la ropa.
El numerador es p0 t l + p1 s l t0γ1. El primer término tiene que ver con
la posibilidad de que el sospechoso no tenga cristal alguno sobre sus ro-
pas que haya sido transferido únicamente por casualidad (p0) y tenga un
grupo grande de fragmentos transferidos, retenidos y recuperados de la
comisión del crimen ( t l ). La probabilidad de que, en tales circunstan-
cias, el grupo de fragmentos tenga las propiedades requeridas es 1. El
segundo término hace referencia a la probabilidad de que el sospechoso
haya recibido por transferencia cristales de las propiedades requeridas
únicamente por casualidad (p1 s l γ1) y ningún cristal de la comisión del
crimen.
444   Datos continuos

El LR es:

p0 t l
V1 = t 0 + . (10.17)
p1s l γ 1
Caso 2. Se ha roto una ventana y se encuentran dos grandes grupos de
fragmentos sobre el sospechoso. Uno de ellos presenta propiedades idénti-
cas a los de la ventana rota y el otro no. El LR es:

p1 t l
V2 = t 0 + .
2p 2 s l γ 1
El factor 2 aparece en el denominador por la existencia de dos grupos.
Las características (tamaño y frecuencia de ocurrencia) del segundo grupo
de fragmentos ocurren tanto en el numerador como en el denominador,
por lo que se cancelan. Por ello, no aparecen en la expresión final.

Caso 3. Se han roto dos ventanas y un gran grupo de fragmentos se en-


cuentra sobre el sospechoso, coincidiendo sus propiedades con los de una
de las ventanas rotas. El LR es:

p0 t 0 t l
V3 = t 02 + ,
p1s l γ 1
en el que se ha asumido que las probabilidades de transferencia (t0, t l ) son
las mismas para ambas ventanas.

Caso 4. Se han roto dos ventanas y se han identificado dos grandes gru-
pos de fragmentos, uno con características coincidentes con una de las
ventanas rotas y el otro con las de la otra ventana. El LR es:

p 0 t l2 pt t pt t
V4 = t 02 + + 1 0 l + 1 0 l .
2p 2 s l γ 1 γ 2 2p 2 s l γ 1 2p 2 s l γ 2
2

Utilizando las cifras de probabilidad dadas anteriormente, resulta fácil


verificar que en esos cuatro casos el segundo término es el dominante. De
este modo, se obtienen los siguientes resultados aproximados:

p0 t l
V1 ≅ . (10.18)
p1s l γ 1
Probabilidades de transferencia   445

p1 t l
V2 ≅ . (10.19)
2p 2 s l γ 1

p0 t 0 t l
V3 ≅ , (10.20)
p1s l γ 1

p 0 t l2
V4 ≅ . (10.21)
2p 2 s l2 γ 1 γ 2

Sustituyendo los valores de probabilidad listados en las ecuaciones


(10.18) a (10.21), se obtienen los siguientes resultados:

V1 ≅ 1843

V2 ≅ 943

V3 ≅ 369

V4 ≅ 1738000

Sería erróneo otorgar demasiada importancia a los valores numéricos


exactos de esos resultados. Existen muchos imponderables, como las es-
pecificaciones de las probabilidades de transferencia que se han conside-
rado. Sin embargo, una comparación de los órdenes de magnitud propor-
ciona una valoración cualitativa útil del valor relativo de esos resultados.
Por ejemplo, consideremos una comparación de V3 con V4. La última, V4,
es mayor que la primera, V3, por un factor de alrededor de 5000. El efecto
sobre el valor de la evidencia cuando se han roto dos ventanas y se han
descubierto dos grupos de fragmentos, con similares propiedades a las de
las ventanas rotas, en la ropa del sospechoso, es considerable. En Curran y
otros (2000) se aporta una fórmula general aproximada.

10.5.5 Modelos gráficos para la valoración de las probabilidades de


transferencia

La interpretación bayesiana de la evidencia de transferencia que pro-


duce proposiciones a nivel de actividad requiere realizar estimaciones de
probabilidades de transferencia. Por ejemplo, en el caso en el que se haya
roto una ventana, se han de tener en cuenta las probabilidades de transfe-
rencia, persistencia y recuperación de los fragmentos de cristal. Estas tres
446   Datos continuos

componentes del proceso pueden denominarse, de forma general, como el


proceso de transferencia.
Se ha cometido un crimen. Los investigadores esperan que haya existido
doble transferencia, tanto del criminal a la escena del crimen como vice-
versa. Se detiene a un sospechoso y se encuentra evidencia sobre su perso-
na que puede asociarse con la escena del crimen. Los factores en el proceso
de transferencia que pueden considerarse son, entre otros, la transferencia
en sí misma, la persistencia y la recuperación.
La transferencia dependerá de la naturaleza del contacto entre el crimi-
nal y la escena. Por ejemplo, si se ha roto una ventana para intentar entrar,
entonces el tipo de ventana y la distancia desde la cual el criminal la rom-
pió son factores para valorar la cantidad de cristal transferido.
La persistencia dependerá del intervalo de tiempo entre la comisión del
hecho delictivo y el momento del arresto del sospechoso, así como de la
naturaleza de las ropas que se piense que llevaba el sospechoso en el mo-
mento en que sucedió el crimen. Eso también dependerá de la naturaleza
del contacto, como en la transferencia. La persistencia de los fragmentos
de cristal de una ventana rota puede tener diferentes características que la
persistencia de sangre tras una agresión prolongada.
La recuperación dependerá de los dos factores anteriores. También de-
penderá de la calidad de los recursos disponibles para la detección y reco-
gida de la evidencia.
La relación entre estos tres factores de transferencia, persistencia y re-
cuperación puede ilustrarse gráficamente mediante nodos (círculos) que
representen los factores y flechas (enlaces) que unen los nodos represen-
tando la relación entre ellos. Además, los factores que contribuyen a los
tres factores en el proceso de transferencia también pueden ser represen-
tados por nodos que enlazan con otros nodos para indicar las relaciones
apropiadas entre ellos. El diagrama resultante se conoce con el nombre de
grafo y los modelos asociados se denominan modelos gráficos.
Resulta posible incluir relaciones probabilísticas en tales grafos. Por
ejemplo, la probabilidad de transferencia de la evidencia en un caso parti-
cular puede ser dependiente de varios factores. Esa dependencia puede re-
presentarse mediante una distribución de probabilidad condicional, siendo
la condición los valores de los factores de los cuales depende la transferen-
cia. El uso de los modelos gráficos requiere tomar decisiones no sólo sobre
los valores de los parámetros en las distribuciones de probabilidad sino
también sobre el tipo de las distribuciones de probabilidad. Por ejemplo,
en el caso de una ventana rota, la distancia, D, desde la cual estaba el cri-
minal cuando la rompió es desconocida. A causa de la existencia de incer-
Aproximación basada en una distribución t   447

tidumbre asociada con D, ésta puede ser modelada probabilísticamente.


Una sugerencia (Curran y otros, 1998a) al respecto ha sido la de modelar D
con una distribución gamma (5.1).
La distribución Pr(N = n) del número N de fragmentos transferidos es de-
pendiente de D y de otros factores, tales como los mencionados anteriormente.
Esta distribución no puede expresarse mediante una fórmula en la que pu-
dieran reemplazarse los valores de los correspondientes factores y obtenerse
así las probabilidades. En su lugar, la distribución ha de obtenerse de forma
empírica a través de un proceso conocido como simulación, el cual se escapa
del ámbito de este libro. En Curran y otros (2000) se ofrecen más detalles so-
bre el proceso de simulación utilizado para la modelización de la transferencia
de fragmentos de cristal, y de los que se puede conseguir software apropiado
para ello. Curran y otros (2000, página 124) comentan que “el proceso de simu-
lación puede pensarse como una generalización de miles de casos donde los
detalles del crimen son aproximadamente los mismos y en el que se observa el
número de fragmentos recuperados”. Por cada uno de estos “miles de casos”
se obtiene un valor n. Luego se obtiene un histograma de n y se utiliza como
una aproximación a la distribución Pr(N = n). Desde esta aproximación, puede
obtenerse una estimación de la probabilidad de un valor particular de N.
Consideremos un caso en el que el sospechoso fue arrestado entre una y dos
horas desde la comisión del crimen. Hay evidencia testifical de que el criminal
estuvo a un metro de la ventana en el momento en que se rompió. Los expertos
esperan que se hayan podido transferir en las anteriores circunstancias unos
60 fragmentos de cristal. Esperan también que se hayan podido perder entre
el 80% y el 90% de los fragmentos sobre sus ropas durante la primera hora
tras el crimen, y del 50% al 70% de los fragmentos restantes durante la segun-
da hora. Y esperan, por último, recuperar alrededor del 90% al 95% de los
fragmentos que permaneciesen en la ropa en el momento de la inspección.
Inspeccionan la ropa del sospechoso y encuentran cuatro fragmentos de
cristal (N = 4). El proceso de simulación de Curran y otros (2000) indica una
probabilidad Pr(N = 4) de 0.08 y una Pr(N = 0) de 0.104. Los valores 0.08 y
0.104 son valores para tn en (10.17), con n = 4 y n = 0, respectivamente.
Una aproximación gráfica similar utilizando nodos y flechas para datos
discretos únicamente se describe con mucho detalle en el Capítulo 14.

10.6 Aproximación basada en una distribución t

El caso consistente en que se haya roto una ventana, se haya encontrado


un gran grupo de fragmentos en el sospechoso y que las propiedades del
448   Datos continuos

grupo sean similares a las de la ventana rota ha sido ya tratado anterior-


mente (Caso 1 de la sección 10.5.4), así como el LR (10.17).
El factor 1 / γ1 en (10.17) es una aproximación a la relación dada en
(10.2). Otra aproximación a la evaluación de V en (10.2) consiste en tener
en cuenta los estadísticos resumen para los datos de control y recuperados.
Sean ny y nx los números de medidas recuperadas y de control, respectiva-
mente, y = (y1, …, yny) los datos recuperados, y x = (x1, …, xnx) los de control.
Estos datos pueden ser reemplazados por estadísticos resumen para las
medias y varianzas, con:
nx
xi
ny
yj
x=∑ , y=∑ ,
i =1 nx j=1 n y

y
nx
(x i − x)2
ny
( y − y) 2
s 2x = ∑ , y s 2y = ∑ j .
i =1 (n x − 1) j=1 ( n y − 1)

Entonces, siguiendo el argumento de Walsh y otros (1996), la relación


(10.2) puede escribirse como:

f( x − y | x , s x , s y , H p )
V= (10.22)
f( y | x , s x , s y , H d )

El numerador de (10.22) puede considerarse que es una distribución


t-Student con una modificación Welch (Welch, 1937) cuando los datos x e
y están Normalmente distribuidos y las varianzas poblacionales σ 2x y σ 2y ,
estimadas mediante s 2x y s 2y , se asumen diferentes entre sí. El estadístico
para el numerador que va a ser referenciado con la densidad t-Student con
la modificación Welch es:

x−y
tW = (10.23)
s 2x s 2y
+
nx ny

El estadístico tW no tiene una distribución t pero se puede aproximar


por una distribución t con v grados de libertad, donde v se estima de la si-
guiente forma
Aproximación basada en una distribución t   449

2
 s 2x s 2y 
 + 
n 
v=  x ny  , (10.24)
 s 4x s 4y 
 + 
 n 2 (n − 1) n 2 (n − 1) 
 x x y y 

que no necesita ser, necesariamente, un entero (si v no es un entero, toma-


remos el entero más próximo a él para saber cuántos grados de libertad
tengo). Pueden obtenerse los valores de densidad para tW en muchos pa-
quetes de software estadístico.
El denominador de (10.22) es el valor de la densidad de probabilidad
para la población relevante de cristal en y . Este valor se obtiene normal-
mente de la estimación de la densidad de núcleo, como (10.11).
Consideremos como un ejemplo los datos de la Tabla 10.11 con y =
1.5195073, x = 1.5195730, s y = 5.24 × 10–5, s x = 4.55 × 10–5, n y = 11 y n x
= 10. El valor del estadístico t utilizando una desviación estándar común,
con 19 grados de libertad, es 3.06. El punto en el 99.5% de una distribución
t con 19 grados de libertad es 2.86, así pues, la hipótesis nula consistente
en que los datos recuperados (Johnston) y de control son muestras de po-
blaciones con la misma media se rechaza a favor de la alternativa bilate-
ral que defiende que las muestras proceden de poblaciones con distintas
medias con 1% de nivel de significación. La probabilidad de significación
(Sección 4.6) para el test bilateral es de 0.0064. De este modo, la conclu-
sión de un experto que usara esta aproximación sería la de rechazar la hi-
pótesis de que los fragmentos de cristal encontrados en Johnston vinieran
de la ventana de la escena del crimen, y esta evidencia sería descartada.
Sin embargo, uno de los problemas asociados con el uso de probabilidades
de significación es que existe una dicotomía entre los datos por los que se
rechaza la hipótesis nula y los datos por los que se acepta, el llamado efecto
acantilado descrito en la Sección 1.3.3.
450   Datos continuos

Tabla 10.11 Índices de refracción de fragmentos de cristal proporciona-


dos por Johnston, recuperados, y un conjunto de control, con
medias, desviaciones estándar separadas y conjuntas (s.d). El
número de fragmentos recuperados es ny = 11 y de control
nx = 10. Ejemplo presentado en Walsh y otros (1996).

Johnston Control
1.51940 1.51950
1.51946 1.51952
1.51947 1.51953
1.51948 1.51956
1.51950 1.51957
1.51952 1.51959
1.51952 1.51960
1.51953 1.51960
1.51956 1.51962
1.51957 1.51964
1.51957
Medias 1.5195073 1.5195730
Desviaciones estándar parciales 5.24 × 10 –5
4.55 × 10–5
Desviación estándar conjunta 4.92 × 10–5

El valor del numerador se obtiene de la densidad t-Student (Sección


2.4.3) con (en la notación de esa sección) x igual a la media de Johnston,
1.5195073, µ igual a la media de control, 1.5195730, v igual a los (no
enteros) grados de libertad, 18.97 (de sustituir en 10.24), y λ igual a
s 2x s 2y
+ que alcanza el valor 2.14 × 10–5 en este ejemplo. La transforma-
nx ny
( x − µ)
ción y = proporciona un valor al estadístico t de 3.07 con 18.97
λ
grados de libertad.
Tomando como referencia un software estadístico apropiado se obtiene
un valor para la función de densidad t central de 0.007. Un ajuste mediante
un factor 1 / λ proporciona un valor para la función de densidad t no cen-
tral (Sección 2.4.3) de 0.007 / 2.14 × 10–5 ó 328. Este es el valor del numera-
dor.
Aproximación basada en una distribución t   451

El valor del denominador se obtiene de los datos de la población y de


una estimación de densidad de núcleo. Para este ejemplo, el valor de esti-
mación de la densidad en la media Johnston es 109 (Walsh y otros, 1996).
El LR es 328 / 109 = 3.0. Esto proporciona ligero soporte para la proposi-
ción de que los fragmentos encontrados en la ropa de Jonhston vienen de
la ventana de la escena del crimen. Esta conclusión está en contraste con el
rechazo de esta proposición con un 1% de nivel de significación utilizando
un contraste de hipótesis bilateral.
Goldmann y otros (2004) describen otra aplicación para la distribución
t y la modificación Welch, en la que un examen del tinte sirve de ayuda
para la determinación de la fuente de pastillas ilícitas. El tinte considera-
do es el CI 14720. Hay una muestra Y de 5 pastillas que se comparan con
una remesa específica X con 20 pastillas y con otra remesa de 100 pastillas
atribuidas al mismo fabricante, Z, que fabricó X. La medida de interés es
la concentración de tinte, expresado en porcentaje. Se comparan dos pares
de proposiciones. La primera es:
• Hp1, la muestra Y procede de la remesa X;
• Hd1, la muestra Y no procede de la remesa X;
La segunda es:
• Hp2, la muestra Y procede de una remesa fabricada por Z;
• Hd2, la muestra Y no procede de una remesa fabricada por Z;
En la Tabla 10.12 se presentan los estadísticos resumen (Goldmann y
otros, 2004).

Tabla 10.12 Estadísticos resumen para la concentración de tinte CI 14720 en pastillas


ilícitas (Goldmann y otros, 2004)

Muestra Muestra Y Remesa X Fabricante Z Población general


Tamaño 5 20 100 –
Media (%) 0.165 0.140 0.180 0.300
Desviación estándar 0.02 0.01 0.04 0.06

No se aporta el tamaño muestral para la población general. La pobla-


ción está constituida por pastillas ilícitas coloreadas con el tinte CI 14720.
El porcentaje de concentración de tinte en las pastillas está normalmente
distribuido con media 0.300% y desviación estándar de 0.06%. Esto con-
trasta con el denominador del ejemplo anterior en el que se utilizó un es-
timador de densidad de núcleo. Los grados de libertad y las desviaciones
estándar conjuntas de Y con X, y de Y con la remesa producida por Z son:
452   Datos continuos

v y ,x = 4.50; s y , x − conjunta = 0.0092; y v y ,z = 5.75; s y , z − conjunta = 0.0098

Consideremos el primer par de proposiciones. El valor de la evidencia


se obtiene comparando la densidad de probabilidad de y en la remesa X, y
la densidad de probabilidad de y en la población general. Esto es 5.4.
Fijémonos en el segundo par de proposiciones. El valor de la evidencia
se obtiene comparando la densidad de probabilidad de y en la remesa Z, y
la densidad de probabilidad de y en la población general. Esto es 23.3.

10.7 Apéndice: derivación de V cuando las medidas in-


terfuente se asumen Normalmente distribuidas

Las distribuciones marginales de las medias de las medidas fuente y re-


ceptor (con m medidas sobre la fuente y n sobre el receptor), X e Y , en el
denominador son independientes y son, respectivamente, N(µ, τ2 + σ2 / m)
y N(µ, τ2 + σ2 / n).
τ2 + σ2 τ2 + σ2
Sean σ12 = y σ 22 = , donde τ2 es la varianza interfuen-
m n
 σ2σ2 
te. Entonces, (X − Y) ∼ N(0, σ12 + σ 22 ) y Z = (σ 2 X + σ1 Y) ∼ N µ, 1 2  , y
2 2

σ12 + σ 22  σ1 + σ 2 
2 2

(X − Y) y Z son también independientes. El denominador se puede escri-


bir de la siguiente forma:

1  ( x − y) 2   (z − µ) 2 (σ12 + σ 22 ) 
exp−  exp− 
2πσ1σ 2  2(σ1 + σ 2 ) 
2 2
 2σ12 σ 22 
En el numerador, se puede demostrar que la distribución incondicional
conjunta de X y de Y es una Normal bivariante con medias µ, varianzas
σ 12 y σ 22 y covarianza τ2.
  1 1  mX + n Y
La distribución de (X − Y ) es N 0, σ 2  +  . Sea W = . La
  m n  m+n
 τ2 + σ2 
distribución de W es N µ,  . También, (X − Y) y W son indepen-
 m+n 
1 1 τ2 + σ 2
dientes. Sean a 2 = + y σ32 = . Entonces, el numerador puede
m n m+n
escribirse como:

1  ( x − y) 2   ( w − µ) 2 
exp−  exp − 
2πaσσ3  2a 2 σ 2   2σ 32 
Apéndice:
Apéndice:derivaciónde derivación
vcuandolas de V cuando
medidasinterfuente las normalmente
seasumen medidas interfuente ...   453
distribuidas   453

El valor, V, de la evidencia es la relación entre el numerador y el denomi-


nador; después de alguna simplificación, éste es su valor:

σ1 σ 2  ( x − y) 2 τ 2   ( w − µ) 2 (z − µ) 2 (σ12 + σ 22 ) 
exp−  exp− + .
aσσ 3  a 2 σ 2 (σ 2 + σ 2 )
1 2   2σ 2
3
2σ 1
2σ2
2 
Valores grandes de V proporcionarían fuerte evidencia de que el sospe-
choso estuviera en la escena del crimen.
La expresión puede simplificarse. Normalmente, τ es mucho mayor que
σ. Entonces, σ 12 = σ 22 = σ 32 = τ 2 , Z = (X + Y) / 2, y:

τ  x − y) 2   ( w − µ) 2 ( z − µ) 2 
V≅ exp−  exp− + . (10.25)
aσ  2a 2 σ 2   2τ 2 τ2 
Si el número de medidas de control es igual al número de medidas recu-
peradas, entonces m = n, Z = W = (X + Y) / 2, σ 12 = σ 22 y:

m1 / 2 τ  m( x − y) 2   ( z − µ) 2 
V≅ exp−  exp  .
21 / 2 σ  4σ 2   2τ 2 
Capítulo 11
Análisis Multivariante Análisis Multivariante

11.1 Introducción

A menudo disponemos de más de una característica o variable respecto a


una evidencia. Por ejemplo, podemos recoger diferentes concentraciones de
diversos elementos en fragmentos de cristal. Esas características puede que
no sean independientes y resulta necesario tener en cuenta la dependencia
en la evaluación de la evidencia. En la Sección 4.6.3 pudo verse un ejemplo
sobre la importancia de conocer la dependencia entre características, siendo
en tal caso los índices de refracción y la densidad del cristal. El producto de
dos probabilidades de significación separadas fue 0.0016, lo cual puede con-
siderarse como muy significativo. En la Sección 4.6.3 se mostró que cuan-
do la dependencia entre las dos variables se tenía en cuenta en el análisis, la
probabilidad de significación fue sólo de 0.1225. Las dos características eran
individualmente significativas con un nivel de significación del 5 % pero jun-
tas no lo eran con un nivel de significación del 10 %. Es posible transformar
datos multivariantes, por ejemplo usando un método conocido como análisis
de componentes principales (Jolliffe, 1986), para obtener estadísticamente va-
riables independientes a partir de medidas correladas. En Kennedy y otros
(2003) puede encontrarse tal enfoque en el contexto de huellas de pisada.
En este capítulo se desarrolla un método para la evaluación de la eviden-
cia a través de la obtención de un LR apropiado. El método se comparará
con un contraste de hipótesis usando la T 2 de Hotelling (Sección 11.4). El
LR generaliza el LR (10.7) y asumimos que los datos están Normalmente
distribuidos. Como para el desarrollo de (10.7), se asume la existencia de
dos fuentes de variación: intrafuente e interfuente. Estas ideas pueden ex-
tenderse usando la estimación de densidad de núcleo en situaciones en las
que la interfuente no esté Normalmente distribuida, como en la Sección
10.4 para datos univariantes, pero esta extensión no la trataremos aquí.
Se puede disponer también de datos para los que sea posible desarrollar
distribuciones especializadas, pero de nuevo esto no será estudiado aquí.
456   Análisis Multivariante

Un ejemplo de esto sería una distribución bivariante desarrollada para mo-


delar medidas de coordenadas cromáticas complementarias tomadas de
fibras de una serie de prendas de vestir (Hoggart y otros, 2003).
Para ilustrar estas ideas emplearemos un ejemplo de concentraciones
elementales de cristales. La aritmética involucrada es considerable. Al ob-
jeto de que los datos puedan ser presentados fácilmente consideraremos
un ejemplo bastante poco realista en el que sólo se cuenta con dos varia-
bles y en el que sólo hay dos fragmentos de control y dos fragmentos re-
cuperados. Se calculan dos conjuntos de resultados, uno para cuando los
fragmentos de control y los recuperados provengan de la misma fuente y
otro para cuando los fragmentos de control y los recuperados provengan
de fuentes distintas. Los resultados se obtienen utilizando contrastes de hi-
pótesis con la T 2 de Hotelling (Sección 11.4), con LRs univariantes usando
(10.7) y con generalización multivariante. En el Apéndice se muestra una
breve derivación del LR multivariante.
En Hicks y otros (2003) se describe una aplicación de análisis multiva-
riante para la clasificación y discriminación de fragmentos de cristal. En
Thanasoulias y otros (2003) se describe una aplicación para un tipo de evi-
dencia diferente, una discriminación entre tintas de bolígrafo.

11.2 Descripción del ejemplo

El ejemplo utilizado para ilustrar estos métodos está basado en un ejem-


plo de concentraciones elementales de fragmentos de cristal de botellas
descrito en Curran y otros (1997a). Los cálculos se han minimizado debido
a que sólo se consideran dos elementos: aluminio y bario. En la notación
del Apéndice, p = 2. Hay dos fragmentos de control y dos fragmentos recu-
perados en cada caso ( n1 = n 2 = 2) . Hay dos grupos, cristales de botellas de
color marrón y cristales de botellas transparentes.
La concentración elemental media total μ, la matriz de covarianzas in-
tragrupo U y la matriz de covarianzas intergrupo C se dan a continuación:

 0.805 
=  ,
 0.016 
 0.002 0.00004 
U =  ,
(11.1)
 0.00004 0.000002 
 0.011 0.0006 
C =  .
 0.0006 0.00004 
Descripción del ejemplo   457

Estos tres parámetros μ, U y C pueden obtenerse desde datos poblacio-


nales de fragmentos de cristal. La primera componente de μ es la media
poblacional de la concentración de aluminio y la segunda componente de
μ es la media poblacional de la concentración de bario. La cifra de arriba
a la izquierda en U es la varianza poblacional intrafuente para el aluminio.
La cifra de abajo a la derecha en U es la varianza poblacional intrafuente
para el bario. La cifra de arriba a la izquierda en C es la varianza poblacio-
nal interfuente para el aluminio. La cifra de abajo a la derecha en C es la
varianza poblacional interfuente para el bario. Los términos de la diagonal
proporcionan una medida de la correlación entre las concentraciones de
los dos elementos.
Las medidas y 11 , y 12 en los dos fragmentos de control se toman de ma-
nera que sean las mismas en todos los casos. Éstas son:

 0.929   0.859 
y11 =  , y12 =  
 0.022   0.018 
La media de estos dos vectores se obtiene calculando la media de la pri-
mera componente y la media de la segunda componente. Estas dos medias
juntas generan el vector de medias. Éste puede representarse por y 1 y es:

 0.894 
y1 =  
 0.020 
Disponemos de dos conjuntos de fragmentos recuperados. Uno se usará
para la evaluación de la evidencia cuando los fragmentos de control y los
recuperados provengan de la misma fuente, y el otro se usará para la eva-
luación de la evidencia cuando los fragmentos de control y los recuperados
provengan de diferentes fuentes.

Las medidas y 21 , y 22 de los dos fragmentos recuperados que provienen


de la misma fuente a la que pertenecen los fragmentos de control son:

 0.845   0.931 
y 21 =  , y 22 =  ,
 0.018   0.020 
con media
 0.888 
y 2 =  .
 0.019 
458   Análisis Multivariante

Las medidas y 31 , y 32 de los dos fragmentos recuperados que provienen


de diferentes fuentes respecto a los fragmentos de control son:

 0.751  0.659 
y 31 =  , y 32 =  ,
 0.011  0.009 
con media

 0.705 
y 3 =  .
 0.010 
Nótese que éstas están representadas con un subíndice 3 para distin-
guirlas de las de los fragmentos recuperados, que tienen subíndice 2, con-
sideradas como provenientes de la misma fuente que los fragmentos de
control, los cuales se representan con el subíndice 1. Nótese también que,
para datos multivariantes, y se usa para representar tanto los datos de con-
trol como los recuperados.
Se consideran varias medidas para la evaluación de la evidencia:
• t - test univariantes para el aluminio y para el bario separadamente;
• T 2 de Hotelling, que combina la información proporcionada por los
dos elementos;
• LRs univariantes usando (10.7);
• LRs multivariantes usando los resultados que se dan en el Apéndice.

11.3 t -Test univariantes

Se consideran dos proposiciones:


H p , los fragmentos de cristal de control y los recuperados provie-

nen de la misma fuente;
H d , los fragmentos de cristal de control y los recuperados provie-

nen de fuentes diferentes.
Las medidas y están tomadas de concentraciones elementales de frag-
mentos de cristal que proceden de la escena del crimen (medidas n 1 ) y de
un sospechoso (medidas n 2 ). Llamamos a las medias poblacionales de los
cristales 1 y 2 . Si H p es verdadera, 1 y 2 son iguales. Si H d es verda-
dera, 1 y 2 son distintas. La varianza σ 2 se considera igual para las dos
poblaciones. A la media de las medidas en la escena del crimen la llama-
mos y 1 . A la media de las medidas en el sospechoso la llamamos y 2 o y 3 ,
-test univariantes   459
Tt-Test

dependiendo de si los fragmentos escogidos provienen de la misma fuente


o de fuentes distintas.
El estadístico es entonces:

| y1k − y lk |
t= , (11.2)
1 1
σ +
n1 n l

donde k = 1 ó 2, dependiendo si es aluminio (k = 1) o bario (k = 2) y l = 2


ó 3, dependiendo del escenario. Los números n1 , n 2 y n 3 de fragmentos en
cada grupo son todos iguales a 2 en estos ejemplos. Nótese también que se
aboga por un t–test aún cuando la desviación típica σ ha sido estimada a
partir de alguna población. El uso de σ es para relacionar este análisis con
el análisis más completo descrito más tarde en el que se usa la matriz de
covarianzas intragrupo U. El valor para σ 2 o bien es la componente de arri-
ba a la izquierda de la matriz U para el aluminio o bien la componente de
abajo a la derecha de la matriz U para el bario.
Consideraremos cuatro situaciones:
a) medidas de las concentraciones de aluminio para fragmentos que
procedan de la misma fuente;
b) medidas de las concentraciones de aluminio para fragmentos que
procedan de distintas fuentes;
c) medidas de las concentraciones de bario para fragmentos que pro-
cedan de la misma fuente;
d) medidas de las concentraciones de bario para fragmentos que pro-
cedan de distintas fuentes.
Para las dos situaciones relacionadas con el aluminio, el deno-
minador de (11.2) es (0.002 / 2 + 0.002 / 2 ) = 0.045 . Para las dos si-
1/ 2

tuaciones relacionadas con el bario, el denominador de (11.2) es


(0.000002 / 2 + 0.000002 / 2)1 / 2 = 0.0014 . Los resultados para estas cuatro
situaciones son respectivamente:
a) | y11 − y 21 |= 0.894 − 0.888 = 0.006, y t = 0.006 / 0.045 = 0.133;
| y11 − y 31 |= 0.894 − 0.705 = 0.189, y t = 0.189 / 0.045 = 4.2;
b)
c)
| y12 − y 22 |= 0.020 − 0.019 = 0.001, y t = 0.001/ 0.0014 = 0.71;
| y12 − y32 |= 0.020 − 0.010 = 0.010, y t = 0.010 / 0.0014 = 7.14.
d)
Hay dos grados de libertad en todas las situaciones
( n1 + n 2 − 2 = n1 + n 3 − 2 = 2 ). El punto 2.5 % de la distribución t-Student
460   Análisis Multivariante

con 2 grados de libertad es 4.3027 y el punto 0.5 % es 9.9248. Así, para un


test bilateral, no hay suficiente evidencia en a) y c) para rechazar la pro-
posición de que los dos conjuntos de fragmentos provinieran de la misma
fuente. Para b), hay al menos suficiente evidencia con un nivel de significa-
ción del 5 % para rechazar la proposición de que los dos conjuntos de frag-
mentos provinieran de la misma fuente. La probabilidad de significación
en el test bilateral para la salida en d) es 2 %.

11.4 T2 de Hotelling

Esta distribución es un análogo multivariante de la distribución t–Stu-


dent univariante.
Como antes, consideramos dos proposiciones:
H p , los fragmentos de cristal de control y los recuperados provie-

nen de la misma fuente;
H d , los fragmentos de cristal de control y los recuperados provie-

nen de fuentes distintas.
Como medidas bivariantes y se toman las concentraciones de aluminio
y de bario de los fragmentos de cristal en la escena del crimen (medidas
n 1 ) y en un sospechoso (medidas n 2 o n 3 ). A las medias bivariantes de las
poblaciones de las que proceden los cristales las llamamos 1 y 2 . Si H p
es verdadera, 1 y 2 son iguales. (La igualdad de un vector se sigue de la
igualdad de cada componente por separado). Si H d es verdadera, 1 y 2
son distintas. La matriz de covarianzas usada con el estadístico T 2 es la
matriz de covarianzas U intragrupo y ésta se considera igual para las dos
poblaciones. A la media de las medidas en la escena del crimen la llama-
mos y 1 . A la media de las medidas en el sospechoso la llamamos y 2 o y 3 ,
dependiendo de si los fragmentos escogidos provienen de la misma fuente
o de fuentes distintas.
El estadístico es entonces:
−1
 1 1  
(
T = ( y1 − y l )  + U  y1 − y l
2 T ) (11.3)
 n1 n l  
para l = 2, 3. Como para el t–estadístico univariante, la matriz de covarian-
zas debe estimarse con los fragmentos de control y los recuperados, pero
la matriz de la población U se usa para facilitar la comparación con los
resultados de la Normal multivariante. La matriz de covarianzas U se da en
(11.1). El estadístico T 2 está F distribuido de tal forma que:
Lr para normalidad univariante con dos fuentes de variación   461
LR

(n1 + n l − 2)p
T2 ~ Fp ,n +n −p−1
n1 + n l − p − 1 1 l

donde en este caso l = 2 ó 3, p = 2 y n 1 = n 2 = n 3 = 2. Así,


(n 1 + n l − 2)p /(n 1 + n l − p − 1) = 4 y la distribución F tiene (2,1) grados de
libertad. La significancia del test puede determinarse entonces evaluando
T 2 , dividiendo el valor obtenido por 4 refiriendo el resultado a una dis-
tribución F con (2,1) grados de libertad (usando tablas estadísticas o un
software).
Consideraremos dos situaciones: (a) medidas de las concentraciones
de aluminio y bario conjuntas para fragmentos procedentes de la misma
fuente y (b) medidas de las concentraciones de aluminio y bario conjuntas
para fragmentos que proceden de fuentes distintas.
La diferencia en las medias y 1 e y 2 es (0.006,0.001) T . También
(1 / n1 + 1 / n 2 )U −1 = (1 / 2 + 1 / 2)U −1 = U −1 . El valor de T 2 (11.3) es, de este modo:

 0.006 
(0.006,0.001)U −1   = 0.6633 (11.4)
 0 . 001 
La diferencia en las medias y 1 e y 3 es (0.189,0.010) T . También
(1 / n1 + 1 / n 3 )U −1 = (1 / 2 + 1 / 2)U −1 = U −1 . El valor de T 2 (11.3) es, de este
modo:

 0.189 
(0.189,0.010)U −1   = 50.1008
 0.010 
Estos valores divididos por 4 (el valor apropiado de
(n1 + n l − 2)p /(n1 + n l − p − 1) para este ejemplo), esto es, 0.168 y 12.525, de-
ben entonces referirse a F2,1 . El punto 5 % de la distribución F2,1 es 199.5,
de tal manera que estos resultados son muy insignificantes. Hay muy poca
evidencia para cualquier caso en el que los fragmentos de control y los re-
cuperados provengan de fuentes distintas.

11.5 L
 R para Normalidad univariante con dos fuentes
de variación

Los métodos descritos en las Secciones 11.3 y 11.4 consideran sólo la


varianza intragrupo, y la evidencia es evaluada con una probabilidad de
significación.
462   Análisis Multivariante

En (10.7) se da un LR univariante que sirve tanto para varianzas intergru-


po como para varianzas intragrupo con datos univariantes Normalmente
distribuidos. Las varianzas intragrupo ( σ 2 en la notación de (10.7)) son los
términos de la diagonal principal de U, 0.002 para el aluminio y 0.000002
para el bario. Las varianzas intergrupo ( τ 2 en la notación de (10.7)) son los
términos de la diagonal principal de C, 0.011 para el aluminio y 0.00004
para el bario. El número m de fragmentos de control y recuperados corres-
ponde a n1 , n 2 y n 3 en este capítulo. La diferencia ( x − y ) en las medias de
control y recuperadas en la notación de (10.7) son ahora denotadas ( y1 – y l ),
donde l = 1,2 para fragmentos recuperados que provienen de la misma fuen-
te o de distintas fuentes que los fragmentos de control. Para terminar con
los comentarios relacionados con la notación, z en (10.7) es ½ ( y1 + y l ),
la media de los fragmentos de control y recuperados.
Como en la Sección 11.3, consideraremos cuatro situaciones: (a) medi-
das de las concentraciones de aluminio para fragmentos procedentes de
una misma fuente; (b) medidas de las concentraciones de aluminio para
fragmentos procedentes de fuentes distintas; (c) medidas de las concen-
traciones de bario para fragmentos procedentes de una misma fuente; (d)
medidas de las concentraciones de bario para fragmentos procedentes de
fuentes distintas. La expresión m1/ 2 τ /(21/ 2 σ) tiene dos valores posibles, uno
cuando estemos considerando aluminio y otro cuando estemos conside-
1/ 2 1/ 2
rando bario. Para el aluminio es igual a (0.011 / 0.002) = 5.5 ≅ 2.35, y
1/ 2 1/ 2
para el bario es igual a ( 0.00004 / 0.000002) = 20 ≅ 4.47 .

a) Aquí, σ 2 = 0.002, τ 2 = 0.011, μ = 0.805, z = 0.891, e (y1 − y 2 ) = 0.006.


   El valor de la evidencia es entonces, de (10.7):
1/ 2
 0.011   0.006 2 0.086 2 
  exp− +  = 3.25
 0.002   0.004 0.022 

b) Aquí, σ 2 = 0.002, τ 2 = 0.011, μ = 0.805, z = 0.7995, e (y1 − y 3 ) = 0.189.


   El valor de la evidencia es entonces, de (10.7):
1/ 2
 0.011   0.189 2 0.0055 2 
  exp− +  = 0.00031 ≅ 1 / 3200.
 0.002   0.004 0.022 
Lr para normalidad multivariante con dos fuentes de variación   463
LR

c) Aquí, σ 2 = 0.000002, τ 2 = 0.00004, μ = 0.016, z = 0.0195, e


(y1 − y 2 ) = 0.001.
El valor de la evidencia es entonces, de (10.7):
1/ 2
 0.00004   0.0012 0.0035 2 
  exp− +  = 4.06
 0.000002   0.000004 0.00008 

d) Aquí, σ 2 = 0.000002, τ 2 = 0.00004, μ = 0.0016, z = 0.015, e


(y1
− y3 ) = 0.01
   El valor de la evidencia es entonces, de (10.7):
1/ 2
 0.00004   0.012 0.0012  −11
  exp− +  = 6.3 × 10
 0.000002   0.000004 0 .00008 

Sean Va ,1 y Va , 2 los valores de la evidencia para las concentraciones de


aluminio en fragmentos de cristal que proceden de la misma y de diferen-
tes fuentes, respectivamente, y sean Vb ,1 y Vb , 2 los valores de la evidencia
para las concentraciones de bario en fragmentos de cristal que proceden
de la misma y de diferentes fuentes, respectivamente. Asumamos, por el
momento, que las medidas de las concentraciones de aluminio y bario son
independientes. Entonces, para el escenario donde se han elegido dos gru-
pos de fragmentos que provienen de la misma fuente, el valor total de la
evidencia es:

Va ,1 × Vb ,1 = 3.25 × 4.06 = 13.2.

Para el escenario en el que se han elegido los dos grupos de fragmentos


procedentes de fuentes distintas, el valor total de la evidencia es:

Va , 2 × Vb , 2 = (3.1 × 10−4 ) × (6.3 × 10−11 ) = 2.0 × 10−14

11.6 LR para Normalidad multivariante con dos fuen-


tes de variación

En las tres secciones anteriores se han estudiado ejemplos, con referen-


cia a un conjunto particular de datos, en los que sólo se ha considerado la
varianza intragrupo y la evidencia ha sido evaluada mediante una probabi-
lidad de significación en las Secciones 11.3 y 11.4. De estos ejemplos, el pri-
464   Análisis Multivariante

mero considera datos univariantes y el segundo datos multivariantes. En la


Sección 11.5 se trató sobre un LR univariante tanto para varianza intergru-
po como para varianza intragrupo con datos univariantes Normalmente
distribuidos. Para completarlo, los datos se analizan ahora usando un LR
multivariante tanto para varianza intergrupo como para varianza intragru-
po con datos multivariantes Normalmente distribuidos. En el Apéndice se
ofrece un desarrollo técnico de las partes que componen el LR. En esta sec-
ción se muestra un ejemplo numérico, y los resultados pueden compararse
con los de las tres secciones anteriores. Como en la Sección 11.4, hay dos
escenarios. El primero es tal que los fragmentos de control y recuperados
se eligen como procedentes de la misma fuente. En el segundo los frag-
mentos de control y recuperados se eligen como procedentes de fuentes
diferentes. Los datos son los mismos que en las secciones anteriores. Se
proporcionan valores numéricos a varios componentes de las fórmulas y,
conjuntándolos, finalmente se obtiene el valor de la evidencia para cada
uno de los dos escenarios.
Primeramente, consideremos el caso en el que los fragmentos de control
y recuperados se eligen como procedentes de la misma fuente.
La media total de los dos conjuntos de fragmentos viene dada por:

 0.891 
y = (n1y1 + n 2 y 2 )/( n1 + n 2 ) = ( y1 + y 2 ) / 2 =  .
 0.0195 
Las matrices S1 y S 2 miden la variabilidad en los fragmentos de control
y los recuperados, respectivamente, y se obtienen a partir de (11.19):

 0.00245 0.00014 
S1 =  , (11.5)
 0.00014 0.000008 
 0.014792 0.000172 
S 2 =  , (11.6)
 0.000172 0.000002 
Definimos las matrices D1 = U / n1 y D2 = U / n 2 . Para el ejemplo que es-
tamos tratando, n1 = n 2 = 2 y así D1 + D 2 = U .
Consideremos cómo determinamos el numerador.
El término H 3 (11.17) mide la diferencia entre las medias de los frag-
mentos de control y recuperados. En este ejemplo,

H 3 = ( y1 − y 2 ) T (D1 + D 2 ) −1 ( y1 − y 2 ) = ( y1 − y 2 ) T (U −1 )( y1 − y 2 ) = 0.6633

como en (11.4).
Lr para normalidad multivariante con dos fuentes de variación   465
LR

El término H 2 (11.16) mide la diferencia entre la media total de los frag-


mentos de control y recuperados y la media de la población total. En este
ejemplo,

U
H 2 = ( y − )T ( + C) −1 ( y − ) = 0.7816
n1 + n 2

El término H1 (11.15) mide la variabilidad en las medidas de los frag-


mentos de control y los recuperados con respecto a la matriz de covarian-
zas intragrupo. En este ejemplo,
2
H1 = ∑ traza (S l U −1 ) = 12.2975
l=1

donde S1 y S 2 se dan en (11.5) y (11.6), respectivamente, y la traza de la


matriz está definida en el Apéndice (Sección 11.9.1).

La suma H1 + H 2 + H 3 = 13.7424

Los otros términos en (11.14) tienen determinantes, inversas y raíces


cuadradas de determinantes de funciones de las dos matrices de covarian-
za U y C. Para este ejemplo, toman valores:
1
− ( n +n )
| 2πU | 2 1 2 = 1.11 × 1014 ,
| 2πC |−1/ 2 = 5.62 × 102 ,
| 2π{(n1 + n 2)U −1 + C−1} |1/ 2 = 7.11 × 10−5
−1

Todos estos términos pueden juntarse para dar el numerador del LR, el
cual es:

(1.11 × 1014 ) × (5.62 × 10 2 ) × (7.11 × 10 −5 ) × exp(−13.7424 / 2) = 4.6 × 10 9 (11.7)

Ahora, consideramos el denominador. El primer término viene dado por


(11.20). La expresión:
1 U
( y1 − ) T ( + C) −1 ( y1 − )
2 n1
mide la distancia de la media del grupo de control con respecto a la media
total. En este ejemplo ésta es igual a 0.35. La expresión
466   Análisis Multivariante

1
traza (S1U −1 )
2
compara la variación interna para el grupo de control con la matriz de co-
varianza intragrupo. En este ejemplo, es igual a 2.02.
Los distintos términos con determinantes de las matrices de covarianza
toman los valores siguientes:
1
− n
| 2πU | 2 1 = 1.05 × 107 ,
| 2πC |−1/ 2 = 5.62 × 102 ,
| 2π{(n1U −1 + C−1 )} |1/ 2 = 1.33 × 10−4
−1

Todos estos términos pueden juntarse para dar el primer término del
denominador del LR, que es:

(1.05 × 10 7 ) × (5.62 × 10 2 ) × (1.33 × 10 −4 ) × exp(−2.37) = 7.33 × 10 4 (11.8)

El segundo término viene dado por una expresión análoga a (11.20). La


expresión:

1 U
( y 2 − )T ( + C) −1 ( y 2 − ) (11.9)
2 n1

mide la distancia de la media del grupo recuperado con respecto a la media


total. En este ejemplo, ésta es igual a 0.38. La expresión:

1
traza (S 2 U −1 )
2

compara la variación interna para el grupo recuperado con la matriz de


covarianza del intragrupo. En este ejemplo, es igual a 4.13.
Los distintos términos con determinantes de las matrices de covarianza
son los mismos que para el primer término en el denominador.
Todos estos términos pueden juntarse para dar el segundo término del
denominador del LR, que es:

(1.05 × 10 7 ) × (5.62 × 10 2 ) × (1.33 × 10 −4 ) × exp(−4.51) = 8.63 × 10 3


Lr para normalidad multivariante con dos fuentes de variación   467
LR

El valor de la evidencia es entonces

4.6 × 109
V= ≅ 7.3
7.33 × 104 × 8.63 × 103

Ahora, consideramos el caso en el que los fragmentos de control y los


recuperados se eligen como procedentes de fuentes distintas. Muchos de
los términos y cálculos serán los mismos o similares a los llevados a cabo
para el ejemplo en el que los fragmentos de control y los recuperados fue-
ron elegidos como procedentes de la misma fuente. Esto es así porque se
ha elegido el mismo grupo de control en ambos casos y porque las matrices
de covarianza U y C y los tamaños muestrales n 1 y n 3 son los mismos.
Las diferencias están en la segunda matriz de variabilidad intragrupo
S 3 , la media total y , y H 3 que mide la distancia entre las medias de las me-
didas de control y las recuperadas.
La media total de los dos conjuntos de fragmentos viene dada por:

1  0.7995 
y = (n1y1 + n 3 y 3 ) /( n1 + n 3 ) = ( y1 + y 3 ) =  .
2  0.0150 

La matriz S 3 viene dada por

 0.00423 0.000092 
S 3 =  . (11.10)
 0 . 000092 0 . 000002 

Consideremos la evaluación del numerador. En este ejemplo,


H 3 = ( y1 − y 3 ) T (D1 + D2 ) −1 ( y1 − y 3 ) = ( y1 − y 3 ) T (U −1 )( y1 − y 3 ) = 50.1008

Éste es mucho mayor que H 3 para el ejemplo en el que los frag-


mentos de control y los recuperados procedían de la misma fuente.
Como se utiliza éste valor en negativo en el término exponencial, habrá
una considerable reducción en el valor de la evidencia. También, sea
1
y = (n1y1 + n 3 y 3 ) /(n1 + n 2 ) = ( y1 + y 3 ) . Entonces
2
U
H 2 = ( y − )T ( + C) −1 ( y − ) = 0.0642
n1 + n 3
468   Análisis Multivariante

H1 = traza (S1U −1 )+ traza (S 3U −1 ) = 6.16416

Así H1 + H 2 + H 3 = 56.32916
Los otros términos con determinantes, inversas y raíces cuadradas de
determinantes de funciones de las dos matrices de covarianzas U y C son
los mismos que antes, concretamente:
1
− ( n +n )
| 2πU | 2 1 2 = 1.11 × 1014 ,
| 2πC |−1/ 2 = 5.62 × 102 ,
| 2π{(n1 + n 2)U −1 + C−1} |1/ 2 = 7.11 × 10−5
−1

El numerador del LR es entonces

14 2 −5
(1.11 × 10 ) × (5.62 × 10 ) × (7.11 × 10 ) × exp(−56.32916 / 2) = 2.60

Ahora, consideramos el denominador. El primer término es el mismo


que (11.8) y es igual a 7.33 × 10 4 .
La segunda componente de la parte exponencial del segundo término
del denominador viene dado por

1 U
( y 3 − ) T ( + C) −1 ( y 3 − )
2 n3

En este ejemplo es igual a 0.45540. La expresión

1
traza (S3U −1 )
2

es igual a 1.06333. La suma de esos dos términos es 1.51873. Como antes,


los distintos términos con determinantes de las matrices de covarianza son
los mismos que para el primer término en el denominador.
Todos esos términos pueden juntarse para dar el segundo término en el
denominador del LR, el cual es

(1.05 × 10 7 ) × (5.62 × 10 2 ) × (1.33 × 10 −4 ) × exp(−1.51873) = 1.72 × 10 5.


Advertencias al lector   469

El valor de la evidencia es entonces

2.60
V= = 2.1 × 10−10
7.33 × 104 × 1.72 × 105

11.7 Advertencias al lector

Los datos multivariantes son cada vez más predominantes en la cien-


cia forense. La averiguación de la composición elemental de un cristal es
un hecho común. En este capítulo se ha ofrecido un ejemplo simple, más
bien simplista, de estas ideas. No se han analizado aquí datos discretos. El
análisis de datos discretos requiere considerar interacciones en una tabla
multi-dimensional y es necesario realizar juicios cuidadosos para decidir
entre los posibles márgenes de la tabla que han de fijarse para valorar si
encaja el modelo adecuado. Cada dimensión de la tabla se corresponde con
una característica distinta. Las características discretas pueden ser cualita-
tivas o cuantitativas, y las características cualitativas pueden ser nominales
u ordinales. Es también posible afrontar un problema multivariante en el
que algunas de las características sean discretas y otras continuas. Esto
tampoco se ha tratado aquí.
La ventaja del análisis multivariante es que pueden ser apropiadamen-
te consideradas las asociaciones entre las distintas características, sin tener
que realizar asunciones de independencia que pudieran estar injustificadas.
Otros métodos para la evaluación de las medidas de las concentraciones
elementales desarrollados al término del siglo XX incluyen un LR que utili-
za la densidad de probabilidad de Hotelling T 2 para estimar una densidad
de núcleo univariante basada en una transformación de datos multivarian-
tes en una función univariante (Curran y otros, 1997a,b). El estadístico
contenido de información (Sección 7.4) también proporciona discrimina-
ción entre fragmentos de cristal utilizando concentraciones elementales
(Koons y Buscaglia, 1999a). Koons y Buscaglia (1999a,b) critican el uso de
bases de datos para un análisis posterior a los datos de medidas de cristal,
porque las características varían por razón del lugar y el tiempo. Son cons-
cientes de que los datos son multivariantes y de ahí que se requieran gran-
des números de muestras para predecir con exactitud las probabilidades
de sucesos con frecuencias de ocurrencia bajas.
La capacidad de discriminación puede valorarse mediante el cálculo de
errores de tipos 1 y 2 en los contrastes de hipótesis (Koons y Buscaglia,
470   Análisis Multivariante

2002). Esto se hace mediante un t-test en cada variable y valorando la sig-


nificación de cada test. Hay una modificación Welch (1937) (Sección 10.6)
para varianzas distintas, y una corrección de Bonferroni para ajustar el
nivel de significación en comparaciones multivariantes. La corrección de
Bonferroni se admite en comparaciones múltiples si se han llevado a cabo
una serie de tests independientes. En tales comparaciones, si se utiliza una
probabilidad de error tipo 1 individual α y se comparan p variables, la pro-
babilidad de error de tipo 1 total es aproximadamente pα. La probabilidad
de error total, puede reducirse a α reduciendo la probabilidad de error de
tipo 1 individual a α/p. Esta reducción se conoce como la corrección de
Bonferroni. En Koons y Buscaglia (2002) se informa de una excelente dis-
criminación con una probabilidad de error de tipo 2 de 0.009 % cuando se
utiliza una probabilidad de error de tipo 1 de 5 % sobre diez variables. Esto
proporciona una muy buena respuesta para la cuestión anterior a los datos
y muestra que las concentraciones elementales proporcionan una excelen-
te discriminación. Este método podría criticarse por el uso de un punto de
corte fijo del 5 % para el error de tipo 1, pero esto podría ser excesivamente
crítico con un método que es tan claramente eficaz.
Un problema derivado del uso de datos multivariantes es que la estima-
ción de los parámetros (μ,U,C), las probabilidades asociadas y los LR pue-
de que no sean muy precisos. Por ejemplo, si consideramos las concentra-
ciones de diez elementos, hay 10 parámetros que estimar (para μ), mas 55
varianzas y covarianzas para cada U y C. Esto es, 120 en total. Para tener
una precisión muy alta, necesitamos muchos datos. Por esta razón, se re-
comienda que la aproximación del LR descrita aquí se restrinja sólo a unas
pocas variables. Por ejemplo, si sólo consideramos tres variables entonces
han de estimarse 15 parámetros.
Otro problema detectado es que alguna de las densidades de probabi-
lidad estimadas son extremas, o extremadamente grandes o extremada-
mente pequeñas. Las densidades de probabilidad, a diferencia de las pro-
babilidades, pueden ser mayores que uno. Por ejemplo, en el LR para la
comparación de datos multivariantes de control y recuperados proceden-
tes de la misma fuente, el numerador (11.7) es 4.6 × 10 9. Este es un número
extremadamente grande obtenido multiplicando a la vez varios números,
uno de los cuales, 1.11 × 1014 , es aún mayor. Los dos términos del denomi-
nador, (11.8) y (11.9), 7.33 × 10 4 y 8.63 × 10 3 , son moderadamente grandes.
El resultado, 7.3, se obtiene como resultado de hacer multiplicaciones y di-
visiones de varios números grandes, y se ha de tener gran cuidado compro-
bando la precisión del resultado de tales operaciones. Análogamente, para
el cálculo del LR para la comparación de datos multivariantes de control
Resumen   471

y recuperados procedentes de fuentes distintas, el ejemplo proporciona un


número muy pequeño, 2.1 × 10 −10.
Debería comprobarse la precisión de estos resultados antes de confiar
en ellos. Los datos que se han usado para motivar el ejemplo en que se basa
este capítulo (Curran y otros, 1997a) se presentaron con tres cifras signifi-
cativas. Los resultados finales, 7.3 y 2.1 × 10 −10., se presentan con sólo dos
cifras significativas. Es aconsejable verificar la precisión ajustando los da-
tos de entrada por una cantidad pequeña, por ejemplo un 1%, y trabajando
con el análisis de nuevo. Si el resultado varía por una cantidad similar, el
citado 1 %, entonces podremos confiar razonablemente en esta precisión.
Sin embargo, si el resultado varía en una cantidad grande entonces confia-
remos menos en esta precisión.

11.8 Resumen

Se han comparado cuatro métodos de análisis de datos multivariantes.


Dos de ellos usan probabilidades de significación. Éstos no están recomen-
dados debido a la naturaleza artificial del nivel de significación y la dico-
tomía entre los resultados que son significativos de los que no lo son. Hay
también un problema inherente a que el resultado no se asimila fácilmen-
te como una valoración global del valor de toda la evidencia presentada.
Además, el primer método utilizó dos t–test independientes sin conocer si
las variables eran independientes.
Los otros dos métodos usados son los LR. Estas aproximaciones no uti-
lizan un umbral artificial y el resultado es fácilmente asimilable. El primer
método, sin embargo, sólo consideró la variabilidad intragrupo. El segun-
do método considera ambas, la variabilidad intragrupo y la intergrupo.
En Aitken y Lucy, 2004, se aporta una extensión del segundo método para
la distribución intergrupo no Normal y para modelos de distribución con
densidad de núcleo estimada.

11.9 Apéndice

11.9.1 Terminología matricial

Presentamos aquí una breve introducción a las matrices. Si se desean más


detalles, dos buenas referencias son Mardia y otros (1979) y Graybill (1969).
Una matriz A es una colección de números colocados en forma rectan-
gular. Si A tiene r filas y c columnas se dice que es de orden r × c (leído
472   Análisis Multivariante

como ‘r por c’). Por ejemplo, r medidas en c características (o variables)


pueden ser ordenadas de esta forma. Otro ejemplo es la matriz de varian-
zas y covarianzas Σ, que se introdujo en la Sección 2.4.6 y que se conoce
como la matriz de covarianza. Si r = c, la matriz se dice que es cuadrada,
y un ejemplo de matriz cuadrada es la matriz de covarianza. Las matrices
U y C en el ejemplo discutido en este capítulo son 2 x 2 ya que el número
de variables en el ejemplo es 2. Los términos de la diagonal principal son
las varianzas y los términos fuera de ella (son aquellos que están en las es-
quinas, arriba a la derecha y abajo a la izquierda) son las covarianzas. Las
covarianzas son iguales puesto que la covarianza entre las variables 1 y 2 es
la misma que la covarianza entre las variables 2 y 1. Para unificar notación
en este apéndice, una matriz 2 × 2, llamada A, se expresa con los términos
de la matriz siguiente:

a a12 
A =  11  (11.11)
 a 21 a 22 
Los subíndices refieren la celda en la que ha de colocarse cada término.
Así a ij es el miembro de la celda (i,j), la celda en la fila i y la columna j de la
matriz. Una matriz A es a veces denotada por { a ij }.

La traza de una matriz

La traza de una matriz es la suma de los términos de la diagonal princi-


pal, que es la diagonal que va desde la esquina de arriba a la izquierda a la
esquina de abajo a la derecha de la matriz. Así, la traza de A es (a11 + a22).
Ésta se representa mediante traza(A). Sólo existe si la matriz es cuadrada.

La traspuesta de una matriz

{}
La traspuesta de una matriz r × c, A = a ij , (i = 1,..., r; j = 1,..., c) es una
{ }
matriz c × r, B = b ji ,( j = 1,..., c; i = 1,..., r ) tal que b ji = a ij . El elemento en la
j-ésima fila y la i-ésima columna de B es el elemento en la i-ésima fila y la
j-ésima columna de A. La traspuesta de A es A T .
Sea A una matriz 3 x 2

 a 11 a 12 
 
A =  a 21 a 22 
a a 
 31 32 
Apéndice   473

Entonces

 a11 a 21 a 31 
A T =  
a
 12 a 22 a 32 

Una matriz A es simétrica si es igual a su traspuesta, A = A T . Así, es una


matriz necesariamente cuadrada, con r = c. Una matriz r × 1 es un vector
columna y su traspuesta es un vector fila 1 × r. Para r = 3,

 x1 
 
x =  x2 
x 
 3
y

x T = ( x1 x2 x3 ).

Suma de dos matrices

Dos matrices del mismo orden pueden sumarse para dar una tercera
matriz del mismo orden. Sea B una matriz

b b12 
B =  11 
 b 21 b 22 

Entonces, la matriz suma A + B se obtiene sumando las correspondien-


tes celdillas:

 a11 + b11 a12 + b12 


A + B =  .
 a 21 + b 21 a 22 + b 22 

Nótese que A + B = B + A.

Determinante de una matriz

El determinante de una matriz cuadrada A es un número no negativo,


que se representa por | A |. Para la matriz 2 × 2 A en (11.11), el determinan-
te es la diferencia entre el producto de los términos de la diagonal principal
y el producto de los términos de la diagonal secundaria. Así:
474   Análisis Multivariante

| A | = a11a 22 − a12a 21

Hay que tener cuidado con la notación. Para una matriz, el símbolo | . |
representa el determinante. Para un número real, el símbolo | . | represen-
ta el valor positivo del número. La multiplicación de una matriz por una
constante, digamos c, da como resultado otra matriz con todas sus celdas
multiplicadas por c. Así:

 ca11 ca12 
cA =  
 ca 21 ca 22 

y | cA | = c 2 | A | . En general, para una matriz p × p, | cA | = c p | A | .

Multiplicación matricial

A continuación se presentan ejemplos de matrices, vectores fila y colum-


na multiplicados por matrices 2 × 2, teniendo los vectores fila y columna
dos componentes. Primero, consideramos la multiplicación de un vector
por una matriz. El vector columna es x, donde

x 
x =  1 
 x2 

y la matriz A es como en (11.11). Al multiplicar dos matrices es importante


el orden, y el número de columnas de la primera matriz debe ser igual al
número de filas de la segunda matriz. La salida es una matriz en que el nú-
mero de filas es igual al número de filas de la primera matriz y el número
de columnas es igual al número de columnas de la segunda matriz. Así, la
multiplicación de una matriz r × c y de una matriz c × p da como resultado
una matriz r × p.
La multiplicación del vector fila 1 × 2, x T , y de la matriz 2 × 2 A, se es-
cribe como x T A dando como resultado un vector fila 1 × 2. Nótese que un
vector fila o columna puede pensarse como una matriz con una única fila o
columna. El vector fila x T A es:

(x a
1 11 + x 2a 21 , x1a12 + x 2a 22 )

Los miembros de un vector fila se multiplican por los correspondientes


miembros de las columnas de A y los productos resultantes se suman después.
Apéndice   475

La multiplicación de la matriz 2 × 2, A, y el vector columna 2 × 1, x, es-


crita como Ax da un vector columna (2 × 1). El vector columna Ax es:

 a11x1 + a12 x 2 
Ax =  
 a 21x1 + a 22 x 2 
Esto no es igual a x T A. La expresión x T Ax es

 x1 
(x a + x 2a 21 , x1a12 + x 2a 22)  ,
 x2 
1 11

que es igual a:

x12 a11 + x1x 2a 21 + x1x 2a12 + x 22a 22 = x12a 11 + x1x 2 (a 21 + a12 ) + x 22a 22

Esto es simplemente un número, no una matriz. Una matriz simétrica 2


× 2 tiene a12 = a 21.. Así, para tal matriz:

x T Ax = x12a11 + 2x1x 2a12 + x 22a 22

Para la multiplicación de dos matrices, las filas de la primera matriz y


las columnas de la segunda se multiplican a la vez componente a compo-
nente. Así:

a b +a b a 11b12 + a 12 b 22 
AB =  11 11 12 21 
 a 21b11 + a 22 b 21 a 21b12 + a 22 b 22 
(11.12)
 a b + a 21b12 a12 b11 + a 22 b12 
BA =  11 11 
 a11b 21 + a12 b 22 a12 b 21 + a 22 b 22 

En general, AB ≠ BA. Sin embargo, si A y B son simétricas entonces


a12 = a 21 , b12 = b 21 y AB = BA. Para el producto AB, A se dice que pre – mul-
tiplica a B y B se dice que post – multiplica a A.

La inversa de una matriz

La matriz cuadrada I definida como:

1 0
I =  
0 1
476   Análisis Multivariante

se conoce como la matriz identidad. Esto es porque la pre o post multipli-


cación de otra matriz cuadrada A por I deja igual a A: AI = IA = A. Esto
puede comprobarse en (11.12). La existencia de una matriz identidad lleva
de forma natural al concepto de la inversa de una matriz. La inversa de una
matriz cuadrada A, que se representa mediante A −1 , se define como la ma-
triz que cuando se multiplica por A da como resultado la matriz identidad.
De este modo, A A −1 = A −1 A = I. Para A como en (11.11), la inversa de A
viene dada por:

1  a 22 − a12 
A −1 =   (11.13)
| A |  − a 21 a11 

La multiplicación matricial A A −1 y A −1 A verifica que los productos son


igual a I y que la matriz dada en (11.13) satisface la definición de inversa.
Nótese que la inversa existe sólo si el determinante | A | no es cero. Una
matriz cuyo determinante sea cero se dice que es singular y no tiene inver-
sa. Este es el equivalente matricial de la no existencia del elemento recípro-
co de 0. Las dos filas y las dos columnas de una matriz singular 2 x 2 son
iguales o proporcionales. Nótese, también, que no tiene sentido considerar
la división por una matriz. La operación con matrices equivalente a la divi-
sión por un número es la multiplicación por la inversa de una matriz.

11.9.2 Determinación de un LR asumiendo normalidad

El modelo que tratamos aquí asume dos fuentes de variación, la existen-


te en réplicas dentro del mismo grupo o fuente (conocida como variación
intragrupo) y entre grupos o fuentes (conocida como variación intergru-
po). Se asume que ambas variaciones, intragrupo e intergrupo se distri-
buyen Normalmente. El número de variables que consideramos es p. No
necesitan ser independientes. El número de grupos es m y el número de
objetos dentro de los grupos es n, constante en todos los grupos. (Las ma-
temáticas son más complicadas pero posibles si hay diferentes números de
medidas dentro de los grupos).
Intragrupo. Llamamos i al vector de medias dentro del grupo i y U a la
matriz de covarianzas intragrupo. El subíndice i se omite de la matriz de
covarianza para indicar que se asume que la variabilidad intragrupo es cons-
tante sobre todos los grupos. Esta es una extensión de lo que se asumía en
las técnicas de la varianza para el análisis estándar univariante. Entonces,
dados i y U, la distribución de X ij (un vector columna p × 1 indicando las
Apéndice   477

p características del j-ésimo miembro del i-ésimo grupo) se toma como una
Normal, donde la notación es la misma que en la Sección 2.4.6:

(X ij | i , U )~ N( i , U), i = 1, ..., m; j = 1, ..., n

Intergrupo. Llamamos μ al vector de medias entre los grupos y C a la


matriz de covarianza intergrupo. La distribución de i , de la variabilidad
de las medidas interfuente, sigue una distribución Normal:

( i | C)~ N ( C)

Esta distribución surge cuando el modelo que se asume es el llamado


modelo de efectos aleatorios. Los diferentes grupos en la base de datos
poblacional están pensados como una muestra simple de una población
grande (o superpoblación). Así, las medidas en los grupos en la base de
datos (poblacional) son una muestra aleatoria de una población grande y
por ello tienen variabilidad. El término ‘efectos aleatorios multivariantes’
surge debido a que los datos son multivariantes.
Hay datos multivariantes que proceden de la escena del crimen, asu-
miéndose que proceden de una única fuente, y datos multivariantes que
proceden de un sospechoso los cuales se asume que proceden de una única
fuente. Estas fuentes pueden o no ser la misma. Para medir el soporte para
la proposición de que las fuentes son la misma, frente a la proposición de
que las fuentes son diferentes se deriva un LR.
Sean n c las observaciones en la escena del crimen, con los vectores de
medidas Y11 ,..., Y1nc y n s las observaciones procedentes del sospechoso,
con los vectores de medidas Y21 ,..., Y2 ns , donde n c no es necesariamente
igual a n s . Los datos se referirán a los del crimen y el sospechoso, respec-
tivamente. Esta terminología cubre las dos situaciones en las que los datos
de control pueden o no ser aquellos de la escena del crimen y los datos
recuperados pueden o no ser aquellos asociados con el sospechoso. Las
medias de estos dos conjuntos de observaciones son:
nc ns

Y1 = ∑ Y1 j / n c e Y 2 = ∑ Y2 j / n s
j=1 j=1

Las distribuciones de las medias ( Y l ; l =1,2) de las medidas en los datos


del crimen y el sospechoso, condicionadas a la fuente (crimen o sospecho-
so), siguen también una distribución normal, con medias l y matriz de
covarianzas D l , donde D1 = n c−1U y D2 = n s−1U . Así:
478   Análisis Multivariante

(Y l | l , Dl ; ) l = 1, 2

Puede demostrarse que:

(Y l | C, D l ~ N ( ) C + D l); l = 1, 2

Esta es la generalización multivariante de (10.6).


El valor de la evidencia (y l ; l = 1,2 ) es entonces la relación de dos fun-
ciones de densidad de probabilidad, evaluadas en el punto (y1 , y 2 ). Para
los cálculos en el numerador se asume que los objetos del crimen y el sos-
pechoso provienen de la misma fuente y las medias 1 y 2 son iguales.
Para los cálculos en el denominador se asume que los objetos del crimen y
el sospechoso proceden de diferentes fuentes y las medias 1 y 2 no son
iguales.
Primero consideramos el numerador, donde 1 = 2 = θ, que es desco-
nocida. El parámetro θ puede eliminarse mediante integración, análoga-
mente a la aproximación de la Sección 10.1, para obtener una función de
densidad de probabilidad f 0 (y1 , y 2 | , D1 , D2 , C ) dada por:

∫ f (y
θ
1
| D1) f (y 2 | D2)f ( | C)d

Las componentes de las funciones de densidad de probabilidad son


normales multivariantes. Las expresiones para f (y1 | D1 ), f (y 2 | D2 ) y
f ( | C) anteriores se han obtenido por medio de una adecuada sustitu-
ción en la fórmula general (2.25).
Puede demostrarse que la integral va a ser igual a:
1
f 0 (y1 , y 2 | , U, C) =| 2πU | | 2πC |−1/ 2 | 2π{(n1 + n 2)U −1 + C−1} |1/ 2
− ( n1 + n 2 ) −1
2

(11.14)
 1 
× exp− (H1 + H 2 + H 3 )
 2 
donde
2
H1 = ∑ traza(S l U −1 ) (11.15)
l=1

U
H 2 = ( y − )T ( + C) −1 ( y − ) (11.16)
n1 + n 2

H 3 = ( y1 − y 2 )T (D1 + D2 ) −1 ( y1 − y 2 ) (11.17)
Apéndice   479

y = (n1y1 + n 2 y 2 )/(n1 + n 2 ) (11.18)

S l = ∑ (y lj − y l)(y lj − y l)
nl
T
(11.19)
j=1

(Aitken y Lucy, 2004). El término exponencial es una combinación de tres


términos: H 3 , que se considera para la diferencia ( y1 − y 2 ) entre las me-
dias de las medidas en los objetos de control y los recuperados; H 2 , que se
considera para sus rarezas (medido por la distancia de la media ponderada
por tamaños muestrales desde μ); y H1 , que considera la variabilidad in-
terna.
Segundo, consideramos el denominador, donde 1 ≠ 2 . La función de
densidad de probabilidad f1 (y1 , y 2 | , U, C ) viene dada por:

∫ {f (y
θ
1
| U )× f ( | C)}d ×∫ {f (y 2 |
θ
U )× f ( | C)}d

donde y 1 e y 2 son independientes y los datos se asume que proceden de


diferentes fuentes. La integral

∫ {f (y
θ
1
| U )× f ( | C)}d

puede demostrarse que es igual a:


1
f (y1 | U, C) =| 2πU | | 2πC |−1/ 2 | 2π(n1U −1 + C−1 ) |1/ 2
− n1 −1
2

 1  
−1
 (11.20)
1
× exp− traza (S1U −1 ) − (y1 − )  U + C  (y1 −
T
)
 2 2  n1  

con un resultado análogo para

∫ {f (y
θ
2
| U )× f ( | C )}d

El valor de la evidencia es la relación de f 0 (y1 , y 2 | , U, C) con el produc-


to de {f (y | U )× f ( | C )}d y {f (y | U )× f ( | C )}d .
∫ θ
1 ∫ θ
2
Capítulo 12
Fibras Fibras

12.1 Introducción

La transferencia y la presencia por azar de material son factores funda-


mentales cuando se valora la evidencia bajo proposiciones a nivel de ac-
tividad (ver Sección 7.2.1; ver también Cook y otros, 1993; Evett, 1984).
Algunas informaciones de naturaleza técnica que los expertos recopilan
durante el análisis, tales como (a) el número de fibras recuperadas, (b) los
materiales implicados (el tipo de material del receptor y de la fuente po-
tencial) y (c) la intensidad de la acción que se está considerando, son esen-
ciales para estimar los factores que aparecen en la razón de verosimilitud.
En Chabli (2001) pueden encontrarse procedimientos para estimar esos
factores.
La influencia de esos factores se demuestra fácilmente calculando los
valores de LR que pueden obtenerse en distintos escenarios. Los valores
varían en un amplio rango (desde el soporte para la proposición del Fiscal
al soporte para la proposición de la defensa). Se ha demostrado (Champod
y Taroni, 1999) que los valores de LR pueden alcanzar valores mayores que
el ‘clásico’ 1/γ, donde γ representa la frecuencia relativa de las propiedades
de interés en una población relevante, y valores menores a la unidad.

12.2 Razones de verosimilitud en escenarios donde


aparecen fibras

En Champod y Taroni (1999) se presentan diversos escenarios que son


valorados principalmente bajo proposiciones descritas a nivel de actividad.
Las proposiciones de interés fueron las siguientes:
• Hp, el sospechoso se sentó en el asiento del conductor del coche ro-
bado;
• Hd1, el sospechoso nunca se sentó en el asiento del conductor del
coche robado.
482   Fibras

o bien:
• Hp, el sospechoso se sentó en el asiento del conductor del coche ro-
bado;
• Hd2, el sospechoso se sentó en el asiento del conductor una semana
antes por razones legítimas.
En otro contexto, las proposiciones pudieran ser las siguientes:
• Hp, la víctima se sentó en el asiento del pasajero del coche del sos-
pechoso;
• Hd, la víctima nunca se sentó en el asiento del pasajero del coche del
sospechoso.
Interesadamente, esta clase de proposiciones permiten al experto ilus-
trar su impacto en la evaluación de la evidencia mediante la determinación
de la influencia de las probabilidades de transferencia y de contexto en la
razón de verosimilitud y mostrando que el valor de la razón de verosimi-
litud a nivel de actividad puede (bajo ciertas asunciones) llegar a ser 1/γ.
Consideremos los siguientes ejemplos.

12.2.1 Evidencia de fibras dejada por el criminal

Imaginemos el siguiente escenario: se utilizó un coche en un robo el


mismo día en que fue robado. Una hora más tarde de la comisión del robo,
se abandonó el coche. Durante la noche, el vehículo robado es encontra-
do por la policía. Sobre los asientos de poliéster (en las partes más bajas
y altas del respaldo) se recogieron n fibras procedentes de tejidos ajenos
al de los asientos. Al día siguiente del robo se detuvo a un sospechoso. Se
confiscó su jersey de lana rojo y se entregó al laboratorio. Sobre el asiento
del conductor se recogieron un grupo de n = 170 fibras de tejidos ajenos al
del asiento.
Con la notación de la Sección 3.5.1, la evidencia Ev está formada por
el material de los asientos del coche Mc (donde c significa escena del cri-
men), el material del jersey del sospechoso Ms (donde s significa sospecho-
so), y las características Ec y Es de esos materiales. A estas características
las representamos mediante y (para las características recuperadas Ec en
este contexto) y x (para las características de control Es en este contexto)
respectivamente. De este modo, el grupo de n = 170 fibras de lana roja re-
cuperadas se describe mediante un conjunto y de características externas
(atributos físicos tales como cantidad y posición) y de características inter-
nas (descriptores físicos o químicos tales como los resultados analíticos), y
el jersey de lana roja del sospechoso genera fibras conocidas descritas por
Razones de verosimilitud en escenarios donde aparecen fibras   483

un conjunto x de características internas (consúltese la Sección 8.3.3 para


conocer más detalles sobre características externas e internas).
El LR se expresa del siguiente modo:

Pr( y, x | H p , I)
V=
Pr( y, x | H d , I)

donde:
• Hp, el sospechoso se sentó en el asiento del conductor del coche robado;
• Hd, el sospechoso nunca se sentó en el asiento del conductor del
coche robado.
Obsérvese que Hd implica que alguna otra persona se sentó sobre el
asiento del conductor del coche robado. Esta puntualización es importan-
te para la valoración de las probabilidades de transferencia, como se verá
más adelante. La ecuación anterior puede desarrollarse utilizando la terce-
ra ley de probabilidad (1.7):

Pr( y, x | H p , I) Pr( y | x , H p , I) Pr( x | H p , I)


V= = × . (12.1)
Pr( y, x | H d , I) Pr( y | x , H d , I) Pr( x | H d , I)

Es razonable asumir que la probabilidad de las características del jersey


del sospechoso, x, no depende de si el sospechoso se sentó o no en el asien-
to del conductor del coche robado. Así pues, la segunda relación de la parte
derecha de la igualdad de (12.1) es igual a 1, y el LR se reduce a:

Pr( y, x | H p , I) Pr( y | x , H p , I)
V= = .
Pr( y, x | H d , I) Pr( y | x , H d , I)

Se acepta comúnmente que el denominador del LR se reduce a Pr(y |


Hd, I), al ser independiente de las características del objeto de control (jer-
sey del sospechoso). Obsérvese que eso no es así en la evidencia de ADN
(Secciones 13.4 y 13.6), donde el hecho de conocer a una persona que com-
parte las características de la mancha de la escena del crimen influye en la
estimación de la probabilidad condicional denominada probabilidad de co-
incidencia aleatoria. Véase en Aitken y Taroni (1997) un comentario sobre
este punto aplicado a evidencia de transferencia diferente del ADN.
Los expertos tienen que valorar (a) la probabilidad de las características
observadas en las fibras recuperadas, y, dado que el sospechoso se sentó
en el asiento del conductor del coche robado y que su jersey comparte las
mismas características forenses que las fibras encontradas en el asiento
484   Fibras

del coche (el numerador de V), y (b) la probabilidad de las características


observadas en las fibras recuperadas, y, dado que el sospechoso nunca se
sentó en el asiento del conductor del coche robado (el denominador de V).
Para valorar la evidencia bajo esas dos proposiciones, es importante notar
que el experto está interesado en proposiciones que implican una actividad
(el acto de sentarse en el asiento del conductor) y que, acto seguido, consi-
dera la consecuencia lógica de esta actividad.
Imaginemos que una persona (el sospechoso o el criminal) se sentó en el
asiento del conductor. Él (o más bien sus ropas) tuvo contacto con el asien-
to, de ese modo fueron transferidas fibras de su ropa al asiento. Para que
la recogida y análisis de esas fibras sean eficaces se necesita que tengan
persistencia sobre el asiento. Existen dos explicaciones para la presencia
de evidencia sobre el asiento:
a) el grupo recuperado de n = 170 fibras fue transferido, persistió y fue
recuperado con éxito del asiento del conductor. Bajo esta explica-
ción, el asiento del conductor carecía de este grupo de fibras antes
de la comisión del crimen. Llamamos a este suceso Tn (o T170 en este
caso);
b) el grupo recuperado de n = 170 fibras no fue transferido, no per-
sistió ni fue recuperado del asiento del conductor. Bajo esta expli-
cación, el grupo de fibras no tenía relación alguna con la acción
investigada: las fibras estaban en el asiento del conductor antes de
la comisión del crimen. Llamamos a este suceso T0.
Estas explicaciones pueden considerarse como proposiciones de asocia-
ción (véase la Sección 9.5.3). La inclusión de estas dos proposiciones de
asociación y la omisión de la información de contexto I en aras de una ma-
yor simplicidad conduce a la siguiente ecuación:

Pr( y | x , H p , T170 ) Pr(T170 | x , H p ) + Pr( y | x , H p , T0 ) Pr(T0 | x , H p )


V= . (12.2)
Pr( y | H d , T170 ) Pr(T170 | H d ) + Pr( y | H d , T0 ) Pr(T0 | H d )

Analicemos las ocho probabilidades condicionales que aparecen en la


fórmula anterior para calcular el LR. Pr(y | x, Hp, T170) representa la proba-
bilidad de observar un grupo de n = 170 fibras de lana roja sobre el asiento
del conductor dado que el sospechoso llevara un jersey de lana roja, que él
se sentara sobre el asiento del conductor del coche robado y que el grupo
de fibras fuera transferido, hubiera persistido y fuera recuperado con éxito
durante la actividad. Si el sospechoso se sentó sobre el asiento del conduc-
tor y el grupo se hubiera transferido, eso implica que el grupo no estaba
allí anteriormente a la citada actividad. Así pues, esta probabilidad será 1 x
Razones de verosimilitud en escenarios donde aparecen fibras   485

b0, donde 1 es la probabilidad de una coincidencia y b0 la probabilidad de


la presencia de ningún grupo por casualidad.
Pr(T170 | x, Hp) representa la probabilidad de que fueran transferidas,
persistieran y fueran recuperadas con éxito del asiento del conductor un
grupo de n = 170 fibras de lana roja, dado que el sospechoso se sentó en el
asiento del conductor del coche robado. Esto representa la probabilidad,
digamos t170, de que las fibras hubieran sido transferidas, hubieran perma-
necido y hubieran sido recuperadas procediendo del jersey del sospechoso.
Esta probabilidad depende de las características físicas (por ejemplo, fije-
za y trenzado de las fibras) del jersey del sospechoso (Roux y otros, 1996).
Se asume que las características proceden del grupo de control porque el
experto valora la probabilidad bajo Hp.
Pr(y | x, Hp, T0) representa la probabilidad de que un grupo de 170 fi-
bras de lana roja sea observado sobre el asiento del conductor dado que el
sospechoso llevaba un jersey de lana roja, que se sentó sobre el asiento del
conductor del coche robado y que este grupo de fibras no fue transferido,
no permaneció ni fue recuperado con éxito durante la actividad. Si el gru-
po no fue transferido, eso implica que se encontraba en el asiento antes de
la actividad. b1,m × γ representa la probabilidad de que aparezca por azar
un grupo de m fibras sobre el asiento del conductor (b1,m) enlazada con la
frecuencia estimada γ de las características y observadas.
Pr(T0 | x, Hp) representa la probabilidad de que ningún grupo de fibras
fuera transferido, hubiera persistido o fuera recuperado con éxito del
asiento del conductor procediendo del jersey del sospechoso. Esta proba-
bilidad, t0, se estima partiendo de que el sospechoso se sentó en el asiento
del conductor, Hp.
El numerador del LR es, entonces, b0 t170 + b1,m γ t0.
Tengamos ahora en cuenta los términos del denominador de (12.2). Pr(y
| Hd, T170) representa la probabilidad de observar un grupo de n = 170 fibras
de lana roja sobre el asiento del conductor dado que el sospechoso nunca
se sentó sobre el asiento del conductor de un coche robado y que el grupo
de fibras fuera transferido, hubiera persistido y fuera recuperado con éxito
durante la actividad. Si el sospechoso nunca se sentó sobre el asiento del
conductor y el grupo fue transferido, eso implica que el asiento del con-
ductor no tenía ese grupo de fibras antes de la comisión del crimen y que
el suceso de las características compartidas se ha producido por azar. Así
pues, esta probabilidad será b0 × γ.
Pr(T170 | Hd) representa la probabilidad de que un grupo de n = 170 fi-
bras de lana roja fueran transferidas, persistieran y fueran recuperadas
con éxito del asiento del conductor dado que el sospechoso nunca se sentó
486   Fibras

en el asiento del conductor del coche robado. Esto significa que la proba-
bilidad, digamos t’170, ha de estimarse considerando que las fibras han sido
transferidas desde la ropa del criminal (no desde el jersey del sospechoso).
Esta probabilidad depende de las características físicas de una ropa desco-
nocida, la que llevara el criminal. Esta probabilidad es distinta de la pro-
babilidad p de la Sección 9.5.4 (d) en la que p significaba la probabilidad
de que el material (la mancha en la Sección 9.5.4) hubiera sido dejado por
el sospechoso aunque el sospechoso fuera inocente del hecho delictivo. El
sospechoso es una persona conocida. Para una probabilidad como t’170, la
persona, o la ropa en nuestro caso, se desconocen.
Pr(y | Hd, T0) representa la probabilidad de que un grupo de 170 fibras
de lana roja sea observado sobre el asiento del conductor dado que el sos-
pechoso nunca se sentó sobre el asiento del conductor del coche robado y
que este grupo de fibras no fue transferido, no permaneció ni fue recupe-
rado con éxito durante la actividad. Si el grupo no fue transferido, eso im-
plica que se encontraba en el asiento antes de la comisión del crimen. b1,m
× γ representa la probabilidad de que aparezca por azar un grupo de fibras
ajenas al objeto de interés sobre el asiento del conductor enlazada con la
frecuencia estimada γ de las características y observadas.
Pr(T0 | Hp) representa la probabilidad de que ningún grupo de fibras fue-
ra transferido, hubiera persistido o fuera recuperado del asiento del con-
ductor procediendo de la ropa del criminal. Esta probabilidad, t’0, se estima
partiendo de que el sospechoso nunca se sentó en el asiento del conductor
y, de este modo, fue otro individuo el que se sentó en el coche robado, Hd.
El denominador del LR es, entonces, b0 γ t’170 + b1,m γ t’0. El LR (12.2) es
entonces:

b 0 t 170 + b 1, m γt 0
V= . (12.3)
b 0 γt '170 + b 1, m γt ' 0

Esta expresión ilustra que, teóricamente, Pr(T170 | x, Hp) ≠ Pr(T170 | Hd) y


que Pr(T0 | x, Hp) ≠ Pr(T0 | Hd). En la práctica, cuando las probabilidades se
estiman a través de experimentos controlados utilizando la ropa relaciona-
da con las proposiciones Hp y Hd es razonable pensar que las estimaciones
serán diferentes. Para estimar t170, t’170, t0 y t’0 han de tenerse en cuenta múlti-
ples y complejas variables relacionadas con los fenómenos de transferencia,
persistencia y recuperación. El objetivo es tratar de reproducir el caso en
cuestión. En Curran y otros (1998a), también en la Sección 8.3.3, se sugiere
una técnica de modelado para la valoración de las probabilidades de transfe-
rencia en escenarios con fragmentos de cristal. La técnica puede ser también
Razones de verosimilitud en escenarios donde aparecen fibras   487

fácilmente utilizada para estimar probabilidades en escenarios con fibras


como lo hacen Champod y Taroni (1999). Siegel (1997) y Roux y otros (1999)
propusieron la realización de ensayos experimentales específicos para obte-
ner estimaciones en distintos escenarios relacionados con fibras.
Las probabilidades de contexto, bg,m se pueden estimar con datos ob-
tenidos de ensayos experimentales en los que se recuperan grupos de fi-
bras de procedencia exterior en superficies de interés. Las probabilidades
derivadas dependerán de los tipos de fibras tenidos en cuenta. De hecho,
las estimaciones están influenciadas por las condiciones de transferencia y
fijeza de las fibras de las ropas potencialmente relacionadas con los hechos
(Roux y Margot, 1997). A veces se han realizado estudios de fibras dirigi-
dos. Esos estudios permiten la estimación de b1,m γ directamente (Palmer
y Chinherende, 1996). Las probabilidades b0 y b1,m se consideran partes
mutuamente exclusivas del suceso “tener 0, 1 o más grupos de fibras ex-
teriores que pueden distinguirse de las ropas del usuario (-s) habitual del
vehículo” (Champod y Taroni, 1997), de forma que:

∑b
g =1
g ,mg = 1.

Entonces:

b1,m1 = 1 − b0 − ∑ bg ,mg ≤ 1 − b0 .
g =2

Por razones de orden práctico, tratadas por Champod y Taroni (1997),


b1,m se considera como probabilidad complementaria de b0, y se supone
que las probabilidades de b2,m2 a b∞,m∞ valen cero.
En el escenario descrito más arriba es razonable asumir que, en prome-
dio, se han transferido, persistido y recuperado un gran número de fibras
del asiento del conductor del coche robado. Eso implica que t170 sea mucho
mayor que t0. De forma similar, se asume que t’170 es mucho mayor que t’0,
los cuales se estiman mediante experimentos controlados relacionados con
ropa de lana potencialmente llevada por el criminal.
El LR (12.3) puede reducirse a la siguiente expresión:

t 170
V= .
γt '170

porque b1,m γ t0 y b1,m γ t’0 son despreciables en el presente caso. Asumiendo


(de forma no realista) que las características de la transferencia de fibras
488   Fibras

del jersey del sospechoso no difieren de las de la ropa del criminal, el LR


puede reducirse a 1/γ. En Chabli (2001) y en Cantrell y otros (2001) pueden
hallarse listas de referencia de valores de γ.
Imaginemos dos ligeras modificaciones del escenario anterior, particu-
larmente en el número de fibras recuperadas sobre el asiento del conduc-
tor. Asumamos también que las probabilidades de transferencia difieren
bajo las proposiciones Hp y Hd, de forma que Pr(Tn | x, Hp) ≠ Pr(Tn | Hd),
y que Pr(T0 | x, Hp) ≠ Pr(T0 | Hd). En tales situaciones Champod y Taroni
(1999) han advertido lo siguiente:
a) si se ha recuperado un grupo de 10 fibras del asiento del conductor,
si 10 fibras es el número promedio esperado bajo la proposición
de implicación del sospechoso y si, en promedio, se transferirían
60 fibras desde la ropa del criminal, entonces la razón de verosimi-
litud excedería el valor recíproco de la frecuencia relativa, 1/γ, sin
influencia significativa de las probabilidades de contexto b0 y b1,m (se
han realizado cálculos en los que b0 = 0.01, 0.5 y 0.99).
b) si se ha recuperado un grupo de 10 fibras del asiento del conductor,
si las 10 fibras no se corresponden con el número promedio espera-
do bajo la proposición de implicación del sospechoso (por ejemplo,
30 fibras) y si, en promedio, se transferirían un número comparable
de fibras (por ejemplo, 5 fibras) desde la ropa del criminal, entonces
la razón de verosimilitud puede ser menor de la unidad, de forma
que la evidencia soportaría la proposición de la defensa.
Las probabilidades de transferencia pueden estimarse (Curran y otros,
1998a; ver también la Sección 10.5.5). Dado que el número de fibras trans-
feridas no decrece en función del tiempo, y que la calidad de la técnica de
recuperación es extremadamente alta (se recuperan del orden del 90% al
95% de las fibras esparcidas; ver Chable y otros, 1994), se obtienen los si-
guientes resultados:
• Para la modificación (a), Pr(T10 | x, Hp) = t10 = 0.098, Pr(T0 | x, Hp) = t0
= 0.005, Pr(T10 | Hd) = t’10 = 0.0001, Pr(T0 | Hd) = t’0 = 0.0001. Utilizando
probabilidades de contexto conservadoras, b0 = 0.01 y b1,m = 0.99 (estas
cifras implican que es muy probable que un grupo de fibras ajenas al ob-
jeto de interés puedan encontrarse en el asiento del conductor; observe
también que b0 + b1,m ≤ 1), y una frecuencia relativa γ para las caracterís-
ticas de la fibra de 0.01, se obtiene la siguiente razón de verosimilitud:

b 0 t 10 + b 1, m γt 0 0.01 × 0.098 + 0.99 × 0.01 × 0.005


V= = ≈ 1030
b 0 γt '10 + b 1, m γt ' 0 0.01 × 0.01 × 0.0001 + 0.99 × 0.01 × 0.0001
Razones de verosimilitud en escenarios donde aparecen fibras   489

Este valor soporta fuertemente la proposición Hp.


• Para la modificación (b), Pr(T10 | x, Hp) = t10 = 0.006, Pr(T0 | x, Hp) = t0 =
0.0001, Pr(T10 | Hd) = t’10 = 0.017, Pr(T0 | Hd) = t’0 = 0.021. Utilizando pro-
babilidades de contexto conservadoras, b0 = 0.01 y b1,m = 0.99, y una fre-
cuencia relativa de 0.01, se obtiene la siguiente razón de verosimilitud:

b 0 t 10 + b 1, m γt 0 0.01 × 0.006 + 0.99 × 0.01 × 0.0001


V= = = 0.29
b 0 γt '10 + b 1, m γt ' 0 0.01 × 0.01 × 0.017 + 0.99 × 0.01 × 0.021

Esta razón de verosimilitud soporta Hd, con un valor de 0.29–1 = 3.4.


Estas conclusiones son razonables. De hecho, el número de fibras recu-
peradas concuerda con las características de transferencia del jersey del
sospechoso y de la indumentaria potencial del criminal, respectivamente.

12.2.2 Comentarios sobre el escenario de fibras

Vamos a realizar algunos comentarios al hilo de los siguientes ejemplos.


El primero de todos plantea que se han recogido fibras ajenas al objeto de
interés en la parte superior derecha del asiento del conductor. No existe
información alguna sobre el tipo de fibras que pudieran encontrarse en la
base del asiento. Resulta interesante combinar las observaciones hechas
en diferentes partes del asiento. Todo ello puede realizarse más fácilmente
utilizando redes bayesianas (consultar el Capítulo 14).
El segundo consiste en que la probabilidad de contexto bg,m representa la
probabilidad de que haya por casualidad g grupos de m fibras exteriores en
el asiento del conductor. Esta probabilidad puede dividirse en dos, pi y si,j,
como se hizo en el análisis de cristales (Sección 10.5.4), o como se propuso
en el escenario de prevaloración de fibras en la Sección 12.3. La probabili-
dad pi representa la probabilidad de la presencia de i (≥ 0) grupos de fibras
en la superficie del asiento, y si,j la probabilidad de que el grupo i de material
recuperado sea de tamaño j, donde j puede ser un número entero positivo, o
ser reemplazado por las letras l o s para indicar el hecho de que el grupo es
grande o pequeño, respectivamente. Por tanto, bg,m puede reemplazarse en
las fórmulas por pisi,j. En la valoración de los fragmentos de cristal (como se
menciona en Curran y otros, 2000) se asume que (a) no hay asociación entre
el número de grupos encontrados en las superficies de interés y los tamaños
de esos grupos, y (b) no hay asociación entre la frecuencia de un determina-
do tipo de objeto y el número de grupos o el tamaño de los mismos. Estas
asunciones son cuestionables en el contexto de evidencia de fibras.
490   Fibras

El tercero considera que los pantalones del sospechoso no han sido


aprehendidos. Es interesante estudiar éstos asociadamente con el asiento
del conductor y considerar la evidencia potencialmente encontrada en am-
bos objetos. En el Capítulo 14, que trata de redes bayesianas, puede encon-
trarse alguna sugerencia para afrontar esta problemática.
El cuarto considera que un jersey ha estado en contacto con un asiento
de forma que algunas de sus fibras pudieran haberse transferido al mismo.
Pero notemos que también las fibras del asiento pudieran haberse transfe-
rido al jersey. Los expertos deben estar interesados en las posibles transfe-
rencias cruzadas; consultar las Secciones 12.2.4 y 14.8.
Finalmente, se contempla una forma de agrupamiento de fibras ajenas al
objeto de interés recuperadas (consúltese la Sección 8.4 para conocer cómo
puede realizarse formalmente un agrupamiento). En este caso el grupo fue de-
finido como un conjunto de materiales que comparten las mismas propieda-
des forenses. Los expertos sostienen que encuentran un grupo de fibras si exis-
te suficiente especificidad en las características compartidas entre ellas como
para enlazar esos vestigios razonablemente con una única fuente. Sin embar-
go, esta declaración no es más que, lógicamente, una opinión cualificada.

12.2.3 Evidencia de fibras no dejadas por el criminal

Tengamos ahora en cuenta una situación distinta tomada de Champod y


Taroni (1999). Los expertos están interesados en un coche que pertenece a
un hombre sospechoso de haber secuestrado a una mujer. La víctima llevaba
un jersey de lana rojo. Según el sospechoso, nadie se sentó en el asiento del
pasajero de su coche. Sobre ese asiento se pudieron recoger 170 fibras de
lana roja. En su defensa, el sospechoso niega que la víctima se haya sentado
alguna vez sobre el asiento del pasajero de su coche. La defensa sostiene que
no hubo delito alguno y que, por tanto, las fibras recuperadas no están rela-
cionadas con la actividad investigada (el hecho de sentarse en el asiento del
pasajero del vehículo), de forma que se encuentran en ese lugar únicamente
por casualidad. Esto representa un punto clave para entender el desarrollo
de la ecuación de la razón de verosimilitud (obsérvense también los desarro-
llos presentados en las Secciones 8.3.2 y 8.3.3). De hecho, incluso si el nume-
rador de la razón de verosimilitud es el mismo que el de (12.2), el denomi-
nador cambia. No hay razón para desarrollar Pr(y | Hd) utilizando hipótesis
de asociación como Tn y T0 porque las fibras no pueden ser transferidas (no
pueden persistir ni ser recuperadas) durante la acción (¡porque no hay tal
acción!). Por consiguiente, la razón de verosimilitud es:
Razones de verosimilitud en escenarios donde aparecen fibras   491

b 0 t 170 + b 1, m γt 0
V= . (12.4)
b 1, m γ

La consecuencia de esto es que si b0 es cercano a 1 (esto significa, por


ejemplo, que los asientos están habitualmente limpios), y si, como antes se
dijo, b1,m ≈ 1 – b0, entonces b1,m (la probabilidad de que el grupo recuperado
esté presente en el asiento únicamente por casualidad) es cercana a 0, y la
razón de verosimilitud (12.4) se incrementa. En la Sección 8.3.3 se presen-
ta un ejemplo numérico en el contexto de la evidencia de ADN. La razón de
verosimilitud (12.4) es el método de evaluación ordinariamente presentado
en escenarios de fragmentos de cristal (consúltese la Sección 10.5.4). Esto
ocurre porque la presencia de fragmentos de cristal sobre el jersey de un
sospechoso (por ejemplo) se explica ordinariamente únicamente por ca-
sualidad (de hecho, Hd normalmente se explicita como que el sospechoso
no ha roto la ventana, de forma que no se ofrece una acción alternativa que
explique la presencia de los fragmentos de cristal: su presencia es explicada
únicamente por casualidad). De este modo, (12.4) puede reescribirse así:

b 0 t 170 + b 1, m γt 0 b 0 t 170 bt
V= = + t 0 ≈ 0 170 ,
b 1, m γ b 1, m γ b 1, m γ

pues t0 es despreciable comparado con el primer término. Una extensión


de este escenario puede encontrarse en Buckleton y Evett (1989) donde el
número de grupos exteriores, g, de fibras (un número de fibras consistente
con la naturaleza de la actividad) es mayor a la unidad. El material recu-
perado se representa por y1, y2, …, yg. Sólo un grupo es compatible con el
jersey de la víctima, x1.
La razón de verosimilitud desarrollada por Buckleton y Evett (1989)
muestra que no es sólo importante centrarse en las fibras que coinciden
con la ropa de la víctima (por ejemplo) sino también considerar otros gru-
pos de fibras compatibles con la acción alegada:

{Pr( y , y ,..., y | x 1 , Tn , H p ) Pr(Tn | x 1 , H p ) + Pr( y 1 , y 2 ,..., y g | x 1 , T0 , H p ) Pr(T0 | x 1 , H p )}


V= 1 2 g

Pr( y 1 , y 2 ,..., y g | H d )
(12.5)

La razón de verosimilitud (12.5) puede reducirse razonablemente a tn / γ1g.


En Champod y Taroni (1999) se puede ver detalles de este desarrollo.
492   Fibras

12.2.4 Transferencia cruzada

Se utiliza un vehículo en un robo justo el día en que fue robado. Una


hora más tarde se abandona. La policía encuentra el vehículo unas pocas
horas más tarde. Sobre los asientos de poliéster que fueron limpiados con
aspiradora hacía poco tiempo se recogieron algunas fibras textiles exterio-
res. El propietario del vehículo vive solo y nunca ha prestado su vehículo
a nadie. El propietario sólo viste de algodón. Al día siguiente del robo se
detuvo a un sospechoso y se confiscaron su jersey de lana rojo y sus panta-
lones vaqueros.
Se recoge un grupo de fibras exteriores relevantes del asiento del con-
ductor (es un grupo de fibras que no son algodón). Consta de un gran nú-
mero de fibras de lana roja. La evidencia E1 es (y1, x1), donde y1 se relaciona
con las fibras recuperadas del asiento del coche y x1 se relaciona con el
material conocido (de control) procedente del jersey de lana rojo del sospe-
choso. Las fibras sobre el asiento del conductor se dice que han sido trans-
feridas desde la ropa del criminal al asiento.
Los grupos de fibras exteriores se componen de fibras que pueden distin-
guirse de las que tienen un origen conocido (bien porque están asociadas
con el sospechoso o porque lo están con un objeto como puede ser un ve-
hículo).
Del jersey y de los pantalones vaqueros del sospechoso (se consideran
juntos) se sacan muchos grupos de fibras exteriores. Uno de ellos está con-
formado por 20 fibras exteriores negras. En algún sentido se parecen a
las fibras del asiento del conductor. La evidencia E2 es (y2, x2), donde y2 se
relaciona con las 20 fibras recuperadas de las ropas del sospechoso y x2 se
relaciona con el material conocido del asiento del conductor.
Las proposiciones competitivas (a nivel de actividad) podrían ser las si-
guientes:
• Hp: el sospechoso se sentó en el asiento del conductor del coche ro-
bado;
• Hd: el sospechoso nunca se sentó en el asiento del conductor del
coche robado.
Cuando dos individuos o un individuo y un objeto, tal como un asiento
de un vehículo, entran en contacto, normalmente se produce una mutua
transferencia de material. Los dos conjuntos de vestigios recuperados de-
ben considerarse, por tanto, dependientes. Si la transferencia ha ocurrido
en un sentido y el experto ha recuperado vestigios que caractericen esa
transferencia, entonces el experto, en general, esperará encontrar vestigios
que caractericen la transferencia en el sentido opuesto. La presencia de
Razones de verosimilitud en escenarios donde aparecen fibras   493

evidencia transferida en una dirección aporta información sobre la presen-


cia de evidencia transferida en el sentido opuesto. De (8.2), el valor de la
evidencia será:

Pr(E 2 | H p , E 1 ) Pr(E 1 | H p )
V= × . (12.6)
Pr(E 2 | H d , E 1 ) Pr(E 1 | H d )

La segunda relación en (12.6) es igual a 1/γ1, donde γ1 es la frecuencia


estimada de las características cotejadas de y1 en grupos de fibras exterio-
res de tamaños similares encontrados en asientos de coches robados. La
primera relación tiene que ver con la transferencia de las 20 fibras recu-
peradas (y2) en la ropa del sospechoso y que procedían del asiento del con-
ductor del coche robado. Se calcula multiplicando el valor incondicional 1/
γ2, donde γ2 es la frecuencia estimada de las características cotejadas de y2
en grupos de fibras exteriores de tamaños similares encontrados en la ropa
de posibles criminales, con una probabilidad u20 que se denomina proba-
bilidad de transferencia condicional, definida como la probabilidad de que
las 20 fibras recuperadas en la ropa del sospechoso hayan sido transferidas
(han permanecido y han sido recuperadas) desde el asiento del conductor
del coche robado a la parte superior de la indumentaria del sospechoso. La
probabilidad es condicional porque se estima asumiendo que el sospecho-
so se sentó en el asiento (la proposición Hp se cree cierta en el numerador)
y que E1 es cierta (por ejemplo, 170 fibras de lana roja han sido encontra-
das en el asiento del conductor como en la Sección 12.2.1). Es también
subjetiva y su valor ha de ser considerado nuevo para cada caso individual.
La primera relación es, entonces, igual a u20/γ2. El valor de la evidencia es,
entonces:

u 20
V= (12.7)
γ1γ 2

(Champod y Taroni, 1999). Esta expresión puede generalizarse. Por ejemplo,


si se encontraron k fibras en la ropa del sospechoso en un grupo de iguales
características que las fibras del asiento del conductor, u20 sería reemplazado
por uk. Si hubiera g1 grupos de fibras en el asiento del conductor entre los
cuales uno tuviera las mismas características que las fibras de las ropas del
sospechoso, 1/γ1 sería reemplazado por 1/(g1γ1). De forma similar, si hubiera
g2 grupos de fibras en la ropa del sospechoso entre los cuales uno tuviera las
mismas características que las fibras del asiento del conductor, 1/γ2 sería re-
emplazado por 1/(g2γ2). El valor de la evidencia es, entonces:
494   Fibras

uk
V= (12.8)
(g 1 γ 1 )(g 2 γ 2 )

Resulta interesante examinar el comportamiento de V para diferentes


valores de las componentes de (12.8). Por ejemplo, consideremos γ1 = γ2 =
0.05, g1 = 1, g2 = 6 y k = 20. Entonces:

V = 400 u20 / 6 = 66.7 u20

Si la evidencia de transferencia cruzada no fue tenida en cuenta, el valor


de la evidencia de las fibras sobre el asiento del conductor sería 1/γ1 = 20. La
evidencia de transferencia cruzada incrementa el valor de la evidencia si:

400 u20 / 6 > 20

Lo anterior sólo ocurre si u20 > 6 / 20, es decir, si u20 > 0.3. Si las dos
transferencias no fueran compatibles, entonces puede que el punto de vista
subjetivo del experto se incline por u20 < 0.3, y la presencia de la evidencia
en la ropa del sospechoso soportaría la proposición de la defensa en lugar
de la proposición del Fiscal. Una transferencia cruzada no implica necesa-
riamente un incremento en la fuerza de la evidencia. La siguiente observa-
ción es pertinente llegado este momento:

“Resulta frecuente fijarse en la evidencia relacionada con la ocurrencia


de sucesos y pasar por alto la evidencia relacionada con la no ocurrencia
de suceso alguno. En cualquier contexto inferencial es tan importante
averiguar qué ocurrió como qué no ocurrió. (Schum, 1994, p.96).”

12.3 Prevaloración en escenarios de fibras

En la Sección 7.2.2 se trató ya sobre la teoría de la prevaloración pro-


puesta por Cook y otros (1998a). El objetivo de esta sección es desarrollar
un ejemplo práctico en un escenario de fibras. El escenario lo tomamos de
Champod y Jackson (2000), los cuales trabajaron de acuerdo con los siguien-
tes pasos: identificación de la información que los expertos pudieran necesi-
tar, identificación de las proposiciones relevantes utilizadas para valorar los
hallazgos, progreso a través de la prevaloración del caso, determinación de
la estrategia de examen, valoración de la razón de verosimilitud y su sensibi-
lidad, e identificación del efecto de un cambio en las proposiciones.
Prevaloración en escenarios de fibras   495

12.3.1 La historia del caso

Dos hombres enmascarados y armados irrumpieron en una oficina de


correos, amenazaron a la plantilla, se llevaron la recaudación del día y se
dieron a la fuga. Los testigos dijeron que uno de los hombres llevaba un
pasamontañas verde oscuro y el otro una media anudada. Dijeron también
que los dos hombres huyeron de la escena en un coche conducido por un
tercero. A cierta distancia del lugar de los hechos y siguiendo la ruta de
fuga que se presumía que emprendieron se encontró un pasamontañas. El
Sr. U fue detenido al día siguiente. Negó conocer el incidente. Se le toma-
ron muestras de pelo y sangre, así como del peine que utilizaba. El Sr. U
aún no ha sido imputado en la causa como consecuencia de la escasa evi-
dencia que existe contra él.

12.3.2 Formulación de pares de proposiciones y de sucesos

Los investigadores están interesados en saber si el Sr. U ha llevado la


máscara porque el cargo que se le imputa es el de robo. Los expertos son
capaces de definir proposiciones, primeramente, a nivel de fuente, tales
como:
• Hp1: los pelos de la máscara vienen del Sr. U,
• Hd1: los pelos de la máscara vienen de cualquier otra persona;
• Hp2: la saliva en la máscara procede del Sr. U,
• Hd2: la saliva de la máscara procede de cualquier otra persona;
• Hp3: las fibras encontradas en el peine del Sr. U vienen de la máscara,
• Hd3: las fibras encontradas en el peine del Sr. U vienen de distinta
ropa o tejido.
Si el experto desea valorar lo investigado bajo proposiciones a nivel de
actividad (por ejemplo, Hp: el Sr. U llevaba la máscara mientras efectuó
el robo, y Hd: el Sr. U nunca llevó la máscara) —las proposiciones de esta
clase son más relevantes para el Tribunal porque enlazan más fuerte-
mente a la persona con el crimen— necesitan (a) completa información
sobre el contexto del crimen (momento en que ocurrió, momento en que
la persona fue detenida, momento en que se tomaron las muestras, etc.)
para ser capaces de estimar con precisión los factores que se relacionan
con la persistencia y con la transferencia de la evidencia de interés, y (b)
datos (esto es, referencias bibliográficas) sobre transferencia, persisten-
cia y recuperación de pelos, fibras y saliva cuando alguien lleva una más-
cara, así como datos experimentales con máscaras. Los datos publicados
496   Fibras

sobre pelos y saliva son muy limitados; hay datos sobre transferencias
de fibras a pelo y sobre persistencia (consultar, por ejemplo, Ashcroft y
otros, 1988; Salter y Cook, 1996; Cook y otros, 1997). Si se satisfacen los
criterios (a) y (b), los expertos pueden considerar primeramente las fi-
bras. Si no tienen suficiente información de contexto para considerar la
evidencia (fibras, saliva, pelos) bajo proposiciones de nivel de actividad,
entonces están obligados a permanecer a nivel de fuente. En el escenario
descrito más arriba, la estrategia consistiría en ofrecer una valoración
en el nivel de actividad para fibras y en el nivel de fuente para las otras
evidencias.
El segundo paso en la prevaloración consiste en determinar los posibles
resultados de las investigaciones. Fijándonos en la evidencia de fibras en
el peine, el experto podría presentar los siguientes resultados: no se han
observado fibras; se ha observado un pequeño número de fibras (digamos
entre 1 y 3); o se ha observado un gran número de fibras (esto es, más de
3). Observemos que las definiciones de esas categorías pueden ser flexibles
y pueden depender de los datos disponibles. Observemos también que pu-
dieran estar presentes más de un grupo de fibras.
Luego, se definen los sucesos relacionados con la valoración a nivel de
actividad. Para ayudar al experto a determinar qué sucesos son relevantes
para la prevaloración de los resultados de las investigaciones en tales esce-
narios es útil considerar lo que podría ocurrir si el Sr. U llevaba la máscara
cuando tuvo lugar el robo. Si el Sr. U llevaba la máscara, entonces podemos
imaginar tres posibilidades:
• No se ha transferido, persistido ni recuperado fibra alguna (llama-
mos a este suceso T0);
• Se ha transferido, persistido y recuperado un pequeño número de
fibras (suceso Ts);
• Se ha transferido, persistido y recuperado un gran número de fibras
(suceso Tl).
La presencia de las fibras tiene dos explicaciones principales: han sido
transferidas durante la realización del crimen o estaban antes de la comi-
sión del crimen por azar. Los sucesos relacionados con esas dos explicacio-
nes son los siguientes:
• Ningún grupo de fibras está presente por azar (suceso P0);
• Un grupo de fibras está presente por azar (suceso P1).
Cuando aparece un grupo al azar, puede tratarse de un grupo pequeño o
grande. Los sucesos son:
• El grupo de fibras presente por azar es pequeño (suceso Ss);
• El grupo de fibras presente por azar es grande (suceso Sl).
Prevaloración en escenarios de fibras   497

(Observe que en la Sección 12.2.2, los valores probabilísticos para Pi y


Si,j están agrupados en bg,m).
Finalmente, cuando un grupo recuperado de fibras de origen desconoci-
do se compara con las del grupo de control, hay dos posibles resultados:
• Las fibras recuperadas coinciden con las de control en las caracte-
rísticas analizadas (suceso M);
• Las fibras recuperadas no coinciden con las de control en las carac-
terísticas analizadas (suceso M ).
Si el experto utiliza variables discretas y asume que una muestra cono-
cida como procedente de una fuente particular es comparada con dicha
fuente, la probabilidad de una coincidencia es la unidad.

12.3.3 Estimación del valor esperado de la razón de verosimilitud

El experto, tras analizar el peine, pudo observar alguna de las cuatro


situaciones contempladas en la Tabla 12.1.

Tabla 12.1 Resultados de las investigaciones tras el análisis del peine

Número de Número de Tamaño de


Número de
Resultados grupos no grupos los grupos
grupos
coincidentes coincidentes coincidentes

A 0 0 0
B 1 1 0
C 1 0 1 Pequeño
D 1 0 1 Grande

Esta lista de resultados no tiene en cuenta otras posibilidades tales como


la observación de un grupo de fibras procedentes de una transferencia y un
segundo grupo de fibras de contexto. Esto se trata en la Sección 14.6. El
enfoque aritmético propuesto aquí necesita asunciones claras. Estas po-
drían incluir, por ejemplo, que hay un grupo y sólo uno presente.
498   Fibras

Tabla 12.2 Sucesos y probabilidades relacionadas con los hallazgos bajo Hp y Hd

Resultados
Sucesos (Ev) que Sucesos (Ev) que
de la Pr(Ev|Hp) Pr(Ev|Hd)
ocurren si Hp es cierta ocurren si Hd es cierta
Tabla 12.1

A T0, P0 t0p0 P0 p0
B T0, P0, M t0p1(1–m) P1, M p1(1–m)
C T0, P1, Ss, M o Ts, P0 t0p1ssm+ tsp0 P1, Ss, M p1ssm
D T0, P1, Sl, M o Tl, P0 t0p1slm+ tlp0 P1, Sl, M p1slm

El siguiente paso en el proceso de prevaloración consiste en estimar


esas probabilidades utilizando datos de la literatura científica publicada,
experimentos de casos específicos o juicios subjetivos fundamentados en
la propia experiencia del experto.
Probabilidades de transferencia. Para estimar estas probabilidades, t0, ts y
tl, resulta útil contestar preguntas como la siguiente: “si el sospechoso lleva-
ba una máscara, ¿cuál es la probabilidad de que ninguna, pocas o muchas
fibras fueran transferidas, persistieran y fueran recuperadas? Nótese que
la información sobre el sospechoso (tipo y longitud del pelo del sospecho-
so), sobre el material involucrado (rigidez), sobre los métodos utilizados
para buscar y recoger fibras, sobre las circunstancias del caso (actividades
alegadas o lapsos de tiempo) son informaciones relevantes para estimar
correctamente las probabilidades.
Probabilidades de contexto. Estas probabilidades, p0, p1, ss, sl, estiman la ve-
rosimilitud de no tener fibra alguna o un grupo de fibras (que podría ser gran-
de o pequeño, como se definió anteriormente) por azar en el pelo si no se hu-
bieran transferido o si el sospechoso negase que llevara la máscara. (Observe
que Hd especifica que el sospechoso nunca llevó máscara. Si la proposición
alternativa cambiara, por ejemplo, si el sospechoso hubiera dicho que llevaba
una máscara similar dos días antes de que ocurrieran los supuestos hechos, las
probabilidades de contexto cambiarían y se realizarían nuevas estimaciones).
Probabilidad de coincidencia. Esta probabilidad, m, representa —de al-
guna forma— una estimación de la rareza de las fibras ajenas al objeto de
interés encontradas sobre la cabeza de una persona inocente acusada de
llevar una máscara (fibras que coinciden por azar con las fibras de refe-
rencia procedentes de la máscara). Esta rareza puede valorarse de diversos
modos. El experto puede acudir a la literatura científica en la que se narra
la recuperación de fibras de pelos de individuos y consideran las propor-
ciones relativas de las fibras que presenten las características de interés.
Prevaloración en escenarios de fibras   499

Puede utilizar un estudio con una ‘fibra diana’ enfatizando que tales es-
tudios ofrecen una estimación diferente de la probabilidad, en particular
las probabilidades de observar por casualidad un grupo diana de fibras
que coinciden con las de control, Pr(p1, ss, m | Hd) y Pr(p1, sl, m | Hd), y no
una estimación de m. Se pueden utilizar también bases de datos, asumien-
do que la fuente potencial de las fibras son sombreros, bufandas, ropa de
cama y jerseys, de tal forma que el experto será capaz de valorar la frecuen-
cia relativa de coincidencia entre las fibras en esta población.
En la Tabla 12.3 se muestran razones de verosimilitud que utilizan pro-
babilidades propuestas por Champod y Jackson (2000).

Tabla 12.3 Razones de verosimilitud para los resultados de la Tabla 12.1


con t0 = 0.01, ts = 0.04, tl = 0.95, p0 = 0.78, p1 = 0.22, ss = 0.92,
sl = 0.08; m = 0.05, como propusieron Champod y Jackson (2000)

Resultado V
A 0.01
B 0.01
C 3.09
D 842.05

Las razones de verosimilitud obtenidas en esta prevaloración de eviden-


cia de fibras ofrecen una respuesta a la legítima cuestión de si es útil proce-
der a un análisis de fibras. Se ha demostrado que en todas las situaciones
se ha obtenido un valor de razón de verosimilitud distinto del valor “incon-
cluso” de la unidad. Si no se han recuperado fibras o si se ha recuperado
un grupo de fibras y este grupo no coincide con el del objeto de control, las
razones de verosimilitud soportan las proposiciones de la defensa. Por otro
lado, si un grupo de fibras (pequeño o grande) se recuperan y coinciden
con el grupo de control, se obtienen razones de verosimilitud mayores a la
unidad, soportándose la proposición del Fiscal.
Las prevaloraciones se pueden aplicar (como una ayuda en la toma de
decisiones) en casos más sofisticados. Imaginemos un caso de transferencia
cruzada (también llamado un “caso de transferencia en doble sentido”). La
prevaloración puede actualizarse cuando se realiza un estudio por etapas
(por ejemplo, primero se analiza el jersey de la víctima y luego el del sospe-
choso; Cook y otros, 1999). Los resultados obtenidos al examinar una de las
ropas se utiliza para decidir si la segunda ropa debe ser examinada. Como
especificaron Cook y otros (1999), resulta fácil ver cómo los principios pue-
500   Fibras

den extenderse a otro tipo de casos. Por ejemplo, si el crimen conllevase la


rotura de un cristal y tuviéramos disponibles las ropas del sospechoso, en-
tonces el enfoque por fases pudiera aplicarse para determinar el orden en
que se deben examinar las ropas. Si el examen de una chaqueta no revelara
la presencia de cristales, ¿cómo la prevaloración formal debe influir en la
toma de decisión sobre si se deben examinar los pantalones o los zapatos?

12.4 Población relevante de fibras

Consideremos el siguiente ejemplo. Un criminal intentó entrar por la par-


te trasera de una casa a través de un agujero que logró hacer en una verja me-
tálica, pero falló cuando una alarma de seguridad empezó a sonar. Huyó del
lugar de los hechos. Unos 10 minutos más tarde del intento de allanamiento
se detuvo a un sospechoso que llevaba un jersey rojo y que se encontraba en
las inmediaciones de la casa tras la información aportada por un testigo ocu-
lar que testificó que vio a un hombre llevando un jersey rojo corriendo desde
el lugar de los hechos. En ese lugar, un penacho de fibra roja fue encontrado
en un extremo dentado de uno de los bordes del corte de la verja.
Si las proposiciones del Fiscal y de la defensa son que las fibras en la es-
cena del crimen procedían del sospechoso (Hp) y que no procedían de éste
(Hd), respectivamente, siguiendo el argumento de la Sección 9.2, el valor
de la evidencia viene dado por:

Pr( y | x , H p , I)
V= ,
Pr( y | H d , I)
donde y es la evidencia de fibras rojas en la verja y x es la evidencia de fi-
bras en el jersey rojo del sospechoso.
Si Hd es cierta, la probabilidad del denominador es la probabilidad de
hallar las características del penacho de fibras en la verja en una población
de fuentes potenciales (una población relevante). Asumamos que se ha rea-
lizado un estudio sobre las características en una población relevante y que
la frecuencia de las características es γ. Como en la Sección 9.2, el valor de
la evidencia es entonces:

1
V= .
γ
Como se vio en la Sección 8.5, la población relevante está definida por
Hd e I. En Champod y Taroni (1999) se aportan algunas consideraciones
sobre las definiciones en este ejemplo:
Población relevante de fibras   501

• Si Hd es que el sospechoso nunca estuvo presente en la escena


del crimen, entonces la población relevante está definida por los
ladrones que lleven ropas de color rojo de cintura para arriba
(aceptando que el testigo ocular había visto al ladrón y que in-
formó correctamente sobre que llevaba ropa roja de cintura para
arriba).
• Si Hd es que el sospechoso ha sido correctamente identificado por
el testigo ocular pero nunca había estado en contacto con la ver-
ja, entonces la población relevante está definida por las potenciales
fuentes de fibra roja, sin distinción alguna con respecto al color de
la ropa que llevase el ladrón.
En ausencia de un testigo ocular, si el sospechoso fue detenido por llevar
un jersey rojo y las fibras encontradas en la escena del crimen eran rojas,
entonces la población relevante está definida por los potenciales autores
que llevasen ropa roja (en el Capítulo 13 se aportan argumentos sobre las
implicaciones de tal estrategia de búsqueda).
En ausencia de un testigo ocular, si el sospechoso fue detenido inde-
pendientemente de las propiedades forenses del penacho, entonces la po-
blación relevante está definida por los potenciales autores, sin distinción
alguna con respecto al color de la ropa.
Análogamente, en Robertson y Vignaux (1995a) se aporta un ejemplo
de la influencia de la estrategia de la defensa para determinar la población
relevante. En la escena del crimen se encontró sangre que no pertenecía a
la víctima del homicidio. Se vio a un hombre de apariencia maorí salir co-
rriendo de aquel lugar. Más tarde, un maorí fue detenido e identificado por
un testigo ocular como aquél que fue visto corriendo desde la escena del
crimen. La proposición del Fiscal, Hp, es que este hombre es el criminal. La
defensa tiene dos alternativas posibles:
• Hd1: el acusado fue la persona a la que vieron correr pero no fue el
asesino;
• Hd2: el acusado no fue la persona a la que vieron correr y la identifi-
cación del testigo ocular fue errónea.
Bajo Hd1 no hay información sobre el asesino, así pues el asesino ha de
considerarse como una persona seleccionada aleatoriamente de Nueva
Zelanda. El experto utilizará la población total como la población relevan-
te para el valor de γ. Bajo Hd2, sí hay información sobre el asesino. Fue una
persona de apariencia maorí, así pues ha de considerarse como una persona
seleccionada aleatoriamente de apariencia maorí. El experto utilizará enton-
ces la población maorí como la población relevante para el valor de γ.
Capítulo 13
Perfiles de ADN Perfiles de ADN

13.1 Introducción

Se puede encontrar un resumen de los principios generales y las téc-


nicas de clasificación de ADN en dos informes del Consejo Nacional de
Investigación (NRC, 1992, 1996; Kaye, 1997a, Lempert, 1997) y en Foreman
y otros (2003) una revisión de lo desarrollado actualmente. Ofrecemos en
este apartado un breve resumen. Para más detalles, consúltese Rudin e
Inman (2003). Los dos párrafos siguientes se han tomado de la voz ADN que
aparece en la Micropaedia de la decimoquinta edición de la Enciclopedia
Británica (1993). A estos párrafos les sigue una descripción recogida del
Capítulo 2 del segundo informe del NRC (1996).
El ácido desoxirribonucleico (ADN) es un compuesto químico orgánico
de estructura molecular compleja. Codifica la información genética para
la transmisión de rasgos hereditarios. La estructura del ADN está formada
por dos cadenas de un polímero de fosforil-desoxirribosa que están conec-
tadas, en una doble espiral o hélice, por enlaces de hidrógeno entre bases
nitrogenadas complementarias adjuntas al polímero. La secuencia de las
bases nitrogenadas determina qué información genética específica codifica
las moléculas; se llama gen a un segmento de ADN que codifica la síntesis
de una proteína en la célula. En el ADN sólo aparecen cuatro bases: adeni-
na, guanina, citosina y timina (abreviadas por A, G, C y T). Todos los rasgos
hereditarios se codifican mediante secuencias repetidas de estas bases.
Las bases nitrogenadas en cada cadena de la molécula de ADN se unen
con bases complementarias en la cadena opuesta. El ADN se replica me-
diante la separación en dos cadenas simples, cada una de las cuales sirve
de plantilla para la construcción de una nueva cadena, entrelazándose nue-
vas bases con las bases de la cadena original. La adenina enlaza sólo con
la timina y la guanina enlaza sólo con la citosina, de manera que la nueva
cadena es precisamente la complementaria de la cadena original.
En los organismos superiores, el material genético se organiza en es-
tructuras microscópicas llamadas cromosomas. Un óvulo humano fecundado
504   Perfiles de ADN

tiene 46 cromosomas (23 pares). Al conjunto de 23 cromosomas con la in-


formación genética que contienen se le denomina genoma. Un cromosoma
es un hilo muy fino de ADN, rodeado por otros materiales, principalmente
proteínas. El hilo de ADN es realmente doble, dos cadenas entrelazadas
en forma de espiral, como una escalera de cuerdas retorcida con peldaños
rígidos de madera. La unidad química básica del ADN es el nucleótido,
formado por una base (medio peldaño de la escalera) y un compuesto de
azúcar-fosfato (la sección adyacente de la cuerda). El ADN total del geno-
ma asciende a unos 3.000 millones de pares de nucleótidos. Un gen es un
segmento de ADN, que se extiende desde unos pocos miles a más de cien-
tos de miles de pares de nucleótidos. La secuencia específica de nucleóti-
dos en un gen actúa como un mensaje codificado que permite obtener una
secuencia específica de un aminoácido de un polipéptido o proteína. El
gen producto podría ser detectado sólo químicamente o podría dar lugar a
un rasgo visible como el color de los ojos. La posición dentro de un cromo-
soma en la que reside un gen particular se conoce como locus.
Los alelos son diferentes formas de un gen. Si el mismo alelo está presente
en los dos cromosomas de un par, el individuo es homocigoto. Si los dos
alelos son diferentes, el individuo es heterocigoto. El carácter genético de
una persona es el genotipo. El genotipo puede hacer referencia al locus de
un único gen con dos alelos representados mediante A y a. En tal caso, hay
tres posibles genotipos AA, Aa y aa. El genotipo puede también referirse a
varios loci o al conjunto entero de genes. En análisis forense, el genotipo
para el grupo de loci analizado se denomina perfil de ADN. Hay un gran
número de alelos en un locus, por lo que el número de posibles genotipos
es muy grande. Por ejemplo (NRC, 1996), en un locus con 20 alelos hay 20
genotipos homocigotos y (20 × 19) / 2 = 190 heterocigotos, sumando un
total de 210 genotipos. Con cuatro loci semejantes, el número de genotipos
es 210 4 o alrededor de 2.000 millones.
Un enfoque alternativo para el análisis de ADN utiliza un proceso de
laboratorio conocido como reacción en cadena de la polimerasa (PCR) en
el que se escoge un segmento corto de ADN que puede copiarse millones de
veces. En NRC (1996) se recoge una descripción del proceso. Debido a que
la amplificación del proceso es casi ilimitada, los métodos basados en PCR
hacen posible el análisis de cantidades muy pequeñas de ADN. También,
generalmente los métodos de PCR permiten una identificación exacta de
cada alelo, y así no hay incertidumbre en las medidas. No tienen tantos ale-
los por locus como VNTRs (número variable de repeticiones en tándem),
pero esto se compensa por el gran número de loci potencialmente utiliza-
bles.
Equilibrio hardy-weinberg   505
EquilibrioHardy-Weinberg  

Otra clase de marcadores genéticos es el ADN mitocondrial. Las mito-


condrias son partículas microscópicas que se encuentran en las células,
pero fuera del núcleo, de forma que no están asociadas con los cromoso-
mas. La transmisión de mitocondrias se produce de madre a hijo. Todos los
hijos de una misma mujer tienen idéntico ADN mitocondrial. Así, esto es
particularmente útil para la asociación de personas emparentadas a través
de su linaje materno (Gill y otros, 1994). Resultados similares se aplican
con el cromosoma Y para el linaje masculino.
Para la valoración de la probabilidad de que el ADN procedente de una
persona seleccionada aleatoriamente tenga el mismo perfil que el ADN en-
contrado en la escena del crimen, se necesita conocer la frecuencia de perfil
en la población. La frecuencia se determina por comparación con respecto
a un conjunto de datos. Estos conjuntos de datos de referencia son muy pe-
queños en comparación con el conjunto de todos los posibles perfiles que
pueden encontrarse. Así, las frecuencias de alelos individuales se usan para
estimar la frecuencia de un perfil dado. Para hacer esto, se asume necesario
llevar a cabo un estudio de la estructura de uniones en la población.
Resulta convencional en genética designar a cada gen o marcador locus
con una letra y a cada alelo del locus con un subíndice numérico. Así, el dé-
cimo alelo del locus A se representa mediante A10 y el quinto alelo del locus
B mediante B5. En general, el i-ésimo alelo del locus A puede representarse
como Ai. La frecuencia de Ai la representamos mediante p i , y estas frecuen-
cias serán tales que ∑ pi = 1, donde el sumatorio se realiza sobre todos los
alelos del locus.

13.2 Equilibrio Hardy-Weinberg

Las frecuencias alélicas pueden calcularse a partir de las frecuencias


observadas en una muestra. Una vez que se han calculado las frecuencias
alélicas resulta posible determinar las frecuencias esperadas, asumiendo
el equilibrio de Hardy-Weinberg. La comparación entre las frecuencias ob-
servadas y esperadas permite medir la certidumbre de la asunción de este
equilibrio. Consideremos un locus en una población con k alelos, indexa-
dos por i y j, y m = k(k+1) / 2 genotipos. Se toma una muestra de tamaño n
de una población y se cuenta el número de miembros de la muestra para
cada genotipo, con x ij miembros con genotipo {i,j} (representando com-
ponentes alélicas i,j para 1 ≤ i ≤ j ≤ k ), donde el individuo es heterocigoto
si i ≠ j y homocigoto si i = j. Las frecuencias relativas x ij / n se representan
mediante Pij . La proporción p i de alelos de tipo i es:
506   Perfiles de ADN

1 j=k
pi = Pii + ∑ Pij
2 j≠i
(13.1)

La división por 2 se debe a que en los heterocigotos sólo la mitad de los


alelos son i.
Suponemos que los alelos en un locus, uno procedente del padre y el otro
de la madre, son independientes entre sí, dando lugar a una distribución
de equilibrio para las frecuencias relativas de los alelos en una población.
Esto se conoce como equilibrio de Hardy-Weinberg o cruzamiento aleato-
rio. En la Tabla 13.1 aparecen las frecuencias relativas para los resultados
del emparejamiento para un locus con dos alelos. Así, la frecuencia genotí-
pica de AA es p 2 , de Aa es 2pq, y de aa es q 2 , y p 2 + 2pq + q 2 = (p + q ) 2 = 1.

Tabla 13.1 Proporciones de Hardy-Weinberg para un locus con dos ale-


los, A y a, con frecuencias p y q tales que p+q = 1

Alelos (y frecuencias) en esperma


Alelos (y frecuencias) en óvulos
A (p) a (q)
A(p) p 2
pq
a(q) pq q2

En general, sean p i y p j las proporciones en la población de alelos A i


y A j para i,j = 1, ..., k, donde k es el número de alelos en el locus en cues-
tión. Las frecuencias genotípicas esperadas Pij se obtienen siguiendo las
siguientes ecuaciones asumiendo el equilibrio de Hardy-Weinberg:

2pi p j , i ≠ j,
Pij =  (13.2)
pi , i = j.
2

Nótese que, en lo que sigue, las frecuencias poblacionales se representa-


rán con letras latinas, generalmente p. Esto está en contraposición con la
convención usada en el resto de los libros, en los que estas frecuencias se
representan mediante letras griegas. Sin embargo, el uso de letras latinas, ta-
les como p (y q para 1–p), está tan extendido que pensamos que la confusión
sería menor siguiendo esta práctica. En la Tabla 13.2 aparecen las frecuen-
cias relativas alélicas y las frecuencias genotípicas para genotipos HumTH01
procedentes de 95 individuos turcos no emparentados (Çakir y otros 2001).
En el locus HumTH01 se usan seis alelos. Fijémonos en el alelo 6. Tiene una
frecuencia alélica de 0.295 en esta población. Esto se calcula a partir de las
frecuencias genotípicas observadas en la parte derecha de la tabla.
Equilibrio hardy-weinberg   507
EquilibrioHardy-Weinberg  

Tabla 13.2 Frecuencias observadas y esperadas de genotipos HumTH01


basados en 95 individuos turcos no emparentados (de Çakir
y otros 2001).

Alelos Genotipos
Alelo Frecuencia (%) Observada Esperada
Frecuencia

6 0.295 6-6 10 8.3


7 0.147 6-7 6 8.2
8 0.184 6-8 8 10.3
9 0.232 6-9 14 13.0
9.3 0.026 6-9.3 2 1.5
10 0.116 6-10 6 6.5
7-7 2 2.1
7-8 4 5.1
7-9 7 6.5
7-9.3 0 0.7
7-10 7 3.2
8-8 4 3.2
8-9 9 8.1
8-9.3 2 0.9
8-10 4 4.1
9-9 4 5.1
9-9.3 1 1.1
9-10 5 5.1
9.3-9.3 0 0.1
9.3-10 0 0.6
10-10 0 1.3
Total 95 95.0
Homocigotos 21.1% 21.2%
Heterocigotos 78.9% 78.8%

Los primeros seis genotipos incluyen el alelo 6. Combinando sus frecuen-


cias, usando (13.1), y dividiendo por 95 se obtiene la frecuencia relativa.

{10 + (6 + 8 + 14 + 2 + 6) / 2} / 95 = 0.295

Las frecuencias genotípicas esperadas se derivan de las frecuencias alé-


licas (y éstas a su vez de las frecuencias genotípicas observadas) de (13.2).
El valor de la evidencia de ADN se determina normalmente con un LR
que es justamente el recíproco de la frecuencia de perfil, digamos 1/2 p i p j
para un sospechoso heterocigoto que dio cotejo positivo con la mancha
que se encontró en la escena del crimen. Aunque esto es rápido, pasa por
alto algunas cuestiones y no se acomoda a la estructura de la población
508   Perfiles de ADN

(Sección 13.5), parentesco (Sección 13.6) o en situaciones donde hay mez-


clas (Sección 13.10; Weir, 1996b).
El poder de discriminación descrito en la Sección 4.5 puede aplicarse
para determinar el denominado poder de exclusión de un locus. La probabili-
dad de que dos personas elegidas al azar posean un genotipo particular es
el cuadrado de su frecuencia en la población. La probabilidad Q de que dos
personas elegidas al azar tengan el mismo genotipo no especificado es la
suma de los cuadrados de las frecuencias de todos los genotipos. De este
modo, para el caso general arriba mencionado con n alelos,
n n
Q = ∑ Pii2 + ∑∑ Pij2
i =1 i=2 j<i

El poder de discriminación o de exclusión para los genotipos es entonces


1–Q. Cuanto mayor sea el poder de discriminación, mejor será el genotipo
discriminando entre la población. Como en la Sección 4.5.4, supongamos
que existen m sistemas independientes con los correspondientes valores
Q1 ,..., Q m . La probabilidad D Pm de ser capaces de distinguir entre dos indi-
viduos usando m tests, como antes (Weir, 1996a), es:
m

DPm = 1 − ∏ Q l
l=1

Este capítulo ofrece una perspectiva de distintas cuestiones relaciona-


das con la evaluación de la evidencia de perfiles de ADN. Pueden encon-
trarse más detalles en libros más especializados como el de Evett y Weir
(1998), Buckleton y otros (2004) y Balding (2005).

13.3 Razón de verosimilitud en ADN

Imaginemos el cálculo de la razón de verosimilitud (LR) en una situa-


ción común relacionada con ADN en la que existe el perfil E c que proviene
de la muestra de la escena del crimen y el perfil ES del sospechoso. I repre-
senta la información de contexto, y las proposiciones a nivel de fuente, por
ejemplo, son:
• H p , el sospechoso es la fuente de la mancha;
• H d , otra persona, no emparentada con el sospechoso, es la fuente
(i.e, el sospechoso no es la fuente de la mancha).
Ambos perfiles son del tipo A. La razón de verosimilitud puede enton-
ces, apelando a (9.2), expresarse como sigue:
Incertidumbre   509

Pr(E c = A | E S = A, H p , I)
Pr(E c = A | E S = A, H d , I)

Asumimos que el sistema de clasificación de ADN es suficientemente


fiable como para que dos muestras que provengan de la misma persona
den cotejo positivo cuando sea el sospechoso el donante de la mancha (pro-
posición H p ) , y para que no haya falsos negativos. La muestra recuperada
es de tipo A, si se asume H p como cierta. Así, Pr( E c = A | E S = A, H p , I) = 1 .
Asumimos que los perfiles de ADN de dos personas distintas (el sospe-
choso y el donante de la mancha cuando la proposición H d es cierta) son
independientes. Entonces Pr( E c = A | E S = A, H d , I) = Pr( E c = A | H d , I). En
tal caso, sólo se necesita la llamada probabilidad de perfil, ( 2p i p j para una man-
cha/sospechoso heterocigoto y p i2 para un homocigoto), la probabilidad de
que una persona desconocida posea el perfil A. Esto es una simplificación
generalmente aceptada. Pero, en realidad, el valor evidencial de una coin-
cidencia (o cotejo positivo) entre el perfil de la muestra recuperada y el del
sospechoso necesita tener en cuenta el hecho de que hay una persona (el
sospechoso) que tiene ese perfil (tipo A). De esta manera, la probabilidad
que nos interesa es Pr( E c = A | E S = A, H d , I) y ésta puede diferir bastante
de Pr( E c = A | H d , I) (ver Secciones 13.5 y 13.10; Weir, 2000a).
En realidad, observar un gen en una subpoblación incrementa la opor-
tunidad de observar otro del mismo tipo. Por tanto, dentro de una subpo-
blación, que los perfiles de ADN tengan alelos comunes es algo más co-
mún que lo sugerido por la asunción de independencia, incluso aunque
dos individuos no estén directamente relacionados (ver Sección 13.6 sobre
parentesco).
La probabilidad condicional (también llamada probabilidad de coincidencia o
probabilidad de coincidencia aleatoria) incorpora el efecto de la estructura de la po-
blación u otras dependencias entre individuos, tales como las impuestas
por el parentesco familiar (Weir, 2000b).

13.4 Incertidumbre

Balding y Nichols (1994) tratan sobre el papel de la incertidumbre en la de-


terminación de las frecuencias alélicas y la frecuencia de un perfil particular
de ADN en la población. Supongamos que la frecuencia relativa de un perfil
de ADN en una población particular se representa por γ. Si dos individuos,
digamos J y K, son escogidos de manera aleatoria en la población, entonces la
probabilidad de que K tenga el perfil, dado que J tiene el perfil, es p.
510   Perfiles de ADN

En la práctica, la frecuencia relativa del perfil, digamos p̂ , a partir de


una muestra, no se conoce con exactitud. El valor esperado es p. Sea σ 2 la
varianza de la frecuencia relativa de perfil sobre su valor esperado. Sea P
la variable aleatoria correspondiente a p̂ . La varianza de una variable alea-
toria está relacionada con la esperanza de la variable aleatoria mediante la
ecuación en la que la varianza es igual a la esperanza de la variable aleato-
ria al cuadrado menos el cuadrado de la esperanza de la variable aleatoria.
Para la frecuencia relativa de perfil P, esta ecuación puede representarse
mediante Var(P) = E ( P 2 ) −{E (P)} . Ésta puede reescribirse como:
2

E (P 2 ) = Var (P) +{E (P)} = σ2 + p 2 . La probabilidad de coincidencia vie-


2

ne dada por:
Pr(K tiene el perfil | J tiene el perfil) = Pr(J y K tienen el perfil) / Pr (J
tiene el perfil) =

E(P 2 )
=
E (P)
p2 + σ2
=
p
σ2
=p+
p

Así, la probabilidad de K tenga el perfil, dado que J lo tiene, es mayor


que la frecuencia del perfil p. La información de que una persona tiene un
perfil aumenta la probabilidad de que otra persona lo tenga.

13.5 Variación de frecuencias alélicas en subpoblacio-


nes

¿De cuántos individuos en la población de posibles culpables cabe espe-


rar que tengan en común este tipo de ADN? La respuesta a esta pregunta
es complicada por el fenómeno de correlaciones genéticas debido a la he-
rencia compartida (Balding, 1997). Así, un simple cálculo de frecuencias
de perfil (se usa la ‘regla del producto’, donde las proporciones alélicas se
multiplican entre ellas y a lo largo de todo el loci para dar una proporción
estimada de la coincidencia de perfil en el proceso completo de multi-locus)
no es suficiente cuando hay dependencias entre diferentes individuos impli-
cados en el caso que se investiga: el sospechoso y el autor (la fuente real de la
muestra recuperada) incluidos en la proposición alternativa, H d .
Variación de frecuencias alélicas en subpoblaciones   511

La fuente más común de dependencia consiste en ser miembros de una


misma población con una historia evolutiva similar. El mero hecho de que
las poblaciones sean de tamaño finito entraña que dos personas tomadas
aleatoriamente de una población tengan alguna posibilidad de poseer rela-
tivamente recientes antepasados comunes. De esta manera, haciendo caso
omiso de esta correlación de alelos en el cálculo del peso de la evidencia, se
incurre en una exageración de la fuerza de la evidencia en contra de la perso-
na comparada (por ejemplo, el sospechoso en un caso criminal o el presunto
padre en un caso de paternidad) incluso aunque no sea tan importante como
el parentesco dentro de una misma población (ver Sección 13.6).
Wright (1922) introdujo una medida FST de la variación interpoblacio-
nal en frecuencias alélicas. Puede considerarse como una medida de la es-
tructura de la población. Se han llevado a cabo importantes estudios de
frecuencias alélicas en muchas poblaciones para estimar valores de FST
(Balding y otros, 1996; Foreman y otros, 1997b, 1998; Balding y Nichols,
1997; Lee y otros, 2002), sugiriendo que es prudente usar los valores FST
más extremos de los rangos que se observan normalmente.
Evett y Weir (1998) analizan los tres llamados F-estadísticos que pro-
porcionan una medida de la relación entre un par de alelos, con respecto
a ciertos niveles de parentesco en el pasado. La notación que va a utilizar-
se es la de Wright (1951, 1965). Evett y Weir (1998) usan la notación de
Cockerham (1969, 1973).
• FIS es el grado en que dos alelos están relacionados dentro de un
individuo cuando se comparan con pares de alelos en diferentes in-
dividuos pero dentro de la misma subpoblación.
• FIT es el grado de relación de alelos dentro de un individuo compa-
rados con alelos de diferentes individuos en la población total.
• FST es la relación entre alelos de diferentes individuos en una subpo-
blación cuando se comparan con pares de alelos en diferentes
subpoblaciones. También se conoce como coeficiente de consangui-
nidad (coancestry coefficient).
Evett y Weir (1998) señalan pequeñas diferencias entre las definiciones
de Wright (1951, 1965) y Cockerham (1969, 1973). Wright definió sus canti-
dades para los alelos identificados por los gametos portadores; Cockerham
definió sus estadísticos para alelos definidos por los individuos portadores.
Para la unión aleatoria de las subpoblaciones, Evett y Weir (1998) comen-
tan que puede prescindirse de la distinción.
De los estudios de Balding y Nichols (1994) recogemos el siguiente ar-
gumento para obtener la probabilidad de una coincidencia, teniendo en
cuenta la endogamia. Sean p A y p B las proporciones poblacionales de los
512   Perfiles de ADN

alelos A y B. Interpretamos el valor de FST como la probabilidad de que dos


alelos sean idénticos como consecuencia de tener un antepasado común en
la subpoblación. Mediante asunciones razonables, consideramos que hay
una probabilidad FST para que dos alelos de la subpoblación sean idénticos
por un antepasado común en ella, y que el antepasado es de tipo A con pro-
babilidad p A . Si no son idénticos por descendencia, hay una probabilidad
p 2A para que dos alelos sean del tipo A. Así, la probabilidad de obtener dos
alelos A aleatoriamente en la subpoblación es:

Pr(A 2 | p A ) = p A{FST + (1 − FST )p A} (13.3)

La observación de un alelo A en la subpoblación hace que A sea proba-


blemente más común en la subpoblación que en la población general y de
ahí que Pr(A 2 | p A ) sea mayor que la probabilidad p 2A de extraer dos alelos
A consecutivos en la población general. La probabilidad de extraer prime-
ro un alelo A y seguidamente uno B es:
Pr(AB | p A , p B ) = p A p B (1 − FST ) (13.4)

En general, Pr(A r Bs ) representa la probabilidad de que entre r + s alelos


extraídos aleatoriamente de la subpoblación, sean los primeros r de tipo A
y los siguientes s de tipo B. Entonces:

rFST + p A (1 − FST )
Pr(A r+1Bs | p A , p B ) = Pr(A r Bs | p A , p B ) (13.5)
1 + (r + s − 1)F

Casos especiales de (13.5) con s = 0, r = 3 y luego s = 0, r = 2 hacen que:

(2FST + p A (1 − FST ))(3FST + (1 − FST )p A )


Pr(A 4 | p A ) = Pr(A 2 | p A ) (13.6)
(1 + FST )(1 + 2FST )

y con s = 2, r = 1 y luego s =1, r = 1,

(FST + p A (1 − FST ))(FST + (1 − FST )p B )


Pr(A 2 B2 | p A , p B ) = Pr(AB | p A , p B ) (13.7)
(1 + F)(1 + 2F)

Asumamos que hay un sospechoso inocente, con perfil G s , extraído de la


misma subpoblación que el criminal, el cual tiene un perfil G c , y que estas dos
personas no son parientes próximos. Sean A y B los dos alelos observados.
Entonces Pr(G c= AB |G s = AB) = Pr(G c = AB, G s = AB) / Pr(G s = AB) = Pr(A 2 B2 ) / Pr(AB)
Variación de frecuencias alélicas en subpoblaciones   513

Asumamos también que p A y p B están disponibles sólo para una colección


de subpoblaciones. Entonces, de (13.7), la probabilidad de que el criminal
tenga un genotipo particular dado que el sospechoso encontrado tenga ese
tipo es:

Pr(G c = AB | G s = AB) = 2
{F ST
+ (1 − FST )p A}{FST + (1 − FST )p B }
(13.8)
(1 + FST )(1 + 2FST )
conocida como probabilidad de coincidencia condicional. Nótese que cuan-
do FST = 0, la probabilidad se reduce a 2p A p B , el resultado básico asumien-
do el equilibrio de Hardy – Weinberg.
De manera similar, la probabilidad de coincidencia para homocigotos
puede obtenerse de (13.6), para dar:

Pr(G c = A 2 | G s = A 2 ) =
{2F
ST + (1 − FST )p A}{3FST+ (1 − FST )p A }
(1 + FST )(1 + 2FST )
Éstas son las ecuaciones a las que se hace referencia en la recomenda-
ción 4.2 del informe NRC (1996). Dichas ecuaciones permiten a los cien-
tíficos obtener probabilidades de coincidencia para perfiles completos. La
fórmula de Balding y Nichols (1994) para calcular probabilidades de locus
simples se multiplica a través de los loci. Debería enfatizarse que los resul-
tados para dos personas de la misma subpoblación, son sólo un promedio
sobre las subpoblaciones. Las frecuencias alélicas son un promedio sobre
subpoblaciones y no lo son sobre una subpoblación particular. Las dos úl-
timas ecuaciones permiten que las frecuencias alélicas de una amplia po-
blación se usen en subpoblaciones para las que se aplica FST . Harbison y
Buckleton (1998) aportan una derivación simple de la fórmula de Balding
y Nichols (1994) para heterocigotos y homocigotos. Triggs y Buckleton
(2002) presentan implicaciones lógicas de la aplicación de los principios
genéticos de la población para la evaluación de la evidencia de ADN.
En cálculos forenses es posible valorar el efecto de la sub-estructura de
la población. Para heterocigosis entre alelos con frecuencias iguales p, la
razón de verosimilitud se calcula a nivel de fuente como el recíproco de las
probabilidades de coincidencia condicional (un resultado análogo a (9.3)).
En la Tabla 13.3 se presentan las razones de verosimilitud para varios valo-
res de FST . El efecto de FST decrece cuando las frecuencias alélicas aumen-
tan y no es importante cuando p = 0.1 e incluso para FST tan altos como
0.01 (Weir, 1998).
514   Perfiles de ADN

Tabla 13.3 Efectos de la estructura de la población, representados por


FST , en la razón de verosimilitud, el recíproco de la probabi-
lidad de coincidencia condicional (13.8) para heterocigosis
entre alelos con igual frecuencia p.

Frecuencia alélica FST


0 0.001 0.01 0.05
p = 0.01 5000 4152 1301 163
p = 0.05 200 193 145 61
p = 0.1 50 49 43 27

Es importante distinguir entre probabilidades de perfil y probabilidades de coinciden-


cia aleatoria. Es muy útil usar el término probabilidad de perfil para la posibilidad
de que un individuo tenga un perfil particular, en distinción con probabilidad
de coincidencia aleatoria para la posibilidad de que una persona tenga el perfil
cuando se conoce que otra persona tiene el perfil. La probabilidad de co-
incidencia aleatoria, por tanto, requiere exposiciones explícitas sobre dos
perfiles. Las probabilidades de perfil son de cierto interés, pero son impro-
bablemente relevantes en cálculos forenses (Weir, 2001b). Tiene escaso in-
terés que el perfil sea raro en la población —lo que es relevante es la rareza
del perfil, dado que una persona (por ejemplo, el autor) tiene ese perfil.
En otras palabras, es relevante conocer la probabilidad de que el acusado
tenga el perfil, dado que el autor lo tenga y que se traten de diferentes per-
sonas (Balding y Donnelly, 1995a). En casos prácticos, la lista de posibles
culpables contiene generalmente individuos con diferentes niveles de an-
tepasados en común con el acusado y, por tanto, difieren las correlaciones
entre personas. Lo que hay que hacer entonces es presentar al Tribunal un
rango plausible de probabilidades de coincidencia de manera útil y justa.
Triggs y otros (2000) proponen además desarrollos para mezclas raciales
que evitan el enfoque de dar estimaciones separadas para cada raza.
La distinción entre las probabilidades de perfil y de coincidencia rara-
mente se hace por parte de los científicos forenses, y eso es lo más proba-
ble porque las dos cantidades tienen el mismo valor en el caso simple en
que sean validos los cálculos con la ‘regla del producto’. Si no hay paren-
tesco en una población grande, bien por cercanía entre los miembros de
cada familia o por la historia evolutiva común, y hay cruzamiento alea-
torio y homogeneidad en la población, así como una falta de conexión,
selección, mutación y migración, entonces todos los alelos en un perfil de
ADN son independientes. La probabilidad de perfil y la de coincidencia son
justamente el producto de las probabilidades alélicas, junto con un factor
Individuos emparentados   515

2 para cada locus heterocigoto. Así, cuando FST = 0, la probabilidad se re-


duce a p 2A , el resultado básico asumiendo equilibrio de Hardy – Weinberg
para homocigotos.

13.6 Individuos emparentados

En la Sección 13.5 se ha asumido que la población de referencia no con-


tenía individuos emparentados. Los individuos no emparentados tienen
una probabilidad muy baja de compartir el mismo perfil, pero la proba-
bilidad aumenta para individuos emparentados. De hecho, los parientes
tienen la posibilidad de recibir el mismo material genético de sus antepa-
sados y por lo tanto tienen el mismo perfil de ADN (Balding, 2000). Así,
los mayores efectos de dependencia entre perfiles de ADN de dos indivi-
duos se producen cuando están emparentados. Dejando aparte los gemelos
idénticos, las relaciones entre hermanos o padres o primos tienen grandes
efectos en la razón de verosimilitud cuando sus perfiles de ADN no están
disponibles. Si es posible que un hermano o un pariente próximo pudiesen
haber contribuido en la mancha recuperada de la escena del crimen, eso
se ha de reflejar en la razón de verosimilitud. Los hermanos, por ejemplo,
tienen al menos un 25 % de probabilidad de compartir el mismo genotipo
en cualquier locus. Consideremos, por ejemplo, las dos proposiciones si-
guientes:
• H p , el sospechoso es la fuente de la muestra del crimen;
• H d , un pariente del sospechoso dejó la muestra del crimen.
Sea la evidencia una observación de los alelos A i A j en la muestra
fuente y en la muestra receptora con frecuencias poblacionales p i y p j .
Asumamos que, si H p es verdadera, entonces el numerador de la razón de
verosimilitud es 1, una asunción que no será necesariamente cierta, pero
que servirá para ilustrar la cuestión. Si no hay parentesco entre la fuente y
la muestra del receptor, entonces el denominador sería 2 p i p j para i ≠ j, y
p i2 para i = j. Los efectos debidos a los distintos parentescos se recogen en
la Tabla 13.4, datos que han sido proporcionados por Weir y Hill (1993),
donde los datos numéricos se presentan asumiendo frecuencias alélicas
de 0.1. Se asume que el numerador tiene valor 1. Ver también Brookfield
(1994) y Belin y otros (1997) para más ejemplos.
Sjerps y Kloosterman (1999) desarrollan más los escenarios en los que
hay implicación de parientes analizando casos donde el perfil de ADN de
una muestra que proviene de la escena del crimen exonera al sospechoso
516   Perfiles de ADN

de ser el origen de la muestra recuperada. En algunas situaciones, tal re-


sultado sugiere que quizá un pariente próximo del sospechoso podría co-
incidir con la mancha, en particular cuando los perfiles comparten alelos
poco frecuentes.
Weir (2001a) completa las probabilidades condicionales de la Tabla 13.4
teniendo en cuenta el parámetro de estructura de la población FST (ver
Tabla 13.5, donde FST se representa como θ para mayor claridad).

Tabla 13.4 Probabilidad de coincidencia Pr(Gc | Gs, Hd, I) de que un pa-


riente tenga el mismo genotipo que el sospechoso y el corres-
pondiente valor para V asumiendo frecuencias alélicas de
0.1, de Weir y Hill (1993). (Reproducido con permiso de la
Sociedad de Ciencia Forense.)

Sospechoso Pariente Pr(Gc | Gs, Hd, I) LR, V

AiA j Padre o hijo (p i + p j ) / 2 10

Hermano carnal (1 + p i + p j + 2p i p j ) / 4 6.67

Hermanastro ( p i + p j + 4p i p j ) / 4 16.67

Tío o sobrino ( p i + p j + 4p i p j ) / 4 16.67

Primo carnal (p i + p j + 12p i p j ) / 8 25

No emparentado 2 pi p j 50

AiAi Padre o hijo pi 10

Hermano carnal (1 + p i ) 2 / 4 3.3

Hermanastro p i (1 + p i ) / 2 18.2

Tío o sobrino p i (1 + p i ) / 2 18.2

Primo carnal p i (1 + 3p i ) / 4 30.8

No emparentado p i2 100
Tabla 13.5 Efectos del parentesco en la probabilidad de coincidencia, Pr(Gc | Gs, Hd, I), de Weir (2001a). Obsérvese
que se usa θ para representar a FST para una mayor claridad. © 2001. John Wiley & Sons, Ltd. Reproducido
con permiso.

Sospechoso Parentesco Pr ( G c G s, H d, I )
2
( 1 + p i + p j + 2p i p j ) + ( 5 + 3p i + 3p j – 4p i p j )θ + 2 ( 4 – 2p i – 2p j + p i p j )θ
AiAj Hermanos Carnales --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
4 ( 1 + θ ) ( 1 + 2θ )
2θ + ( 1 – θ ) ( p i + p j )
Padre e hijo --------------------------------------------------
2(1 + θ)
2
( p i + p j + 4p i p j ) + ( 2 + 5p i + 5p j – 8p i p j )θ ( 8 – 6p i – 6p j + 4p i p j )θ
Hermanastros -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
4 ( 1 + θ ) ( 1 + 2θ )
2
( p i + p j + 12p i p j ) + ( 2 + 13p i + 13p j – 24p i p j )θ + 2 ( 8 – 7p i – 7p j + 6p i p j )θ
Primos Carnales --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
8 ( 1 + θ ) ( 1 + 2θ )
2 [ θ + ( 1 – θ )p i ] [ 0 + ( 1 – θ )p j ]
No emparentados ----------------------------------------------------------------------------
( 1 + θ ) ( 1 + 2θ )

2 2 2 2
( 1 + p i ) + ( 7 + 7p i – 2p j )θ + ( 16 – 9p i + p j )θ
AiAi Hermanos Carnales ----------------------------------------------------------------------------------------------------------------------
4 ( 1 + θ ) ( 1 + 2θ )
2θ + ( 1 – θ )p i
Padre e hio ----------------------------------
1+θ
[ 2θ + ( 1 – θ )p i ] [ 2 + 4θ + ( 1 – θ )p i ]
Hermanastros -----------------------------------------------------------------------------------------
2 ( 1 + θ ) ( 1 + 2θ )
[ 2θ + ( 1 – θ )p i ] [ 1 + 11θ + 3 ( 1 – θ )p i ]
Primos Carnales -----------------------------------------------------------------------------------------------
4 ( 1 + θ ) ( 1 + 2θ )
[ 2θ + ( 1 – θ )p i ] [ 1 + 11θ + 3 ( 1 – θ )p i ]
No emparentados -----------------------------------------------------------------------------------------------
4 ( 1 + θ ) ( 1 + 2θ )
Individuos emparentados   517
518   Perfiles de ADN

Foreman y Evett (2001) presentan valores de probabilidad de coinciden-


cia para una variedad de alternativas especificadas (otras fuentes posibles
de la mancha diferentes al sospechoso) que se corresponden con individuos
que tienen diferentes grados de parentesco con el sospechoso cuando haya
total coincidencia de los perfiles. El perfil más común SGM-plus (segunda
generación multiplex-plus, sistema de perfiles de 10-locus de repeticiones
cortas en tándem (STR)) se determinó con bases de datos ordinariamente
utilizadas en casos forenses. Tuvieron en cuenta el error de muestreo usan-
do la corrección tamaño-sesgo (Curran y otros, 2002) y recomendaron va-
lores generales de probabilidad de coincidencia para usarlos en coinciden-
cias plenas de perfiles con un valor de FST nulo en la situación 6 y un valor
de 0.02 para las situaciones 1-5 (ver Tabla 13.6). Foreman y otros (1997a) y
Evett y otros (2000e) tratan de manera general este asunto.

Tabla 13.6 Valores genéricos de probabilidad de coincidencia recomendados para


usarlos cuando se cubren por completo las coincidencias de perfil
SGM-plus, con un valor de FST nulo en la situación 6 y un valor de 0.02
para las situaciones 1-5, Foreman y Evett (2001). (Reproducido con
permiso de Springer – Verlag.)

Situación Parentesco con el sospechoso Probabilidad de coincidencia

1 Hermano 1 entre 10.000


2 Padre/Hijo 1 entre 1 millón
3 Hermanastro o tío/sobrino 1 entre 10 millones
4 Primo carnal 1 entre 100 millones
5 No emparentados (subpoblación) 1 entre 1000 millones
6 No emparentados (población) 1 entre 1000 millones

13.7 Más de dos proposiciones

Consideremos una situación en la que la evidencia, E, consta de un perfil


de ADN que proviene de una mancha de fluidos corporales encontrada en
la escena del crimen y otro perfil de ADN de un sospechoso que coincide en
algún sentido con la mancha del crimen. Se consideran tres proposiciones:
• H p , el sospechoso dejó la mancha del crimen;
• H d1 , un miembro al azar de la población dejó la mancha del crimen;
• H d 2 , un hermano del sospechoso dejó la mancha del crimen.
Evett (1992) trató sobre esta situación. Sean q0, q1 y q2 las probabilidades a
priori para cada una de estas tres proposiciones (q0 1 q1 1 q2 5 1). Asumimos
que Pr(E | H p ) = 1. Representamos a Pr(E | H d1 ) por φ1 y a Pr(E | H d 2 ) por
Más de dos proposiciones   519

φ2 . Además, H d , el complementario de H p , se asume que es la unión de H d1


y H d 2 . Entonces, usando el Teorema de Bayes (3.3) y la Ley de la Probabilidad
Total (1.10), se obtiene un resultado análogo al obtenido en (8.4):

Pr(E | H p )θ0
Pr(H p | E ) =
Pr(E | H p )θ0 + Pr(E | H d1 )θ1 + Pr(E | H d 2 )θ2
θ0
= ,
θ0 + φ1θ1 + φ2θ2

φ1 θ1 + φ2θ2
Pr(H d | E) =
θ0 + φ1θ1 + φ2θ2

y de ahí, la apuesta a posteriori a favor de H p es:

θ0
.
φ1θ1 + φ2θ2

Sea la población relevante de tamaño N y sea n el número de hermanos,


donde N >> n. Se asume que θ 0 = 1 / N, θ1 = ( N − n ) / N y θ2 = (n − 1) / N.
Las apuestas a posteriori a favor de H p son aproximadamente iguales a:

1
.
φ1 N + φ2 (n − 1)

Ejemplo 13.1 Consideremos una situación en la que se usaron dos lo-


cus aportando cada uno dos bandas que coinciden con el sospechoso (Evett,
1992). Cada una de las cuatro bandas posee una frecuencia de 0.01, así la
probabilidad ( φ1 ) de una coincidencia a partir de individuos tomados al azar
4
es (4 × 0.01 ) = 1 / 25000000. Si N = 100000, y no hay hermanos, por tanto n
= 0, entonces las apuestas a posteriori a favor de H p son 1 / (N φ1 ) = 250. Si
hay un hermano, entonces φ2 ≅ (1 / 4) 2 , n = 2 y las apuestas a posteriori son:

 1  1  
2
1
1/ +  = ≅ 15
 250  4   0.004 + 0.063

La existencia de un hermano ha reducido la apuesta a posteriori por un


factor por encima de 15, de 250 a 15.
520   Perfiles de ADN

Ejemplo 13.2 Balding (1997, 2000) aporta un enfoque más general


teniendo en cuenta que hay un hermano. La existencia de exactamen-
te un hermano entre los posibles culpables puede tener mayor peso que
el efecto de muchos hombres no emparentados para valores realistas de
probabilidades de coincidencia. Los posibles culpables son el acusado,
un hermano del acusado (nótese que el hermano puede, sin embargo, ha-
ber desaparecido, o que rehúse colaborar con los investigadores, o puede
que incluso se desconozca si el acusado tiene algún hermano) y 100 hom-
bres no emparentados. Sólo se dispone del perfil de ADN del acusado.
Consideramos que la probabilidad de coincidencia para el hermano es
1/100 y la probabilidad de coincidencia para otro hombre es 1/1000000.
Supongamos que la probabilidad Pr(I | H p ) de la evidencia sin ADN, que
denotamos como I, fuera la misma para todos los posibles culpables (102
individuos). Entonces:

Pr(H p | E, I) = 1 /{1 + 0.01 + (100 × 0.000001)}= 0.99

Así Pr( H d | E, I) = 0.01.


Si se ignora la existencia de un hermano, entonces:

Pr(H p | E, I) = 1 /{1 + (100 × 0.000001)}= 0.9999

y Pr( H d | E, I) = 0.0001. La consideración de la presencia de un hermano


produce un incremento de la probabilidad de la proposición de la defensa
por un factor de 100. Para más detalles, ver la Sección 13.9.
Las consecuencias son más drásticas si otros hermanos, primos u otros
parientes son miembros de la población relevante de culpables.
En algunos casos, puede ser plausible que la evidencia distinta al ADN
tenga aproximadamente el mismo peso para el acusado que para alguno
o todos sus hermanos. En este caso, se puede asumir que la probabilidad,
Pr(H p | E, I) , de que el acusado sea culpable es, al menos, 1/(1+nq), donde n
representa el número de hermanos y q representa la probabilidad de coin-
cidencia de los hermanos (Balding y Donnelly, 1995a).
Nótese que partiendo de tres proposiciones se han derivado apuestas
a posteriori a favor de una de las proposiciones. La determinación de un
LR bajo tales circunstancias se vio en la Sección 8.1.3. Se usa el LR para
comparar pares de proposiciones. Para combinar más de dos proposicio-
nes, éstas tienen que combinarse coherentemente para disponer sólo de
dos proposiciones para la comparación.
Búsqueda en bases de datos   521

13.8 Búsqueda en bases de datos

Cuando un experto científico tiene que valorar el peso de la evidencia


de ADN, la manera en la que se seleccionó al sospechoso resulta crucial.
La evaluación de la evidencia para la identificación de un sospechoso
procedente de una base de datos ha sido objeto de debate durante algún
tiempo (Thompson y Ford, 1989). Disponer de bases de datos de ADN
permitiría a las fuerzas policiales recoger muestras durante investigacio-
nes de crímenes aún no resueltos, así como muestras de presos, de tal
manera que la información acumulada pudiera usarse para seleccionar
sospechosos de manera similar al almacenamiento y colección de los ar-
chivos de huellas dactilares (ver, por ejemplo, Rise contra el Estado de
Oregón). Hay bases de datos en los 50 Estados de USA, en UK y en otros
países Europeos.
Puede haber confusión al interpretar el resultado de tal búsqueda por-
que la probabilidad de una coincidencia aumenta a medida que la base de
datos se hace más grande. Robertson y Vignaux (1995b) explican esta con-
fusión, afirmando:

Se sostiene frecuentemente que el valor evidencial de una coinciden-


cia, cuando un sospechoso es seleccionado a través de una búsqueda
en una base de datos, se ve afectado por el número de comparaciones
llevadas a cabo. Ciertamente, el aumento de la base de datos hace más
probable encontrar una coincidencia.

Esto conduce a la conclusión errónea de que a medida que crece la base


de datos, más débil es la evidencia. He aquí una razón para creer que el
valor evidencial de una coincidencia en esas circunstancias pudiera ser de
bajo o nulo valor evidencial: la evidencia es relevante si es más (o menos)
probable que exista si el acusado es culpable con respecto a si es inocente.
En algunas ocasiones, la coincidencia entre el sospechoso y el agresor exis-
te al ser el imputado culpable. Pero también se produce una coincidencia
entre el sospechoso y el criminal cuando se busca un candidato en una
base de datos bajo la hipótesis de que el sospechoso es inocente, porque el
sospechoso fue elegido por el mero hecho de que su perfil de ADN coinci-
día con el del criminal. Por tanto, el consecuente LR de 1 sugiere que esta
evidencia carece de valor probativo: la evidencia es tan probable si el sos-
pechoso es inocente como si es culpable (Thompson y Ford, 1989).
Ha sido ampliamente reconocido que podría ser falaz aplicar la fórmula
para apuestas de identidad a posteriori en casos de selección del sospe-
choso por la evidencia de una coincidencia en una base de datos sin admi-
522   Perfiles de ADN

tir que la probabilidad de coincidencia es necesariamente 1 en esos casos,


con independencia de la identidad o no del sospechoso con la del crimi-
nal (Fairley, 1975). La confusión surge porque no está claro si al científico
le interesa la probabilidad de encontrar una coincidencia o el incremento
que experimenta la probabilidad de que el acusado fuera el que dejó la tra-
za al descubrirse la coincidencia (Robertson y Vignaux, 1995b). Balding y
Donnelly (1995a, 1996), Dawid y Mortera (1996) y Evett y Weir (1998) han
proporcionado un análisis del segundo punto.
Estos análisis demostraron que el LR es más alto siguiendo una búsque-
da que en casos en los que el tamaño de la población de potenciales crimi-
nales fuere conocido y no se hubieren realizado búsquedas secuenciales.
De hecho, las personas que no hayan coincidido con el perfil de ADN de la
traza recuperada son excluidas. Por tanto, la exclusión de estos individuos
de los potenciales culpables incrementa la probabilidad de que el indivi-
duo que dio positivo esté involucrado. Aunque la búsqueda en una base de
datos es útil, ha de subrayarse que la fuerza de todo el caso contra el sos-
pechoso pudiera ser más débil que en el marco de causas probables, definido por
Balding y Donnelly (1996) como el marco en el que el sospechoso ha sido
identificado por otras razones y posteriormente se le ha sometido a un co-
tejo de perfil de ADN. Esto se debe a la falta de contundencia de la eviden-
cia; no se han obtenido ulteriores evidencias incriminatorias (Balding y
Donnelly, 1996; Donnelly y Friedman, 1999). Por tanto, el descubrimiento
de una coincidencia en una base de datos no significa necesariamente que
se haya encontrado al autor del crimen.
El hecho de que el LR sea mayor que el recíproco de la probabilidad
de coincidencia puede justificarse mediante los argumentos desarrollados
por Balding y Donnelly (1996) y Evett y Weir (1998).
Sea H p la proposición de que el sospechoso es la fuente del ADN encontra-
do en la escena del crimen, H d es la proposición de que el sospechoso no es la
fuente del ADN encontrado en la escena del crimen, y E es la evidencia de que
el perfil del ADN encontrado en la escena del crimen y el perfil del ADN del
sospechoso coinciden. Entonces el valor de la evidencia viene dado por:

Pr(E | H p )
V= .
Pr(E | H d )

Se ha hecho una búsqueda en una base de datos que contiene los perfi-
les de ADN de N individuos conocidos. Justamente uno de los perfiles de la
base de datos coincide con el ADN encontrado en la escena del crimen y, por
tanto, ese individuo se convierte en sospechoso. Nótese que V no depende
Búsqueda en bases de datos   523

de la probabilidad de que una búsqueda en la base de datos encuentre un


perfil coincidente. La evidencia no es que, al menos, un perfil (o exactamen-
te uno), de los individuos de la base de datos, coincida con el perfil de la
mancha encontrada en la escena del crimen. Cualquier otra información no
afecta al valor de la evidencia. Esa información será escuchada en el juicio
y será tenida en cuenta. Para evaluar el valor de la evidencia, incluyendo el
resultado de la búsqueda, llamemos O al suceso de que ningún otro indivi-
duo de la base de datos coincide con el perfil de la mancha del crimen. E se
puede separar en dos componentes, E c , el perfil de la mancha del crimen y
E s , el perfil del sospechoso. Entonces V se puede escribir como:

Pr(E c , E s , O | H p ) Pr(E c , E s | H p , O) Pr(O | H p )


V= = (13.9)
Pr(E c , E s , O | H d ) Pr(E c , E s | H d , O) Pr(O | H d )

En el conjunto de causas probables, el valor de la evidencia es:

Pr(E c , E s | H p , O)
Pr(E c , E s | H d , O)

que es la primera razón en (13.9).


Aquí lo que condiciona está extendido a la información O. El numera-
dor es igual a p, la frecuencia de perfil; el hecho de que hubiese una base de
datos de búsqueda no afecta a esta probabilidad. El denominador expresa
la probabilidad de que dos individuos escogidos al azar coincidan. La in-
formación O incrementa la confianza en la rareza de la probabilidad de
coincidencia. Así,

Pr(E c , E s | H p , O) p 1
= = .
Pr(E c , E s | H d , O) p2 p
Pr(O | H p )
Es necesario determinar si la segunda razón es menor o ma-
Pr(O | H d )
yor que 1. Consideramos O . Se trata del suceso de que, al menos, uno de
los otros individuos en la base de datos coincida con el perfil de la mancha
del crimen. Si H d es cierta, O puede suceder de dos formas. O bien uno de
los otros individuos es la fuente de la mancha, o bien ninguno es la fuente
pero, al menos, uno coincide por azar con E c . Si H p es verdadera, en-
tonces sólo la segunda de estas consideraciones es posible. De este modo,
Pr( O | H p ) < Pr( O | H d ). De ahí Pr(O | H p ) > Pr(O | H d ) y la segunda razón en
524   Perfiles de ADN

(13.9) es mayor que la unidad. Evett y Weir (1998) propusieron un desarro-


llo más extendido que incluye al poder de discriminación general del sis-
tema de perfiles para la valoración de la segunda razón. Su aproximación
también muestra que la segunda razón alcanza un valor mayor a la unidad.
Así, el valor de la evidencia cuando se hace una búsqueda en una base de
datos es mayor que cuando se aplica el marco de causas probables.
Balding y Donnelly (1996) y Evett y Weir (1998) argumentan que, aun-
que la diferencia en valor es difícil de cuantificar, en general, parece pro-
bable que el valor de la búsqueda en la base de datos será sólo ligeramente
mayor que la razón de verosimilitud simple y que es por tanto conveniente,
beneficiando al acusado, calcular y dar el valor simple.
El argumento de más arriba puede usarse para contraatacar la siguiente
estrategia de la defensa: ‘El perfil de ADN encontrado en la escena del crimen
existe en la población con una frecuencia de 1 entre un millón. La base de da-
tos policial contiene 10000 perfiles. La probabilidad de que, buscando en la
base de datos, se encuentre una coincidencia es 10000 × (1 / 1000000) = 1 / 100.
Esta cifra, en lugar de 1 entre un millón, es la probabilidad de coincidencia
relevante. Esto no es ni mucho menos lo suficientemente pequeño para con-
siderarlo evidencia convincente en contra del acusado.’ Desde este punto de
vista, el efecto de la búsqueda en una base de datos debilita, muy radical-
mente, la fuerza de la evidencia en contra del acusado.
El argumento además contradice la siguiente propuesta del informe NRC
(1996). Consideremos un perfil de un crimen con frecuencia p. Disponemos de
una base de datos con N individuos no emparentados. La probabilidad de que
el perfil de un individuo de la base de datos no coincida con el perfil del crimen
es 1 – p y, asumiendo independencia, la probabilidad de que todos los perfiles
de la base de datos no coincidan con el perfil del crimen es (1 − p) N . Por tanto,
la probabilidad de que, al menos, un perfil de la base de datos coincida con
el perfil de la escena del crimen, por puro azar, es 1 – (1 − p) N que, para p pe-
queñas tal y como ocurre con los perfiles de ADN, es aproximadamente igual
a Np, de ahí la cifra 1/100 en los párrafos previos. Este resultado nos ofrece
una regla sencilla para determinar la probabilidad de una coincidencia en una
búsqueda de una base de datos: hemos de tener en cuenta la probabilidad de
coincidencia p y multiplicarla por el tamaño N de la base de datos.
Esta regla simple está relacionada con la probabilidad de que haya, al
menos, una coincidencia en la base de datos. Un caso extremo puede ilus-
trar por qué la regla se aproxima a la respuesta para la que ha sido diseña-
da y por qué no es la respuesta correcta. Asumimos que p, la probabilidad
de coincidencia, es extremadamente pequeña y N extremadamente gran-
de, por lo que Np está próximo a 1. Se puede argumentar que la proba-
Búsqueda en bases de datos   525

bilidad de encontrar, al menos, una coincidencia, se incrementa cuando


se incrementa N, y puede incluso llegar a estar próxima a 1 cuando N es
aproximadamente la población mundial. Nótese que el resultado correcto
es 1 – (1 − p) N , que nunca será mayor que 1. La regla simple, Np, no podría
usarse si diera una respuesta mayor que 1. A medida que Np se hace gran-
de, se reduce el valor de la evidencia. Sin embargo, el contraargumento de
(Balding y Donnelly, 1996; Balding 1997) consiste en que la evidencia se
hace más fuerte a medida que N se hace más grande. Este último argumen-
to es el correcto. Tiene mayor sentido atribuir mayor valor al resultado de
una búsqueda en una base de datos grande en la que ha sido encontrada
sólo una coincidencia cuando el resto de los miembros de la base de da-
tos han sido descartados en la investigación. El sospechoso identificado
es ahora un miembro de una población global más pequeña (más pequeña
por la eliminación de N – 1 miembros).
Balding y Donnelly (1996) hacen un comentario interesante, a la luz de
posteriores tratamientos (Stockmarr, 1999; Dawid, 2001; Devlin, 2000; Evett
y otros, 2000c, d; Balding, 2002; Meester y Sjerps, 2003). Consideremos este
par de proposiciones alternativas: que la fuente de la mancha del crimen esté
no esté en la base de datos. La probabilidad de la evidencia de que se produz-
ca exactamente una coincidencia en la base de datos, dado que la fuente está
en ella, es 1. La probabilidad de la evidencia de que se produzca exactamen-
te una coincidencia en la base de datos, dado que la fuente no está en ella, es
Np (1 − p) N−1 . La razón de verosimilitud es entonces (asumiendo que (1 − p) N−1
es 1) 1 / Np, que es el valor dado por el NRC (1996). Este resultado asume
que cada uno de los individuos en la base de datos tiene, sin la evidencia de
ADN, la misma probabilidad de ser la fuente. Donnelly y Friedman (1999)
muestran que es posible que Np sea mayor que 1. Este resultado implicaría
que la evidencia favoreciera al acusado y sería posible si se tuviera un núme-
ro suficientemente grande de perfiles de personas. Así, podríamos encon-
trarnos en la bastante estrafalaria situación de que a medida que creciera el
número de personas con perfiles que no fueran coincidentes con el perfil de
la escena del crimen, mayor soporte se otorgaría a la defensa del acusado.
Balding (2002) explica con detalle el fallo en este argumento. Hace notar
que muchos estadísticos instintivamente creerían que una búsqueda en una
base de datos debilitaría la evidencia en contra del sospechoso porque se rea-
lizan múltiples comparaciones. Comenta que en una búsqueda en una base de
datos hay una ‘distinción crucial’, concretamente que se conoce, por adelan-
tado, que exactamente una proposición de la forma ‘X es culpable’ es cierta.
Consideremos dos escenarios. En el primero, hay evidencia de que una propo-
sición particular es cierta. Este sería el caso si no hubiera habido búsquedas
526   Perfiles de ADN

en una base de datos. En el segundo, hay evidencia de que una proposición


particular es cierta y que muchas otras proposiciones son falsas. Este sería el
caso si hubiera habido búsquedas en una base de datos. Situados en este caso,
la evidencia tras la búsqueda en una base de datos, no habiéndose encontrado
otras coincidencias, fortalece la causa en contra el acusado. Cuanto mayor sea
la búsqueda que resulte con una sola coincidencia, más razón existe para estar
convencidos de que la coincidencia observada es única en la población.

13.8.1 Búsqueda y efecto de la selección (error de contar dos veces


lo mismo)

Actualmente los científicos realizan búsquedas en bases de datos en


otras áreas de las ciencias forenses tales como las huellas de calzado y las
huellas dactilares. Como antes, resulta interesante saber si el hecho de en-
contrar la huella como resultado de una búsqueda en una base de datos, de
alguna manera debilita la evidencia de la comparación con el calzado, por
ejemplo. Pero esto no es el caso (Evett y otros, 1998a). La razón de verosi-
militud resume toda la evidencia que se deriva de la comparación. El he-
cho de que la huella (del calzado) fuese encontrada a partir de la búsqueda
en una base de datos es relevante para la formulación de la apuesta a priori
a favor de la proposición de que el sospechoso sea el delincuente en ese
caso. Si no hubiera más evidencias que el lugar donde ocurrió el incidente
y la detención, entonces la apuesta a priori sería pequeña, si bien en este
caso presumiblemente se incrementaría por la evidencia de que fue encon-
trada en la casa del sospechoso (Evett y otros, 1998a). Cada evidencia debe
tenerse en cuenta sólo una vez en cada caso en cuestión, de lo contrario
su efecto se duplicaría injustificadamente. Sin embargo, esto no significa
que una vez que una evidencia haya sido utilizada por quien deba tomar
una decisión para un fin determinado, no pueda utilizarse por quien deba
decidir sobre otro asunto. Así, el hecho de que la policía haya usado una
evidencia para identificar a un sospechoso no significa que el Tribunal no
pueda usarla para determinar su culpabilidad. Por supuesto, el Tribunal no
debe usar el hecho de que el defendido esté en el banquillo de los acusados
como evidencia de culpabilidad y luego tener en cuenta la evidencia pro-
ducida, puesto que de hacerlo así se contaría doblemente la evidencia que
condujo al arresto, lo cual también es utilizado por el Tribunal.
El siguiente ejemplo fue presentado por Robertson y Vignaux (1995a). Un
hombre quizá pudiera ser detenido en la calle por llevar una camiseta con
manchas de sangre y nos preguntamos por el valor que puede tener esta cir-
El problema de la isla   527

cunstancia. Pudiera pensarse que debido a que ésta fue la razón para selec-
cionar al sospechoso, el valor de la evidencia debería modificarse; es menos
útil que si el sospechoso hubiese sido arrestado por otra evidencia. Esto no
es correcto. El poder de la evidencia está todavía determinado por la razón
de dos probabilidades: que el acusado llevase una mancha de sangre en la
camisa siendo culpable o siendo inocente. Lo que sucede exactamente en
el ejemplo es que hay menos evidencia en un caso que en el otro. Cuando se
para al sospechoso por tener una mancha de sangre en la camisa puede que
no haya otra evidencia. Cuando el sospechoso es detenido sobre la base de
otra evidencia y luego se advirtió de que tenía una mancha de sangre en su
camisa, el LR para la camisa con la mancha de sangre se combina con un a
priori que ya tiene en cuenta otra evidencia. El valor de una parte de la evi-
dencia no debe confundirse con el valor de toda la evidencia.

13.9 El problema de la isla

Pensemos en una isla con N+2 personas, una de las cuales ha sido asesi-
nada. De las restantes N+1 personas, N son inocentes y la otra es el asesino.
Las etiquetamos desde 0 hasta N. Hay una evidencia de traza (por ejemplo,
una frecuencia de perfil de ADN) que vincula al asesino con el crimen. La
frecuencia de esta evidencia en la población relevante es . El valor de la
evidencia es entonces:

1 /(1 + Nγ )
(Sección 3.5.6).
Los argumentos de esta sección están basados en los expuestos
por Balding y Donnelly (1995b) y Balding (2000). Balding y Donnelly
(1995b) tratan de cuestiones que van más allá del alcance de este libro.
Otros artículos relevantes son los de Balding (1995) y Dawid y Mortera
(1996). Sin embargo, podemos abordar algunos argumentos iniciales
seguidamente porque arrojan luz sobre las ideas subyacentes en las in-
ferencias para la identificación forense. Hay que considerar dos propo-
siciones:
• H p , el sospechoso es el criminal;
• H d , el sospechoso no es el criminal.
La información de contexto se representa mediante I, y ésta se asume in-
dependiente de la evidencia. Si H d es cierta, uno de los otros miembros de la
población de la isla es el criminal. Sea C la variable aleatoria que representa
528   Perfiles de ADN

al criminal, y s la identidad del sospechoso (s vale 0,1,...,N). La expresión C = s


representa que el sospechoso es el criminal. La expresión C = x representa que
el individuo x es el criminal.
La evidencia, E, supone que se conoce el perfil de ADN que tiene el cri-
minal y que ha sido detenido un sospechoso s, se ha observado su perfil de
ADN y se ha visto que coinciden. La proposición H d es que el criminal no
es el sospechoso; esto se puede representar mediante C ≠ s.
La probabilidad de culpabilidad, dado que C = s y que el criminal y el
sospechoso tienen ambos el perfil, y asumiendo independencia entre E e I,
se puede escribir de la forma:

Pr(C = s | E, I)
Pr(E | C = s) Pr(C = s | I)
= (13.10)
Pr(E | C = s) Pr(C = s | I) + ∑x ≠s Pr(E | C = x ) Pr(C = x | I)

Sea Vs ( x ) el LR para x contra s,

Pr(E | C = x )
Vs ( x ) = .
Pr(E | C = s)
La notación con s como un subíndice indica la asimetría del contexto en
que la evidencia está siendo considerada con relación a las proposiciones
H p y H d , es decir que s sea o no el criminal. Sea w s ( x ) la razón siguiente:

Pr(C = x | I)
w s (x) = .
Pr(C = s | I)

Esta razón no es ni un valor evidencial, puesto que I está condicionando,


ni una apuesta, puesto que las proposiciones C = s y C = x no son comple-
mentarias. Balding (2000) trata sobre el interés que tiene considerar las rela-
ciones entre diferentes situaciones y los valores de w s ( x ) . Si el razonamien-
to contra s se apoya principalmente en la evidencia de ADN, puede ocurrir
que haya muchos x para los que w s ( x ) ≈ 1. Para la mayoría de los crímenes
sexuales o violentos w s ( x ) ≈ 0 cuando x se refiere a mujeres, niños y disca-
pacitados. Si hay una coartada sólida o la víctima no ha sido capaz de identi-
ficar a s, entonces w s ( x ) > 1. Con esta notación, (13.10) puede escribirse:

1
Pr(C = s | E, I) =
1 + ∑x ≠s Vs ( x ) w s ( x )
Mezclas   529

un resultado que se ha presentado ya en (8.13) con diferente notación. En


la Sección 13.7 se dio un ejemplo de este resultado.
Particionando la evidencia E en E c , el perfil de la escena del crimen, y
E s , el perfil del sospechoso, con el conocimiento adicional de que E c = E s ;
entonces:
Pr(E c = E s | C = x )
Vs ( x ) = .
Pr(E c = E s | C = s)

Podríamos llamar a esto probabilidad de coincidencia aleatoria bajo


cuatro asunciones:
• la muestra de ADN del crimen es del agresor;
• las coincidencias son inequívocas;
• si el acusado fuese el agresor entonces los perfiles de ADN de las
muestras del acusado y del criminal serían coincidentes; y
• el hecho de que el perfil de ADN del acusado fuese investigado no
es, en sí mismo, informativo sobre el perfil.
(Balding y Nichols, 1995). Balding y Nichols explican también por qué
es inapropiado ignorar el condicionamiento sobre el perfil observado y to-
mar la probabilidad de coincidencia como equivalente a la frecuencia rele-
vante del perfil del acusado.
• Una coincidencia involucra a dos perfiles, no a uno; no hay una es-
tructura lógica para la conexión de frecuencias de perfil con la cul-
pabilidad o inocencia del acusado.
• Se ha de tener en cuenta la posibilidad de que el agresor esté empa-
rentado con el acusado.
• No hay una estructura lógica para la combinación de evidencias de
ADN, cuantificadas por una frecuencia de perfil, con otras eviden-
cias distintas a las de ADN.

13.10 Mezclas

Una muestra mixta en este contexto es una mancha (traza) que contie-
ne una mezcla de material genético de más de una persona (Weir, 1995).
Sobre este particular, Weir y otros (1997) propusieron las fórmulas para
muestras mixtas basadas en el trabajo de Evett y otros (1991). Las fórmulas
asumen independencia de todos los alelos en la mezcla. Esta asunción im-
plica el equilibrio de Hardy-Weinberg y el equilibrio de enlace, además de
independencia entre los individuos. Por tanto, se ignoró el nivel de depen-
dencia entre los individuos dentro de la misma población ( FST = 0, Sección
530   Perfiles de ADN

13.6). Tratamientos más recientes del problema de las mezclas consideran el


efecto de la estructura de la población y desarrollan enfoques que tratan con
situaciones donde los donantes de la mezcla de ADN proceden de diferentes
grupos étnicos y haya distintos números de donantes (conocidos y desco-
nocidos). Harbison y Buckleton (1998), Buckleton y otros (1998), Curran y
otros (1999b), Fukshansky y Baer (1999), Triggs y otros (2000), Fung y Hu
(2000b, 2002) y Hu y Fung (2003) aportan ejemplos de ello.
Fukshansky y Baer (2000) propusieron un ulterior desarrollo en casos don-
de exista un sospechoso no disponible para la realización de pruebas pero sea
una persona conocida, dándose la circunstancia de que sus parientes sí están
disponibles para poderles realizar las correspondientes pruebas genéticas.
Además, Evett y otros, 1998b; Gill y otros, 1998a, b y Clayton y otros, 1998;
Gill, 2001 han considerado también el valor de la información extra ofrecida
por el área máxima resultante del análisis de electroforesis. Han podido resol-
verse algunas limitaciones en la evaluación de las fórmulas propuestas para
evaluar perfiles de ADN con más de un donante. Por ejemplo, no es necesa-
rio que todas las personas desconocidas deban ser del mismo grupo étnico o
que no deba existir relación entre las personas no sometidas a pruebas (des-
conocidas) sujetas al análisis estadístico de la mancha o entre las personas
desconocidos y las personas analizadas, sin tenerse en cuenta si las personas
analizadas han contribuido a la mancha o no. Liao y otros (2002) han descrito
una extensión de estas ideas aplicadas a casos de paternidad.
Como un ejemplo sencillo, Evett y Weir (1998) muestran cómo el valor
evidencial del perfil de ADN puede reducirse substancialmente cuando cla-
ramente haya más de un donante. Asumimos que la evidencia proviene de
una violación cometida por un individuo. La mezcla obtenida tras el lava-
do vaginal tiene un perfil con alelos abc. La víctima tiene alelos ab y el sos-
pechoso tiene el alelo c. La proposición de la fiscalía H p consiste en que los
donantes de la mezcla fueron la víctima y el sospechoso. La proposición de
la defensa H d consiste en que los donantes de la mancha fueron la víctima
y una persona desconocida. Si H p es cierta, el numerador del LR es igual a
1 porque el perfil de la mezcla es exactamente como se esperaba bajo esta
situación. Si H d es cierta, el donante de parte de la mezcla (si no es el sos-
pechoso) podría ser un individuo con un perfil ac, bc o cc. El denominador
del LR viene dado por el producto de las probabilidades de perfil de todos
estos potenciales donantes. El LR es entonces:

1
V= .
2p a p c + 2p b p c + p c2
Mezclas   531

La presencia de los alelos de la víctima (ab) ha debilitado el valor de la


evidencia en contra del sospechoso porque incrementa el número de po-
tenciales donantes de la muestra mezclada.
Ya se destacó (Sección 13.5) que la probabilidad de perfil generalmen-
te no representa la estimación correcta de la probabilidad condicional en
el denominador del LR. Los científicos están interesados, por ejemplo, en
Pr(agresor = A i A j | sospechoso = A i A j ) , no en Pr(delincuente = A i A j ) . El
denominador del ejemplo previo se debería reescribir de la forma:

Pr(A a A c | A c A c ) + Pr(A b A c | A c A c ) + Pr(A c A c | A c A c )

donde el primer término de cada probabilidad condicional hace referencia


al perfil de ADN del agresor (el donante real de la muestra mezclada), y el
segundo al perfil del sospechoso. Por tanto, un LR de:

1
Pr(A a A c | A c A c ) + Pr(A b A c | A c A c ) + Pr(A c A c | A c A c )

puede escribirse como:

Pr(A c A c )
. (13.11)
Pr(A a A c , A c A c ) + Pr(A b A c , A c A c ) + Pr(A c A c , A c A c )

Si hay x alelos de tipo a en un total de n alelos muestreados a partir de


una subpoblación, entonces la probabilidad de que el próximo alelo mues-
treado sea de tipo a es:

xFST + (1 − FST )p a
1 + (n − 1) FST

donde FST representa el coeficiente de consanguinidad (coancestry coefficient)


(ver Sección 13.5). La observación de un alelo a en la subpoblación hace
que probablemente a sea más común en la subpoblación que en la pobla-
ción general. El LR, V es:
(1 + FST )(1 + 2FST )
V= (13.12)
[2FST + (1 − FST )pc]{2(1 − FST )(pa + pb ) + [3FST + (1 − FST )pc]}
(Harbison y Buckleton, 1998). En Hu y Fung (2002 y 2003) se trata sobre
el caso en el que tenemos el mismo escenario, pero con información adi-
cional consistente en que los donantes de la mezcla de ADN pertenecen a
diferentes grupos étnicos, y algunos resultados aparecen en la Tabla 13.7.
532   Perfiles de ADN

Tabla 13.7 LR para tres alelos de la mezcla muestreada, la víctima es heterocigoto y


el sospechoso homocigoto. La víctima tiene los alelos a y b; el sospechoso
tiene el alelo c. Se han considerado tres grupos étnicos, etiquetados me-
diante 1, 2 y 3. El coeficiente de consanguinidad FST para el grupo étnico,
1, del donante desconocido se etiqueta como θ1 para mayor claridad. Las
frecuencias alélicas son p a1 , p b1 y p c1 en el grupo étnico 1. Se tienen en
cuenta etnias del donante desconocido, de la víctima y del sospechoso. De
Fung y Hu (2002). (Reproducido con permiso de Springer – Verlag).

Caso Desconocido Víctima Sospechoso LR


( 1 + 3θ 1 ) ( 1 + 4θ 1 )
(a) 1 1 1 ---------------------------------------------------------------------------------------------------------------------------------------
-
[ 2θ 1 + ( 1 + θ 1 )p c1 ] [ 7θ 1 + ( 1 – θ 1 ) ( p c1 + 2p a1 + p b1 ) ]
( 1 + θ 1 ) ( 1 + 2θ 1 )
(b) 1 1 2 ------------------------------------------------------------------------------------------------------------------
-
( 1 – θ 1 )p c1 [ 5θ 1 + ( 1 – θ 1 ) ( p c1 + 2p a1 + p b1 ) ]
( 1 + θ 1 ) ( 1 + 2θ 1 )
(c) 1 2 1 ---------------------------------------------------------------------------------------------------------------------------------------
[ 2θ 1 + ( 1 – θ 1 )p c1 ] [ 3θ 1 + ( 1 – θ 1 ) ( p c1 + 2p a1 + p b1 ) ]
1
-------------------------------------------------------------------------------------------
-
(d) 1 3 3 p c1 [ θ 1 + ( 1 – θ 1 ) ( p c1 + 2p a1 + p b1 ) ]

Por ejemplo, Buckleton y otros (1998) mencionan que en la Tribunal


Superior del Estado de California para el Condado de Los Ángeles (caso nú-
mero BA097211) el sospechoso fue un afroamericano, las víctimas eran cau-
cásicas americanas y los verdaderos agresores, si hubiera más de uno, podrían
haber sido de cualquier grupo étnico (Weir, 1995). La situación (c) en la Tabla
13.7 se corresponde con un desarrollo previo llevado a cabo por Harbison y
Buckleton (1998) para un grupo étnico (13.12). En Fung y Hu (2002) se pre-
sentan también escenarios con mezclas de tres y cuatro alelos y proposiciones
que involucran a más de un donante desconocido repartidos en dos subpo-
blaciones diferentes. Los cálculos se realizan con donantes indistinguibles.
Algunas veces los mayores y menores donantes de una mancha mixta pueden
deducirse considerando áreas máximas (intensificadas) de los alelos, y puede
que sea posible determinar qué alelos provienen del mismo donante. Si fuera
así, el número de posibles donantes podría reducirse y el problema se simpli-
ficaría. Análogamente, Curran y otros (1999b) propusieron una enfoque flexi-
ble para el mismo problema permitiendo la evaluación de diferentes manchas
con perfiles de ADN mezclados. Todos estos tratamientos se realizaron asu-
miendo que había un número específico de donantes desconocidos.
Una solución a este problema podría alcanzarse mediante el cálculo del LR
bajo rangos plausibles de números de donantes. El científico podría entonces
dar un informe con resultados más conservadores (Curran y otros, 1999b).
Poniendo como ejemplo un caso real (Corte Suprema del Estado de California
Tasa de error   533

para el Condado de los Ángeles, caso número BA097211; mezcla de tres ale-
los con una víctima homocigótica y un sospechoso heterocigoto), Buckleton y
otros, (1998) variaron el número de donantes desconocidos, r, de 2 a 10 para
determinar el rango de valores del LR, sugiriendo que r podría no ser creíble si
excediera de 10, por lo que la máxima reducción del LR es un factor de 4 con
respecto a los dos valores extremos. Lauritzen y Mortera (2002) han propues-
to recientemente un enfoque alternativo para resolver el mismo problema.

13.11 Tasa de error

Es importante tener en cuenta el papel de las tasas de error en la eva-


luación de los perfiles de ADN. Gaudette (1986, 1999) menciona que, en
general, los científicos forenses necesitan considerar que pueden tener
errores en la evaluación de la evidencia. Meier y Zabell (1980) mencionan
la posibilidad de sucesos ‘atroces’, con probabilidades muy pequeñas, en
conexión con un documento falsificado (Sección 7.3.6) en un contexto de
valoración de la evidencia de escritura manuscrita.
Cuando evaluamos la fuerza de la evidencia de ADN para demostrar que
dos muestras tienen una fuente común, se deben considerar dos factores.
El primero es la probabilidad de coincidencia aleatoria. Un cotejo positivo
ocurre cuando dos personas distintas poseen el mismo perfil de ADN. El se-
gundo factor es la probabilidad de un falso positivo. Un falso positivo ocurre
cuando un laboratorio erróneamente informa de una coincidencia de ADN
entre dos muestras que realmente tienen diferentes perfiles. Un falso positi-
vo puede deberse a un error en la recogida o en la manipulación de las mues-
tras, una errónea interpretación de los resultados del test, o por una forma
incorrecta de presentar los resultados del test (Thompson, 1995). Un cotejo
positivo o un falso positivo son eventos en los que el laboratorio emite un in-
forme sobre la coincidencia de ADN entre muestras de diferentes personas.
Así tanto la probabilidad de coincidencia aleatoria como la probabilidad de
falso positivo deberían ser tenidas en cuenta para llevar a cabo una represen-
tativa evaluación de la evidencia de ADN. La tasa de error del laboratorio,
determinada como tal, por ejemplo, en los test interlaboratorios, no equivale
necesariamente a la probabilidad de un falso positivo en un caso particular.
Las circunstancias únicas de cada caso pueden dar lugar a varios tipos de
error más o menos probables distintos de la tasa de error conjeturada. Sin
embargo, los datos de las tasas de varios tipos de errores en los test interla-
boratorio pueden aportar información sobre el probable rango de valores en
un caso particular (Thompson, 1997; Koehler, 1997b). Cuando se presenta
534   Perfiles de ADN

ante el Tribunal una evidencia de ADN, al Jurado normalmente se le informa


sobre la probabilidad de que se haya producido una coincidencia unívoca.
(Kaye y Sensabaugh, 2000). Una segunda dificultad práctica es la presenta-
ción de una estructura lógica que tenga en cuenta tanto la probabilidad de
coincidencia como la tasa de error. (Robertson y Vignaux, 1995a; Balding y
Donnelly, 1995a; Balding, 2000) hacen diversas sugerencias. Por ejemplo:
• Para alcanzar una condena satisfactoria basada principalmente en
la evidencia de ADN, el Fiscal necesita persuadir al Jurado de que
las probabilidades de errores relevantes son pequeñas.
• Si la probabilidad de un error, de tal forma que el perfil de ADN de
una persona x sea distinto al de s y la observación de coincidencia
de perfiles sea debida a un error en uno o en ambos perfiles re-
gistrados, es mucho mayor que la probabilidad de coincidencia de
perfil entre x y s, entonces la última probabilidad es efectivamente
irrelevante para el peso de la evidencia. Probabilidades de coinci-
dencia extremadamente pequeñas pueden, por tanto, ser engañosas
a menos que las probabilidades de errores relevantes sean también
extremadamente pequeñas.
• Lo que interesa no son las probabilidades de cualquier perfil o el
control de errores sino sólo las probabilidades de los errores que
pudieran conducir a la coincidencia del perfil de ADN observado.
En Thompson y otros, (2003) se presenta una estructura alternativa para
la consideración del papel que el error puede jugar en la determinación del
valor de la evidencia forense de ADN en un caso particular. Incluso una
probabilidad pequeña de falso positivo puede, en algunas circunstancias,
ser muy significativa a la hora de dar las estimaciones. Pueden ser crucia-
les para la valoración del valor de la evidencia de ADN los cálculos exactos
de las probabilidades de falso positivo.
Consideremos dos proposiciones:
• H p , la mancha de la escena del crimen procedió de un sospechoso;
• H d , la mancha de la escena del crimen no procedió de un sospechoso.
La evidencia E consiste en un informe de coincidencia de ADN entre el
perfil del sospechoso y el perfil de la muestra. (Ver Capítulo 14 sobre los in-
formes de coincidencias). La probabilidad de una coincidencia aleatoria y
la probabilidad de un falso positivo contribuyen a Pr(E | H d ). M representa
una coincidencia verdadera. Se asume que o tanto el sospechoso como la
mancha encontrada en la escena del crimen tienen perfiles de ADN coinci-
dentes (M) o el sospechoso y la mancha encontrada en la escena del crimen
no tienen perfiles de ADN coincidentes ( M ). A partir de la ley de la proba-
bilidad total (1.10):
Tasa de error   535

Pr(E | H p ) = Pr(E | M, H p ) Pr(M | H p ) + Pr(E | M, H p ) Pr(M | H p )

Pr(E | H d ) = Pr(E | M, H d ) Pr(M | H d ) + Pr(E | M, H d ) Pr(M | H d )

El valor de la evidencia es entonces:

Pr(E | H p ) Pr(E | M, H p ) Pr(M | H p ) + Pr(E | M, H p ) Pr(M | H p )


= .
Pr(E | H d ) Pr(E | M,H d ) Pr(M | H d ) + Pr(E | M, H d ) Pr(M | H d )
Asumamos que Pr(E | M) sea independiente de H p y H d ; es decir, se
informará de la probabilidad de una coincidencia si verdaderamente es
una coincidencia y no es una coincidencia casual. Consecuentemente,
Pr(E | M, H p ) = Pr(E | M, H d ) = Pr(E | M).
Los perfiles de ADN del sospechoso y de la escena del crimen coincidirán
necesariamente si el sospechoso es la fuente de la mancha, así Pr(M | H p ) =
1 y Pr( M | H p ) = 0. Finalmente, como M puede plantearse únicamente bajo
H d , Pr(E | M, H p ) puede simplificarse a Pr(E | M ). Así el LR es:

Pr(E | H p ) Pr(E | M )
= .
Pr(E | H d ) Pr(E | M) Pr(M | H d ) + Pr(E | M) Pr(M | H d )
En esta versión del LR, el término Pr(E | M) es la probabilidad de que el
laboratorio informe de una coincidencia si el sospechoso y la mancha de la
escena del crimen tienen perfiles de ADN coincidentes, y se asume que es 1.
El término Pr(M | H d ) es la probabilidad de una coincidencia por casuali-
dad. Para una comparación entre muestras de una única fuente, Pr(M | H d )
es la probabilidad de coincidencia aleatoria, representada por γ, y Pr( M | H d )
es el complementario de la probabilidad de coincidencia aleatoria. El térmi-
no Pr(E | M ) es la probabilidad de falso positivo, representada por ε. Así:
Pr(E | H p ) 1
= .
Pr(E | H d ) γ + {ε(1 − γ )}
En la Tabla 13.8 se muestra la influencia de las variaciones en γ, ε y las
apuestas a priori a favor de H p en las apuestas a posteriori de que el sospe-
choso fue la fuente de la mancha encontrada en la escena del crimen.
Las apuestas a priori presentadas en la Tabla 13.8 se corresponden con
dos tipos de casos distintos que varían en la fuerza en la que el sospechoso
536   Perfiles de ADN

está implicado como fuente de otras evidencias diferentes a la de coinci-


dencia de ADN. La apuesta a priori de 2:1 describe un caso en el que la otra
evidencia es bastante fuerte pero no lo suficiente, por sí misma, para con-
denar al sospechoso. Se ha informado de que las pruebas de ADN condu-
cen a la exclusión de aproximadamente un tercio de sospechosos en casos
de agresión sexual. Por lo tanto, las apuestas a priori de 2:1 pueden descri-
bir un caso típico de agresión sexual sometido a pruebas de ADN.

Tabla 13.8 Apuestas a posteriori de que un sospechoso sea la fuente de una muestra


según los informes de coincidencia de perfil de ADN, como una función
de apuestas a priori, probabilidad de coincidencia aleatoria, y probabili-
dad de falso positivo. Extraído de Thompson y otros (2003). (Reimpreso
con permiso de ASTM international).

Apuesta a Priori Probabilidad de Probabilidad de Apuesta a


Coincidencia Aleatoria Falso Positivo Posteriori

2:1 10 −9 0 2000000000
−9
2:1 10 0.0001 20000
2:1 10 −6 0 2000000
2:1 10 −6 0.0001 19802
−9
1:1000 10 0 1000000
1:1000 10 −9 0.0001 10
−6
1:1000 10 0 1000
−6
1:1000 10 0.0001 9.9

Una apuesta a priori de 1:1000 describe un caso en el que no hay prác-


ticamente evidencia aparte de la coincidencia de ADN. Las probabilidades
de coincidencia aleatoria presentadas se han elegido para representar dos
valores cuyo planteamiento es plausible en casos actuales. Se dan infor-
mes a menudo con probabilidades de coincidencia aleatoria del orden de
1 entre 1.000 millones cuando los laboratorios son capaces de hacer co-
incidir dos muestras como de una sola fuente sobre diez o más STR loci.
Probabilidades de coincidencia aleatoria cercanas a 1 entre 1 millón son
comunes cuando se han examinado menos loci, cuando el laboratorio pue-
de obtener sólo un perfil parcial de una de las muestras. La probabilidad
de un falso positivo en cualquier caso particular, dependerá de una varie-
dad de factores. Hace algunos años (Koehler, 1995) sugirió que, en general,
Tasa de error   537

la tasa de falsos positivos estaba entre 1 a 100 y 1 a 1000. Por supuesto, en


aquellos casos en los que se hayan llevado a cabo actuaciones especiales,
como repetición de las pruebas, para reducir la posibilidad de error, la pro-
babilidad de falso positivo se reducirá. Si dos tests independientes com-
paran las mismas muestras y tienen una probabilidad de falso positivo de
1 entre 100, entonces la probabilidad de un falso positivo con ambos tests
sería de 1 entre 10000. Una probabilidad de falso positivo de cero se inclu-
ye también con fines comparativos. En Thompson y otros (2003) hay más
resultados disponibles. Finalmente, puede demostrarse que la probabili-
dad de un falso negativo no es relevante, al menos en una primera aproxi-
mación, para la probabilidad de culpabilidad (Balding, 2000).
Capítulo 14
Redes bayesianas Redes bayesianas

14.1 Introducción

Se han propuesto métodos de razonamiento formal para ayudar a los


expertos forenses y a los juristas a comprender todas las dependencias
que puedan existir entre diferentes aspectos de la evidencia y abordar el
análisis formal de una toma de decisión. Uno de los más destacados es la
aproximación diagramática que utiliza métodos probabilísticos gráficos,
tales como las redes bayesianas (BNs), también llamadas redes de Bayes.
Estas redes se han manifestado como una valiosa ayuda para la represen-
tación de relaciones entre características de interés en situaciones de in-
certidumbre, imprevisibilidad o imprecisión.
La utilización de modelos gráficos para representar asuntos jurídicos
no es nueva. Los métodos gráficos de Wigmore (1937) pueden considerarse
como los predecesores de los modernos métodos gráficos como las BNs. En
Robertson y Vignaux (1993c), Schum (1994) y Anderson y Twining (1998)
se pueden encontrar ejemplos del uso de gráficos que fueron desarrollados
para proporcionar soporte formal para llegar a obtener conclusiones basa-
das en numerosas evidencias.
El uso de tales redes probabilísticas ha alcanzado notoriedad con el
análisis de complejos y famosos casos tales como el caso Collins (Edwards,
1991; consultar también la Sección 4.4) y el caso Sacco-Vanzetti (Kadane
y Schum, 1996) con especial énfasis sobre la credibilidad y relevancia de
la evidencia testifical. Más recientemente, los casos Omar Raddad (Levitt
y Blackmond Laskey, 2001) y el juicio a O.J. Simpson (Thagard, 2003) han
sido también analizados mediante modelos gráficos.
Los modelos gráficos utilizados en la valoración de la evidencia cien-
tífica se describen aquí con particular referencia al papel de la evidencia
desaparecida, tasas de error (falsos positivos), evidencia de transferencia,
combinación de evidencias, y evidencia de transferencia cruzada. Se abor-
darán temas relacionados con la determinación de los factores (nodos),
asociaciones (enlaces) y probabilidades.
540   Redes bayesianas

También se puede realizar una prevaloración a través de los BNs. Se pre-


senta un ejemplo de fibras como evidencia de transferencia. Los aspectos
que se desarrollan aquí mediante el uso de métodos gráficos se han tratado
previamente en la Sección 7.2.1 y en el Capítulo 12.

14.2 Redes Bayesianas

En (Cowell y otros, 1999) se dice que ha empezado a emerger un conjun-


to temático en torno a problemas estructurados mediante redes de creen-
cia. Las redes bayesianas son un formalismo con multitud de aplicaciones
para una representación compacta de relaciones inciertas entre paráme-
tros en un dominio (en este caso, la ciencia forense).
Estos modelos probabilísticos gráficos combinan la teoría de la proba-
bilidad con la de grafos. Proporcionan una herramienta natural para abor-
dar dos de los problemas que afrontan las matemáticas y la ingeniería apli-
cadas (Jordan, 1999) como son la incertidumbre y la complejidad.
La combinación de las partes más simples es fundamental para la idea
de un modelo gráfico. La teoría de la probabilidad proporciona el modo de
poder combinar las partes, asegurando la coherencia del sistema como un
todo y que se puedan realizar inferencias. La tarea de especificar las ecua-
ciones relevantes puede hacerse invisible al usuario y el cálculo aritmético
puede casi completamente automatizarse. Y lo que es más importante, la
difícil tarea intelectual de organizar y combinar conjuntos complejos de
evidencias para resaltar sus dependencias e independencias puede reali-
zarse de modo visual e intuitivo.
Las redes bayesianas son un método para descubrir patrones válidos,
novedosos y potencialmente útiles en datos, tratándose la incertidumbre de
una manera matemáticamente rigurosa y, al mismo tiempo, de forma sim-
ple y lógica. Una BN es una colección de nodos que representan variables
en estado incierto, unidos por flechas (también llamadas arcos o aristas)
que representan relaciones evidenciales o causales. A los efectos de lo que
aquí se trata, cada variable tiene un número finito de estados mutuamente
excluyentes. Se pueden utilizar con variables continuas pero no las vamos
a considerar en este capítulo. Una BN representa relaciones entre sucesos
inciertos mediante nodos y flechas. Éstos se combinan para formar lo que
se denomina un grafo dirigido acíclico (DAG), es decir, un grafo en el que
no se permiten bucles ni flechas de doble dirección.
Si un nodo A no recibe flecha alguna recibe el nombre de nodo fuente o
padre, y será necesaria una tabla de probabilidades no condicionales Pr(A).
Redes bayesianas   541

Por otra parte, si A recibe flechas de otras variables B1, …, Bn, entonces A
es un nodo hijo, y las variables B1, …, Bn son los nodos padres. La tabla de
probabilidades asociada al nodo A contendrá probabilidades del nodo con-
dicionales Pr(A | B1, …, Bn).
La combinación de nodos y flechas constituyen caminos a través de la
red. Por consiguiente, una red puede considerarse como una representación
gráfica compacta de una evolución de todas las posibles historias relaciona-
das con un escenario. Las BNs han acaparado la atención fundamentalmen-
te porque son fáciles de desarrollar. Existen varias publicaciones con ejem-
plos del uso de las BNs en la ciencia forense (Aitken y Gammermann, 1989;
Dawid y Evett, 1997; Dawid y otros, 2002; Evett y otros, 2002; Garbolino y
Taroni, 2002; Aitken y otros, 2003; y Mortera y otros, 2003).
En resumen, la utilización de BNs tiene algunas ventajas clave que po-
drían describirse de la siguiente manera:
• la capacidad para estructurar los procesos de inferencia, permitien-
do afrontar los problemas de una forma lógica y secuencial;
• la necesidad de evaluar todas las historias posibles;
• la comunicación de los procesos involucrados en problemas de in-
ferencia con otros de una forma sucinta, ilustrando sobre lo que se
asume como cierto en cada nodo;
• la capacidad de centrar la discusión sobre probabilidad y las asun-
ciones subyacentes.

14.2.1 La construcción de redes bayesianas

Cuando se construyen BNs es importante darse cuenta de que no se trata de


representar el flujo de la información sino una representación directa de una par-
te del mundo real (Jensen, 2001). Esto quiere decir que, a través del uso de una
BN, un experto puede expresar su visión subjetiva de un sistema del mundo real
tanto gráfica como numéricamente. Por consiguiente, el modelo obtenido como
consecuencia del proceso de modelización estará principalmente influenciado
por las propiedades y el punto de vista individual del experto, por la percepción y,
en último término, por la extensión de la conversación, del dominio objeto de in-
terés. El problema está bien planteado en (Dawid y otros, 2002), donde los auto-
res argumentan que encontrar una representación apropiada del caso bajo exa-
men es crucial por diversas razones (viabilidad, tiempo computacional, etc…), y
que la construcción gráfica es, de alguna manera, algo artística, si bien podemos
guiarnos por consideraciones científicas y lógicas. La búsqueda de las adecuadas
representaciones para problemas específicos, por tanto, es una importante tarea
investigadora en esta área, y fue afrontada por Taroni y otros, (2004).
542   Redes bayesianas

Teniendo en cuenta esto, la cuestión sobre la adecuación de la BN con


respecto al contexto en el que se aplica es algo que debe siempre conside-
rarse. Por ejemplo, puede haber situaciones en las que el conocimiento so-
bre el dominio de interés esté muy severamente limitado. Además, puede
ser que los procesos que tienen lugar estén insuficientemente comprendi-
dos y sean aparentemente aleatorios. Por último, el conocimiento imper-
fecto del dominio puede que sea imposible de mejorar, o puede que sólo
sea mejorable con un inaceptable alto coste.
Sin embargo, hay una perspectiva de evolución, y una BN debe ser con-
siderada dentro de un proceso continuo de desarrollo. Una BN puede verse
como una representación instantánea de un estado dado de conocimiento
sobre un problema en particular. Cuando se dispone de más conocimiento,
las especificaciones cualitativas y/o cuantitativas se pueden adaptar para
alcanzar una nueva comprensión de las propiedades del dominio.
También se ha dicho que pueden utilizarse diferentes modelos para re-
presentar las cuestiones inherentes a un mismo problema, porque ese pro-
blema puede enfocarse con diferentes niveles de detalle y porque pueden
existir opiniones divergentes acerca de las propiedades del dominio:

“o bien estás de acuerdo conmigo en que E es relevante para H, aunque


nuestras verosimilitudes sean diferentes, o bien crees que E es direc-
tamente relevante para H mientras que yo creo que sólo es indirecta-
mente relevante, o tú crees que es relevante y yo creo que no lo es. Estos
desacuerdos explican por qué podemos ofrecer diferentes modelos de
redes bayesianas para las mismas hipótesis (Garbolino, 2001)”.

Cada nodo representa una variable aleatoria que puede asumir valores
continuos o discretos, aunque en este capítulo sólo utilizaremos nodos dis-
cretos que tienen un número finito de estados.
Existen tres tipos básicos de conexiones entre nodos en una BN: en se-
rie, divergente y convergente. Se ilustran en la Figura 14.1.

(a) � � �

(b)

� �
Redes bayesianas   543

� �

(c)

Figura 14.1. Conexiones básicas en redes bayesianas: (a) serie; (b) diver-
gencia; (c) convergencia.

Hablamos de una conexión en serie entre los nodos A, B y C cuando hay


una flecha desde A a B, otra desde B a C, no habiendo ninguna desde A a
C (Figura 14.1(a)). Una conexión en serie es apropiada cuando juzgamos
que el conocimiento del estado de verdad de A proporciona información
relevante sobre la ocurrencia de B, y que el conocimiento del estado de ver-
dad de B proporciona información relevante sobre la ocurrencia de C, pero
cuando el estado de verdad sobre B es conocido, entonces el conocimiento
del estado de A no proporciona información relevante sobre C. Es decir, A
influye en C a través de B, pero sólo B influye sobre C directamente o, en
otras palabras, B oculta a C de A. Si el valor de B es conocido, entonces A y
C son probabilísticamente independientes, es decir, Pr(A | B, C) = Pr(A | B).
Una conexión en serie entre tres nodos es el ejemplo más simple de lo que
se conoce como cadena de Markov.
A modo de ejemplo, sea A la proposición de que el sospechoso es el
criminal, B que la mancha de sangre encontrada en la escena del crimen
procede del sospechoso, y C que la muestra de sangre del sospechoso y la
mancha de sangre de la escena del crimen comparten el mismo perfil de
ADN. Entonces A es relevante para B y B para C pero, dado B, la causa de
la presencia de la sangre pudiera ser distinta de A.
Un ejemplo de conexión divergente enlazando A, B y C se obtiene cuan-
do hay dos flechas que parten de A y apuntan a B y C, no existiendo flecha
alguna entre B y C (Figura 14.1(b)). Se dice que A separa a B de C. Si el va-
lor de A es conocido, entonces B y C son probabilísticamente independien-
tes, es decir, Pr(B | A, C) = Pr(B | A) y Pr(C | A, B) = Pr(C | A). Una conexión
divergente es la representación gráfica de lo que puede denominarse una
correlación espuria.
Los nodos B y C están correlados porque ambos dependen de un tercer
factor, A. Cuando A se fija, la correlación se desvanece. Hay muchos ejem-
plos de tales correlaciones espurias. Por ejemplo, puede demostrarse la
existencia de una correlación positiva entre el número de médicos de una
544   Redes bayesianas

ciudad y el número de fallecimientos en la misma. A medida que se incre-


menta el número de médicos (B), también aumenta el número de falleci-
mientos (C). Esto no significa que los doctores sean pésimos profesionales.
Lo que ocurre es que ambos factores están positivamente correlados con la
población de la ciudad (A). Otro ejemplo podría ser definir A como que el
sospechoso ha estado en contacto con la víctima, B que la mancha de san-
gre sobre la ropa del sospechoso procede de la víctima, y C que la mancha
de sangre sobre la víctima procede del sospechoso.
Un ejemplo de conexión convergente enlazando A, B y C ocurre cuando
hay una flecha desde A a C y otra desde B a C, no existiendo ninguna entre
A y B (Figura 14.1(c)). Se dice que A y B son probabilísticamente indepen-
dientes a menos que, o bien se conozca el valor de C o bien el de un hijo de C.
Otra forma de expresar la misma idea consiste en decir que A y B son condi-
cionalmente dependientes dado el valor de C (Jensen, 2001). De este modo,
Pr(AB) = Pr(A) Pr(B), pero Pr(AB | C) ≠ Pr(A | C) Pr(B | C). Contrástese esto
con lo tratado en la Sección 1.6.7 donde hay sucesos que son condicional-
mente independientes pero no incondicionalmente independientes.
Por ejemplo, sea A la proposición de que el sospechoso es el criminal y B
que la mancha de sangre encontrada en la escena del crimen procede del cri-
minal: el conocimiento de que uno de esos sucesos ocurrió no proporciona-
ría información sobre la ocurrencia del otro, pero si es cierto que la mancha
de sangre encontrada en la escena del crimen viene del sospechoso (propo-
sición C), entonces A y B están relacionados. Las conexiones convergentes
en las BNs son especialmente importantes porque representan un patrón de
razonamiento muy común: la dependencia condicional o dar explicaciones.

Las propiedades de la d-separación (separación direccional)

El criterio de la d-separación, donde d significa direccional, es un cri-


terio gráfico (Pearl, 1988) que designa el bloqueo (o interrupción) del flu-
jo de información (o de dependencias) entre variables conectadas a través
de una secuencia consecutiva de flechas (llamada camino). Consideremos
este concepto con las tres conexiones básicas (en serie, divergencia y con-
vergencia) posibles en las BNs (como en la Figura 14.1):
• en las conexiones en serie y divergente, se dice que un camino está
d-separado (o que se separa direccionalmente) si la variable inter-
media está instanciada (se dice que una variable está instanciada si
su estado cambia de ser desconocido a ser conocido; i.e; una varia-
ble instanciada es aquella que ha adquirido un valor; se utiliza el
Redes bayesianas   545

término instanciar porque la asignación de un valor a una variable


es temporal);
• en las conexiones convergentes, por otro lado, se dice que un camino
está d-separado (o que se separa direccionalmente) cuando su varia-
ble intermedia, o una de sus descendientes, no está instanciada.
En otras palabras, si dos variables en una red causal están d-separadas, o
separadas direccionalmente, los cambios en el estado de verdad de una varia-
ble no tendrán impacto sobre el estado de verdad de la otra variable. Si dos
variables no están d-separadas, se dice que están d-conectadas (Jensen, 2001).

Regla de la cadena para redes bayesianas

A través del uso del teorema de Bayes, cada distribución de probabili-


dad conjunta puede descomponerse como un producto de probabilidades
condicionales. Sin embargo, la tabla de probabilidad conjunta aumenta
exponencialmente con el número de parámetros. Esta complejidad puede
reducirse cuando se trabaja con BNs, donde se supone que una variable,
dado el conocimiento de sus padres, es independiente de todas las demás
variables que no estén entre sus descendientes. Si las relaciones condicio-
nales implicadas por la estructura de la red bayesiana se mantienen para
un conjunto de variables A1, …, An, entonces la distribución de probabili-
dad conjunta Pr(A1, …, An) viene dada por el producto de todas las probabi-
lidades condicionales especificadas:
n
Pr (A 1 ,..., A n ) = ∏ Pr (A i | par (A i ) ,
i =1

donde par(Ai) representa el conjunto de variables de los padres de Ai.


Consideremos la regla de la cadena para los tres tipos de conexiones
secuenciales básicos que son posibles en las BNs (Figura 14.1). Para una
conexión en serie desde A a C a través de B, Pr(A, B, C) = Pr(A) Pr(B | A)
Pr(C | A, B) puede reducirse a Pr(A, B, C) = Pr(A) Pr(B | A) Pr(C | B). Para
una conexión divergente, la probabilidad conjunta puede escribirse como
Pr(C, A, B) = Pr(A) Pr(B | A) Pr(C | A), mientras que para una conexión con-
vergente sería Pr(A, B, C) = Pr(A) Pr(B) Pr (C | A, B).

Formalismo de red bayesiana

La propiedad clave de una red bayesiana es que proporciona un método


para descomponer una distribución de probabilidad conjunta de muchas
546   Redes bayesianas

variables en un conjunto de distribuciones locales de unas pocas variables


dentro de cada conjunto. Esto facilita la investigación de relaciones entre
las variables en el contexto de un caso particular. La red que tratamos aquí
consta únicamente de nodos binarios (en los ejemplos de fibras se utilizan
variables con más de dos estados); representan sucesos y toman sólo uno
de estos dos valores: ‘cierto’ y ‘falso’.
Un formalismo de red bayesiana es muy apropiado en el contexto de
una investigación criminal puesto que se trata del desarrollo más adecua-
do para la construcción de sistemas capaces de manejar información in-
cierta de una forma práctica.
Las redes bayesianas son una herramienta útil para los expertos foren-
ses puesto que les ayudan a construir una estructura de razonamiento lógi-
co en situaciones complejas, y la necesidad de realizar tales construcciones
ha sido ya justificada por diversos autores (Friedman, 1986a,b; Edwards,
1991; Aitken y Gammermann, 1989; Schum, 1994, 1999; Aitken y otros,
1996a,b; Kadane y Schum, 1996; Dawid y Evett, 1997; Tillers, 2001; Evett y
otros, 2002; Mortera y otros, 2003).
La naturaleza gráfica del método facilita la deliberación formal de la es-
tructura de los modelos propuestos. La BN posibilita la descripción de las
relaciones de incertidumbre entre los factores concernientes a una investi-
gación criminal. A nivel cuantitativo el método posibilita incorporar tanto
el conocimiento subjetivo del experto en el modelo como los datos más
objetivos (por ejemplo, datos procedentes de muestreos de frecuencias de
perfiles de ADN). Estas propiedades permiten crear un modelo que pue-
de contener relaciones matemáticas y elementos subjetivos. Los elementos
subjetivos son proporcionados por la experiencia de aquellos que contribu-
yen al modelado del sistema.
Más aún, los grafos permiten estudiar la sensibilidad de los resultados
ante cambios en los estados de verdad de otras variables de interés. Evett y
otros (2002) defienden ese enfoque y demuestran que puede ser útil para la
prevaloración de un caso igualmente.
Mostramos dos ejemplos para ilustrar cómo puede representarse gráfi-
camente un modelo probabilístico.

Ejemplo 14.1:
Este ejemplo relaciona la evidencia E, una coincidencia entre las carac-
terísticas de la mancha recuperada y el perfil de ADN de un sospechoso,
y la proposición de que el sospechoso es el autor de la mancha (Hp). La
relación se muestra en la Figura 14.2. La flecha directa desde H (donde H
representa o bien Hp o bien Hd)) a E ilustra que las probabilidades consi-
Redes bayesianas   547

deradas son Pr(E | Hp) y Pr(E | Hd). Se desea determinar Pr(Hp | E). Dando
valores a Pr(Hp), Pr(E | Hp) y Pr(E | Hd), es posible, utilizando el teorema de
Bayes, encontrar el valor de Pr(Hp | E):

Pr(E | H p ) × Pr(H p )
Pr ( H p | E ) =
Pr(E | H p ) × Pr(H p ) + Pr(E | H d ) × Pr(H d )

� �

Figura 14.2. Red bayesiana para la evidencia E y proposición H.

Ejemplo 14.2:
Este ejemplo relaciona la evidencia de una coincidencia contenida en
un informe pericial entre perfiles de ADN (RM – reported match) extraídos
de una mancha de sangre encontrada en la ropa de la víctima de un crimen
y el de un sospechoso, el suceso de una coincidencia verdadera (M) entre
esos dos perfiles y la proposición de que el sospechoso es la fuente de la
mancha de sangre en la ropa de la víctima (Hp). La relación se muestra en
la Figura 14.3, y se trata de un ejemplo de una conexión en serie.
Las flechas dirigidas de H a M y de M a RM muestran que se conocen o se
requieren las probabilidades para hallar Pr(M | Hp), Pr(M | Hd), Pr(RM | M) y
Pr(RM | M ), donde M es el complementario de M y significa que no hay
coincidencia entre las características que se comparan. También, y esto
es importante, la separación entre el nodo RM y el nodo Hp mediante el
nodo M demuestra que RM es condicionalmente independiente de Hp,
dado M. Análogamente al Ejemplo 14.1, dando valores a Pr(M | Hp), Pr(M |
Hd), Pr(RM | M), Pr(RM | Hd) y Pr(Hp), es posible, utilizando el teorema de
Bayes, determinar Pr(Hp | RM):

Pr(RM | H p ) × Pr(H p )
Pr (H p | RM ) = ;
Pr(RM | H p ) × Pr(H p ) + Pr(RM | H d ) × Pr(H d )
Pr(RM | H p ) = Pr(RM | M, H p ) × Pr(M | H p ) + Pr(RM | M, H p ) × Pr(M | H p ) =
Pr(RM | M ) × Pr(M | H p ) + Pr(RM | M ) × Pr(M | H p ),

con una expresión similar para Pr(RM | Hd). En la Sección 14.5 se presen-
tan más detalles sobre este ejemplo práctico.
548   Redes bayesianas

Se pueden analizar diagramas más complicados de una forma similar


que se llama propagación, aunque los procedimientos llegan a complicarse
más con los diagramas. Los análisis pueden realizarse con software como
HUGIN.
De los anteriores ejemplos podemos inferir estos dos principios intuitivos:
• La causa produce el efecto: conociendo que la causa ocurrió, puede
predecirse que el efecto ocurrirá o probablemente ocurrirá. Esta es
una línea de razonamiento predictivo.
• El efecto no produce la causa: sin embargo, conociendo que el efec-
to ocurrió, puede inferirse que es probable que ocurriera la causa.
Esta es una línea de razonamiento en contra de la dirección causal
que se denomina diagnóstico.
Entre las Secciones 14.3 y 14.8 se detallan varias aplicaciones de BNs.

� � ��

Figura 14.3. Red bayesiana para una conexión en serie y para una coinci-
dencia documentada (RM) en un perfil de ADN, donde M significa una coinci-
dencia y H una proposición

14.3 Evidencia a nivel de crimen

14.3.1 Preliminares

Los primeros estudios utilizando BNs en ciencia forense (Aitken y


Gammermann, 1989; Dawid y Evett, 1997) abordaron la evidencia cientí-
fica en el contexto de escenarios de casos individuales. Garbolino y Taroni
(2002) han demostrado que también es posible realizar un análisis están-
dar de patrones de inferencia sobre la evidencia científica sin centrar la
atención sobre un escenario particular. Los autores trataron algunos de los
principales asuntos que los expertos forenses han de acometer si preten-
den valorar la evidencia científica a la luz de las proposiciones de interés
en un juicio. Por ejemplo, si el sospechoso es el criminal.
Como se describió anteriormente (consultar la Sección 9.5.2), para re-
solver el problema de forma probabilística se necesita enlazar la mancha
en la escena del crimen con la proposición principal, que es que el sos-
pechoso es el criminal. El enlace se realiza en dos etapas. La primera es
la consideración de la proposición de que la mancha del crimen vino del
criminal (la proposición de asociación). Luego, asumiendo que la mancha
Evidencia a nivel de crimen   549

del crimen vino del criminal, el segundo paso es la consideración de la pro-


posición de que la mancha del crimen vino del sospechoso (la proposición
de asociación intermedia).
Cuatro nodos hacen capaz al experto de resolver la cuestión judicial de
interés, tal como se muestra en la Figura 14.4.

� �

Figura 14.4. Red de cuatro nodos para la evaluación de la evidencia a nivel


de crimen

14.3.2 Descripción de las probabilidades requeridas

Se asume que los cuatro nodos son binarios. Los dos posibles valores de
cada uno de ellos son los siguientes:
• H, el sospechoso es o no el criminal, representados por Hp y Hd;
• B, la mancha del crimen vino o no vino del criminal, representados
por B y B ;
• A, la mancha del crimen vino o no vino del sospechoso, representa-
dos por A y A ;
• E, el sospechoso y la mancha del crimen comparten o no compar-
ten el mismo perfil de ADN, representados por E y E .
Los nodos H y B son nodos padre e independientes (no existe enlace
entre ellos). El conocimiento de que la mancha viene del criminal no nos
dice nada sobre la probabilidad de que el sospechoso sea (o no sea) el cri-
minal. De este modo, sólo necesitamos especificar una probabilidad para
cada nodo: Pr(Hp), la probabilidad de que el sospechoso sea el criminal,
y Pr(B), la probabilidad de que la mancha del crimen venga del criminal
(es decir, el término “relevancia”). Las probabilidades complementarias
Pr(Hd) y Pr( B ) se calculan de forma automática. El resultado del nodo A
es dependiente de los valores de H y B. Se necesitan cuatro probabilida-
des:
550   Redes bayesianas

• Pr(A | Hp, B): probabilidad de que la mancha del crimen viniera del
sospechoso, condicionada a que el sospechoso es el criminal y que
la mancha del crimen viene del criminal; esta probabilidad es igual
a la unidad;
Pr(A | H p , B) : probabilidad de que la mancha del crimen viniera del

sospechoso, condicionada a que el sospechoso es el criminal y que
la mancha del crimen no viene del criminal; esta probabilidad es
igual a cero;
• Pr(A | Hd, B): probabilidad de que la mancha del crimen viniera del
sospechoso, condicionada a que el sospechoso no es el criminal y
que la mancha del crimen viene del criminal; en este caso la man-
cha no vino del sospechoso sin ninguna duda, así pues esta probabi-
lidad es igual a cero;
Pr(A | H d , B) : probabilidad de que la mancha del crimen viniera del

sospechoso, condicionada a que el sospechoso no es el criminal y
que la mancha del crimen no viene del criminal; esta es la probabili-
dad de que la mancha hubiera sido dejada por el sospechoso siendo
inocente de la ofensa (esta probabilidad recibe el nombre de p en la
Sección 9.5.4).
Para el cuarto nodo E hay dos probabilidades a determinar. La primera,
Pr(E | A), la probabilidad de que el sospechoso y la mancha del crimen ten-
gan el mismo perfil dado que la mancha del crimen vino del sospechoso; que
es la unidad. La segunda, Pr (E | A ) , la probabilidad de que el sospechoso y
la mancha de sangre tengan el mismo perfil dado que la mancha no vino del
sospechoso; esta es la frecuencia del perfil en la población relevante γ.
La probabilidad de interés es Pr(Hp | E). Las probabilidades anteriores
son las que nos vienen dadas. Hay, luego, una observación por la que E
toma el valor: “la mancha del crimen y el sospechoso comparten el mismo
perfil de ADN”. Entonces:

Pr(E | H p ) × Pr(H p ) Pr(E | H p ) × Pr(H p )


Pr ( H p | E ) = = .
Pr(E ) Pr(E | A) × Pr(A) + Pr(E | A) × Pr(A)
La probabilidad de A puede determinarse del siguiente modo:
Pr (A) = Pr(A | H p , B) × Pr(H p , B) + Pr(A | H p , B) × Pr(H p , B) +
Pr(A | H d , B) × Pr(H d , B) + Pr(A | H d , B) × Pr(H d , B) =
Pr(A | H p , B) × Pr(H p ) Pr(B) + Pr(A | H p , B) × Pr(H p ) Pr(B) +
Pr(A | H d , B) × Pr(H d ) Pr(B) + Pr(A | H d , B) × Pr(H d ) Pr(B),
Evidencia desaparecida   551

haciendo uso de la independencia entre H y B. Entonces, Pr(E | Hp) puede


determinarse como:

Pr (E | H p ) = Pr(E | H p , A) Pr(A | H p ) + Pr(E | H p , A) Pr(A | H p ) =


= Pr(E | A) Pr(A | H p ) + Pr(E | A) Pr(A | H p ),
y

Pr (A | H p ) = Pr(A | H p , B) Pr(B) + Pr(A | H p , B) Pr(B)

con Pr (A | H p ) = 1 − Pr(A | H p ).
Si se asume que Pr(B) = r, y que Pr (A | B, H d ) = p , se obtiene una versión
simplificada de la ecuación presentada en la Sección 9.5.4 (con k = 1). Esto
enfatiza lo apropiada que es la estructura gráfica y las valoraciones proba-
bilísticas asociadas. Si se asume también más tarde que p es igual a cero
y que la relevancia alcanza su valor máximo (r = 1), entonces la razón de
verosimilitud se reduce a su forma más simple: 1/γ.
El trabajo de Garbolino y Taroni (2002) puede considerarse como una
demostración de que las BNs pueden utilizarse para resolver problemas de
inferencia forense con soluciones probabilísticas precisas y aceptadas.

14.4 Evidencia desaparecida

14.4.1 Preliminares

Se trata de un ejemplo en el que se puede generar una estructura de red


bayesiana desde la fórmula de la razón de verosimilitud que ha sido ya
dada (Taroni y otros, 2004). Para el problema de la evidencia desaparecida
Lindley y Eggleston (1983) proporcionaron una fórmula bayesiana gene-
ral. De acuerdo con Schum (1994), la evidencia se denomina desaparecida
si era esperada, pero ni se encontró ni se produjo previa solicitud. El ejem-
plo presentado por Lindley y Eggleston (1983) relata una colisión entre dos
vehículos. El escenario es el siguiente:

“el querellante demanda al imputado diciendo que fue su vehículo el


que se estrelló con el suyo. La evidencia de identificación es débil, y el
imputado se apoya en el hecho de que, siendo rojo su coche, el quere-
llante no ha proporcionado evidencia de que ninguna pintura, ni roja
ni de cualquier otro color, fuera encontrada en el coche del querellan-
te después de la colisión”.
552   Redes bayesianas

14.4.2 Determinación de una estructura para una red bayesiana

Lindley y Eggleston (1983) presentaron una razón de verosimilitud para


ayudar al Tribunal a examinar el efecto que una evidencia desaparecida
(M) tiene sobre la veracidad o no de la variable de interés H:

Pr ( M | H p ) Pr(M | E 1 ) Pr(E 1 | H p ) + Pr(M | E 2 ) Pr(E 2 | H p ) + Pr(M | E 3 ) Pr(E 3 | H p )


=
Pr ( M | H d ) Pr(M | E 1 ) Pr(E 1 | H d ) + Pr(M | E 2 ) Pr(E 2 | H d ) + Pr(M | E 3 ) Pr(E 3 | H d )
(14.1)

Se puede ver fácilmente que la construcción de una BN basada en una


fórmula existente tiene la ventaja de que el número y la definición de los
nodos vienen ya dados.
Del anterior ejemplo sobre evidencia desaparecida podemos derivar tres
variables:
1. La variable H representa el suceso de que el imputado es culpable
de la ofensa por la cual se han presentado cargos. Este suceso puede
ser cierto o falso. Tiene dos estados: Hp y Hd.
2. La variable M representa el suceso de que la evidencia no ha sido
encontrada. Esta variable puede tomar los valores de verdadero o
falso, representados por M y M , respectivamente.
3. La variable E designa la forma de la evidencia desaparecida. Se pro-
ponen tres estados para E:
• E1: hubo pintura roja en el vehículo del querellante;
• E2: hubo pintura en el vehículo del querellante, pero no era roja;
• E3: no hubo pintura en el vehículo del querellante.
Para encontrar una representación gráfica que represente correcta-
mente las dependencias condicionales como las especificadas por la ra-
zón de verosimilitud (14.1), resulta útil seguir el enfoque de las dos etapas.
Eggleston y Lindley (1983) aseveran que (14.1) contiene todas las conside-
raciones relevantes para el escenario de pintura, concretamente probabili-
dades condicionales para:
• Las diferentes formas de la evidencia dado que la hipótesis del Fiscal
Hp es cierta y dado que la hipótesis de la defensa Hd es cierta;
• La inexistencia de la evidencia en sus tres estados: E1, E2 y E3.
Consideremos el primero de los dos puntos mencionados arriba. Aceptar
que la probabilidad de la evidencia está condicionada a que el estado de la
variable H sea cierto significa, gráficamente, que H es elegida como varia-
ble padre para E (ver la Figura 14.5(a)).
Evidencia desaparecida   553

La situación es similar para el segundo punto. Si el suceso de la inexis-


tencia de la evidencia (M) está condicionado sobre la forma que la eviden-
cia desaparecida pueda tomar (E), entonces E puede elegirse como varia-
ble padre de M (ver la Figura 14.5(b)).
Como la variable E mostrada en la Figura 14.5 (a) es la misma que la de
la Figura 14.5 (b), los dos fragmentos de red se combinan para dar la es-
tructura de red bayesiana que se muestra en la Figura 14.5 (c).
Mientras buscamos una estructura apropiada para una BN basada en
tres variables: M, E y H, sería legítimo que nos preguntáramos si pudiera
existir una flecha apuntando de H a M. Teniendo en cuenta la estructura de
red propuesta en la Figura 14.5(c), no debería suceder. Como con cualquier
otro elemento gráfico empleado en las estructuras BN, la ausencia de una
flecha también debe justificarse. En el ejemplo que nos ocupa, la ausencia
de una arista dirigida entre H y M puede justificarse por las indicaciones
dadas por Eggleston y Lindley (1983), los cuales asumieron que “si se co-
nociere la forma de la evidencia desaparecida, entonces el punto de vista
sobre la culpabilidad del acusado no se vería alterado tanto si esa evidencia
se hubiera producido ante el Tribunal como si no”. En otras palabras, “la
evidencia actual elimina cualquier importancia que pudiera haberse dado
a su omisión”.
Con notación formal, esto se corresponde con Pr(Hp | E, M) = Pr(Hp | E),
donde E puede tomar uno de los siguientes tres posibles estados: E1, E2 y
E3, y M o bien M o M . La BN propuesta codifica correctamente esta pro-
piedad a través de su conexión en serie, donde H y M son condicionalmen-
te independientes dado que E es conocido. También se puede decir que la
transmisión de la evidencia entre los nodos H y M está bloqueada cuando
E esté activado, o que el nodo E oculta a M de H. este es un ejemplo prácti-
co de d-separación.
554   Redes bayesianas

(a)

(b)


(c)

Figura 14.5. Fragmentos de red bayesiana representando la relación entre


(a) las variables E y H, y (b) las variables M y E; (c) red bayesiana para eviden-
cia desaparecida.

El fin principal del ejemplo considerado es la determinación de formas para


encontrar estructuras cualitativas apropiadas para BNs. Por tanto, la especifica-
ción numérica de la BN del ejemplo no se tratará aquí. Sin embargo, la imple-
mentación de la BN con un programa de ordenador adecuado proporcionaría
más medios para validar la estructura de red propuesta. Principalmente, puede
examinarse el efecto en diferentes probabilidades por la supresión de eviden-
cia favorable o desfavorable para el acusado sobre la apuesta de culpabilidad y
compararse con las indicaciones dadas por Lindley y Eggleston (1983).

14.4.3 Comentarios

El ejemplo de la evidencia desaparecida ha sido elegido no sólo para


ilustrar que la construcción de una BN puede estar orientada y guiada por
Tasas de error   555

fórmulas de razones de verosimilitud existentes, sino también para mos-


trar que una BN puede ser útil para mejorar la comprensión de razones
de verosimilitud que de otro modo puede que no fueran transparentes.
(Garbolino y Taroni (2002) ya subrayaron este extremo al proponer las
redes bayesianas para justificar la fórmula de razón de verosimilitud de
Evett (1993a) que incluía el concepto de ‘relevancia’.) Además, el anterior
ejemplo ha mostrado claramente que el uso de una BN no está restringido
a una argumentación formal sobre la evidencia que esté presente, lo cual
no deja de ser una forma entre otras posibles, sino que incluso es aplicable
a problemas como el de la evidencia desaparecida.
La BN derivada no sólo refleja sino que también ayuda gráficamente a
la comprensión del concepto de independencia condicional. Obsérvese tam-
bién otro importante aspecto estructural de una BN: la ausencia de una
flecha es tan informativa como la presencia de una de ellas.

14.5 Tasas de error

14.5.1 Preliminares

Thompson y otros (2003) —ver también la Sección 13.11— emplearon


un marco bayesiano para la valoración de la influencia de falsos positivos
en el análisis de la evidencia de ADN.
En analogía con (3.6), el enfoque tradicional para considerar la hipótesis S,
que un vestigio vino de un sospechoso concreto, a la luz de la evidencia (R) del
informe del experto forense sobre una coincidencia de perfiles de ADN proce-
dentes del sospechoso y del vestigio, viene dado por el teorema de Bayes:

Pr (S | R ) Pr(R | S) Pr(S)
= × . (14.2)
Pr (S | R ) Pr(R | S) Pr(S)
Para tener en cuenta la posibilidad de error (principalmente los falsos
positivos), se introdujo una proposición intermedia M. La proposición
M significa que la coincidencia entre perfiles es cierta, y se distingue de
R, una coincidencia entre perfiles documentada en un informe pericial.
Análogamente a S, M debe tomarse como una variable no observada, pues-
to que su estado de verdad no puede ser conocido con certeza, pero puede
revisarse gracias a la adquisición de nueva información, como podría ser el
suceso R. En Thompson y otros (2003) se presentó una razón de verosimi-
litud modificada.
556   Redes bayesianas

Pr (R | S) Pr(R | M ) × Pr(M | S) + Pr(R | M ) × Pr(M | S)


= . (14.3)
Pr (R | S) Pr(R | M ) × Pr(M | S) + Pr(R | M ) × Pr(M | S)

14.5.2 Determinación de una estructura para una red bayesiana


El número relevante y las definiciones de los nodos para modelar el pro-
blema de la tasa de error pueden, análogamente al ejemplo anterior, estar
basadas en una solución probabilística existente. Formalmente, las defini-
ciones de las tres variables R, M y S, todas binarias, son las siguientes:
• S: el vestigio vino o no vino del sospechoso, representado por S o S ;
• R: el informe forense declara una coincidencia entre los perfiles del
sospechoso y de la muestra o la descarta, representado por R o R ;
• M: el sospechoso y el vestigio comparten el mismo perfil de ADN o
no, representado por M o M .
Para construir una red bayesiana con los tres nodos R, M y S, se han de
determinar las dependencias entre las correspondientes variables.
Para la derivación de (14.3), se asumió que Pr(R | M, S) = Pr(R | M, S )
= Pr(R | M). Por consiguiente, la probabilidad conjunta de R, M y S puede
escribirse como sigue:

Pr(RMS) = Pr(R | M ) Pr(M | S) Pr(S) (14.4)

La estructura de red bayesiana que representa correctamente las depen-


dencias definidas en (14.4) es una conexión en serie (S → M → R), como se
muestra en la Figura 14.6. Esto puede comprenderse considerando la regla de
la cadena para BNs, que conduce a (14.4) para las variables R, M y S, y para las
cuales las dependencias estructurales son las especificadas en la Figura 14.6.

� Pr(S)

� Pr(M|S)

� Pr(R|M)

Figura 14.6. Red bayesiana para tasas de error. Las dependencias probabi-
lísticas se indican a la derecha de cada nodo.
Evidencia de transferencia   557

14.6 Evidencia de transferencia

14.6.1 Preliminares

El Capítulo 12 considera escenarios donde se evalúan grupos de fibras re-


cuperadas asociadas con la investigación del crimen. Se han presentado dos
principales categorías de situaciones en las que se ha realizado una valoración
de la evidencia bajo proposiciones a nivel de actividad: aquéllas en las que las fi-
bras recuperadas proceden del criminal y aquéllas en las que dichas fibras apa-
recen por casualidad. Se ha demostrado que (12.3) es una versión extendida
de (12.4). El desarrollo formal ha mostrado que los parámetros de interés son
transferencia, persistencia y recuperación (las probabilidades de transferencia),
la presencia por casualidad (probabilidades de contexto) y la frecuencia relativa,
γ, de las propiedades relevantes de las fibras recuperadas en la población.
Teniendo en cuenta la literatura científica reciente se ha presentado
también una prevaloración del valor potencial de los hallazgos (clasifica-
dos en tres categorías: no se detectan fibras; se detectan pocas fibras; se
detectan muchas fibras). Todos los escenarios presentados en el Capítulo
12 pueden ser fácilmente trasladados en BNs evitando al experto tener que
desarrollar y calcular fórmulas complejas.

14.6.2 Determinación de la estructura para una red bayesiana

En el escenario de fibras descrito en la Sección 12.2.1, las variables de


interés son las que siguen:
• H: representa el suceso de que el sospechoso se ha sentado en el
asiento del conductor del vehículo robado. Este suceso puede ser
verdadero o falso (si es falso, otra persona se sentó sobre el asiento).
Este nodo tiene dos estados: Hp y Hd.
• T: representa el suceso de que las fibras han sido transferidas, han per-
sistido y han sido satisfactoriamente recuperadas del asiento del con-
ductor. Este suceso puede ser verdadero o falso. Tiene dos estados: t y t .
• X representa a las características del objeto de control (es decir, el jer-
sey del sospechoso). Tiene dos estados: x y x (otras características).
• Y representa a las características de las fibras recuperadas. Tiene
tres estados: y, y (otras características) y dos grupos. El tercer esta-
do tiene en cuenta la posibilidad (no expresada en las fórmulas pre-
sentadas en el Capítulo 12) de recuperar fibras transferidas desde el
criminal y fibras ya presentes sobre la superficie de interés. En las
fórmulas del Capítulo 12 se obvió esta situación puesto que se asu-
mió la observación de un único grupo de fibras.
558   Redes bayesianas

• B representa el suceso de que un grupo compatible de fibras esté


presente en el asiento del conductor por casualidad. Este suceso
puede ser verdadero o falso. Tiene dos estados: b y b .
La estructura de la BN que representa las dependencias expresadas en
(12.2) es una combinación de una conexión en serie con otra divergente,
como se presenta en la Figura 14.7.

� � �

Figura 14.7. Red de cinco nodos: ningún resultado

Tabla 14.1 Probabilidades condicionales para transferencia con un gru-


po. Las propiedades del objeto de control son X, y las de las
fibras recuperadas son Y, las cuales pueden ser de 0, 1 ó 2
grupos. Esas fibras recuperadas pueden estar presentes sólo
por azar ( b 1 ) o no ( b 0 ) , o haber sido transferidas desde la víc-
tima ( t 1 ) o no ( t 0 ).

X Tipo = x Tipo = x
T t1 t0 t1 t0
B b0 b1 b0 b1 b0 b1 b0 b1
y 1 0 0 0.01 0 0 0 0.01

y 0 0 1 0.99 1 0 1 0.99
2 grupos 0 1 0 0 0 1 0 0

Una tabla de probabilidades condicionales para el nodo T permite al ex-


perto tener en cuenta valores relacionados con los fenómenos de transferen-
cia: transferencia desde el jersey del sospechoso y transferencia desde la ropa
del criminal, Pr(T | x, Hp) y Pr(T | Hd), respectivamente (llamados tn y t’n en el
Capítulo 12). En el escenario desarrollado en la Sección 12.2.3, la presencia de
las fibras recuperadas se explica sólo por casualidad, así Pr(T | Hd) se iguala a
cero. Las probabilidades relacionadas con el nodo Y se dan en la Tabla 14.1.
Evidencia de transferencia   559

El numerador de la razón de verosimilitud se obtiene cuando los esta-


dos Hp y x están instanciados y se utiliza un valor de y. El denominador se
obtiene cuando el estado Hd está instanciado.
Una ligera modificación de esta red permite al científico prevalorar los
hallazgos. Se necesita un redefinición de los nodos para describir el caso
de fibras desarrollado en la Sección 12.3.3. Los nuevos nodos: P (presencia
de un grupo) y S (tamaño del grupo) sustituyen al nodo B, y se introduce,
digamos, un nodo O. Los nodos X e Y son eliminados. El nodo final O se
caracteriza por cinco estados:
1. No se ha observado grupo de fibras alguno;
2. Se observa un grupo de fibras no coincidentes;
3. Se observa un pequeño grupo de fibras coincidentes;
4. Se observa un gran grupo de fibras coincidentes;
5. Se observan dos grupos de fibras.
Champod y Jackson (2000) no tienen en cuenta el último estado en su
desarrollo matemático (consultar la Sección 12.3.3). El estado de “dos gru-
pos de fibras” permite considerar situaciones en las que fibras procedentes
de transferencia se mezclen con fibras procedentes del contexto.
Todos los demás nodos son binarios, excepto el de transferencia. En este
caso podría introducirse una extensión de los estados de esta variable:
1. No hay transferencia;
2. Se transfiere una pequeña cantidad de fibras;
3. Se transfiere una gran cantidad de fibras.
La correspondiente BN se presenta en la Figura 14.8.

� � �

Figura 14.8. Red de cinco nodos: resultado, convergencia y serie en redes


bayesianas

Los valores de probabilidad propuestos en la Sección 12.3.3 y las proba-


bilidades condicionales relacionadas con el nodo O presentadas en la Tabla
14.2 confirman las razones de verosimilitud presentadas en la Tabla 12.3.
560   Redes bayesianas

Tabla 14.2 Probabilidades condicionales para transferencia de muchos grupos,


como se ilustró en la Sección 12.3.3. La transferencia puede ser de
ninguna fibra (t0), una pequeña cantidad (ts) o una gran cantidad (tl).
Un grupo puede estar presente (p1) o no (p0), y el grupo puede ser pequeño
( ss ) o grande ( s l ). El resultado O tiene cinco categorías: no hay grupos;
un grupo no coincidente; un grupo pequeño coincidente; un gran grupo
coincidente y dos grupos.

T t0 ts tl
P p0 pl p0 p1 p0 p1
S ss sl ss sl ss sl ss sl ss sl ss sl
0 grupos 1 1 0 0 0 0 0 0 0 0 0 0
1 grupo no coincidente 0 0 0.95 0.95 0 0 0 0 0 0 0 0
1 grupo pequeño coincidente 0 0 0.05 0 1 1 0 0 0 0 0 0
1 grupo grande coincidente 0 0 0 0.05 0 0 0 0 1 1 0 0
2 grupos 0 0 0 0 0 0 1 1 0 0 1 1

14.6.3 Comentarios sobre el nodo transferencia

Se pueden desarrollar BNs más elaboradas para tener en cuenta la can-


tidad de información procedente de la transferencia, persistencia y recupe-
ración. Para ilustrarlo, el ejemplo de las fibras se generaliza dentro de un
escenario con fragmentos de cristal. Un ladrón ha roto la ventana de una
casa. Se ha arrestado a un sospechoso. Una cantidad Qr de fragmentos de
cristal —coincidentes, en algún sentido, con el tipo de cristal de la ventana
de la casa— se han recuperado del jersey del sospechoso.
En lugar de un simple nodo de transferencia T, que recoge en sí mismo
todo lo relacionado con la transferencia, es posible extender la red utilizan-
do la siguiente información:
• El número Qr de fragmentos de cristal que se recuperan en el jersey
del sospechoso. Esta cantidad depende del número Qp de fragmentos
de cristal que han persistido en el jersey y de la calidad de la técnica
utilizada para la búsqueda, la cual puede ser evaluada mediante la
proporción de fragmentos de cristal encontrados en el jersey. A esta
medida la denominamos Pl.
• El número Qp de fragmentos de cristal que han persistido en el jer-
sey del sospechoso depende del número Qt de fragmentos de cristal
que han sido transferidos y de la proporción Ps de fragmentos de
cristal dispersados entre el momento de la transferencia y el exa-
men del jersey.
• El número Qt de fragmentos de cristal transferidos depende de la
proposición H.
Combinación de evidencias   561

Los estados de los eventos pueden categorizarse en la forma de: ningu-


no, pocos, muchos, o ninguno, pequeño, grande, como anteriormente se
describió en la prevaloración del escenario de fibras en la Sección 7.2.

14.7 Combinación de evidencias

La finalidad de los ejemplos de este capítulo es centrar la atención so-


bre consideraciones relacionadas con las propiedades de dependencia e
independencia entre los bloques de construcción básicos de las redes ba-
yesianas (ver Figura 14.1), así como ilustrar métodos de construcción. Los
ejemplos proporcionados hasta aquí han utilizado conexiones en serie.
Ahora presentamos un ejemplo para el que es apropiada una conexión di-
vergente.
La expresión general de la razón de verosimilitud para una evidencia E
se proporciona en (3.12). La representación correspondiente de esta rela-
ción en términos de una BN se muestra en la Figura 14.5(a).
Supongamos que existió una segunda evidencia. Llamamos A y B a las
evidencias. El efecto combinado de A y B ha de evaluarse para revisar la
creencia en una proposición de interés H (Sección 8.1.3). El Teorema de
Bayes puede volver a aplicarse:

Vcomb

Pr ( H p ) Pr(A, B | H p ) Pr(H p | A, B)
× = . (14.5)
Pr ( H d ) Pr(A, B | H d ) Pr(H d | A, B)
{

De acuerdo con la regla del producto (1.7), la razón de verosimilitud


para la evidencia combinada (Vcomb) puede escribirse como:

Pr ( A y B | H p ) Pr(A | B, H p ) Pr(B | H p )
= × . (14.6)
Pr ( A y B | H d ) Pr(A | B, H d ) Pr(B | H d )

Supongamos que las dos evidencias A y B son independientes de for-


ma que: Pr (A | B
, H p ) = Pr (A | B, H p ) = Pr (A | H p ) (con una expresión aná-
loga para Pr (A | B
, H d ) ). Consecuentemente, con el uso de (1.6), Vcomb se
reduce a:

Pr ( A y B | H p ) Pr(A | H p ) Pr(B | H p )
= × . (14.7)
Pr ( A y B | H d ) Pr(A | H d ) Pr(B | H d )
562   Redes bayesianas

En términos de una BN para las tres variables A, B y H, estas relaciones


se traducen en dependencias estructurales como las de las Figuras 14.1,
donde H reemplaza a A, y A y B reemplazan a B y C. La conexión divergen-
te en la Figura 14.1 permite considerar lo siguiente:
• La causa H puede producir cada uno de los dos efectos: A y B. Los
sucesos A y B dependen de H.
• El conocimiento sobre A proporciona información relevante para H,
el cual a su vez proporciona información relevante para juzgar sobre
el estado de verdad de B. En otras palabras, A y B están d-conecta-
das, dado que H no está instanciado.
• Análogamente, la probabilidad de que A dado H sea cierta no estará
afectada por el hecho de conocer que B sea cierto; A y B están d-sepa-
radas, conociendo H.
Imaginemos una situación en la que un sospechoso ha sido encontra-
do tras la búsqueda de un perfil de ADN de una mancha de un crimen
en una base de datos de N sospechosos (Sección 13.8). El perfil del sos-
pechoso fue el único perfil que coincidió, por tanto, los (N – 1) perfiles
restantes de la base no fueron coincidentes. Este escenario de búsqueda
en una base de datos consta, esencialmente, de dos tipos de informa-
ción:
• E: una coincidencia entre el genotipo del sospechoso Gs y el genoti-
po de la mancha del crimen Gc, es decir, Gs = Gc;
• D: la información de que los otros (N – 1) perfiles de la base de da-
tos no coinciden;
La razón de verosimilitud que combina ambas evidencias, E y D, es la
siguiente:

Pr ( E , D | H p ) Pr(E | D, H p ) Pr(D | H p )
V= = × . (14.8)
Pr ( E , D | H d ) Pr(E | D, H d ) Pr(D | H d )

Siguiendo el análisis de Balding y Donnelly (1996), la primera razón del


lado derecho de la igualdad (14.8) se reduce a 1/γ aproximadamente, donde
γ es la probabilidad de coincidencia aleatoria. La segunda razón se reduce
a 1/(1–φ), donde φ es la probabilidad de que la fuente de la mancha del cri-
men esté entre los otros (N – 1) sospechosos.
Se puede construir una estructura BN análoga a la de la Figura 14.1(c)
reemplazando la A por H, B por E y C por D. Los valores numéricos de
las probabilidades condicionales relevantes se encuentran en las tablas de
probabilidades de nodos condicionales de las variables E y D.
Evidencia de transferencia cruzada   563

Observe que esta BN es una representación explícita de la asunción de


que, conociendo que H es cierta, la probabilidad de una coincidencia entre
el genotipo de un sospechoso y el de la mancha del crimen no está influen-
ciada por el hecho de que ha habido una búsqueda en la base de datos.
Puede observarse también que el uso de una BN para representar el en-
foque probabilístico propuesto por Balding y Donnelly (1996) subraya el
hecho de que el resultado de la búsqueda en una base de datos tiene el
carácter de una información adicional. La búsqueda en la base de datos ha
incrementado el valor de la razón de verosimilitud. Hay una coincidencia
y también una información adicional de que el sospechoso ha sido elegido
en una base de datos, habiéndose excluido los otros (N – 1) candidatos de
la base de datos.

14.8 Evidencia de transferencia cruzada

En Aitken y otros (2003) se presenta un escenario que incluye transfe-


rencia cruzada y la construcción de una BN para reflejar las dependencias
entre distintas partes. En la red se permiten variaciones particulares den-
tro del escenario general.
Se ha cometido una agresión. Hay una víctima (V) y un criminal (C). Ha
habido contacto entre C y V. La evidencia en consideración es tal que pro-
porciona perfiles de ADN de la víctima y del criminal. Esta evidencia pudiera
ser semen, fluidos vaginales (en un caso de violación) o sangre (en una agre-
sión). Pudiera haber transferencia de la víctima al criminal (fluidos vagina-
les en una violación) o del criminal a la víctima (semen en una violación), o
ambas cosas. Es posible que pudiera haber una transferencia en una única
dirección. Supongamos que la víctima hubiera sido asesinada con un cuchi-
llo y no hubiera evidencia de producirse un forcejeo. La probabilidad de una
transferencia de sangre desde el criminal a la víctima es baja. La probabili-
dad de una transferencia de sangre desde la víctima al criminal es alta.
Generalmente, los dos conjuntos de vestigios recuperados (manchas
de sangre, por ejemplo) han de considerarse dependientes. De hecho, si
ocurre una transferencia en una dirección (por ejemplo, de V a C), y el
experto ha recuperado vestigios que caracterizan esta transferencia, el
experto esperaría generalmente encontrar vestigios relacionados con la
transferencia en el sentido opuesto (de C a V). La presencia de un conjun-
to de evidencia de transferencia aporta información sobre la presencia
de otro conjunto de evidencia de transferencia. La ausencia de otro con-
junto de evidencia de transferencia podría ser, en sí misma, significativa
(Lindley y Eggleston, 1983).
564   Redes bayesianas

Se identifica a un sospechoso (S). Consideremos, primeramente, el


estudio sobre el sospechoso para encontrar en él evidencia de perfil de
ADN procedente de la víctima. Se encuentran diversas manchas de san-
gre en algunas de las ropas del sospechoso. Existen algunas probabili-
dades subjetivas en el modelo, las cuales se describen en el Capítulo 9.
Las manchas de sangre pudieran haberse producido como consecuen-
cia de una transferencia de V a S, bien inocentemente (y esta conside-
ración la representamos con el parámetro p, referido como adquisición
inocente en el análisis), bien porque S cometiera el crimen (represen-
tamos esta opción mediante el parámetro t de transferencia en el aná-
lisis). De forma alternativa, las manchas pudieran encontrarse allí por
el estilo de vida del sospechoso, bien inocentemente por la naturaleza
de su ocupación o, no tan inocentemente, como consecuencia de otras
actividades que pudieran ser violentas. Esta consideración se denota
mediante el parámetro b de presencia inocente en el análisis. Algunas de
esas manchas pudieran encontrarse allí inocentemente y otras porque
el sospechoso cometiera el crimen, y puede ser que desconociéramos en
qué grupo se encuentra cada una. Se elige una o más manchas para su
análisis. Estas pudieran ser relevantes o no y el parámetro que refleja
esto lo denominamos r. El análisis de la evidencia encontrada sobre la
víctima puede realizarse de forma análoga a como se ha llevado a cabo
con el sospechoso.
De este modo, hay cuatro propiedades a tener en cuenta en el análisis:
presencia inocente (b), adquisición inocente (p), transferencia (t), y rele-
vancia (r). Éstas se aplican sobre S y V. Las probabilidades de transferen-
cia (t) dependen de si ha existido o no transferencia en la otra dirección.
Resulta muy importante en este análisis que se modele la evidencia de
transferencia cruzada. Con frecuencia, la consideración de una evidencia
de transferencia no explica la presencia o ausencia de evidencia que pudie-
ra haber sido transferida en la dirección opuesta. En Champod y Taroni
(1999) y Cook y otros (1999) pueden encontrarse ejemplos de evaluación
de la evidencia de transferencia cruzada. Se demuestra que una simple
multiplicación de las razones de verosimilitud para las dos direcciones de
transferencia no es válida y se presenta una solución a este problema. Las
probabilidades para las cuatro propiedades descritas al principio de este
párrafo dependen también de si a quien consideramos es a la víctima o al
sospechoso. La relativa importancia para la probabilidad de culpabilidad
de estas cuatro propiedades puede estudiarse a través de la variación de las
probabilidades y los cambios en la probabilidad de culpabilidad calculada
resultante.
Evidencia de transferencia cruzada   565

Una vez que ha sido elegida una mancha sobre el sospechoso (o sobre
la víctima) para su análisis, se analiza y se encuentra una coincidencia con
el perfil de la víctima (o con el perfil del sospechoso). Es posible establecer
una distinción entre una coincidencia documentada mediante el informe
pericial correspondiente y una verdadera coincidencia, considerando la
probabilidad de falso positivo distinta de cero (Thompson y otros, 2003;
consultar también la Sección 14.5). Se asume que no hay falsos negativos.
La red ilustrada en la Figura 14.9 nos permite determinar la probabilidad
de culpabilidad del sospechoso, dado que se ha informado documental-
mente sobre la existencia de una coincidencia entre el perfil de ADN de
las manchas analizadas procedentes del sospechoso y las de la víctima y/o
de las manchas analizadas procedentes de la víctima y las del sospecho-
so, teniendo en cuenta otros aspectos: relevancia, transferencia, presencia
inocente y adquisición inocente. Esas otras consideraciones han sido de-
terminadas dada la información de contexto, y las correspondientes proba-
bilidades son probabilidades subjetivas valoradas por el experto (Taroni y
otros, 2001).

14.8.1 Descripción de nodos

Para una BN es necesario tener una clara descripción de cada uno de los
nodos. El ejemplo de Aitken y otros (2003) que se representa en la Figura
14.9 tiene 14 nodos, los cuales incluyen factores como la transferencia del
material entre el sospechoso y la víctima, la elección de las manchas sobre
el sospechoso y la víctima, las actividades de contexto, las coincidencias
reales y las documentales entre las manchas, y el asunto clave sobre si el
sospechoso cometió o no cometió el crimen.
566   Redes bayesianas

�������������������������� �������������������������������

��������������������������������

��������������� ��������������������

�����������������������������

����������������������� ������������

�����������������������������

������������������ ���������������������

��������������������������������

����������������������������� ��������������������������������

Figura 14.9. Red completa para evaluar la evidencia de transferencia cru-


zada en perfiles de ADN. (Reimpreso de Aitken y otros, 2003, con permiso de
Elsevier).

14.8.2 Probabilidades para los nodos

Éstas pueden ser probabilidades condicionales o no condicionales, de-


pendiendo de si los nodos son nodos padres o nodos hijos. Se asume que
no existen falsos negativos: la probabilidad de documentar una no coin-
cidencia, condicionada a que hubiera una coincidencia real, es cero. De
este modo, la probabilidad de documentar una coincidencia, condicionada
a que existiera realmente esa coincidencia, es uno. También se necesitan
probabilidades para el suceso de que no haya una coincidencia verdadera.
Se asume que la probabilidad de un falso positivo no es cero: la probabili-
dad de documentar una coincidencia, condicionada a que no la hubo real-
mente, no es cero. Se asume que esa probabilidad es pequeña. Por ejemplo,
si la estimamos en 0.001; entonces la probabilidad de un verdadero positi-
vo sería 0.999. El nodo 1 de la Figura 14.9 es un ejemplo de nodo binario;
los valores son “se documenta una coincidencia” y “se documenta una no
coincidencia”. El nodo 13 es un nodo en el que la respuesta puede ser una
variable continua. El valor está condicionado a la relación entre la mancha
elegida sobre el sospechoso y el crimen. La probabilidad de una coinciden-
cia entre el perfil de ADN de la mancha elegida de S y el perfil de ADN de
V, si la mancha elegida se relaciona con el crimen, es uno. La probabilidad
Factores a tener en cuenta   567

de una coincidencia entre el perfil de ADN de la mancha elegida de S y el


perfil de ADN de V, si la mancha elegida no se relaciona con el crimen, es la
frecuencia del perfil de ADN de la víctima.
El nodo 5 es uno de los nodos para el suceso de transferencia de mate-
rial biológico. El nodo 6 es el otro. Estos dos nodos representan la trans-
ferencia cruzada. El nodo 5 está asociado con la transferencia de material
biológico de V a S. La estructura de la BN refleja las creencias de los inves-
tigadores en la relación entre los factores que pueden afectar a la proba-
bilidad resultante del nodo 5. Esta probabilidad depende de los valores de
otros tres nodos: S cometió el crimen (nodo 12); Contacto entre S y V (nodo
11); y Transferencia de material biológico de S a V (nodo 6). En Aitken y
otros pueden verse más detalles (2003).
Obsérvese que se ha tenido en cuenta en la estructura la ausencia de evi-
dencia o la evidencia desaparecida. Si las probabilidades de transferencia
no son iguales, esto significa que la correlación entre la transferencia de
V a S y la transferencia de S a V no es espuria. Esas dos transferencias no
llegan a ser independientes cuando el resultado (contacto o no) del nodo
11 es conocido, porque la presencia, o ausencia (evidencia desaparecida)
de una es relevante para la otra. Esto está reconocido a través de un enlace
directo que une los dos nodos.

14.9 Factores a tener en cuenta

Se extractan aquí ideas de Puch y Smith (2002) en una discusión sobre


redes bayesianas aplicadas a la valoración de la evidencia de fibras en la
que se ha utilizado un pasamontañas en la comisión de un crimen (consul-
tar la Sección 14.6 para una BN simplificada y la Sección 12.3.1). La de-
fensa dice que el sospechoso es el propietario de un pasamontañas similar
al recogido por la Policía pero que no lo llevó durante t horas. Tenemos en
cuenta los siguientes factores modelados (la mayoría de las distribuciones
se describen en el Capítulo 2):
• El número promedio L de fibras transferidas al cabello del criminal
desde el pasamontañas; Puch y Smith modelan esto con una dis-
tribución gamma (5.1), (Evans y otros, 2000), con parámetros al y
bl elegidos basados en características de rigidez de la máscara y de
recepción de transferencia.
• El número X transferido; Puch y Smith modelan esto con una dis-
tribución de Poisson de media L.
568   Redes bayesianas

• La proporción de fibras Q que han persistido en la cabeza del cri-


minal hasta el tiempo t sin tener en cuenta modificaciones sobre la
cabeza y de orden físico; esto se modela con una distribución Beta
con parámetros aq y bq.
• El número Xt de fibras que persistieron con tasa de éxito pdQ desde
las fibras inicialmente transferidas X0; esto se modela con una dis-
tribución binomial;
• La proporción S de fibras que se recuperan en el laboratorio; se tra-
ta de una distribución Beta con parámetros as y bs.
El número Yt de fibras que se recuperan del pelo del sospechoso dado
que la proporción S de fibras recuperables y que el número de fibras en el
pelo del criminal es Xt.

14.9.1 Elección de parámetros

La elección de los valores para los parámetros del modelo anterior puede
obtenerse a partir de tablas de consulta construidas a partir de datos experi-
mentales. Los parámetros son al, bl, aq, bq, p y q. Por ejemplo, los parámetros
al y bl se eligen basándonos en la rigidez de la máscara y en la recepción de
transferencia. Estos toman valores muy bajos, bajos, medios, altos y muy al-
tos. Los datos experimentales están clasificados dentro de esas categorías, y
para cada categoría se calculan los valores de al y bl. Estos valores están gra-
bados en una tabla de consulta que el software FINDS usa para determinar
la distribución gamma la cual es mostrada al científico forense. La persis-
tencia se clasifica también como muy baja, baja, media, alta y muy alta. El
tipo de modificaciones sobre la cabeza son ninguna, peinada y lavada. Las
modificaciones de orden físico elegibles son baja, media y alta. “Recipiente
de recuperación” se refiere a si el tipo de pelo facilita la recuperación; las
elecciones son entre muy alto, alto, medio, bajo y muy bajo.

14.10 Resumen

La construcción de una red bayesiana requiere la determinación de:


• Los factores a tener en cuenta;
• Los enlaces entre factores;
• Las probabilidades condicionales entre factores;
• El número de niveles y la distribución de probabilidad asociada si
un factor representa una variable discreta o categórica;
• La distribución de probabilidad si un nodo representa una variable
continua (aunque esto no ha sido tratado aquí).
Resumen   569

Ciertas distribuciones requerirán valores para sus parámetros. Estos va-


lores pueden determinarse mediante datos experimentales y ser insertados
en tablas de consulta. Esto puede hacerse para distintos niveles de las va-
riables apropiadas.
Para un caso particular, pueden insertarse valores apropiados dentro de
la BN. Esto puede hacerse como un procedimiento de prevaloración para
determinar si un análisis apoyará la proposición del cliente del experto.
Si se decide que vale la pena llevar a cabo tal análisis, puede hacerse otro
análisis para determinar la razón de verosimilitud. Para los ejemplos de
fibras descritos por Puch y Smith (2002) el cálculo de los LR incluye la
distribución de probabilidad del número de fibras recuperadas del pelo del
sospechoso y la incertidumbre sobre la presencia de fibras en el cabello de
la gente por casualidad, teniendo en cuenta la rareza de las fibras.
La BN descrita en Aitken y otros (2003) utiliza sólo nodos binarios y el
software HUGIN. Puch y Smith (2002) determina un LR para la evidencia
del número de fibras recuperadas de la cabeza del sospechoso. Aitken y
otros (2003) incluyen un nodo para la cuestión última: el sospechoso co-
metió el crimen. La evidencia tiene dos partes: la primera es la coincidencia
documental entre el perfil de ADN de una mancha sobre el sospechoso y el
perfil de ADN de la víctima; y la segunda, la coincidencia documental entre
el perfil de ADN de una mancha sobre la víctima y el perfil de ADN del sospe-
choso. Es posible utilizar esta BN para determinar la razón de verosimilitud
de la combinación de estas dos partes de la evidencia. Esto se puede hacer
condicionando, secuencialmente, sobre las proposiciones del Fiscal y la de-
fensa, concretamente si el sospechoso cometió o no el crimen. Mediante la
propagación de estas condiciones por la red, se pueden determinar las pro-
babilidades de las dos coincidencias documentales para cada proposición.
El LR es, entonces, la relación del producto de las probabilidades bajo las
dos proposiciones. El numerador es la probabilidad asumiendo que la pro-
posición del Fiscal es cierta; el denominador es la probabilidad asumiendo
que la proposición de la defensa es cierta. La relación entre esos dos factores
—la coincidencia documental entre el perfil de ADN de la mancha sobre el
sospechoso y el perfil de ADN de la víctima, y la coincidencia documental
entre el perfil de ADN de una mancha sobre la víctima y el perfil de ADN del
sospechoso— es tenida en cuenta por la separación de los dos nodos.
Referencias Referencias

Adams, B.J. (2003) The diversity of adult dental patterns in the United States and
the implications for personal identification. Journal of Forensic Sciences, 48,
497-503.
Aitchison, J. and Dunsmore, I.R. (1975) StatistícaI Prediction Analysis. Cambridge
Univer­sity Press, Cambridge.
Aitchison. J., Habbema. J.D.F. and Kay. J.W. (1977) A critical comparison of two
methods of statistical discrimination. Applied Statistics, 26, 15-25.
Aitken, C.G.G. (1986) Statistical discriminant analysis in forensic science. Journal
of the Forensic Science Society, 26, 237-247.
Aitken. C.G.G. (1991) Report on International Conference on Forensic Statistics.
Journal of the Royal Statistical Society, Series A, 154, 45-48. Selected papers in-
cluded on pp. 49-130.
Aitken. C.G.G. (1993) Statistics and the law: report of a discussion session at the
Royal Statistical Society Conference, Sheffield, September 1992. Journal of
the RoyaI StatisticaI Society, Series A, 156, 301-304.
Aitken, C.G.G. (1999) Sampling - how big a sample? Journal of Forensic Sciences, 44,
750-760.
Aitken, C.G.G. (2000) Interpretation of evidence and sample size determination. In
Statistical Science in the Courtroom (Gastwirth, J.L., ed.), Springer-Verlag, New
York, pp. 1-24.
Aitken, C.G.G. (2003) Conviction by probability. New Law Journal. 153, 1153-1154.
Aitken, C.G.G. and Gammerman. A. (1989) Probabilistic reasoning in evidential
assess­ment. Journal of the Forensic Science Society, 29, 303-316.
Aitken, C.G.G. and Lucy. D. (2002) Estimation of the quantity of a drug in a con-
signment from measurements on a sample. Journal of Forensic Sciences, 47,
968-975.
Aitken, C.G.G. and Lucy. D. (2004) Evaluation of trace evidence in the form of
multivariate data. Applied Statistics, 53, 109-122.
Aitken, C.G.G. and MacDonald. D.G. (1979) An application of discrete kernel me-
thods to forensic odontology. Applied Statistics, 28. 55-61.
Aitken, C.G.G. and Robertson. J. (1987) A contribution to the discussion of probabi-
lities and human hair comparisons. Journal of Forensic Sciences, 32, 684-689.
Aitken, C.G.G. and Stoney. D.A. (eds) (1991) The Use of Statistics in Forensic Science,
Ellis Horwood, Chichester.
Aitken, C.G.G. and Taroni. F. (1997) A contribution to the discussion on ‘Bayesian
analysis of deoxyribonucleic acid profiling data in forensic identification appli-
cations’. Foreman et al. Journal of the Royal Statistical Society, Series A, 160. 463.
572   Referencias

Aitken, C.G.G. and Taroni. F. (1998) A verbal scale for the interpretation of eviden-
ce (Letter to the Editor). Science & Justice, 38, 179-281.
Aitken, C.G.G, Gammerman, A., Zhang, C., Connolly, T., Bailey, D., Gordon, R.
and Oldfield, R. (1996a) Bayesian belief networks with an application in
specific case analysis. In Computational Learning and Probabilistic Reasoning
(Gammerman A., ed.). John Wiley & Sons Ltd. London, pp. 169-184.
Aitken, C.C.G., Connolly, T., Gammerman, A., Zhang, G., Bailey, D., Gordon, R. and
Oldfield, R. (1996b) Statistical modelling in specific case analysis. Science &
Justice, 36, 245-255.
Aitken, C.G.G., Bring. J., Leonard, T. and Papasouliotis, O. (1997) Estimation
of quantities of drugs handled and the burden of proof. Journal of the Royal
Statistical Society, Series A, 160, 333-350.
Aitken, C.G.G., Taroni, F. and Garbolino, P. (2003) A graphical model for the
evaluation of cross-transfer evidence in DNA profiles. Theoretical Population
Biology, 63, 179-190.
Allen, R.J., Balding, D.J., Donnelly, P., Friedman, R., Kaye, D., LaRue, H., Park,
R.C., Robertson, B. and Stein, A. (1995) Probability and proof in State v.
Skipper: an internet exchange. Jurimetrics Journal, 35, 277-310.
Allen, T.J., and Scranage, J.K. (1998) The transfer of glass. Part I - Transfer of glass
to individuals at different distances. Forensic Science International, 93, 167-174.
Allen, T.J., Hoefler, K. and Rose, S.J. (1998a) The transfer of glass. Part II - A stu-
dy of the transfer of glass to a person by various methods. Forensic Science
International, 93, 175-193.
Allen, T.J., Hoefler, K. and Rose, S.J. (1998b) The transfer of glass. Part III - The
transfer of glass from a contaminated person to another uncontaminated
person during a ride in a car. Forensic Science International, 93, 195-200.
Allen, T.J., Cox, A.R., Barton, S., Messam, P. and Lambert, J.A. (1998c) The trans-
fer of glass. Part IV - The transfer of glass fragments from the surface of an
item to the person carrying it. Forensic Science International, 93. 201-208.
Allen, T.J., Loeke, J. and Scranage, J.K. (1998d) Breaking of flat glass. Part V -
Size and distribution of fragments from vehicle windscreens. Forensic Science
International, 93, 209-218.
Anderson, T. and Twining, W. (1998) Analysis of Evidence: How to Do Things with Facts
Based on Wigmore’s Science of Judicial Proof. Northwestern University Press,
Evanston, IL.
Anderson, T.W. (1984) An Introduction to Multivariate Analysis. John Wiley & Sons,
lnc., New York.
Antelman, G. (1997) Elementary Bayesian Statistics, Edward Elgar. Cheltenham.
Ashcroft, C.M., Evans, S. and Tebbett, LR. (1988) The persistence of fibres in head
hair. Journal of the Forensic Science Society, 28, 289-293.
Ayres, K.L. (2000) Relatedness testing in subdivided populations. Forensic Science
Inter­national, 114, 107-115.
Referencias   573

Balding, D.J. (1995) Estimating products in forensic identification using DNA pro-
files. Journal of the American Statistical Association, 90, 839-844.
Balding, D.J. (1997) Errors and misunderstandings in the second NRC report.
Jurimetrics Journal, 37, 469-476.
Balding, D.J.(1999) When can a DNA profile be regarded as unique? Science &
Justice, 39, 257-260.
Balding, D.J. (2000) lnterpreting DNA evidence: can probability theory help? In:
Statistical Science in the Courtroom (Gastwirth, J.L. ed.), Springer-Verlag, New
York, pp. 51-70.
Balding, D.J. (2002) The DNA database search controversy. Biometrics, 58, 241-144.
Balding. D.J. (2005) Assessing Weight-of-Evidence for DNA Profiles. John Wiley & Sons
Ltd. Chichester.
Balding, D.J. and Donnelly, P. (1994a) How convincing is DNA evidence? Nature
368, 285-286.
Balding, D.J. and Donnelly, P. (1994b) The prosecutor’s fallacy and DNA evidence.
Criminal Law Review, 711-72l.
Balding, D.J. and Donnelly, P. (1995a) Inferring identity from DNA profile eviden-
ce. Proceedings of the National Academy of Sciences USA, 92, 11741-11745.
Balding, D.J. and Donnelly, P. (1995b) Inference in forensic identification (with
discus­sion). Journal of the Royal Statistical Society, Series A, 158, 21-53.
Balding, D.J. and Donnelly, P. (1996) Evaluating DNA profile evidence when the
suspect is identified through a database search. Joumal ol Forensic Sciences, 41,
603-607.
Balding, D.J. and Nichols, R.A. (1994) DNA profile match probability calculation:
how to allow for population stratification, relatedness, database selection
and single bands. Forensic Science Internatíonal, 64, 125-140.
Balding, D.J. and Nichols, R.A. (1995) A method for quantifying differentiation
between populations at multi-allelic loci and its implications for investi-
gating identity and paternity. In Human Identificatíon: The Use of DNA Markers
(Weir, B.S., ed.). Kluwer Academic, Dordrecht, pp. 3-12.
Balding, D.J. and Nichols, R.A. (1997) Significant genetic correlations among
Caucasians at forensic DNA loci. Heredity, 78, 583-589.
Balding, O.J., Greenhalgh, M. and Nichols, R.A. (1996) Population genetics of STR
loci in Caucasians. Internatíonal Journal of Legal Medicine, 108, 300-305.
Balthazard, V. (1911) De l’identification par les empreintes digitales. Comptes Rendus
des Séances de l’Académie des Sciences, 152, 1862-1864.
Bar-Hillel, M. and Falk, R. (1982) Some teasers concerning conditional probabili-
ties. Cognition, 11, 109-122.
Barnard, G.A. (1958) Thomas Bayes - a biographical note (together with a re-
printing of Bayes, 1763). Biometrika, 45, 293-315. Reprinted in Pearson and
Kendall (1970). 131-153.
Barnett, P.D. and Ogle, R.R. (1982) Probabilities and human hair comparison.
Journal of Forensic Sciences, 27, 272-278.
574   Referencias

Bates, J.W. and Lambert, J.A. (1991) Use of the hypergeometric distribution for
sampling in forensic glass comparison. Journal of the Forensic Science Society,
31, 449-455.
Bayes, T. (1763) An essay towards solving a problem in the doctrine of chances.
Philo­sophical Transactions of the Royal Society of London for 1763, 53, 370-418.
Reprinted with Barnard (1958) in Pearson and Kendall (1970), 131-153.
Belin, T.R., Gjertson, D.W. and Hu, M. (1997) Summarizing DNA evidence when
relatives are possible suspects. Journal of the American Statistical Association,
92,706-716.
Bentham, J. (1827) Rationale of Judicial Evidence, Specially Applied to English Practice
(Mill. J.S., ed.), Hunt and Clarke, London.
Berger, J.O. (1985) Statistical Decision Theory and Bayesian Analysis, Springer-Verlag,
New York.
Berger, J.O. and Sellke. T. (1987) Testing a point null hypothesis: the irreconcila-
bility of P values and evidence. Journal of the American Statistical Association, 82,
112-139.
Bernardo, J.M. and Smith, A.F.M. (1994) Bayesian Theory. John Wiley & Sons, Ltd,
Chichester.
Bernoulli, J. (1713) Ars conjectandi, Basle, Switzerland.
Bernoulli, N. (1709) Specimina artis conjectandi ad quaestiones juris applicable, Basle,
Switzerland.
Berry, O.A. (1990) DNA fingerprinting: what does it prove? Chnnce, 3, 15-25.
Berry, O.A. (1991a) Inferences using DNA profiling in forensic identification and
paternity cases. Statistical Science, 6, 175-205.
Berry, O.A. (1991b) Probability of paternity. In The Use of Statistics in Forensic Science
(Aitken, C.G.G. and Stoney, O.A., eds). Ellis Horwood, Chichester, pp. 150-156.
Berry, O.A. (1991c) Bayesian methods in Phase III trials. Drug Information Journal,
25, 345-368.
Berry, O.A. (1993) A case for Bayesianism in c1inical trials. Statistics in Medicine, 12,
1377-1393.
Berry, O.A. (1996) A Bayesian Perspective, Duxbury Press, Belmont, CA.
Berry, D.A. and Geisser, S. (1986) Inference in cases of disputed paternity. In
Statistics and the Law (DeGroot, M.H., Fienberg, S.E. and Kadane, J.B., eds).
John Wiley & Sons. Inc., New York, pp. 353-382.
Berry, D.A., Evett, I.W. and Pinchin, R. (1992) Statistical inference in crime inves­
tigations using deoxyribonucleic acid profiling (with discussion). Applied
Statistics, 41, 499-531.
Bertillon, A. (1897/1898) La comparaison des écritures et l’identification graphique.
Revue Scientifique. 18.12.1897-1.1.1898. Reprint published by Typographie
Chamerot et Renouard, Paris.
Bertillon, A. (1899) Déposition Bertillon (du 18 janvier, 2 février, 4 février et 6 fé-
vrier 1899. In La révision du procès Drefus - Enquête de la Cour de Cassation, P.-V.
Stock, Paris, pp. 482-500.
Referencias   575

Bertillon, A. (1905) Le Réquisitoire de M. Baudoin, Procureur Général, Imprimerie


Nationale, Paris.
Biasotti, A.A. (1959) A statistical study of the individual characteristics of fired
bullets. Journal of Forensic Scientists, 4, 34-50.
Biasotti, A.A. and Murdock, J. (1997) Firearms and toolmark identification: the
scientific basis of firearms and toolmark identification. In Modern Scientific
Evidence: The Law and Science of Expert Testimony (Faigman, L., Kaye, D.H., Saks,
M.J. and Sanders. J., eds). West Publishing. St. Paul, MN, pp. 144-150.
Booth, G., Johnston, F. and Jackson, G. (2002) Case assessment and interpretation
- ­application to a drugs supply case. Science & Justice, 42, 123-125.
Brenner, C.H. and Weir, B.S. (2003) Issues and strategies in the DNA identification
of World Trade Center victims. Theoretical Population Biology, 63, 173-178.
Briggs, T.J. (1978) The probative value of bloodstains on clothíng. Medicine, Science
and the Law, 18, 79-83.
Bring, J. and Aitken, C.G.G. (1997) Burden of proof and estimation of drug quantities
under the Federal Sentencing Guidelines. Cardozo Law Review, 18, 1987-1999.
Brookfield, J.F.Y. (1994) The effect of relatíves on the likelihood ratio associated
with DNA profile evidence in criminal cases. Journal of the Forensic Science
Society, 34, 193-197.
Brown, G.A. and Cropp, P.L. (1987) Standardised nomenclature in forensic scien-
ce. Journal of the Forensic Science Society, 27, 393-399.
Buckleton, J. (1999) What can the 90’s teach us about good forensic science?
Paper presented at the First lnternational Conference on Forensic Human
Identification in The Millenium, London, 24-26 October.
Buckleton, J.S. and Evett, I.W. (1989) Aspects of the Bayesian interpretation of
fibre evidence. CRSE Report 684, Home Office Forensic Science Service,
1-17.
Buckleton, J.S., Triggs, C.M. and Walsh, S.J. (2004) DNA evidence, CRC Press. Boca
Raton, Florida, USA.
Buckleton, J.S. and Walsh, K.A.J. (1991) Knowledge-based systems. In The Use
of Statistics in Forensic Science (Aitken, C.G.G. and Stoney, D.A., eds). Ellis
Horwood, Chichester, pp. 186-206.
Bucklelon, J., Walsh, K.A.J., Seber, G.A.F. and Woodfield, O.G. (1987) A stratified
approach to the compilation of blood group frequency surveys. Journal of the
Forensic Science Society, 27, 103-112.
Buckleton, J.S., Walsh, K.A.J. and Evett. I.W. (1991) Who is ‘random man’? Journal
of the Forensic Science Society, 31, 463-468.
Buckleton, J.S., Evett, I.W. and Weir, B.S. (1998) Setting bounds for the likelihood
ratio when multiple hypotheses are postulated. Science & Justice, 38, 23-26.
Budowle, B., Chakraborty, R., Carmody, G. and Monson, K.L. (2000) Source attri­
bution of a forensic DNA profile. Forensic Science Communications, 2.
Bunch, S.G. (2000) Consecutive matching striation criteria: a general critique.
Journal of Forensic Sciences, 45, 955-962.
576   Referencias

Cakir, A.H., Simsek, F., Acik, L. and Tasdelen, B. (2001) Distribution of HumTPOX,
HumvWA, HumTH01 alleles in a Turkish population sample, Journal of Forensic
Sciences, 46, 1257-1259.
Calman, K.C (1996) Cancer: science and society and the communication of risk.
British Medical Journal, 313, 799-802.
Calman, K.C. and Royston, G.B.D. (1997) Risk language and dialects. British Medical
Journal, 315, 939-941.
Cantrell, S., Roux, C., Maynard, P. and Robertson, J. (2001) A textile fibre survey as
an aid to the interpretation of fibres evidence in the Sydney region. Forensic
Science International, 123, 48-53.
Carracedo, A., Barros, F., Lareu, M.V., Pestoni, C. and Rodríguez-Calvo, M.S. (1996)
Focusing the debate on forensic genetics, Science & Justice, 36, 204-205.
Carracedo, A., Bär, W., Lincoln, P.J., Mayr, W., Morling, N., Olaisen, B., Schneider, P.,
Budowle, B., Brinkmann, B., Gill, P., Holland, M., Tully, G. and Wilson, M. (2000)
DNA Commission of the International Society for Forensic Genetics: guidelines
for mitochondrial DNA typing. Forensic Science International, 110, 79-85.
Ceci, S.J. and Friedman, R.D. (2000) The suggestibility of children: scientific re-
search and legal implications. Cornell Law Review, 86. 33-108.
Chable, J., Roux, C. and Lennard, C.J. (1994) Collectíon of fiber evidence using
water­soluble cellophane tape. Journal of Forensic Sciences, 39, 1520-1527.
Chabli, S. (2001) Scene of crime evidence: fibres. In Proceedings of the 13th INTERPOL
Forensic Science Symposium (Tontarski Jr, R.E., ed.), National Forensic Science
Tech­nology Centre, Largo, FL, pp. 106-119.
Champod, C. (1995) Locard, numerical standards and ‘probable’ identification.
Journal of Forensic ldentification, 45, 132-159.
Champod, C. (l996) Reconnaissance automatique et analyse statistique des minuties
sur les empreintes digitales. Doctoral thesis, Institut de Police Scientifique et
de Criminologie, Université de Lausanne, Imprimerie Evard, Concise,
Switzerland.
Champod, C. (1999) The inference of identity of source: theory and practice.
Paper presented at the First International Conference on Forensic Human
Identification in The Millenium, London, 24-26 October.
Champod, C. (2000) Identification/individualization. In Encyclopedia of Forensic
Sciences (Siegel, J.A., Saukko, P.J. and Knupfer, G.C., eds) Academic Press,
San Diego, CA, pp, 1077-1084.
Champod, C. and Evett, I.W. (2000) Commentary on Broeders, A.P.A. (1999) ‘Some
observations on the use of probability scales in forensic identification’.
Forensic Linguistics, 6, 228-241; Forensic Linguistics, 7, 238-243.
Champod, C. and Evett, I.W. (2001) A probabilistic approach to fingerprint eviden-
ce. Journal of Forensic Identification, 51, 101-122.
Champod, C. and Jackson, G. (2000) European Fibres Group Workshop: Case as-
sessment and Bayesian interpretation of fibres evidence. In Proceedings of the
8th Meeting of European Fibres Group, Kraków, Poland, 33-45.
Referencias   577

Champod, C. and Jackson, G. (2002) Comments on the current debate on the


Bayesian approach in marks examination. Information Bulletin for Shoeprint
Toolmark Examiners, 8(3), 22-25.
Champod, C. and Margot, P. (1996) Computer assisted analysis of minutiae oc-
currences on fingerprints. In Proceedings of the International Symposium on
Fingerprint Detection and Identification (Almog, J. and Springer, E., eds), Israel
National Police, Jerusalem, pp. 305-318.
Champod, C. and Margot, P. (1997) Analysis of minutiae occurrences in finger-
prints ­- the search for non-combined minutiae. In Current Topics in Forensic
Science - Proceedings of the 14th Meeting of the International Association of Forensic
Sciences (Takatori, T. and Takasu, A.). Shunderson Communications, Ottawa,
pp. 55-58.
Champod, C. and Meuwly, D. (2000) The inference of identity in forensic speaker
recog­nition. Speech Communication, 31, 193-203.
Champod, C. and Taroni, F. (1997) Bayesian framework for the evaluation of fibre
transfer evidence. Science & Justice, 37, 75-83.
Champod, C. and Taroni, F. (1999) Interpretation of evidence: the Bayesian appro-
ach. In Forensic Examination of Fibres (Robertson, J. and Grieve, M., eds).
Taylor and Francis, London, pp. 379-398.
Champod, C., Taroni, F., and Margot, P. (1999) The Dreyfus case - an early debate
on experts’ conclusions (an early and controversial case on questioned do-
cument examination). International Journal of Forensic Document Examiners, 5,
446-459.
Champod, C., Evett, I.W., Jackson, G. and Birkett, J. (2000) Comments on the scale
of conclusions proposed by the ad hoc committee of the ENFSI marks wor-
king group. Information Bulletin for Shoeprint Toolmark Examiners, 6(3), 11-18.
Champod, C., Evett, I.W. and Kuchler, B. (2001) Earmarks as evidence: a critical
review. Journal of Forensic Sciences, 46, 1275-1284.
Champod, C., Baldwin, D., Taroni, F. and Buckleton, J.S. (2003) Firearms and tool
marks identification: the Bayesian approach. AFTE (Association of Firearm and
Toolmark Examiners) Journal, 35, 307-316.
Champod, C., Lennard, C.J., Margot, P. and Stoilovic, M. (2004). Fingerprints and
Other Ridge Skin Impressions. CRC Press, Boca Raton, FL.
Chan, K.P.S. and Aitken, C.G.G. (1989) Estimation of the Bayes factor in a forensic
science problem. Journal of Statistical Computation and Simulation, 33, 249-264.
Charpentier, A. (1933) Historique de l’affaire Dreyfus, Fasquelle, Paris.
Clayton, T.M., Whitaker, J.P., Sparkes, R. and Gill, P. (1998) Analysis and interpreta­
tion of mixed forensic stains using DNA STR profiling. Forensic Science lnter-
national, 91, 55-70.
Cochran, W.G. (1977) Sampling Techniques, 3rd edition. John Wiley & Sons, Ltd,
Chichester.
Cockerham, C.C. (1969) Variance of gene frequencies. Evolution, 23, 72-84.
Cockerham, C.C. (1973) Analysis of gene frequencies. Genetics, 74, 679-700.
578   Referencias

Cohen, L.J. (1977) The Probable and the Provable, Clarendon Press, Oxford.
Cohen, L.J. (1988) The difficulty about conjunction in forensic proof, The Statistician,
37, 415-416.
Coleman, R.F. and Walls, H.J. (1974) The evaluation of scientific evidence. Criminal
Law Review, 276-287.
Colón, M., Rodríguez, G. and Díaz, R.O. (1993) Representative sampling of ‘street’
drug exhibits. Journal of Forensic Sciences, 38, 641-648.
Condorcet (de Caritat. M.J.A.N.), Marquis de (1785) Essai sur l’application de l’analyse à
la probabilité des décisions rendues à la pluralité des voix, Imprimerie Royale, Paris.
Cook, R., Evett, I.W., Jackson, G. and Rogers, M. (1993) A workshop approach to
improving the understanding of the significance of fibres evidence. Science
& Justice, 33, 149-152.
Cook, R., Webb-Salter, M.T. and Marshall, L. (1997) The significance of fibres
found in head hair. Forensic Science International, 87, 155-160.
Cook, R., Evett, I.W., Jackson, G., Jones, P.J. and Lambert, J.A. (1998a) A model for
case assessment and interpretation. Science & Justice, 38, 151-156.
Cook, R., Evett, I.W., Jackson, G., Jones, P.J. and Lambert, J.A. (1998b) A hier­
archy of propositions: deciding which level to address in casework. Science
& Justice, 38, 231-239.
Cook, R., Evett, I.W., Jackson, G., Jones, P.J. and Lambert, J.A. (1999) Case pre­
assessment and review of a two-way transfer case. Science & Justice, 39, 103-
122.
Coulson, S.A., Buckleton, J.S., Gummer, A.B. and Triggs, C.M. (2001a) Glass on
clothing and shoes of members of the general population and people sus-
pected of breaking crimes. Science & Justice, 41, 39-48.
Coulson, S.A., Coxon, A. and Buckleton, J.S. (2001b) How many samples from a
drug seizure need to be analyzed? Journal of Forensic Sciences, 46, 1456-1461.
Coumot, A.A. (1838) Sur les applications du calcul des chances á la statistique ju-
diciaire. Journal des Mathématiques Pures et Appliquées, 3, 257-334.
Cowell, R.C., Dawid, A.P., Lauritzen, S.L. and Spiegelhalter, D. (1999) Probabilistic
Networks and Expert Systems, Springer-Verlag, New York.
Crow, E.L., Davis, FA and Maxfield, M.W. (1960) Statistics Manual, Dover, New
York, 51-52.
Cullison, A.D. (1969) Probability analysis of judicial fact-finding: a preliminary
outline of the subjective approach. University of Toledo Law Review, 538-598.
Curran, J.M. (2003) The statistical interpretation of forensic glass evidence.
International Statistical Review, 71, 497-520.
Curran, J.M., Triggs, C.M., Almirall, J.R., Buckleton, J.S. and Walsh, K.A.J. (1997a)
The interpretation of elemental composition measurements from forensic
glass evidence: I. Science & Justice, 37, 241-244.
Curran, J.M., Triggs, C.M., Almirall, J.R., Buckleton, J.S. and Walsh, K.A.J. (1997b)
The interpretation of elemental composition measurements from forensic
glass evidence: n. II. Science & Justice, 37, 245-249.
Referencias   579

Curran, J.M., Triggs, C.M., Buckleton, J.S., Walsh, K.A.J. and Hicks, T. (1998a)
Assessing transfer probabilities in a Bayesian interpretation of forensic glass
evidence. Science & Justice, 38, 15-21.
Curran, J.M., Triggs, C.M. and Buckleton, J.S. (1998b) Sampling in forensic com-
parison problems, Science & Justice, 38, 101-107.
Curran, J.M., Triggs, C.M., Buckleton, J.S. and Coulson, S. (1998c) Combining a
continuous Bayesian approach with grouping information. Forensic Science
lnter­national, 91, 181-196.
Curran, J.M., Buckleton, J.S. and Triggs, C.M. (1999a) Commentary on Koons,
R.D. and Buscaglia. J., The forensic significance of glass composition and
refractive index measurements. J. Forensic Sci., 1999, 44, 496-503. Journal of
Forensic Sciences, 44, 1324-1325.
Curran, J.M., Triggs, C.M., Buckleton, J.S. and Weir, B.S. (1999b) Interpreting DNA
mixtures in structured populations. Journal of Forensic Sciences, 44, 987-995.
Curran, J.M., Hicks, T.N. and Buckleton, J.S. (2000) Forensic Interpretation of Glass
Evidence, CRC Press, Boca Raton, FL.
Curran, J.M., Buckleton, J.S., Triggs, C.M. and Weir, B.S. (2002) Assessing uncer-
tainty in DNA evidence caused by sampling effects. Science & Justice, 42, 29-37.
Dabbs, M.G.D. and Pearson, E.F. (1970) Heterogeneity in glass. Journal of the Forensic
Science Society, 10, 139-148.
Dabbs, M.G.D. and Pearson, E.F. (1972) Some physical properties of a large num-
ber of window glass specimens. Journal of the Forensic Sciences, 17, 70-78.
Darboux, J.G., Appell, P.E. and Poincaré, J.H. (1908) Examen critique des divers
systèmes ou études graphologiques auxquels a donné lieu le bordereau. In
L’affaire Drefus - La révision du procès de Rennes - enquête de la chambre criminelle de la
Cour de Cassation, Ligue francaise des droits de l’homme et du citoyen, Paris,
pp. 499-600.
Darroch, J. (1985) Probability and criminal trials. Newsletter of the Statistical Society oi
Australia, 30, 1-7.
Darroch, J. (1987) Probability and criminal trials; some comments prompted by
the Splatt trial and The Royal Commission. Professional Statistician, 6, 3-7.
Davis, R.J. (ed.) (1986) The Splatt case. Journal of the Forensic Science Society, 26, 219-221.
Davis, R.J. and DeHaan, J.D. (1977) A survey of men’s footwear. Journal of the Forensic
Science Society, 17, 271-285.
Davison, A.C. and Hinkley, D.V, (1997) Bootstrap Methods and Their Application,
Cambridge University Press, Cambridge.
Dawid, A.P. (1987) The difficulty about conjunction. The Statistician, 36, 91-97.
Dawid, A.P. (1994) The island problem: coherent use of identification evidence. In
Aspects of Uncertainty: A Tribute to D.V. Lindley (Freeman, P.R. and Smith, A.F.M.,
eds), John Wiley & Sons, Ltd, Chichester, pp. 159-170.
Dawid, A.P. (2001) Comment on Stockmarr (Likelihood ratios for evaluating DNA
evidence when the suspect is found through a database search. Biometrics,
1999, 55,671-677). Biometrics, 57, 976-980.
580   Referencias

Dawid, A.P. (2002) Bayes’s theorem and the weighing of evidence by juries. In
Bayes’s theorem: Proceedings of the British Academy, Vol. 113 (Swinburne, R., ed.),
Oxford University Press, Oxford, pp. 71-90.
Dawid, A.P. (2003) An object-oriented Bayesian network for evaluating muta­tion
rates. In Proceedings of the Ninth International Workshop on Artificial 1ntel­ligence
and Statistics (Bishop, C.M. and Frey, B.J., eds), Key West (available at http://
research.microsoft.com/conferences/aistats200 3/proceedings/188. pdf).
Dawid, A.P. and Evett, I.W. (1997) Using a graphical model to assist the evaluation
of complicated patterns of evidence. Journal of Forensic Sciences, 42, 226-231.
Dawid, A.P. and Mortera, J. (1996) Coherent analysis of forensic identification evi-
dence. Journal of the Royal Statistical Society, Series B, 58, 425-443.
Dawid, A.P., Mortera, J. and Pascali, V.L. (2001) Non-fatherhood or mutation? A
probab­ilistic approach to parental exclusion in paternity testing. Forensic
Science lnternational, 124, 55-61.
Dawid, A.P., Mortera. J., Pascali, V.L. and van Boxel. D. (2002) Probabilistic expert
systems for forensic inference from genetic markers. Scandinavian Journal of
Statistics, 29, 577-595.
de Finetti, B. (1930) Fondamenti logici del ragionamento probabilistico. Bollettino
della Unione Matematica Italiana, 9, 258-261.
de Finetti, B. (1931) Sul significato soggettivo delle probabilita. Fundamenta
Mathematicae, 17, 298-329.
de Finetti, B. (1952) La nozione di evento. Atti del Congresso di Metodologia, Centro
Studi Metodologici, Ramella, Turin, pp. 170-174. Translated in B. de Finetti,
Probabilità e induzione, Clueb, Bologna (1993).
de Finetti, B. (1968) Probability: the subjectivistic approach. In La philosophie
contempo­raine. Vol. 2 (Klibansky, R., ed.), La Nuova Italia, Florence, pp. 45-53.
Decorte, R. and Cassiman, J.J. (1993) Forensic medicine and the polymerase chain
reaction technique. Journal of Medical Genetics, 30, 625-633.
DeGroot, M.H. (1970) Optimal Statistical Decisions, McGraw-Hill, New York.
Devlin, B. (2000) The evidentiary value of a DNA database search. Biometrics, 56, 1276.
Diaconis, P. and Freedman, D. (1981) The persistence of cognitive illusions.
Behavioural and Brain Sciences, 4, 333-334.
Dickson, D. (1994) As confusion leads to retrial in UK. Nature, 367, 101-102.
Donnelly, P. and Friedman, R, (1999) DNA database searches and the legal con-
sumption of scientific evidence. Michigan Law Review, 97, 931-984.
Dujourdy, L., Barbati, G., Taroni. F., Guéniat, O., Esseiva, P., Anglada, F. and
Margot, P. (2003) Evaluation of links in heroin seizures. Forensic Science 1nter-
national, 131, 171-183.
Edwards, A.W.F. (1992) Likelihood, expanded edition, John Hopkins University
Press, Baltimore, MD.
Edwards, W. (1986) Comment. Boston University Law Review, 66, 623-626.
Edwards, W. (1991) Influence diagrams, Bayesian imperialism, and the Collins
case: an appeal to reason. Cardozo Law Review, 13, 1025-1079.
Referencias   581

Edwards, W., Lindman, H. and Savage, L.J. (1963) Bayesian statistical inferen-
ce for psychological research. Psychological Review. 70, 193-242. Reprinted in
Robustness of Bayesian Analyses (Kadane, J., ed.), Elsevier, Amsterdam, 1984.
Encyclopaedia Britannica (1993) DNA. In Micropaedia, Vol. 4, Encyclopaedia Britanica
(15th edition), pp. 140-141.
Eggleston, R. (1983) Evidence, Proof and Probability, 2nd edition. Weidenfeld and
Nicolson, London.
Ellman, LM. and Kaye, D. (1979) Probabilities and proof: can HLA and blood
group testing prove paternity? New York University Law Review, 54, 1131-1162.
Engel, E. and Venetoulias, A. (1991) Monty Hall’s probability puzzle. Chance, 4,
6-9.
Essen-Möller, E. (1938) Die Beweiskraft der Ähnlichkeit im Vaterschaftsnachweis:
Theor­etische Grundlagen. Mitteilungen der Anthropologischen Gesellschaft, 68, 9-53.
Evans, M., Hastings, N. and Peacock, B. (2000) Statistical distributions, 3rd edition,
John Wiley & Sons. Inc., New York.
Evett, I.W. (1977) The interpretation of refractive index measurements. Forensic
Science International, 9, 209-217.
Evett, I.W. (1978) The interpretation of refractive index measurements, II. Forensic
Science International, 12, 34-47.
Evett, I.W. (1983) What is the probability that this blood came from that person? A
meaningful question? Journal of the Forensic Science Society, 23, 35-39.
Evett, I.W. (1984) A quantitative theory for interpreting transfer evidence in crimi-
nal cases. Applied Statistics, 33, 25-32.
Evett, I.W. (1986) A Bayesian approach to the problem of interpreting glass evidence
in forensic science casework. Journal of the Forensic Science Society, 26, 3-18.
Evett, I.W. (1987a) Bayesian inference and forensic science: problems and pers-
pectives. The Statistician, 36, 99-105.
Evett, I.W. (1987b) On meaningful questions: a two-trace transfer problem. Journal
of the Forensic Science Society, 27, 375-381.
Evett, I.W. (1990) The theory of interpreting scientific transfer evidence. In Forensic
Science Progress, Volume 4, Springer- Verlag, Berlin, pp. 141-179.
Evett, I.W. (1992) Evaluating DNA profiles in the case where the defence is ‘It was
my brother’. Journal of the Forensic Science Society, 32, 5-14.
Evett, I.W. (1993a) Establishing the evidential value of a small quantity of material
found at a crime scene. Journal of the Forensic Science Society, 33, 83-86.
Evett, I.W. (1993b) Criminalistics: the future of expertise. Journal of the Forensic
Science Society, 33, 173-178.
Evett, I.W. (1995) Avoiding the transposed conditional. Science & Justice, 35,127-131.
Evett, I.W. (1998) Towards a uniform framework of reporting opinions in forensic
science casework. Science & Justice, 38, 198-202.
Evett, I.W. and Buckleton, J.S. (1990) The interpretation of glass evidence. A prac-
tical approach. Journal of the Forensic Science Society, 30, 215-223.
582   Referencias

Evett, I.W. and Buckleton, J.S. (1996) Statistical analysis of STR data. In Advances
in Forensic Haemogenetics, Volume 6 (Carracedo, A., Brinkmann, B. and Bar, W.,
eds), Springer-Verlag, Berlin, pp. 79-86.
Evett, I.W. and Lambert, J.A. (1982) The interpretation of refractive index measure­
ments, III. Forensic Science International, 20, 237-245.
Evett, I.W. and Lambert, J.A, (1984) The interpretation of refractive index measu-
rements, IV. Forensic Science International, 26, 149-163.
Evett, I.W. and Lambert, J.A. (1985) The interpretation of refractive index measure­
ments, V. Forensic Science International, 27, 97-110.
Evett, I.W. and Weir, B.S. (1992) Flawed reasoning in court. Chance, 4, 19-21.
Evett, I.W. and Weir, B.S, (1998) Interpreting DNA Evidence. Sinauer Associates,
Sunderland, MA.
Evett, I.W. and WiIliams, R. (1996) A review of the sixteen point fingerprint stan-
dard in England and Wales. Journal of Forensic Identification, 46, 49-73.
Evett, I.W., Cage, P.E. and Aitken, C.G.G. (1987) Evaluation of the likelihood ratio
for fibre transfer evidence in criminal cases. Applied Statistics, 36, 174-180.
Evett, I.W., Werrett, D.J. and Buckleton, J.S. (1989a) Paternity calculations from
DNA multilocus profiles. Journal of the Forensic Science Society, 29, 249-254.
Evett, I.W., Werrett, D.J. and Smith, A,F.M. (1989b) Probabilistic analysis of DNA
profiles. Journal of the Forensic Science Society, 29, 191-196.
Evett, I.W., Buffery, C., Willott, G. and Stoney, D.A. (1991) A guide to interpreting
single locus profiles of DNA mixtures in forensic cases. Journal of the Forensic
Science Society, 31, 41-47.
Evett, I.W., Pinchin, R. and Buffery, C. (1992a) An investigation of the feasibility
of inferring ethnic origin from DNA profiles. Journal of the Forensic Science
Society, 32, 301-306.
Evett, I.W., Scranage, J. and Pinchin, R. (1992b) An efficient statistical procedure
for interpreting DNA single locus profiling data in crime cases. Journal of the
Forensic Science Society, 32, 307-326.
Evett, I.W., Scranage, J. and Pinchin, R. (1993) An iIlustration of the advantages of
efficient statistical methods for RFLP analysis in forensic science. American
Journal of Human Genetics, 52, 498-505.
Evett, I.W., Lambert, J.A. and Buckleton, J.S. (1995) Further observations on glass
evidence interpretation. Science & Justice, 35, 283-289.
Evett, I.W., Lambert, J.A. and Buckleton, J.S. (1998a) A Bayesian approach to
inter­preting footwear marks in forensic casework. Science & Justice, 38,
241-247.
Evett, I.W., Gill P.D. and Lambert, J.A. (1998b) Taking account of peak are as when
interpreting mixed DNA profiles. Journal of Forensic Sciences, 43, 62-69.
Evett, I.W., Jackson, G., Lambert. J.A. and McCrossan, S. (2000a) The impact of
the principies of evidence interpretation and the structure and content of
statements. Science & Justice, 40, 233-239.
Referencias   583

Evett, I.W., Jackson, G. and Lambert, J.A. (2000b) More on the hierarchy of pro-
positions: exploring the distinction between explanations and propositions.
Science & Justice, 40, 3-10.
Evett, I.W., Foreman, L.A. and Weir, B.S. (2000c) Letter to the Editor. Biometrics,
56, 1274-1275.
Evett, I.W., Foreman, L.A. and Weir, B.S. (2000d) A response to Devlin (The eviden-
tiary value of a DNA database search. Biometrics, 56, 1276). Biometrics, 56, 1277.
Evett, I.W., Foreman, LA, Jackson, G. and Lambert, J.A (2000e) DNA profiling: a
discussion of issues relating to the reporting of very small match probabili-
ties. Criminal Law Review, 341-355.
Evett, I.W., Gill, P.D., Jackson, G., Whitaker, J. and Champod, C. (2002) Interpreting
small quantities of DNA: the hierarchy of propositions and the use of
Bayesian networks. Journal of Forensic Sciences, 47, 520-530.
Faber, N.M., Sjerps, M., Leijenhorst, H.A.L. and Maljaars, S.E. (1999) Determining
the optimal sample size in forensic casework - with application to fibres.
Science & Justice, 39, 113-122.
Fairley, W.B. (1973). Probabilistic analysis of identification evidence. Journal of
Legal Studies, II, 493-513.
Fairley, W.B. (1975), Probabilistic analysis of identification evidence. In Utility,
Probability and Human Decision Making (Wendt, D. and Vlek, C., eds), Reidel,
Dordrecht, p. 251.
Fairley, W.B. and Mosteller, W. (1974) A conversatíon about Collins. University of
Chicago Law Review. 41, 242-253.
Fairley, W.B. and Mosteller, W. (1977) Statistics and Public Policy. Addison-Wesley,
London, pp.355-379.
Falk, R. (1992) A doser look at the probabilities of the notorious three prisoners.
Cognition, 43, 197-223.
Fienberg, S.E. (ed.) (1989) The Evolving Role of Statistical Assessments as Evidence in the
Courts, Springer-Verlag, New York.
Fienberg, S.E. and Finkelstein, M.P. (1996) Bayesian statistics and the law. In
Bayesian Statistics 5 (Bernardo, J.M., Berger, J.O., Dawid, A.P. and Smith,
A.F.M., eds). Oxford University Press, Oxford, pp. 129-146.
Fienberg, S.E. and Kadane, J.B. (1983) The presentation of Bayesian statistical
analyses in legal proceedings. The Statistician, 32, 88-98.
Fienberg, S.E. and Kaye, D.H. (1991) Legal and statistical aspects of some myste-
rious dusters. Journal of the Royal Statistical Society, Series A, 154, 265-270.
Fienberg, S.E. and Schervish, M.J. (1986) The relevance of Bayesian inference for
the presentation of statistical evidence and for legal decision making. Boston
University Law Review, 66, 771-798.
Fienberg, S.E., Krislov, S.H. and Straf, M.L. (1996) Understanding and evaluating
stat­istical evidence in litigation. Jurimetrics Journal, 36, 1-32.
Finkelstein, M.O. and Fairley, W.B. (1970) A Bayesian approach to identification
evid­ence. Harvard Law Review, 83, 489-517.
584   Referencias

Finkelstein, M.O. and Fairley, W.B. (1971) A comment on ‘Trial by mathematics’.


Harvard Law Review, 84, 1801-1809.
Finkelstein, M.O. and Levin, B. (2001) Statistics for Lawyers, 2nd edition, Springer-
Verlag, New York.
Finney, D.J. (1977) Probabilities based on circumstantial evidence. Journal of the
American Statistical Association, 72, 316-318.
Fisher, R.A. (1951) Standard calculations for evaluating a blood-group system.
Heredity, 5, 51-102.
Fleming, P., Blair, P., Bacon, C. and Berry, J. (2000) Sudden Unexpected Deaths in
Infancy, Her Majesty’s Stationery Office, London.
Fong, W. and Inami, S.H. (1986) Results of a study to determine the probability of
chance match occurrences between fibres known to be from different sour-
ces. Journal of Forensic Sciences, 31, 65-72.
Foreman, L.A. and Evett, I.W. (2001) Statistical analyses to support forensic
interpret­ation for a new ten-locus STR profiling system. International Journal
of Legal Medicine, 114, 147-155.
Foreman, L.A., Smith, A.F.M. and Evett. I.W. (1997a) Bayesian analysis of
deoxyribo­nucleic acid profiling data in forensic identification applications
(with discussion). Journal of the Royal Statistical Society, Series A, 160, 429-469.
Foreman, L.A. Smith, A.F.M. and Evett, I.W. (1997b) A Bayesian approach to va-
lidating STR multiplex databases for use in forensic casework. International
Journal of Legal Medicine. 110, 244-250.
Foreman, L.A., Lambert, J.A. and Evett, I.W. (1998) Regional genetic variation in
Caucasians. Forensic Science International, 95, 27-37.
Foreman, L.A., Champod, C., Evett, I.W., Lambert, J.A. and Pope, S. (2003) Interpreting
DNA evidence: a review. International Statistical Review, 71, 473-495.
Frank, R.S., Hinkley, S.W. and Hoffman, C.G. (1991) Representative sampling of
drug seizures in multiple containers. Journal of Forensic Sciences, 36, 350-357.
Freeling, A.N.S. and Sahlin, N.E. (1983) Combining evidence. In Evidentiary Value
(Gardenfors. P., Hansson, B. and Sahlin, N.E., eds). C.W.K. Gleerup, Lund,
Sweden, pp. 58-74.
Friedman, R.D. (1986a) A diagrammatic approach to evidence. Boston University
Law Review, 66, 571-622.
Friedman, R.D. (1986b) A close look at probative value. Boston University Law Review,
66, 733-759.
Friedman, R.O. (1996) Assessing evidence. Michigan Law Review, 94, 1810-1838.
Friedman, R.D., Kaye, D.H., Mnookin, J., Nance, D. and Saks. M. (2002) Expert
testimony on fingerprints: an Internet exchange, Jurimetrics, 43, 91-98.
Fukshansky, N. and Baer, W. (1999) Biostatistical evaluation of mixed stains with
contributors of different ethnic origin. International Journal of Legal Medicine,
112, 383-387.
Fukshansky, N. and Baer, W. (2000) Biostatistics for mixed stains: the case of tested
relatives of a non-tested suspect. International Journal of Legal Medicine, 114, 78-82.
Referencias   585

Fung, W.K. (2003) User-friendly programs for easy calculations in paternity testing
and kinship determinations. Forensic Science International, 136, 22-34.
Fung, W.K. and Hu, Y.Q. (2000a) Interpreting DNA mixtures based on the
NRC-II recommendation 4.1. Forensic Science Communications, 2. Available at
http://www.fbigov/hq/lab/fsc/backissu/oct2000/fung.htm
Fung, W.K. and Hu, Y.Q. (2000b) Interpreting forensic DNA mixtures, allowing for
uncertainty in population substructure and dependence. Journal of the Royal
Statistical Society, Series A, 163, 241-254.
Fung, W.K. and Hu, Y.Q. (2002) The statistical evaluation of DNA mixtures with
contributors from different ethnic groups. International Joumal of Legal
Medicine, 116, 79-86.
Fung, W.K., Chung, Y. and Wong, D. (2002) Power of exclusion revisited: probabili-
ty of excluding relatives of the true father fram paternity. Internatianal Journal
of Legal Medicine, 116, 64-67.
Fung, W.K., Carracedo, A. and Hu, Y.Q. (2003) Testing for kinship in a subdivided
population. Forensic Science International, 135, 105-109.
Gaensslen, R.E., Bell, S.C. and Lee, H.C. (1987a) Distribution of genetic markers
in United States populations: 1. Blood group and secretor systems. Journal of
Forensic Sciences, 32, 1016-1058.
Gaensslen, R.E., Bell, S.C. and Lee, H.C. (1987b) Distribution of genetic markers in
United States populations: 2. Isoenzyme systems, Journal of Forensic Sciences,
32, 1348-1381.
Gaensslen, R.E., Bell, S.C. and Lee, H.C. (1987c) Distribution of genetic markers
in United States populations: 3. Serum group systems and haemoglobin va-
riants. Journal of Forensic Sciences, 32, 1754-1774.
Garber, D. and Zabell, S. (1979) On the emergence of probability. Archive for History
of Exact Sciences, 21, 33-53.
Garbolino, P. (2001) Explaining relevance. Cardozo Law Review. 22, 1503-1521.
Garbolino, P. and Taroni, F. (2002) Evaluation of scientific evidence using Bayesian
networks. Forensic Science International, 125, 149-155.
Gastwirth, J.L. (1988a) Statistical Reasoning in Law and Public Policy, Volume 1: Statistical
Concepts and Issues of Fairness, Academic Press, San Diego, CA.
Gastwirth, J.L. (1988b) Statistical Reasoning in Law and Public Policy, Volume 2: Tort
Law, Evidence and Health, Academic Press, San Diego, CA.
Gastwirth, J.L. (ed.) (2000) Statistical Science in the Courtroom, Springer-Verlag, New
York.
Gastwirth, J.L., Freidlin, B. and Miao, W. (2000) The Shonubi case as an example of
the legal system’ s failure to appreciate statistical evidence. In Statistical Science
in the Courtroom (Gastwirth, J.L., ed.), Springer-Verlag, New York, pp. 405-413.
Gaudette, B.D. (1982) A supplementary discussion of probabilities and human
hair comparisons. Journal of Forensic Sciences, 27, 279-289.
Gaudette, B.O. (1986) Evaluation of associative physical evidence. Journal of the
Forensic Science Society, 26, 163-167.
586   Referencias

Gaudette, B.D. (1999) Evidential value of hair examination. In Forensic Examination


of Hair (Robertson, J., ed.), Taylor & Francis, London, pp. 243-260.
Gaudette, B.D. (2000) Comparison: significance of hair evidence. In Encyclopedia of
Forensic Sciences (Siegel, J.A., Saukko. P.J. and Knupfer, G.C., eds), Academic
Press, San Diego, pp. 1018-1024.
Gaudette, B.D. and Keeping, E.S. (1974) An attempt at determining probabilities
in human scalp hair comparison. Journal of Forensic Sciences, 19, 599-606.
Geisser, S. (1993) Predictive Inference: An Introduction. Chapman & Hall, London.
Gelfand, A.E. and Solomon, H. (1973) A study of Poisson’s models for jury verdicts in
criminal and civil trials. Journal of the American Statistical Association, 68, 271-278.
Gettinby, G. (1984) An empirical approach to estimating the probability of inno-
cently acquiring bloodstains of different ABO groups in clothing. Journal of
the Forensic Science Society, 24, 221-227.
Gill, P. (2001) An assessment of the utility of single nucleotide polymorphisms (SNPs)
for forensic purposes. International Journal of Legal Medicine, 114, 204-210.
Gill, P., Ivanov, P.L., Kimpton, C., Piercy, R., Benson, N., Tully, G., Evett, I.,
Hagelberg, E. and Sullivan, K. (1994) Identification of the remains of the
Romanov family by DNA analysis. Nature Genetics, 6, 130-135.
Gill, P., Sparkes, R., Pinchin, R., Clayton, T.M., Whitaker, J. and Buckleton, J.S.
(1998a) Interpreting simple STR mixtures using allele peak areas. Forensic
Science International, 91, 41-53.
Gill, P., Sparkes, R. and BuckJeton, J.S. (1998b) Interpretation of simple mixtu-
res of when artefacts such as stutters are present - with special reference
to multiplex STRs used by the Forensic Science Service. Forensic Science
International, 95, 213-224.
Gill, P., Brenner, C., Brinkmann, B., Budowle, B., Carracedo, A., Jobling, M.A.,
de Knijff, P., Kayser, M., Krawczak, M., Mayr, W., Morling, N., Olaisen,
B., Pascali, V., Prinz, M., Roewer, L., Schneider, P., Sajantila, A. and Tyler-
Smith, C. (2001) DNA Commission of the InternationaI Society for Forensic
Genetics: recommendations on forensic analysis using Y-chromosome STRs.
Forensie Science International, 124, 5-10.
Goldmann, T., Taroni, F. and Margot, P. (2004) Analysis of dyes in illicit pills
(amphet­amine and derivatives). Journal of Forensic Sciences.
Good, I.J. (1950) Probability and the Weighing of Evidence. Griffin, London.
Good, I.J. (1956) Discussion of paper by G. Spencer Brown. In Information Theory: Third
London Symposium, 1955 (Cherry, C., ed.), Butterworths, London, pp. 13-14.
Good, I.J. (1959) Kinds of probability. Science, 129, 443-447.
Good, I.J. (1983) A correction concerning my interpretation of Peirce and the
Bayesian interpretation of Neyman-Pearson hypothesis determination.
Journal of Statistical Computation and Simulation, 18, 71-74.
Good, I.J. (1991) Weight of evidence and the Bayesian likelihood ratio. In The Use
of Statistics in Forensic Science (Aitken. C.G.G. and Stoney.D.A., eds), Ellis
Horwood, Chichester, pp. 85-106.
Referencias   587

Goodman, J. (1992) Jurors’ comprehension and assessment of probabilistic evi-


dence. American Journal of Trial Advocacy, 16, 361.
Graybill, F.A. (1969) Introduction to Matrices with Applications in Statistics. Wadsworth,
Belmont, CA.
Grieve, M.C. (2000a) A survey on the evidential value of fibres and on the inter-
pretation of the findings in fibre transfer cases. Part 1 - Fibre frequencies.
Science & Justice, 40, 189-200.
Grieve, M.C. (2000b) A survey on the evidential value of fibres and on the inter-
pretation of the findings in fibre transfer cases. Part 2 - Interpretation and
reporting. Science & Justice, 40, 201-209.
Grieve, M.C. and Biermann, T.W. (1997) The population of coloured textile fibres
on outdoor surfaces. Science & Justice, 37, 231-239.
Grieve, M.C. and Dunlop, J. (1992) A practical aspect of the Bayesian interpreta-
tion of fibre evidence. Journal of the Forensic Science Society, 32, 169-175.
Grieve, M.C., Biermann, T.W. and Davignon, M. (2001) The evidential value of
black cotton fibres. Science & Justice, 41, 245-260.
Groom, P.S. and Lawton, M.E. (1987) Are they a pair? Journal of the Forensic Science
Society, 27, 189-192.
Grave, D.M. (1980) The interpretation of forensie evidence using a likelihood ra-
tio. Biometrika, 67, 243-246.
Grove, D.M. (1981) The statistical interpretation of refractive index measurements.
Forensic Science International, 18, 189-194.
Grove, D.M. (1984) The statistical interpretation of refractive index measurements
II: The multiple source problem. Forensic Science Intemational, 24, 173-182.
Gunel, E. and Wearden. S. (1995) Bayesian estimation and testing of gene frequen-
cies. Theoretical and Applied Genetics, 91, 534-543.
Habbema, J.D.F., Hermans, J. ����������������������������������������������������
and van den Broek, K. ������������������������������
(1974) A stepwise discrimi-
nation program using density estimation. In Compstat 1974 (Bruckman, G.,
ed.), Physica Verlag, Vienna, pp. 100-110.
Hacking, I. (1975) The Emergence of Probability, Cambridge University Press,
Cambridge.
Harbison, S.A. and Buckleton, J.S. (1998) Applications and extensions of subpo-
pulation theory: a caseworkers guide. Science & Justice, 38, 249-254.
Harbison, S.A., Stanfield, A.M., Buckleton, J.S and Walsh, S.J. (2002) Allele
frequen­ces for four major sub-populations in New Zealand at three STR
loci – HUMTHO1, HUMTPOX and CSF1PO. Forensic Science International, 126,
258-260.
Harrison, P.H., Lambert, J.A. and Zoro, J.A. (198 S) A survey of glass fragments re-
covered from clothing of persons suspected of involvement in crime. Forensic
Science Inter­national, 27, 171-187.
Harvey, W., Butler, O., Furness, J. and Laird, R. (1968) The Biggar murder: den-
tal, medical, police and legal aspects. Journal of the Forensic Science Society, 8,
155-219.
588   Referencias

Hicks, T., Monard Sermier, F., Goldmann, T., Brunelle, A., Champod, C. and
Margot, P. (2003) The classification and discrimination of glass fragments
using non-destructive energy dispersive X-ray microfluorescence. Forensic
Science International, 137, 107-118.
Hicks, T.N. (2004) De l’interprétation des fragments de verre en sciences forensiques.
Doctoral thesis, Ecole des Sciences Criminelles, Lausanne, Switzerland.
Hilton, O. (1995) The relationship of mathematical probability to the handwriting
iden­tification problem. International Journal of Forensic Document Examiners, 1,
224-229.
Hoffmann, K. (1991) Statistical evaluation of the evidential value of human hairs pos-
sibly coming from multiple sources. Journal of Forensic Sciences, 36, 1053-1058.
Hoggart, C.J., Walker, S.G. and Smith, A.F.M. (2003) Bivariate kurtotic distribu-
tions of garment fibre data. Applied Statistics, 52, 323-335.
Holden, C (1997) DNA fingerprinting comes of age. Science, 278, 1407.
Hu, Y.Q. and Fung, W.K. (2003) Evaluating forensic DNA mixtures with contribu-
tors of different structures ethnic origins: a computer software. International
Journal of Legal Medicine, 117, 248-249.
HUGIN Lite (2001) version 5.7, free demonstration version available at http://
www.hugin.dk
Hummel, K. (1971) Biostatistical opinion of parentage based upon the re-
sults of blood group tests. In Biostatistische Abstammungsbegutachtung mit
Blutgruppenbefunden (P. Schmidt, ed.), Gustav Fisher, Stuttgart, (Quoted in
Family Law Quarterly, 1976, 10, 262).
Hummel, K. (1983) Selection of gene frequency tables. In Inc1usion Probabilities in
Parentage Testing (R.H. Walker, ed.), American Association of Blood Banks,
Arlington, VA, pp. 231-243.
Ihaka, R. and Gentleman, R. (1996) R: a language for data analysis and graphics.
Journal of Computational and Graphical Statistics, 5, 299-314.
Iman, K.L and Rudin, N. (2001) Principles and Practice of Criminalistics - The Profession
of Forensic Science, CRC Press, Boca Raton, FL.
Intergovernmental Panel on Climate Change (2001) Report of Working Group I.
Available at http://www.ipcc.ch/pub/spm22-01.pdf
Izenman, A.J. (2000a) Statistical issues in the application of the Federal senten-
cing guidelines in drug, pornography and fraud cases. In Statistical Science in
the Courtroom (Gastwirth. J.L., ed.), Springer-Verlag, New York, pp. 25-50.
Izenman, A.J, (2000b) Introduction to two views on the Shonubi case. In Statistical
Science in the Courtroom (Gastwirth, J.L., ed.), Springer-Verlag, New York, pp.
393-403.
Izenman, A.J. (2000c) Assessing the statistical evidence in the Shonubi case. In
Statistical Science in the Courtroom (Gastwirth, J.L., ed.), Springer-Verlag, New
York, pp. 415-433.
Izenman, A.J. (2001) Statistical and legal aspects of the forensic study of illicit
drugs. Statistical Science, 16, 35-57.
Referencias   589

Izenman, A.J. (2003) Sentencing illicit drug traffickers: how do the courts handle
random sampling issues? International Statistical Review, 71, 535-556.
Jackson, G. (2000) The scientist and the scales of justice. Science & Justice, 40, 81-85.
Jaynes, E.T. (2003) Probability Theory. Cambridge University Press, Cambridge.
Jeffrey, R.C. (1975) Probability and falsification: critique of the Popper program.
Synthèse, 30, 95-117.
Jeffreys, A.J., Wilson, V. and Morton, D.B. (1987) DNA fingerprints of dogs and
cats. Animal Genetics. 18, 1-15.
Jeffreys, H. (1983) Theory of Probability, 3rd edition, Clarendon Press, Oxford.
Jensen, F.V. (2001) Bayesian Networks and Decision Graphs, Springer-Verlag, New
York.
Johnson, R.E. and Peterson, J. (1999) HLA-DQA1 and polymarker locus allele fre-
quencies for Chicago, IlIinois, USA, Journal of Forensic Sciences, 44, 1097.
Jolliffe, I.T. (1986) Principal Component Analysis, Springer-Verlag, New York.
Jones, D.A. (1972) Blood samples: probability of discrimination. Journal of the
Forensic Science Society, 12, 355-359.
Jordan, M.I. (ed.) (1999) Learning in Graphical Models. MIT Press, Cambridge, MA.
Kadane, J.B. and Schum, D.A. (1996) A Probabilistic Analysis ol the Sacco and Vanzetti
Evidence, John Wiley & Sons, Inc., New York.
Kahneman, D., Slovic, P. and Tversky, A. (eds) (1982) Judgment under Uncertainty:
Heuristics and Biases. Cambridge University Press, Cambridge.
Kass, R.E. and Raftery, A.E. (1995) Bayes factors. Joumal of the American Statistical
A.ssociation. 90, 773-795.
Katterwe, H. (2002a) Comments/objections to reproaches of Forensic Science
Service and University of Lausanne. Information Bulletin for Shoeprint/Toolmark
Examiners, 8(1), 25-30.
Katterwe, H. (2002b) Comments of Horst Katterwe to the Article of F. Taroni and
J.Buckleton. Information Bulletin for Shoeprint/Toolmark Examiners, 8(3), 16-20.
Katterwe, H. (2003) True or false. Information Bulletin for ShoeprintlToolmark
Examiners, 9(2), 18-25.
Kaye, D.H. (1979) The laws of probability and the law of the land. University of
Chicago Law Review, 47, 34-56.
Kaye, D.H. (1986) Quantifying probative value. Boston University Law Review, 66,
761-766.
Kaye, D.H. (1987) Apples and oranges: confidence coefficients versus the burden
of persuasion. Cornell Law Review, 73, 54-77.
Kaye, D.H. (1989) The probability of an ultimate issue: the strange cases of pater-
nity testing. Iowa Law Review, 75, 75-109.
Kaye, D.H. (l993a) Proceedings of the Second International Conference on Forensic
Statistics. Arizona State University, Center for the Study of Law, Science and
Technology, Tempe, AZ. Selected papers included in Jurimetrics Journal, 34(1),
1-115.
590   Referencias

Kaye, D.H. (1993b) DNA evidence: probability, population genetics and the courts.
Harvard Journal of Law and Technology, 7, 101-172.
Kaye, D.H. (1997a) DNA, NAS, NRC, ��������������������������������������
DAB, RFLP, PCR, and more: an introduc-
tion to the symposium on the 1996 NRC report on forensic DNA evidence.
Jurimetrics Joumal, 37, 395-404.
Kaye, D.H. (1997b) DNA identification in criminal cases: some lingering and
emer­ging evidentiary issues. In Proceedings of the 7th International Symposium
on Human Identification. Madison, WI, Promega Corporation, pp. 12-25.
Kaye, D.H. and Aickin, M. (1986) Statistical Methods in Discrimination Litigation,
Marcel Dekker, New York.
Kaye, D.H and Koehler, J.J. (1991) Can jurors understand probabilistic evidence?
Journal of the Royal Statistical Society, Series A, 154, 21-39.
Kaye, D.H. and Koehler, J.J. (2003) The misquantification of probative value. Law
and Human Behaviour, 27, 645-659.
Kaye, D.H and Sensabaugh, G.F. (2000) Reference guide on DNA evidence. In
Reference Manual on Scientific Evidence (Cecil, J. ed.). Federal Judicial Center,
Washington, DC, pp. 485-576.
Kendall, M.G. and Buckland, W.R. (1982) A Dictionary of Statistical Terms, 4th edi-
tion, Longman, London.
Kennedy, R.B., Pressman, LS., Chen S., Petersen, P.H. and Pressman, A.E. (2003)
Statistical analysis of barefoot impressions. Journal of Forensic Sciences, 48,
55-63.
Kind, S.S. (1994) Crime investigation and the criminal trial: a three chapter para-
digm of evidence. Journal of the Forensic Science Society, 34, 155-164.
Kind, S.S., Wigmore, R. Whitehead. P.H. and Loxley, D.S. (1979) Terminology in
forensic science. Journal of the Forensic Science Society, 19, 189-192.
Kingston, C.R. (1964) Probabilistic analysis of partial fingerprint patterns. D.Crim.
disser­tation. University of California, Berkeley.
Kingston, C.R. (1965a) Applications of probability theory in criminalistics. Journal
of the American Statistical Association, 60, 70-80.
Kingston, C.R. (1965b) Applications of probability theory in criminalistics – II.
Journal of the American Statistical Association, 60, 1028-1034.
Kingston, C.R. (1966) Probability and legal proceedings. Journal of Criminal Law,
Crim­inology and Police Science, 57, 93-98.
Kingston, C.R. (1970) The law of probabilities and the credibility of witness and
evidence. Journal of Forensic Sciences, 15, 18-27.
Kingston, C.R. (1988) Discussion of ‘A critical analysis of quantitative fingerprint
indi­viduality models’. Journal of Forensic Sciences, 33, 9-11.
Kingston, C.R. and Kirk, P.L. (1964) The use of’ statistics in criminalistics. Journal
of Criminal Law, Criminology and Police Science, 55, 514-521.
Kirk, P.L. (1963) The ontogeny of criminalistics. Journal of Criminal Law, Criminology
and Police Science, 54, 235-238.
Referencias   591

Kirk, P.L. and Kingston, C.R. (1964) Evidence evaluation and problems in general
criminalistics. Presented at the Sixteenth Annual Meeting of the American
Academy of Forensic Sciences, Chicago.
Knowles, R. (2000) The new (non-numeric) fingerprint evidenee standard. Science
& Justice, 40, 120-121.
Koehler, J.J. (1992) Probabilities in the courtroom: an evaluation of the objection
and policies. In Handbook of Psychology and Law (Kagehiro, D.K. and Laufer,
W.S., eds), Springer-Verlag, New York, pp. 167-184.
Koehler, J.J. (1993a) Error and exaggeration in the presentation of DNA evidence
at trial. Jurimetrics Journal, 34, 21-39.
Koehler, J.J. (1993b) DNA matches and statistics: important questions, surprising
answers. Judicature, 76, 222-229.
Koehler, J.J. (1995) The random match probability in DNA evidence: irrelevant
and prejudicial? Jurimetrics Journal, 35, 201-219.
Koehler, J.J. (1996) On conveying the probative value of DNA evidence: frequen-
cies, likelihood ratios, and error rates. University of Colorado Law Review, 67,
859-886.
Koehler, J.J. (1997a) One in millions, billions, and trillions: lessons from People v.
Collins (1968) for People v. Simpson (1995). Journal of Legal Education, 47(2).
214-223 at 219.
Koehler, J.J. (1997b) Why DNA likelihood ratios should account for error (even
when a National Research Council report says they should not). Jurimetrics
Journal, 37, 425-437.
Koehler, J.J. (2001a) The psychology of numbers in the courtroom: how to make
DNA match statistics seem impressive or insufficient. Southern California Law
Review, 74, 1275-1306.
Koehler, J.J. (2001b) When are people persuaded by DNA match statistics? Law and
Human Behaviour, 25, 493-513.
Koehler, J.J., Chia, A. and Lindsey, J.S. (1995) The random match probability
(RMP) in DNA evidence: irrelevant and prejudicial? Jurimetrics Journal, 35,
201-219.
Koons, R.D. and Buscaglia, J. (1999a) The forensic significance of glass composi-
tion and refractive index measurements. Journal of Forensic Sciences, 44, 496-
503.
Koons, R.D. aod Buscaglia, J. (1999b) Authors’ response to Curran et al. (1999a).
Journal of Forensic Sciences, 44, 1326-1328.
Koons, R.O. and Buscaglia, J. (2002) Interpretation of glass composition measu-
rements: the effects of match criteria on discrimination capability. Journal of
Forensic Sciences, 47, 505-512.
Kuo, M. (1982) Linkíng a bloodstain to a missing person by genetic inheritance.
Journal of Forensic Sciences, 27, 438-444.
Kwan, Q.Y. (1977) Inference of identity of source, Doctor of Criminology thesis,
University of California, Berkeley.
592   Referencias

Lambert, J.A. and Evett, I.W. (1984) The refractive index distribution of control
glass samples examined by the forensic science laboratories in the United
Kingdom. Forensic Science International, 26, 1-23.
Lambert, J.A., Satterthwaite, M.J. and Harrison, P.H. (1995) A survey of glass frag-
ments recovered from clothing of persons suspected of involvement in cri-
me. Science & Justice, 35, 273-281.
Lange, K. (1995) Applications of the Dirichlet distribution to forensic match pro-
babilities. In Human Identification: The Use of DNA Markers (Weir, B.S., ed.).
Kluwer Academic, Dordrecht, pp. 107-117.
Laplace, Marquis de (1886) Essai philosophique sur les probabilités, Introductíon à
la theorie analytique des probabilités, Oeuvres Complètes de Laplace, Vol.7, Gauthier-
Villars, Paris.
Lau, L. and Beveridge, A.D. (1997) The frequency of occurrence of paint and glass
on the clothing of high school students. Journal of the Canadian Society of
Forensic Science, 30, 233-240.
Lauritzen, S.L. and Mortera, J. (2002) Bounding the number of contributors to
mixed DNA stains. Forensic Science International, 130, 125-126.
Lee, J.W., Lee, H.S., Park, M. and Hwang, J.J. (1999) Paternity probability when a
relative of the father is an alleged father. Science & Justice, 39, 223-230.
Lee, J.W., Lee, H.S., Han, G.R. and Hwang, J.J. (2000) Motherless case in paternity
testing. Forensic Science International, 114, 57-65.
Lee, J.W., Lee, H.S. and Hwang, J.J. (2002) Statistical analysis for estimating
hetero­geneity of the Korean population in DNA typing using STR loci.
International Joumal of Legal Medicine, 116, 153-160.
Lee, P.M. (2004) Bayesian Statistics: An Introduction, 3rd edition, Arnold, London.
Lempert, R. (1977) Modelling relevance. Michigan Law Review, 89, 1021-1057.
Lempert, R. (1991) Some caveats concerning DNA as criminal identification evi-
denee: with thanks to the Reverend Bayes. Cardozo Law Review, 13, 303-341.
Lempert, R. (1993) The suspect population and DNA identification. Jurimetrics
Journal, 34, 1-7.
Lempert, R. (1997) After the DNA wars: skirmishing with NRC II. Jurimetrics
Journal, 37, 439-468.
Lenth, R.V. (1986) On identification by probability. Journal of the Forensic Science
Society, 26, 197-213.
Leonard, T. (2000) A Course in Categorical Data Analysis. Chapman & Hall/CRC, Boca
Raton, FL.
Leonard, T. and Hsu, J.S.J. (1999) Bayesian Methods. Cambridge University Press,
Cambridge.
Levitt, T.S. and Blackmond Laskey, K. (2001) Computational inference for evi-
dential reasoning in support of judicial proof. Cardozo Law Review. 22,
1691-1731.
Lewontin, R.C. (1993) Which population? (Letter), American Journal of Human
Genetics, 52, 205.
Referencias   593

Liao, X.H., Lau, T.S., Ngan, K.F.N. and Wang, J. (2002) Deduction of paternity in-
dex from DNA mixture. Forensic Science International, 128, 105-107.
Lindley, D.V. (1957) A statistical paradox. Biometrika, 44, 187-192. (Comments by
M.S. Bartlett and M.G. Kendall appear in 45, 533-534.)
Lindley, D.V. (1977a) A problem in forensic science. Biometrika, 64, 207-213.
Lindley, D.V. (1977b) Probability and the law. The Statistician, 26, 203-212.
Lindley, D.V. (1980) L.J. Savage - his work in probability and statistics. Annals of
Statistics, 8, 1-24.
Lindley, D.V. (1987) The probability approach to the treatment of uncertainty in
artificial intelligence and expert systems. Statistical Science, 2, 17-24.
Lindley, D.V. (1991) Probability. In The Use of Statistics in Forensic Science (Aitken,
C.G.G. and Stoney, D.A., eds), Ellis Horwood, Chichester, pp. 27-50.
Lindley, D.V. (1998) Making Decisions, 2nd edition, John Wiley & Sons, Ltd, London.
Lindley, D.V. and Eggleston, R. (1983) The problem of missing evidence. Law
Quarterly Review, 99, 86-99.
Lindley, D.V. and Scott, W.P. (1995) New Cambridge Statistical Tables, 2nd edition,
Cambridge University Press, Cambridge.
Locard, E. (1914) La preuve judiciaire par les empreintes digitales. Archives
d’Anthropologie Criminelle, de Médicine Légale et de Psychologie Normale et Pathologique,
28, 321-348.
Locard, E. (1920) L’enquête criminelle et les méthodes scientifiques, Flammarion, Paris.
Locard, E. (1929) L’analyse des poussières en criminalistique. Revue Internationale de
Criminalistique, September, 176-249.
Louis, T.A. (1981) Confidence intervals for a binomial parameter after observing
no successes. American Statistician, 35, 154.
Lyon, T.D. and Koehler, J.J. (1996) The relevance ratio: evaluating the probative value
of expert testimony in child sexual abuse cases. Cornell Law Review, 82, 43-78.
Mallows, C. (1998) The zeroth problem. American Statistician, 52, 1-9.
Mardia, K.V., Kent, J.T. and Bibby, J.M. (1979) Multivariate Analysis. Academic Press,
London.
Massonnet, G. and Stoecklein, W. (1999) Identification of organic pigments in coa-
tings: applications to red automotive topcoats. Part III: Raman spectroscopy
(NIR FT-Raman). Science & Justice, 39, 181-187.
Matthews, R. (1994) Improving the odds on justice. New Scientist, 16 April, p. 12.
McDermott, S.D. and Willis, S.M. (1997) A survey of the evidential value of paint
transfer evidence. Journal ofForensic Sciences. 42, 1012-1018.
McDermott, S.D., Willis, S.M. and McCullough, J.P. (1999) The evidential value of
paint. Part II: A Bayesian approach. Journal of Forensic Sciences, 44, 263-269.
McQuillan, J. and Edgar, K. (1992) A survey of the distribution of glass on c1o-
thing. Journal of the Forensic Science Society, 32, 333-348.
Meester, R. and Sjerps, M. (2003) The evidential value in the DNA database search
controversy and the two-stain problem. Biometrics, 59, 727-732.
594   Referencias

Meier, P. and Zabell, S. (1980) Benjamin Peirce and the Howland will. Journal of the
American Statistical Association, 75, 497-506.
Mellen, B.G. (2000) A likelihood approach to DNA evidence. In StatisticaI Science in
the Courtroom (Gastwirth, J.L., ed.), Springer-Verlag, New York.
Mellen, B.G. and Royall, R.M. (1997) Measuring the strength of deoxyribonucleic
acid evidence, and probabilities of strong implicating evidence. Journal of the
Royal Statistical Society, Series A, 160, 305-320.
Meuwly, D. (2001) Reconnaissance de locuteurs en sciences forensiques: l’apport d’une
approache automatique. Doctoral thesis, Institut de Police Scientifique et de
Criminologie, University of Lausanne, Switzerland.
Meuwly, D. and Drygajlo, A. (2001) Forensic speaker recognition based on a
Bayesian frarnework and Gaussian mixture modelling (GMM}. In Proceedings
of the 2001 Speaker Odyssey Recognition Workshop, 18-22 June 2000, Crete, Greece,
pp. 145-150.
Miller, L.S. (1987) Procedural bias in forensic science examinations of human hair.
Law and Human Behaviour, 11, 157-163.
Mode, E.B. (1963) Probability and criminalistics. Journal of the American Statistical
Association, 58, 628-640.
Moran, B. (2003) Toolmark criteria for identification: pattern match. CMS or
Bayesian? Interface, 28, 9-10.
Moran, B. (2002) A report on the AFTE theory of identification and range of con-
clusions for tool mark identification and resulting approaches to casework.
AFTE (Association of Firearm and Toolmark Examiners) Journal, 34, 227-235.
Moran, B. (2003) Comments and clarification of responses from a member of the
AFTE 2001 criteria nfor identification of toolmarks discussion panel. AFTE
(Association of Firearm and Toolmark Examiners) Journal, 35, 55-65.
Moras, C. (1906) L’Affaire Dreyfus: les débats de la Cour de Cassation (15 juin 1906 - 12 jui-
llet 1906). Société Nouvelle de Librairie et d’Édition, Paris.
Morgan, J.P., Chaganty, N.R., Dahiya, R.C. and Doviak, M.J. (1991) Let’s make a
deal: the player’s dilemma. American Statistician, 45, 284-287.
Mortera, J., Dawid, A.P. and Lauritzen, S.L. (2003) Probabilistic expert systems for
DNA mixture profiling. Theoretical Population Biology, 63, 191-205.
Mosteller, F. and Wallace, D.L. (1963) Inference in an authorship problem. Journal
of the American Statistical Association, 58, 275-309.
Mosteller, F. and Wallace, D.L. (1984) Applied Bayesian and Classical Inference; The Case
of the Federalist Papers, Springer-Verlag, New York.
National Research Council (1992) DNA Technology in Forensic Science. National
Academies Press, Washington, DC.
National Research Council (1996) The Evaluation of Forensic DNA Evidence. National
Academies Press, Washington, DC.
Nichols, R.A. and Balding, D, (1991) Effect of population structure on DNA finger-
print analysis in forensic science. Heredity, 66, 297-302.
Referencias   595

Nichols, R.G. (1997) Firearm and toolmark identification criteria: a review of the
literature. Journal of Forensic Sciences, 42, 466-474.
Nichols, R.G. (2003) Firearm and toolmark identification criteria: a review of the
literature, Part II. Journal of Forensic Sciences, 48, 318-327.
Ogino, C. and Gregonis, D.J. (1981) Indirect typing of a victim’s blood using pater-
nity testing. Presentation before the California Association of Criminalists
57th Semi-annual Seminar, Pasadena, CA.
Ogle, R.R. (1991) Discussion of ‘Further evaluation of probabilities in human scalp
hair comparisons’ (Wickenheiser and Hepworth, 1990). Journal of Forensic
Sciences, 36, 971-973.
Olkin, I. (1958) The evaluation of physical evidence and the identity problem by
means of statistical probabilities. General Scientific Session of the American
Academy of Forensic Sciences, Cleveland, Ohio, U.S.A.
Osterburg, J.W. and Bloomington, S.A. (1964) An inquiry into the nature of proof
‘The Identity of Fingerprints’. Journal of Forensic Sciences, 9, 413-427.
Owen, D.B. (1962) Handbook of Statistical Tables. Addison-Wesley Reading, MA.
Owen, G.W. and Smalldon, K.W. (1975) Blood and semen stains on outer clothing
and shoes not related to crime: report of a survey using presumptive tests.
Journal of Forensic Sciences, 20, 391-403.
Palmer, R. and Chinherende, V. (1996) A target fibre study using cinema and car
seats as recipient items. Journal of the Forensic Science Society, 41, 802-803.
Pankanti, S., Prabhakar, S. and Jain, A.K. (2002) On the individuality of fingerprints.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 24, 1010-1025.
Parker, J.B. (l966) A statistical treatment of identification problems. Forensic Science
Society Journal, 6, 33-39.
Parker, J.B. (1967) The mathematical evaluation of numerical evidence. Forensic
Science Society Journal, 7, 134-144.
Parker, J.B. and Holford, A. (1968) Optimum test statistics with particular referen-
ce to a forensic science problem. Applied Statistics, 17, 237-251.
Peabody, A.J., Oxborough, R.J., Cage, P.E. and Evett, I.W. (1983) The discrimina-
tion of cat and dog hairs. Journal of the Forensic Science Society, 23, 121-129.
Pearl, J. (1988) Probabilistic Reasoning in Intelligent Systems: Networks of Plausible
Inference, Morgan Kaufmann, San Mateo, CA.
Pearson, E.F., May, R.W. and Dabbs, M.G.D. (1971) Glass and paint fragments
found in men’s outer clothing - report of a survey. Journal of Forensic Sciences,
16, 283-300.
Pearson, E.S. and Hartley, H.O. (eds) (1966) Biometrika Tables for Statisticians, Volume
1, Cambridge University Press, Cambridge.
Pearson, E.S. and Kendall, M,G. (eds) (1970) Studies in the History of Statistics and
Probability, Charles Griffin, London.
Peirce, C.S. (1878) The probability of induction. Popular Science Monthly Reprinted in
The World of Mathematics, Volume 2 (Newman, J,R., ed.), Simon and Schuster,
New York, (1956), pp. 1341-1354.
596   Referencias

Petterd, C.I., Hamshere, J., Stewart, S., Brinch, K., Masi, T. and Roux, C. (2001)
Glass particles in the clothing of members of the public in south-eastern
Australia - a survey. Forensic Science International. 116, 193-198.
Piattelli-Palmarini, M. (1994) Inevitable Illusions. John Wiley & Sons, Inc, New
York.
Poincaré, H. (1896) Calcul des Probabilités. Leçons professées pendant le deux-
ième semestre 1893-1894. In Calcul des Probabilités (G. Carré, ed.), Paris.
Poincaré, H. (1912) Calcul des Probabilités, Gauthier-Villars, Paris.
Poincaré, H. (1992) La Science et l’hypothèse. Editions de la Bohème, Paris.
Poisson, S.D. (1837) Recherches sur la probabilité des jugements en matière criminelle et
en matière civile, précédées des règles générales du calcul des probabilités, Bachelier,
Paris.
Pounds, C.A. and Smalldon, K.W. (1978) The distribution of glass fragments in
front of a broken window and the transfer of fragments to individuals stan-
ding nearby. Journal of the Forensic Science Society, 18, 197-203.
Puch, R.O. and Smith, J.Q. (2002) FINDS: a training package to assess forensic fi-
bre evidence. Advances in Artificial Intelligence (Coella, C.A.C., Albornoz, A. de,
Sucar, L.E. and Battistuti, O.S., eds), Springer-Verlag, Berlin, pp. 420-429.
Rabinovitch, N.L. (1969) Studies in the history of probability and statistics XXII:
Prob­ability in the Talmud. Biometrika, 56, 437-441.
Rabinovitch, N.L. (1973) Probability and Statistical Inference in Ancient and Medieval
Jewish Literature, University of Toronto Press, Toronto.
Race, R.R., Sanger, R., Lawler, S.D. aud Bertinshaw, D. (1949) The inheritance of
the MNS blood groups: a second series of families. Heredity, 3, 205-213.
Rahne, E., Joseph, L. and Gyorkos, T.W. (2000) Bayesian sample size determina-
tion for estimating binomial parameters from data subject to misclassifica-
tion. Applied Statistics, 49, 119-128.
Ramsey, F.P. (1931) Truth and probability. In The Foundations of Mathematics and Other
Logical Essays (R.B. Braithwaite ed.), Routledge & Kegan Paul, London.
Redmayne, M. (1995) Doubts and burdens: DNA evidence, probability and the
courts. Criminal Law Review, 464-482.
Redmayne, M. (1997) Presenting probabilities in court: the DNA experience.
International Journal of Evidence and Proof, 4, 187-214.
Redmayne, M. (2002) Appeals to Reason. Modern Law Review, 65, 19-35.
Reinstein, R.S. (1996) Comment. In Convicted by Juries, Exonerated by Science: Case
Studies in the Use of DNA Evidence to Establish Innocence after Trial (Connors, E.,
Lundregan, T., Miller, N. and McEwen, T., eds), US Department of Justice,
Washington, DC.
Robertson, B. and Vignaux, G.A. (1991) Extending the conversation about Bayes.
Cardozo Law Review, 13, 629-645.
Robertson, B. and Vignaux, G.A. (1992) Unhelpful evidence in paternity cases. New
Zealand Law Journal, 9, 315-317.
Referencias   597

Robertson, B. and Vignaux, G.A. (1993a) Probability - the logic of the law. Oxford
Journal of Legal Studies, 13, 457-478.
Robertson, B. and Vignaux, G.A. (1993b) Biology, logic, statistics and criminal jus-
tice. The Criminal Lawyer, 35.
Robertson, B. and Vignaux, G.A. (1993c) Taking fact analysis seriously. Michigan
Law Review, 91, 1442-1464.
Robertson, B. and Vignaux, G.A. (1994) Crime investigation and the criminal trial.
Journal of the Forensic Science Society, 34, 270.
Robertson, B. and Vignaux, G.A. (1995a) Interpreting Evidence: Evaluating Forensic
Science in the Courtroom, John Wiley & Sons, Ltd, Chichester.
Robertson, B. and Vignaux G.A. (1995b) DNA evidence: wrong answers or wrong
ques­tions? In Human Identification: The use of DNA Markers (Weir, B.S., ed.),
Kluwer Academic, Dordrecht, pp. 145-152.
Robertson, B. and Vignaux, G.A. (1998) Explaining evidence logically. New Law
Journal, 148, 159-162.
Robinson, N., Taroni, F., Saugy, M., Ayotte, C., Mangin, P. and Dvorak, J. (2001)
Detection of nandrolone metabolites in urine after a football game in pro-
fessional and amateur players: a Bayesian comparison. Forensic Science
International, 122, 130-135.
Rose, P.J. (2002) Forensic Speaker Identification, Taylor & Francis, London.
Rose, P.J. (2003) The technical comparison of forensic voice samples. In Expert
Evidence (Freckleton, I. and Selby, H., eds), Thomson Lawbook Company,
Sydney, Chapter 99.
Roux, C. and Margot, P. (1997) An attempt to assess relevance of textile fibres reco-
vered from car seats. Science & Justice, 37, 225-230.
Roux, C., Chable, J. and Margot, P. (1996) Fibre transfer experiments onto car
seats, Science & Justice, 36, 143-151.
Roux, C., Langdon, S., Waight, D. and Robertson, J. (1999) The transfer and persis-
tence of automotive carpet fibres on shoe soles. Science & Justice, 39, 239-251.
Roux, C., Kirk. R., Benson, S., Van Haren, T. and Petterd, C.I. (2001) Glass parti-
cles in footwear of members of the public in south-eastern Australia - a sur-
vey. Forensic Science International, 116, 149-156.
Royall, R. (1997) Statistical Evidence: A Likelihood Paradigm, Chapman & Hall,
London.
Royall, R. (2000) On the probability of observing misleading statistical evidence.
Journal of the American Statistical Association, 95, 760-780.
Rudin, M. and Inman, K. (2003) An Introduction to Forensic DNA Analysis, 2nd edition,
CRC Press, Boca Raton, FL.
Ryan, B.F., Joiner, B.L. and Ryan, T.A. (2000) MINITAB Handbook. Fourth edition,
Brooks Cole, Pacific Grove, CA (http://www.minitab.com/).
Ryland, S.G., Kopec, R.J. and Somerville, P.N. (1981) The evidential value of auto-
mobile paint chips. Part II: The frequency of occurrence of topcoat colours.
Journal of Forensic Sciences, 26, 64-74.
598   Referencias

Sacco, N. (1969) The Sacco-Vanzetti Case: Transcript of the Record of the Trial of Nicola Sacco
and Bartolomeo Vanzetti in the Courts of Massachusetts and Subsequent Proceedings,
1920-7, 6 vols., P.P. Appel, Mamaroneck, NY.
Saks, M.J. and Koehler, J.J. (1991) What DNA ‘fingerprinting’ can teach the law
about the rest of forensic science. Cardozo Law Review, 13, 361-372.
Salmon, D. and Salmon, C. (1980) Blood groups and genetic markers polymor-
phisms and probability of paternity. Transfusion, 20, 684-694.
Salter, M.T. and Cook, R. (1996) Transfer of fibres to head hair, their persistence
and retrieval. Forensic Science International, 81, 211-221.
Savage, L.J. (1954) The Foundations of Statistics, Dover, New York.
Schum, D.A. (1994) Evidential Foundations of Probabilistic Reasoning. John Wiley &
Sons, Inc. New York.
Schum, D.A. (1999) Inference Networks and the Evaluation of Evidence:
Alternative Analyses. In Uncertainty in Artificial Intelligence: Proceedings of the
Fifteenth Confer­ence (Laskey, K. Prade, H., eds), Morgan Kaufmann Publishers,
San Francisco, pp. 575-584.
Schum, D.A. (2000) Singular evidence and probabilistic reasoning in judicial pro-
of. In Harmonisation in Forensic Expertise (Nijboer, J.F. and Sprangers, W.J.J.M.,
eds). Thela Thesis, Leiden, The Netherlands, pp. 587-603.
Scientific Sleuthing Newsletter (1988) Hair analysis. Scientific Sleuthing Newsletter,
12(3), 4, 6.
Scott, A.J. and Knott, M. (1974) A cluster analysis method for grouping means in
the analysis of variance. Biometrics, 30, 507-512.
Seheult, A. (1978) On a problem in forensic science. Biometrika, 65, 646-648.
Selvin, S. (1975) On the Monty Hall problem. American Statistician, 29, 134.
Shafer, G. (1976) A Mathematical Theory of Evidence, Princeton University Press,
Princeton, NJ.
Shafer, G. (1978) Non-additive probabilities in the work of Bernoulli and Lambert.
Archive for History of Exact Sciences, 19, 309-370.
Shafer, G. (1982) Lindley’s paradox (with discussion). Journal of the American
Statistical Association, 77, 325-351.
Shannon, C.E. (1948) A mathematical theory of communication. Bell System
Technical Journal, 27, 379-423.
Shannon, C.R. (1984) Royal Commission concerning the conviction of Edward Charles
Splatt, Woolman, D.J., Government Printer, South Australia, Australia.
Sheynin, O.B. (1974) On the prehistory of the theory of probability. Archive for
History of Exact Sciences. 12, 97-141.
Shoemaker, J.S., Painter, I.S., and Weir, B.S. (1999) Bayesian statistics in genetics:
a guide for the uninitiated. Trends in Genetics, 15, 354-358.
Siegel, J.A. (1997) Evidential value of textile fiber - transfer and persistence of fi-
bers. Forensic Science Review. 9, 81-96.
Silverman, B.W. (1986) Density Estimation, Chapman & Hall, London.
Referencias   599

Simon, R.J. and Mahan, L. (1971) Quantifying burdens of proof. Law and Society
Review, 5, 319-330.
Simons, A.A. (1997) Technical Working Group on Friction Ridge Analysis, Study
and Technology (TWGFAST) Guidelines. Journal of Forensic Identification, 48,
147-162.
Simpson, E.H. (1949) Measures of diversity. Nature, 163, 688.
Sinha, S.K. (ed.) (2003) Y-chromosome: genetics, analysis, and application in fo-
rensic science. Forensic Science Review. 15(2), 77-201.
Sjerps, M. and Kloosterman, A.D. (1999) On the consequences of DNA profile mis-
matches for clase relatives of an excluded suspect. International Journal of Legal
Medicine, 112, 176-180.
Smalldon, K.W. and Moffat, A.C. (1973) The calculation of discriminating power for a
series of correlated attributes. Journal of the Forensic Science Society, 13, 291-295.
Smeeton, N.C. and Adcock, C.J. (eds) (1997) Sample size determination - Special
issue. The Statistician, 46(2).
Smith, J.A.L. and Budowle, B. (1998) Source identification of body fluid stains
using DNA profiling. In Proceedings from the Second European Symposium of
Human Identification, Promega Corporation, Innsbruck, Austria, pp. 89-90.
Smith, R.L. and Charrow, R.P. (1975) Upper and lower bounds for the probabili-
ty of guilt based on circumstantial evidence. Journal of the American Statistical
Association, 70, 555-560.
Souder, W. (1934/1935) The merits of scientific evidence. Journal of the American
Institute of Criminal Law and Criminology, 25, 683-684.
Srihari, S.N., Cha, S.H., Arora, H. and Lee, S. (2002) Individuality of handwriting.
Journal of Forensic Sciences, 47, 856-872.
Stockmarr, A. (1999) Likelihood ratios for evaluating DNA evidence when the sus-
pect is found through a database search. Biometrics, 55, 671-677.
Stockton, A. and Day, S. (2001) Bayes, handwriting and science. In Proceedings of
the 59th Annual ASQDE Meeting - Handwriting & Technology: at the Crossroads. Des
Moines, Iowa, U.S.A., pp. 1-10.
Stoney, D.A. (1984a) Evaluation of associative evidence: choosing the relevant
question. Journal of the Forensic Science Society, 24, 473-482.
Stoney, D.A. (1984b) Statistics applicable to the inference of a victim’s blood type
from familial testing. Journal of the Forensic Science Society, 24, 9-22.
Stoney, D.A. (1991a) Transfer evidence. In The Use of Statistics in Forensic Science (Aitken,
C.G.G and Stoney, D.A., eds). Ellis Horwood, Chichester, pp. 107-138.
Stoney, D.A. (1991b) What made us think we could individualise using statistics?
Journal of the Forensic Science Society, 31, 197-199.
Stoney, D.A. (1992) Reporting of highly individual genetic typing results: a practi-
cal approach. Journal of the Forensic Science Society, 37, 373-386.
Stoney, D.A. (1994) Relaxation of the assumption of relevance and an application
to one-trace and two-trace problems. Journal of the Forensic Science Society, 34,
17-21.
600   Referencias

Stoney, D A. (2001) Measurement of fingerprint individuality. In Advances in Finger­


print Technology (Lee, H.C. and Gaensslen, R.E., eds), CRC Press, Boca Raton,
FL, pp. 327-387.
Stoney, D.A. and Thornton, J.I. (1986) A critical analysis of quantitative fingerprint
individuality models. Journal of Forensic Sciences, 33, 11-13.
Taroni, F. and Aitken, C.G.G. (1998a) Probabilités et preuve par I’ADN dans les
affaires civiles et criminelles. Questions de la cour el réponses fallacieuses
des experts. Revue Pénale Suisse, 116, 291-313.
Taroni, F. and Aitken, C.G.G. (1998b) Probabilistic reasoning in the law, part 1:
Assess­ment of probabilities and explanation of the value of DNA evidence.
Science & Justice, 38, 165-177.
Taroni, F. and Aitken, C.G.G. (1998c) Probabilistic reasoning in the law, part 2:
Assess­ment of probabilities and explanation of the value of trace evidence
other than DNA. Science & Justice, 38, 179-188.
Taroni, F. and Aitken, C.G.G. (1999a) The likelihood approach to compare popu-
latioos: a study on DNA evidence and pitfalls of intuitions. Science & Justice,
39, 213-222.
Taroni, F. and Aitken, C.G.G. (1999b) DNA evidence, prohabilistic evaluation and
collab­orative tests. Forensic Science International, 108, 121-143.
Taroni, F. and Aitken, C.G.G. (2000) Fibres evidence, probabilistic evaluation and
collab­orative test. Letter to the Editor. Forensic Science International, 114, 45-47.
Taroni, F. and Buckleton, J. (2002) Likelihood ratio as a relevant and logical appro-
ach to assess the value of shoeprint evidence. Information Bulletin for Shoeprint/
Toolmark Examiners, 8(2), 15-25.
Taroni, F. and Champod, C. (1994) Forensic medicine, P.C.R. and Bayesian appro-
ach. Journal of Medical Genetics, 31, 896-898.
Taroni, F. and Mangin, P. (1999) La preuve ADN, les probabilities, les experts and les juris-
tes. Necessité de developpement et de communicatian. Final report, 1115-054002/98,
to Swiss National Foundation.
Taroni, F. and Margot, P. (2000) Fingerprint evidence evaluation: is it really so di-
fferent to other evidence types? (Letter to the Editor). Science & Justice, 40,
277-280.
Taroni, F. and Margot, P. (2001) General comments on the scale of conclusions in
shoe­marks - the need for a logical framework. Information Bulletin for Shoeprint/
Toolmark Examiners, 7(2), 37-41.
Taroni, F., Champod, C., and Margot, P. (1996) Statistics: a future in tool marks
compari­son? AFTE (Association of Firearm and Toolmark Examiners) Journal, 28,
222-232.
Taroni, F., Champod, C. and Margot, P. (1998) Forerunners of Bayesianism in early
forensic science. Jurimetrics Journal, 38, 183-200.
Taroni, F., Aitken, C.G.G. and Garbolino, P. (2001) De Finetti’s subjectivism, the
assess­ment of probabilities, and the evaluation of evidence: a commentary
for forensic scientists. Science & Justice, 41, 145-150.
Referencias   601

Taroni, F., Lambert, J.A., Fereday, L. and Werrett, D.J. (2002) Evaluation and
presenta­tion of forensic DNA evidence in European laboratories. Science &
Justice, 42, 21-28.
Taroni, F., Biedermann, A., Garbolino, P. and Aitken, C.G.G. (2004) A general
approach to Bayesian networks for the interpretation of evidence, Forensic
Science International, 139, 5-16.
Thagard, P. (2003) Why wasn’t O.J. convicted? Emotional coherence in legal infe-
rence. Cognition and Emotion, 17, 361-383.
Thanasoulias, N.C., Parisis, N.A. and Evmiridis, N.P. (2003) Multivariate chemo-
metrics for the forensic discrimination of blue ball-point pen inks based on
their Vis spectra. Forensic Science International, 138, 75-84.
Thompson, W.C. (1989) Are juries competent to evaluate statistical evidence? Law,
and Contemporary Problems, 52, 9-41.
Thompson, W.C. (1993) Evaluating the admissibility of a new genetic identifica-
tion test: lessons from the DNA war. Journal of Criminal Law and Criminology,
84, 22-104.
Thompson, W.C. (1995) Subjective interpretation. laboratory error and the value
of forensic DNA evidence: three cases studies. Genetica, 96, 153-168.
Thompson, W.C. (1997) Accepting lower standards: the National Research Council’s
second report on forensic DNA evidence. Jurimetrics Journal, 37, 405-424.
Thompson, W.C. and Ford, S. (1989) DNA typing: acceptance and weight of the
new genetic identification tests. Virginia Law Review, 75, 45-108.
Thompson, W.C. and Schumann, E.L. (1987) Interpretation of statistical evidence
in criminal trials. The prosecutor’ s fallacy and the defence attorney’ s falla-
cy. Law and Human Behaviour, 11, 167-187.
Thompson, W.C. Taroni, F. and Aitken, C.G.G. (2003) How the probability of a false
positive affects the value of DNA evidence. Journal of Forensic Sciences, 48, 47-54.
Thompson, Y. and Williams, R. (1991) Blood group frequencies of the population
of Trinidad and Tobago, West Indies. Journal of the Forensic Science Society, 31,
441-447.
Tillers, P. (2001) Artificial intelligence and judicial proof. Cardozo Law Review, 22,
1433-1851.
Tippett, C.F., Emerson, V.J., Fereday, M.J., Lawton, F. and Lampert, S.M. (1968)
The evidential value of the comparison of paint flakes from sources other
than vehicles. Journal of the Forensic Science Society, 8, 61-65.
Tribe, L. (1971) Trial by mathematics: precision and ritual in the legal process.
Harvard Law Review, 84, 1329-1393.
Triggs, C.M. and Buckleton, J.S. (2002) Logical implications of applying the prin-
cipIes of population genetics to the interpretation of DNA profiling eviden-
ce. Forensic Science International, 128, 108-114.
Triggs, C.M. and Buckleton, J.S. (2003) The two-trace problem re-examined. Science
& Justice, 43,127-134.
602   Referencias

Triggs, C.M., Curran, J.M., Buckleton, J.S. and Walsh, K.A.J. (1997) The grou-
ping problem in forensic glass analysis: a divisive approach. Forensic Science
International, 85, 1-14.
Triggs, C.M., Harbison, S.A. and Buckleton, J.S. (2000) The calculation of DNA
match probabilities in mixed race populations. Science & Justice, 40, 33-38.
Tryhorn, F.G. (1935) The assessment of circumstantial scientific evidence. Police
Journal, 8, 401-411.
Tversky, A. and Kahneman, D. (1974) Judgement under uncertainty: heuristics and
biases. Science, 185, 1124-113l.
Tzidony, D. and Ravreboy, M. (1992) A statistical approach to drug sampling: a
case study. Journal of Forensic Sciences, 37, 1541-1549.
United Nations (1998) Recommended Methods for Testing Opium, Morphine and Heroin.
Manual for use by National Drug Testing Laboratories, United Nations, New
York.
United States Supreme Court (1995) Schlup v. Delo, United States Reports, 513,
298-322.
Venables, W.M. and Ripley, B.D. (2002) Modern Applied Statistics with S-Plus, 4th edi-
tion, Springer-Verlag, New York.
Vicard, P. and Dawid, A.P. (2003) Estimating mutation rates from paternity data.
In Atti del Convegno Modelli complessi e metodi computazionali intensivi per la stima
e la previsione, Università Cà Foscari, Venezia, Italy, pp. 415-418.
Vito, G.F. and Latessa, E.J. (1989) Statistical Applications in Criminal Justice, Sage,
London.
Wakefield, J.C., Skene, A.M., Smith, A.F.M. and Evett I.W. (1991) The evaluation of
fibre transfer evidence in forensic science: a case study in statistical mode-
lling. Applied Statistics, 40, 461-476.
Walsh, K.A.J. and Buckleton, J.S. (1986) On the problem of assessing the evidential
value of glass fragments embedded in footwear. Journal of the Forensic Science
Society, 26, 55-60.
Walsh, K.A.J. and Buckleton, J.S. (1988) A discussion of the law of mutual inde-
pendence and its application to blood group frequency. Journal of the Forensic
Science Society, 28, 95-98.
Walsh, K.A.J. and Buckleton, J.S. (1991) Calculating the frequency of occurrence
of a blood type for a ‘random man’. Journal of the Forensic Science Society, 31,
49-58.
Walsh, K.A.J. and Buckleton, J.S. (1994) Assessing prior probabilities considering
geography. Journal of the Forensic Science Society, 34, 47-51.
Walsh, K.A.J. Buckleton, J.S. and Triggs, C.M. (1996) A practical example of the
inter­pretation of glass evidence. Science & Justice, 36, 213-218.
Weir, B.S. (1992) Population genetics in the forensic DNA debate. Proceedings of the
National Academy of Science USA, 89, 11654-11659.
Weir, B.S. (199 5) DNA statistics in the Simpson matter. Nature Genetics, 11, 365-368.
Weir, B.S. (1996a) Genetic Data Analysis II, Sinauer Associates, Sunderland, MA.
Referencias   603

Weir, B.S. (1996b) Presenting DNA statistics in court. In Proceedings of the 6th Inter­
national Symposium on Human Identification, Promega Corporation, Madison,
WI, pp. 128-136.
Weir, B.S, (1998) The coancestry coefficient. In Proceedings of the 8th International Symposium
on Human Identification, Promega Corporation, Madison, WI, pp. 87-91.
Weir, B.S. (2000a) Statistical analysis. In Encyclopedia of Forensic Sciences (Siegel,
J.A., Saukko, P.J. and Knupfer, G.C., eds), Academic Press, San Diego, CA,
pp. 545-550.
Weir, BS. (2000b) The consequences of defending DNA statistics. In Statistical Science
in the Courtroom (Gastwirth, J.L., ed.), Springer-Verlag, New York, pp. 86-97.
Weir, B.S. (2001a) Forensics. In Handbook of Statistical Genetics (Balding, D.J.,
Bishop, M. and Cannings, C., eds), John Wiley & Sons, Ltd, Chichester, pp.
721-739.
Weir, B.S. (2001b) DNA match and profile probabilities - Comment on Budowle et
al. (2000) and Fung and Hu (2000a). Forensic Science Communications, 3.
Available at http://www.fbi.gov/hq/lab/fsclbackissu/jan2001/weir.htm
Weir, B.S. and Evett, I.W. (1992) Whose DNA? American Journal of Human Genetics,
50, 869.
Weir, B.S. and Evett, I.W. (1993) Reply to Lewontin (1993) (Letter). American Journal
of Human Genetics, 52, 206.
Weir, B.S. and Hill, W.G. (1993) Population genetics of DNA profiles. Journal of the
Forensic Science Society, 33, 218-225.
Weir, B.S., Triggs, C.M., Starling, L., Stowell, L.I., Walsh, K.A.J. and Buckleton, J.
(1997) Interpreting DNA mixtures. Journal of Forensic Sciences, 42, 213-222.
Weiss, C. (2003) Expressing scientific uncertainty. Law, Probability and Risk, 2, 25-46.
Welch, B.L. (1937) The significance of the difference between two means when the
population means are unequal. Biometrika, 29, 350-362.
Wickenheiser, R.A. and Hepworth, D.G. (1990) Further evaluation of probabilities
in human scalp hair comparisons. Journal of Forensic Sciences, 35,1323-1329.
Wickenheiser, R.A. and Hepworth, D.G. (1991) Authors’ response. Journal of Forensic
Sciences, 36, 973-976.
Wigmore, J. (1937) The Science of Proof: as Given by Logic, Psychology and General
Experience and Illustrated in Judicial Trials, 3rd edition, Little, Brown, Boston.
Wooley, J.R. (991) A response to Lander; the Courtroom perspective. American
Journal of Human Genetics, 49, 892-893.
Wright, S. (1922) Coefficients of inbreeding and relationship. American Naturalist,
56, 330-338.
Wright, S. (1951) The genetical structure of populations. Annals of Eugenics, 15, 323-354.
Wright, S. (1965) The interpretation of population structure by F-statistics with
special regard to systems of mating. Evolution, 19, 395-420.
Yellin, J. (1979) Book review of ‘Evidence, proof, and probability, 1st edition’, Eggleston,
R. (1978) Weidenfeld and Nicolson, London. Journal of Economic Literature, 583.
604   Referencias

Zabell, S. (1976) Book review of ‘Probability and statistical inference in ancient and me-
dieval Jewish literature’, Rabinovitch, N.L. (1973), University of Toronto Press,
Toronto. Canada. Journal of the American Statistical Association, 71, 996-998.
Zeisel, H. and Kaye, D.H. (1997) Prove It with Figures, Springer-Verlag, New York,
pp. 216-217.
Notación Notación

Los alfabetos griego y latino proporcionan una amplia gama de letras que se pue-
den usar para notación matemática. A pesar de ello, algunas letras, tales como x, se
usan en este libro para referirse a más de una cosa. Se espera que ninguna letra o
símbolo signifique más de una cosa al mismo tiempo y que la lista que aparece a con-
tinuación sea de utilidad a los lectores para conocer lo que cada letra o símbolo sig-
nifica en cualquier punto particular. Se dan referencias del capítulo o sección donde
puede hallarse el primer o principal empleo de muchas de las letras o símbolos.
... : tres puntos, escritos sobre la línea, indican ‘y de ahí en adelante
secuencialmente hasta’. Así x1 ,..., x 5 puede leerse como ‘ x 1 y de
ahí en adelante secuencialmente hasta x5 ’ y es una abreviatura
para la secuencia x1 , x 2 , x 3 , x 4 , x 5 . Por lo general, el último su-
bíndice es n, de tal forma que una secuencia de n objetos podría
escribirse como x1 ,..., x n .
∙∙∙ : tres puntos, en posición levantada, indican ‘una repetición de la
operación inmediatamente antes y después de los puntos’. Así
x1 +  + x 5 es una forma abreviada para ‘ x1 + x 2 + x 3 + x 4 + x 5
’. De manera similar x1 × × x 5 es una forma abreviada para ‘
x1 × x 2 × x 3 × x 4 × x 5 ’. Por lo general el último subíndice es n, de
tal forma que una suma o producto de n objetos puede escri-
birse como x1 +  + x n o x1 × × x n . También, el símbolo × se
omite a menudo y x1 × × x n se escribe como x1  x n .


n
∑: la suma de los términos que siguen al símbolo. Por ejemplo, i=1 x i
representa la suma de x1 ,..., x n ( x1 + ... + x n ) ; Sección 2.3.2.
P: el producto de los términos que siguen al símbolo. Por ejem-

n
plo, i =1
Pr(Si ) representa el producto de las probabilidades
Pr(S1 ),..., Pr(Sn ) ( Pr(S1 ) Pr(Sn ) ); Sección 4.5.4.
: se lee como ‘el opuesto de’ o el ‘complementario de’, así si M
representa varón, M representa mujer; Sección 3.1.1.
: se lee como ‘la media de’, así x es la media de un conjunto de
medidas x1 ,..., x n ; Sección 2.4.1.
≡: se lee como ‘equivalente a’. Por ejemplo, si M representa varón y
F representa mujer, entonces M ≡ F y F ≡ M .
>>: se lee como ‘es mucho mayor que’ (en contraste con > que es
simplemente ‘es mayor que’); Sección 4.6.2.
606   Notación

∝: se lee como ‘es proporcional a’. Por ejemplo, se usa a menudo en


el análisis Bayesiano donde la distribución de una variable alea-
toria se toma como proporcional a una expresión que incluye
sólo términos de la variable aleatoria y omite los otros términos
que son necesarios para asegurar que la distribución sea una
distribución de probabilidad (i.e, que tenga una probabilidad
total de 1). El uso de tal notación facilita las manipulaciones
algebraicas asociadas con la Inferencia Bayesiana; Sección 7.4.
(X | )~ N(θ,Σ): la variable aleatoria multivariante X tiene una distribución con
vector de medias θ y matriz de covarianzas Σ; Sección 2.4.6.
|x|: para un número x, el valor absoluto de x; si x > 0, |x| = x; si x < 0,
|x| = – x; por ejemplo, |6| = 6, |–6| = 6.
|Σ|: determinante de la matriz Σ.
α: parámetro a priori para la distribución Beta; Sección 2.4.4.

bg,m: probabilidad de g grupos de tamaños ( m1 ,..., m g ) = m ; Sección 10.5.


β: parámetro a priori para la distribución Beta; Sección 2.4.4.
B(α,β): constante de normalización para una distribución Beta; Sección
2.4.4.
B(a1,..., ak): constante de normalización para una distribución Dirichlet;
Sección 2.4.5.
CX(Y): probabilidad de que una persona con grupo sanguíneo Y lleve
inocentemente una mancha de sangre de grupo sanguíneo X;
Sección 8.3.3.
Γ: resultado analítico de la inspección de evidencia de traza.
γ: frecuencia de Γ en una población relevante; un parámetro.
Γ(x+1): función gamma; Sección 2.4.4.
E: cualidad o medidas de material evidencial; Capítulo 1.
   Ec: cualidad o medidas de material evidencial en forma de fuente,
también representadas por x; Sección 1.6.1.
   Es: cualidad o medidas de material evidencial en forma receptora,
también representadas por y; Sección 1.6.1.
   Ev: totalidad de la evidencia, igual a (M,E); Sección 1.6.1.
E(θi): media de la variable θi, también conocida como esperanza;
Sección 2.4.5.
f t ,z−1{}
⋅: función de densidad de probabilidad de una distribución t-stu-
dent con z–1 grados de libertad; Sección 2.4.3.
g: número de grupos; Sección 12.2.
Hd: proposición de la defensa; Sección 3.1.1.
Hp: proposición del Fiscal; Sección 3.1.1.
Notación   607

loge: logaritmo en base e.


log10: logaritmo en base 10.
M: material evidencial; Sección 1.6.1.
   Mc: aterial evidencial en la forma de fuente; Sección 1.6.1.
   Ms: material evidencial en forma receptora; Sección 1.6.1.
m: número de objetos inspeccionados; Sección 6.1.
n: número de objetos no inspeccionados; Sección 6.2.2.
n: número de grupos transferidos entre dos objetos; Sección
12.2.1.
N: tamaño de la aprehensión ( = m+n ); Sección 6.1.
N (θ, σ2): distribución normal de media θ y desviación típica σ.
v: grados de libertad; Sección 2.4.3.
O: apuestas; Sección 3.1.
p: probabilidad de transferencia de material al sospechoso desde
la escena del crimen o desde el sospechoso a la escena del cri-
men, persistiendo y siendo recuperado si el sospechoso fuera
inocente; Sección 9.5.4.
pi: probabilidad de presencia de i (≥ 0) grupos de material sobre el
sospechoso; Sección 10.5.4.
Pr: probabilidad.
Q: variable aleatoria que se corresponde con la cantidad estimada;
Sección 6.3.
q: igual a 1–p, donde p es la frecuencia relativa de una muestra.
q: cantidad estimada; Sección 6.3.
ρ: coeficiente de correlación de la población; Sección 2.4.6.
R: número de objetos de la aprehensión que son ilícitos; Sección
6.2.2.
r: probabilidad de relevancia: algo, todo o nada del material trans-
ferido puede estar presente por causas inocentes (por ejemplo,
por razones no relacionadas con el criminal) y algo, todo o nada
por causas incriminatorias (por ejemplo, por razones asociadas
con el criminal); se selecciona algo del material para el análi-
sis. Si el material seleccionado es parte del que estaba allí por
causas incriminatorias entonces éste se define como relevante;
Sección 9.5.3.
s: desviación típica de una muestra o de los objetos medidos;
Sección 2.2.
s1: probabilidad de que un grupo de fragmentos encontrados en
miembros de una población sea grande; Sección 10.5.4.
σ: desviación estándar de una población; Sección 2.2.
608   Notación

Σ: matriz de covarianza; Sección 2.4.6.


tv(P): el punto 100P% de la distribución t-student con v grados de li-
bertad; Sección 2.4.3.
tn: probabilidad de transferencia de n ( ≥ 0 ) objetos de material al
sospechoso desde la escena del crimen o desde el sospechoso a
la escena del crimen, persistiendo y recuperándose si Hp es cier-
ta. Sección 10.5.4.
tw: numerador de la densidad t-student (10.23); Sección 10.6.
t’n: probabilidad de transferencia de n ( ≥ 0 ) objetos de material
al criminal desde la escena del crimen o desde el criminal a la
escena del crimen, persistiendo y recuperándose si Hd es cierta.
Sección 12.2.1.
θ: probabilidad de, al menos, una coincidencia de la evidencia de
una frecuencia dada con un individuo identificado en una po-
blación de individuos no emparentados con el individuo identi-
ficado y de tamaño finito; Sección 3.3.5.
θ: media de una distribución normal; Sección 2.4.2.
θ: parámetro de una distribución de probabilidad; para una distribu-
ción a priori es tratada como una variable; Secciones 2.4.4 y 2.4.5.
θ: proporción de la aprehensión que contiene objetos ilícitos;
Sección 6.2.1.
θ: coeficiente de consanguinidad (co-ancestry coefficient) FST;
Sección 13.6.
θ0: límite inferior para la proporción de lo aprehendido que contie-
ne objetos ilícitos; Sección 6.2.1.
V: valor de la evidencia; razón de verosimilitud; Sección 3.5.1.
Vs(x): valor de la evidencia o razón de verosimilitud a favor de x y en
contra de s; Sección 13.9.
wj: el peso del contenido del j-ésimo objeto no examinado que es
ilícito; Sección 6.3.2.
w: media del peso de los objetos no inspeccionados que son ilíci-
tos; Sección 6.3.2.
x: medida sobre el material fuente o de control; Secciones 1.4 y
10.1.
xi: peso del contenido del i-ésimo objeto examinado que es ilícito;
Sección 6.3.2.
x: media del peso de los objetos inspeccionados que son ilícitos;
Sección 6.3.2.
xij: datos de contexto multivariantes para la muestra j en el grupo i,
i = 1, ..., m, j = 1,..., n; Sección 7.3.8.
Notación   609

x!: x factorial; cuando x es un entero positivo, el producto de x con to-


dos los enteros menores que él y mayores que 0, x (x–1) (x–2) ...2·1;
por convenio 0! = 1; Sección 2.3.1.
y: medidas sobre el material receptor o recuperado; Secciones 1.4
y 10.1.
y: número de objetos no inspeccionados que son ilícitos; este nú-
mero es desconocido y se modela mediante una distribución
Beta-binomial; Sección 6.2.2.
y1: datos fuente o de control multivariantes; Capítulo 11.
y2: datos receptores o recuperados multivariantes; Capítulo 11.
zi: uno de los datos de contexto para datos univariantes, i = 1,...,k;
Sección 10.3.
z: número de objetos inspeccionados que son ilícitos; z ≤ m;
Sección 6.2.1.
n coeficiente binomial, representa todas las posibles combinacio-
  :
x nes de n elementos tomados de x en x en las que no se tiene en
cuenta el orden, con 0 ≤ x ≤ n; es igual a n!/{x! (n–x)!}; Sección
2.3.3.

También podría gustarte