Está en la página 1de 352

ESTADÍSTICA

Ramón Ardanuy Albajar


Quintín Martín Martín
ISBN: 84-613-4852-7
Depósito Legal: AS.4970-2009
Edita: Solo Soluciones, S.L. Ps. San Miguel 36, 37185 Villamayor, Salamanca. 923 30 56 20.
Impresión: Gráficas Rigel, S.A.

Esta publicación está destinada especialmente a


los alumnos de Criminología y Detective Privado
de la Universidad de Salamanca. El público general
interesado en su adquisición podrá realizarlo
a través de la editorial.

Quedan reservados todos los derechos:


Esta obra no puede ser reproducida, ni en todo ni en parte, ni puede ser registrada, ni tramitada por sistemas de recuperación de
información, por ningún medio, sin el permiso previo por escrito del editor.
ÍNDICE

CAPÍTULO 1
EL CONOCIMIENTO CIENTÍFICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1. EL CONOCIMIENTO CIENTÍFICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2. EL MÉTODO CIENTÍFICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3. ACTITUDES MENTALES DENTRO DEL MÉTODO CIENTÍFICO . . . . . . . . . . . . . 21

4. LA INVESTIGACIÓN POLICIAL MEDIANTE EL MÉTODO CIENTÍFICO . . . . . . . . 24

CAPÍTULO 2
INTRODUCCIÓN A LA ESTADÍSTICA Y SU APLICACIÓN A LOS
ESTUDIOS POLICIALES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1. LA ESTADÍSTICA COMO MÉTODO. VARIABILIDAD. . . . . . . . . . . . . . . . . . . . . 31

2. FASES EN EL PROCESO ESTADÍSTICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL . . . . . . . . . . . . . . . . . . . . . . . . . 34

4. VARIABLES. TIPOS DE VARIABLES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5. APLICACIÓN DE LOS MÉTODOS ESTADÍSTICOS EN LA INVESTIGACIÓN


POLICIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

6. LA ESTADÍSTICA DE CRIMINALIDAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

7. TÉRMINOS DE USO COMÚN EN LA ESTADÍSTICA POLICIAL . . . . . . . . . . . . . . 40

CAPÍTULO 3
RECOPILACIÓN, AGRUPACIÓN Y REPRESENTACIÓN DE DATOS . . . . . . . . 45

1. RECOPILACIÓN DE DATOS. TIPOS DE DATOS . . . . . . . . . . . . . . . . . . . . . . . . 47

2. TIPOS DE ENCUESTAS. COMPARACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48


3. DATOS AGRUPADOS. CLASES Y TIPOS DE CLASES . . . . . . . . . . . . . . . . . . . . 49

4. FRECUENCIAS. DISTRIBUCIONES DE FRECUENCIAS. . . . . . . . . . . . . . . . . . . . 52

5. REPRESENTACIÓN GRÁFICA DE DATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

6. HISTOGRAMAS Y POLÍGONOS DE FRECUENCIAS . . . . . . . . . . . . . . . . . . . . . 60

7. OTRAS REPRESENTACIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

CAPÍTULO 4
MEDIDAS DE CENTRALIZACIÓN Y DE POSICIÓN . . . . . . . . . . . . . . . . . . . . 65

1. LA SUSTITUCIÓN DE TODA LA INFORMACIÓN POR UNOS POCOS


VALORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2. LA MEDIA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3. LA MEDIANA, CUARTILES Y PERCENTILES . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4. LA MODA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5. COMPARACIONES ENTRE MEDIA, MEDIANA Y MODA . . . . . . . . . . . . . . . . . . 79

CAPÍTULO 5
MEDIDAS DE DISPERSIÓN Y DE FORMA . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

1. SIGNIFICADO E IMPORTANCIA DE LAS MEDIDAS DE DISPERSIÓN . . . . . . . . . 83

2. MEDIDAS DE DISPERSIÓN ABSOLUTA, RECORRIDOS . . . . . . . . . . . . . . . . . . . 84

3. DESVIACIÓN MEDIA, CÁLCULO Y SIGNIFICADO . . . . . . . . . . . . . . . . . . . . . . 86

4. VARIANZA Y DESVIACIÓN TÍPICA, CÁLCULO Y SIGNIFICADO . . . . . . . . . . . 87

5. MEDIDAS DE DISPERSIÓN RELATIVA, EL COEFICIENTE DE VARIACIÓN. . . . . . 90

6. ASIMETRÍA, COEFICIENTES DE ASIMETRÍA . . . . . . . . . . . . . . . . . . . . . . . . . . 91


7. MEDIDAS DE APUNTAMIENTO, CURTOSIS O EXCESO . . . . . . . . . . . . . . . . . . 94

EJERCICIOS PROPUESTOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

CAPÍTULO 6
NÚMEROS ÍNDICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

1. LA NECESIDAD DE LOS NÚMEROS ÍNDICES . . . . . . . . . . . . . . . . . . . . . . . . 107

2. NÚMEROS ÍNDICES SIMPLES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

3. NÚMEROS ÍNDICES COMPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

4. OTROS NÚMEROS ÍNDICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5. EJEMPLOS Y APLICACIONES POLICIALES . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

CAPÍTULO 7
PROBABILIDAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

2. SUCESOS. OPERACIONES CON SUCESOS . . . . . . . . . . . . . . . . . . . . . . . . . . 123

3. CONCEPTO CLÁSICO Y ESTADÍSTICO DE LA PROBABILIDAD . . . . . . . . . . . . 126

4. PRINCIPIOS ELEMENTALES DE LA PROBABILIDAD . . . . . . . . . . . . . . . . . . . . 128

5. PROBABILIDAD CONDICIONADA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

6. LA DISTRIBUCIÓN NORMAL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136


CAPÍTULO 8
ESTIMACIÓN ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

2. POBLACIÓN Y MUESTRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

3. TIPOS DE MUESTREO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

4. ESTIMACIÓN PUNTUAL DE MEDIAS, VARIANZAS Y PROPORCIONES. . . . . . . 149

5. INTERVALO DE CONFIANZA PARA UNA MEDIA. . . . . . . . . . . . . . . . . . . . . . 159

6. INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN . . . . . . . . . . . . . . . . 165

7. EL USO DE INTERNET EN EL CÁLCULO DE INTERVALOS DE CONFIANZA . . . 170

EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

CAPÍTULO 9
GRÁFICOS DE CONTROL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

2. LA FILOSOFÍA DE LOS GRÁFICOS DE CONTROL . . . . . . . . . . . . . . . . . . . . . 183

3. GRÁFICO (X, σ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

4. GRÁFICO DE PROPORCIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

5. GRÁFICO C DE NÚMERO DE CASOS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

6. GRÁFICOS DE CONTROL CON SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216


CAPÍTULO 10

CONTRASTES DE HIPÓTESIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221

1. INTRODUCCIÓN Y CONCEPTOS BÁSICOS . . . . . . . . . . . . . . . . . . . . . . . . . . 223

2. COMPARACIÓN DE UNA MEDIA CON UN VALOR DADO . . . . . . . . . . . . . . . 224

3. COMPARACIÓN DE DOS MEDIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

4. COMPARACIÓN DE PROPORCIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239

CAPÍTULO 11
REGRESIÓN Y CORRELACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

1. INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

2. EL MODELO DE REGRESIÓN LINEAL SIMPLE . . . . . . . . . . . . . . . . . . . . . . . . 246

3. RECTA DE REGRESIÓN MÍNIMO CUADRÁTICA . . . . . . . . . . . . . . . . . . . . . . 251

4. EL COEFICIENTE DE CORRELACIÓN LINEAL . . . . . . . . . . . . . . . . . . . . . . . . 255

5. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS EN LA RECTA


DE REGRESIÓN Y = A + BX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259

6. REGRESIÓN A TRAVÉS DEL ORIGEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264

7. REGRESIÓN LINEAL MÚLTIPLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266

8. OTRAS MEDIDAS DE CORRELACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273

PRÁCTICAS DE ESTADÍSTICA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

Práctica 1: ESTRUCTURA DEL SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283

Práctica 2: MANEJO DE DATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285

Práctica 3: TRANSFORMAS DATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296


Práctica 4: ANÁLISIS DESCRIPTIVO DE DATOS . . . . . . . . . . . . . . . . . . . . . . . . 304

Práctica 5: NÚMEROS ÍNDICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310

Práctica 6: PRÁCTICA DE ACCESO A BASES DE DATOS POR INTERNET . . . . . . 312

Práctica 7: DISTRIBUCIÓN NORMAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313

Práctica 8: ESTIMACIÓN DEL TAMAÑO DE UNA MUESTRA. INTERVALO DE


CONFIANZA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315

Práctica 9: GRÁFICOS DE CONTROL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316

Práctica 10: CONTRASTES DE HIPÓTESIS. COMPARACIÓN DE MEDIAS . . . . . . 320

Práctica 11: CORRELACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

Práctica 12: REGRESIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328

CUESTIONARIO DE AUTOEVALUACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . 329

BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339

10
Capítulo 1
EL CONOCIMIENTO CIENTÍFICO
Estadística - Capítulo 1

1. EL CONOCIMIENTO CIENTÍFICO
Siguiendo a Pérez Juste (1989) sabemos que por el solo hecho de vivir, el
hombre entra en relación con la realidad, que tiene una doble dimensión: natural
y social. Mediante la actividad humana aparecen relaciones de los hombres entre
sí y de éstos con la naturaleza exterior, la práctica o praxis de estas relaciones
es la que genera los distintos tipos de conocimiento: el cotidiano y el
científico.

El saber cotidiano es el saber o conocimiento que se adquiere con la experiencia


diaria; se trata de conocimientos inconexos entre sí, a veces superficiales, consti-
tuidos por una yuxtaposición de casos y hechos, caracterizándose, por tanto, por
ser superficial, no sistemático y acrítico. Ahora bien, el hombre, en su actividad
diaria, se enfrenta a una serie de problemas que no puede resolver por los
conocimientos corrientes, ni por el sentido común, necesitando ir más allá del
conocimiento ordinario, buscando explicaciones profundas y de amplio alcance
objetivo, buscando un conocimiento que se adquiera con arreglo a ciertos proce-
dimientos, es el que denominamos conocimiento científico. Los objetivos fundamen-
tales de la ciencia, o del conocimiento científico, en relación con su campo de
actuación, la realidad de este mundo, son cuatro: analizar, explicar, predecir y
actuar.

Para algunos autores, Romero Marín, Zaragüeta, etc., la diferencia entre el


saber vulgar y científico está en que el primero es propio del sentido común, es
superficial y asistemático y se preocupa por el qué; el segundo es más extenso,
claro, preciso, profundo, sistemático, preocupado por el por qué. La diferencia
entre un tipo de saber y otro no está en la naturaleza del objeto de estudio, sino
por la forma o procedimiento de adquisición del conocimiento. Bunge estima
que existen semejanzas entre ambos tipos de conocimiento, como la pretensión
de objetividad y de racionalidad, por ello, el conocimiento científico bien podría
ser el resultado del desarrollo del conocimiento vulgar.

El conocimiento científico ocupa un peldaño más alto que el vulgar en el estatus


del saber, pero parte de aquél, lo toma como punto de partida. En el proceso de
logro del saber científico, se establecen hipótesis configuradas a partir del saber

13
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

ordinario; hipótesis cuyos contenidos pasarán a integrarse en la esfera del saber


científico, cuando sean contrastadas y aceptadas. Para que el conocimiento tenga
carácter científico es necesario, además, elaborar instrumentos que garanticen y
controlen la validez de los conocimientos adquiridos.

Otro foco de discusión deriva de la consideración de que no todo el saber no


vulgar o no ordinario tiene categoría de científico, ¿es científico lo filosófico?.
Para González Álvarez y García Hoz “científico es todo conocimiento demostrado
ya sea por vía inductiva o deductiva”, de forma que quedaría incluido el
conocimiento filosófico. Piaget, sin embargo, indica que el criterio que hace que
un problema sea filosófico o apto para el saber científico, es la posibilidad de ser
delimitado para ser resuelto a través de la experiencia y el cálculo. Kerlinguer
afirma que la ciencia estudia los casos que pueden ser observados y sometidos
a prueba públicamente. Pero el trasfondo de la discusión entre lo filosófico y lo
científico está más centrado en el estatus que en el método, pues al considerarse
el conocimiento científico la cúspide del saber los defensores de otras formas de
conocimiento también reclaman la cumbre; no faltan conciliadores como
Maritain que otorga a la ciencia y a la filosofía dos ámbitos distintos, sin subor-
dinación recíproca: “tanto el conocimiento científico como el filosófico pueden
progresar en su propio término hasta el infinito, sin entrar en conflicto...” No
obstante nadie discute que el conocimiento científico tiene su origen en la experiencia
y se ocupa de enunciados objetivos que deben ser contrastados
intersubjetivamente.

Con todo ello, el conocimiento científico no es infalible, ni exacto, ni defini-


tivo, es autocorrectivo. Para Popper los enunciados científicos son susceptibles
de revisión y modificación. Russel afirma que “ningún hombre de temperamento
científico mantiene que lo que ahora es creído en ciencia, sea exactamente la
verdad”. También hay discusión en torno a este punto, llegando algunos autores
a rechazar como carente de sentido cualquier enunciado del que no pueda
afirmarse de forma categórica, que es verdadero. Arnau añade al conocimiento
científico la característica de relacionabilidad, de forma que constituya una
estructura, un sistema y Kerlinguer añade que “el científico busca consciente y
sistemáticamente relaciones” .

14
Estadística - Capítulo 1

Concluimos este epígrafe con la regla de oro que propone Bunge, perfectamente
válida en la investigación científica policial “para conseguir el conocimiento
científico es necesario audacia en el conjeturar y rigurosa prudencia en el someter
a contrastación”.

2. EL MÉTODO CIENTÍFICO
La palabra método tiene el significado de camino, procedimiento, medio,
manera, etc., por ello puede decirse que el método es la forma racional, ordenada
y objetiva de la actividad científica, que establece el camino o proceso que aquélla
debe seguir para alcanzar su fin. La racionalización de los métodos de búsqueda
con el fin de obtener la máxima información con la máxima economía de
pensamiento es lo que constituye la base de todo método.

La evolución histórica del concepto “método” de la ciencia pone de manifiesto


las distintas posturas del hombre en su enfrentamiento o intento de conocimiento
de la naturaleza que le rodea; como consecuencia, surgen distintos rumbos de
estudio. Así, podemos hablar de varios enfoques, tales como el dialéctico, el
deductivo, el inductivo, el empírico, el matemático, etc. El fin común es el
conocimiento, la obtención de algún tipo de modelo o teoría capaz de explicar y
predecir el por qué de los hechos, de las cosas.

Dada su importancia, creemos que el lenguaje debiera ser la primera


consideración en todo método; en consecuencia, todo estudio acerca de la
elaboración de la ciencia debiera llevar consigo el del lenguaje, como soporte
que es tanto de la descripción como de la explicación.

Puesto que el método es una forma de realizar actividades humanas, se pueden


distinguir tantas clases de métodos como actividades a que se refieran. En la
actividad humana se pueden distinguir dos grandes modalidades: pensar y
actuar. De ahí que los métodos se puedan dividir en: métodos de pensar y de
actuar. Los métodos de pensar son métodos discursivos o de razonamiento, que
hacen referencia a la formación de conceptos y de juicios; como modalidades
principales de métodos de pensar se encuentran: la abstracción, la deducción, la
inducción, el análisis, la síntesis, la definición, la clasificación y la comparación.

15
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Como métodos de actuar se pueden considerar todos los que se refieren a la


forma de realizar las actividades humanas dirigidas al mundo en que vivimos.

De todos los posibles métodos de investigación, el que puede considerarse


método de investigación por excelencia es el método científico, consistente en:
“formular cuestiones o problemas sobre la realidad del mundo y los hombres,
con base en la observación de la realidad y la teoría ya existente, en anticipar
soluciones a estos problemas y en contrastarlas o verificarlas con la misma
realidad, mediante la observación de los hechos que ofrezca, la clasificación de
ellos y su análisis”.

El aislamiento de los fenómenos, estableciendo unas representaciones


abstractas, constituye el punto de partida de todo método científico. El método
científico puede considerarse como una interacción entre dos componentes del
pensamiento humano, una es la intuición y otra la lógica interpretación de los
resultados obtenidos por la experiencia. La intuición, a partir de cierta situación
del conocimiento, extrapola e inventa nuevas teorías. Experimentos posteriores
ratifican las teorías adelantadas por la intuición, las modifican o las declaran falsas.
A su vez, los resultados obtenidos en los nuevos experimentos estimulan la
intuición y ponen en marcha su actividad creadora. Este ciclo es lo que constituye
el método científico y es el camino que la ciencia emplea para incrementar sus
conocimientos.

En el estado actual de las ciencias el método científico es, en primer lugar,


un método teórico en su origen y en su fin, con ello se quiere decir que su punto
de partida es, en general, una teoría previa o un conjunto racional y sistemático
de ideas sobre la realidad de que se trate. Esta teoría debe ser normalmente la
fuente de los problemas que formula el método científico. Es también su fin,
porque de los resultados de la observación e inducción empíricas realizadas se
deben deducir nuevos principios que reformen, completen o confirmen las
teorías iniciales.

En segundo lugar, el método científico es problemático-hipótetico, en cuanto se


basa en la formulación de problemas, cuestiones o interrogantes sobre la reali-
dad y en adelantar conjeturas o soluciones probables a dichas cuestiones.

16
Estadística - Capítulo 1

En tercer lugar, el método científico es empírico, en el sentido de que su fuente


de información y de respuesta a los problemas que se plantea es la experiencia. Que
la fuente de información y de respuesta del método científico es la experiencia
quiere decir que la ciencia, a efectos de prueba, toma sus datos y funda sus
conclusiones en la observación ordenada y sistemática de la realidad. En esto se
diferencia de otras formas de pensamiento que basan también sus pruebas en la
autoridad, la tradición y la revelación.

En cuarto lugar el método científico es, a la vez, inductivo y deductivo; es


inductivo en cuanto procede mediante la clasificación sistemática de datos obte-
nidos durante la observación, con el fin de determinar las uniformidades o regu-
laridades que presentan. La inducción da lugar inmediatamente a datos sobre la
realidad, pero el relacionar estos datos, establecer conceptos y enunciados con
base en ellos y sacar conclusiones de todo género es en gran parte obra de la
deducción.

En quinto lugar el método científico es crítico. Con ello se quiere decir que
se debe someter constantemente a examen y juicio todas las fases, operaciones
y resultados, o lo que es lo mismo, a contraste y verificación; además, también
se quiere significar que en ningún caso los logros del método científico son defi-
nitivos y que siempre están sujetos a la revisión, que se pueden derivar nuevos
conocimientos y puntos de vistas científicos.

En sexto lugar el método científico es circular, esto es así porque en él los


principios se prueban mediante datos empíricos y éstos se analizan o interpre-
tan sobre la base de aquéllos. Existe una interacción continua en el método
científico entre la experiencia y la teoría, pues, con base en la experiencia se
establece, completa y reforma la teoría y con base en la teoría se capta y explica
la realidad.

En séptimo lugar el método científico es analítico-sintético, es decir, estudia


la realidad distinguiendo y separando unos de otros sus elementos más simples,
pero no se queda aquí, sino que procura luego unir y recomponer los elementos
separados obteniendo una nueva visión global del conjunto y de las relaciones
estructurales entre sus elementos.

17
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

En octavo lugar el método científico es selectivo en un doble sentido, ya que,


primero, entre la multiplicidad de aspectos de los fenómenos debe concentrar su
observación en los más relevantes, y, en segundo, entre las masa de datos reco-
gidos debe procurar detectar en el análisis los más significativos por tener un
influjo predominante.

En noveno lugar el método científico es abierto a la imaginación, pues


aunque normalmente debe atenerse a reglas metodológicas formales, al mismo
tiempo debe fomentar también la intuición y la imaginación.

Resumiendo las ideas básicas sobre el método científico podríamos decir que
son: La duda, la problematización, la conjetura o hipótesis, la prueba empírica
como criterio último de verificación y la precisión o exactitud.

Quizás se pueda considerar a Galileo y a Kepler como los iniciadores del


método científico tal y como lo entendemos hoy, al dar prioridad al experimento
para llegar al conocimiento de los fenómenos naturales. Desde el nacimiento de
la ciencia experimental, en tiempos de Galileo, el hombre ha venido aplicando
constantemente métodos científicos a los cada vez más amplios campos de la
investigación. En este periodo de evolución, la Ciencia ha logrado dar satisfacción
a un número creciente de preguntas y cuestiones que se le han ido
planteando. Sin embargo, para obtener contestaciones científicas a nuevas e
importantes cuestiones, se ha hecho necesario puntualizar y completar más el
significado de la Ciencia y de sus métodos.

Puesto que ningún investigador es capaz de prestar atención simultáneamente


a todos los extremos necesarios, deberá limitarse a discernir cuáles son los
aspectos fundamentales de su problema, y cuáles carecen de este carácter.
Ahora bien, nada puede decidirse sobre la importancia de los aspectos de un
problema simplemente a través de las sensaciones. A lo más que el Empirismo
puede llegar es a establecer asertos sobre lo que probablemente sucederá,
basándose en la información de lo que ha sucedido; en cada fase del desarrollo
científico hemos de poder formarnos alguna idea en cuanto a la certeza que
pueda entrañar, y esto es precisamente lo que se ha hecho al formular la Teoría
de la Probabilidad, que nos enseña a calcular la posibilidad de que un suceso
ocurra bajo ciertas condiciones, teniendo en cuenta el número de veces que ha
ocurrido, según la observación.

18
Estadística - Capítulo 1

Kant aseguraba que sólo puede haber conocimiento científico cuando la


mente ordena y organiza lo que recibe a través de los sentidos. Los datos puros
no tienen significado por sí mismos, puesto que están completamente desorga-
nizados. La organización de los datos se lleva a cabo por un conjunto de normas
del entendimiento, dadas racionalmente.

Cuanto más elemental sea el principio, más sencillas serán la sensaciones


con las cuales pueda estar relacionado y por tanto más objetivo y verdadero. Sin
embargo la Psicología demuestra que lo que captamos en una sensación no es
un dato simple, sino una experiencia total que envuelve siempre una intervención
de la mente, de aquí que no pueda hacerse ello fuente del conocimiento cientí-
fico. La deducción es clara: “la Ciencia Policial comienza sus investigaciones no
sobre la base de principios absolutamente simples conocidos con certeza, sino
más bien sobre la base de principios relativamente simples, es decir, conocidos
de antemano con cierto grado de certidumbre”.

La primera tarea de toda investigación será decidir cuál es realmente el


problema. Este paso supone llevar al entendimiento las incógnitas que necesitan
solución, es decir, hacer explícito el objetivo que se persigue al iniciar las inves-
tigaciones y buscar los aspectos o factores que a nuestro juicio lo determinan.
Los propios factores proporcionarán luego sugerencias para la solución del pro-
blema; sopesaremos estas sugerencias a la luz de nuestras propias presunciones
y mediante el cotejo con posibles nuevos factores a los que se dirigirá nuestra
atención. Se inicia así un proceso perfectamente eslabonado que concluye con
una última sugerencia en forma de solución susceptible de aplicación; ésta, para
tener algún significado, deberá ser probada en acción, de forma que pueda
determinarse si es capaz de solucionar nuestro problema, es decir, si conduce al
objetivo señalado de antemano. La medida de verdad de una hipótesis será
simplemente la medida de su capacidad para resolver el problema y alcanzar así
el fin que nos habíamos propuesto.

Algunos autores caracterizan la ciencia por el hecho de servirse del método


científico; en este sentido, el paradigma de Dewey es el marco de referencia para
el estudio del método científico:

19
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

a) El hombre percibe una dificultad, un obstáculo, una situación para la


que no encuentra explicación o solución, y procura explicitar y definir el
problema con precisión, a ser posible en forma de preguntas, que le
permitan saber exactamente qué es lo que busca.

b) El hombre propone hipótesis o conjeturas que podrían ser la respuesta


a tales preguntas, con el propósito de dar con la solución al problema
planteado.

c) Deduce las consecuencias que se seguirían de ser ciertas las hipótesis


planteadas.

d) Valida las hipótesis sometiéndola a prueba mediante la recogida de


datos y la utilización de técnicas adecuadas, en ocasiones estadísticas.

El método de Dewey es conocido como el hipotético-deductivoexperimental,


haciendo alusión a los tres momentos claves: formulación de hipótesis, deducción
de consecuencias y recurso a la experiencia.

Bunge reconoce que “el método científico es un modo de tratar problemas


intelectuales y consecuentemente puede utilizarse en todos los campos del
conocimiento ...”. La naturaleza del objeto de estudio dicta los posibles métodos
especiales del tema o campo de investigación correspondiente. La diversidad de
las ciencias se manifiesta en sus métodos, en sus objetos, en sus técnicas y se
disipa en cuanto se llega al método general que subyace a todas ellas. Bunge
propone un método de ocho etapas, basado en la idea de Dewey:

1. Enunciar preguntas bien formuladas y verosímilmente fecundas.

2. Arbitrar conjeturas, fundadas y contrastables con la experiencia para


contestar a las preguntas.

3. Derivar consecuencias lógicas de las conjeturas.

4. Arbitrar técnicas para someter las conjeturas a contrastación.

5. Someter a su vez a contrastación esas técnicas para comprobar su


relevancia y la fe que merecen.

6. Llevar a cabo la contrastación e interpretar sus resultados.

20
Estadística - Capítulo 1

7. Estimar la pretensión de verdad de las conjeturas y la fidelidad de las


técnicas.

8. Determinar los dominios en los cuales valen las conjeturas y las


técnicas y formular los nuevos problemas originados por la investigación.

En toda ciencia la observación, experimentación y raciocinio son pilares


fundamentales y necesita hacer uso del método científico para el hallazgo de
nuevos conocimientos, siendo la Estadística un poderoso y eficaz instrumento de
tal método. En su obra “The Scientific Outlook”, el filósofo Bertran Rusell indicó,
como principales etapas del método científico, la exacta observación del fenó-
meno bajo estudio, la formulación de hipótesis que intenten explicarlo y la veri-
ficación de tales hipótesis en base a nuevas observaciones. La Estadística, con su
peculiar enfoque de la mentalidad científica, y dotada con el rigor que le confiere
la ciencia matemática, interviene con eficacia y correcta utilización en la amplia
y variada gama de técnicas que ofrece, ayuda muy positivamente en la planificación
del estudio, recolección de la información, y en su posterior análisis e interpre-
tación, presentando conclusiones y resultados con conocimiento de la confianza
de sus afirmaciones. Además, dentro del proceso de análisis de datos en las
investigaciones de carácter empírico, en cierta forma, y dentro del campo poli-
cial podemos considerar a la utilización del ordenador como un elemento que
facilita el cambio de paradigma.

3. ACTITUDES MENTALES DENTRO DEL MÉTODO CIENTÍFICO


Se pueden aprender muchos procedimientos para investigar, pero esto sirve
de muy poco si no se ha aprendido ha pensar. La perspectiva con la que se debe
concebir las actitudes mentales dentro del pensar científico (método científico)
forman un binomio entre teoría y práctica, entre estudio y conocimiento de la
realidad y la acción transformadora de la misma. Con el objetivo de que estas
actitudes mentales nos ayuden a aprender a pensar hacemos una exposición
sucinta de las más importantes para el campo policial (adaptado de lo expuesto
en el texto de Sampson (1989)):

21
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

a) Actitudes Mentales de Representación (¿Qué hay?)

En una primera fase, la primera impresión debe recogerse en un proceso que


podríamos denominar enumerar-describir:

I. En la enumeración se enuncian cosas, se hace un inventario de hechos,


datos e información

II. Con la descripción se pretende caracterizar algo.

Una segunda fase la constituye la acción de comparar-distinguir.

Los hechos, datos e información acumuladas, tienen que ser comparados y


distinguidos:

I. Se compara cuando de los hechos, situaciones o acontecimientos se


hacen resaltar las semejantes.

II. Se distingue, cuando se destacan las diferencias.

La tercera fase la constituye la acción de clasificar-definir. Se delimita el objeto


a estudiar. Para ello se pone en orden el material acumulado, siguiendo un
sistema de referencia:

I. Se clasifica cuando se agrupan objetos en subconjuntos de acuerdo a


ciertas similitudes, características, cualidades o propiedades en común.

II. Se define cuando se enumera con claridad y exactitud las características


genéricas y diferenciales de una cosa material o inmaterial.

b) Actitudes Mentales de Identificación (¿Qué es esto?)

La primera fase dentro de este apartado la constituye la identificación de


aspectos y puntos de vista. Se trata con ello de asumir la complejidad que tiene
toda realidad:

I. Sus diferentes aspectos, los cuales existen objetivamente.

II. Los puntos de vista, que son las opiniones de la gente o las distintas
perspectivas desde las cuales se puede considerar una cuestión; es el
aspecto subjetivo.

22
Estadística - Capítulo 1

La segunda fase la constituye la búsqueda de contradicciones y oposiciones.


Toda realidad contiene en su seno una serie de contradicciones o aspectos
opuestos que tienden a excluirse mutuamente; es necesario conocer cuáles son
las oposiciones y las contradicciones específicas que encierra cada situación
para poder sacar ventaja de ello.

Una tercera fase la constituye el saber situar los hechos y fenómenos en el


espacio y en el tiempo. Ningún fenómeno puede entenderse plenamente aislado
de su contexto temporal-espacial (dónde se produce y cuándo se produce).

c) Actitudes Mentales de Relación (¿Por qué esto es así?)

Aquí la primera fase la constituye el saber relacionar un hecho con sus


causas y consecuencias. Se trata, pues, de comprender un hecho o fenómeno de
la realidad en relación con sus causas y de prever sus consecuencias.

La segunda fase se constituye en la búsqueda de leyes y teorías para expli-


car y comprender los hechos. Aquí se trata de explicar la realidad a través de
leyes científicas y de teorías. Las leyes nos señalan aquellos hechos o fenómenos
que se dan en determinadas condiciones, la teoría, en cuanto sistema explicativo
global, arroja luz sobre la comprensión de la realidad.

d) Actitudes Mentales para la Acción (¿Qué hacer?, ¿Por qué hacerlo?, ¿Para
qué hacerlo?, ¿Cómo hacerlo?)

Aquí las preguntas a responder son del tipo: ¿Qué hacer?, ¿por qué hacerlo?,
¿para qué hacerlo?, ¿cómo hacerlo?.

Nuestra primera fase debe tratar de explicitar los valores y principios que
inspiran y guían la acción. En los valores y principios se fundamenta la acción y,
al mismo tiempo, el modelo a alcanzar en cuanto que proporciona reglas para la
acción y una jerarquía de valores.

La segunda fase se constituye con el establecimiento de los objetivos, metas,


medios y métodos de acción. Los objetivos son lo que se quiere hacer, las metas
expresan cuánto se quiere hacer (en tiempo, lugar y espacio), los medios hacen
referencia al con qué hacerlo (recursos humanos, técnicos, financieros y materiales)
y los métodos tratan lo concerniente a cómo hacerlo.

23
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

La tercera fase se identifica con el establecimiento de un plan de acción.


Realizar un plan de acción consiste en establecer los diferentes pasos y tareas
que hay que realizar en el tiempo y en el espacio para alcanzar los objetivos y
metas propuestos.

Finalizamos con la fase de validación del proceso: control de acción y de los


resultados. Si no queremos alejarnos de los objetivos y de las metas propuestos,
con los métodos establecidos y de acuerdo con los valores y principios que
deben sustentar toda acción, hay que controlar y evaluar el proceso

4. LA INVESTIGACIÓN POLICIAL MEDIANTE EL MÉTODO


CIENTÍFICO
La investigación científica en general, y la policial en particular, conlleva un
conjunto de actuaciones sucesivas orientadas a conocer una determinada reali-
dad. Para lograr ese objetivo se sigue un proceso de movimiento inverso, pero
cuyas fases se corresponden entre sí. El primero se denomina proceso de verifi-
cación, en él, en síntesis, la investigación parte de la teoría existente y desciende
a la realidad empírica, es un proceso deductivo; el segundo se puede llamar de
teorización, y en él, por el contrario, la investigación parte de la realidad y
asciende a la teoría sintética, es un proceso inductivo.

El proceso de verificación es un proceso probatorio, con la teoría y aspectos


que se cree conocer con la realidad se forman representaciones de ésta, que se
denominan modelos, de éstos se deducen conclusiones y se comprueba el grado
de ajuste de las conclusiones con la realidad. Por ello la verificación es la prácti-
ca de la prueba, constituyendo el núcleo del proceso investigador; se trata, pues,
de un proceso descendente, deductivo; consecuencia de la misma se pueden

24
Estadística - Capítulo 1

obtener dos resultados: la confirmación o la refutación de hipótesis y teorías. No


obstante, conviene señalar que la verificación no supone hacer verdad o demos-
trar la verdad total de una hipótesis, sino, más bien, comprobar que en un caso
concreto no se opone a la realidad observable.

En medios policiales, tradicionalmente se ha otorgado el estatus de “investi-


gación científica” a la surgida en laboratorios al amparo de ciencias como la
química, la médica, etc.; sin embargo, en relación a los procedimientos de inves-
tigación para el descubrimiento de crímenes, desde que surge el indicio hasta
que se logra la prueba y se contrasta fehacientemente, existe la duda acerca de
su consideración como “investigación científica”. Pero ¿acaso no es posible la uti-
lización del método científico en la investigación policial de calle, de campo?, ¿es
que el método científico impone cierta rigidez secuencial, difícil de cumplir al
investigar conductas criminales, llenas de imprevisiones?, ¿es que los métodos
de investigación policial tradicionales tienen amplios componentes de intuición
personal, subjetivismo intuitivo experiencial o están demasiado personalizados
y eso puede ser un handicap para la aproximación científica?. No nos corresponde
responder ahora a estas cuestiones, pero el alumno ya desde el inicio del curso
debe comprometerse en una reflexión en base a ellas.

Es posible que exista más de un método científico y que la ejecutoria de la


investigación policial, que se ha mostrado válida durante siglo y medio de apli-
cación, constituya uno de ellos, un método científico especial y policial, al cual
no se le ha reconocido su estatus por falta de un marco teórico explícito que lo
respalde, ya que el investigador policial se ubica más en el pragmatismo opera-
tivo que en el teoricismo.

Es indudable que en buena medida existe un paralelismo entre las propuestas


de Bunge o Dewey y los procedimientos de investigación utilizados por la
policía, en efecto, al investigar un hecho criminal, de facto se siguen los siguien-
tes pasos:

1. Enunciado de preguntas en torno al suceso del que todo se desconoce:


¿Qué ha pasado?, ¿Cómo?, ¿Cuándo?, ¿Quién?, ¿Dónde?, ¿Por qué?, ¿Para
qué? ...

25
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

2. Se arbitran conjeturas fundadas y contrastables para contestar a las


preguntas. Se hacen conjeturas en torno a quién puede ser el sospechoso,
cuál fue el móvil del crimen, cuál fue el modus operandi, en qué momento
y en qué lugar se cometió el crimen, ... etc. Las conjeturas suponen deduccio-
nes razonadas, coherentes, factibles, que realiza el investigador policial en
base al conocimiento de parcialidades del hecho, conocimiento que va
logrando mediante meticulosos procedimientos de recogida de datos.

3. Los datos que va logrando el investigador policial, obran en conjunto


para determinar unas consecuencias lógicas a partir de las conjeturas ini-
ciales. Se va realizando la composición de un rompecabezas integrado por
piezas aisladas que fueron halladas y concatenadas por el proceso de
investigación, para producir unas consecuencias.

4. Las consecuencias deben soportarse en pruebas irrefutables, de forma


que sean relevantes, permanentes, indubitadas y superen el contraste a
que son sometidas en el proceso penal, mediante peritajes, opiniones
contradictorias, etc.

5. Los procedimientos y técnicas empleados para el logro de tales pruebas


han de ser auspiciados por la ley y en ningún caso se permiten procedimien-
tos ilegales. Son procedimientos válidos para la ciencia en general: obser-
vaciones, testimonios, determinaciones de laboratorio, etc.

6. La interpretación de los datos contrastados arroja luz suficiente para


señalar a unas personas como responsables del hecho investigado.

7. El proceso penal y el juicio oral estimarán la pretensión de veracidad de


las conjeturas y la fidelidad y validez de las técnicas empleadas.

8. Policialmente el procedimiento concluye cuando el problema ha sido


esclarecido y contrastado; pero, sin duda, habrá originado nuevos interro-
gantes cuyas respuestas corresponden a la Justicia, a los Servicios
Sociales, al Sistema Educativo, etc.

26
Estadística - Capítulo 1

Todo el procedimiento seguido tiene visos de proceder científico: existe en


cada investigación un objeto formal (el caso), un método, un sistema, unas téc-
nicas e instrumentos con “cuño” policial. Existe además un objetivo prioritario
para cualquier rama del saber (desde la filosofía hasta las ciencias empíricas):
revelar la verdad. Y, por último, todo el proceso es autocorrectivo y contrastable
paso a paso.

Igualmente se descubren los componentes del proceder científico mediante


el método comparativo en numerosos trabajos de investigación de distintos
servicios de Policía Científica:

· La identificación mediante el estudio de crestas papilares.

· Los estudios sobre balística.

· Los estudios sobre documentos.

· Etc.

Los métodos observacionales se ponen de manifiesto en las inspecciones


oculares, vigilancias, seguimientos, etc.

Los estudios sobre criminalidad se apoyan frecuentemente en la Estadística


Descriptiva:

· Seguimiento mensual de la delincuencia.

· Recogida de datos en modelos estandarizados.

· Análisis de datos.

· Tratamiento estadístico.

· Elaboración de conclusiones: Informes sobre evolución de la criminali-


dad, estudios de previsión de crecimiento delincuencial, etc.

· Utilización operativa de los resultados.

Los análisis de gestión de diversos servicios, también se apoyan en el proce-


der científico:

· Seguimiento diacrónico de la gestión.

27
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

· Recogida de datos (productos de la gestión): Extranjeros, D.N.I., etc.

· Tratamiento estadístico-descriptivo de datos.

· Elaboración de informes de gestión (análisis, memorias).

· Aplicación de los resultados en la toma de decisiones y en la gestión de


recursos humanos.

28
Capítulo 2
INTRODUCCIÓN A LA
ESTADÍSTICA Y SU APLICACIÓN
A LOS ESTUDIOS POLICIALES
Estadística - Capítulo 2

1. LA ESTADÍSTICA COMO MÉTODO. VARIABILIDAD


Una persona, un objeto, un fenómeno, pueden ser estudiados desde muchos
puntos de vista. La información que obtenemos al estudiar estos casos individua-
les los definen. Cuando lo que nos interesa es el conocimiento de un colectivo o
población (personas, objetos, fenómenos), no sólo necesitamos conocer a los
individuos que lo forman, sino que además, tenemos que sacar conclusiones
(síntesis) del comportamiento del grupo.

Los delitos son fenómenos individuales, producidos por personas con


nombres y apellidos. En un estudio sobre delincuencia no interesarán tanto los
casos individuales como aquellas características de conjunto que nos permita
tener una perspectiva general de la delincuencia.

El concepto de Estadística ha ido evolucionando profundamente desde sus


orígenes hasta nuestros días. Así, desde ser una mera enumeración o “contabilidad”
de personas, cosas o fenómenos, hasta proponer complicados métodos para
analizar, predecir y ayudar a tomar decisiones sobre el comportamiento de
colectivos. En esta parte del curso plantearemos los métodos que nos permitan
pasar de las características individuales (datos) a las del colectivo. No es
posible hacer Estadística si no hay variabilidad, características distintas de los
individuos que forman la población:

· mil tornillos exactamente iguales

· soltar un objeto. ¿Qué trayectoria seguirá?

¡No son problemas que estudie la Estadística!.

La observación de fenómenos distintos y el esfuerzo de sacar conclusiones


generales de comportamiento, es muy antiguo. Los refranes son un ejemplo de
esta forma de generalizar. La diferencia es que este tipo de “estadística” no es
una Ciencia, ya que no tiene el rigor ni los métodos típicos de los estudios
científicos. Hoy día la Estadística es una Ciencia, las pautas que sigue para pasar
de los datos individuales a la información del colectivo (Población) son los métodos:
y este va a ser el objetivo al cual aspiramos en este curso. Su importancia
estriba en las garantías que el Método Científico ofrece. Los métodos están

31
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

perfectamente definidos y prácticamente no dejan lugar a variantes subjetivas.


De todas formas, la “mala prensa” de algunas estadísticas no es imputable, casi
nunca, al Método, sino a la forma de aplicarlo, en definitiva son simplemente
trabajos mal hechos; como le puede suceder a cualquier otro trabajo científico.
Si a esto se une que en ocasiones, hay ánimo de dirigir los resultados en una
dirección -manipular- comprenderemos mejor este fenómeno. Por último, queremos
señalar que el término estadística o estadísticas también se utiliza cuando nos
referimos a colecciones de datos: listas, tablas, etc. que presentan la información
agrupada.

2. FASES EN EL PROCESO ESTADÍSTICO


En el Método que sigue cualquier estudio de un colectivo (Estadística) hay
una serie de fases, prácticamente independientes del problema abordado, que
tienen lugar siempre, tanto si estudiamos problemas tan distintos como la rique-
za en glucosa de un camión de remolacha o el grado de inteligencia de un grupo
de estudiantes. Se pueden distinguir cuatro fases:

1. Recopilación de datos: la información que necesitamos de los indivi-


duos que integran la población a estudiar.

2. Ordenación de los datos: ordenar y agrupar los datos recogidos

3. Análisis: operaciones con los datos que proporcionan los valores,


parámetros o “estadísticos” que caracterizan al grupo.

4. Interpretación: sacar conclusiones de los resultados.

Es importante resaltar que los errores cometidos en una fase, transcienden a


las siguientes, así no se pueden esperar buenos resultados, si la información
recopilada es errónea. Por ello deberemos extremar las precauciones en la reco-
pilación de datos, la cual, por otra parte, suele ser una fase muy laboriosa y en
ocasiones, cara. Es necesario, además, tener el problema a estudiar bien definido
y las ideas de lo que pretendemos muy claras. Sólo así y planificando el
trabajo, al menos en lineas generales, podremos alcanzar resultados aceptables.

32
Estadística - Capítulo 2

Veamos un ejemplo en el cual se resaltan las distintas fases del proceso esta-
dístico. Una empresa de seguros desea ampliar la cobertura de sus pólizas a
otros siniestros que hasta ahora no cubría. Le interesa conocer la siniestrabili-
dad de éstos, que viene a ser la probabilidad de que se produzcan y decidir el
importe de las pólizas que hagan rentable la cobertura de los siniestros. Para ello
debe:

1º Recopilar información individual de los siniestros. Todas las caracterís-


ticas que se producen que se consideren relevantes.

2º Ordenar estos datos individuales de menor a mayor importancia o cuantía


de las indemnizaciones y hacer todas las clasificaciones que pudieran
interesarnos; por zonas, evolución en los últimos años, etc.

3º Calcular aquellos parámetros o estadísticos que informan de la sinies-


trabilidad media, dispersión de los siniestros, etc.

4º Sacar conclusiones, de forma que, aceptando que los siniestros van a


seguir produciéndose de la misma forma, sepamos cuántos debemos
esperar, como se distribuirán en orden a su importancia y cuantía, cómo
se distribuirán por zonas, etc. Todo esto nos llevará a establecer el importe
de las pólizas, que desde un primer momento era lo que más nos
interesaba.

Las tres primeras fases suponen un esfuerzo sucesivo para pasar de la


información individual de los componentes del colectivo que estudiamos, a las
características de éste como conjunto.

De las largas listas de datos pasamos, ordenando y agrupando en clases de


individuos de características parecidas, a tablas o series, primera reducción
(síntesis) de la información; y de éstas a unos pocos números (parámetros) que
informan del comportamiento del grupo, segunda síntesis de la información.

La fase de ordenación y agrupamiento de la información, que constituía


hasta hace unos años, una tarea pesada, se realiza hoy con ordenadores que
además ejecutan los cálculos necesarios de la fase de análisis y proporcionan
todo tipo de gráficos para una mejor interpretación de los resultados.

33
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Es indudable que en este esfuerzo de resumir la información, lo que se gana


en intensidad (representatividad) se pierde en extensión. Por lo que al finalizar
una fase de síntesis, debemos ser conscientes de las limitaciones de los resulta-
dos: así, si la declaración media de ingresos que enviamos los españoles a
Hacienda, ronda el millón y medio de pesetas, debemos interpretar: que es lo
más normal, que multiplicado por el número de declarantes proporcionaría lo
que se recauda en total, serviría para comparar ingresos individuales con el valor
medio, etc. Pero sería un error pretender que es lo que declaran todos los espa-
ñoles, o casi todos a Hacienda. Otros parámetros podrían informarnos de las per-
sonas que declaran más de diez millones o de la dispersión de las declaraciones
alrededor de los valores medios, pero siempre tendrían un significado con las
limitaciones propias.

3. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL


La Estadística Descriptiva tiene como objetivo la descripción del colectivo
estudiado, éste puede ser toda la población (Censo) o una parte de la misma
(Muestra). Cuando en una Población dada se selecciona adecuadamente un
grupo de individuos: Muestra, la descripción de éstos (Estadística Descriptiva),
se puede ampliar a toda la población; en este caso se “induce”, se “infiere” el
conocimiento de todos a partir sólo de unos pocos (Estadística Inferencial).

En el primer caso, Estadística Descriptiva, no se corren riesgos, ¡se describe


lo que hay!. Es una ciencia de medir, contar, agrupar, calcular, etc. Pero en el
segundo caso - Estadística Inductiva o Inferencial- se atribuye cualidades de esa
pequeña parte a todo el colectivo. La necesidad de utilizar la Estadística
Inferencial es evidente en muchos casos:

· Cuando la población es muy numerosa. ¿Qué opinión tienen los ciuda-


danos de la actuación de la policía en la vigilancia de la venta de droga en
la calle?. No podríamos entrevistar a todos los ciudadanos.

· Análisis destructivos en una cadena de producción. No es rentable


examinar la calidad de todas las unidades producidas.

34
Estadística - Capítulo 2

Para que el riesgo de inducción sea mínimo, el pequeño grupo de individuos


seleccionados tienen que tener, en conjunto, características iguales a las de toda
la población. Este subconjunto de la población se llama Muestra y la propiedad
más importante para que sea válida es que sea Representativa. Así, si queremos
tomar una muestra de 100 policías de una población de 1.000, no serían repre-
sentativos aquellos que dijera el jefe, ni los solteros, ni los mayores de 40 años.
Las técnicas que se utilizan para seleccionar una Muestra se llaman Técnicas de
Muestreo y las veremos con más detenimiento en otro capítulo. En general pode-
mos decir que la mayoría de las veces la decisión entre Estadística Inductiva o
Descriptiva viene impuesta por la naturaleza misma del problema a estudiar.

4. VARIABLES. TIPOS DE VARIABLES


Cuando estudiamos un colectivo podemos estar interesados en varios aspectos
o características del mismo, cada uno de estos aspectos constituye una variable.
La edad, sexo, estado civil, etc, son variables habituales en cualquier trabajo
estadístico. Las variables pueden ser: Cualitativas o cuantitativas.

Las variables cuantitativas son aquellas características que pueden medirse


numéricamente. La edad, la altura, los ingresos anuales, el número de hijos
por familia etc., son variables cuantitativas. Estas pueden ser:

• Discretas o discontinuas: cuando la variable sólo puede tener una serie


de valores (generalmente números enteros: 0, 1, 2, etc. y no los intermedios
como 0’34, 2’85, 3’5, ...).

Por ejemplo, el número de hijos por familia.

• Continuas: cuando la variable puede adoptar cualquier valor. Ejemplos:


altura de una persona, edad, riqueza en glucosa de la remolacha, ingresos
por familia, etc. Este tipo de variables son más difíciles de agrupar. En un
colectivo de personas, si realizamos la medición de la altura desde el más
bajo al más alto, podemos tener tantas alturas distintas como personas.
Para variables discretas la agrupación casi la imponen (no siempre) los
propios valores enteros que recorre (ejemplo del nº de hijos por familia),
pero en las variables continuas, como recorren todos los valores, es nece-
sario arbitrar una forma de agruparlos si no queremos tenerlos uno a uno.

35
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Variables cualitativas o atributos. El color, los gustos, las opiniones, etc., no


se pueden reflejar en un número como resultado de una medida, aunque
también podremos clasificar o agrupar, atendiendo a las modalidades que
presentan. La variable estado civil es un ejemplo de variable cualitativa y es
habitual considerar en ella cuatro modalidades o valores que puede adoptar:

• Soltero.

• Casado.

• Viudo.

• Separado o divorciado.

5. APLICACIÓN DE LOS MÉTODOS ESTADÍSTICOS EN LA


INVESTIGACIÓN POLICIAL
Los campos de actuación de la Estadística son muy variados. Desde la
ciencia más formal hasta el análisis sociológico más complejo, la Estadística
aporta sus métodos, en mayor o menor medida, como una herramienta de
trabajo imprescindible. Así, en la Economía aborda estudios de mercado, análisis
de distribución de la riqueza, de la producción de materias primas o manufacturadas,
de consumo, de control de calidad; por mencionar algunas. En otras Ciencias
como Medicina, Biología, Psicología, Física, Química, etc., los métodos y técnicas
de investigación requieren con frecuencia la participación de la Estadística. Lo
mismo podemos decir en las Ciencias Sociales; desde saber
cuántos somos, cómo somos, como nos comportamos, hasta cuales son nuestras
preferencias en el aspecto más insospechado; son conocimientos que necesitan
un estudio estadístico riguroso.

La necesidad de aplicar los Métodos Estadísticos en muchas de las actividades


que desarrolla la policía es, a nuestro juicio, evidente: Para encontrar las regulari-
dades en los diferentes tipos de delitos que se cometen. Estudiar las peculiarida-
des que pudieran caracterizar a los delincuentes. Conocer y gestionar los recur-
sos humanos y materiales. Buscar relaciones causa-efecto, etc.

Atendiendo a la intencionalidad del estudio estadístico, estos pueden ser:

36
Estadística - Capítulo 2

a) Descriptivos. Cuando pretendemos describir aquellas características


más representativas del colectivo. ¿Qué perfil tienen los individuos de las
bandas violentas juveniles de Madrid?, edad, sexo, nivel de instrucción,
etc. ¿A qué se dedican?, trabajan, estudian, no hacen nada. ¿Cuántos
miembros las forman?, ¿Cuándo actúan?, ¿Cómo?, etc.

b) Comparativos. Para encontrar analogías o diferencias entre colectivos.


El mismo trabajo anterior podría ser comparado con otros realizados en
ciudades españolas o europeas, de manera que se pusiera de manifiesto
si estas bandas responden a esquemas parecidos.

c) Evaluativos. Con intención de evaluar; en este caso en la comparación


se utilizan magnitudes precisas de medida.

d) Evolutivos. Variaciones en el tiempo de un fenómeno. Así el seguimiento


de alguna medida de la actividad de estas bandas violentas en un periodo
de tiempo, nos permitiría prever la tendencia y actuar en consecuencia.

Lo cierto es que en la mayoría de los trabajos, estos aspectos se complementan,


proporcionando una visión de conjunto que ayuda a comprender mejor el
fenómeno estudiado.

6. LA ESTADÍSTICA DE CRIMINALIDAD
La Estadística Criminal es aquella parte de la Ciencia estadística aplicada al
estudio de las actuaciones del conjunto social constituidas por infracciones lega-
les punibles, de las personas que las realizaron y de las medidas penales que se
les aplicaron. No obstante, en torno al concepto “estadística criminal” suele
haber gran confusión y carencia de unanimidad; así pues encontramos que para
unos, la estadística criminal está constreñida al estudio de las estadísticas de los
delincuentes y sus características, mientras para otros se trata de las estadísticas
referidas al problema de la criminalidad, y según la parcela de la que se ocupen,
pueden ser policiales, judiciales, penitenciarias, etc., dependiendo del organismo
que las produzca. Con cierta vaguedad, se suele aplicar el término a la estadís-
tica que aporta datos numéricos sobre delitos o delincuentes, que proceden de
diversos organismos oficiales (policía, fiscalía, tribunales, instituciones peniten-

37
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

ciarias, etc.), que se encuentran sistematizadas, ordenadas, tabuladas y analiza-


das y que se emiten periódicamente.

Dentro de la estadística criminal, se pueden distinguir:

1º Estadística de delitos y faltas, subdividida a su vez en:

· Estadística de la delincuencia real: delitos cometidos.

· Estadística de la delincuencia aparente: delitos conocidos.

· Estadística de la delincuencia legal: tipificada y punible.

· Estadística de la delincuencia impune: delitos no esclarecidos.

2º La estadística de los delincuentes, que englobaría:

· Estadística de presuntos autores.

· Estadística de presuntos cómplices.

· Estadística de presuntos encubridores.

3º La estadística de las penas que incluiría las medidas penales aplicables


a los delincuentes, especialmente de las penas privativas de libertad y las
sanciones económicas.

La criminalidad aparente o delincuencia conocida, que entra más en el campo


de actuación y competencia de la policía, se define principalmente por dos
variables:

· La denunciabilidad de las víctimas.

· La propia actuación policial.

No obstante, es prudente considerar que la estadística que efectúa la policía


se refiere a delitos conocidos dentro de un determinado periodo o localidad, que
llegan a su conocimiento por diferentes vías, por lo que nunca será completa ni
exhaustiva en su registro de datos. A su vez, es preciso indicar que dentro de las
estadísticas policiales hay que diferenciar entre el cúmulo de hechos observados
y aquellos cuyos datos se van a convertir en estadística. Existe una estadística de
actuaciones de la policía referentes a organización, estructura, personal, medios
utilizados, operaciones realizadas, etc. y ademas existen una serie de datos deri-

38
Estadística - Capítulo 2

vados de la actuación que comprende el conjunto de información referente a


sucesos y personas que han cometido algún tipo de delito.

En España, se atribuye el término Estadística Policial primordialmente a la


que se confecciona en la Dirección General de la Policía por la Comisaría General
de Policía Judicial y se recoge en una Memoria Anual, referida a la delincuencia
conocida, a los casos esclarecidos y a las detenciones efectuadas por la policía
en todo el territorio nacional. En este sentido la estadística policial referida a la
delincuencia común, constituye a su vez la Estadística Criminal. También son
estadísticas policiales las que se confeccionan en las demás Comisarías
Generales de la Dirección General de la Policía, y por la Guardia Civil.

a) Las Estadísticas Judiciales

Son el conjunto de datos recogidos por las Autoridades Judiciales, y elabo-


rados por ellas mismas o por otros organismos del Estado encargados de
estas tareas, como el Instituto Nacional de Estadística. En las Estadísticas
Judiciales del INE, se recoge en primer lugar lo relativo a las faltas, datos
de gran interés para el estudio de la criminalidad menor. Posteriormente
se recogen los delitos. Sumando los bloques de faltas y delitos se refleja
la importancia cualitativa de la criminalidad en un momento determinado.
La estadística policial, refleja más los aspectos cuantitativos y suele tener
un volumen superior que la judicial. La Fiscalía del Tribunal Supremo y el
Consejo General del Poder Judicial, publican anualmente sendas Memorias
sobre el estado, funcionamiento y actividades de dichos organismos.

b) Las Estadísticas Penitenciarias

Son aplicaciones estadísticas sobre los datos relativos a internos y reclu-


sos en instituciones penitenciarias.

c) Otras Estadísticas

Existen numerosas situaciones que pudieran tener connotaciones delicti-


vas y que son recogidas por otros organismos estatales, como los sinies-
tros, accidentes de circulación, incendios, etc. Estas estadísticas se

39
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

encuentran recogidas por un lado en el INE en forma de Estadísticas de


Transportes, de Movimiento Natural de Población, etc. y aparecen resumidas
en los Anuarios estadísticos.

I. Estadísticas de Población: Son los censos de población que realiza el


I.N.E. cada diez años (en los años acabados en uno), en todos los muni-
cipios españoles.

II. Estadísticas del Territorio: Son publicadas por la Dirección General


del Instituto Geográfico Nacional, constituyendo el catastro topográfi-
co parcelario.

III. Estadísticas Internacionales: La Organización Internacional de


Policía Criminal -INTERPOL- publica desde 1950 unas estadísticas
internacionales de delincuencia a partir de datos policiales de los
distintos paises miembros de la organización. Tienen carácter bianual,
se recogen los datos en un formulario aprobado por la Asamblea
General de la OIPC en 1976.

7. TÉRMINOS DE USO COMÚN EN LA ESTADÍSTICA POLICIAL


A través de la lectura de las Memorias Anuales, se descubren una serie de
términos de uso constante, cuyo significado conviene aclarar:

· Criminalidad: Conjunto o proporción de crímenes cometidos en un


territorio y tiempo determinados.

· Datos: Conocimientos de aspectos generales o puntuales de manifesta-


ciones delictivas. Los datos estadísticos son aquellos que surtirán efecto
en los tratamientos estadísticos, son recogidos por las diversas dependencias
policiales, incluidos en los impresos normalizados al efecto y de
obligado cumplimiento.

· Variables: Son características de un hecho o fenómeno susceptibles de


adoptar valores numéricos.

· Delitos conocidos: Son todos los que llegan a conocimiento de la policía


por cualquier vía, desde la simple denuncia hasta el conocimiento y
esclarecimiento simultáneo.

40
Estadística - Capítulo 2

· Delitos esclarecidos: Un delito se considera esclarecido cuando


concurran una o más circunstancias de las siguientes:

- Detención del autor “in fraganti”, aunque niegue.

- Identificación plena del autor o alguno de los autores, sin necesidad


de que esté detenido aunque se encuentre en situación de libertad
provisional, huido o muerto.

- Cuando existe una confesión verificada, existen pruebas sólidas o


cuando haya una combinación de ambos elementos.

- Cuando la investigación revele que, en realidad, no hubo infracción.

En ningún caso la recuperación de parte o de todos los efectos sustraídos


por sí sóla esclarece un hecho delictivo, ni siquiera en el caso de utilización
ilegítima de vehículo de motor, la recuperación del vehículo supone el
esclarecimiento del delito.

· Detenidos: Se consideran como tales a quienes lo fueron como presuntos


autores, cómplices o encubridores de posibles infracciones penales,
siempre y cuando se instruyan diligencias y aunque se proceda a su
posterior puesta en libertad. También se consideran como tales a los que
fueran menores de edad penal y a los reclamados por la Autoridad Judicial.

Las estadísticas policiales, pretenden no sólo conocer la evolución de la


delincuencia, sino también la eficacia policial. Otros términos relativos a la
eficacia y rendimiento policial son los siguientes:

· Eficacia policial: Por eficacia se entiende el porcentaje existente entre los


delitos esclarecidos sobre el total de los delitos conocidos.

· Rendimiento policial: Se suelen atribuir a este concepto dos acepciones,


expresadas en forma de índices:

- Relación entre el número de delitos esclarecidos y el número de fun-


cionarios de la Dependencia.

- Relación entre el número de detenidos y el número de funcionarios de


la Dependencia.

41
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

· Tasa de criminalidad: Es la tasa de delitos por habitantes. Cociente entre


el número total de delitos conocidos y el número total de habitantes. A
nivel nacional se calcula por 100.000 habitantes, mientras que a nivel local
se calcula por 1000 habitantes.

· Tasa de funcionarios por delito: Es el cociente entre el número de fun-


cionarios y el total de delitos conocidos.

· Porcentaje de eficacia: Es el cociente entre el número de delitos esclare-


cidos y delitos conocidos, calculado porcentualmente. Se puede hallar a
nivel global o por cada tipo de hecho delictivo.

· Indices de resultados: Se pueden establecer varios índices de resultados:

- Cociente entre efectos recuperados y efectos sustraídos

- Cociente entre vehículos recuperados y vehículos sustraídos

- Cociente entre armas recuperadas-intervenidas y armas sustraídas.

- etc.

· Tasa de delincuencia femenina: Calculada por el cociente entre el número


de mujeres detenidas y el número total de detenidos. Se maneja a nivel
global y en diferentes tipos de delitos.

· Tasa de delincuencia juvenil: Cociente entre el número de menores (12


a 18 años) detenidos y el número total de detenidos.

· Tasa de delincuencia extranjera: Idéntica a la anterior, referida a extran-


jeros detenidos.

Otros tipos de parámetros utilizados son:

· Secuenciales o de evolución: Consiste en el seguimiento diacrónico de la


delincuencia a nivel general o por tipos.

· Temporales: Número de delitos cometidos en cierto periodo de tiempo.

· De distribución: Cálculo de porcentajes relativos o pesos específicos de


determinadas modalidades delictivas dentro del volumen global de delin-
cuencia y para un determinado ámbito territorial.

42
Estadística - Capítulo 2

Ministerios, Organismos e Instituciones Oficiales que ofrecen estadísticas


de interés policial.
· Consejo General del Poder Judicial (Ministerio de Justicia).

· Plan Nacional sobre Drogas (Ministerio del Interior).

· Delegación del Gobierno para la Extranjería y la Inmigración (Ministerio


del Interior).

· Dirección General de Instituciones Penitenciarias (Ministerio del Interior).

· Dirección General de Política Interior (Ministerio del Interior).

· Dirección General de Protección Civil (Ministerio del Interior).

· Dirección General de Tráfico (Ministerio del Interior).

· Comisión Consultiva Nacional de Asuntos Taurinos (Ministerio del


Interior).

· Comisión Nacional del Juego (Ministerio del Interior).

· Instituto de la Mujer (Ministerio de Trabajo y Asuntos Sociales).

· Centro de Investigaciones Sociológicas (Ministerio de la Presidencia).

43
Capítulo 3
RECOPILACIÓN, AGRUPACIÓN
Y REPRESENTACIÓN DE DATOS
Estadística - Capítulo 3

1. RECOPILACIÓN DE DATOS. TIPOS DE DATOS


La recopilación de datos es la primera fase de todo estudio estadístico, y
quizá la más delicada, pues va a determinar la calidad de todo el trabajo. Por
muy bien que hagamos lo demás: ordenación, análisis, e interpretación; si los
datos no reflejan correctamente la realidad que intentamos estudiar, es evidente
que los resultados serán falsos, tanto más cuanto más alejados estemos de los
datos correctos. Además, como esta fase suele ser laboriosa y en ocasiones cara,
es necesario abordarla con un conocimiento preciso de lo que pretendemos. Esto
requiere un proyecto previo de todo el trabajo en el que se definan con claridad
los objetivos y se planteen todos los pasos necesarios. Luego la realidad podrá
aconsejarnos algunas variantes en la ejecución, pero nunca podemos perder de
vista el objetivo que nos interesa.

Los datos pueden ser obtenidos de dos formas:

1) Datos no Directos o Publicados. En muchos problemas que puedan


interesarnos, habrá ya una amplía colección de datos que debamos apro-
vechar:

· Censos oficiales.

· Anuarios e Informes Ministeriales.

· Datos de entidades financieras: Bancos, Cajas de Ahorro, etc.

Lo más cómodo es acudir a ellos. Lo cierto es que una vez fijado el pro-
blema que pretendemos estudiar, debemos consultar la bibliografía; ésta
nos informará de otros estudios parecidos, o incluso puede que iguales,
sugiriéndonos ideas, formas de trabajar, y sobre todo, en lo que a infor-
mación se refiere, fuentes de datos. Muchas veces estos datos se ofrecen
sin elaborar, tal y como se recogieron. Algunos estudios ya están realizados,
pero quizá no sea lo que a nosotros nos interesa y debemos operar con
ellos en otra dirección. En cualquier caso debemos hacer siempre mención
de la fuente de datos utilizada y el año; la primera nos habla de la garantía
que nos merece y la segunda de su actualidad, cuestión esta de primerísi-
ma importancia en una sociedad tan cambiante como la actual.

47
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

2) Datos Directos. Son los datos que recopilamos nosotros y de los cuales
somos responsables. Fundamentalmente son datos de encuestas y de
observación o experimentales, que veremos con detenimiento más adelante.
Sobre ellos, deberemos también especificar cómo fueron obtenidos, en
qué circunstancias, en qué momento, etc. De tal forma que no dejemos
dudas sobre su alcance y significado.

Independientemente de que los datos sean directos o indirectos también


pueden clasificarse en:

a) Datos Observados o Experimentales. Se obtienen de la observación de


un fenómeno, del comportamiento de un grupo de personas, etc. El obser-
vador se limita a recoger los datos que se van produciendo de acuerdo al
plan previamente establecido. Los controles de alcohol en sangre que se
realizan en las carreteras españolas proporcionan datos observados de
este fenómeno. En otras ocasiones, el fenómeno a estudiar no se produce
espontáneamente, y debe ser desencadenado por la propia investigación,
dando lugar a experimentos que originen los datos necesarios.

b) Datos de Encuestas. Cuando deseamos saber algo acerca de la opinión,


gustos, aspiraciones o simplemente características de la gente, el
procedimiento que puede seguirse es preguntar a la población:

· ¿Cuántos hijos tiene?.

· ¿Qué partido político piensa usted que ganará las próximas eleccio-
nes?.

Son preguntas que pueden formar parte de cualquier encuesta.

2. TIPOS DE ENCUESTAS. COMPARACIÓN


Los tipos de encuesta pueden ser:

a. Entrevistas personales.

b. Cuestionarios a cumplimentar (correo, internet, etc.).

c. Entrevistas telefónicas.

48
Estadística - Capítulo 3

Recordamos que todas estas Encuestas requieren de un Cuestionario o lista


de preguntas previamente confeccionadas, con el objetivo de que nos proporcio-
ne la información deseada y que ya abordamos en capítulos anteriores. La
diferencia entre los diferentes tipos de encuestas, estriba en la mayor o menor
presencia del entrevistador. En el cuadro que se adjunta se muestran las ventajas
e inconvenientes más sobresalientes de cada tipo de encuesta.

TIPOS DE
VENTAJAS INCONVENIENTES
ENCUESTAS

El entrevistador El entrevistador
ENTREVISTAS
puede orientar, puede influir en las
PERSONALES
informar, etc. respuestas.

Una parte
importante puede
No hay influencia
CUESTIONARIOS A no remitir los
del entrevistador.
CUMPLIMENTAR cuestionarios.
Más baratos.
No podrán ser
orientados.
Son rápidas (p. ej.
ENTREVISTAS
para medir niveles Deben ser breves.
TELEFÓNICAS
de audiencia.

Parece evidente que en cada caso particular, nos merecerá la pena una u otra
opción, dependiendo de estos factores más o menos generales, o de otros que
aquí no hemos considerado. La mayor parte de las encuestas se realizan a una
muestra de la población, especialmente cuando éstas son numerosas.

3. DATOS AGRUPADOS. CLASES Y TIPOS DE CLASES


Una vez que ha finalizado la recogida de datos, estos forman largas listas.
Como muchos de ellos tienen valores parecidas o iguales, resulta más cómodo
agruparlos. Los subgrupos en los cuales repartimos los distintos valores de la
variable se llaman clases. En el caso de variables cualitativas, como ya indicamos,
también se utiliza el término modalidad. Todo valor de la variable debe pertene-
cer a una clase, independientemente de que ésta variable sea cualitativa o cuan-

49
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

titativa, continua o discreta. Los criterios para establecer las clases son muy arbi-
trarios en algunos casos, y en otros casi son impuestos por las propias caracterís-
ticas de la variable. De todas formas, las clases se elaboran para comodidad de
quien posteriormente tiene que trabajar con los datos. Esto ayudará a tomar
decisiones.

Tipos de clases
a. De valor único

Para variables discretas o que se tratan como si lo fueran. Ejemplo: variable


a considerar x = “Días en un año que los policías de una comisaría
faltan al trabajo”; Clases: 0, 1, 2, 3, ...

b. De intervalo

Para variables continuas por lo general. El intervalo está definido por los
límites del mismo. Ejemplo: la altura (en metros) de un grupo de personas
se puede agrupar en las siguientes clases:

1.60 – 1.70; 1.70 – 1.75; 1.75 – 1.80 y 1.80 – 1.90

Las clases de intervalo pueden ser:

· cerradas [XI, XS], extremos incluidos en el intervalo:

XI ≤ X ≤ XS

· abiertas (XI, XS), extremos excluidos del intervalo:

XI X < XS

· semiabiertas [XI, XS) por la derecha:

XS no pertenece al intervalo, XI ≤ X < XS

· semiabiertas (XI, XS] por la izquierda:

XI no pertenece al intervalo, XI < X ≤ XS

Si no se indica cómo son las clases, como sucede en el ejemplo de las alturas
de un grupo de personas, entenderemos que son semiabiertas por la derecha,
esto es [1’60 - 1’70) las personas que miden exactamente 1’70 m no están incluidas
en este intervalo y sí en el siguiente, [1’70 – 1’75) etc.

50
Estadística - Capítulo 3

Aunque las variables son intrínsecamente continuas o discretas, es frecuente


tratar algunas variables continuas como si fueran discretas. La edad es una
variable continua; tantos años, meses, días, segundos, etc. Lo mismo sucede con
la altura de una persona: 1’73814.... Pero es muy habitual dar la edad como
variable discreta - 23 años - y lo mismo sucede con la altura - 1’74 m-. Obsérvese
que la edad se redondea siempre por defecto.

También es frecuente encontrar clases a las que les falta un extremo. Así, al
agrupar los alumnos atendiendo a la edad, podríamos establecer una clase de 30
años o más.

Amplitud y Marca de las Clases


La amplitud de la clase es la diferencia entre los límites de la clase. Si la clase i
es una clase cualquiera, la amplitud Ai de ésta vendrá dada por:

Ai = XSi – XIi

donde XSi y XIi son los límites de la clase. De la misma forma la marca de esta
clase se define como el valor intermedio del intervalo XIi , XSi:

y se determina como la media aritmética de los extremos, o sea:

MARCA = (XSi + XIi ) / 2

En aquellas clases que falte uno de los extremos no podrá calcularse ni la


amplitud, ni la marca de la clase. Ejemplo: Distribución de pesos de un grupo de
personas expresado en kg. Variable: el peso, cuantitativa y continua. En la tabla
se muestran las clases establecidas, las amplitudes de estas y las marcas.

51
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Clases Amplitud Marca

- 40 - -

40 - 50 10 45

50 - 55 5 52,5

55 - 60 5 57,5

60 - 70 10 65,0

70 - - -

Algunas consideraciones al agrupar los datos en clases


El número de las clases establecidas no debe ser demasiado grande, avanzaría-
mos poco en el proceso de agrupar la información (sintetizarla); ni excesivamente
pequeño, porque caeríamos en el en error contrario (dentro de una misma clase
estarían individuos muy diferentes). No es conveniente establecer clases con
menos de 5 elementos. Se recomienda que el número de clases no sea menor de
cuatro, ni superior a veinte. Ante la duda es preferible tomar más clases, pues
siempre podremos juntarlas en clases de mayor amplitud.

4. FRECUENCIAS. DISTRIBUCIONES DE FRECUENCIAS


La frecuencia absoluta (ni) es el número de elementos que pertenecen a una
misma clase o también el número de veces que se repite el mismo fenómeno. Es
fácil entender que sólo podrá adoptar números enteros y positivos. Se suele
representar por la letra ni cuando nos estamos refiriendo a la frecuencia de una
clase en concreto (justamente la clase i).

La frecuencia relativa (fi) de una clase se obtiene de dividir el número de ele-


mentos de esa clase por el número total de elementos:

52
Estadística - Capítulo 3

donde n es la suma de las frecuencias de todas las clases, es decir, el número


total de elementos. La suma de frecuencias relativas vale 1 (f1 + f2 + ... = 1),
y cada fi representa el tanto por uno de la clase i respecto al total.

La frecuencia porcentual (pi) se obtienen multiplicando por 100 las frecuen-


cias relativas:

fi·100 = pi

y debe cumplirse que p1 + p2 + ... = 100.

La frecuencia absoluta acumulada (Ni) es la suma de todas las frecuencias


absolutas anteriores a la clase i más la de esta clase . Así, la frecuencia absolu-
ta acumulada de la clase número 4 (i = 4) será:

N4 = n1 + n2 + n3 + n4

La frecuencia relativa acumulada (Fi) tiene el mismo significado pero para fre-
cuencias relativas, y si lo expresamos en porcentajes obtendremos la frecuencia
porcentual acumulada (Pi).

Ejemplo Los resultados de un test de psicotécnico en una muestra de 280


reclusos, una vez agrupados los datos, se muestran en la tabla 3.4.1. Calcule
las frecuencias de esta distribución.

Tabla 3.4.1: Distribución de puntuaciones y frecuencias

Nota ni fi pi Ni Fi Pi

[0,3) 50 0,1786 17,86 50 0,1786 17,86

[3,5) 80 0,2857 28,57 130 0,4643 46,43

[5,7) 100 0,3571 35,71 230 0,8214 82,14

[7,9) 40 0,1429 14,29 270 0,9643 96,43

[9,10) 10 0,0357 3,57 280 1,0000 100,00

Totales 280 1,0000 1,0000

53
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Los reclusos que han obtenido una puntuación entre 5 y 7, son en total 100
y representan el 0’3571 (en tanto por uno) o el 35’71 %. La frecuencia acumula-
da de esta clase es 230, lo cual significa que 230 reclusos han obtenido una
puntuación por debajo de 7, esto es el 82’14 %. Debe observarse que las sumas
de fi y pi podrían no alcanzar exactamente el 1 y 100 % respectivamente, debido
a los redondeos.

Distribuciones Bidimensionales
Para un mismo individuo del colectivo en estudio podemos estar interesados
en más de una característica, por ejemplo, la puntuación que obtuvo y la edad,
dando lugar a una serie bidimensional. Los datos sin agrupar tendrían el aspecto
que se muestra en la tabla:

VARIABLE X
26 27 27 28 30 etc.
(Edad: años)
VARIABLE Y
5,3 4,5 6,1 5 6,5 etc.
(Puntuación)

Podríamos analizar si la variable edad está relacionada, o influye de alguna


manera, en las notas obtenidas. Multitud de problemas que surgen en investiga-
ciones de todo tipo responden a este planteamiento, que trataremos con deteni-
miento más adelante.

Datos Agrupados en Series de dos Variables


De la misma forma que agrupábamos los datos en series de una variable se
pueden agrupar las series de dos variables, dando lugar a una distribución de
frecuencias bidimensional. Como ejemplo tenemos la siguiente tabla de muertes
por drogas, que muestra la distribución conjunta de la edad del fallecido y el año
en que ocurre ese suceso (entre 1999 y 2001). El total de casos registrados es de
847 y las frecuencias absolutas de las clases establecidas figuran en las casillas
correspondientes. Se puede observar que solamente 3 muertos son menores de
16 años, que de los 302 muertos del año 200 hubo 154 (algo más de la mitad)

54
Estadística - Capítulo 3

con edades comprendidas entre los 31 y 40 años. Una tabla semejante podría
haber ofrecido las frecuencias relativas.

Tabla 3.4.2: Muertes por drogas

Año
Edades 1999 2000 2001 TOTALES
Menores de 16 1 2 0 3
De 16 a 18 6 3 0 9
De 19 a 25 57 44 23 124
De 26 a 30 86 64 48 198
De 31 a 40 156 154 109 419
Más de 40 37 33 19 89
Desconocida 1 2 2 5
TOTAL 344 302 201 847

También son de destacar las Series cronológicas, que dan cuenta de la evo-
lución de un fenómeno a lo largo de un periodo de tiempo. Así, la tabla siguien-
te informa de la evolución de un determinado tipo de delito leve, en el periodo
1993–2001:

AÑO MADRID ESPAÑA


1993 4.973 42.243
1994 7.453 63.456
1995 7.803 66.600
1996 8.020 68.631
1997 9.001 77.217
1998 9.436 81.159
1999 10.634 91.782
2000 13.008 117.570
2001 14.783 121.881

55
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

5. REPRESENTACIÓN GRÁFICA DE DATOS


Para resaltar las diferencias entre clases, “ver” la evolución de las series fácilmen-
te, etc., es cada vez más habitual, además de la tabla, dar una representación
gráfica de los datos. Esto ayuda a comprender mejor y más rápidamente cómo
se distribuyen las frecuencias o cómo evolucionan las series. Todas las conside-
raciones que hacemos en este tema perseguirán estos objetivos, porque la
elaboración de gráficos, del tipo que sean, no tiene otros fines que facilitar la
lectura de la información. Cuanto más sencilla, amena, presentable, fácil de captar,
etc. sea, mejor habremos logrado el objetivo; se persigue aquello de que “una
imagen vale por mil palabras”.

Gráficas de Barras
Es uno de los gráficos mas utilizados y puede aplicarse a cualquier tipo de
variable. Se dibujan rectángulos (barras) para cada clase o modalidad estableci-
da de un ancho arbitrario y de altura la frecuencia de cada clase, utilizando como
referencia un sistema cartesiano de ejes x–y. Los diferentes tipos de delitos
cometidos contra la libertad sexual en España, se muestran en la tabla.

DELITOS CONTRA LA
1997 % 1998 %
LIBERTAD SEXUAL
Agresión 3.673 52,8 3.960 5,34
Abuso 1.668 24,0 1,786 2,41
Acoso 370 5,3 433 5,8
Exhibicionismo 820 11,8 805 10,9
Provocación 177 2,5 188 2,5
Corrupción menores 64 0,9 70 0,9
Coacción prostitución 176 2,5 168 2,3
Pornografía menores 15 0,2 8 0,1
Total 6.963 100,0 7.418 100,0

56
Estadística - Capítulo 3

El gráfico de barras que muestra la distribución de delitos contra la libertad


sexual en 1998 quedaría:

Es habitual comparar una distribución con otra que sirva de referencia. La


distribución del año anterior, la media de los cinco últimos años o el porcentaje
medio en Europa para este tipo de delitos pueden ser referencias válidas, dando
lugar a representaciones gráficas compuestas, éstas suelen hacerse con valores
relativos (%) en lugar de valores absolutos de manera que la comparación se
haga con magnitudes semejantes. En el caso de los delitos contra la libertad
sexual la comparación con el año anterior se representaría:

57
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Para finalizar, queremos mencionar que las escalas utilizadas y los orígenes,
deben conducir a la representación gráfica centrada, clara, presentable, etc.
Algunas veces, la libertad para elaborar la representación conduce a picarescas
que no son otra cosa que resaltar lo que a cada uno le interesa.

Gráficas secuenciales
Muy útiles para representar evoluciones temporales. Así la evolución del
número de delitos leves en Madrid y en toda España en el periodo 1993–2001, se
muestra en el siguiente gráfico.

58
Estadística - Capítulo 3

En este gráfico da la impresión de que el crecimiento del número de delitos


leves ha sido más acusado en España que en Madrid. Por la diferencia de magni-
tudes que se están comparando, este gráfico no resulta muy adecuado. Sería
conveniente dividir cada cantidad por la población de ese año en Madrid y en
España respectivamente.

Diagramas de sectores
Los diagramas de sectores se utilizan para variables generalmente cualitativas
y de pocas clases; éstas se representan mediante sectores circulares que se
reparten los 360o de la circunferencia. Los sectores son proporcionales a la
frecuencia de las clases, y se calculan mediante una regla de tres semejante al
cálculo de un porcentaje sustituyendo 100 por 360:

total (n) ——————————————> 360º

total de la clase i (ni) —————> αiº

αiº = (ni /n) 360º = fi 360º

59
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Con un transportador de ángulos, dibujamos en un círculo el sector (de


ángulo αiº), y repetimos el proceso para los demás sectores y clases. Como ejemplo
se muestra el gráfico circular de los delitos contra la honestidad en España en el
año 1998.

6. HISTOGRAMAS Y POLÍGONOS DE FRECUENCIAS


La representación de variables cuantitativas continuas, agrupadas en interva-
los, en un sistema de coordenadas, da lugar al histograma de frecuencias.
Representadas las clases de intervalo en el eje X, se levantan rectángulos, con
base la amplitud de la clase, y de altura la frecuencia (absoluta, relativa o por-
centual, simples o acumuladas).

En el caso particular en que todos los intervalos sean de la misma amplitud


se puede construir el polígono de frecuencias a partir de los histogramas de fre-
cuencias simples uniendo los puntos medios de la arista superior de los rectán-
gulos. Para completar el polígono se pueden prolongar las líneas que unen el
punto medio de la arista superior del primer (último) rectángulo con el punto
medio de la arista izquierda (derecha) hasta cortar el eje horizontal.

60
Estadística - Capítulo 3

En el ejemplo siguiente se representan en una tabla las puntuaciones obteni-


das por 200 policías en un test psicotécnico, agrupadas en intervalos de clase.
Con los datos de esa tabla se pueden elaboran representaciones gráficas como
las que se realizan a continuación:

Tabla 3.6.1: Resultados de un test Psicotécnico

xi ni pi Ni Pi
0 - 10 8 4 8 4
10 - 20 10 5 18 9
20 - 30 12 6 30 15
30 - 40 22 11 52 26
40 - 50 32 16 84 42
50 - 60 50 25 134 67
60 - 70 28 14 162 81
70 - 80 18 9 180 90
80 - 90 12 6 192 96
90 - 100 8 6 200 100

Variable frente a la frecuencia absoluta

Fig. 3.6.1. Histograma y polígono de frecuencias

61
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Variable frente a frecuencia absoluta acumulada

Fig. 3.6.2. Histograma y polígono de frecuencias absolutas acumuladas

Obsérvese que el Polígono de frecuencias acumuladas no se dibuja uniendo


los puntos medios de las clases, sino el vértice superior derecho en cada rectán-
gulo. Ello es debido al significado de las frecuencias acumuladas. Lo mismo
puede decirse para el caso de frecuencias relativas o porcentuales acumuladas.

Histogramas para clases de distinta amplitud


Cuando las clases no tienen la misma amplitud la base de los rectángulos se
dibuja igual, pero no las alturas. La frecuencia absoluta se divide por la amplitud
de la clase, obteniéndose la densidad de clase (hi) que determina la altura de los
rectángulos en cada clase:

hi = ni /Ai

El significado de hi es el número de individuos referidos a la unidad de clase.


Veamos un ejemplo en el cual consideramos clases de diferente amplitud:

EDAD (años) ni Ai hi
[21,23) 20 2 10,0
[23,25) 15 2 7,5
[25,30) 30 5 6,0
[30,35) 25 5 5,0

62
Estadística - Capítulo 3

En la clase 21–23 años, la densidad 10’0 significa que hay 10 personas por
año, que en este caso es la unidad del intervalo, mientras que en la clase de 25
a 30 años hay sólo 6, siendo menos densa aunque más numerosa debido a la
mayor amplitud del intervalo. El histograma de esta distribución quedará:

Obtenemos así, un histograma que nos informa de las clases mas densas,
independientemente de las amplitudes elegidas en cada clase. El área de los
rectángulos es el número de personas de la clase, es decir, la frecuencia
absoluta: hiAi = ni.

En el caso de que las clases sean de distinta amplitud no pueden construirse


histogramas de frecuencias acumuladas. Sin embargo sí puede construirse el
polígono de frecuencias acumuladas uniendo los puntos formados por los extre-
mos superiores de cada intervalo de clase y su frecuencia acumulada.

7. OTRAS REPRESENTACIONES
Hasta ahora no hemos hecho otra cosa que exponer los principios básicos
de las representaciones gráficas. Lo cierto es que, sin alterarlos, se pueden
conseguir, con un poco de imaginación, otras formas de representación más
expresivas. Si además contribuyen mejor a mostrar cómo se distribuyen las

63
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

frecuencias, estaremos más cerca de lo que se pide a un gráfico. Veamos algu-


nos ejemplos:

· Los cartogramas son la representación de datos sobre mapas. Ayudan a


comprender distribuciones en áreas determinadas. No debemos perder de
vista aquello que más nos interesa resaltar, porque eliminaremos así todo
lo superfluo, que puede además

· Pirámides de edades: en el eje X se representan las frecuencias para dos


grupos (por ejemplo hombres y mujeres), y en el eje Y las clases de la
variable (por ejemplo intervalos de edades). Se trata por tanto de dos
diagramas de barras horizontales que se dan la espalda.

· Pictogramas: Son gráficos muy expresivos en los que mediante dibujos


esquemáticos se da cuenta de la distribución de frecuencias. En estos
gráficos no importa la información detallada, sino la lectura de conjunto.
Para cifras concretas se debe acudir a la tabla de valores.

64
Capítulo 4
MEDIDAS DE CENTRALIZACIÓN
Y DE POSICIÓN
Estadística - Capítulo 4

1. LA SUSTITUCIÓN DE TODA LA INFORMACIÓN POR UNOS


POCOS VALORES
Desde que iniciamos la fase de recopilación de datos hemos venido agrupando
la información. No podemos olvidar que lo que nos interesa es la información del
conjunto; un paso importante en este sentido son los parámetros o estadísticos
de centralización o posición: media, mediana y moda, que informan de los
valores centrales alrededor de los cuales se encuentran los valores de la variable
estudiada. Otros parámetros de posición, como son los cuantiles: percentiles,
deciles y cuartiles, nos dan cuenta de algunos de los valores de la variable
cuando fraccionamos en partes la distribución. Simplemente de lo que tratamos
es de resumir todos los datos con unos pocos valores que los representen. Si lo
hacemos en la muestra, lo que estamos hallando es las medidas de posición
muestrales o estadísticos de posición o centralización. Vamos a definir estos
conceptos a mostrar su cálculo cuando tenemos una muestra.

2. LA MEDIA
La media o media muestral, es el promedio de las observaciones muestrales.
Es decir, en el caso de datos no agrupados se tiene:

Ejemplo 4.2.1. Supongamos que un alumno ha obtenido las notas siguientes


en tres parciales: 4, 6, 7, la media aritmética simple sería:

Si se trata de calcular la nota media de los 230 alumnos que se presentan a


un examen bastaría sumar las 230 notas obtenidas y dividir por 230. En este
caso los datos se han tratado sin agrupar.

Si por el contrario, disponemos de los datos agrupados, en cada clase


establecida habrá un número determinado (frecuencia = ni) de personas que
obtuvieron esa nota; por ejemplo, 10 personas han sacado un 6, entonces mul-

67
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

tiplicaríamos el valor de la variable, nota 6, por el número de veces que se


presenta, 10 en este caso; 20 han sacado un 5 y 25 han sacado un 7 (hay un total
de 55 personas). Si hacemos lo mismo para todas las clases y sumamos:

En general:

media para datos agrupados

Cuando la variable esté agrupada en clases de intervalo, se tomará como


valor xi de cada clase, la marca de la clase; así, si consideramos todas las perso-
nas de la clase [40, 45) años (no cumplidos los 45) la marca será xi = (40 + 45)/2
= 42’5 años. Éste sería el valor más representativo del conjunto de personas
entre 40 y 45 años y también el más probable, esto es tanto más cierto, cuanto
mayor es el número de individuos de la clase y menor amplitud tiene ésta, o lo
que es lo mismo, cuanto más densa es la clase, más representativa es la marca.

En los intervalos de clase en que falte uno de los extremos no se puede


calcular la marca y por tanto tampoco la media aritmética. La agrupación de los
datos a efectos de calcular estos parámetros debe hacerse estableciendo los
límites en todas las clases.

En las variables cualitativas (procedencia geográfica, opiniones, gustos, etc.)


no se pueden calcular medias, ya que se requieren para ello valores numéricos.
En algunas ocasiones se asignan estos valores de forma arbitraria y se obtienen
unos resultados que deben interpretarse a tenor de las transformaciones
realizadas.

Ejemplo 4.2.2. En el expediente académico de un Diplomado Universitario


figuran todas las asignaturas del plan de estudios y las notas obtenidas,
como variable cualitativa en cada una de ellas; podemos asignar a cada cate-
goría (clase) un valor numérico arbitrario, así:

68
Estadística - Capítulo 4

APROBADO 0

NOTABLE 1

SOBRESALIENTE 2

MATRICULA 3

Mediante esta transformación podríamos calcular la nota media de cualquier


expediente académico, que vendría reflejado con un número y así comparar y
decidir entre dos diplomados el de mejor expediente.

La media aritmética se puede calcular también mediante las frecuencias rela-


tivas ( fi = ni/n) o porcentuales ( pi = fi·100) ya que:

Media Aritmética Ponderada


Se utiliza cuando se quiere dar distinta importancia a las observaciones. Por
ejemplo, supongamos que en los exámenes parciales un alumno obtuvo 4, 6 y 7
y que tienen una influencia o importancia en la nota final del 20%, 30% y 50%
respectivamente. La nota media ponderada será:

En general escribiremos:

donde ωi es la influencia o importancia que asignamos a la observación i.

69
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

3. LA MEDIANA, CUARTILES Y PERCENTILES


La mediana (Me) es el valor de la variable estadística que deja igual número
de observaciones por debajo y por encima de él al ordenar los datos de menor a
mayor. Si hay un número de datos impar, la mediana es el dato central. Si el
número de datos es par, es el promedio de los dos centrales.

Ejemplo 4.3.1. a) Si tenemos el conjunto de 5 números, ordenados de menor


a mayor: 1, 1, 4, 5, 7, la mediana es el que ocupa el lugar del centro, el
tercero de los cinco; es decir, Me = 4.

b) Si tenemos un conjunto de 4 números, ordenados de menor a mayor,


1, 3, 4, 5, la mediana es el promedio de los dos del centro, de los que
ocupan el lugar segundo y tercero; es decir:

Me = (3 + 4)/2 = 3’5

Para k = 1, 2 y 3 se dice que el cuartil k-ésimo (Qk) es el valor de la variable


que deja inferiores o iguales a él las k/4 partes de las observaciones. En particular
el cuartil 2, Q2, coincide con la mediana.

Análogamente, se llama percentil k-ésimo (Pk), k = 1, ..., 99, al valor de la


variable que deja inferiores o iguales a él las k/100 partes de las observaciones.

Los percentiles 25 y 75 coinciden con los cuartiles 1 y 3, respectivamente, y


el percentil 50 coincide con el cuartil 2 y la mediana, por definición.

Ejemplo 4.3.2. Dado el siguiente conjunto de notas: 3, 3, 3’5, 3’5, 4, 4, 4,


4’5, 5, 5, 5, 6, 6, 7, 7, 7 y 8, vamos a calcular los cuartiles.

Hay 17 datos ordenados de menor a mayor. Dividimos 17 entre 4 y nos da


4’25 (17/4 = 4’25). Buscamos el valor que ocupa el lugar 4’25, que es el que
ocupa el lugar quinto, el 4, así que el primer cuartil es Q1 = 4 (el 4 deja inferiores
o iguales a él la cuarta parte de las notas). Ahora, consideramos las dos cuartas
partes de 17 (2/4)·17=8,5 y buscamos el valor que ocupa el lugar 8’5, que es el
5 (lugar 9), por tanto Q2 = 5 = Me. Por último, consideramos las tres
cuartas partes de la muestra (3/4)·17=12,75 y el valor que ocupa el lugar
12’75 (13) es 6, Q3 = 6.

70
Estadística - Capítulo 4

Si escribimos la tabla de frecuencias:

xi ni Ni Cuartiles
3 2 2
3,5 2 4
4 3 7 Q1
4,5 1 8
5 3 11 Q2
6 2 13 Q3
7 3 16
8 1 17

Si coincide alguna frecuencia acumulada Ni con el resultado de hacer (k/4)·n,


se toma la media de ese valor con el siguiente (n sería par). Por ejemplo, 3, 4, 4, 5,
7, 7, 9, 9, 9, 10, 10, 10, tiene 12 valores; por ello, cuando queremos calcular el
cuartil 1 hacemos 12/4 = 3, así que Q1 = (3º+4º)/2 = (4+5)/2 = 4’5.

Ejemplo 4.3.3. Dado el siguiente conjunto de notas: 3, 3, 3’5, 3’5, 4, 4, 4,


4’5, 5, 5, 5, 6, 6, 7, 7, 7 y 8, vamos a calcular el percentil 90.

Hay 17 datos ordenados de menor a mayor. Multiplicamos 17 por 90 y divi-


dimos por 100 y nos da 15’3 (17·90/100 = 15’3). Buscamos el valor que ocupa
el lugar 15’3, que es el que ocupa el lugar decimosexto, el 7, así que el P90 = 7
(el 7 deja inferiores o iguales a él el 90% de las notas).

Si escribimos la tabla de frecuencias:

xi ni Ni Pi Percentiles
3 2 2 11,8 Hasta el P11
3,5 2 4 23,5 Desde el P12 hasta el P23
4 3 7 41,2 Desde el P24 hasta el P41
4,5 1 8 47,1 Desde el P42 hasta el P47
5 3 11 67,7 Desde el P47 hasta el P64
6 2 13 76,5 Desde el P65 hasta el P76
7 3 16 94,1 Desde el P77 hasta el P94
8 1 17 100 Desde el P95 hasta el P99

71
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Cálculo de la Mediana para Datos Agrupados en Intervalos


Para variables continuas agrupadas en clases de intervalo la mediana tiene el
mismo significado, pero su cálculo requiere otras consideraciones. Supongamos
que disponemos de los pesos de 300 personas que se distribuyen en clases tal
y como se indica en la siguiente tabla 4.3.1, en la cual además se han calculado
las frecuencias absolutas acumuladas (Ni) y porcentuales acumuladas acumuladas
(Pi); con ellas ya podemos conocer la clase mediana (o intervalo en el que se
encuentra la mediana).

Tabla 4.3.1: Pesos(kg) de un grupo de 300 personas

Clases de algunas medidas


Peso (Kg) ni Ni Pi
de posición
45 - 50 12 12 4,0 Hasta el percentil 4
50 - 55 34 46 15,3 Percentil 10
55 - 60 85 131 43,7 Cuartil 1º. Percentil 16 a 43
60 - 65 92 223 74,3 Clase Mediana. Percentil 60
65 - 70 60 283 94,3 Cuartil 3º. Percentil 80
71 - 75 12 295 98,5 Percentil 96
75 - 80 5 300 100

En la clase 45–50 entran las 12 primeras personas, las de menor peso. En la


clase 50–55, las 34 siguientes (frecuencia absoluta de la clase), que tendrían los
números de orden 13, 14, 15, ..., 46 (frecuencia acumulada de la clase). En la
siguiente clase, 55–60, 85 personas, que ocupan desde el lugar 47 hasta la 131.
Y así en todas las clases. La columna Ni nos da en cada clase, el número de orden
del último individuo que pertenece a ella, que se inicia siempre sumándole uno
a Ni–1, que es el límite de la clase anterior. La columna Pi nos indica lo mismo
pero en porcentajes, de tal forma que en la clase 50–55, están los percentiles: 5,
6, ..., 15; en la clase 55–60, los percentiles: 16, 17, ..., 43, etc.

Para calcular la mediana necesitamos encontrar el elemento que ocupe el


lugar intermedio. Primero empezamos encontrando el intervalo en el que se
encuentra. A este intervalo lo llamaremos Intervalo Mediano o Clase Mediana.

72
Estadística - Capítulo 4

El elemento intermedio es e = n/2 = 300/2 = 150

Esta persona se encuentra en la clase 60–65 kg, con un total de 92 personas;


que se distribuyen uniformemente –suposición que aceptamos– desde las personas
de menos peso de la clase, el individuo que ocupa el lugar 132 de toda la
distribución (Ni), hasta el más pesado que ocuparía el lugar 223, último de la
clase 60– 65 kg; la cual, por contener el elemento intermedio que caracteriza a
la Mediana es la clase Mediana.

¿Qué valor de x (Peso) le corresponde a la persona que ocupa el lugar


intermedio? Si representamos el polígono de frecuencias absolutas acumuladas,
el cálculo gráfico de la Mediana es inmediato, conocido el elemento intermedio
e = n/2, basta ver qué valor de x le corresponde, tal y como se muestra en la
figura:

Fig 4.3.1. Determinación Gráfica de la Mediana

El cálculo analítico se hace teniendo en cuenta la semejanza de los triángu-


los APQ y ABC, de ahí que:

73
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

donde ai es el extremo inferior del intervalo mediano, e el elemento intermedio,


Ni –1 es la frecuencia acumulada de la clase anterior a la clase mediana, Ai es la
amplitud del intervalo mediano (la diferencia del extremo superior menos el
extremo inferior, y ni es la frecuencia absoluta del intervalo mediano.

Sustituyendo los valores de la tabla 4.3.1 en la expresión 4.3.1 quedará:

Cálculo de Cuartiles y Percentiles para Agrupados en Intervalos


También, al igual que la mediana, el significado que tienen tanto los cuartiles
como los percentiles es el mismo que para datos sin agrupar, pero también su
cálculo es diferente, aunque semejante al de la mediana para datos agrupados.
La única diferencia es en el lugar que ocupa el elemento que buscamos. Lo
primero que hallamos es el intervalo donde está el valor que deseamos encontrar y
después mediante una fórmula semejante a la 4.3.1 obtenemos lo pretendido.

Para los cuartiles, buscamos , el elemento que deja a su izquierda


las k/4 partes de las observaciones (para el primer cuartil buscaremos el elemento
intermedio e = n/4) y tendremos:

Según la tabla 4.3.1 el cuartil 3 ocupará la posición 3·300/4=225, estará en el


intervalo 65–70 y será:

74
Estadística - Capítulo 4

Para los percentiles, buscamos , el elemento que deja a su izquierda


las k/100 partes de las observaciones (para el percentil 90 buscaremos
e = 90·n/100) y tendremos:

Según la tabla 4.3.1 el percentil 95 ocupará la posición 95·300/100=285,


estará en el intervalo 70–75 y será:

Hasta ahora lo que hemos hecho es dado un lugar buscar el valor de la variable
que lo ocupa. También podemos definir el problema contrario; es decir, dado un
valor de la variable encontrar el lugar que ocupa.

En el ejemplo de la tabla 4.3.1, una persona que pesa 52 kg ¿podrá conocer


el lugar que ocupa en esta distribución?. Sabemos lo que vale Pk (52 kg) pero no
el subíndice k. Sustituyendo en la fórmula 4.3.3 y teniendo en cuenta que perte-
nece a la clase 50–55:

Despejando:

75
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Por otra parte, como , despejando el valor de k:

Así que, la persona que pesa 52 kg tan solo supera al 8’50% de las 300 per-
sonas de la distribución de pesos, sólo hay un 8’50% de personas que pesan
menos o igual que 52 kg en la muestra. Redondeando, vemos que se trata del
percentil P9.

4. LA MODA
La Moda es otro parámetro de centralización, al igual que media y mediana,
que nos informa del valor de la variable más frecuente, que más veces se repite.
Algunas características diferencian a este parámetro con la media y la mediana:

1) Si la media y mediana sólo pueden calcularse para variables cuantitativas,


no podemos multiplicar X (color blanco) por n (veces que aparece el blanco).
Sí se puede determinar la moda para cualquier tipo de variable (cuantitativa
o cualitativa) la moda “vaqueros” es un ejemplo en el cual, la variable (tipo
de pantalones) es, evidentemente, cualitativa.

2) La moda sólo tiene sentido para distribuciones de datos agrupados (si


los valores no se repiten, los datos no están agrupados, todos tienen la
misma frecuencia, que es 1).

3) Sólo hay una media y una mediana en una distribución de frecuencias,


pero puede haber más de una moda (puede haber más de un valor con las
misma frecuencia y, además ésta puede ser máxima). Atendiendo al número
de modas una distribución de frecuencias puede ser:

76
Estadística - Capítulo 4

Fig 4.4.1. Distribuciones unimodales, bimodales y multimodales

Cálculo de la Moda
Es inmediato para variables cualitativas y para cuantitativas agrupadas como
variables discretas en clases de valor único; basta aplicar la definición, la clase
más numerosa es la moda.

Utilizando el ejemplo 4.3.2, la moda es 4, 5 y 7, los que más se repiten. En


este caso la distribución es trimodal.

Cuando la variable está agrupada en intervalos de clase, es necesario hacer


alguna suposición para determinarla (de la misma forma que hicimos para calcu-
lar, en estas situaciones, la mediana). La moda se encontrará en la clase modal,
que es la clase más numerosa (más densa para clases de distinta amplitud) y más
próxima a la clase contigua más numerosa (o densa).

Así, en el ejemplo de la distribución de pesos de 300 personas, tabla 4.3.1,


la clase modal es la 60–65 kg que tiene 92 personas, frecuencia absoluta más
alta. No es necesario considerar densidades (hi) ya que todas las clases son de
la misma amplitud. La moda estará comprendida entre 60 y 65 kg y más cerca
de 60 que de 65 kg.

77
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

El calculo de la moda se suele realizar según la construcción geométrica de


la figura que se expone:

Fig. 4.4.2. Determinación gráfica de la moda

Se puede observar que los triángulos ACO y DBO son semejantes, por lo que:

donde d1 es la diferencia de frecuencias entre la clase modal y la anterior y d2 la


diferencia de frecuencias entre la clase modal y la posterior, ai es límite inferior
de la clase modal y Ai la amplitud de la clase modal. Vemos por tanto que la
amplitud del intervalo se reparte proporcionalmente a d1 y d2.

En el ejemplo de la tabla 4.3.1 de la distribución de pesos, la clase modal


sería la 60-65 kg como ya hemos indicado. Sustituyendo valores en la expresión
4.4.1:

78
Estadística - Capítulo 4

Si los intervalos de las clases establecidas tienen distinta amplitud, en lugar


de trabajar con frecuencias absolutas (ni ) deberemos hacerlo con densidades de
clase (hi ). La clase más densa (mayor hi ) será la clase modal y los valores de d1
y d2 se calculan también como diferencias entre densidades.

5. COMPARACIONES ENTRE MEDIA, MEDIANA Y MODA


No debemos olvidar que el resultado final de media, mediana y moda y en
general de todos las medidas de centralización y de posición es un número (a
excepción de la moda que puede además ser una cualidad) con las mismas uni-
dades que la variable estadística utilizada. En el siguiente cuadro vamos a com-
parar y resumir algunas características de las tres medidas centralización que
acabamos de estudiar:

Características Media (X) Mediana (Me) Moda (Md)

Cuantitativas o
Para variables Cuantitativas Cuantitativas
cualitativas
Adopta valores Único Único Único o varios
Sólo los de la
Intervienen en el Sólo los de la
Todos los valores clase modal y
cálculo clase media
contiguas
Influencias de los
Importante No influyen No influyen
valores extremos
Sólo para hacer
En distribuciones En distribuciones
Conviene utilizar referencia a lo
poco asimétricas asimétricas
más habitual

79
Capítulo 5
MEDIDAS DE DISPERSIÓN
Y DE FORMA
Estadística - Capítulo 5

1. SIGNIFICADO E IMPORTANCIA DE LA MEDIDAS DE DISPERSIÓN


Cuando la mayoría de los valores de la variable se distribuyen muy cerca de
los valores centrales, media o mediana, decimos que la serie es concentrada y
en caso contrario que es dispersa. En este tema veremos la importancia de estos
parámetros, su significado y cómo se determinan.

Supongamos que las notas de dos alumnos, en cuatro exámenes parciales


que tiene una asignatura, vienen dadas por la series:

· Alumno A: 2, 8, 1, 9.

· Alumno B: 4, 5, 6, 5.

Si calculamos la media, veremos que en ambos casos vale 5, según esto los
alumnos no se diferencian. Pero es fácil ver que el alumno A es muy irregular
(sus notas se alejan bastante del valor medio) cosa que no sucede para el alumno
B, que obtuvo siempre resultados próximos a 5. Los parámetros de dispersión
diferencian estas dos situaciones; de aquí su importancia. Veamos algún
ejemplo más:

· Dos países con la misma renta per cápita (ingresos medios) pueden
tener un reparto de la riqueza muy diferente, si la distribución de ésta es
muy concentrada o dispersa. Así, en el caso de dispersión alta, se darán
importantes diferencias en los ingresos, mientras que si la dispersión es
pequeña, los ingresos no se diferenciarán demasiado de unos individuos
a otros.

· Una dispersión alta en las sentencias de delitos semejantes, pondría de


manifiesto la falta de homogeneidad en los criterios de los jueces.

La representación de series de datos sin agrupar se ilustra en la figura, en la


cual se distinguen dos series, una dispersa y otra concentrada. Cada (|) representa
un valor de la serie, mientras que (*) es el valor central.

__|___|_____|__*_|___|____|_ ________| ||||*||||_|______

Serie dispersa Serie concentrada

83
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Y para series (distribuciones) con datos agrupados, los polígonos de frecuen-


cias tendrían la forma que se muestra en la siguiente figura.

Fig.5.1.1: Representación de distribuciones dispersas y concentradas

La validez o representatividad de las medidas de centralización, especialmente


media y mediana, está relacionada con la mayor o menor dispersión de los datos.
Así para series concentradas, x y Me son más significativas que para series
dispersas. La media de la serie 2, 8, 1, 9 vimos que valía 5; los valores que adopta
la variable (x) no son próximos a este número. Sin embargo en la serie 4, 5, 6,
5 con media también de 5, los valores de x están muy próximos a la media, por
lo que en este caso diremos que la media es más representativa o sustituye
mejor a la serie. Lo mismo puede decirse de la mediana, que en series asimétri-
cas es, además, mejor medida de centralización que la media al no verse tan
afectada por los valores extremos.

2. MEDIDAS DE DISPERSIÓN ABSOLUTA, RECORRIDOS


Las medidas de dispersión absoluta proporcionan una medida de la disper-
sión o concentración de los datos. Estudiaremos las siguientes:

· Recorridos: Recorrido Absoluto, Recorrido Intercuartílico.

· Desviación media.

· Varianza.

· Desviación típica.

84
Estadística - Capítulo 5

Recorrido Absoluto (R)


También denominado recorrido, es la diferencia entre el valor más alto de la
variable y el más bajo. En la serie de notas de los alumnos A y B que vimos en la
pregunta anterior, los recorridos serán:

A: 2, 8, 1, 9 ————> RA = 9 – 1 = 8

B: 4, 5, 6, 5 ————> RB = 6 – 4 = 2

A mayor recorrido mayor dispersión. Para datos agrupados tiene el mismo


significado, diferencia entre el límite superior de la clase más alta y el límite inferior
de la más pequeña. Es un parámetro poco significativo. Sólo considera para su
cálculo los valores extremos y prescinde de todos los demás.

Imaginemos un grupo de amigos de alrededor de 20 años (serie muy concen-


trada) y otro grupo (mucho más heterogéneo) de personas de distintas edades
(serie más dispersa). Si al primer grupo se acercan el abuelo de uno de los
muchachos y un hermano más pequeño, el recorrido del grupo de amigos -se
incluyen ya las dos últimas personas- aumenta mucho y podría pasar a ser mayor
que el del segundo grupo. Es fácil intuir que si el grupo de amigos es numeroso,
su homogeneidad no puede haberse alterado tanto como para calificarse mas
disperso.

Otras medidas de dispersión, que vamos a ver, evitan esta situación, haciendo
participar en ellas a todos los individuos de la distribución de frecuencias.

Recorrido Intercuartílico (RI)


Es la diferencia entre el tercer cuartil y el primero:

RI = Q3 – Q1 (5.2.1)

Es la longitud de un intervalo de valores que contiene el 50% de las observacio-


nes, dejando un 25% por debajo y otro 25% por encima. La mitad de este recorrido
se denomina recorrido semiintercuartílico:

RSI = 1/2 RI = (Q3 – Q1)/2 (5.2.2)

85
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Aunque tampoco entran en el cálculo de estas medidas de dispersión todos


los valores de la serie, la diferencia de cuartiles es mejor medida de dispersión
que el recorrido absoluto (R) al no tener en cuenta los valores extremos. Así, el
recorrido intercuartílico del grupo de jóvenes no se habría modificado por la
inclusión del abuelo y el niño, que tanto cambió el recorrido absoluto, de tal
forma que, los respectivos RI serían idénticos. El recorrido intercuartílico se suele
recomendar en aquellos casos en que la medida de posición más representativa
sea la mediana, esto es, para distribuciones asimétricas.

3. DESVIACIÓN MEDIA, CÁLCULO Y SIGNIFICADO


Si calculamos cuanto se aparta (se desvía) cada individuo del valor medio en
valor absoluto -no nos importan el signo de estas diferencias- las sumamos y
dividimos por el número total de individuos estamos determinando el valor
medio de las desviaciones, que es un parámetro mucho más significativo de
dispersión que los recorridos, porque ya intervienen todos los individuos en el
cálculo. Para datos no agrupados sería:

donde, , son las desviaciones respecto de la media en valor absoluto de


cada valor que toma la variable, y n el número total de casos.

En el caso de datos agrupados, cada desviación la multiplicaremos


por el número de veces que se produce (ni ); luego:

Obsérvese que la desviación media no es otra cosa que la media de las


desviaciones tomadas en valor absoluto. Las unidades de la desviación media
serán las mismas que las de la variable estudiada. El intervalo x ± Dm, contiene
a todos los valores de la variable que se separan de la media menos o igual que
la desviación media.

86
Estadística - Capítulo 5

4. VARIANZA Y DESVIACIÓN TÍPICA, CÁLCULO Y SIGNIFICADO


Si en la expresión de la desviación media (5.3.2) sustituimos las desviaciones
de cada valor de xi, , , por el cuadrado de éstas o bien,
ya que por estar elevadas al cuadrado el resultado es siempre un número positi-
vo, obtendremos un nuevo parámetro que se llama varianza (S2), y que para
datos sin agrupar vale:

Que también puede escribirse, para mayor comodidad de cálculo como:

En el caso de datos agrupados la Varianza viene dada por la expresión:

La Varianza es, como la desviación media, una medida de disper-


sión/concentración absoluta de los datos. Las unidades serán las de la variable
elevadas al cuadrado. Para evitar este inconveniente se define un nuevo paráme-
tro al obtener la raíz cuadrada de la varianza que es la desviación típica (S):

87
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Que si bien no aporta nada nuevo como medida de dispersión, tiene la ventaja
de tener las mismas unidades que la variable y así, entre otras cosas, puede
representarse en el eje X. Además para una distribución normal, como veremos
más adelante, el intervalo x ± S , contiene al 68’26% de todos los casos estudiados.
Análogamente el intervalo x ± 2S , contiene el 95’45% y el intervalo x ±3S el
99’73%.

Una variante de la expresión anterior es la cuasivarianza:

y su correspondiente cuasidesviación:

Ejemplo En el proceso de selección de personal de una empresa de seguridad,


la altura es un requisito importante. Agrupados los 450 aspirantes presenta-
dos los resultados se muestran en la tabla:

Altura Número de
(metros) aspirantes

1,65 - 1,70 30

1,70 - 1,75 70

1,75 - 1,80 120

1,80 - 1,85 150

1,85 - 1,90 80

88
Estadística - Capítulo 5

Calculemos el recorrido intercuartílico, la desviación típica y la varianza:

1) El recorrido intercuartílico viene dado por:

RI = Q3 – Q1

donde Q3 y Q1 son respectivamente tercer y primer cuartil, que calcularemos


como los percentiles 75 y 25, según la expresión:

Altura Número de
Ni
(metros) aspirantes

1,65 - 1,70 30 30

1,70 - 1,75 70 100

1,75 - 1,80 120 220

1,80 - 1,85 150 370

1,85 - 1,90 80 450

Los elementos que caracterizan estos percentiles vienen dados por


e = kn/100 y las clases donde se encuentran nos lo indica la columna de
frecuencias absolutas acumuladas (Ni ):

Para k =75, e =75·450/100=337’5; la clase del tercer cuartil es 1’80–1’85.

Para k =25, e =25·450/100=112’5; la clase del primer cuartil es


1’75–1’80.

P75 = 1’80 + (337’5 – 220)·0’05/150 = 1’839 metros.

P25 = 1’75 + (112’5 – 100)·0’05/120 = 1’755 metros.

RI = Q3 – Q1 = P75 – P25 = 0’084 metros.

89
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

2) Para la desviación típica utilizaremos la expresión:

Para lo cual necesitamos las columnas auxiliares que se presentan en la


siguiente tabla:

altura (m) ni xi xi ni (xi - x )2 ni

1,65 - 1,70 30 1,675 50,25 0,432

1,70 - 1,75 70 1,725 120,75 0,343

1,75 - 1,80 120 1,775 213,00 0,048

1,80 - 1,85 150 1,825 273,75 0,135

1,85 - 1,90 80 1,875 150,00 0,512

Sumas 450 ------ 807,75 1,470

Calculamos primero la media:

x = 807’75/450 = 1’795 metros.

luego calculamos los términos de la tabla para determinar la varianza y la


desviación típica, con lo cual:

5. MEDIDAS DE DISPERSIÓN RELATIVA, EL COEFICIENTE DE


VARIACIÓN
Para poder comparar la dispersión/concentración de series que tienen distinta
variable (estudian características distintas); se define un nuevo parámetro de
dispersión que se llama Coeficiente de Variación (CV), dividiendo la desviación
típica (S) por el valor medio, sin signo, ( |x| ) de la serie. Es frecuente además
multiplicar por 100 y expresarlo en %:

90
Estadística - Capítulo 5

De esta forma pasamos de una medida de dispersión absoluta (la desviación


típica) a otra de dispersión relativa (el coeficiente de variación) que no tiene
unidades, ya que S y x tienen como sabemos las mismas unidades y se eliminan.
Esta es la verdadera aportación de este nuevo parámetro, que nos va a poder
permitir comparar la variabilidad de dos series que miden cosas distintas.

Ejemplo En una comisaría se determina el rendimiento medio de los funcio-


narios en una escala arbitraria que da 80 puntos de media y 20 de desviación
típica. Se hace lo mismo con los ingresos, dando 20.000 ¤ al año con una
desviación típica de 4.000 ¤. Para averiguar qué serie contiene mayor variabili-
dad (mayor dispersión) no podemos comparar las desviaciones típicas de ambas
series, ya que miden cosas distintas. El cálculo de los coeficientes de variación,
como puede observarse en la tabla, indica que la serie que proporciona el rendi-
miento de los funcionarios es algo más dispersa que la de ingresos.

VARIABLE MEDIA D. TÍPICA CV


Rendimiento 80 puntos 20 puntos 25 %
Ingresos/año 20.000 ¤ 4.000 ¤ 20 %

6. ASIMETRÍA, COEFICIENTES DE ASIMETRÍA


Otra característica de la distribución de frecuencias es la asimetría; que es
una medida de forma de la distribución. Atendiendo a la asimetría, las distribu-
ciones pueden ser: simétricas, asimétricas por la derecha y asimétricas por la
izquierda.

Distribuciones Simétricas
Coinciden los valores, media, mediana y moda. Los valores se distribuyen por
igual a la izquierda y derecha de los parámetros de centralización. Las alturas,
pesos, coeficientes de inteligencia, etc, de colectivos grandes de personas
siguen modelos simétricos de distribución. La distribución Normal es la más
representativa de las distribuciones simétricas.

91
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Distribuciones Asimétricas por la Derecha


Los valores altos de la variable, “arrastran” hacia ellos a la media. La mediana
no resulta tan afectada y la moda, como siempre, el valor más frecuente.

Distribuciones Asimétricas por la Izquierda


La misma situación anterior pero debido en este caso a los valores bajos de
la variable.

92
Estadística - Capítulo 5

Dependiendo de las posiciones relativas de media, mediana y moda, hemos


visto cómo se puede averiguar el tipo de asimetría de la distribución. Ahora
vamos a poder determinar cuánto es más asimétrica una serie que otra.

I. Coeficientes de Asimetría de Pearson

Vienen dados por las expresiones siguientes:

Primer coeficiente:

Segundo coeficiente:

Obsérvese que los coeficientes de asimetría de Pearson no tienen unidades.


Los valores que estos coeficientes adoptan pueden ser:

a) Asimétrica por la derecha:

Md < Me < x AP1 > 0 y AP2 >0

b) Simétrica o normal:

Md = Me = x AP1 = 0 y AP2 =0

c) Asimétrica por la izquierda:

Md > Me > x AP1 < 0 y AP2 <0

93
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

II. Coeficiente de Asimetría de Fisher

Otra medida de asimetría es el coeficiente de Fisher, el cual se define como:

donde m3 es el momento central de orden 3 que viene dado por:

y S3 la desviación típica elevada a 3.

Cuando g1 = 0 la distribución es simétrica

Cuando g1 > 0 la distribución es simétrica por la derecha

Cuando g1 < 0 la distribución es asimétrica por la izquierda

7. MEDIDAS DE APUNTAMIENTO, CURTOSIS O EXCESO


Las medidas de asimetría para conocer la forma de la distribución se
complementan con las medidas de apuntamiento. Estas medidas buscan el grado
de concentración de los valores en la zona central, tomando como punto de referen-
cia la concentración de valores en esta zona, de la distribución Normal. Si los
valores centrales tienen frecuencias más altas que los que corresponden a una
distribución normal, la curva es leptocúrtica (A), si son más bajas, la curva es
platicúrtica (C) y si son del mismo orden que en la distribución normal, la curva
es mesocúrtica (B). La gráfica muestra estas tres situaciones

94
Estadística - Capítulo 5

Algunas medidas para caracterizar el apuntamiento o curtosis, son:

Curtosis Percentílica

donde: k = Coeficiente de curtosis percentílica

RSI = (Q3 – Q1) / 2 = Recorrido semiintercuartílico

P90 y P10 = Percentiles 90 y 10

El valor de la curtosis percentílica está comprendido entre 0 y 1/2, para una


distribución Normal vale k = 0’2632, y lo que mide realmente es el aplastamien-
to de la gráfica por la parte central, de modo que cuanto mayor es k tanto más
aplastada está la distribución; por ello se tiene que si:

k > 0’2632 la distribución es platicúrtica

k = 0’2632 la distribución es mesocúrtica

k < 0’2632 la distribución es leptocúrtica

Coeficiente de Exceso (Fisher)

donde S4 es la desviación típica elevada a 4 y m4 el momento central de orden


4, que análogamente que el m3, viene dado por :

95
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Lo que mide g2 es el apuntamiento de la distribución por su parte central, y


para el caso de una distribución normal es g2 = 0; por ello, si:

g2 > 0 la distribución es leptocúrtica.

g2 = 0 la distribución es mesocúrtica.

g2 < 0 la distribución es platicúrtica.

96
Estadística - Capítulo 5

EJERCICIOS PROPUESTOS
1. Dada la siguiente serie de valores se desea agrupar los datos y formar una
distribución de datos agrupados en intervalos de clase de primer extremo inferior
igual a 130 y de amplitud 10.

138 167 151 170 175 138 148 153 178 142

137 157 145 146 148 155 167 142 154 133

133 152 157 149 169 159 148 150 153 145

140 161 156 149 152 140 146 151 143 140

152 138 160 153 165 157 158 162 155 144

Solución: Intervalos [130, 140), [140, 150), [150, 160), [160, 170) y [170, 180),
con frecuencias absolutas 6, 16, 18, 7 y 3 y frecuencias porcentuales 12%, 32%,
36%, 14% y 6%.

2. Represente mediante gráficos de barras y de sectores la distribución de


frecuencias obtenida en el ejercicio anterior.

Solución: Alturas de las barras: 6, 16, 18, 7 y 3, también podría hacerse con las
porcentuales; amplitudes de los sectores: 43º, 115º, 130º, 50º y 22º

3. En el proceso de selección de personal de una empresa de seguridad, la


estatura es un requisito importante. Agrupados los 450 aspirantes presentados
los resultados se muestran en la tabla siguiente:

Altura Número de
(metros) aspirantes
1,65 - 1,70 30
1,70 - 1,75 70
1,75 - 1,80 120
1,80 - 1,85 150
1,85 - 1,90 80

97
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

a) Comente el significado de las frecuencias acumuladas.

b) Represente el histograma de frecuencias absolutas y acumuladas, así


como los respectivos polígonos de frecuencias.

c) Determine gráficamente con la ayuda del polígono de frecuencias


acumuladas, la mediana y los cuartiles de la distribución.

d) Calcule la mediana y cuartiles de la distribución y compare los resultados


con los valores obtenidos en la cuestión anterior.

Solución: Frec. acumuladas Ni: 30, 100, 220, 370 y 450; Me = 1’802 m ≈ 1’80 m,
Q1 = 1’755 m ≈ 1’76 m, Q3 = 1’839 m≈ 1’84 m

4. En la distribución de las estaturas del ejercicio anterior se pide:

a) El valor de los percentiles 37 y 78, y el número de individuos que hay


entre ellos.

b) El lugar que le corresponde (percentil) a un aspirante que mide 1’72 m.

c) El porcentaje de aspirantes entre 1’72 m y 1’87 m.

Solución: a) P37 = 1’778 m ≈ 1’78 m, P78 = 1’844 m ≈ 1’84 m; b) P13;


c) 76’44%.

5. Siguiendo con la distribución de estaturas del ejercicio anterior, se desea


saber:

a) Media y moda.

b) Recorrido intercuartílico y su significado.

c) Coeficiente de variación.

d) Coeficientes de asimetría de Pearson.

Solución: a) x = 1’795 m ≈ 1’80 m, Md = 1’815 m ≈ 1’82 m; b) RI = 0’084 m = 8’4


cm, en un intervalo central de 8’4 cm de amplitud se encuentra el 50% de las tallas;
c) S = 0’057 m, CV = 3’18%; d) AP1 = -0’35, AP2 = –0’37

6. La distribución de estaturas de los aspirantes presentados en otras convo-


catorias a la misma empresa de seguridad que venimos analizando, tiene los
siguientes parámetros:

98
Estadística - Capítulo 5

media = 1’78 m; mediana = 1’77 m; moda = 1’75 m;


desviación típica = 0’08 m

Compare los parámetros de centralización, dispersión y asimetría de la


convocatoria actual, calculados en los ejercicios anteriores, con los de otras
convocatorias y comente las diferencias que considere más significativas.

7. En una discusión de una comisión de Seguridad Ciudadana sobre un determi-


nado tipo de delito, un miembro de la comisión estableció que es un error creer
que las personas de edad más baja representan un porcentaje importante en
este tipo de delitos. Para apoyar su argumento, el miembro de la comisión propor-
cionó los siguientes datos sobre edades de los delincuentes, basados en un
reciente estudio.

Grupo de edad Grupo de edad


% delincuentes % delincuentes
(años) (años)
menos de 16 1 26 - 29 14

16 - 17 6 30 - 39 19

18 - 19 8 40 - 49 25

20 - 21 7 50 o más 8

22 - 25 12 TOTAL 100

El miembro de la comisión hizo notar que los porcentajes de edad entre 30


y 49 años son considerablemente mayores que los porcentajes de los grupos de
delincuentes más jóvenes.

a) ¿Está usted de acuerdo con esta interpretación de los datos?. Razone la


contestación.

b) Calcule frecuencias porcentuales acumuladas. Significado.

c) Frecuencias absolutas y absolutas acumulados sabiendo que el número


total de delincuentes es de 20.000.

99
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Solución: a) Tenga en cuenta las amplitudes de los intervalos, Ai = (?), 2, 2,


2, 4, 4, 10, 10, y (?), y las densidades de frecuencia hi = ni/Ai = (pequeña),
3, 4, 3’5, 3, 3’5, 1’9, 2’5 y (pequeña); observe, por ejemplo, que el grupo
de edad 20 – 21 vendría representado por el intervalo [20, 22) y su ampli-
tud es 2; b) Pi (%) = 1, 7, 15, 22, 34, 48, 67, 92 y 100; c) ni = 200, 1.200,
1.600, 1.400, 2.400, 2.800, 3.800, 5.000 y 1.600, Ni = 200, 1.400, 3.000,
4.400, 6.800, 9.600, 13.400, 18.400 y 20.000

8. En los últimos tres meses las cantidades de un determinado tipo de droga


incautada en domicilios particulares se muestra ordenada de menor a mayor
cantidad, expresada en gramos:

2’3 2’5 3’2 3’8 4’0 4’5 4’9 6’4 7’0 7’1

7’6 7’9 8’8 9’0 10’8 14’9 17’0 24 37 42

a) Calcule la media y la mediana.

b) Calcule las desviaciones media y típica.

c) Calcule el coeficiente de variación y la asimetría.

Solución: a) x = 11’235 g, Me = 7’35 g; b) Dm = 7’8725 g ≈ 7’87 g,


S = 10’788 g ≈ 10’79 g; c) CV = 96’02 %, AP2 = 1’08

9. En una comunidad formada por 100 vecinos, éstos han sido clasificados
atendiendo al número de personas que forman cada familia. Se pide que:

a) Haga una representación gráfica de la distribución de frecuencias.

b) Calcule los parámetros de centralización.

c) Calcule la asimetría de la distribución.

d) Calcule la curtosis.

Solución: b) x = 3’07 personas por familia, Me = 3 personas por familia, Md


= 2 personas por familia; c) S = 1’6568 personas por familia, AP1 = 0’646,
AP2 = 0’127, es asimétrica por la derecha; d) Q1 = 2, Q3 = 4,
P10 = 1, P90 = 6, k = 0’20 < 0’2632, es leptocúrtica

100
Estadística - Capítulo 5

10. La tabla muestra las puntuaciones obtenidas en una serie de 5 pruebas


por tres policías, A, B y C, para realizar una misión.

Puntos

Prueba “Importancia” A B C

1 0,20 4 6 5

2 0,10 5 4 7

3 0,30 7 7 5

4 0,30 6 8 4

5 0,10 5 4 6

Se pide:

a) La media aritmética ponderada de cada uno.

b) La media aritmética ponderada de los tres policías.

c) Para este tipo de pruebas la media aritmética ponderada es, por lo general,
de 7’40 puntos. ¿ Qué comentarios le merecen los tres candidatos que se
han presentado?.

Solución: a) xp (A) = 5’70, xp (B) = 6’50, xp (C) = 5’00; b) xp = 5’73; c) Que


los tres tienen un nivel por debajo de la media

11. Una muestra de 100 consumidores de droga da como resultado la distri-


bución del gasto diario en droga que se muestra en la tabla.

Gastos (¤) Consumidores

45 - 75 25

75 - 105 30

105 - 135 35

135 - 165 10

101
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Se pide que:

a) Calcule la media y la mediana.

b) Calcule la desviación típica.

c) Calcule el % de consumidores que gastan 150 ¤ o más.

d) Calcule el % de consumidores que gastan 100 ¤ o menos.

Solución: a) x = 99 ¤ al día, Me = 100 ¤ al día; b) S = 28’62 ¤ al día;


c) 5%; d) 50%, es la mediana

12. La edad de los parados de una población tiene la distribución que se


muestra en la siguiente tabla:

Edades de los Número de


parados (años) parados (%)

[16, 30) 62

[30, 40) 16

[40, 50) 11

[50, 60) 9

[60, 65) 2

a) Determine la media de la edad de los parados.

b) Calcule la mediana y compárela con la media. Comente las diferencias.

c) Calcule el número de parados de 50 años o más en una población de un


millón de habitantes de población activa y con un índice de paro del 20%.

d) Calcule la desviación típica y el coeficiente de variación.

e) Haga una representación gráfica de la distribución de frecuencias.

Solución: a) x = 31'01 años; b) Me = 27'29 años < x , asimetría positiva,


abunda el paro de los jóvenes y hay algunos parados con edades elevadas,
próximas a la de jubilación; c) 22.000; d) S = 11'64 años, CV = 37'54%; e)
Histograma con alturas hi = pi/Ai = 4'43, 1'60, 1'10, 0'90 y 0'40, o bien un
diagrama de sectores con amplitudes αi = 223º, 58º, 40º, 32º y 7º

102
Estadística - Capítulo 5

13. Una Comisaría anota todos los meses los viajes efectuados y las distancias
recorridas en cada viaje que realizan los funcionarios a ella adscritos en tareas
de investigación.

Sistemáticamente agrupa las distancias de la misma forma y el último mes,


la distribución es la que se muestra en la tabla adjunta:

Recorrido (Km) Número de viajes


[0, 2) 15

[2, 4) 20

[4, 6) 25

[6, 10) 10

[10, 20) 6

70 1

150 1

Se pide:

a) Que calcule la media y la mediana.

b) ¿Cuántos km recorrieron los vehículos ese mes?, teniendo en cuenta


únicamente los datos de la tabla. ¿Coincidirá obligatoriamente con la suma
de km que registren los cuenta-kilómetros de los vehículos? ¿por qué?.

c) Representación gráfica de las frecuencias relativas.

d) Calcule la desviación típica y el coeficiente de variación. Si al mes


siguiente se hicieron el mismo número de viajes, pero ninguno superior a
20 km, razone qué variación cabría esperar en la desviación típica.

Solución: En los datos agrupados por intervalos hay que calcular las marcas
de clase xi = 1, 3, 5, 8 y15 km; a) x = 7'56 km por viaje, Me = 4'32 km por
viaje; b) 590 km (aprox.) en los 78 viajes, no tiene por qué coincidir, pues
al agrupar datos en intervalos se pierde información y el trabajar con marcas
de clase es una aproximación; c) Utilice un diagrama de barras con alturas
fi = 0'1923, 0'2564, 0'3205, 0'1282, 0'0769, 0'0128 y 0'0128 o bien uno

103
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

de sectores con amplitudes αi = 69º, 92º, 115º, 46º, 28º, 5º y 5º; d) S =


18'17 km por viaje, CV = 240%, la desviación típica disminuirá porque las
observaciones estarán más concentradas alrededor de la media
14. La siguiente tabla muestra las edades de los detenidos el último mes,
según datos de una Comisaría española:

Edad (años) Detenidos


16 - 20 50
20 - 24 100
24 - 30 60
30 - 40 40
40 - 50 20
50 - 70 10

a) Calcule las frecuencias relativas y acumuladas de la distribución y repre-


séntelas.

b) Calcule los parámetros de centralización.

c) Calcule los parámetros de dispersión y forma.

Solución: a) fi = 0'1786, 0'3571, 0'2143, 0'1429, 0'0714 y 0'0357,


Fi = 0'1786, 0'5357, 0'7500, 0'8929, 0'9643 y 1'0000; b) x = 27'21 años,
Me = 23'60 años, Md = 21'82 años; c) S2 = 94'53 años2, S = 9'72 años,
CV = 35'72%, AP1 = 0'5545, AP2 = 1'1142, k = 0'2021 < 0'2632, asimétri-
ca positiva y leptocúrtica

15. Si la media de la edad de las mujeres detenidas en la Comisaría del ejer-


cicio anterior es de 23 años y representan el 30% del total, calcule la media de
la edad de los varones.

Solución: Se necesita la media de la edad de los detenidos calculada en el ejercicio


anterior. 29'01 años

104
Capítulo 6
NÚMEROS ÍNDICES
Estadística - Capítulo 6

1. LA NECESIDAD DE LOS NÚMEROS ÍNDICES


La Estadística de los fenómenos sociales, económicos, policiales, etc, utiliza
en muchos casos indicadores o índices que facilitan la medida y comparación de
estos fenómenos, que a veces son de gran complejidad, reduciéndolos a unos
pocos números en un esfuerzo de cuantificarlos de alguna manera. La salud, la
educación, la carestía de la vida, la seguridad ciudadana, no son fenómenos que
podamos medir directamente. En cada uno de ellos son muchos los factores que
intervienen y las variables que pueden condicionarlos. Conociendo estos factores
y cómo influyen, veremos la forma de reflejarlo en unos índices que nos propor-
cionen una medida de cada uno de estos fenómenos.

2. NÚMEROS ÍNDICES SIMPLES


Los números índices simples o elementales dan muestra de la variación de
una variable con respecto al tiempo o al espacio, tomando como referencia un
valor arbitrario de ésta. En el caso de los índices simples, la variable puede
medirse directamente, su cálculo es inmediato y no presenta ninguna dificultad.
Si en un momento determinado el valor de la variable es xi y se toma como valor
de referencia x0, el índice simple viene dado por el cociente de ambas cantidades:

(6.2.1)

Ya que xi y xo miden lo mismo, bien en dos momentos diferentes (referencia


temporal) o en dos lugares distintos (referencia espacial), su cociente no tiene
unidades y su único significado es averiguar si estamos por encima de la referencia
(Ii > 1), por debajo (Ii < 1) o no hay diferencias (Ii = 1). En muchas ocasiones la
expresión (6.2.1) se multiplica por 100, se dice entonces que el índice vale 100
en el momento de referencia, o base 100, aunque en nada cambia su significado
de lo expuesto.

107
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

También es frecuente dar los índices elementales en variaciones relativas,


como el cociente de la diferencia entre el valor considerado (xi ) y el de referen-
cia (x0 ) dividido por el valor de referencia:

(6.2.2)

o bien expresado en variaciones porcentuales si multiplicamos (6.2.2) por 100.

Veamos un ejemplo sencillo para familiarizarnos con el calculo de índices


elementales. Supongamos que en una comisaría, y por un determinado tipo de
delito, fueron detenidos 157 individuos en el año 2003, mientras que el año anterior
el número de detenidos fue de 138. Si tomamos como referencia el año 2002, el
índice simple vendrá dado por:

Utilizado variaciones porcentuales (∆I), expresión (6.2.2), puede comprobarse


que se obtiene 13’77%. El significado es que el número de detenidos ha aumen-
tado en un 13’77%, que es la diferencia con el valor del índice en el año base o
de referencia (100%).

Si tomamos como referencia el valor medio de las detenciones en 2003, para


ese mismo tipo de delito, en todas las comisarías de España, y que vamos a
suponer es de 170 detenciones, podemos calcular, de la misma forma otro número
índice, que valdrá:

El resto hasta 100, que vale 7’65, indica que en esa comisaría se producen
un 7’65% menos de detenciones que la media nacional. A lo que habríamos lle-

108
Estadística - Capítulo 6

gado también calculando la variación del índice. Resumiendo, esta comisaría en


2003 ha detenido a un 13’77% de individuos más que el año anterior, referencia
temporal, pero un 7’65% menos que la media nacional, referencia espacial.

Aunque los números índices pueden venir dados de varias formas diferentes:
Ii , Ii·100 (%),∆Ii y ∆Ii ·100 (%), que en el ejemplo del índice de detenidos con referen-
cia temporal, valían respectivamente, 1’1377, 113’77%, 0’1377 y 13’77%, y que
tienen el mismo significado, lo más habitual es expresarlos como variaciones
porcentuales, esto es, de la última forma.

3. NÚMEROS ÍNDICES COMPUESTOS


Siguiendo con el ejemplo del número de detenidos en una comisaría por
sospecha de haber cometido un tipo de delito determinado, supongamos ahora,
que el cálculo de índices elementales lo ampliamos a más tipos de delitos, al
final, dispondremos de una lista de índices simples, I1, I2, ..., In, uno por cada
tipo de delito, que dan cuenta de cómo han variado las detenciones respecto al
año base o de referencia. Un nuevo índice definido en función de otros índices
elementales es un índice compuesto.

Índices Compuestos no Ponderados


Lo más sencillo es considerar el índice compuesto como la media aritmética
simple de los índices elementales, que en el caso de que vinieran dados en varia-
ciones quedaría:

(6.3.1)

Esto equivaldría a sumar todos los índices elementales, y dividir por el número
de ellos.

109
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Índices Compuestos Ponderados


El índice no ponderado considera por igual delitos de poca importancia que
otros de mayor trascendencia, no diferenciándolos. Si lo que perseguimos es una
medida de la eficacia de la comisaría, no parece justo que un hurto sea tratado
igual que un robo con violencia. Los índices compuestos ponderados asignan
diferentes “importancias” o pesos (wi ), a cada uno de los índices elementales y
se definen como la media aritmética ponderada de los índices simples.

(6.3.2)

Únicamente cuando no podamos distinguir la importancia entre unos índices


elementales y otros, parece aconsejable utilizar índices compuestos no ponderados,
en cualquier otro caso deberemos trabajar con índices ponderados. La mayor difi-
cultad estará entonces, en establecer las ponderaciones o importancias asociadas
a cada índice elemental, y así, en el ejemplo del número de detenciones, asignar
una “importancia” mayor a los robos con violencia, que a los robos sin violencia,
y la de éstos mayor que la de hurtos.

Las estadísticas suelen aportar, en muchas ocasiones, criterios objetivos de


asignación de pesos (wi ). En otras ocasiones deberemos recurrir a criterios
subjetivos o de consenso.

Ejemplos de índices compuestos ponderados hay muchos, especialmente en


el campo de la Economía. El Indice de la Bolsa de Madrid y el Índice de Precios al
Consumo (IPC), son dos índices compuestos ponderados muy familiares para
todos, y de gran transcendencia en la vida económica del país. Las variaciones
que se producen en las cotizaciones de las diferentes acciones, proporcionan los
índices elementales y su mayor o menor capital en bolsa, la ponderación. Así,
una empresa pequeña que cotiza en bolsa y cuyas acciones caen estrepitosamente
en una jornada, apenas sí modifican el índice general; pero una bajada, no tan
acusada, de un paquete grande de acciones, sí que pueden producir una dismi-
nución apreciable en el índice general.

110
Estadística - Capítulo 6

En el Indice de Precios al Consumo, se calculan los índices simples, en un


periodo determinado, registrando antes y después los precios de cada artículo,
y así determinando la variación experimentada. ¿Cómo influirá este artículo en el
índice general? Lógicamente dependerá del consumo del artículo. Cada 10 años
el Instituto Nacional de Estadística (INE) realiza encuestas de consumo para
determinar los hábitos de consumo de los españoles y asignar los pesos o
“importancias” de cada artículo en el consumo total. La tabla 6.3.1 muestra los
pesos (%) de los grupos de consumo

Tabla 6.3.1. Consumo medio por persona (%)

Grupo de consumo Año 80 - 81 Año 90 - 91


Alimentos, bebidas, tabaco 35,89 29,82
Vestido y calzado 9,96 11,74
Vivienda, calefacción y alumbrado 10,42 10,58
Moviliario, menaje hogar 8,56 6,72
Servicios médicos y sanitarios 2,76 3,21
Transporte y comunicaciones 14,96 14,91
Esparcimiento, enseñanza y cultura 7,49 7,47
Otros bienes y servicios 9,96 15,55
(Fuente: Encuestas Presupuestos Familiares 80-81 y 90-91. INE)

4. OTROS NÚMEROS ÍNDICES


Hemos visto como la mayor dificultad para determinar índices compuestos
está en la asignación de las respectivas “importancias” o pesos de los índices
simples. Además, los índices simples hacen referencia a dos momentos en el
tiempo, el considerado base y el actual, ¿En cuál de ellos medimos la “importancia”
(wi )?. El índice compuesto de Laspeyres determina los pesos w (“importancias”)
en el momento de referencia o antes, mientras que el índice compuesto ponde-
rado de Paasche lo hace en el momento actual. Es evidente que este último será
más justo y adecuado, pero como sucede con el IPC y otros índices muy comple-
jos, no es posible hacer un seguimiento continuado de los cambios en los hábi-
tos de consumo de la población. El IPC es un índice de Laspeyres, que por ejem-

111
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

plo en 2000 se calcula viendo las modificaciones de los precios de lo diferentes artí-
culos, considerando que la distribución de gastos (“importancias”) son las de
1991.

Los índices compuestos deben entenderse como lo que son, medias aritmé-
ticas ponderadas, y así, la disminución de un índice compuesto sobre la delin-
cuencia, no quiere decir la disminución de todos los tipos de delitos que lo
componen, algunos pueden haber aumentado y ello debe ser detectado mediante
los índices simples.

El Instituto Nacional de Estadística publica una larga lista de índices o indica-


dores, tales como de Comercio Exterior, Turismo, Reserva de Divisas, Producción
industrial, Salarios, Desempleo, etc. Algunos de estos índices tienen “formas
distintas” a las que nosotros hemos presentado. Se elaboran con otras reglas
pero el objetivo es el mismo, traducir a números los cambios de valores que
pretendemos analizar. En ocasiones, para seguir la evolución de un fenómeno
concreto, se definen números índices muy específicos, podríamos decir que
particulares, en estos casos se deberá dar cuenta de como está “fabricado”
e incluso de las ventajas e inconvenientes de su utilización.

5. EJEMPLOS Y APLICACIONES POLICIALES


Presentamos ahora dos ejemplos de la utilización de números índices en el
ámbito de la investigación policial.

Ejemplo Suicidios en España (1984-1989) según sexo. La siguiente tabla da


cuenta, en el periodo mencionado, del número de suicidios tanto en varones
como en mujeres entre 1984 y 1989. Se han calculado los índices simples,
considerando como año de referencia 1984, para ambos sexos.

112
Estadística - Capítulo 6

Tabla 6.5.1. Suicidios en España (1984-1989) según sexo

Suicidios Suicidios Índice Índice


Año
varones mujeres varones mujeres
1984 823 415 100,00 100,00

1985 872 420 105,95 101,20

1986 1060 481 128,80 115,90

1987 1148 679 139,49 163,61

1988 887 478 107,78 115,18

1989 975 479 118,47 115,42

(Fuente: Comisaría General de Policía)

Así, por ejemplo, para 1987 se tiene:

El índice de suicidios en varones en 1987 es el 139’49% tomando como referen-


cia 1984, lo que equivale a un aumento del 39’49%, respecto de este año.
Análogamente para las mujeres. Podrían haberse calculado otros índices. El del
total de suicidios, sumando varones y mujeres. Indices con otro año base e inclu-
so cambiando de año base y tomando como referencia, en cada año, el anterior.

Una de las utilidades más habituales de los números índice es la comparación,


que nos permitirá establecer analogías y diferencias. Si deseamos comparar el
fenómeno de los suicidios con lo que sucede en Estados Unidos, deberemos
hablar el mismo “lenguaje”, y no nos referimos al idioma. Nuestro índice deberá
ser el mismo, idéntico año base, los mismos criterios, etc. Por la misma razón

113
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

los índices, por ejemplo, de eficacia en las comisarías deberán estar construidos
de la misma forma.

En el gráfico que adjuntamos se muestra comparativamente la evolución de


los índices de suicidios de varones y mujeres.

Ejemplo 2 Supongamos que en los años 2002 y 2003, en una comisaría, se


han registrado los delitos que se muestran en la siguiente tabla:

Tipo de delito w 2002 2003 ∆IC ∆IC w

Contra la propiedad 6 7169 7133 -0,50 -3,00

Contra la libertad y seguridad 15 2633 2974 12,95 194,25

Riesgo 15 2300 2845 23,70 355,50

Contra las personas 30 1512 1897 25,46 763,80

Seguridad interior 20 1348 1236 -8,31 -166,20

Otros delitos 14 2415 2300 -4,76 -66,64

TOTALES 100 1077,71

114
Estadística - Capítulo 6

Hemos calculado las variaciones de cada tipo de delito en 2003, tomando


como referencia el año anterior 2002, se obtiene así ∆IC, que es un índice simple
para cada tipo de delito en esa comisaría. Por otro lado, supongamos que dispo-
nemos de datos de la misma cuestión a nivel nacional, columna ∆IN (España), y
que son los que se muestran en la siguiente tabla:

Tipo de delito w ∆IC ∆IC w

Contra la propiedad 6 -0,70 -4,20

Contra la libertad y seguridad 15 11,00 165,0

Riesgo 15 20,00 300,0

Contra las personas 30 15,00 450,0

Seguridad interior 20 -3,00 -60,0

Otros delitos 14 -2,00 -28,0

TOTALES 100 ----- 822,80

Aunque las cifras de delitos en esta comisaría y en toda España sean muy
diferentes, puede que cien veces mayor en España, los índices simples calculados
pueden compararse fácilmente. El siguiente gráfico pone de manifiesto que los
delitos tipo 1 (contra la propiedad) apenas han variado, han aumentado los delitos
tipo 2, 3 y 4 con respecto al año anterior y que han disminuido los de tipo 5 y
6. Además esta comisaría ha tenido un comportamiento similar al de toda
España.

115
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Por último vamos a calcular un índice compuesto ponderado que diferenciando


la “importancia” de unos delitos de otros, nos permita una valoración global de
la actividad en esa comisaría y su comparación con la de toda España. La mayor
dificultad en esta tarea es la asignación de pesos (w) a cada tipo de delito, lo que
requeriría un estudio previo y minucioso, como sucede con los hábitos de
consumo en el IPC; de modo que de la manera más objetiva posible se fijen las
“importancias” (w). Nosotros lo hemos hecho arbitrariamente, tal y como apare-
ce en las tablas anteriores, y no tienen otra validez que para este ejemplo. Las
columnas ∆IC w e ∆IN w de estas tablas, son auxiliares en el cálculo de los índi-
ces compuestos; que vendrán dados por:

A la vista de los resultados obtenidos la comisaría analizada tiene un incre-


mento del índice compuesto, respecto de 2002, del 10’78%; frente al 8’23% que
experimenta todo el conjunto.

116
Estadística - Capítulo 6

EJERCICIOS PROPUESTOS
1. En una comisaría la evolución del número de robos que superan cierta can-
tidad, ha evolucionado con el tiempo según se muestra en la tabla.

AÑO 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
Robos 67 85 89 78 97 105 93 112 88 117 115

Se desea saber:

a) Los números índices elementales tomando como año base 1993.

b) Los números índices elementales tomando como referencia el año


anterior.

c) Los números índices elementales tomando como referencia la media del


periodo 1993-2003

d) Comente el significado de los diferentes índices calculados y represén-


telos gráficamente.

Solución: a) Ii (%): 100’00, 126’87, 132’84, 116’42, 144’78, 156’72, 138’81,


167’16, 131’34, 174’63 y 171’64, ∆Ii = Ii – 100 (%): 0’00, 26’87, 32’84, ... y 71’64;
b) Ii (%): —-, 126’87, 104’71, 87’64, 124’36, 108’25, 88’57, 120’43, 78’57,
132’95 y 98’29, ∆Ii (%): —-, 26´87, 4’71, –12’36, ... y –1’71; c) Base = x = 95’09,
Ii (%): 70’46, 89’39, 93’59, 82’03, 102’01, 110’42, 97’80, 117’78, 92’54, 123’04
y 120’94, ∆Ii (%): –29’54, –10’61, –6’41, ... y 20’94.

2. Las acciones de una importante empresa suponen el 8% de todas las que


se cotizan en Bolsa. Si éstas bajaran un 10%, determine cuánto deberían subir
otras acciones que participan sólo con el 1% del total para que el índice general
de la Bolsa no se modificara. (Nota: El resto de acciones no cambian de valor).

Solución: Subir un 80%

117
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

3. Aceptando que los productos que entran a formar parte del Índice de
Precios al Consumo no modificaran su valor y que la gasolina disminuyera su
precio actual en un 7%, calcule la disminución del I.P.C. originado por esta baja-
da del precio de la gasolina. (Dato: La participación o "importancia" de la gasoli-
na en el I.P.C. es del 6%).

Solución: Bajaría un 0'42%

4. El comité de centro de una empresa reclama subidas salariales basándose


en los datos de la tabla:

Año Salario (euros) ∆ I.P.C.

2002 880 ----

2004 930 7%

2006 970 6%

a) Calcule los números índices del salario y compararlos con las variacio-
nes del I.P.C.

b) Haga una representación gráfica que muestre las pérdidas de valor


adquisitivo.

c) ¿Qué salario medio deberían cobrar en 2006 para que su poder de


compra fuera el mismo de 2002?.

Solución: a) ∆ IS: ---, 5'68%, 4´30%, son menores que el ∆ IPC; b) Pérdidas = ---,
1'32%, 1'70%; c) 998'10 euros

5. En las cinco semanas que se lleva controlando un fenómeno de interés


policial, se han registrado diariamente los casos que se muestran en la tabla.

118
Estadística - Capítulo 6

Día 1ª 2ª 3ª 4ª 5ª
Lunes 624 621 614 617 603
Martes 814 816 804 798 794
Miercoles 816 812 812 809 808
Jueves 824 830 830 824 817
Viernes 975 973 972 964 945
Sabado 996 987 988 984 945
Domingo 936 942 930 936 930

a) Calcule las medias atendiendo al día de la semana.

b) Calcule la media diaria durante el periodo de cinco semanas estudiado.

c) Calcule los índices diarios medios tomando como referencia la media


del periodo y representarlos.

d) Interprete los resultados obtenidos en el apartado anterior.

Solución: a) Lunes a Domingo: 615'80, 805'20, 811'40, 825'00, 970'60, 980'00 y


934'80; b) 848'97; c) Ii (%): 72'53, 94'84, 95'57, 97'18, 114'33, 115'43 y 110'11,
∆Ii (%): -27'47, -5'16, - 4'43, -2'82, 14'33, 15'43 y 10'11; d) Hay un efecto de fin de
semana (viernes, sábado y domingo) para disminuir los lunes

119
Capítulo 7
PROBABILIDAD
Estadística - Capítulo 7

1. INTRODUCCIÓN
A lo largo de los temas de Estadística vistos, hemos tenido ocasión de aprender
a recoger, clasificar y presentar de forma resumida la información que nos sumi-
nistra un conjunto de observaciones. Esta tarea de descripción de conjuntos finitos
de datos, que corresponde a la Estadística Descriptiva, es sólo una parte de los
métodos estadísticos, ya que generalmente nos interesa conocer las propiedades
de la población, y en muchas ocasiones nos vemos obligados a inferirlas a
través de las propiedades observadas en sus muestras representativas.

De los problemas subyacentes a esta forma de trabajo se ocupa la Estadística


Inductiva o Inferencial, la cual trataremos en este curso, y para ello vamos a sentar
sus bases matemáticas, ya que podemos representar de forma simplificada los
fenómenos reales que entran en juego a este nivel mediante la “Teoría de la
Probabilidad”, fundamento de la “Estadística Matemática”. Ambas pueden definirse
como “el modelo matemático de las regularidades que se observan en las series
de frecuencias correspondientes a los fenómenos aleatorios”.

Ante la posibilidad de que los estadísticos (media, varianza,etc. de las muestras)


puedan variar de una muestra a otra, a pesar de que éstas se extraigan de la
misma población, necesitamos conocer la probabilidad de ocurrencia de un
resultado, con el fin de decidir si las diferencias entre estadísticos y parámetros
se deben o no al azar.

Con este fin, y sin poder extendernos mucho, damos entrada a este tema de
probabilidades en el que conceptualizaremos un modelo que nos llevará a un
conjunto de propiedades (teoremas), deducibles de unos axiomas por razo-
namientos lógicos.

2. SUCESOS. OPERACIONES CON SUCESOS


Un fenómeno o experimento se dice aleatorio si puede dar lugar a varios
resultados, sin que pueda ser posible anunciar con certeza cuál de éstos va a ser
observado en la realización del experimento. El conjunto de los distintos resul-
tados de un experimento aleatorio recibe el nombre de espacio muestral asociado

123
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

al experimento; lo denotaremos por Ω; como ejemplos podemos citar los


siguientes:

· Lanzamiento de un dado: Ω = [1, 2, 3, 4, 5, 6]

· Sexo de una persona: Ω = [V, H]

· Nº de sospechosos a vigilar: Ω = [0, 1, 2, 3,..., n]

· Peso de la droga decomisada: Ω = [P0, P1]

Cada fenómeno aleatorio tiene asociada una familia de sucesos A; un suce-


so está caracterizado por su ocurrencia o no respecto de cualquier resultado que
observemos al realizarse el fenómeno o experimento aleatorio; por ejemplo,
supongamos que apostamos a “salir par” al lanzar un dado y consideramos A =
“ganar” , B = “perder”, entonces A y B son sucesos pues cada resultado del dado
permite afirmar si A ocurre o no y análogamente con B.

Cada suceso puede representarse por medio de un subconjunto del espacio


muestral Ω, para ello basta asociar a cada suceso el conjunto de resultados que
permiten afirmar la ocurrencia de A; en el ejemplo anterior se tendría A = “ganar”
= [2, 4, 6] y B = “perder” = [1, 3, 5]. De esta forma, la familia de sucesos A,
asociada a un experimento aleatorio, vendrá representada por una familia de
subconjuntos del espacio muestral.

Operaciones con Sucesos


Puesto que los sucesos los representamos por medio de subconjuntos del
espacio muestral, vamos a ver cómo se interpretan ciertas operaciones de
conjuntos en términos de sucesos:

A ∪ B es el suceso unión, es el suceso que ocurre precisamente si ocurre


A u ocurre B.

A ∩ B es el suceso intersección, es el suceso que ocurre precisamente


cuando ocurren A y B simultáneamente.

Ac es el suceso contrario de A, se da si no ocurre A y no se da cuando


ocurre A.

124
Estadística - Capítulo 7

∅ es el suceso imposible, nunca ocurre.


es el suceso seguro, siempre ocurre.

A – B es el suceso diferencia, que ocurre únicamente cuando ocurre A y no


ocurre B.

Ejemplo
Sea un espacio muestral en el que están incluidos todos los españoles. Sea
el suceso A todos los españoles que son policías y el suceso B todos los espa-
ñoles nacidos en Madrid. Queremos interpretar el significado de los sucesos
A ∪ B, A ∩ B y Ac. Las figuras siguientes muestran gráficamente el significado
de la Unión, Intersección y Suceso Contrario:

A ∪ B es el suceso que contiene a todos los españoles que son policías o


madrileños.

A ∩ B es el suceso que contiene a todos los españoles que son policías y ade-
más han nacido en Madrid.

Ac representa los españoles que no son policías

3. CONCEPTO CLÁSICO Y ESTADÍSTICO DE LA PROBABILIDAD


Los sucesos de un experimento aleatorio también llevan asociadas probabi-
lidades. La asignación de las mismas puede hacerse de diversas formas, por
ejemplo, en la concepción clásica de la probabilidad, la probabilidad de un suceso
se determina dividiendo el número de casos favorables por el de casos posibles:

Es claro que para poder aplicar esta fórmula, conocida como Regla de
Laplace, es preciso que el espacio muestral _ sea finito y que los resultados sean
equiposibles, hecho éste conocido como principio de indiferencia, y que significa
que todos los casos posibles tienen la misma probabilidad de que ocurran.

Se lanza un dado y se quiere saber la probabilidad de que salga un 5. En pri-


mer lugar debemos suponer que el dado está bien construido y por tanto
todas las caras tienen la misma probabilidad. Bajo esta hipótesis,
tendremos un caso favorable y seis posibles (las seis caras del dado), luego:

P(5) = 1/6 = 0’1666 ≈ 16’7%

125
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Otra forma de asignar probabilidades es la que se realiza bajo la concepción


estadística, el punto de partida es la denominada ley del azar o ley de la estabi-
lidad de las frecuencias relativas; tal ley es un resultado experimental que puede
enunciarse diciendo que:

“Si un experimento aleatorio se realiza un número grande de veces, en


condiciones idénticas e independientes, entonces las frecuencias relativas

de los sucesos (Nº de veces que ocurren dividido por el Nº de pruebas)


tienden a estabilizarse alrededor de un número”

Pues bien, ese número hacia el que tiende la frecuencia relativa de un suce-
so es el que se le asigna como probabilidad.
Ejemplo
Sea el mismo dado del ejemplo anterior. Tenemos sospechas de
que puede estar trucado y no pensamos que sea adecuado asignar probabi-
lidades por el procedimiento clásico. Realizamos un experimento que consiste
en tirar un dado 50 veces, por ejemplo, y anotar el número de cincos que
salen. Continuar hasta cien veces y repetir las operaciones.

Fig. 7.3.1. Ejemplo de Ley del Azar

Así sucesivamente hasta que observamos en la representación, frecuencia


relativa frente a número de tiradas, que el polígono se estabiliza, pudiendo
entonces ver que la probabilidad de obtener 5 es la frecuencia relativa de
estabilización. Si ésta llegara a estabilizarse próxima a 1/6 podríamos concluir
que el dado no estaba trucado en lo que se refiere a la cara del cinco.

Considerar las frecuencias relativas como una medida de probabilidad de los


sucesos es de gran importancia en Estadística. Así la Estadística Descriptiva que
hasta ahora nos informaba de las características de los colectivos, proporciona
ahora también, a través de las frecuencias relativas, una medida de la probabili-
dad de que se produzcan en el futuro algunos sucesos. De las estadísticas de

126
Estadística - Capítulo 7

Ejemplo siniestros de una compañía aseguradora, se podrían deducir los


siniestros del próximo año y valorar las distintas pólizas en función de la sinies-
trabilidad de sus asegurados. Cuantos más siniestros analicemos, mayores
garantías tendremos en la asignación de probabilidades de cara al futuro.

4. PRINCIPIOS ELEMENTALES DE LA PROBABILIDAD


Cualquiera que sea el procedimiento que se utilice para asignar probabilidades
a los sucesos de un experimento aleatorio, éstas deben satisfacer los siguientes
axiomas:

1) La probabilidad del suceso imposible es cero, P(∅) = 0. ¡Si no jugamos


a la lotería, es imposible que nos toque!.

127
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

2) La probabilidad del suceso seguro vale uno, P(Ω) = 1. ¡Si apostamos a


todos los números, nos toca seguro!.

3) La probabilidad de un suceso cualquiera, por lo tanto, está acotada


entre los valores 0 y 1; y si se da en %, entre 0 y 100.

4) La probabilidad de la unión de dos sucesos es la suma de las probabi-


lidades de cada suceso menos la intersección de ambos.

P(A ∪ B) = P(A) + P(B) – P(A ∩ B)

Si los sucesos A y B no tienen elementos en común, se llaman incompatibles


y su intersección es cero, en cuyo caso:

P(A ∪ B) = P(A) + P(B)

que puede generalizarse fácilmente, de tal forma que si los sucesos A1,
A2, ..., An, son incompatibles dos a dos, entonces:

P(A1 ∪ A2 ∪ ... ∪ An) = P(A1) + P(A2) + ... + P(An)

Por ejemplo, para calcular la probabilidad de que al sacar una carta de una
baraja española (40 cartas) se obtenga una copa o un basto podemos
considerar los sucesos:

A = “Sacar una copa” ; B = “Sacar un basto”

que son sucesos incompatibles, luego:

P(A ∪ B) = P(A) + P(B) = 10/40 + 10/40 = 0’5 = 50%

En cambio, para calcular la probabilidad de que al sacar una carta de una


baraja española se obtenga una copa o un as podemos considerar los
sucesos:

A = “Sacar una copa” ; B = “Sacar un as”

que son sucesos compatibles ya que hay una copa que a la vez es as (el
As de copas) luego:

P(A ∪ B) = P(A) + P(B) – P(A ∩ B) = 10/40 + 4/40 – 1/40 = 13/40 =

128
Estadística - Capítulo 7

= 0’325 = 32’5%

5) La probabilidad del suceso contrario de A, es igual a uno menos la


probabilidad de A, esto es:

P(Ac) = 1 – P(A)

Así, la probabilidad de que un sospechoso no sea culpable, es igual a uno


menos la probabilidad de que lo sea. En ocasiones es más fácil calcular
probabilidades del suceso contrario, por lo que esta propiedad suele ser
muy útil.

5. PROBABILIDAD CONDICIONADA
Cuando repetimos varias veces un experimento aleatorio los distintos resul-
tados constituyen un suceso compuesto. La probabilidad de un suceso compuesto
viene dada por el producto de las probabilidades elementales de cada experi-
mento.

P(A ∩ B) = P(A) P(B /A)

“La probabilidad de que en un experimento compuesto ocurra el suceso A


y luego el B viene dada por el producto de la probabilidad de A por la
probabilidad de B condicionada a que se dio A, P(B /A)”.

Si la ocurrencia del suceso A no influye en B entonces:

P(A ∩ B) = P(A) P(B)

y los sucesos A y B se dice que son independientes en caso contrario se dice que
son dependientes.

Se saca una carta de una baraja española tres veces, devolviéndola en cada
caso; la probabilidad de que se obtenga siempre un oro es:

p = 10/40·10/40·10/40 = 0’0156 = 1’56%

pues cada suceso elemental es independiente del anterior. Pero si en cada

129
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

extracción dejamos fuera la carta, no devolviéndola a la baraja, la probabilidad


de la segunda extracción depende de lo ocurrido en la primera y la tercera
de las dos anteriores; la probabilidad sería entonces:

p = 10/40·9/39·8/38 = 0’0121= 1’21%

6. LA DISTRIBUCIÓN NORMAL
Hasta ahora hemos presentado los resultados de la Estadística Descriptiva
con una visión fundamentalmente de sucesos que ya habían acontecido, según
esto, la Estadística se limita a levantar acta pormenorizada de los comportamientos
Ejemplo de los diferentes colectivos a tiempo pasado, como si fuera un rama
de la Historia. Y es cierto, debe saber cómo suceden las cosas para llegar a pre-
decir cómo debemos esperar que sucedan en el futuro; este “salto” sólo puede
realizarse a través de la probabilidad y el cálculo de probabilidades, de tal mane-
ra que, lo que ayer fue una distribución de frecuencias, pueda ser utilizada hoy,
como una distribución de probabilidad de cara a saber lo que pasará mañana.

130
Estadística - Capítulo 7

Así, un empresario que ha venido observando en los últimos años que el 30%
de sus trabajadores, cuando llega el invierno, están de baja 3 días, el 20% alre-
dedor de una semana y un 5% dos semanas o más, debe pensar, que si no
exactamente así, es muy probable que algo parecido suceda este año, de forma
que lo tenga en cuenta al diseñar la plantilla que necesita.

Por lo tanto, una distribución de probabilidad, lo que hace es asignar proba-


bilidades (en lugar de frecuencias) a cada uno de los valores que la variable
(antes variable estadística, ahora variable aleatoria) puede adoptar. Esta asigna-
ción puede hacerse siguiendo los dos procedimientos que ya se expusieron,
conceptos clásico y estadístico de la probabilidad.

Las variables aleatorias pueden ser, como las estadísticas, discretas o conti-
nuas, dando lugar a distribuciones de probabilidad discretas o continuas. El
número de accidentes que un individuo puede tener en su vida laboral es una
variable aleatoria discreta: 0, 1, 2, etc. Si a cada uno de estos valores asignamos
una probabilidad, el resultado será una distribución de probabilidad discreta. Por
el contrario si la variable aleatoria es continua, en un intervalo de ésta , tendremos
infinitos valores, sin que podamos averiguar la probabilidad de cada uno,
aunque sí la del intervalo. Veremos pronto como hacerlo.

Los pesos, las alturas, los coeficientes de inteligencia, las habilidades, los
rendimientos, etc, de un gran colectivo de personas siguen con frecuencia
distribuciones, que al representar sus polígonos de frecuencias, tienen un gran
parecido en la forma, con el aspecto que se muestra en la figura:

Fig 7.6.1. La Distribución Normal

131
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Esta distribución, que ya presentamos al explicar las medidas de forma, es


la distribución Normal y que en cada caso, está caracterizada por la media m y
la desviación típica s, y la denotaremos por Ν(µ, σ). Cuando utilizamos datos o
valores empíricos se aproxima valor de m por la media de la muestra de datos,
µ ≈ x , y la desviación típica s de la normal se puede aproximar por la desviación
típica de los datos, σ ≈ S.

Si denotamos con Φ(z) el valor proporcionado por la tabla de la normal estándar


Ν (0, 1), podemos aplicar las siguientes reglas para la variable normal tipificada Z:

P(Z ≤ z) = P(Z < z) = Φ(z)

P(Z > z) = P(Z ≥ z) = 1 – Φ(z)

P(a ≤ Z ≤ b) = P(a < Z < b) = Φ(b) – Φ(a)

Φ(–z) = 1 – Φ (z)

En la figura se muestran estas cuatro situaciones prácticas.

Fig 7.6.2. Casos frecuentes de probabilidades normales

132
Estadística - Capítulo 7

Ejemplo Una distribución Normal de estaturas, de media 178 cm y desviación


típica 5 cm, se indicaría como Ν(178, 5); la probabilidad de que una persona
mida entre 174 y 179 cm vendrá dada por el área de la curva Normal entre
estos dos valores. Con objeto de calcular con mayor comodidad esta proba-
bilidad, trabajaremos con puntuaciones típicas, sin más que hacer la trans-
formación:

Para cada valor de xi calcularemos su correspondiente puntuación típica zi,


y la tabla de la distribución Normal, nos proporcionará, el porcentaje o la
probabilidad para todos los valores iguales o inferiores, como si se tratara
de un percentil.

Así, para x1 = 174, obtenemos a = z1 = (174 – 178)/5 = – 0’80, y de las tablas


de la distribución normal se obtiene:

p1 = 1 – 0’78814 = 0’21186

Aunque la tabla de la distribución Normal no proporciona probabilidades


para valores negativos de z, en el caso de z1 = –0’80 hemos calculado la
probabilidad a la derecha de z = 0’80, que es la misma que queda a la
izquierda de z = –0’80, esto es:

P(Z ≤ –0’80) = P(Z ≥ 0’80) = 1 – P(Z ≤ 0’80) = 1 – 0’78814 = 0’21186

Para x2 = 179, obtenemos b = z2 = (179 – 178)/5 = 0’20, y de las tablas de


la distribución normal se obtiene p2 = 0’57926.

Luego p2 – p1 = 0’3674, o lo que es lo mismo hay una probabilidad del


36’74% de que una persona de ese colectivo mida entre 174 y 179 cm; la
figura muestra de forma gráfica este resultado.

133
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Fig. 7.6.3. Probabilidad comprendida entre dos valores de x

134
Estadística - Capítulo 7

135
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

EJERCICIOS PROPUESTOS
1. Utilizando la tabla de la normal estándar, justifique que en cualquier dis-
tribución Normal los intervalos centrales: media ± desviación típica, media ± dos
desviaciones típicas y media ± tres desviaciones típicas, contienen el 68’27%,
95’45% y 99’73% de probabilidad respectivamente.

2. Si las cantidades sustraídas por diferentes procedimientos de timos


(estampita, toco-mocho, etc) siguen una distribución Normal de media 600 euros
y desviación típica de 180 euros, calcule:

a) La probabilidad de que un timo supere los 700 euros.

b) La probabilidad de que la cantidad timada esté comprendida entre 550


y 750 euros.

Solución: a) 28’77%; b) 40’70%

3. Con los datos de ejercicio anterior, calcule la probabilidad de que se


puedan dar tres timos seguidos de más de 650 euros.

Solución: 0’389743 = 0’05920 = 5’92%

4. Se llama cociente intelectual, C.I., a 100 veces el cociente entre la edad


mental y la edad real. Si se sabe que la distribución del C.I. se distribuye normalmen-
te con media 95 y desviación típica 22 y que se tiene un colectivo con 2600
personas:

a) ¿Cuántas tendrán un C.I. superior a 130?

b) ¿Cuántas tendrán un C.I. inferior a 70?

c) ¿Cuántas tendrán un C.I. entre 80 y 115?

Solución: a) el 5’59%, 145; b) el 12’71%, 331; c) el 57’03%, 1483

136
Estadística - Capítulo 7

5. La nota media de las pruebas de acceso correspondientes a los estudiantes


que querían ingresar en una facultad era 5’80 y la desviación típica 1’75. Fueron
admitidos los de nota superior a 6. ¿Cuál fue el porcentaje de admitidos si la
distribución es normal?

Solución: 45’62%

6. El peso de los aspirantes a unas pruebas a los cuerpos de seguridad se


distribuye como una distribución normal de 75 kg de media y 4 kg de desviación
típica. Si el número de aspirantes es de 2000, calcule:

a) ¿Cuántos pesarán más de 77 kg?.

b) ¿Cuántos pesarán menos de 72 kg?.

c) ¿Cuántos pesarán entre 70 y 79 kg?.

Solución: a) el 30’85%, 617; b) el 22’66%, 453; c) el 73’57%, 1471

7. Las edades de los empleados de una empresa de seguridad tienen una


media de 43’27 años y una desviación típica de 8’46 años. Suponiendo que hay
normalidad, ¿qué porcentaje de empleados hay con edades comprendidas entre
los 25 y 50 años?.

Solución: 77’28%

8. Las puntuaciones de unos exámenes tienen una media de 6’25 y una


desviación típica de 1’20. Suponiendo que hay normalidad, ¿qué porcentaje de
examinandos habrán obtenido entre 4’50 y 6’50?.

Solución: 51’10%

137
Capítulo 8
ESTIMACIÓN ESTADÍSTICA
Estadística - Capítulo 8

1. INTRODUCCIÓN
Anteriormente ya se ha mencionado que podíamos dividir la Estadística en
dos partes: Descriptiva e Inferencial. Hasta ahora sólo se ha hablado de la
Descriptiva como opción para resumir y describir los datos. Pero con esto no nos
podemos quedar, hemos de ir más allá. Hemos de encontrar una “fórmula” que
nos “generalice” esa información. Estamos acostumbrados a oír en cualquier
medio de comunicación, en cualquier libro, en cualquier escrito, frases como “La
estatura media de los aspirantes a ese trabajo es de 1’75 m”, pero ¿hemos medido
a la totalidad de aspirantes?, la respuesta, en general, es NO. Seguramente hayamos
tomado una parte de todo el conjunto y estemos generalizando la información;
esto es lo que hace la Estadística Inferencial. También es posible que nos
estemos haciendo una pregunta: ¿Ese valor es verdadero? ¿No cometo errores?;
la respuesta es que SÍ, pero la Estadística Inferencial también valora parte de
esos errores utilizando la teoría de la Probabilidad, de la que ya se ha hablado
anteriormente. Así, podríamos plantear el siguiente esquema:

Hablaremos de esos errores, de los tipos con los que nos podemos encontrar,
pero para ello, vamos a introducir algunos conceptos.

141
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

2. POBLACIÓN Y MUESTRA
Lo primero que hemos de distinguir son dos conceptos con los que se trata
en Estadística: población y muestra. Se da el nombre de población a cualquier
conjunto, colectivo o conglomerado numeroso de objetos por estudiar. Pero esta
definición es tan general que prácticamente no dice nada y, de hecho, no adquiere
verdadero significado sino cuando se asocia a la definición de muestra, que es
alguna parte o subconjunto de una población, ordinariamente seleccionada al
azar, para que las propiedades de la población se pongan de relieve.
Teóricamente las poblaciones pueden ser finitas o infinitas, aunque estas últimas
son algo artificiales o conceptuales; por ejemplo, el conjunto de todos los números
positivos o de todas las posibles estaturas de personas o de todos los lanzamientos
de un dado que podrían hacerse hasta la eternidad. Por oposición, toda población
de entidades físicas es finita: todos los habitantes de España, todos los asilados
en la UE, el parque automovilístico de Madrid, etc. En términos de estadística
inferencial no es necesario ocuparse demasiado de la diferencia entre poblaciones
finitas e infinitas siempre y cuando el tamaño de la muestra sea 100 veces infe-
rior al de la población de la cual se tomó, ya que en este caso las
técnicas estadísticas para poblaciones finitas e infinitas tienden a dar esencialmente
los mismos resultados. Si denotamos con N el tamaño de la población y con n el
de la muestra, la relación f = n/N se conoce como fracción de muestreo:

Cuando la población es suficientemente grande y bastante mayor que la


muestra tomada (f < 0’01; o sea, una fracción de muestreo inferior al 1%) se
trabajará en la práctica con la hipótesis de que se trata de una población infinita.
Generalmente se habla de poblaciones “virtualmente infinitas”, entendiendo por
esto que son muy grandes, pero finitas y, además, que para su estudio se
emplearán técnicas estadísticas que suponen una población infinita.

Los valores de las diversas medidas descriptivas de la población (medias,


varianzas, desviaciones típicas, proporciones, correlaciones, etc.) se conocen

142
Estadística - Capítulo 8

como parámetros, pero cuando se refieren a muestras se denominan estadísti-


cos; en general también se entiende por estadístico cualquier función (fórmula o
expresión) construida con los datos de una muestra.

Así como los parámetros se utilizan para describir características o propie-


dades de poblaciones y, en general, suelen tener valores desconocidos, los
estadísticos toman valores que son conocidos para cada muestra, utilizándose
en principio para describir éstas o resumir información contenida en las mismas,
y en una segunda etapa, por medio de la inferencia o inducción estadística,
también se utilizan para cuantificar parámetros y poder describir características
o propiedades de las poblaciones. Obsérvese que los estadísticos son variables
aleatorias, es decir, sus valores dependen de las observaciones muestrales, por
lo que si éstas se han tomado al azar también sus valores variarán al azar, y no
serán conocidos hasta que no se tome una muestra concreta. Los parámetros se
suelen representar con letras griegas y los estadísticos con letras latinas; por
ejemplo, el símbolo X representa la media de la muestra, mientras que la letra
griega m representa la media de la población, análogamente la varianza de la
muestra la denotamos por S2 y la de la población por σ2.

Hemos visto en temas anteriores cómo se calculaban los distintos estadísti-


cos a partir de una muestra. Los parámetros son valores que sólo se pueden
hallar teniendo todas y cada una de las observaciones de la población. Esto gene-
ralmente es imposible y han de ser estimados mediante las observaciones cono-
cidas de una muestra. En muchas ocasiones puede interpretarse el estadístico de
una muestra como una estimación del parámetro de una población; una medida
de estimación o estimador es una función de las observaciones muestrales que
da lugar a un valor determinado llamado estimación, el cual suministra información
sobre un parámetro de la población de donde procede la muestra. Por ejemplo,
mediante una muestra de 100 trabajadores españoles puedo calcular el sueldo
medio de éstos de 900 euros al mes, lo cual podría ser una estimación del sueldo
medio en España.

Ejemplo 8.2.1. En la siguiente tabla se recoge el número de defraudaciones


(variable X) denunciadas en un año en 13 comisarías.

143
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Defraudaciones
Comisaría X
1 703
2 771
3 418
4 160
5 90
6 70
7 91
8 88
9 110
10 220
11 277
12 81
13 37

Tratando los datos con el paquete estadístico SPSS, se obtiene la siguiente


salida:

144
Estadística - Capítulo 8

El cálculo de estadísticos pueden servir de estimaciones para los respectivos


parámetros de la población. Algunas aclaraciones sobre el cuadro anterior
son las siguientes:

· N = 13 es el tamaño de la muestra, que denotamos con n.

· Perdidos = 0, valores que pudieran faltar en la muestra.

· Desv. típ. = 244,315 es la cuasidesviación típica Sc.

· Varianza = 59689,731 es la cuasivarianza, denotada por Sc2.

· Asimetría = 1,520 es un coeficiente de asimetría similar a g1, lleva una


corrección que tiene en cuenta el tamaño de la muestra.

· Error típ. de asimetría = 0,616 es un valor aproximado del error típico


de la asimetría.

· Curtosis = 1,172 es un coeficiente de curtosis similar a g2, también lleva


una corrección que tiene en cuenta el tamaño de la muestra.

· Error típ. de curtosis = 1,191 es un valor aproximado del error típico de


la curtosis.

· Rango = 734 es el recorrido muestral, esto es, el valor máximo de los


datos menos el mínimo, 771 – 37 = 734.

En relación con lo que se obtiene en esta salida, que por otra parte suele ser
muy similar a la que se obtendría con otros programas, podemos hacer las
siguientes observaciones y comentarios. En primer lugar observar que lo que
se obtiene como varianza y desviación típica son la cuasivarianza y la cuasides-
viación típica respectivamente; estos valores son los que se utilizan en
estadística como varianza y desviación típica de la población de donde
proceden los datos. Si estuviéramos interesados en calcular la varianza y la
desviación típica de la muestra tendríamos que hacer los siguientes cálculos:

145
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

O también:

Utilizando tablas estadísticas podría determinarse si la asimetría y el exceso


teóricos son cero o no, esto es, si la población de la que proceden los datos es
simétrica o no, o si es mesocúrtica o no; no obstante, como tenemos el error típico
de asimetría y de curtosis podemos resolver esta cuestión de manera aproximada.
Para ello basta comprobar si los valores obtenidos para el coeficiente de asimetría
y de curtosis están dentro de los límites de ±2·error típico, en cuyo caso se
considera que la asimetría o el exceso no son significativos. En nuestro ejemplo
tenemos un coeficiente de asimetría de 1’520 y un error típico de
asimetría de 0’616. Hacemos el intervalo ±2·0’616 es decir, de –1’232 a 1’232,
y como el coeficiente de asimetría muestral 1’520 está fuera de esos límites
podemos decir que los datos proceden de una población con asimetría positiva.
Si el coeficiente perteneciese al intervalo, se diría que los datos proceden de una
población simétrica y, si el coeficiente no perteneciese al intervalo pero fuese
negativo, se diría que los datos proceden de una población con asimetría nega-
tiva. La misma operación se hace con el error típico de curtosis. se construye el
intervalo ±2·1’191 = ±2’382 y se estudia si el coeficiente de la curtosis muestral
pertenece al intervalo, como en este caso el valor 1’172 se encuentra entre esos
límites podemos decir que la población de la que proceden los datos se puede
considerar mesocúrtica; si no estuviera entre esos límites y fuera positivo entonces
la población de la que proceden los datos sería leptocúrtica y, si fuera negativo,
platicúrtica.

3. TIPOS DE MUESTREO
Siempre que nos disponemos a hacer cualquier estudio o investigación nece-
sitamos partir de una población o colección de elementos de los que deseamos
hacer alguna inferencia (ej.: censo electoral en una comunidad). Como casi siempre
es imposible estudiar todos los individuos de la población deberemos tomar una

146
Estadística - Capítulo 8

muestra, o subconjunto de elementos de la población (ej.: cierto número de


votantes); para ello utilizamos el Muestreo Estadístico.

Una muestra es una parte representativa de la población que nos interesa


conocer, a veces con especial referencia a ciertos atributos o características que
consideramos como variables. El procedimiento de selección y obtención de
muestras se denomina muestreo.

La población a su vez está formada por unidades de muestreo. Estas unidades


deben cumplir la propiedad de que deben cubrir la población completa y poder
ser seleccionadas para formar parte de la muestra. Cada elemento de la muestra
es una observación (ej.: cada votante seleccionado en la muestra).

Si todos los individuos o unidades de muestreo tienen la misma probabilidad


de ser seleccionados se dice que el Muestreo es robabilístico. Si los individuos
son seleccionados a juicio del investigadory no tienen todos la misma probabili-
dad de ser elegidos el Muestreo se denomina Determinístico o No Probabilístico.

Es conveniente que a partir del problema que es objeto de investigación, se


considere con qué extensión pueden ser extrapolados los resultados a la población
de interés y a otras poblaciones semejantes, para precisar en función de las
características del problema, si es conveniente ampliar el universo y por lo tanto,
la investigación. En ocasiones esto tal vez se pueda realizar si ampliamos ligeramen-
te la muestra.

Una vez que se ha precisado la magnitud de la población o, si ésta no se


puede conocer, se ha establecido el número de sujetos que participarán en la
investigación como fuente de información, estos constituirán la muestra que
proporcionará los atributos y las dimensiones que van a ser extrapolados a la
población total.

Con las técnicas de muestreo de lo que se trata es de tener muestras menores


con un mayor nivel de precisión. La cantidad de información obtenida en la
muestra depende del número de elementos muestreados y de la cantidad de
variación o varianza de los datos. Este último factor se puede controlar por el
método de selección de la muestra. El problema está en que la cantidad de infor-
mación cuesta dinero. Lo que hemos de saber es “cuánta información se ha de
comprar” de manera que podamos concluir con buenos resultados.

147
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

La primera dificultad que se nos plantea es decidir cuál es el tamaño de


muestra que necesitamos para nuestro estudio. En todas las ocasiones la elección
buena o mala de la muestra nos va influir en nuestros resultados. Hemos de
señalar que una muestra por ser mayor o menor no tiene que dar mejores o
peores resultados, respectivamente. La muestra ha de tener el tamaño necesario
para que trabajemos con un cierto error probabilístico.

La mala elección de la muestra produce un error a la hora de obtener resul-


tados, pero no es la única forma de obtener errores. Otra fuente potencial de
error en el muestreo, especialmente en las encuestas de opinión pública, son las
respuestas sesgadas. Cuestionarios mal redactados o técnicas de entrevista
inadecuadas pueden dar lugar a respuestas que no reflejen las opiniones verda-
deras. La investigación efectuada por Kinsey acerca de los hábitos sexuales, por
ejemplo, fue muy criticada por publicar respuestas relativas a cuestiones acerca
de las cuales es muy reservada la mayor parte de la gente; tales respuestas
pueden estar, sin duda, muy alejadas de la realidad.

Estos tipos de errores se llaman errores no muestrales; incluyen todo tipo de


“errores humanos”: equivocaciones en la recopilación de datos, análisis o publi-
cación de los mismos, muestreo de una población inadecuada y respuestas ses-
gadas. Si un investigador suma incorrectamente una columna de números, ello
representa un error no muestral, tal como también lo es que la persona encues-
tada no proporcione una información veraz sobre lo que se indica en el cuestio-
nario.

Por otra parte, aun cuando se trate de muestras bien diseñadas y bien ejecu-
tadas, habrá casos en que la muestra no represente de manera adecuada a la
población en estudio, simplemente porque sólo represente a una parte de esa
población. En tales casos la información contenida en la muestra puede dar lugar
a inferencias incorrectas acerca de la población madre, es decir, puede cometerse
un error al estimar las características de la población sobre la base de la infor-
mación muestral. Los errores de esta naturaleza, que representan las diferencias
que pueden existir entre un estadístico muestral y el parámetro poblacional que
se está estimando, reciben el nombre de errores muestrales. Obviamente tales
errores pueden presentarse en todos los procedimientos de recogida de datos,
excepto en un estudio completo de la población, esto es, en un censo.

148
Estadística - Capítulo 8

sorteo, extraer papeletas de una urna, etc. El método tradicional era la tabla de
números aleatorios, que prácticamente ha quedado en desuso al sustituirse por
el ordenador personal. Muchos son los programas de cálculo o estadísticos que
nos permiten obtener números aleatorios (EXCEL, SPSS, STATGRAPHICS,
STATVIEW).

Supongamos que tenemos una población de 10.000 individuos de los que


queremos extraer aleatoriamente 10; con SPSS utilizando la función UNI-
FORM(máx) dentro del menú Transformar  Calcular … y con 10 datos creados,
podemos generar 10 números entre 0 y un máximo. Si queremos que el 0 no
entre, bastará con sumar 1 a la función y poner como máximo 9.999; es decir,
1+UNIFORM(9999). Los números obtenidos tienen decimales por lo que habrá
que definir la variable como entera o con 0 decimales. En este caso obtendremos,
por ejemplo, ordenando de menor a mayor: 1356, 2721, 3237, 3522, 4661, 5008,
5290, 6886, 7645 y 9961.

4. ESTIMACIÓN PUNTUAL DE MEDIAS, VARIANZAS Y


PROPORCIONES
Los estadísticos utilizados para estimar los parámetros poblacionales reci-
ben el nombre de estimadores, en tanto que los valores específicos que toman
se llaman estimaciones de los parámetros poblacionales. Así, los estadísticos X
y Sc2 son estimadores de los parámetros poblacionales m y s2; un valor especí-
fico de X tal como X = 170 cm es una estimación de m, del mismo modo que el
valor específico Sc2 = 100 cm2 es una estimación de s2. La estimación de un
parámetro poblacional no es siempre un valor único, ya que también es posible
que dicha estimación esté constituida por un conjunto de valores.

Las estimaciones que especifican un único valor para el parámetro poblacio-


nal se llaman estimaciones puntuales, mientras que las que especifican un reco-
rrido de valores se denominan estimaciones por intervalos.

Una estimación puntual de la proporción de drogadictos que trafican con


cocaína podría ser p = 30%, una estimación por intervalo especifica un conjunto
de valores, digamos del 21% al 39%, lo que indica que creemos que la verdadera
proporción está incluida en ese intervalo

149
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Si conocemos alguna característica de la población objeto de estudio


también podemos efectuar distintos tipos de muestreo. Ya hemos comentado
anteriormente que se pueden distinguir dos tipos: probabilísticos y no probabi-
lísticos.

Dentro de los Muestreos Probabilísticos tenemos:

· Aleatorio Simple: los elementos de la muestra se obtienen al azar


mediante un sorteo de las unidades de muestreo.

· Estratificado: cuando la población es heterogénea se puede dividir en


grupos o estratos homogéneos dentro de sí. En cada uno de estos estratos
se toma una muestra aleatoria. Si dentro de cada estrato se toma una
muestra de tamaño proporcional al del estrato se dice que se trata de un
muestreo estratificado con afijación proporcional.

· Sistemático: se parte de una población numerada. Se sortea un número


de inicio y a partir de él se cuentan de k en k (período).

· Por Conglomerados: la población se divide en subconjuntos o conglo-


merados con las mismas propiedades de la población. Se elige una muestra
de conglomerados y en cada uno de ellos se estudian la totalidad o una
muestra de los elementos que los forman.

· Polietápicos: se realizan en distintas etapas. Se puede hacer, por ejemplo,


un muestreo inicial y, según los resultados, tomar sucesivas muestras.

Dentro de los Muestreos No Probabilísticos tenemos:

· Cuotas: la proporción que se supone en la población con respecto a


alguna característica se refleja en la muestra (ej: si en la población hay un
40% de mujeres y 60% de hombres, en una muestra de 100 habrá 40 mujeres
y 60 hombres).

· Opinático: cada unidad se elige porque el entrevistador considera que es


representativa.

El diseño de una muestra con igual probabilidad de elección para cada uno
de los elementos de la población requiere el uso de procedimientos muestrales
cuidadosamente controlados. El procedimiento corriente consiste en efectuar un

150
Estadística - Capítulo 8

a) Estimación Puntual de Medias


Supongamos que tenemos una población con media m y varianza σ2, que en
general serán desconocidas. Para estimar la media poblacional puntualmente m
se utiliza la media X de una muestra aleatoria de tamaño n. La estimación µ de
la media poblacional se denota por µ:

(8.4.1)

Supongamos que una población consta de cuatro elementos {1, 2, 3, 4} y


que se va a observar sobre ellos la media. La media de la población es:

Ejemplo 8.4.1. En esta población vamos a tomar todas las posibles muestras
de tamaño 2, con reposición y sin reposición, y para cada una de estas mues-
tras vamos a calcular la media, la varianza y la cuasivarianza. Los resultados
están recogidos en las siguientes tablas:

Muestreo sin reposición


Muestra X S2 Sc2
1 , 1 1,0 0,00 0,0
1 , 2 1,5 0,25 0,5
1 , 3 2,0 1,00 2,0
1 , 4 2,5 2,25 4,5
2 , 1 1,5 0,25 0,5
2 , 2 2,0 0,00 0,0
2 , 3 2,5 0,25 0,5
2 , 4 3,0 1,00 2,0
3 , 1 2,0 1,00 2,0
3 , 2 2,5 0,25 0,5
3 , 3 3,0 0,00 0,0
3 , 4 3,5 0,25 0,5
4 , 1 2,5 2,25 4,5
4 , 2 3,0 1,00 2,0
4 , 3 3,5 0,25 0,5
4 , 4 4,0 0,00 0,0
Total 40’0 10’00 20’0
Promedio 2’5 0’625 1’25

151
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Cuando el muestreo es con reposición obtenemos 16 muestras distintas con


16 medias distintas, las cuales dan 16 estimaciones para la media poblacional. Si
es sin reposición, obtenemos 12 muestras distintas que nos producen 12 estima-
ciones de la media poblacional.

Muestreo sin reposición


Muestra X S2 Sc2 ScN2

1 , 2 1,5 0,25 0,5 0,375


1 , 3 2,0 1,00 2,0 1,500
1 , 4 2,5 2,25 4,5 3,375
2 , 1 1,5 0,25 0,5 0,375
2 , 3 2,5 0,25 0,5 0,375
2 , 4 3,0 1,00 2,0 1,500
3 , 1 2,0 1,00 2,0 1,500
3 , 2 2,5 0,25 0,5 0,375
3 , 4 3,5 0,25 0,5 0,375
4 , 1 2,5 2,25 4,5 3,375
4 , 2 3,0 1,00 2,0 1,500
4 , 3 3,5 0,25 0,5 0,375
Total 40’0 10’00 20’0 15,000
Promedio 2’5 0’625 1,667 1’25

Tanto si el muestreo es aleatorio simple (con reposición) como si es sin repo-


sición vemos que el promedio de los posibles valores de X es precisamente 2’5
(valor de m). Cuando se cumple esta propiedad se dice que el estimador es
centrado; es decir, la media muestral es un estimador puntual centrado para la
media poblacional.

b) Estimación Puntual de Varianzas


Para estimar la varianza poblacional s2 se utiliza la varianza muestral S2, la
cuasivarianza muestral Sc2 o bien la cuasivarianza corregida por el tamaño N de
la población ScN2 , definidas por:

152
Estadística - Capítulo 8

(8.4.2)

(8.4.3)

(8.4.4)

Siguiendo con el ejemplo utilizado anteriormente, la varianza para la


población es:

En el caso con reposición el promedio de los 16 posibles valores de la varianza


muestral es 0’625 < 1’25 = σ2, por lo que S2 no es un estimador centrado de
σ2, y se dice que la varianza muestral S2 es un estimador sesgado, siendo su
sesgo:

b(σ2) = 0’625 – 1’25 = –0’625

En cambio, la cuasivarianza muestral Sc2 es un estimador centrado de la


varianza de la población, pues el promedio de sus 16 posibles valores es preci-
samente el valor 1’25 = σ2.

Cuando el muestreo es sin reposición vemos que ahora tanto la varianza


como la cuasivarianza de la muestra son estimadores sesgados de la varianza de
la población, el primero por defecto (pues 0’833 < 1’25) y el segundo por exce-
so (1’667 > 1’25). Se puede obtener un estimador centrado de s2 corrigiendo la
cuasivarianza por un factor que depende del tamaño de la población, su expre-
sión es la siguiente:

153
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

, en este ejemplo

donde N es el tamaño de la población. Obsérvese que si el tamaño de la pobla-


ción es grande entonces el cociente (N – 1)/N es prácticamente la unidad y en
consecuencia S 2 ≈ S 2; esto es, la cuasivarianza de la muestra será prácticamen-
cN c
te un estimador centrado de la varianza de la población si el tamaño de ésta es
grande (por ejemplo, para una población con 100 elementos ya se tiene (N – 1)/N =
= 99/100 = 0’99 ≈ 1, y esta fracción se aproxima todavía más a 1 al aumentar N).

Por ello, cuando el muestreo es con reposición o la población es muy grande


con respecto a la muestra (f = n/N < 0’01), se considera como estimador de la
varianza de la población la cuasivarianza S 2 y si es sin reposición o la población
c
es pequeña se utiliza la cuasivarianza corregida ScN2.

La relación entre el tamaño de la muestra y el de la población, f = n/N, se


conoce como fracción de muestreo, y en la práctica se puede considerar que es
cero cuando sea menor que 0’01 = 1%, esto es, f ≈ 0 cuando f < 0’01 = 1%.

En las tablas podemos observar que X presenta una cierta variabilidad (y lo


mismo ocurre con S 2 y con S 2 , aunque sólo nos vamos a referir a la variabi-
c cN
lidad de X ). Pues bien, la varianza que presenta X es:

Muestreo con reposición:

, que se estima por (8.4.5)

Muestreo sin reposición:

, que se estima por (8.4.6)

154
Estadística - Capítulo 8

donde n es el tamaño de la muestra, N el de la población, f = n/N la fracción de


muestreo y Sc2 la cuasivarianza muestral.

Si la fracción de muestreo es pequeña, f = n/N < 0’01, entonces tanto 1 – f


como 1 – 1/N son prácticamente la unidad y coinciden las fórmulas recogidas en
el muestreo con y sin reposición.

“Cuando la fracción de muestreo es menor del 1% el muestreo sin reposición


se puede tratar en la práctica como si fuera un muestreo con reposición”.

La raíz cuadrada de Sc2/n , esto es Sc / √n , recibe el nombre de error típico


o estándar de la media y es una medida de la variabilidad que pueden presentar
las medias de las posibles muestras de tamaño n.

Ejercicio 8.4.1. En Madrid capital hay 19 Brigadas de Seguridad Ciudadana


(Arganzuela, Buenavista, Carabanchel, etc.), de las que para hacer un estudio
piloto se han elegido 5 de ellas, al azar y distintas (Carabanchel, Chamberí, La
Latina, Universidad y Ventas, por ejemplo), observándose que durante el mes de
junio de un determinado año se han esclarecido 70 hechos en la primera, 212 en
la segunda, 111 en la tercera, 190 en la cuarta y 109 en la quinta. Estímese el
número medio de hechos esclarecidos en el mes de junio de 1995 por las
Brigadas de Seguridad Ciudadana de las unidades de distrito de Madrid, así
como la varianza de la población, y la varianza y el error estándar de la media.

Solución: En este caso tenemos una población de tamaño N = 19 de la que hemos


seleccionado una muestra aleatoria sin reposición de tamaño n = 5, la fracción de
muestreo es f = 5/19 = 0’2632 > 0’01, superior al 1%, por lo que deberemos tener
en cuenta el valor de N. Tratando los 5 datos con el módulo de estadística descrip-
tiva de SPSS se obtiene la salida siguiente:

155
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Tenemos la siguiente estimación de la media: µ = X = 138’40 hechos esclare-


cidos por brigada.

El error típico o estándar de la media lo da la propia salida del programa y


vale: Sc /√n = Error típ. de la media = 26’808.

Por otro lado, como Sc2 = Varianza = 3593’300 (en la mayoría de los programas
estadísticos lo que llama varianza es en realidad la Cuasivarianza y lo que llama
desviación típica o estándar es en realidad la cuasidesviación típica), el muestreo
es sin reposición y la fracción del muestreo mayor del 1%, deberemos utilizar
para estimar la varianza de la población (de las 19 brigadas):

y la varianza de la media muestral se estima por:

cuya raíz cuadrada es 23’012, ligeramente inferior al error estándar de la media


ya que la fracción de muestreo no es despreciable.

c) Estimación Puntual de una Proporción


Para estimar la proporción p de casos de una población que poseen una
determinada característica se toma una muestra aleatoria (con reposición o sin
reposición) y se estima p por la proporción de casos en la muestra que poseen
dicha característica:

156
Estadística - Capítulo 8

este estimador de p es centrado (la media de todas las proporciones en las


distintas muestras coincide con la proporción poblacional), tanto para un muestreo
con reposición como sin reposición, y posee la siguiente varianza:

Muestreo con reposición

, que se estima por (8.4.7)

Muestreo sin reposición

, que se estima por (1 -f ) (8.4.8)

donde son las proporciones complementarias expresados


en tanto por uno, y f = n/N es la fracción de muestreo. Obsérvese nuevamente
que en el caso en que la fracción de muestreo sea pequeña, f < 0’01 = 1%, tanto
1 – f como el cociente (N- n)/(N - 1) serán números próximos a la unidad,
y en consecuencia las expresiones dadas para muestreo con y sin reposición
coinciden.

Ejercicio 8.4.2. Si en una muestra de 100 drogadictos se observa que hay


30 que han traficado con cocaína, ¿qué proporción de drogadictos en todo el
país trafican con ella?, ¿qué desviación típica tiene la estimación?.

Solución: Tanto que la muestra haya sido obtenida con reposición como sin repo-
sición, e independientemente del tamaño N que tenga el colectivo de todos los
drogadictos que hay en el país, la proporción p de los que trafican con cocaína se
estima por medio de la proporción que hay en la muestra, es decir:

p = 30/100 = 0’30 = 30%

157
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

La muestra tiene un tamaño n = 100, entonces, si suponemos que la población de


drogadictos en todo el país es superior a 100n, esto es, N > 10.000, entonces la
fracción de muestreo será pequeña, f < 100/10.000 = 0’01, y no necesitaremos
tener en cuenta el tipo de muestreo ni el tamaño real del colectivo de drogadictos,
pudiendo aplicar las fórmulas relativas al muestreo con reposición:

y en consecuencia la desviación típica que tiene la estimación p se estima por:

esto es, la proporción de drogadictos que trafican con cocaína puede estimarse en
un 30%, y esta proporción tiene una variabilidad de muestreo que puede quedar
cuantificada por medio de una desviación típica de 4’61%.

Ejercicio 8.4.3. En un colectivo de 2358 jóvenes de una comarca española,


con edades comprendidas entre los 15 a 20 años, se ha pasado una encuesta a
190 de ellos, y 9 de los encuestados han respondido afirmativamente al hecho
de haber consumido anfetaminas en los últimos 6 meses; ¿cuál es la proporción
estimada?, ¿qué desviación típica tiene?.

Solución: La proporción estimada es la de la muestra:

p = 9/190 = 0’04737 = 4’74%

y como la fracción de muestreo f = 190/2358 = 0’080577 > 0’01 es superior al 1%,


tendremos en cuenta el tamaño del colectivo para estimar la variabilidad muestral de p:

158
Estadística - Capítulo 8

y, en consecuencia, la desviación típica de p se estima por:

5. INTERVALO DE CONFIANZA PARA UNA MEDIA


A la hora de estimar un parámetro de una población, hemos comentado ya
que, lo podemos hacer dando un valor único (estimación puntual) o un rango de
valores (estimación por intervalos). En este apartado y en el siguiente vamos a
tratar la estimación por un intervalo de valores, primero para una media y luego
para una proporción.

Un intervalo de confianza para la media m (desconocida) de una población


va a ser el intervalo dado por dos valores µi y µS, denominados extremo inferior
y superior del intervalo, construidos a partir de las observaciones muestrales y que
tengan la propiedad de que entre ellos se contenga a la verdadera media con una
probabilidad alta, denominada coeficiente de confianza, que ha sido fijada de
antemano (en la práctica se suele tomar un 95% o un 99%).

Esto es, si el coeficiente de confianza se fija en un 95%, por ejemplo, enton-


ces los valores mI y mS, que dependen de las observaciones muestrales, deben
verificar que:

Obsérvese que m es desconocido pero fijo, y que tanto µI como µS son


cantidades aleatorias, pues dependen de las observaciones muestrales, pero que
tomarán valores conocidos tan pronto como hayamos seleccionado una muestra.

Recordemos que una distribución de probabilidad normal con media µ y


desviación típica σ, sean las que sean, tiene la propiedad de que entre la media
menos dos desviaciones típicas y la media mas dos desviaciones típicas se
encuentra el 95’44% de los valores (vea la figura siguiente), y entre la media más

159
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

o menos tres desviaciones típicas se encuentra el 99’73% de los valores; el 95%


de los valores se encuentra en el intervalo µ ± 1’96σ, y para un 99% de probabi-
lidad dicho intervalo es µ ± 2’576σ.

Fig. 8.5.1: Probabilidades en una distribución normal

a) Intervalo para la media cuando la varianza σ2 es conocida


Supongamos que hemos tomado una muestra aleatoria simple de tamaño n.
La media muestral X tiene un valor medio que es precisamente m y una varianza
que vale σ2/√n. Además, otra propiedad que tiene la distribución normal es que
la media también es normal; es decir, la distribución de probabilidad de X es una
normal con media m y desviación típica σ n, en consecuencia, si fijamos un
coeficiente de confianza del 95% podemos asegurar que se cumple lo siguiente:

esto es, la desigualdad:

(8.5.1)

se cumple en un 95% de las veces. Si ahora despejamos m en ambas


desigualdades resulta que:

160
Estadística - Capítulo 8

(8.5.2.)

En otras palabras:

(8.5.3)

es un intervalo de confianza para µ con un coeficiente de confianza del 95%. Si


hubiésemos querido un intervalo con una confianza del 99% en vez del 95%,
entonces habría que haber sustituido el 1’96 por 2’576. En general el intervalo
de confianza para la media m de una población normal cuya desviación típica σ
sea conocida es:

(8.5.4)

donde el coeficiente z depende del grado de confianza con que se trabaje; sus
valores son los siguientes:

Grado de Confianza 90% 95% 99% 99’9%

Coeficiente z 1’645 1’96 2’576 3’291

Tabla 8.5.1: Coeficientes z para intervalos de confianza

b) Intervalo para la media cuando la varianza σ2 es desconocida


La situación más común en la práctica es aquélla en que la desviación típica
s sea desconocida, y, por tanto, que haya que estimarla.

Por el apartado 4 sabemos que la varianza de X se estima por Sc2/n , por lo


que su desviación típica es Sc/√n ; es decir, el error estándar de la media. Este
valor es el que se lleva a la expresión del intervalo del apartado anterior, pero
ahora, el coeficiente z hay que sustituirlo por otro que depende no sólo del grado
de confianza sino también del tamaño de la muestra, quedando un intervalo de
confianza de la forma:

161
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

donde el valor exacto de t hay que calcularlo con una distribución de probabili-
dad denominada t de Student, que tiene una forma muy parecida a la de una
normal, y considerando unos grados de libertad igual al tamaño de muestra
menos uno (g = n – 1). En la siguiente tabla 8.5.2 damos los valores de t para
distintos grados de libertad y tres grados de confianza (90, 95 y 99%). Obsérvese
que a medida que aumenta el tamaño de la muestra aumentarán los grados de
libertad y que entonces los valores de los coeficientes t se aproximan hacia unos
valores límites (n = ∞) que son precisamente los coeficientes z anteriores, obtenidos
para el caso en que la varianza es conocida. También conviene observar que
cuando el coeficiente de confianza es del 95% entonces los valores de t están por
lo general muy próximos a 2, por lo que muchas veces se suele trabajar con un
intervalo de confianza de la forma:

(8.5.6)

que tiene un grado de confianza del 95% aproximadamente. El valor t Sc /√n se


suele denominar error de muestreo en la estimación de la media, y al valor
2Sc /√n; esto es, a dos veces el error estándar de la media, se le suele llamar límite
de error, y representa aproximadamente el error de muestreo que se comete
cuando se trabaja con un grado de confianza del 95%.

En muchas ocasiones la muestra no es aleatoria simple, como ocurre con el


muestreo sin reposición, y la población de partida no es normal, no obstante la
distribución de X es aproximadamente normal con media m y una cierta varianza
que se estima con las observaciones muestrales; en estos casos se toma un
intervalo de confianza aproximado, de modo que:

(8.5.6)

162
Estadística - Capítulo 8

Tabla 8.5.2: Cuantiles de la distribución t de Student

163
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Ejercicio 8.4.1. Con los datos del ejercicio 8.4.1 podemos construir el
siguiente intervalo de confianza del 95% para el número medio de hechos esclare-
cidos por las 19 Brigadas de Seguridad Ciudadana de Madrid:

N = tamaño de la población = 19

n = tamaño de la muestra = 5

f = fracción de muestreo = n/N = 5/19

X = media muestral = 138’40

Sc /√n = error estándar de la media = 26’808

t = coeficiente para un 95% = 2’7764

En consecuencia:

así pues, con una confianza del 95% se puede estimar que el número medio de
hechos esclarecidos por las 19 Brigadas de Seguridad Ciudadana estará
comprendido entre 74’51 y 202’29. El error de estimación en la media es de
63’89, valor que es grande debido a que se ha utilizado una muestra muy peque-
ña (5 valores).

Esta claro que el intervalo de confianza nos sirve para verificar ciertas hipó-
tesis de magnitudes de parámetros; es decir, en el ejemplo anterior podríamos
aceptar como válido para el número de hechos esclarecidos el valor de 77 o 150,
pero no serían válidos ni 300, ni 60, por ejemplo. Si el valor hipotético cae
dentro del intervalo la hipótesis planteada es aceptable, si queda fuera, la hipótesis
planteada es rechazada. En otro tema veremos estos tipos de problemas de deci-
sión conocidos como contrastes de hipótesis.

164
Estadística - Capítulo 8

6. INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN

a) Determinación del intervalo


La construcción del intervalo es similar a la de la media. Se parte del hecho
de que el estimador de p, p̂, es centrado (la media de todas las proporciones en
las posibles muestras de una población es p, la proporción de la población) y
tiene una distribución aproximadamente normal, tanto si el muestreo es con
reposición como si es sin reposición, y su varianza vale:

Con reposición: (8.6.1)

Sin reposición: (8.6.2)

y la desviación típica ´de p , σ( p ), vendrá dada por la raíz cuadrada de las expre-
siones anteriores; por lo tanto, teniendo en cuenta las propiedades de la distri-
bución normal, dado un coeficiente o grado de confianza g (del 90%, 95%, 99%,
etc.) podemos encontrar un coeficiente z (vea la tabla 8.5.1) que verifica que:

Esto es, las desigualdades:

se cumplen con una probabilidad aproximadamente igual a g (grado de


confianza fijado). Si ahora despejamos p (como se hizo para la media) obtenemos:

es decir: (8.6.3)

y, por tanto, según que el muestreo sea con o sin reposición,

165
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Con reposición

Sin reposición

(8.6.4)

En las fórmulas anteriores el valor de la fracción de muestreo f tiene que


expresarse en tanto por uno, pero los valores de p, p̂ y q , pueden estar los tres
en tanto por uno o los tres en tanto por cien.

Ejercicio 8.6.1. Con los datos del ejercicio 8.4.2, y con un grado de confianza
del 95%, podemos afirmar que la proporción p de los drogadictos que trafican con
cocaína se puede estimar en:

esto es, entre un 20’97% y un 39’03%; para ese grado de confianza el error de
muestreo para esa proporción es de ±9’03%.

Ejercicio 8.6.2. Con los datos del ejercicio 4.3, y con un grado de confianza
del 95%, encontramos que la proporción de jóvenes que han consumido anfetami-
nas en los últimos 6 meses se puede estimar en:

esto es, entre un 1’84% y un 7’64%; el error de muestreo para ese grado de
confianza es de ±2’90%.

166
Estadística - Capítulo 8

b) Cálculo del tamaño de muestra

Por la relación , tenemos que vemos que el error de

muestreo para un valor p de la proporción es:

(8.6.5)

por lo que si fijamos el error de muestreo e, el tamaño N de la población, y cono-


cemos p (al menos de modo aproximado) podemos calcular el tamaño de la
muestra sin más que despejar n de la relación anterior, quedando una expresión
de la forma:

(8.6.6)
siendo

n∞ es el tamaño de muestra cuando la población es muy grande (teóricamente


cuando N  ∞, y en la práctica cuando N > 100n, o bien f < 0’01) o bien cuando
el muestreo es con reposición. El coeficiente z se calcula con ayuda de la tabla
8.5.1. y depende del grado de confianza, y para un grado de confianza habitual
del 95% su valor es z = 1’96. Los valores de p, q y e tienen que expresarse los
tres en tanto por uno o los tres en tanto por cien, y cuando no se tiene un valor
aproximado de p se supone que p = q = 0’5 = 50%, que es el cuando el producto
p q toma el mayor valor posible; en ese caso, también el valor de n será el mayor
posible, es decir, será cuando se dé el caso más desfavorable. Cualquier aproxi-
mación de p dará un valor menor para el tamaño de muestra necesario n, que
conviene tomar redondeado por exceso. Así pues:

Si p, q y e en tanto por uno


(8.6.7)

Si p, q y e en tanto por cien

167
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Ejercicio 8.4.1. ¿Qué tamaño de muestra deberíamos tomar en el ejercicio


8.4.3 para tener un error de muestreo de ±1%, con un grado de confianza del
95%, si de antemano supiéramos que la proporción buscada era un valor próxi-
mo al 5%?, ¿y si no supiéramos nada sobre p?

Solución. Para ambos casos tenemos e = 1% y z = 1’96. Para la primera


situación tomamos p = 0’05 = 5% y q la proporción complementaria q = 1
– p = 0’95 = 95%, con lo cual, trabajando con porcentajes tenemos:

y como el tamaño de la población es N = 2358 (f > 0’01) corregimos el


resultado anterior y obtenemos:

es decir, habría que tomar una muestra sin reposición de n = 1029 jóvenes.

En el caso de que no tuviéramos ninguna idea sobre el valor de p nos colo-


caríamos en la situación más desfavorable, que es aquélla en que p = q =
1/2 = 50%, con lo cual:

y al corregir el resultado anterior teniendo en cuenta el tamaño de la


población, N = 2358, obtenemos:

es decir, habría que tomar una muestra sin reposición de 1894 jóvenes;
obsérvese que en ambos casos hemos redondeado por exceso el tamaño
final de la muestra.

168
Estadística - Capítulo 8

c) Interpretación de la ficha técnica de un sondeo


Cuando se publica un sondeo o una encuesta se da un resumen, denominado
ficha técnica, en el que se recogen datos sobre la empresa que ha realizado el
sondeo, fechas, las características del muestreo (universo o población, tamaño
de muestra, tipo de muestreo, etc.) y valores de ciertas magnitudes como el error
de muestreo, grado de confianza, etc., que tienen por objeto el dar validez, obje-
tividad, rigor y fiabilidad a los resultados y conclusiones obtenidos.

Por ejemplo, en el CIS (Centro de Investigaciones Sociológicas) podemos


hallar una encuesta sobre el conflicto del Islote Perejil. Accediendo a la página
de Internet (http://www.cis.es) podemos encontrar su ficha técnica y en ella
pone:

En esta ficha técnica


El conflicto del islote Perejil
vemos que la población
Estudio CIS 2465, Conflicto del islote Perejil.
muestreada es la de los
Ámbito:
Toda España incluyendo las provincias insulares y mayores de edad españo-
excluyendo Ceuta y Melilla. les, excluyendo Ceuta y
Universo: Melilla. La fecha de reali-
Población española de ambos sexos de 18 años y más. zación es del 23 de julio
Tamaño de la muestra: de 2002, el responsable
1.003 entrevistas. del muestreo es el CIS, el
Error muestral: tamaño de la muestra es
Error teórico +3,2 para datos globales, intervalo de de 1.003 casos, y el error
confianza del 95,5% (dos sigmas); para P = Q, en el
supuesto de muestreo aleatorio simple. de muestreo es e =
Fecha de realización: ±3’2%. Vamos a compro-
23 de julio de 2002. bar que este error de
muestreo se refiere a
proporciones próximas al 50% y que ha sido calculado con un grado de confianza
del 95’5%. En efecto, puesto que es presumible que el tamaño de la población
sea muy grande (f = n/N < 0’01), podemos suponer que f ≈ 0 y 1/N ≈ 0, por lo
que para un grado de confianza del 95’5% (z = 2) y p = q = 50% (situación más
desfavorable en términos de error) tenemos que:

169
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Esto significa que si a una determinada cuestión hay del orden de un 50% de
respuestas en un determinado sentido, entonces la proporción en la población
estará comprendida entre el 46’8% y el 53’2% con un grado de confianza del
95’5%. Así, a la pregunta “¿Hasta qué punto cree que es importante para España
mantener unas buenas relaciones con Marruecos?” respondieron “Muy
Importante” un 32% de los encuestados, por lo que la proporción de población
que considera que es muy importante para España mantener buenas relaciones
con Marruecos se puede estimar entre un 32 – 3’2 = 28’8% y un 32 + 3’2 = 35’2%
aproximadamente.

Los límites calculados según la fórmula dan:

Obsérvese la disminución del error de muestreo al considerar la estimación


de la proporción, que se ha reducido a un 2’95%.

7. EL USO DE INTERNET EN EL CÁLCULO DE INTERVALOS DE


CONFIANZA
a) Son varias las páginas de Internet que nos prestan métodos de cálculo de
intervalos de confianza con sus programas integrados.

http://www.pdipas.us.es/v/vmanzano/programas/programas.html nos
muestra el programa estima.exe, que calcula intervalos de confianza para
medias y proporciones, y con cualquier grado de confianza.

Ejemplo 8.7.1. Una muestra aleatoria simple de tamaño 256 extraída de


una población normal de varianza 100, presenta una media muestral de 144.
Halle el intervalo de confianza del 95% para la media poblacional.

170
Estadística - Capítulo 8

Solución. Estamos ante el caso de un intervalo de confianza para una


media m con varianza conocida, σ2 = 100. Sabemos que n = 256, X = 144
y que g = 0’95. Resolviendo el problema con el programa estima.exe de la
página, hacemos:

Datos de la muestra:
Tamaño de la muestra: 256
Varianza: 100
Valor medio: 144
Datos de la población:
La población es prácticamente infinita.
Probabilidad:
Probabilidad de errar en la estimación: 0,05
Calcula.
Distancia estandarizada: 1,96 (z de la normal)
Error tipo: 0,6262 (factor del error sin la z)
Error de precisión: 1,2274 (todo el error del intervalo)
Intervalo de estimación: (142,7726 ; 145,2274)
(Pasando el ratón por encima de cada uno de los valores nos indica a qué corresponde)

b) También son varias las páginas de Internet que nos prestan métodos de
cálculo para el tamaño de la muestra:

http://www.pdipas.us.es/v/vmanzano/programas/programas.html nos
muestra el programa MAS.exe, que nos permite calcular todos los valores que
intervienen en la fórmula del cálculo del tamaño de muestra.

Ejemplo 8.7.2. a) En cierto país en el que diariamente se detienen a 1.000


personas, se sabe que aproximadamente el 7% lo son por robo con violencia.
Calcule el tamaño de una muestra necesario para que al estimar dicha propor-
ción de robos con violencia, con un nivel de confianza del 95’5%, el error de
muestreo no sobrepase el 3%. b) Suponga que no se tiene ninguna información
sobre la proporción diaria de detenidos por robos con violencia. (Suponga
también que se trata de un muestreo sin reposición).

171
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Solución. Resolviendo el problema con el MAS.exe. Para un nivel de confianza del


95% se obtiene lo siguiente:

a) Con p conocida:

Varianza en la población (V): p.q = 0,0651


Distancia estandarizada (Z): 2
Error de precisión (E): 0,03
Tamaño de la población (N): (finito) 1000
Dependiente: n
Calcula: Tamaño de la muestra (n): 225

b) Cuando la p es desconocida, no tenemos más que poner en “Varianza en la


población (V): p.q = 0,25”. El resultado que se obtiene es n = 527.

172
Estadística - Capítulo 8

EJERCICIOS PROPUESTOS
1. Con los datos referentes a 13 sustracciones en vehículos se ha observado
que la valoración de lo sustraído en los mismos, en euros, es de205, 335, 435,
275, 200, 415, 300, 345, 280, 415, 360, 345 y 280. Estime el valor medio de lo
sustraído en un vehículo y dé un intervalo de confianza del 95 % para dicho valor.

Soluciones. X = 322’31 euros; IC = (276’98, 367’64)

2. La siguiente tabla muestra la relación, en %, entre delitos esclarecidos y


delitos conocidos, durante cierto año, en las distintas regiones policiales:

Jefatura M B V S Bi Z Va

% Eficacia 21’16 25’64 20’03 22’19 20’01 27’52 26’23

Jefatura LC O Gr LP PM P

% Eficacia 23’47 34’55 19’74 28’92 23’18 18’80

Con esta información estime el % de eficacia nacional y halle un intervalo de


confianza del 95 % para el mismo. Comente el método de resolución, hipótesis
que ha realizado, compare el resultado con el valor real que es de 23’11% y explique
cuál sería el procedimiento exacto para llegar a él. (Nota: 21’162 + 25’642 + ...
+ 18’802 = 7.705’8454).

Soluciones. X = 23’96; IC = (21’23, 26’69), para hacerlo exactamente habría que


conocer el total de delitos esclarecidos y conocidos, y utilizar el intervalo para una
proporción

3. Durante un determinado año se tuvo conocimiento de 24.393 delitos contra


la libertad y seguridad, de los que 4.470 lo fueron por coacciones y 5.377 se
trataron de abandonos de familia. Se pide:

a) Que calcule los correspondientes términos porcentuales.

b) Que halle intervalos de confianza del 95% para esos porcentajes en un


año genérico.

Soluciones. coacciones p = 18’32%, IC = (17’84%, 18’81%); abandonos de familia


p = 22’04%; IC = (21’52%, 22’56%)

173
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

4. En la siguiente tabla se muestra parte de la evolución durante tres años


consecutivos de los robos con fuerza o intimidación en vías públicas.

Año 2000 2001 2002 TOTAL


Robos V. Pub. 34.719 37.600
Total Atracos 59.820 187.315
% sobre Total 55’363 55’142

Se pide:

a) Que complete los datos que faltan.

b) Que estime la proporción de atracos que se cometen en vías públicas.

c) Que calcule un intervalo de confianza del 95 % para dicha proporción.

Soluciones. a) Robos Vías Públicas: 33.118 y 105.437, Total Atracos: 62.963 y


64.532, % sobre Total: 58’266 y 56’289, b) 56’289% _ 56’29%; c) IC = (56’06%,
56’51%)

5. De datos de años anteriores se sabe que alrededor de un 14% de los delin-


cuentes juveniles han estado internados en establecimientos dependientes de la
jurisdicción de menores. Se desea hacer un estudio sobre la delincuencia juvenil
y se quiere que ese porcentaje tenga un error de muestreo de ±2% con un nivel
de confianza del 95 %. ¿Qué tamaño de muestra habría que tomar?

Soluciones. n = 1157

6. En un colectivo con 50.000 unidades estadísticas, ¿qué tamaño de mues-


tra habría que tomar para estimar una proporción con un error de muestreo del
4%, en condiciones desfavorables y con un grado de confianza del 95 %?

Soluciones. n = 594

7. Del total de 219 internos de un establecimiento penitenciario se han ele-


gido 15 de ellos al azar siendo sus edades las siguientes: 17, 23, 21, 30, 50, 19,
36, 26, 33, 22, 25, 39, 29, 24 y 27 años. Estime la media de las edades de los
219 internos y calcule un intervalo de confianza del 95% para dicho valor.

Soluciones. X = 28’07 años; f = 15/219, IC = (23’46, 32’68)

174
Estadística - Capítulo 8

8. De entre los años 1997 a 2001, ambos inclusive, se han elegido al azar
cinco meses y se ha contabilizado el número de homicidios (de todo tipo) que se
han cometido en cada uno de ellos, obteniéndose los valore 57, 48, 54, 53 y 47.
Estime el número medio de homicidios por mes que se han cometido durante
ese período de tiempo y calcule un intervalo de confianza del 95 % para dicho
valor medio.

Soluciones. X = 51’80; f = 5/60, IC = (46’80, 56’80)

9. El valor, en euros, de 10 cheques en descubierto ha sido de 777, 1.617,


385, 1.932, 2.191, 1.967, 609, 819, 1.337 y 1.148. Si estas diez denuncias se
consideran como una muestra del total de las que por este motivo se realizan a
lo largo de un año, ¿cuál será el valor medio de los cheques en descubierto que
se expedirán? Calcule un intervalo de confianza del 95% para dicho valor. (Nota:
el número de cheques en descubierto que se expiden en un año es de unos
5.000).

Soluciones. X = 1.278’20 euros; f = 10/5000 » 0, si se tiene en cuenta f sale IC =


(827’60, 1.728’80), y si no (827’14, 1.729’26)

10. Del total de detenciones practicadas en un año se han considerado 262


de ellas y se han clasificado en función del Cuerpo que las practicó (Policía o
Guardia Civil) y del motivo. Los resultados se muestran en la siguiente tabla
incompleta:

Detenciones Cuerpo
Total
Motivo Policía Guardia Civil Conjunto

Delito 39
Falta 13 1
Rerclamados 6 36
Otros motivos 34

Total 213 262

Se pide que complete la tabla, que calcule la proporción de detenciones


llevadas a cabo por la Guardia Civil y que construya un intervalo de confianza del
95 % para esta proporción.

175
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Soluciones. Falta: 14, Reclamados: 30, Total: 49, Delito: 136 y 175, Otros: 3 y 37;
18’70%; IC = (13’97%, 23’43%)

11. De 250 denuncias relativas a delitos económicos hay 11 de ellas que lo


han sido por timos. Estime qué porcentaje supone y halle un intervalo de
confianza del 95% para dicha proporción.

Soluciones. 4’40%; IC = (1’85%, 6’95%)

12. De los hechos denunciados a lo largo de 2002 se han seleccionado 990


de ellos y se han clasificado en función del Cuerpo ante el que se formuló la
denuncia y si se ha esclarecido o no; parte de los resultados se recogen en la
siguiente tabla:

Detenciones Cuerpo
Total
Motivo Policía Guardia Civil Conjunto

Esclarecidos 52
Denunciados 990

Eficacia 27,08% 23,94

Se pide que complete la tabla, que estime la proporción de denuncias efec-


tuadas ante la Policía, que calcule un intervalo de confianza del 95% para esa
proporción, que estime la eficacia de la Policía durante ese año y que determine
un intervalo de confianza del 95% para esta estimación. (Nota: eficacia = hechos
esclarecidos/hechos denunciados. La totalidad de hechos denunciados en 2002
fue de cerca de un millón).

Soluciones. Esclarecidos Total = 237, Policía = 185, Denunciados G. Civil = 192,


Policía = 798, Eficacia Policía = 23’18%; p = 80’61%, f ≈ 0, IC = (78’14%, 83’07%);
eficacia = 23’18%; f ≈ 0, IC = (20’25%, 26’11%)

13. ¿Qué tamaño de muestra hay que tomar para estimar una proporción con
un error de muestreo de ±3 %, en condiciones desfavorables y con un grado de
confianza del 95%?.

176
Estadística - Capítulo 8

Soluciones. n = 1.068

14. En 38 de 300 delitos contra personas se han utilizado armas blancas.


Calcule un intervalo de confianza del 95% para la proporción de veces que se
utilizan armas blancas en estos tipos de delitos, a lo largo de un año. (Nota: el
número total de delitos contra personas es de unos 15.000 al año.

Soluciones. p = 12’67%, f = 0’02, IC = (8’93%, 16’40%)

15. En un colectivo de población reclusa hay un total de 21.942 internos, de


los cuales 19.618 son de nacionalidad española, 2.198 son extranjeros varones
y un hay un total de 709 mujeres. Clasifique esa población reclusa por sexo y
nacionalidad, mostrando los resultados por medio de una tabla de doble entrada.
De ese colectivo se desea tomar una muestra de forma que se puedan estimar
proporciones con un error de muestreo de ±3 %, en condiciones desfavorables y
con un grado de confianza del 95 %; calcule el tamaño de muestra necesario y
estratifique esa muestra de modo proporcional a los factores sexo y nacionalidad.

Soluciones. extranjeros = 2.324, mujeres extranjeras = 126, mujeres españolas =


583, total hombres = 21.233, hombres españoles = 19.035; n = 1.018, de los que
883 son hombres españoles, 27 son mujeres españolas, 102 son hombres extran-
jeros y 6 son mujeres extranjeras

16. La valoración, en euros, de lo sustraído por el método del tirón en 15


casos denunciados ha sido de 658, 693, 602, 707, 749, 539, 749, 672, 728,
973, 483, 672, 728, 756 y 791. Calcule un intervalo de confianza del 95% para
el valor medio de los efectos sustraídos por este procedimiento.

Soluciones. µ = 700 ± 62’51, entre 637’49 y 762’51 euros

17. De los 777.953 delitos contra la propiedad que se denunciaron en un


año, se han seleccionado, al azar y sin reposición, 500 de tales denuncias y se
han clasificado según su tipo y si se esclareció o no. Los resultados se muestran
parcialmente en la siguiente tabla:

177
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Utilización
Fuerza en Violencia
Hechos ilegítima de Resto Total
las cosas personas
vehículos
29
Esclarecidos 30 11

Denunciados 55 64 500

Eficacia % 11’54 15’63

Se pide:

a) Que complete los datos que faltan en la tabla.

b) Que estime la proporción de delitos contra la propiedad con violencia a las


personas así como un intervalo de confianza del 95%.

c) Que estime el número total de delitos contra la propiedad con violencia a


las personas que hubo en ese año.

d) Que estime la eficacia en el esclarecimiento de delitos contra la propiedad


con violencia a las personas y dé un intervalo de confianza del 95 %.

e) Que estime el total de delitos contra la propiedad que fueron esclarecidos


a lo largo de ese año y dé un intervalo de confianza del 95% para ese valor.

Soluciones. a) Esclarecidos: 10 y 80, Denunciados: 260 y 121, Eficacia: 20%,


23’97% y 16%; b) f ≈ 0, 11% ± 2’75%; c) 85.575; d) f ≈ 0, 20% ± 10’67%; e) f ≈ 0,
124.472 (el 16%), entre 99.422 (el 12’78%) y 149.523 (el 19’22%)

178
Capítulo 9
GRÁFICOS DE CONTROL
Estadística - Capítulo 9

1. INTRODUCCIÓN
Cuando se estudia la evolución de una determinada magnitud a lo largo del
tiempo puede observarse que la misma posee una tendencia (creciente o decre-
ciente), también puede presentar unas fluctuaciones de tipo periódico, etc., pero
lo que más nos interesa para este capítulo es el poder determinar aquellas situacio-
nes en que la magnitud o variable objeto de estudio se encuentra en una situación
tal que pueda afirmarse que el valor medio de la misma permanece constante a
lo largo del tiempo y que lo mismo ocurre con su varianza, esto es, con las fluc-
tuaciones alrededor de su media. Esta situación o régimen, que podríamos
denominar estacionario o estable, es importante poderlo detectar porque
estimando sus parámetros estadísticos (media, varianza, etc.) podemos conocer
su comportamiento futuro y, en consecuencia, hacer predicciones y previsiones
sobre cuestiones relacionadas con el mismo. En otras ocasiones es posible
actuar en el entorno que influye sobre los valores de dicha magnitud y, en
consecuencia, podremos influir en su comportamiento, logrando así modificar
su tendencia o alterar su valor medio o variabilidad.

La principal ayuda estadística para estos trabajos son los gráficos de control
y sus modificaciones particulares. Los Gráficos de Control son herramientas que
se usan fundamentalmente para el análisis de datos, ya sean cualitativos o cuan-
titativos, los cuales han sido generados en un determinado período de tiempo.
Estos procedimientos fueron desarrollados inicialmente por el Dr. Walter A.
Shewhart, de la Bell Telephone Laboratories, en 1924, quien sugirió que los
gráficos de control podían cumplir tres funciones básicas:

I. Definir una meta para una operación.

II. Ayudar a obtener esa meta.

III. Determinar si la meta ha sido alcanzada o no.

Aun cuando universalmente se acepta y usa el término de gráfico de control,


en realidad dicho gráfico no controla cosa alguna, sino simplemente suministra
una información básica para la acción, por lo que sólo es eficaz si los responsa-
bles de las decisiones actúan a partir de la información facilitada.

181
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Un gráfico de control es una herramienta estadística utilizada para evaluar la


estabilidad de un proceso. Permite distinguir entre las causas de variación. Todo
proceso tendrá variaciones, pudiendo éstas agruparse en:

· Causas aleatorias de variación. Son causas desconocidas y con poca


significación, debidas al azar y presentes en todo proceso.

· Causas específicas (imputables o asignables). Normalmente no deben


estar presentes en el proceso. Provocan variaciones significativas.

Las causas aleatorias son de difícil identificación y eliminación. Las causas


específicas sí pueden ser descubiertas y eliminadas, para alcanzar el objetivo de
estabilizar el proceso.

Los gráficos de control han tenido una gran difusión siendo ampliamente
utilizados en el control de procesos industriales. Sin embargo, con la reformulación
del concepto de Calidad y su extensión a las empresas de servicios y a las
unidades administrativas y auxiliares, se han convertido en métodos de control
aplicables a procesos llevados a cabo en estos ámbitos.

Existen diferentes tipos de gráficos de control:

· Por variables. Que a su vez pueden ser de media y rango, mediana


y rango, y valores medidos individuales.

· Por atributos. Del estilo aceptable/inaceptable, sí/no,...

Las ventajas y utilidades de los gráficos de control las podemos resumir en:

a) Permite distinguir entre causas aleatorias y específicas de variación de


los procesos, como guía de actuación de la dirección.

b) Los gráficos de control son útiles para vigilar la variación de un proceso


en el tiempo, probar la efectividad de las acciones de mejora emprendidas,
así como para estimar la capacidad del proceso.

c) Ayudan a la mejora de procesos, de forma que se comporten de manera


uniforme y previsible para una mayor calidad, menores costes y mayor
eficacia.

d) Proporcionan un lenguaje común para el análisis del rendimiento del


proceso.

182
Estadística - Capítulo 9

Las causas de variabilidad en un Control de Calidad se dividen en:

I. Causas Asignables: Son causas que pueden ser identificadas y que


conviene descubrir y eliminar, por ejemplo, una falla de la máquina por
desgaste de una pieza, un cambio muy notorio en la calidad del plástico, etc.

II. Causas No Asignables: Son una multitud de causas no identificadas, ya


sea por falta de medios técnicos o porque no es económico hacerlo, cada
una de las cuales ejerce un pequeño efecto en la variación total.

2. LA FILOSOFÍA DE LOS GRÁFICOS DE CONTROL


La mejor manera de ilustrar el valor de una magnitud estacionaria en el tiempo
es por medio de un gráfico de control (vea la Fig. 9.2.1); el más conocido de
dichos gráficos es el de Shewhart, que se caracteriza porque en el eje de absci-
sas se representa siempre el tiempo (en horas, días, semanas, meses, años, etc.),
o alguna magnitud relacionada con él, como el orden temporal en que se han ido
tomando las distintas muestras; en el eje de ordenadas se representa la variable
que se está midiendo. En la línea central LC aparece el valor medio de la magnitud
medida, las líneas externas representan los límites superior e inferior de control
(LSC y LIC respectivamente), que ordinariamente se sitúan a tres desviaciones
típicas de la línea central. Entre estos límites se encuentra aproximadamente el
99’73% de las observaciones (vea el apartado 5 del tema anterior), y cualquier
punto que se encuentre fuera de los mismos se considera que está “fuera de
control”. Es altamente probable que los valores de estos puntos, que hemos
denominado de “fuera de control”, no sean debidos al azar sino a causas muy
específicas que han actuado sobre la magnitud observada o su entorno y que es
conveniente determinar en cada caso.

183
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Fig. 9.2.1: Ejemplo de Gráfico de Control

En ocasiones resulta útil representar un par de líneas internas a las de control


para utilizarlas como límites de alerta, se suelen situar a ± 2 desviaciones típicas
de la media, por lo que entre ambas se encontrará aproximadamente el 95’44 %
de las observaciones (vea la Fig.8.5.1 del tema anterior). Estos límites de alerta
se utilizan para comenzar a tomar medidas preventivas, o iniciar los preparativos
necesarios para el caso en que la evolución del sistema le condujera a un estado
fuera de los límites de control. Los límites de control son, por tanto, límites de
acción, los límites de alerta son valores a partir de los cuales hay que extremar
la vigilancia del sistema y comenzar a hacer ciertos preparativos por si fuera
necesario tener que actuar sobre él o sobre su entorno.

En el gráfico de control mostrado en la figura 9.2.1 se recoge la evolución de


la relación entre los importes de las multas impuestas por los Tribunales de
Contrabando y la valoración de

los géneros decomisados como consecuencia de las actas incoadas por el


Servicio de Vigilancia Aduanera. Por término medio el valor de las multas es de
unas 4’4 veces la valoración de los comisos y se han representado los límites de
control y de alerta a ±3 y ±2 desviaciones típicas de la media. Se observa que en
los años 74 y 84 esta relación rebasa los límites de alerta (la relación es de 6’61
en el año 74 y de 7’59 en el 84), sin llegar a rebasar el límite superior de

184
Estadística - Capítulo 9

control, que está fijado en 7’62. Si se hiciera uso de los límites de alerta enton-
ces, durante los años 75 y 85, habría que haber estado preparados para poder
tomar las medidas oportunas en caso de que dicha relación sobrepasara los límites
de control, y además explicar la causa por la cual la valoración de los comisos
quedaba muy por debajo de sus valores esperados en relación con las multas
(fraude en las peritaciones, cambio de estrategia de los contrabandistas, dismi-
nución del valor real de los géneros intervenidos, endurecimiento de las sanciones,
cambio de legislación, etc.).

Cuando el cambio en la característica observada es paulatino a lo largo del


tiempo se detectará esta alteración por un alineamiento de los puntos; en general
8 o más puntos consecutivos por encima o debajo de la media, lo que se
denomina racha, o en orden creciente o decreciente, denominados tendencia, se
consideran indicativos de anormalidad (vea la Fig. 9.2.2), ya que la probabilidad
de que aparezcan al azar cada una de esas configuraciones es de (1/2)8, esto es,
aproximadamente de 4 entre mil.

Fig. 9.2.2: Alteraciones que indican anormalidad

Las diferencias entre turnos o en la calidad de los materiales o equipos


pueden ocasionar gráficas con periodicidad en forma de ciclos, como se refleja
en la Fig. 9.2.3.

185
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Fig. 9.2.3: Ejemplo de periodicidad

En otras ocasiones, como ocurre cuando hay diferentes materiales mezclados,


o falta de entrenamiento de las personas, o un sobreajuste de los equipos de
medida, pueden aparecer grandes fluctuaciones próximas a los límites de
control; esta situación se denomina de inestabilidad, ya que una ligera modifica-
ción del valor medio provocará una gran cantidad de observaciones anómalas,
fuera de los límites de control (vea la Fig. 9.2.4). La presencia de inestabilidad
indica un aumento en la variabilidad esperada.

Fig. 9.2.4: Ejemplo de inestabilidad

Un fenómeno contrario a la inestabilidad es la superestabilidad, que es una


disminución en la variabilidad esperada. Es importante identificar esta situación,

186
Estadística - Capítulo 9

ya que el análisis de las causas que la producen supone una oportunidad para
reducir la variabilidad del proceso. Para identificar este estado conviene situar en
el gráfico dos líneas a cada lado de la línea central que dividan al intervalo de
control en 6 partes iguales, para lo cual se trazan a una y dos desviaciones típi-
cas; en condiciones de normalidad el 68% de los puntos deberían estar entre las
dos líneas centrales y el 32% entre las siguientes (vea la Fig. 9.2.5). El encontrar
16 puntos consecutivos entre las líneas que están a una desviación típica de la
media se puede considerar como presencia de superestabilidad. Una acumula-
ción de puntos en esta zona central indica que los límites de control están mal
calculados, que se han tomado incorrectamente los datos o que se ha producido un
cambio positivo temporal en el proceso; en cualquier caso conviene investigar la
causa.

Fig. 9.2.5: Ejemplo de superestabilidad

El enfoque tradicional de los gráficos de control se ha centrado en asegurar


que la magnitud observada se encuentra en estado de control y, por tanto, que
su variabilidad se debe a causas aleatorias. Desde la segunda mitad de los años
60 y a raíz de la experiencia del Japón y de las enseñanzas de Box, Deming y
Jurán, entre otros, el papel central del control estadístico de la calidad (que es el
ámbito en el que comenzaron a utilizarse los gráficos de control) ha sido ocupado
por las funciones de aprendizaje y mejora de los procesos productivos. Asegurar
el estado de control es el primer paso para cualquier estudio de mejora, y fue la
motivación principal de Shewhart, cuando en los años 20 introdujo los gráficos

187
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

de control; la situación permite una adecuada planificación de las actuaciones y


establece una base para medir con rapidez, precisión y objetividad los cambios
en el sistema, ya que un proceso en ese estado tiene un funcionamiento estadís-
ticamente predecible.

Una segunda etapa es investigar las causas que producen valores fuera de
control; cuando la aparición de un punto atípico en un gráfico de control supo-
ne buscar una causa, corregir sus efectos mediante un ajuste del proceso y tomar
medidas para evitar su aparición futura, estamos utilizando los gráficos de
control para aprender sobre el proceso y mejorarlo.

De acuerdo con Jurán (1983), el 85% de los problemas de la calidad y de la


eficacia en las organizaciones dependen del proceso, debiendo ser solventados
por la dirección de la organización mediante normas, mejora de equipos y políticas
adecuadas, mientras que sólo un 15% son debidos a causas asignables a errores
humanos, fallos de controles o de equipos, etc. que pueden ser resueltos por los
propios operarios, agentes, o personas de niveles inferiores a la dirección de la
organización o empresa. Deming asegura que el 94% depende del proceso y son,
por tanto, responsabilidad de la dirección, mientras que sólo un 6% corresponden
a causas asignables a niveles más bajos. Por tanto, el objetivo de mejora
continua del proceso, modificándolo activamente y midiendo sus resultados con los
gráficos de control, resulta especialmente clave. En particular, la experiencia
muestra que los siguientes aspectos son causa de alta variabilidad en muchos
procesos:

I. Mal diseño de los objetivos.

II. Falta de atención a la formación del personal en los métodos estadísticos


básicos.

III. Mala supervisión, con estándares que inducen a errores y provocan


conflictos frecuentes entre trabajadores y supervisores.

IV. Materia prima o equipos de calidad deficiente.

V. Falta de motivación del personal para realizar un buen trabajo.

VI. Mezcla de materias primas o equipos de características de calidad


diferentes.

188
Estadística - Capítulo 9

Un tercer paso en la mejora de los procesos es el experimentar sobre ellos,


utilizando la teoría estadística del diseño de experimentos, lo que permitiría
medir los efectos de las posibles variables sobre el sistema.

Según sea el tipo de variable que se utilice se tendrá un gráfico de control u


otro, por lo que se suelen distinguir tres grandes tipos: Gráficos de control para
variables, para atributos y para el número de defectos. Aun cuando el cálculo de
los límites de control para estos tres tipos de gráficos difiere en sus detalles, el
proceso fundamental es el mismo y está basado en el cálculo de probabilidades.
Las etapas que se siguen para el proceso de construcción de un gráfico de control
son las siguientes:

I. Selección de la característica a observar.

II. Recolección de los datos tomados de cierto número de muestras, cada


una formada por un número conveniente de unidades estadísticas.

III. Determinación de los límites de control, de acuerdo con los datos


proporcionados por las muestras.

IV. Decidir si esos límites de control son económicamente satisfactorios


para el trabajo y si son muy amplios o no.

V. Trazar estos límites de control sobre una hoja de trabajo e iniciar el regis-
tro de los resultados de las muestras de un tamaño dado, seleccionadas a
determinados intervalos periódicos y conforme se vayan tomando.

VI. Tomar la acción correctiva adecuada cuando la característica de las


muestras de la producción quede fuera de los límites de control.

En algunas ocasiones, cuando se inicia el cálculo de los límites de control,


aparece el proceso fuera de control, esto es, las características de una o varias
muestras se presentan fuera de los límites de control calculados. En estos casos
se debe localizar y eliminar el motivo y repetir los pasos los pasos II y III.

3. GRÁFICO ( X , σ)
En este apartado vamos a suponer que el gráfico de control se realiza sobre
una característica medible X cuyo valor medio es µ y cuya desviación típica es σ.

189
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Si las observaciones de X son independientes y normales entonces el 95’44 % de


ellas se encontrarán dentro de los límites µ ± 2σ, y el 99’73 % dentro de los límites
µ ± 3σ. Esto nos permite trazar la línea central, los límites de control y los de
alerta en un gráfico como el que se muestra a continuación, y sobre él, a medida
que transcurra el tiempo, ir representando los valores de la magnitud X para ir
observando su evolución.

Fig. 9.3.1: Límites de control y de alerta

Es frecuente que los valores de µ y σ sean desconocidos y se estimen con


datos anteriores; si X1, X2, ..., Xn es una muestra aleatoria simple de observaciones
de X, entonces la media µ se estima, como ya sabemos, por la media de la muestra:

(9.3.1)

190
Estadística - Capítulo 9

y la desviación típica σ con la cuasidesviación típica de la muestra:

(9.3.2)

Así como la cuasivarianza muestral Sc2 es un estimador centrado de la


varianza teórica σ2, la cuasidesviación típica muestral Sc es un estimador ligeramen-
te sesgado de la desviación típica teórica σ, pero si el tamaño de la muestra es
de 20 o más el sesgo puede considerarse despreciable (por ejemplo, para n = 20
el sesgo es de un 1’3 % el valor de Sc, y tiende a disminuir a medida que aumenta
el tamaño de la muestra). Por ello, en la práctica lo que se hace es observar 20
o más datos retrospectivos de X, que se encuentren en una situación estacionaria,
y a partir de esas medidas se estima la media y desviación típica por X
y Sc respectivamente, con cuyos valores se dibujan las líneas de control y central:

Límite Superior de Control = LSC = X + 3Sc

Línea Central = LC = X

Límite Inferior de Control = LIC = X – 3Sc

Con objeto de garantizar el carácter estacionario de los datos observados X1,


X2, ..., Xn se les aplica el gráfico de control que se acaba de calcular, y se
desechan aquéllos que queden fuera de los límites de control (por considerarlos
anómalos), que formen una racha (pues durante ese período es presumible que
la media teórica µ haya tenido una fluctuación) o que presenten una tendencia
positiva o negativa (ya que en esos casos la media teórica µ está variando en el
tiempo y no permanece fija).

Con la muestra resultante se vuelve a recalcular X y Sc, así como el nuevo


gráfico de control. Una vez que la muestra retrospectiva de trabajo se encuentre
dentro de los límites de control

calculados, que no presente rachas y que tampoco muestre tendencias, se


utilizan los límites calculados con ella para representar y controlar observaciones
futuras.

191
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Ejemplo 9.3.1. Supongamos que con objeto de llevar un control sobre la


actividad realizada por una Brigada Local de Seguridad Ciudadana se contabiliza
mensualmente el cociente entre el número de detenidos y el número de funcio-
narios:

Para establecer los límites en un gráfico de control necesitamos una estima-


ción de la media y de la desviación típica en condiciones estables, para lo cual
utilizamos los datos de los 36 últimos meses (3 años), que son los que se muestran
en la tabla 9.3.1, y con ellos calculamos la media X = 1’8778 y la cuasidesviación
típica Sc = 0’2043, lo que nos conduce a la siguientes líneas de control:

Límite Superior de Control = LSC ≈ X + 3Sc = 2’491

Línea Central = LC ≈ X = 1’878

Límite Inferior de Control = LIC ≈ X – 3Sc = 1’265

cuya representación gráfica se muestra en la figura 9.3.2. EL programa SPSS


trabaja con una cuasidesviación típica corregida de ahí que los valores anteriores
los hayamos puesto aproximados.

En esta gráfica vemos que todas las observaciones se encuentran dentro de


los límites de control, pero que hay una racha de 9 valores por encima de la
media (meses 7 a 15); eso significa que durante ese período de tiempo el Grupo
de Seguridad Ciudadana ha tenido una actividad estadísticamente diferente a la
del resto de los meses, por lo que prescindimos de esos datos y volvemos a
calcular X y Sc con los datos de los 27 meses restantes (meses 1 a 6 y 16 a 36).

192
Estadística - Capítulo 9

Mes Cociente Mes Cociente Mes Cociente


1 1,40 13 1,92 25 1,76
2 1,99 14 1,99 26 1,47
3 1,72 15 2,06 27 2,21
4 1,72 16 1,79 28 1,99
5 2,11 17 1,82 29 1,86
6 1,54 18 2,26 30 1,80
7 2,02 19 1,59 31 1,73
8 2,12 20 1,66 32 1,69
9 2,01 21 1,77 33 1,97
10 2,09 22 2,12 34 1,79
11 1,96 23 1,85 35 1,81
12 1,91 24 2,03 36 2,07

Tabla 9.3.1: Detenidos/Funcionarios en 36 meses

Fig. 9.3.2: Gráfico de Control para los datos de la tabla 9.3.1

La media y desviación típica estimadas con los 27 meses restantes son ahora
X = 1’8341 y la cuasidesviación típica Sc = 0’2160, lo que nos conduce a la
siguientes líneas de control:

193
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Límite Superior de Control = LSC ≈ X + 3Sc = 2’482

Línea Central = LC ≈ X = 1’834

Límite Inferior de Control = LIC ≈ X – 3Sc = 1’186

cuya representación gráfica se muestra en la figura 9.3.3. En esta segunda etapa


vemos que las 27 observaciones se encuentran dentro de los límites de control
y que no se detectan rachas ni tendencias, con lo cual, de cara al futuro, se dejarán
las siguientes líneas de control y de alerta:

Límite Superior de Control = LSC ≈ X + 3Sc = 2’482

Límite Superior de Alerta = LSA ≈ X + 2Sc = 2’266

Línea Central = LC ≈ X = 1’834

Límite Inferior de Alerta = LIA ≈ X – 2Sc = 1’402

Límite Inferior de Control = LIC ≈ X – 3Sc = 1’186

Fig. 9.3.3: Gráfico de control en una segunda etapa del cálculo

194
Estadística - Capítulo 9

4. GRÁFICO DE PROPORCIONES
Los gráficos de control por atributos se construye a partir de la observación
de la presencia o ausencia de una determinada característica (atributo o defecto)
en cada una de las unidades, entonces se acepta o se rechaza contando cuantas
unidades tienen o no el defecto, o comprobando el número de tales eventos que
ocurren en la unidad, grupo o área, y comparando con el criterio de aceptación
establecido. Se acepta o rechaza la pieza o el lote sin asociar un valor concreto.
El atributo a controlar se suele elegir de forma que sea fácilmente observable y
por tanto económico de controlar. Los tipos de gráficos de control por atributos
que estudiaremos son:

I. Fracción de piezas defectuosas (p).

II. Nº de piezas defectuosas por muestra (np).

III. Nº de defectos por muestra (c).

IV. Nº de defectos por unidad (u)

Es frecuente que la magnitud observada y utilizada como variable de control


sea una proporción, como ejemplos podemos citar los siguientes: evolución del
porcentaje de españoles y extranjeros detenidos en España en relación con delitos
por tráfico o tenencia de estupefacientes, evolución de las proporciones de reclusos
por sexos, evolución de la proporción de penados reincidentes, evolución de
hechos esclarecidos en relación con los denunciados, etc. En todas estas situa-
ciones son útiles las representaciones gráficas, pues permiten visualizar rápidamen-
te las posibles tendencias, ciclos, situaciones extremas, estabilidad del fenómeno,
etc.

En la siguiente tabla recogemos la evolución del porcentaje de efectividad,


hechos esclarecidos dividido por hechos denunciados, en una Brigada de
Seguridad Ciudadana, durante los 36 meses correspondientes a los últimos años
2000-02; la representación gráfica de la evolución mensual de dicho porcentaje
se muestra en la figura 9.4.1.

195
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Año 2000 Año 2001


Denuncias Denuncias
Hechos % Hechos %
Mes Denun Escla Efecti Mes Denun Escla Efecti
1 320 58 18’1 1 434 91 21’0
2 351 89 25’4 2 423 100 23’6
3 343 56 16’3 3 437 110 25’2
4 332 69 20’8 4 473 122 25’8
5 303 56 18’5 5 339 122 36’0
6 363 42 11’6 6 311 70 22’5
7 554 81 14’6 7 341 67 19’6
8 486 68 14’0 8 320 74 23’1
9 405 68 16’8 9 435 124 28’5
10 310 72 23’2 10 290 73 25’2
11 386 61 15’8 11 459 85 18’5
12 395 53 13’4 12 379 97 25’6
Total 4548 773 17’0 Total 4641 1135 24’5

Año 2002
Denuncias
Hechos %
Mes Denun Escla Efecti
1 327 103 31’5
2 308 75 24’4
3 269 63 23’4
4 202 45 22’3
5 250 54 21’6
6 260 56 21’5
7 233 69 29’6
8 222 42 18’9
9 224 39 17’4
10 209 52 24’9
11 275 53 19’3
12 340 75 22’1
Total 3119 726 23’3

Tabla 9.4.1: Porcentaje de efectividad de una B.S.C.

196
Estadística - Capítulo 9

Una proporción se calcula dividiendo el número de casos que satisfacen un


cierto requisito o que tienen una determinada propiedad (hechos esclarecidos en
un mes, por ejemplo) por el total de casos manejados (hechos denunciados en
un mes):

(9.4.1)

por ejemplo, para el mes de marzo de 2001 la efectividad fue:

para el año 2000 la efectividad fue:

y para el conjunto de los tres años la efectividad fue:

vemos por tanto que para calcular la efectividad en un determinado período de


tiempo se divide el total de hechos esclarecidos en ese período por el total de
hechos denunciados durante el mismo. En general una proporción se calcula así,
dividiendo el total de casos que presentan una determinada característica por el
total de casos considerados.

197
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Fig. 9.4.1: Evolución del % de efectividad de una B.S.C.

Una proporción p que se estima por medio de la proporción muestral p,


obtenida con una muestra de tamaño n, tiene un valor esperado o medio que es
precisamente p (esto es debido a que p es un estimador centrado de p) y una
desviación típica , donde q = 1 – p; de este modo, las líneas de
control para una proporción p calculada con una muestra de tamaño n serán:

Límite Superior de Control = LSC = p + 3

Línea Central = LC = p (9.4.2)

Límite Inferior de Control = LIC = p – 3

donde podemos observar que dichos límites dependen del tamaño de la mues-
tra utilizada. Así pues, si todas las muestras son del mismo tamaño entonces los
límites de control (y los de alerta) serán fijos, pero si los tamaños muestrales
varían, como sucede en el ejemplo anterior de las efectividades mensuales del
G.S.C., resulta que dichos límites son variables. Para paliar esta situación se
suele tomar una de estas dos soluciones:

198
Estadística - Capítulo 9

I. Poner en (9.4.2) un valor de n igual a un promedio de los tamaños de


muestra utilizados; este promedio suele ser la media aritmética (sustituyendo
n por la media de los tamaños de muestra ni) o la media armónica (susti-
tuyendo 1/n por el promedio de las cantidades 1/ni). La solución así adop-
tada suele dar buenos resultados siempre que los tamaños muestrales no
sean muy dispares entre sí.

II. Utilizar una gráfica estandarizada, para lo cual se representan las mag-
nitudes Zi dadas por:

(9.4.3)

donde ni es el tamaño de muestra utilizado en el período de tiempo


i-ésimo, pi la proporción estimada en dicho período de tiempo y p la
proporción en condiciones de estabilidad. En este caso los límites de
control para los valores de Zi se establecen en ±3 y los de alerta en ±2.

Como el valor exacto de p suele ser desconocido, se estima con datos retros-
pectivos que muestren una situación estable o estacionaria, esto es, sin tenden-
cias, sin rachas y sin valores fuera de los límites de control utilizados; conviene
además que por lo menos se hayan utilizado al final de todo un total de 20 períodos
de tiempo o conjuntos de muestras en esas condiciones de estabilidad.

Ejemplo 9.4.1. Supongamos que el responsable de la B.S.C. citada al principio


de este apartado desea realizar un gráfico de control de la relación mensual
entre los hechos esclarecidos y denunciados durante el año 1997. Como el número
de hechos denunciados cada mes va a ser variable opta por un gráfico estandari-
zado, para lo cual utilizará la fórmula (9.4.3), donde el valor de p lo va a estimar
con los datos retrospectivos de los tres últimos años recogidos en la tabla 9.4.1:

199
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Con este valor de p = 0’214 se representa el gráfico de control estandarizado


correspondiente a esos tres años para comprobar si la situación estaba estabili-
zada o no, y en su caso volver a recalcular p. En la siguiente tabla tenemos los
valores estandarizados:

Año 2000 Año 2001


Denuncias Denuncias
Hechos Efectividad Hechos Efectividad
Mes Den Escl p,^ i Zi Mes Den Escl p,^ i Zi
1 320 58 0’181 –1’43 1 434 91 0’210 –0’22
2 351 89 0’254 1’81 2 423 100 0’236 1’12
3 343 56 0’163 –2’29 3 437 110 0’252 1’92
4 332 69 0’208 –0’27 4 473 122 0’258 2’33
5 303 56 0’185 –1’24 5 339 122 0’360 6’55
6 363 42 0’116 –4’57 6 311 70 0’225 0’48
7 554 81 0’146 –3’89 7 341 67 0’196 –0’79
8 486 68 0’140 –3’98 8 320 74 0’231 0’75
9 405 68 0’168 –2’26 9 435 124 0’285 3’61
10 310 72 0’232 0’78 10 290 73 0’252 1’57
11 386 61 0’158 –2’68 11 459 85 0’185 –1’51
12 395 53 0’134 –3’87 12 379 97 0’256 1’99

Año 2002
Denuncias
Hechos Efectividad
Mes Den Escl p,^ i Zi
1 327 103 0’315 4’45
2 308 75 0’244 1’26
3 269 63 0’234 0’81
4 202 45 0’223 0’30
5 250 54 0’216 0’08
6 260 56 0’215 0’05
7 233 69 0’296 3’06
8 222 42 0’189 –0’90
9 224 39 0’174 –1’46
10 209 52 0’249 1’23
11 275 53 0’193 –0’86
12 340 75 0’221 0’30

Tabla 9.4.2: Cálculo de la Efectividad Estandarizada

200
Estadística - Capítulo 9

En la representación gráfica de las efectividades estandarizadas (Fig. 9.4.2)


se observa que hay varios puntos fuera de los límites de control (junio, julio,
agosto y diciembre de 2000, mayo y septiembre de 2001, y enero y julio de
2002), así como una racha por encima de la media entre diciembre de 2001 (mes
24) y julio de 2002 (mes 31). Dejando de considerar las efectividades de estos
14 meses (meses 6, 7, 8, 12, 17, 21 y 24 a 31 en la Fig. 9.4.2), volvemos a estimar
la eficacia con los demás y obtenemos:

(9.4.4)

Con este valor de p = 0’211 volvemos a calcular las efectividades estandari-


zadas, que ahora denotamos por Z2, según la fórmula siguiente:

(9.4.5)

y cuyos valores recopilamos en la tabla 9.4.3.

Fig. 9.4.2: Efectividad estandarizada, valores Z

201
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Año 2000 Año 2001


Denuncias Denuncias
Hechos Efectividad Hechos Efectividad
Mes Den Escl p,^ i Zi Mes Den Escl p,^ i Zi
1 320 58 0’181 –1’30 1 434 91 0’210 –0’07
2 351 89 0’254 1’95 2 423 100 0’236 1’28
3 343 56 0’163 –2’17 3 437 110 0’252 2’09
4 332 69 0’208 –0’14 4 473 122 0’258 2’50
5 303 56 0’185 –1’08 5 339 122 ——— ———
6 363 42 ——— ——— 6 311 70 0’225 0’61
7 554 81 ——— ——— 7 341 67 0’196 –0’66
8 486 68 ——— ——— 8 320 74 0’231 0’89
9 405 68 0’168 –2’13 9 435 124 ——— ———
10 310 72 0’232 0’92 10 290 73 0’252 1’70
11 386 61 0’158 –2’55 11 459 85 0’185 –1’36
12 395 53 ——— ——— 12 379 97 ——— ———

Año 2000
Denuncias
Hechos Efectividad
Mes Den Escl p,^ i Zi
1 327 103 ——— ———
2 308 75 ——— ———
3 269 63 ——— ———
4 202 45 ——— ———
5 250 54 ——— ———
6 260 56 ——— ———
7 233 69 ——— ———
8 222 42 0’189 –0’80
9 224 39 0’174 –1’35
10 209 52 0’249 1’34
11 275 53 0’193 –0’74
12 340 75 0’221 0’43

Tabla 9.4.3: Efectividad Estandarizada, segundo cálculo

202
Estadística - Capítulo 9

La representación gráfica de estas efectividades estandarizadas se muestra


en la siguiente figura 9.4.3 en la que se observa que todos los valores de Z2
están dentro de los límites de control ±3, y no hay ni rachas ni tendencias signi-
ficativas. Por tanto, podemos considerar que esos 22 puntos se encuentran en
una situación estacionaria, o estable, y como su número es suficiente (mayor o
igual que 20) puede concluirse que en condiciones de estabilidad la eficacia del
Grupo de Seguridad Ciudadana considerado al principio es p = 0’2110 = 21’10 %.

De cara al futuro, años 2003 y 2004 por ejemplo, se calcularía mes a mes la
eficacia del Grupo, que denotamos por p^i, y a partir de ella el valor estandari-
zado dado por la siguiente fórmula (9.4.6):

(9.4.6)

donde ni es el número de hechos denunciados en ese mes; este valor Zi se llevaría


a una gráfica con línea central igual a cero, límites de control ±3 y de alerta ±2
(vea la figura 9.3.4). Si en el futuro se vieran varios puntos fuera de control, o
varias rachas o tendencias, convendría volver a recalcular la eficacia p del G.S.C.
por si ésta hubiera variado en el transcurso de los años.

Fig. 9.4.3: Gráfica estandarizada en una segunda etapa del proceso de cálculo de p.

203
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

5. GRÁFICO C DE NÚMERO DE CASOS


Para proporciones muy pequeñas, p < 0’02 = 2 % en la práctica (como ocurre
con algunos tipos de infracciones), resulta que el procedimiento desarrollado en
el apartado 4 (vea 9.4.2) conduce a unos límites de control de la forma:

(9.5.1)

y si multiplicamos por n la relación anterior obtenemos:

es decir: (9.5.2)

donde ĉ = n p̂ es el número de casos que en el período de tiempo considerado han


presentado la cualidad o característica controlada y c = np es su número medio
teórico en condiciones estables. En el gráfico de control correspondiente se
representará en abscisas el tiempo (i = 1, 2, 3, 4, ...) y en ordenadas los valores cˆi
correspondientes a los casos; si el límite inferior de control fuera negativo, lo
cual ocurre a veces, entonces se toma igual a cero. El valor de c puede estimarse
utilizando un promedio obtenido con datos retrospectivos.

Ejemplo 9.5.1. En una Jefatura Superior de Policía se quiere llevar un gráfico


de control sobre robos en gasolineras. Como la proporción de estos delitos en
relación con el total de robos con violencia o intimidación es pequeña (del orden
del 1%), en lugar de llevar una gráfica de dicha proporción se decide efectuar un
gráfico de control con las cifras absolutas mensuales, esto es, mes a mes se
registrarán en el gráfico de control el número de robos a gasolineras que hayan
ocurrido en su jurisdicción. Como se necesita conocer el número medio mensual
de robos se recurre a datos retrospectivos de los últimos años y resulta que no
se tiene la información mensual sino global por años, como se muestra en la
siguiente tabla:

204
Estadística - Capítulo 9

Año 1999 2000 2001 2002

Nº Robos 45 58 57 64

en consecuencia, como media mensual de c se toma el total de robos a gasoli-


neras dividido por 48 meses (48 = 4 x 12):

y situando los límites de control a y los de alerta a , obtenemos:

Lím. Sup. Control = LSC = = 11’15

Lím. Sup. Alerta = LSA = = 8’99

Línea Central = LC = c = 4’67

Lím. Inf. Alerta = LIA = = 0’35

Lím. Inf. Control = LIC = = 0 (sale negativo)

por lo que el modelo de gráfico de control podría ser como sigue:

Fig. 9.5.1: Ejemplo de gráfico de control tipo c

205
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

En este ejemplo el estar por debajo de los límites LIA o LIC, esto es, el no
tener robos en un mes puede conducir a una situación evidentemente positiva,
en el sentido de que haya disminuido ese tipo de delincuencia. El que haya 9, 10
u 11 robos en un mes puede conducir a una situación de alerta por si está incre-
mentándose mucho ese tipo de delincuencia. El tener 12 o más robos en un mes
puede conducir a tener que tomar medidas específicas para prevenir ese tipo de
delincuencia (mayor vigilancia y presencia policial en gasolineras durante los
meses siguientes, por ejemplo).

6. GRÁFICOS DE CONTROL CON SPSS


Estudiaremos los Gráficos de Control por Variables y por Atributos:

Gráficos de Control para Variables


Para construir los gráficos de control conviene tomar k muestras (al menos
20) de tamaño n (entre 2 y 6).

X-Barra, R, S

Los gráficos X-R se utilizan cuando la característica de calidad que se desea


controlar es una variable continua. Los subgrupos se realizan agrupando las
mediciones de tal modo que haya la máxima variabilidad entre subgrupos y la
mínima variabilidad dentro de cada subgrupo.

Ejemplo 4.2.1. Se quiere estudiar el tiempo de reacción de grupos de policías


frente a un suceso . Para evaluar esta situación se decide tomar 20 muestras de
5 policías a las que se mide el tiempo de reacción en segundos (Tabla 9.6.1,
S = Subgrupo, M = Individuo del subgrupo, T = Tiempo de reacción en sg.). El
gráfico de control asociado a los datos de la tabla es:

206
Estadística - Capítulo 9

Tabla 9.6.1

S M T S M T S M T
1 1 12,02 4 2 12,25 7 3 12,21
1 2 12,15 4 3 12,09 7 4 12,02
1 3 12,10 4 4 12,07 7 5 12,01
1 4 12,20 4 5 11,96 8 1 12,17
1 5 12,12 5 1 12,17 8 2 12,18
2 1 12,14 5 2 12,04 8 3 12,10
2 2 12,07 5 3 11,97 8 4 12,09
2 3 11,99 5 4 11,88 8 5 12,15
2 4 11,98 5 5 12,05 9 1 12,32
2 5 12,02 6 1 11,90 9 2 12,26
3 1 12,04 6 2 11,91 9 3 12,18
3 2 12,09 6 3 12,05 9 4 12,09
3 3 12,20 6 4 12,07 9 5 12,14
3 4 12,05 6 5 11,86 10 1 12,04
3 5 12,24 7 1 12,08 10 2 12,13
4 1 12,14 7 2 12,09 10 3 12,21

207
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

S M T S M T S M T
10 4 12,41 14 1 11,90 17 3 11,72
10 5 12,03 14 2 11,90 17 4 11,91
11 1 12,20 14 3 11,91 17 5 11,82
11 2 12,31 14 4 11,91 18 1 11,85
11 3 12,16 14 5 12,01 18 2 11,87
11 4 12,15 15 1 12,02 18 3 11,92
11 5 12,24 15 2 11,86 18 4 11,96
12 1 12,09 15 3 12,03 18 5 11,87
12 2 12,11 15 4 12,03 19 1 12,14
12 3 12,28 15 5 12,05 19 2 12,07
12 4 12,02 16 1 12,08 19 3 12,99
12 5 12,15 16 2 12,09 19 4 11,98
13 1 12,00 16 3 11,93 19 5 12,32
13 2 12,14 16 4 12,09 20 1 12,24
13 3 11,92 16 5 12,08 20 2 11,79
13 4 11,88 17 1 12,02 20 3 12,20
13 5 11,81 17 2 11,85 20 4 12,15
20 5 12,04

Se puede observar que los grupos 17, 18 y 19 presentan una media de tiempo
fuera de los límites de control. Por lo cual habrá que eliminarlos y repetir el
proceso.

Gráficos de Control para Atributos

a) Gráficos p

Definir la característica de calidad (atributo) que se desea analizar. Olor,


sabor, medida específica, etc. Se utiliza el gráfico p cuando son posibles dos
resultados: defectuoso-No defectuoso (o Conforme-Disconforme).

Ejemplo 9.6.2. Una determinada empresa, cada día, realiza un control sobre
sus productos eligiendo al azar una muestra de tamaño n variable, como se recoge
en la tabla siguiente (R = Rechazados):

208
Estadística - Capítulo 9

Día R n Día R n Día R n


1 14 286 11 15 307 21 19 317
2 22 281 12 16 328 22 23 323
3 9 310 13 21 296 23 15 304
4 19 313 14 9 296 24 12 304
5 21 293 15 25 317 25 19 324
6 18 305 16 15 297 26 17 289
7 16 322 17 14 283 27 15 299
8 16 316 18 13 321 28 13 318
9 21 293 19 10 317 29 19 313
10 14 287 20 21 307 30 12 289

Como puede observarse, el gráfico p que se muestra a continuación no


presenta ninguna anomalía, por lo tanto, los límites de control nos servirán de
referencia para controlar la evolución del proceso.

209
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

b) Gráficos np (número de casos)

Los gráficos np se utilizan para controlar el número de defectuosos en una


muestra. Se utiliza para el mismo tipo de problemas que el gráfico p, pero en
aquellos casos en que se pueda tomar el mismo tamaño de muestra para los
subgrupos. Si no hay puntos fuera de los límites de control y no se encuentran
patrones no aleatorios, se adoptan los límites calculados para controlar la
producción futura.

Ejemplo 9.6.3. Una determinada empresa, cada día, realiza un control sobre
sus productos eligiendo al azar una muestra de tamaño constante n = 100, como
se recoge en la tabla siguiente (D = Disconformidades). Como puede observarse,
el gráfico de control no presenta ninguna anomalía, por lo tanto, los límites de
control nos servirán de referencia para controlar la evolución del proceso.

Día D Día D Día D


1 10 10 11 19 10
2 12 11 9 20 10
3 10 12 14 21 11
4 11 13 16 22 11
5 6 14 21 23 11
6 7 15 20 24 6
7 12 16 12 25 9
8 10 17 11
9 6 18 6

210
Estadística - Capítulo 9

c) Gráficos c

Los gráficos c se utilizan para controlar el número de defectos en una muestra


del producto o unidad de inspección. Los defectos pueden ser de diferentes tipos
y se cuenta el total de todos estos defectos en la unidad inspeccionada.
Obtenemos un resultado que es el Número de Defectos por unidad de inspección.
Los resultados que obtenemos al contar el Número de Defectos en unidades de
inspección retiradas a intervalos regulares constituyen una variable aleatoria
discreta, porque puede tomar valores 0, 1, 2, 3, ... n.

El parámetro c es el parámetro de la distribución de Poisson. Hay que hacer


notar que en el caso de que el Límite Inferior de Control resulte negativo, se le
asigna valor cero.

Ejemplo 9.6.4. Una determinada empresa, cada día, realiza un control


sobres el proceso de trazado de líneas que requiere la producción de un
determinado material, los datos figuran en la tabla siguiente:

211
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Día Disconformidades Día Disconformidades


(Error/1000 lineas) (Error/1000 lineas)
1 6 16 3
2 7 17 2
3 7 18 0
4 6 19 0
5 8 20 1
6 6 21 2
7 5 22 5
8 8 23 1
9 1 24 7
10 6 25 7
11 2 26 1
12 5 27 5
13 5 28 5
14 4 29 8
15 3 30 8

Como puede observarse, el gráfico de control presenta dos valores 18 y 19


con valor cero (están en el límite inferior de control). Los límites de control que
aparecen en el gráficonos servirán de referencia para controlar la evolución del
proceso.

212
Estadística - Capítulo 9

d) Gráficos u

Se cuenta en cada unidad de inspección el Número de Defectos y se registra.


Luego se divide el Número de Defectos de cada unidad de inspección por m
(Número de unidades de producción en cada unidad de inspección). Se utiliza
para el mismo tipo de problemas que el gráfico c, pero en aquellos casos en que
se pueda tomar el mismo tamaño de muestra para los subgrupos.

Ejemplo 9.6.5. Una determinada empresa realiza cada día un control sobre
sus productos eligiendo al azar una muestra de tamaño variable. Los datos se
recogen en la tabla siguiente, y, como puede observarse, el gráfico de control no
presenta ninguna anomalía, por lo tanto, los límites de control nos servirán de
referencia para controlar la evolución del proceso.

213
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Unidades Disconformidades
Día Disconformidades
inspeccionadas por unidad
1 110 120 1.0909
2 82 94 1.1463
3 96 89 0.9271
4 115 162 1.4087
5 108 150 1.3889
6 56 82 1.4643
7 120 143 1.1917
8 98 134 1.3673
9 102 97 0.9510
10 115 145 1.2609
11 88 128 1.4545
12 71 83 1.1690
13 95 120 1.2632
14 103 116 1.1262
15 113 127 1.1239
16 85 92 1.0824
17 101 140 1.3861
18 42 60 1.4286
19 97 121 1.2474
20 92 108 1.1739
21 100 131 1.3100
22 115 119 1.0348
23 99 93 0.9394
24 57 88 1.5439
25 89 107 1.2022
26 101 105 1.0396
27 122 143 1.1721
28 105 132 1.2571
29 98 100 1.0204
30 48 60 1.2500

214
Estadística - Capítulo 9

215
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

EJERCICIOS PROPUESTOS
1. De datos retrospectivos se sabe que las Radiopatrullas de una determinada
Brigada de Seguridad Ciudadana tienen un Cociente mensual
(Detenidos/Funcionarios) de 0’89 con una desviación típica de 0’12. Establezca
un gráfico de control para esas Radiopatrullas, coloque sobre el mismo los
siguientes cocientes mensuales: 0’54, 0’69, 0’56, 1’34, 1’12 y 0’72; comente
dicho gráfico.

Solución: µ = 0’89, σ = 0’12, LSC = 1’25, LSA = 1’13, LC = 0’89, LIA = 0’65, LIC =
0’53, no hay rachas ni tendencias significativas. El mes 4 (abril) supera el LSC,
analizar las causas y tomar medidas; los mese 1 y 3 (enero y marzo) por debajo
del LIA, prevención para los siguientes meses

2. A lo largo de 2002 una B.S.C. ha esclarecido 800 hechos de un total de


4.200 denuncias y a lo largo de todo el año la situación ha estado estabilizada.
Construya un gráfico de control para realizar un seguimiento del porcentaje de
efectividad mensual. Supongamos que en los 6 primeros meses de 2003 se
tienen los siguientes datos:

2003 Mes Enero Febrero Marzo Abril Mayo Junio


Esclarecidos 91 56 63 42 122 52
Hechos
Denunciados 434 343 269 363 473 209

Se pide:

a) Que calcule los porcentajes de efectividad correspondientes a esos seis


meses.

b) Que sitúe los resultados en el gráfico de control.

c) Que comente la gráfica obtenida.

Solución: a) p = 19’05%; para b) utilice un gráfico p estandarizado; c) no hay rachas


ni tendencias significativas, los meses 4 y 5 (abril y mayo) fuera de control, anali-
zar las causas y tomar medidas, el mes 6 (junio) por encima del LIA, prevención
para julio

216
Estadística - Capítulo 9

3. A lo largo de los últimos tres años la Policía Judicial de una determinada


dependencia ha detenido un total de 212 personas y las detenciones mensuales
han estado estabilizadas a lo largo de ese período de tiempo. Supongamos que
los detenidos en los próximos 12 meses son los siguientes: 7, 3, 6, 10, 8, 1, 14,
5, 5, 5, 7 y 4.

Se pide:

a) Que dibuje un gráfico de control para llevar a cabo un seguimiento de la evo-


lución del número de detenidos al mes.

b) Que sitúe sobre el gráfico los valores anteriores.

c) Que comente los resultados obtenidos.

Solución: a) Gráfico c con c = 212/36 = 5'8889, LSC = 13'17, LSA = 10'74, LC =


5'89, LIA = 1'04, LIC = 0 (sale negativo); c) no se detectan rachas ni tendencias sig-
nificativas, el mes 6 (junio) por debajo del LIA, estar prevenidos en julio por si no
hubiera detenidos, el mes 7 (julio) por encima del LSC, ver las causas y adoptar
medidas

4. En la siguiente tabla se muestra el número de robos a bancos que ha habido


en cierta comarca durante los últimos 4 años:

Año 2000 2001 2002 2003


Nº de Robos 163 181 179 168

Suponiendo que a lo largo de esos cuatro años el número de robos al mes


ha estado en una situación estabilizada y que a lo largo de los próximos meses
de 2004 se cometen las siguientes cantidades de robos: 6, 12, 18, 26, 20, 15,
14, 10, 3, 3, 2 y 6.

Se pide:

a) Que prepare un gráfico de control para llevar un seguimiento de los robos


a bancos que se cometen al mes.

b) Que dibuje en dicho gráfico la evolución de 2004.

217
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

c) Que comente la gráfica.

Solución: a) Gráfico tipo c, con c = 691/48 = 14'3958, LSC = 25'78, LSA = 21'98,
LC = 14'40, LIA = 6'81, LIC = 3'01; c) no hay rachas significativas, tendencia decre-
ciente significativa de meses 4 a 11 (abril a noviembre), ver causas y adoptar medidas,
mes 12 (diciembre) por debajo del LIA, prevención en enero de 2005).

5. Establezca un gráfico de control (X, σ) para la actividad de un Grupo de


Investigación que presenta unos Cocientes mensuales (Detenidos/Funcionarios)
como los que se recogen en la siguiente tabla de datos retrospectivos:

A\M Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic

2001 1'69 1'81 2'00 1'47 1'12 0'86 1'67 1'72 0'88 1'07 0'62 0'71

2002 0'89 1'21 1'90 0'85 1'00 0'96 1'62 2'00 1'76 2'50 1'85 0'80

2003 1'00 1'56 1'95 1'39 0'79 2'31 1'63 3'05 2'60 1'30 1'46 0'89

(Nota: Σ xi = 52'89; Σ xi2 = 89'8485).

Solución: µ = X = 52'89/36 = 1'4692,


0'5890; LSC = 3'236, LSA = 2'647, LC = 1'469, LIA = 0'291, LIC = 0 (sale negativo),
los 36 datos retrospectivos son estadísticamente estables, esas líneas son las que
se utilizarían en el futuro

6. Establezca un gráfico de control (X, σ)para el número de detenidos al mes


por una Brigada de Seguridad Ciudadana (Radiopat. + Grupo Inves.) que presenta
los siguientes datos retrospectivos relativos al número de detenidos:

A\M Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic

2001 75 77 95 59 68 63 60 52 51 53 51 39

2002 47 58 72 40 45 42 49 44 56 97 65 49

2003 67 71 73 56 48 73 54 86 86 67 57 45

218
Estadística - Capítulo 9

(Nota: Σ xi = 2190; Σ xi2 = 141242).

Solución: µ = X = 2190/36 = 60'8333, 15'1346;


LSC = 106'24, LC = 60'83, LIC = 15'43, en los 36 datos retrospectivos hay una racha
significativa entre julio de 2001 y febrero de 2002, suprimiendo los datos de esos
8 meses y recalculando se obtiene µ = X = 63'5357, σ = Sc = 15'8733, LSC =
111'16, LSA = 95'28, LC = 63'54, LIA = 31'79, LIC = 15'92, y como esos 28 datos
retrospectivos son estadísticamente estables, estas líneas son las que se utilizarí-
an en el futuro).

7. Detecte puntos fuera de control, rachas y tendencias en el siguiente gráfico


de control:

Solución: Hay dos meses fuera de control, el 29 por debajo del LIC y el 32 por
encima del LSC; hay una tendencia decreciente significativa entre los meses 22 y
29, también hay una racha significativa por debajo de la LC entre los meses 5 y 12

219
Capítulo 10
CONTRASTES DE HIPÓTESIS
Estadística - Capítulo 10

1. INTRODUCCIÓN Y CONCEPTOS BÁSICOS


Un contraste de hipótesis es un procedimiento estadístico mediante el cual
se trata de aceptar o rechazar una hipótesis H0 sobre una o varias características
de una población estadística a partir de una muestra. H0 se suele denominar
hipótesis nula y frente a ella se compara otra hipótesis H1, denominada hipótesis
alternativa, excluyente de la anterior, que es la que se acepta en caso de rechazar
la nula.

El procedimiento se realiza a través de una muestra mediante la cual se


calcula un estadístico de contraste, aceptando o rechazando la H0 según sus
valores. Al conjunto de valores del estadístico de contraste que permiten recha-
zar la hipótesis nula se le llama región crítica o de rechazo; análogamente, al
conjunto de valores que permiten aceptar la hipótesis nula se le llama región de
aceptación. Ambas han de ser complementarias. Cuando la región crítica está
formada por un solo segmento de recta se dice que el contraste es unilateral,
mientras que si está formado por dos se denomina bilateral.

En cualquier contraste se pueden cometer errores. En la siguiente tabla


10.1.1 exponemos un cuadro con los diferentes tipos de éstos. Los errores se
miden por medio de las probabilidades de cometerlos. De este modo, el riesgo
α es la probabilidad de rechazar H0 cuando H0 es verdadera y el riesgo β es la
probabilidad de aceptar H0 cuando H0 es falsa.

En la práctica el riesgo a máximo que se suele aceptar es de 0’05; es decir,


un 5%. Al riesgo máximo se le denomina nivel de significación del contraste de
hipótesis. El riesgo b suele ser complejo de calcular. Otros niveles de significación
que se suelen utilizar son el 1% o el 10%.

LO VERDADERO
H0 H1
Decisión Error tipo II
CONCLUSIÓN H0
Correcta Riesgo β
DEL
CONTRASTE Error tipo I Decisión
H1
Riesgo α Correcta

Tabla 10.1.1: Situaciones en un contraste de hipótesis

223
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Las fases de un contraste de hipótesis son las siguientes:

1) Enunciado de las hipótesis nula y alternativa.

2) Elección de a.

3) Selección del estadístico de contraste adecuado al caso.

4) Determinación de la región crítica.

5) Cálculo del estadístico de contraste a partir de la muestra dada.

6) Conclusiones de tipo estadístico.

7) Conclusiones de naturaleza no estadística.

En lugar de utilizar el nivel de significación se suele utilizar la significación


muestral de la hipótesis nula o simplemente significación, p, que es la que
suelen utilizar la mayoría de los paquetes estadísticos. Se define como la proba-
bilidad de observar un valor del estadístico de contraste que sea tan desfavorable
o más para la hipótesis nula que el valor realmente observado. Cuanto menos
sea el valor de p tanto menos confianza ofrecerá H0 y ésta tenderá a ser recha-
zada; mientras que su p es grande, H0 será aceptada; cuando se rechaza la hipó-
tesis nula decimos que el contraste es significativo.

Así pues, si a es el límite máximo de p; se decidirá de acuerdo con las


siguientes reglas:

Si p > α se acepta H0.

Si p ≤ α se rechaza H0 y se acepta H1.

2. COMPARACIÓN DE UNA MEDIA CON UN VALOR DADO


En ocasiones puede interesar decidir si un conjunto de observaciones proceden
de una población con una determinada media o no o si la media de una pobla-
ción difiere significativamente o no de un cierto valor.

Por ejemplo, supongamos que un Grupo de Seguridad Ciudadana tiene datos


relativos a los “cocientes” mensuales (Detenidos/Funcionarios) de los últimos
meses y quiere ver si el promedio de esos datos difiere significativamente o no

224
Estadística - Capítulo 10

de 1’35 (que es el valor que viene a tomar la media nacional); para ello tiene que
realizar una prueba estadística que permita comparar su valor medio con el valor
1’35.

Las hipótesis de la prueba pueden formularse de la siguiente manera:

donde µ0 es el valor de la media sobre el cual se quiere tomar la ecisión. Hemos


de hacer hincapié en que los contrastes siempre se realizan sobre la población.

Si el problema lo resolvemos sin la ayuda de un programa de ordenador


entonces con los n datos de la muestra X1, X2, ..., Xn calculamos primero la
media X y la cuasidesviación típica Sc, y a continuación el estadístico de contraste
dado por:

(10.2.1)

Con el nivel de significación a con el que estemos trabajando (que suele ser
α = 0’05 = 5%), vamos a las tablas estadísticas de la t de Student, con g = n – 1
grados de libertad, y buscamos el valor crítico Tc para una prueba bilateral (vea
la tabla 8.5.2). Por último se compara el valor observado de T y se decide del
siguiente modo:

Ejemplo 10.2.1. Una Brigada de Seguridad Ciudadana ha obtenido los


siguientes Cocientes mensuales (Detenidos/Funcionarios) en los últimos doce
meses: 1’76, 1’47, 2’21, 1’99, 1’86, 1’80, 1’73, 1’69, 1’97, 1’79, 1’81 y 2’07.
Se desea saber si su valor medio difiere significativamente o no del nivel medio
nacional establecido en 1’35; idem con su valor medio de años anteriores que
está establecido en 1’80.

225
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Lo primero que hay que hacer es calcular la media y cuasivarianza de esos


doce Cocientes:

Con estos valores calculamos el estadístico de contraste dado por (10.2.1),


que para el nivel medio nacional µ0 = 1’35 vale:

Este valor T = Tobs hay que compararlo con el valor crítico Tc obtenido de
una tabla de la t de Student con g = n – 1 = 11 grados de libertad, prueba bila-
teral y nivel de significación α = 5%; en la Tabla 8.5.2 encontramos Tc = 2’2010
que es menor que el valor observado Tobs = 8’8741, en consecuencia rechazamos
la hipótesis nula y afirmamos que el Cociente medio mensual del Grupo de
Seguridad Ciudadana difiere estadísticamente de la media nacional (en este caso
es superior a la media nacional).

Al compararlo con su Cociente histórico de 1’80 se obtiene:

Como este valor observado está dentro de los límites de ±Tc = ±2’2010 se
acepta la hipótesis nula sobre la igualdad y se puede afirmar que estadísticamente
no hay diferencias significativas entre el valor medio observado en los últimos
12 meses ( X = 1’845833 ≈ 1’85) y el valor medio tradicional (µ0 = 1’80).

226
Estadística - Capítulo 10

Al resolver este ejemplo, en el primer caso, con el programa SPSS (Analizar


 Comparar Medias  Prueba T para una muestra 1/4  Valor de prueba: 1,35;
Opciones: Intervalo de confianza: 95%) se obtiene la siguiente salida que vamos
a comentar:
Estadísticos para una muestra

Desviación Error típ.


N Media
típ. de la media
cocientes mensuales 12 1.8458 .19355 .05587

Prueba para una muestra

Valor de prueba = 1.35


Sig. Diferencia
t gl
(bilateral) de medias
cocientes mensuales 8,874 11 ,000 .4958

El primer cuadro nos presenta los cálculos hechos con la muestra de los
estadísticos descriptivos:

El segundo cuadro está formado por los cálculos del contraste:


Valor de prueba = µ0 =1,35

gl = grados de libertad = n – 1 = 11
Sig. (bilateral) = Significación = p = 0’000
Diferencia de medias = X – µ0 = 0’4958
Considerando un nivel de significación de 0’05, y comparando p con él,
vemos que p = 0.000 < 0’05, por lo que rechazamos la hipótesis nula; es decir,
hay una diferencia significativa entre el cociente de esta Brigada de Seguridad
Ciudadana y el cociente nacional.

227
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

En el segundo caso, comparando con 1’80, hacemos mediante SPSS Analizar


 Comparar Medias  Prueba T para una muestra 1/4  Valor de prueba: 1,80;
Opciones: Intervalo de confianza: 95%.

Prueba para una muestra

Valor de prueba = 1.80


Sig. Diferencia
t gl
(bilateral) de medias
cocientes mensuales ,820 11 ,492 .0458

En este caso los cálculos del contraste son:

Valor de prueba = µ0 =1,35

gl = grados de libertad = n – 1 = 11

Sig. (bilateral) = Significación = p = 0’429

Diferencia de medias = X – µ0 = 0’0458

Considerando un nivel de significación de 0’05, y comparando p con él,


vemos que p = 0’429 > 0’05, por lo que aceptamos la hipótesis nula; es decir,
no hay diferencia significativa entre el cociente de esta Brigada de Seguridad
Ciudadana y el cociente nacional de años anteriores.

3. COMPARACIÓN DE DOS MEDIAS


En ocasiones se tienen dos grupos de datos y se quiere decidir si las medias
teóricas o poblacionales son iguales o no; formalmente se puede plantear de la
siguiente manera:

228
Estadística - Capítulo 10

donde µ1 representa la media teórica de uno de los grupos y µ2 la media teórica


del otro grupo. Podemos distinguir varios casos dependiendo de si las varianzas
poblacionales de los dos grupos son iguales o distintas o no y que los datos
estén sin aparear (muestras independientes) o apareados (muestras dependientes).
Vamos a dar las siguientes situaciones:

a) Grupos Independientes
En este caso tenemos que estudiar una sola variable en dos grupos diferentes.

I. Caso en que las Varianzas son Distintas

El estadístico de contraste en este caso viene dado por:

(10.3.1)

donde X1 es la media muestral de la primera muestra, X2 la media de la segunda,


n1 es el tamaño de la primera muestra y n2 el de la segunda, y Sc12 es la cuasi-
varianza de la primera muestra y S 2 la de la segunda muestra.
c2

Con el nivel de significación a con el que estemos trabajando, vamos a las


tablas estadísticas de la t de Student, con unos grados de libertad dados por la
siguiente aproximación de Welch:

(10.3.2)

y buscamos el valor crítico Tc para una prueba bilateral (vea la Tabla 8.5.2); por
último, se compara el valor observado de T y se decide del siguiente modo:

229
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

(10.3.3)

II. Caso en que las Varianzas son Iguales

El estadístico de contraste en este caso viene dado por:

(10.3.4)

donde X1 es la media de la primera muestra, X2 la media de la segunda, n1 es el


tamaño de la primera muestra y n2 el de la segunda y Sp está dado por:

(10.3.5)

Con el nivel de significación a con el que estemos trabajando, vamos a las


tablas estadísticas de la t de Student, con unos grados de libertad g = n1 + n2 – 2,
y buscamos el valor crítico Tc para una prueba bilateral (vea la tabla 8.5.2); por
último, se compara el valor observado de T y se decide del siguiente modo:

Ejemplo 10.3.5. Supongamos que se quieren comparar los “Cocientes


mensuales” (Detenidos/Funcionarios) de dos Brigadas de Seguridad Ciudadana y
que para ello se toman los cocientes de cinco meses para la Brigada 1 y los de 8
meses (no necesariamente de meses iguales a los anteriores) para la Brigada 2:

230
Estadística - Capítulo 10

C. Brig. 1 C. Brig. 2

1’69 0’89

1’81 1’46

2’00 1’30

1’47 2’60

1’12 3’05

1’63
2’31

0’79

El contraste a realizar es:

H0 : µ 1 = µ2

H1 : µ1 ≠ µ2

donde m1 es la media de los cocientes para la brigada 1 y m2 es la media


para la brigada 2. Definimos dos variables en SPSS: COCI (formada por los coefi-
cientes, que es numérica) y otra BRIGADA (formada por los valores 1 de la brigada
1 y 2 de la brigada 2, que es cualitativa nominal). Al resolver este ejemplo con el
programa (Analizar  Comparar Medias  Prueba T para muestras independientes
1/4  Contrastar variables: COCI; Variable de agrupación: BRIGADA; Definir
grupos 1/4: (1, 2); Opciones: Intervalo de confianza: 95%) se obtiene la siguiente
salida:

Estadísticos de grupo

Desviación Error típ.


BRIGADA N Media
típ. de la media
cociente Brigada 1 5 1,6180 ,3383 ,1513
mensual Brigada 2 8 1,7538 ,8184 ,2893

231
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Esta primera parte de la salida nos muestra la estadística descriptiva para las
muestras de ambos grupos. Tenemos, de izquierda a derecha, el tamaño de
muestra de cada grupo, la media correspondiente, la cuasidesviación típica y el
error típico de la media.

Prueba de muestras independientes

Cociente mensual
Se han No se han
Estadísticos asumido asumido
varianzas varianzas
iguales iguales
Prueba de Levene F 5,011
para la igualdad de
varianza Sig. ,047

Prueba T para la t -,348 -,416


igualdad de medidas
gl 11 10,038

Sig. (bilateral) ,734 ,686

Diferencia de medias -,1358 -,1358

Error típ. de la diferencia ,3899 ,3265


95% Intervalo de Inferior -,9940 -,8629
confianza para la
diferencia Superior ,7225 ,5914

En esta segunda parte se nos muestra lo que es la comparación de medias


propiamente dicha. Lo primero que hemos de decidir es si las varianzas son
iguales o distintas. Para ello nos fijamos en lo que llama la prueba de Levene
para la igualdad de varianzas. Tenemos un valor de la significación (“Sig.”), que
para esa prueba es p = 0’047, y comparándolo con un nivel de significación
α = 0’05, vemos que p = 0’047 < 0’05, por lo que podemos decir que es signi-
ficativa la diferencia de varianzas, es decir, las varianzas se pueden considerar
distintas. Elegimos, por tanto, la opción de “No se han asumido varianzas iguales”,
con lo cual nuestro estadístico de contraste será Tobs = t = –0’416 (que es el
resultado de T que nos daría la fórmula 10.3.1), con grados de libertad g = gl

232
Estadística - Capítulo 10

= 10’038 (que son los que darían la aproximación de Welch (10.3.2)). Para este
contraste la significación es 0’686 (“Sig. (bilateral)”), y puesto que p = 0’686 >
0’05, aceptamos la hipótesis nula de que las medias son iguales. Con lo que
concluimos que los cocientes medios en ambas brigadas se pueden considerar
iguales.

El Programa SPSS también nos ha dado un intervalo de confianza del 95%


para la diferencia de medias de ambos grupos, en este caso tenemos:

–0’8629 < µ1 − µ2 < 0’5914

lo que significa que la diferencia real entre las medias es un valor próximo a cero
(lo mismo puede ser una pequeña cantidad negativa que positiva); como el intervalo
de confianza del 95% contiene al cero es por lo que el contraste de hipótesis
permite aceptar la igualdad de las medias (con un error de tipo I: α = 100 – 95 = 5%).

Ejemplo 10.3.2. Se estudia la cuantía robada en euros por hombres y mujeres


en un cierto barrio y se anotan los resultados. Vamos a ver si la media de dinero
robada por los hombres es igual que la robada por las mujeres.
El contraste a realizar es:
H0 : µ1 = µ2
H1 : µ1 ≠ µ2
donde µ1 es la media del dinero robado por los hombres y µ2 es la media para
las mujeres. Construimos dos variables es SPSS: CUANTÍA (variable numérica que
representa el dinero robado) y SEXO (variable cualitativa con categorías 1 para
hombre y 2 para mujer)
Al resolver este ejemplo con el programa (Analizar  Comparar Medias 
Prueba T para muestras independientes 1/4  Contrastar variables: CUANTÍA;
Variable de agrupación: SEXO; Definir grupos 1/4: (1, 2); Opciones: Intervalo de
confianza: 95%) se obtiene la siguiente salida:

Estadísticos de grupo

Desviación Error típ.


SEXO N Media
típ. de la media
Cantidad robada Hombre 8 72,50 23,75 8,40
en euros Mujer 5 42,00 13,04 5,83

233
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

En esta primera parte, igual que antes, se nos muestra la estadística descrip-
tiva para ambos grupos. Tenemos, de izquierda a derecha, el tamaño de la mues-
tra de cada grupo, la media correspondiente, la cuasidesviación típica y el error
típico de la media.

Prueba de muestras independientes

Cantidad robada en ¤
Se han No se han
asumido asumido
varianzas varianzas
iguales iguales
Prueba de Levene F 3,508
para la igualdad de
varianza Sig. ,088

Prueba T para la t 2,608 2,983


igualdad de medidas
gl 11 10,930

Sig. (bilateral) ,024 ,013

Diferencia de medias 30,50 30,50

Error típ. de la diferencia 11,70 10,22


95% Intervalo de Inferior 4,76 7,98
confianza para la
diferencia Superior 56,24 53,02

En esta segunda parte se nos muestra lo que es la comparación de medias


propiamente dicha. Lo primero que hemos de decidir es si las varianzas son
iguales o distintas. Para ello nos fijamos en lo que llama la prueba de Levene
para la igualdad de varianzas. Para esta prueba tenemos una significación (“Sig.”)
p = 0’088, y comparándola con el nivel de significación a = 0’05, vemos que p
= 0’088 > 0’05, por lo que podemos decir que la diferencia de varianza no es
significativa, es decir, las varianzas se pueden considerar iguales.

Elegimos, por tanto, la opción de “Se han asumido varianzas iguales”, con lo
que nuestro estadístico de contraste será Tobs = t = 2’608 (que es el valor que

234
Estadística - Capítulo 10

se obtendría al calcularlo con las expresiones (10.3.4) y (10.3.5)), con grados de


libertad g = gl = 11 (que en para este caso es g = n1 + n2 – 2). La significación
(“Sig. (bilateral)”) es 0’024, y puesto que p = 0’022 < 0’05 = a, rechazamos la
hipótesis nula de que las medias son iguales. Con lo que concluimos que las
cantidades robadas por hombres y mujeres son distintas (en este caso la cantidad
media robada por los hombres es superior que por las mujeres).

El Programa SPSS también nos ha dado un intervalo de confianza del 95%


para la diferencia de medias de ambos grupos, en este caso tenemos:

4’76 < µ1 − µ2 < 56’24

lo que significa que la diferencia real entre las medias es un valor positivo (superior
en el caso de los hombres que en el de las mujeres); como el intervalo de
confianza del 95% no contiene al cero y es todo él positivo es por lo que el
contraste de hipótesis permite rechazar la igualdad de las medias (con un error
de tipo I complementario al grado de confianza: a = 100 – 95 = 5%), y decir, en
este ejemplo que en media lo robado por hombres es superior que lo robado por
mujeres (entre 4’76 y 56’24 euros más).

b) Grupos Apareados
En este caso tenemos que estudiar dos variables en un solo grupo. Con
frecuencia se diseñan experimentos de forma que las observaciones estén
apareadas, por ejemplo, cuando a un grupo se les estudia un comportamiento
antes de ingerir alcohol y después de ingerirlo. En esta situación tenemos pares
de valores (X1, Y1), (X2, Y2), ..., (Xn, Yn) que forman dos grupos de observaciones
X e Y. Pretendemos contrastar los valores medios teóricos µX y µY. Por ejemplo,
si ha cambiado la tensión arterial antes y después de consumir alcohol. Las hipóte-
sis a contrastar vienen dadas por:

, siendo D = X - Y.

235
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

El estadístico de contraste en este caso viene dado por:

(10.3.6)

donde D es la media muestral de los Di = Xi -Yi, n es el tamaño muestral y ScD la


cuasidesviación típica de las diferencias Di. Con el nivel de significación a con el
que estemos trabajando, vamos a las tablas estadísticas de la t de Student, con
g = n – 1 grados de libertad, y buscamos el valor crítico Tc para una prueba bila-
teral (vea la tabla 8.5.2); por último, se compara el valor observado de T y se
decide del siguiente modo:

(10.3.7)

Ejemplo 10.3.3. Supongamos que queremos comparar la eficacia de dos


Brigadas de Seguridad Ciudadana (A y B) y tomamos datos de ambas durante los
12 meses de un año:

ene feb mar abr may jun jul ago sep oct nov dic
A 1’76 1’47 2’21 1’99 1’86 1’80 1’73 1’69 1’97 1’79 1’81 2’07
B 1’56 2’03 2’25 1’87 2’01 1’98 1’58 1’98 2’50 2’03 1’50 2’09

El contraste a realizar es:

donde µA es la media del coeficiente para la brigada A y µB la de la brigada B.


Construimos dos variables en SPSS: CA (variable numérica que representa los
cocientes para la brigada A) y CB (variable numérica que representa los cocientes
para la brigada B). Al resolver este ejemplo con el programa SPSS (Analizar 

236
Estadística - Capítulo 10

Comparar Medias  Prueba T para muestras relacionadas ...  Variables relacio-


nadas: CA – CB; Opciones: Intervalo de confianza: 95%) se obtiene la siguiente
salida:

Estadísticos de muestras relacionadas


Desviación Error típ.
N Media
típ. de la media
Par 1 Cocientes Brigada A 12 1,8458 ,1936 5,587E-02
Cocientes Brigada B 12 1,9483 ,2905 8,385E-02

En esta primera parte se nos muestra la estadística descriptiva para ambas


variables. Tenemos, de izquierda a derecha, la media de cada variable, el tamaño
de muestra (ha de ser en ambas igual), la cuasidesviación típica y el error típico
de la media para cada una de ellas. Junto con esta salida también aparece otra
relativa a la correlación entre los pares de datos (concepto que es objeto de
estudio del tema siguiente):

Correlaciones de muestras relacionadas

N Correlación Sig.
Par 1 Cocientes Brigada A &
12 ,404 ,192
Cocientes Brigada B

En este caso la correlación muestral de los 12 pares de datos es r = 0’404 y


la correlación teórica ρ puede suponerse que es cero ya que la significación de
la prueba es p = 0’192 > 0’05 = α, y para este tipo de prueba la hipótesis nula
es H0 : ρ = 0 (que se acepta), y la hipótesis es H1: ρ ≠ 0 (que se rechaza).

237
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Prueba de muestras relacionadas


Par 1
Cocientes Brigada A
- Cocientes Brigada B
Diferencias Media -,1025
relacionadas Desviación típ. ,02763
Error típ. de la media 7,977E-02
95% Intervalo de confianza Inferior -,2781
para las diferencias Superior 7,308E-02
t -1,285
gl 11
sig. (bilateral) ,225

En esta parte se nos muestra lo que es la comparación de medias propiamente


dicha. Lo primero que aparece es la media de la diferencias ( D = -0’1025),
después la cuasidesviación típica de esas diferencias ( ScD = 0’2763) y el error
típico de la media de las diferencias = 7’977E–02 = 0’07977). El
estadístico de contraste es Tobs = t = –1’285 (que es el resultado de T que nos
daría la fórmula 10.3.6), con grados de libertad g = gl = 11 = n – 1. La significa-
ción del contraste es p = 0’225 (“Sig. (bilateral)”); así que aceptamos la hipótesis
nula porque p = 0’225 > 0’05 = a; es decir, los cocientes medios de ambas bri-
gadas se pueden considerar iguales.

El Programa SPSS también nos ha dado un intervalo de confianza del 95%


para la diferencia de medias de ambos grupos, en este caso tenemos:

–0’2781 < µA − µB < 0’07308

lo que significa que la diferencia real entre los cocientes medios es un valor
próximo a cero (lo mismo puede ser una pequeña cantidad negativa que positi-
va); como el intervalo de confianza del 95% contiene al cero es por lo que el
contraste de hipótesis permite aceptar la igualdad de las medias (con un error
de tipo I complementario el grado de confianza: a = 100 – 95 = 5%).

238
Estadística - Capítulo 10

4. COMPARACIÓN DE PROPORCIONES
En este apartado vamos a ver algunos métodos aproximados para contrastar
proporciones, o frecuencias relativas, tanto con valores dados como entre dos de
ellas; estos métodos son aplicables para tamaños de muestra que no sean muy
pequeños.

a) Comparación de una Proporción con un valor dado


Deseamos hacer el contraste:

(10.4.1)

donde p0 es un valor conocido (la proporción complementaria es q0 = 1 – p0, si


se expresan en tanto por uno, o bien 100 – p0 si se expresan en %). Lo primero
que tenemos que hacer es calcular la correspondiente fracción o proporción
experimental:

(y x100 si en %) (10.4.2)

El estadístico de contraste que se utiliza es:

(10.4.3)

si no hay corrección por población finita (caso del muestreo con reposición o del
muestreo sin reposición y fracción de muestreo pequeña, f ≤ 0’01), o bien:

(10.4.4)

239
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

si hay corrección por población finita (muestreo sin reposición y fracción de


muestreo considerable, f > 0’01). En las fórmulas 10.4.3 y 10.4.4 las proporciones
p , p0 y q0 pueden expresarse las tres en tanto por uno o en tanto por cien.

Con el nivel de significación a con el que estemos trabajando, vamos a la


Tabla 8.5.1 (con un coeficiente de confianza complementario de a) o bien en la
Tabla 8.5.2 (para una prueba bilateral con g = ∞) y obtenemos el valor crítico Zc,
comparamos el valor observado de Z y decidimos del siguiente modo:

(10.4.5)

Ejemplo 10.4.1. En una manifestación hubo unas 500 personas que alteraron
el orden público y de entre ellas se detuvo a 14 hombres y 6 mujeres. ¿Puede
aceptarse que entre las personas que alteraron el orden público la proporción de
hombres y mujeres fue similar?

Para resolverlo vamos a designar con p la proporción de personas que


alteraron el orden público y que fueros varones, la proporción estimada es
p = 14/20 = 0’70 = 70% y el valor con el que se quiere comparar es p0 = 0’50 =
50% = q0. Las hipótesis nula y alternativa son por tanto las siguientes:

Como el tamaño de la muestra es n = 20 y el de la población N = 500 el


cálculo de la expresión (10.4.4) nos da:

240
Estadística - Capítulo 10

De la tabla 8.5.2 (prueba bilateral, α = 5% y g = ∞) obtenemos el valor crítico


Zc = 1’96, y como |Z | = 1’8239 < 1’96 = Zc, podemos aceptar la hipótesis nula,
esto es, entre los que alteraron el orden público la proporción de hombres
y mujeres fue similar.

b) Comparación de Dos Proporciones


Deseamos hacer el contraste:

(10.4.6)

donde p1 es la proporción para el grupo 1 y p1 para el grupo 2. Lo primero


que tenemos que hacer es calcular las correspondientes fracciones experimentales:

donde X1 son los casos de la característica considerada para el grupo 1 y X2 lo


mismo para el grupo 2, y n1 son los casos totales en el grupo 1 y n2 en el grupo
2 (si las queremos expresarlas en % tenemos que multiplicarlas por 100). El
estadístico de contraste es:

(10.4.7)

Con el nivel de significación a con el que estemos trabajando, vamos a la


Tabla 8.5.1 (con un coeficiente de confianza complementario de a) o bien en la
Tabla 8.5.2 (para una prueba bilateral con g = ∞) y obtenemos el valor crítico Zc,
comparamos el valor observado de Z y decidimos del siguiente modo:

(10.4.8)

241
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Ejemplo 10.4.2. De una muestra de 798 hechos denunciados ante la Policía


se han esclarecido 185, mientras que de 192 que se denunciaron ante la Guardia
Civil se esclarecieron 52. ¿Pueden considerarse similares las eficacias de la
Policía y de la Guardia Civil?.

Como la eficacia es la relación entre hechos esclarecidos y denunciados


resulta que el problema se reduce a comprobar si esas dos proporciones son
iguales o distintas.

Para la Policía tenemos:

Para la Guardia Civil es:

Mientras que la eficacia combinada vale:

Con lo cual el estadístico de contraste dado en 10.4.7 vale:

Al ser |Z | = 1’1370 < 1’96 = Zc, podemos aceptar la hipótesis nula y afirmar
que las diferencias entre ambas eficacias no son significativas (hemos considerado
α = 5%).

242
Capítulo 11
REGRESIÓN Y CORRELACIÓN
Estadística - Capítulo 11

1. INTRODUCCIÓN
En los capítulos anteriores hemos estudiado el uso de la información muestral
para hacer inferencias, contrastar hipótesis o modificar opiniones acerca de las
características de una población estadística. En este capítulo nos ocuparemos de
un problema relacionado con lo anterior, que incluye dos o más variables: es el
de hacer inferencias acerca de la forma en que los cambios en un conjunto de
variables están relacionados con los cambios en otro conjunto. La descripción de
la naturaleza de la relación entre dos o más variables se llama análisis de regre-
sión, en tanto que la investigación y medida de la fuerza o grado de tal relación
se denomina análisis de correlación.

Aunque el problema de describir una variable sobre la base de otra u otras


variables fue estudiado por Laplace y Gauss en problemas relacionados con la
Física y la Astronomía, el nombre genérico de regresión proviene de los trabajos
de Sir Francis Galton en Biología a finales del siglo XIX. El trabajo de Galton se
centró en estudiar la dependencia de la estatura de los hijos (variable y) respecto a
la de sus padres (variable x) y descubrió lo que él denominó una “regresión” a la
media: los padres altos tienen, en general, hijos altos, pero en promedio no tan
altos como sus padres; los padres bajos tienen hijos bajos, pero en promedio
más altos que sus padres. Desde entonces, los modelos estadísticos que expli-
can la dependencia de una variable numérica y respecto de una o varias variables
numéricas x se denominan modelos de regresión; la variable y se suele denominar
variable respuesta mientras que la variable o variables x se conocen como variables
explicativas; en bastantes ocasiones a la variable respuesta se la suele llamar variable
dependiente y a las variables explicativas variables independientes.

Los modelos de regresión se pueden utilizar para estimar o predecir el valor


desconocido de la variable respuesta y sobre la base del valor o valores conocidos
de las variables explicativas x. En otros casos la regresión se utiliza para descri-
bir la relación entre algunos valores conocidos de la variable respuesta y de las
variables explicativas. Ya sea que se use el análisis de regresión con propósitos
descriptivos o predictivos, no puede esperarse que podamos predecir o describir
los valores exactos de la variable respuesta y a partir de las variables explicati-
vas x. Pueden existir muchos factores no previstos que causen variaciones, por

245
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

lo que nuestro interés radicará en determinar la relación promedio entre la variable


respuesta y la o las variables explicativas. Cuando sólo se tiene una variable
explicativa el modelo de regresión se dice que es simple mientras que si son
varias las variables explicativas se denomina múltiple. En cuanto a la forma de
relación entre la variable respuesta y las variables explicativas los modelos más
frecuentes suelen ser los lineales por varias razones: en primer lugar su tratamiento
matemático y estadístico es más sencillo, en segundo lugar porque en muchos
casos reales suelen proporcionar soluciones con una aproximación suficiente
para la mayoría de los fines prácticos, y en tercer lugar porque muchas relaciones
que teóricamente no son lineales pueden expresarse mediante un modelo de
regresión lineal haciendo transformaciones matemáticas sobre las variables
explicativas o sobre la variable respuesta.

2. EL MODELO DE REGRESIÓN LINEAL SIMPLE


En muchos casos de análisis de regresión se admite que la relación poblacional
promedio entre la variable respuesta (que se denota usualmente por la letra y)
y la variable explicativa (que se suele denotar con la letra x) es lineal, esto es,
para escribir una ecuación que represente la relación entre ambas variables se
utiliza la ecuación de una recta, denominada recta de regresión:

y = a + bx (11.2.1)

que queda determinada por dos parámetros, su pendiente, que representaremos


con la letra b, y su ordenada en el origen que denotaremos con la letra a. La
pendiente es una medida de la inclinación

de la recta, siendo positiva para rectas crecientes, negativa para rectas decre-
cientes y cero para rectas horizontales; se puede calcular dividiendo lo que
aumenta o disminuye y, ∆y, para un aumento dado de x, ∆x, esto es, b = ∆y/∆x.
La ordenada en el origen es el valor de y para x = 0.

246
Estadística - Capítulo 11

Fig. 11.2.1: Rectas con pendientes positiva y negativa

Para ilustrar el significado de la recta de regresión (11.2.1) vamos a suponer


que la variable explicativa x representa la valoración anual (en millones de pesetas,
166’386 pts. = 1 ¤ ) de los géneros decomisados como consecuencia de las actas
incoadas por el Servicio de Vigilancia Aduanera y que la variable respuesta y es
el importe total anual de las multas impuestas por los Tribunales de
Contrabando; los datos correspondientes a los años 1961 a 1985 son los que se
recogen en la tabla 11.2.1. Al calcular con SPSS la recta de regresión de y sobre
x se obtiene:

Coeficientesa
Coeficientes
Modelo estandarizados
B Error típ. Beta t Sig.
1 (costantes) -337,5926 231,0478 -1,461 ,158
COMISOS 5,9179 ,4061 ,950 14,573 ,000
a. Variable dependiente: MULTAS

y = –337’5926 + 5’9179 x (11.2.2)

cuya representación gráfica se muestra en la figura 11.2.2. El valor y es una esti-


mación de la valoración de las multas impuestas durante un año en el que se han
decomisado artículos por un valor de x millones de pts; así, si en un año se deco-
misaran artículos por 400 millones de pts. las multas impuestas se estimarían en
un total de:

247
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

y = –337’5926 + 5’9179´400 =
(11.2.3)
= 2029’57 millones de pts.

Si denotamos por xi e yi a una pareja concreta de datos observados (por


ejemplo xi = 1710’52, yi = 12977’10 para el año 1984) vemos que hay una
diferencia entre el valor observado yi y el valor previsto por la ecuación (11.2.2):

y = –337’5926 + 5’9179´1710’52 =
(11.2.4)
= 9785’09 millones de pts.

εi = yi – y(xi ) = 12977’10 – 9785’09 =


(11.2.5)
= 3192’01 millones de pts.

estas cantidades ei se denominan residuales y miden la diferencia entre los valores


observados y los calculados. Interesa por tanto que la recta que se ajuste a los
datos minimice de algún modo estos residuales.

Teniendo en cuenta la ecuación de la recta de regresión y los errores que se


van a cometer se puede escribir la siguiente expresión para el modelo de regre-
sión lineal simple:

y = a + bx + ε (11.2.6)

donde e es el error cometido al predecir el valor correcto de y por el que le asigna


la recta de regresión y(x) = a + bx. Si tenemos una pareja de observaciones (xi,
yi) entonces el error de predicción es:

εi = yi – y(xi ) = yi – a – bxi

248
Estadística - Capítulo 11

Año Multas Comisos Total


1961 131,53 30,63 162,16
1962 167,92 43,22 211,14
1963 149,64 35,84 185,48
1964 120,09 22,84 142,93
1965 246,54 52,77 299,31
1966 77,69 29,03 106,72
1967 81,06 29,61 110,67
1968 167,49 48,82 216,31
1969 1100,03 229,31 1329,34
1970 254,11 55,32 309,43
1971 829,90 155,04 984,94
1972 263,74 62,53 326,27
1973 449,31 100,81 550,12
1974 306,52 46,35 352,87
1975 272,65 76,00 348,65
1976 525,09 119,62 644,71
1977 1369,17 329,90 1699,07
1978 5362,16 1093,02 6455,18
1979 1416,42 345,97 1762,39
1980 5815,87 1187,60 7003,47
1981 2634,15 800,50 3434,65
1982 3942,50 916,96 4859,46
1983 2460,33 577,94 3038,27
1984 12977,10 1710,52 14687,62
1985 2070,45 624,47 2694,92
Tabla 11.2.1:Servicio de Vigilancia Aduanera, SVA
(en millones de pesetas, 166’386 pts. = 1 ¤)

Así pues, el modelo (11.2.6) viene a representar el modelo teórico que


pretende describir la relación existente entre la variable explicativa y la variable
respuesta. El problema estadístico consistirá en estimar los coeficientes a y b del

249
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

modelo (que son los parámetros desconocidos) así como la varianza σ2 del error
a partir de la observación de n parejas de datos (xi, yi), i = 1, 2, 3, ..., n. En el
ejemplo mencionado las n parejas de datos son los 25 pares de valores corres-
pondientes a los valores de comisos (x) y multas (y) correspondientes a los 25
años comprendidos entre 1961 y 1985.

Cuando se utiliza la recta de regresión para predecir el valor de la variable


respuesta hay que tener en cuenta las dos consideraciones siguientes de carácter
general:

I. La predicción puede carecer de sentido fuera del rango de valores obser-


vados de la variable explicativa o en las proximidades de sus extremos. En
el ejemplo citado podemos comprobar que para valores de x inferiores a
57’05 millones de pts. la recta de regresión (11.2.2) conduce a valores
negativos de las multas (y = –41’70 para x = 50), lo cual, evidentemente,
no es válido.

II. El error cometido al hacer predicciones con valores de x extremos


puede llegar a ser muy grande. Tal es lo que ocurre con los datos corres-
pondientes al año 1984, que para x = 1710’52 se comete un error por
defecto de 3192’01 (vea 11.2.4-5 y la siguiente figura).

Fig. 11.2.2: Sanciones motivadas por las actuaciones del Servicio de Vigilancia
Aduanera entre los años 1961 y 1985

250
Estadística - Capítulo 11

El problema señalado en i) de predecir valores negativos de las multas cuando


los comisos sean de pocos millones de pts. puede solventarse formulando un
modelo lineal con a = 0:

y = bx + ε (11.2.7)

lo que da una recta de regresión y = bx que pasa por el origen (y = 0, para x = 0).
Más adelante veremos que la propia interpretación estadística de los resultados
tiende a confirmar que para este ejemplo el modelo (11.2.7) es tan bueno o mejor
que el formulado anteriormente en (11.2.6).

3. RECTA DE REGRESIÓN MÍNIMO CUADRÁTICA


Uno de los procedimientos utilizados con mayor frecuencia para determinar
los valores de los parámetros a y b es el denominado método de los mínimos
cuadrados, consistente en buscar aquellos valores de a y b que minimicen la
suma de los cuadrados de los errores cometidos. Así pues, si las n parejas de
datos observados son (xi, yi ), i = 1, 2, 3, ..., n, y se utiliza la recta de ecuación
y = a + bx, entonces el error cometido en la i-ésima observación es εi = yi - a – bxi,
unos errores son positivos y otros negativos, sus cuadrados son siempre mayores
o iguales que cero (lo ideal sería que fueran cero), y la suma de todos los
cuadrados de los errores es:

(11.3.1)

Es claro que si encontramos valores de a y b que dan un valor pequeño a SCE


ello significará que los errores ei son pequeños y, por tanto, que los puntos
observados (xi , yi ) se encuentran próximos a la recta de regresión y = a + bx.
Por el contrario, si los valores de a y b son tales que dan un valor grande a SCE
entonces significará que alguno o varios de los puntos observados (xi , yi ) se
encuentran alejados de la recta de regresión propuesta. No vamos a realizar aquí
el procedimiento matemático de obtención de los valores óptimos de los
parámetros a y b, sino simplemente vamos a dar la solución que se obtiene:

251
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Pendiente de la recta de regresión mínimo-cuadrática:

(11.3.2)

Ordenada en el origen de la recta de regresión mínimo-cuadrática:

(11.3.3)

Recta de regresión mínimo cuadrática de Y sobre X:

(11.3.4)

Estimación centrada de la varianza σ2 de los errores ε:

(11.3.5)

donde hemos escrito el circunflejo sobre a y b para indicar explícitamente que


son valores estimados con los datos. En las expresiones (11.3.2 y 3) se utilizan
las siguientes notaciones:

I. X es la media de los valores observados de la variable explicativa:

(11.3.6)

II. Y es la media de los valores observados de la variable respuesta:

(11.3.7)

252
Estadística - Capítulo 11

III. SX 2 es la varianza de los valores observados de la variable explicativa:

(11.3.8)

IV. SXY es la covarianza muestral entre los valores observados de la


variable explicativa X y los de la variable respuesta Y:

(11.3.9)

Obsérvese que la recta de regresión (11.3.4) pasa por el centro de gravedad


de la nube de puntos (xi , yi ), i = 1, 2, 3, ..., n, esto es, cuando la variable expli-
cativa x toma su valor medio X a variable respuesta y toma el valor medio Y .
Obsérvese también que ha aparecido un concepto nuevo, es el de covarianza
muestral entre observaciones de dos series de datos que están apareados; por
(11.3.9) la covarianza está definida como “el promedio de los productos de las
desviaciones de cada observación a su media respectiva” y puede probarse que
también puede calcularse como “la media de los productos menos el producto
de las medias”.

El cálculo de la recta de regresión con el SPSS se hace utilizando el módulo


de Regresión  Simple; con los datos de las multas y comisos del Servicio de
Vigilancia Aduanera de la tabla 11.2.1 se obtiene la salida mostrada en la tabla
11.3.1. En esa salida se nos informa que en este análisis de regresión estamos
utilizando un modelo lineal (Modelo lineal: Y = a + bX), que la variable respuesta
son las MULTAS y la variable explicativa son los COMISOS, el valor estimado de
la ordenada en el origen es aˆ = –337’593 (Constante = –337,593), el valor esti-
mado de la pendiente es bˆ= 5’918 (COMISOS= 5,918) y la suma de cuadrados de
los errores vale SCE = 19146443 (Residual = 19146443, en la parte de la tabla
denominada “ANOVA”). La estimación centrada de la varianza del error es σ̂2 =
832454’056 (en la tabla del análisis de la varianza, Media cuadrática =
832454,056 que a su vez se obtiene dividiendo SCE por 23, que son los grados

253
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

de libertad “gl”), su raíz cuadrada es una estimación de la desviación típica de


los errores y vale (vea Resumen del modelo) σ̂ = (Error típ. de la estimación)
=912’38920.

Tabla 11.3.1: Salida de una regresión lineal para los datos de la tabla SVA.

254
Estadística - Capítulo 11

En la parte correspondiente al análisis de la varianza aparece lo que se denomina


suma de cuadrados total, que abreviadamente suele escribirse en la forma SCT,
se trata de la suma de los cuadrados de las desviaciones de cada observación de
la variable respuesta yi a su media Y :

(11.3.10)

y posee n – 1 grados de libertad (gl = 24), en consecuencia, si queremos


calcular la varianza de las observaciones de la variable respuesta basta que
dividamos SCT por n, y si queremos la cuasivarianza la dividimos por n – 1:

(11.3.11)

(11.3.12)

La diferencia entre la suma de cuadrados total y la de los errores es la variabi-


lidad explicada por el modelo de regresión lineal, se suele denominar suma de
cuadrados de la regresión, se denota abreviadamente por SCR y tiene un grado
de libertad (Regresión (Suma de cuadrados) = 176781182, gl = 1):

SCR = SCT – SCE =


= 195927625 – 19146443 = 176781182 (11.3.13)

El resto de la salida lo comentaremos en los siguientes apartados.

4. EL COEFICIENTE DE CORRELACIÓN LINEAL


La covarianza tiene unas dimensiones físicas que dependen de las unidades
de medida de las variables x e y, por ello suele normalizarse dividiendo su valor
por el producto de las desviación típicas de ambas variables, con lo cual se obtiene
un número que es independiente de las unidades de medida con que se estén
tomando los datos; este valor se conoce como coeficiente de correlación lineal o
de Pearson, su expresión analítica es la siguiente:

255
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

(11.4.1)

Si de esta ecuación despejamos la covarianza vemos que podemos escribir


también:

SXY = r SX SY (11.4.2)

esto es: “La covarianza es el producto del coeficiente de correlación lineal por las
desviaciones típicas de las variables”. Si esta expresión de la covarianza la susti-
tuimos en la fórmula (11.3.4) de la recta de regresión obtenemos:

(11.4.3)

o lo que es equivalente:

(11.4.4)

que conduce a la siguiente regla mnemotécnica para la ecuación de la recta de


regresión de ,Y sobre X:

“La ecuación de la recta de regresión se puede obtener igualando los valores


tipificados de la variable respuesta al producto del coeficiente de correlación
lineal por los valores tipificados de la variable explicativa”.

En (11.4.3) vemos que la pendiente de la recta de regresión es bˆ= r SY /SX ,


y como las desviaciones típicas son magnitudes no negativas resulta que el signo
de la pendiente de la recta de regresión es el mismo que el del coeficiente de
correlación lineal; por ello podemos hacer las siguientes afirmaciones (vea
también la figura 11.4.1):

“Si el coeficiente de correlación lineal es positivo la recta de regresión lineal


es creciente, por lo que al aumentar los valores de la variable explicativa tienden
a aumentar los valores de la variable respuesta.

256
Estadística - Capítulo 11

Por el contrario, si el coeficiente de correlación lineal es negativo entonces la


recta de regresión lineal es decreciente y al aumentar los valores de la variable
explicativa tienden a disminuir los valores de la variable respuesta.

Por último, si el coeficiente de correlación lineal es nulo entonces la recta de


regresión es constante y, por término medio, los valores de la variable respuesta
no dependen del valor que tome la variable explicativa”.

Fig. 11.4.1: Interpretación geométrica del coeficiente de correlación lineal

Conviene poner de manifiesto que la existencia de una correlación entre dos


variables no significa que haya una relación causa-efecto entre ambas, en el
sentido de que al modificar artificialmente una de ellas se vaya a modificar la
otra. Un ejemplo puede aclarar esto, supongamos que tenemos datos de varias
ciudades relativos al número de policías que hay (que tomaremos como variable
explicativa x) y al número de delitos cometidos en un determinado mes (que
tomaremos como variable respuesta y); al calcular el coeficiente de correlación
entre ambas variables encontraremos una correlación positiva entre ambas, es
decir, en aquellas ciudades con más policías hay más delitos y viceversa, y
evidentemente no hay una relación causa-efecto entre el número de policías y el
número de delitos cometidos, es decir, si en una ciudad se disminuye el número
de policías no disminuye la delincuencia, y si se aumenta el número de policías
no aumenta la delincuencia, sino todo lo contrario; ¡a nadie se le ocurriría dismi-
nuir las fuerzas policiales con objeto de reducir los niveles de delincuencia!, a
pesar de existir una correlación positiva. Lo que está ocurriendo en este caso es
que ambas variables dependen fuertemente de otros factores, como es el tamaño
de la ciudad (número de habitantes) por ejemplo, que hacen que al variar éstos
de unas ciudades a otras aumenten o disminuyan simultáneamente tanto el
número de delitos al mes como las fuerzas de seguridad destinadas a esas
zonas.

257
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Una propiedad importante del coeficiente de correlación lineal es la que se


deriva de su relación con la suma de cuadrados de los errores, se demuestra que:

(11.4.5)

y como SCE ≥ 0 deberá ser r2 ≤ 1; además, cuanto mayor sea r2 tanto más pequeña
será la suma de cuadrados de los errores y, en consecuencia, los pares de datos
observados (xi, yi) se encontrarán más próximas a la recta de regresión; con lo
cual podemos establecer las siguientes afirmaciones:

“El coeficiente de correlación lineal es un número comprendido entre menos


uno y más uno. Cuanto más próximo es a uno o menos uno tanto mejor es el
ajuste entre los datos observados y la recta de regresión, y cuanto más próximo
a cero tanto peor”.

debido a esto podemos utilizar el coeficiente de correlación lineal r, o su cua-


drado r2 que se denomina coeficiente de determinación, como una medida del
grado de asociación o dependencia lineal entre dos variables.

La suma de cuadrados total, SCT, representa la variabilidad de los datos


antes de ajustarles la recta de regresión; la suma de los cuadrados de los errores,
SCE, es la variabilidad que queda después de haber ajustado la recta de regre-
sión, por lo que su diferencia:

SCR = SCT – SCE (11.4.6)

es la variabilidad explicada o eliminada por la recta de regresión. Teniendo en


cuenta (11.3.11) y (11.4.5) vemos que en términos relativos esta variabilidad
explicada por la recta de regresión representa la siguiente fracción del total:

(11.4.7)

así pues, podemos decir que:

258
Estadística - Capítulo 11

“El coeficiente de determinación r2 representa la proporción de variabilidad


explicada por la recta de regresión”.

y debido a ello suele multiplicarse por 100 y darse en tanto por cien. En la salida
proporcionada por el SPSS (Tabla 11.3.1, Resumen del modelo) vemos que se nos
informa del valor del coeficiente de correlación, r (R) = 0’949883, así como de
su cuadrado, r2 (R cuadrado) = 0,902278 = 90,23 %. Podemos también comprobar
que se cumple la relación (11.4.7):

El coeficiente de determinación corregido o ajustado es:

Donde: k es el número de variables independientes que han intervenido y n


el número de casos. En nuestro ejemplo:

El valor del coeficiente de determinación corregido (es más real que el no


ajustado), Rc2 , nos indica que por cada 100 predicciones que hagamos más de
89 son correctas (con error pequeño).

5. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS EN


LA RECTA DE REGRESIÓN Y = A + BX

a) Aplicación a los Coeficientes a y b


Los coeficientes a y b de la recta de regresión de Y sobre X, y = a + bx, se
han calculado estimándolos por medio de las ecuaciones (11.3.2 y 3) obtenidas

259
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

por el método de mínimos cuadrados, y es claro que estas dos estimaciones


dependen de la muestra con que se haya trabajado; por ello, si la muestra es
aleatoria, o mejor dicho si los errores e son aleatorios, los valores estimados aˆ y bˆ
presentarán una cierta incertidumbre o variabilidad que viene medida por medio
de un error estándar o desviación típica que se muestra en la salida dada por el
SPSS (vea la Tabla 11.3.1, Coeficientes):

(11.5.1)

(11.5.2)

La tabla anterior (coeficientes) nos proporciona los intervalos para la ordenada


en el origen a, que puede tomar un valor comprendido entre –815’55 y 140’366,
mientras que la pendiente b puede oscilar entre 5’078 y 6’758. Obsérvese que
la ordenada en el origen a puede considerarse que es cero ya que este valor se
encuentra dentro del intervalo de confianza, lo que conduciría a un modelo lineal
de la forma y = bx + e; en cambio la pendiente b es distinta de cero y positiva.

Con la terminología de las pruebas estadísticas las hipótesis nulas y alterna-


tivas son las siguientes:

Ordenada en el origen:H0: a = 0, H1: a ≠ 0 (11.5.3)

Pendiente:H0: b = 0, H1: b ≠ 0 (11.5.4)

Para no tener que consultar tablas estadísticas el programa SPSS da las sig-
nificaciones muestrales p (Sig.) que tienen las hipótesis nulas; si estos valores
son menores o iguales que a se rechaza la hipótesis nula, y si son mayores que
a se acepta la hipótesis nula correspondiente. Con los datos de nuestro ejemplo
y un error de tipo I del 5% = 0’05 vemos que se acepta la hipótesis nula a = 0 ya
que p = 0’158 > 0’05 = α (Sig (Constante) = ,158) y que para la pendiente se
rechaza la hipótesis nula (b = 0) por ser p = Sig. (COMISOS) = 0’000 < 0,05 = α.

b) Aplicación a una Predicción y (x)


Uno de los usos más importantes de la recta de regresión mínimo cuadrática
es la obtención de predicciones de la variable respuesta para algún valor dado
de la variable explicativa. Para obtener la mejor estimación puntual de las

260
Estadística - Capítulo 11

predicciones del valor medio ym = a + bx, esto es, del valor que tendría y sobre
la recta de regresión teórica, así como del valor real de la observación y = a + bx + ε,
dado el valor x de la variable explicativa, basta con sustituir x en la recta de
regresión calculada, obteniendo en ambos casos:

(11.5.5)

que es una estimación centrada tanto de ym como para un valor aislado y. Para
un total anual decomisado de 1500 millones de pts. estimamos un total de mul-
tas por valor de:

En la siguiente figura 11.5.1 se muestran las bandas de confianza del 95%


dibujadas con los datos del ejemplo sobre multas y comisos. Estas curvas dan
los límites de confianza para las predicciones de los valores de la variable
respuesta y de sus valores esperados; las franjas centrales limitan la banda de
confianza del 95% para los valores esperados o recta de regresión teórica, mientras
que las líneas externas determinan la banda de confianza del 95% para los valores
de las multas, por ello, el 95% aproximadamente de la nube de puntos se encon-
trará entre las bandas externas.

Fig. 11.5.1: Ejemplos de bandas de confianza

261
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

c) Estudio de la Bondad del Ajuste


En la salida proporcionada por el SPSS hay una parte denominada Análisis de
la Varianza (ANOVA en forma abreviada) que proporciona información sobre la
bondad del ajuste realizado, permitiendo decidir si no hay ajuste (hipótesis nula
H0) y en consecuencia no hay una relación lineal entre la variable respuesta y la
variable explicativa o, por el contrario, que hay ajuste (hipótesis alternativa H1)
y existe una relación o asociación estadística de tipo lineal entre la variable
respuesta y la variable explicativa:

H0 : No hay Ajuste (no hay relación lineal)


(11.5.6)
H1 : Hay Ajuste (hay relación lineal)

En la tabla ANOVA se está descomponiendo la variabilidad total, representada


por la suma de cuadrados total SCT, en sus dos fuentes: la variabilidad eliminada
por el modelo de regresión, denotada por SCR, más la variabilidad residual
o debida a los errores SCE. La ecuación básica que ya hemos utilizado en otras
ocasiones es:

SCT = SCR + SCE (11.5.7)

Estas variabilidades o sumas de cuadrados llevan asociados unos “grados de


libertad” (gl) que dependen del número de datos y de parámetros que tiene el
modelo de regresión. Los cocientes entre las sumas de cuadrados y sus respec-
tivos grados de libertad es lo que se denomina “cuadrados medios”, así por ejemplo,
en la Tabla 11.3.1 tenemos:

CMR = SCR/gl(Regresión) = 1’77 x 108

CME =SCE/gl(Error) = 832454’056

El cociente F = CMR/CME entre el cuadrado medio de la regresión y el del


error (o residual), es lo que se conoce como valor F, cociente F, F observada, etc.,
y va a ser el valor observado del estadístico de contraste utilizado para efectuar
el contraste de hipótesis planteado en (11.5.7), en nuestro ejemplo es:

F = Fobs = CMR/CME = 212’361

262
Estadística - Capítulo 11

Es claro que cuanto mayor sea el valor observado de F tanto mayor será el
cuadrado medio de la regresión, CMR, y tanto menor el cuadrado medio del
error, CME; recíprocamente, cuanto menor sea el valor observado de F tanto
menor será CMR y tanto mayor CME. En consecuencia los valores grandes de F
están asociados a modelos cuya variabilidad explicada es grande (hipótesis H1),
mientras que los valores pequeños de F se asocian con modelos que explican
poca variabilidad (hipótesis H0). Así pues, por debajo de un cierto valor crítico Fc
(Región de Aceptación) se acepta la hipótesis nula y por encima (Región Crítica)
se rechaza; la regla de decisión queda por tanto de la siguiente manera:

Si Fobs < Fc se acepta H0 :No hay Ajuste


(11.5.8)
Si Fobs ≥ Fc se acepta H1 : Hay Ajuste

en donde, fijado el error α de tipo I, el valor crítico Fc hay que consultarlo en unas
tablas estadísticas conocidas como tablas de la distribución F de Snedecor. Para
no tener que consultar tablas el programa el SPSS (y muchos otros programas
estadísticos) proporcionan la significación muestral de la hipótesis nula, que
suele denotarse con p y que en nuestro caso es prácticamente cero (Sig = ,000);
de este modo la regla de decisión es como sigue (forma estándar para todos los
contrastes de hipótesis, aceptar la hipótesis nula si p > α y rechazarla cuando
sea p ≤ α):

Si p > α se acepta H0 :No hay Ajuste


(11.5.9)
Si p ≤ α se acepta H1 :Hay Ajuste

Como en el ejemplo que estamos considerando es p ≈ 0 < α = 0’05 = 5%


rechazaremos la hipótesis nula y por tanto aceptaremos que hay ajuste, esto es,
hay una cierta relación lineal entre la variable respuesta (total de multas impuestas
en un año) y la variable explicativa (valor de lo decomisado en un año).

Otra forma de decidir si el ajuste por una recta de regresión y = a + bx es


bueno o no consiste en contrastar las siguientes hipótesis:

H0 : b = 0
(11.5.10)
H1 : b ≠ 0

263
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

que es equivalente al formulado en (11.5.6), pues si b = 0 significa que y no


depende linealmente de x (no hay relación lineal, no hay ajuste), mientras que si
b ≠ 0 significa que la variable respuesta y está relacionada linealmente con la
variable explicativa x (hay relación lineal, hay ajuste); la regla de decisión es la
que se comentó para (11.5.8).

6. REGRESIÓN A TRAVÉS DEL ORIGEN


En ocasiones la recta de regresión que se ajusta se la obliga a que pase por
el origen de coordenadas, esto es, se fuerza a que la ordenada en el origen sea
cero (a = 0) y en consecuencia a que la variable respuesta tome el valor cero
cuando la variable explicativa sea cero. La ecuación de la recta de regresión será
por tanto de la forma:

y = bx (11.6.1)

y el modelo de regresión para las observaciones:

y = bx + ε (11.6.2)

donde ε es el error que se comete al predecir el valor correcto de y por el que le


asigna la recta de regresión y(x) = bx. Si tenemos un par de observaciones (xi , yi )
entonces el error de predicción en ese caso es εi = yi – y(xi ) = yi – bxi. La suma
de cuadrados de los errores es:

(11.6.3)

y el valor de b que minimiza esta expresión es el siguiente:

(11.6.4)

donde XY es el promedio de los productos de los valores de X por los de Y,


y X 2 el promedio de los cuadrados de los valores de X. La notación que estamos
utilizando es la siguiente:

(11.6.5)

264
Estadística - Capítulo 11

La suma de cuadrados de los errores vale ahora lo siguiente:

(11.6.6)

y tiene n – 1 grados de libertad. La varianza de los errores e se estima por:

(11.6.7)

La recta de regresión calculada con el SPSS nos permite la opción de hacer


a = 0, para ello hay que hacer Regresión  lineal  opciones (desactivar: incluir
constante en la ecuación). Aplicándolo a los datos de las multas y los comisos
obtenemos lo siguiente:

Tabla 11.6.1: Salida de una regresión lineal por el origen para los datos del SVA

Variables introducidas/eliminadasb,c
Variables Variables
Modelo Método
introducidas eliminadas
1 COMISOS ª , Introducir
a. Todas las variables solicitadas introducidas
b. Variable dependiente: MULTAS
c. Regresión lineal a traves del origen

Resumen del modelo

R cuadrado Error típ. de


Modelo R R cuadrado
corregida la estimación
1 ,961 b ,923 ,919 933,71276

a. Para la regresión a través del origen (el modelo sin térrmino de intersección),
R cuadrado mide la proporción de la variabilidad de la variable dependiente expli-
cado por la regresión a través del origen. NO SE PUEDE comparar lo anterior con
la R cuadrado para los modelos que incluyen una intersección

b. Variables predictoras: COMISOS

265
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

ANOVAc,d
Suma de cua- Media
Modelo gl F Sig.
drados cuadrática
1 Regresión 249624046 1 2,50E+08 286,325 ,000ª
Residual 20923668 24 871819,516
Total 270547714b 25
a. Variables predictoras: COMISOS
b. Variable dependiente: Delitos Esclarecidos
c. Variables dependientes: MULTAS
d. Regresión lineal a través del origen

Coeficientesa,b

Coeficientes no Coeficientes
Modelo estandarizados estandarizados
B Error típ. Beta t Sig.
1 COMISOS 5,554 ,328 ,961 16,921 ,000

a. Variable dependiente: MULTAS


b. Regresión lineal a través del origen

El modelo ajustado es y = bx + e, siendo x los comisos e y las multas, la esti-


mación de la pendiente es bˆ = 5’554 y su desviación típica estimada vale σ̂ ( bˆ )
=0’328 (Error tip.) según se desprende de la tabla de Coeficientes; en esta misma
tabla vemos que b ≠ 0 ya que para este coeficiente se obtiene una significación
p < 0’05 (Sig. = ,000). Vemos que el ajuste es estadísticamente bueno bien porque
b ≠ 0 o bien porque en la tabla ANOVA obtenemos una significación p < 0’05
(p=Sig = ,000). La varianza de los errores la estimamos con el cuadrado medio
del error CME = σ̂ 2 = 871819’516 (Media Cuadrática, Residual) y su raíz cuadrada
nos da σ̂ = 933’71276 (Error tip. de la estimación). El coeficiente de determina-
ción corregido (R cuadrado corregida) = Rc2 0’919 = 91’9%, es decir, esta recta
que pasa por el origen explica un 91’9% de la variabilidad.

7. REGRESIÓN LINEAL MÚLTIPLE


Cuando las variables explicativas son varias entonces la regresión se dice
que es múltiple y si estas variables intervienen de forma lineal entonces es cuando
se obtiene el modelo lineal de regresión múltiple:

266
Estadística - Capítulo 11

Y = a + b1X1 + b2X2 + ... + bpXp + ε (11.7.1)

donde Y es la variable respuesta cuyos valores se interpretan a través de las p


variables explicativas X1, X2, ..., Xp y ε representa un error aleatorio con media
cero y varianza σ2; el coeficiente a es la ordenada en el origen o término
independiente. El procedimiento de cálculo de los parámetros del modelo es
también el basado en el método de mínimos cuadrados, y la interpretación de
los resultados es muy similar al efectuado para la recta de regresión.

A modo de ejemplo, vamos a tomar unos datos de la Policía Judicial de


Cataluña (vea la siguiente Tabla 11.7.1) y vamos e intentar expresar el número de
delitos esclarecidos (variable respuesta) en términos del número de funcionarios
y del número de detenidos (variables explicativas). El cálculo con EL SPSS se hace
utilizando Regresión  lineal, la variable dependiente o respuesta son los Delitos
Esclarecidos (Delescla) y las independientes o explicativas el Número de
Funcionarios en la Policía Judicial (FPJ) y el Número de Detenidos (Deten). Los
resultados del ajuste (11.7.1) con la opción seleccionada incluir constante en la
ecuación a son los que se muestran en la Tabla 11.7.2. En la parte correspondiente
a la tabla ANOVA vemos que el ajuste es estadísticamente bueno, ya que la
significación muestral es p = 0’000 < 0’05 (p = Sig = ,000), los coeficientes
correspondientes a las variables explicativas FPJ y Deten son significativamente
distintos de cero (ver tabla de coeficientes) ya que sus significaciones muestrales
son p < 0’05 (Sig. de FPJ = ,000 y Sig. De Deten = ,000), en cambio el término
independiente a puede ser cero ya que su significación muestral es p = 0’715 >
0’05 (Sig. Constante = ,715); a estas mismas conclusiones llegamos observando
los intervalos de confianza del 95% de estos coeficientes:

–4’748 < a < 6’840 (a puede ser cero)

0’471 < b1 < 0’906 (coef. de FPJ positivo)

0’474 < b2 < 1’193 (coef. de Deten positivo)

Esto nos indica que existe una dependencia lineal del número de delitos
esclarecidos con el número de funcionarios y el número de detenidos, además el
modelo lineal con a = 0 puede explicar bastante bien esta relación.

267
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Tabla 11.7.2: Salida para el modelo Y = a + b1X1 + b2X2 + ε

Variables introducidas/eliminadasb

Variables Variables
Modelo Método
introducidas eliminadas
Nº Detenidos
1 Nº Funcionarios , Introducir
Pol. Judicial

a. Todas las variables solicitadas introducidas


b. Variable dependiente: Delitos Esclarecidos

Resumen del modelo

R cuadrado Error típ. de


Modelo R R cuadrado
corregida la estimación
1 ,969 ª ,939 ,936 9,471

a. Variables predictoras: (Constante), Nº Detenidos, Nº Funcionarios Pol. Judicial

ANOVAb

Suma de cua- Media


Modelo gl F Sig.
drados cuadrática

1 Regresión 44570,864 2 22285,432 248,455 ,000ª


Residual 2870,279 32 89,696
Total 47441,143 34
a. Variables predictoras: (Constante), Nº Detenidos, Nº Funcionarios Pol. Judicial
b. Variable dependiente: Delitos Esclarecidos

Coeficientesª
Coeficientes no Coeficientes Intervalo de confianza
estandarizados estandarizados para B al 95%
Modelo
Límite Límite
B Error típ. Beta t Sig. inferior superior
1 (Constante) 1,046 2,844 ,368 ,715 -4,748 6,840
Nº Funcionarios
,688 ,107 ,577 6,436 ,000 ,471 ,906
Pol. Judicial
Nº Detenidos ,834 ,177 ,423 4,724 ,000 ,474 1,193

a. Variable dependiente: Delitos Esclarecidos

268
Estadística - Capítulo 11

Dependencia Funcionarios Total Delitos


P.J. Detenidos Esclarecidos
Barcelona B.P.P.J. 191 111 226
Barcelona Zonal I 19 39 41
Barcelona Zonal II 12 21 21
Barcelona Zonal III 12 20 16
Badalona 10 32 68
Casteldefels -Gavé 10 7 10
Cornellá-Esplugas 5 5 4
Granollers 7 17 14
Hospitalet de Llobregat 5 42 37
Igualada 3 2 4
Manresa 6 21 37
Mataró 7 11 9
Moncada y Reixach 3 9 12
Prat de Llobregat 3 6 14
Ripollet 3 12 19
Rubí 5 17 29
Sabadell 12 19 38
San Adrián de Besós 8 19 18
San Baudilio de Llobregat 4 15 9
San Cugat de Vallés 6 15 23
San Felíu de Llobregat 3 6 17
Santa Coloma de Gramanet 9 14 24
Sardañola 6 16 29
Tarrasa 7 28 25
Vich 4 21 11
Viladecans 6 15 20
Villanueva y Geltrú 5 9 8
Gerona B.P.P.J. 12 34 22
Figueras 7 7 9
Lloret de Mar 6 13 8
San Felíu de Guixols 6 2 3
Lérida B.P.P.J. 14 36 37
Tarragona B.P.P.J. 10 20 16
Reus 4 6 14
Tortosa 3 11 8
TOTAL REGIONAL 433 678 900
Tabla 11.7.1: Análisis de Servicios de la Policía Judicial de la J.S.P. de Barcelona
correspondientes al mes de mayo de 1991

269
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Los resultados obtenidos para el caso en que consideremos el término


independiente cero son los que se muestran en la Tabla 11.7.3. En la parte del
análisis de la varianza observamos que el ajuste es bueno, p < 0’05 (p = Sig = ,000),
los coeficientes son significativamente distintos de cero:

bˆ1 = 0’665 (p = 0’000 < 0’05) (11.7.2)

bˆ2 = 0’885 (p = 0’000 < 0’05) (11.7.3)

tenemos también los intervalos de confianza del 95 %:

0’491< b1 < 0’839 y 0’670 < b2 < 1’100

la varianza del error viene estimada por σ̂ 2 = CME = 87’346 (Residual: Media
cuadrática), (vea Error tip. de la estimación) y la
relación:

Delitos Escl. = 0’665xNºFuncPJ + 0’885xDetenidos (11.7.4)

explica un 95’7% de la variabilidad de los datos (R cuadrado corregida).


Obsérvese que el porcentaje de variabilidad explicada con (11.7.4) es muy similar,
e incluso algo superior, al porcentaje de variabilidad explicada con a 1 0 (R
cuadrado corregida = 0’936, Tabla 11.7.2).

Tabla 11.7.3: Salida para el modelo Y = b1X1 + b2X2 + e (a = 0)

Variables introducidas/eliminadas b,c

Variables Variables
Modelo Método
introducidas eliminadas
Nº Detenidos
1 Nº Funcionarios , Introducir
Pol. Judicial ª

a. Todas las variables solicitadas introducidas


b. Variable dependiente: Delitos Esclarecidos
c. Regresión lineal a través del origen

270
Estadística - Capítulo 11

Resumen del modelo

R cuadrado Error típ. de


Modelo R R cuadrado ª
corregida la estimación
1 ,979 b ,959 ,957 9,346

a. Para la regresión a través del origen (el modelo sin término de intersección),
R cuadrado mide la proporción de la variabilidad de la variable dependiente
explicado por la regresión a través del origen. NO SE PUEDE comparar lo anterior
con la R cuadrado para los modelos que incluyen una intersección.
b. Variables predictoras: Nº Detenidos, Nº Funcionarios Pol. Judicial

ANOVAc,d

Suma de cua- Media


Modelo gl F Sig.
drados cuadrática

1 Regresión 67701,592 2 33850,796 387,550 ,000ª


Residual 2882,408 33 87,346
Total 70584,000 35

a. Variables predictoras: Nº Detenidos, Nº Funcionarios Pol. Judicial


b. Esta suma de cuadrados total no se ha corregido para la constante porque
la constante es cero para la regresión a través del origen.
c. Variable dependiente: Delitos Esclarecidos
d. Regresión lineal a través del origen

Coeficientesa,b

Coeficientes no Coeficientes Intervalo de confianza


estandarizados estandarizados para B al 95%
Modelo
Límite Límite
B Error típ. Beta t Sig. inferior superior
1 Nº Funcionarios
,665 ,086 ,493 7,778 ,000 ,491 ,839
Pol. Judicial
,885 ,106 ,531 8,383 ,000 ,670 1,100
Nº Detenidos

a. Variable dependiente: Delitos Esclarecidos


b. Regresión lineal a través del origen

271
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Si con la fórmula (11.7.4) calculamos los valores ajustados así como los resi-
duales obtenemos los resultados mostrados en la siguiente Tabla 11.7.4, que
puede calcularse con el propio programa SPSS.

Nº pred_1 res_1 zpr_1 zre_1 lici_1 unici_1


1 225,37073 ,62927 5,48792 ,06733 198,59457 252,14688
2 47,17219 -6,17219 ,59792 -,66042 27,25675 67,08763
3 26,57769 -5,57769 ,03278 -,59681 7,32679 45,82860
4 25,69233 -9,69233 ,00849 -1,03707 6,47123 44,91343
5 (*) 34,98586 33,01414 ,26352 3,53248 15,18802 54,78369
6 12,85175 -2,85175 -,34387 -,30513 -6,18726 31,89077
7 7,75392 -3,75392 -,48376 -,40167 -11,26982 26,77766
8 19,70913 -5,70913 -,15570 -,61087 ,50046 38,91781
9 40,51239 -3,51239 ,41517 -,37582 19,75927 61,26551
10 3,76699 ,23301 -,59317 ,02493 -15,24958 22,78356
11 22,58517 14,41483 -,07678 1,54237 3,21606 41,95428
12 14,39695 -5,39695 -,30147 -,57747 -4,67733 33,47123
13 9,96454 2,03546 -,42310 ,21779 -9,11108 29,04016
14 7,30845 6,69155 -,49599 ,71599 -11,72734 26,34424
15 12,62063 6,37937 -,35022 ,68259 -6,51647 31,75773
16 18,37829 10,62171 -,19222 1,13651 -,86647 37,62305
17 24,80696 13,19304 -,01581 1,41164 5,61331 44,00061
18 22,14528 -4,14528 -,08885 -,44354 2,89172 41,39884
19 15,94214 -6,94214 -,25907 -,74280 -3,25910 35,14339
20 17,27298 5,72702 -,22255 ,61278 -1,89543 36,44139
21 7,30845 9,69155 -,49599 1,03699 -11,72734 26,34424
22 18,38388 5,61612 -,19206 ,60092 -,72667 37,49443
23 18,15835 10,84165 -,19825 1,16004 -1,03764 37,35434
24 29,44814 -4,44814 ,11155 -,47595 9,77481 49,12147
25 21,25433 -10,25433 -,11330 -1,09720 1,83350 40,67516
26 17,27298 2,72702 -,22255 ,29179 -1,89543 36,44139
27 11,29538 -3,29538 -,38658 -,35260 -7,76360 30,35435
28 38,08743 -16,08743 ,34863 -1,72134 18,24029 57,93456
29 10,85549 -1,85549 -,39865 -,19854 -8,17725 29,88823
30 15,50226 -7,50226 -,27114 -,80273 -3,61811 34,62263
31 5,76325 -2,76325 -,53839 -,29566 -13,26501 24,79151
32 41,18899 -4,18899 ,43374 -,44822 21,28981 61,08818
33 24,36149 -8,36149 -,02803 -,89467 5,11037 43,61260
34 7,97387 6,02613 -,47773 ,64479 -11,05769 27,00542
35 11,73527 -3,73527 -,37451 -,39967 -7,37895 30,84948
Tabla 11.7.4: Análisis de residuales para el modelo con a = 0
(*) Residuales superiores a 3 sigmas

272
Estadística - Capítulo 11

En ella vemos que todos los residuales estandarizados (zre_1)están dentro


de los límites ± 2, e incluso dentro de ± 3, excepto el correspondiente a la obser-
vación nº 5, que es la de Badalona, que vale 3’53248; esto significa que los delitos
esclarecidos en Badalona en mayo de 1991 no se ajustan a los que le correspon-
derían en términos del número de funcionarios que hay (10) y de los detenidos
en ese mes (32 personas), en este caso los delitos esclarecidos, que han sido 68,
superan con creces a los previstos o ajustados, que son 35 (pred_1 = 34,98586).
Obsérvese la utilidad de los residuales estandarizados para detectar casos cuyo
comportamiento se separa estadísticamente de los demás, bien sea por más o
por menos. En las últimas dos columnas de la tabla se recogen los intervalos de
confianza (lici_1, unici_1), para una confianza del 95%.

8. OTRAS MEDIDAS DE CORRELACIÓN

a) Correlación de Spearman
Es frecuente que las unidades estadísticas de una muestra se ordenen
respecto de una cierta característica observada, para lo cual es necesario que tal
característica sea numérica o, al menos, ordinal. Tal es el caso de ordenar un
conjunto de individuos en función de sus tallas, o de una calificación obtenida
en una prueba, o un conjunto de objetos según la preferencia de un cierto suje-
to, o unos acontecimientos según su gravedad, etc. El número de orden (1, 2, 3,
..., n) que cada unidad estadística ocupa dentro de la ordenación establecida se
denomina rango; pues bien, si una misma muestra se ordena según dos carac-
terísticas entonces tendremos pares de rangos (x1, y1), (x2, y2), ..., (xn, yn),
donde x1 es el rango que le corresponde a la unidad estadística 1 en la primera
ordenación e y1 el que le corresponde según la segunda ordenación, x2 e y2 los
rangos que le corresponden a la unidad estadística 2 según la primera ordena-
ción y según la segunda respectivamente, etc. En este caso se llama correlación
de Spearman a la correlación ordinaria (de Pearson) que hay entre los rangos (x1,
y1), (x2, y2), ..., (xn, yn); el coeficiente de correlación de Spearman lo representare-
mos por rS y puede calcularse mediante la fórmula siguiente:

273
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

donde di = xi – yi es la diferencia entre los rangos asociados a la unidad estadís-


tica i (i = 1, 2, ..., n). Ocasionalmente puede ocurrir que dos o más unidades
(11.8.1)
estadísticas reciban el mismo rango respecto de una determinada ordenación;
cuando ocurren empates en los rangos a cada uno de ellos se les asigna el
promedio de los rangos que se les habría asignado de no haber ocurrido los
empates. El efecto de rangos empatados es una ligera modificación en el cálculo de
la correlación de Spearman por la fórmula (11.8.1), por lo que esta deja de ser
exacta y da sólo un valor aproximado de rS (el valor exacto habría que calcularlo uti-
lizando el coeficiente de correlación de Pearson entre los rangos asignados xi e yi ).

Vamos a calcular el coeficiente de correlación de Spearman entre hechos denun-


ciados y esclarecidos por distintas Brigadas de Seguridad Ciudadana (Junio de
1991, Unidades de Distrito de Madrid, datos en la siguiente Tabla 11.8.1). Una vez
tenemos recogidos los datos calculamos los rangos para ambas clasificaciones
Ejemplolos
(según 11.8.1.hechos denunciados y según los hechos
esclarecidos).

Al ordenar de menor a mayor según los hechos denunciados resulta que la


B.S.C. con menor número de denuncias es Usera, luego Vallecas, después
Carabanchel, etc. y así hasta Centro que es la de mayor número de denuncias,
por eso les asignamos los rangos 1, 2, 3, ... y 19 respectivamente; pero en los
casos de Tetuán y Universidad resulta que ambas presentan el mismo número de
hechos denunciados, 507, y los rangos que les corresponderían son el 10 y el
11, por lo que a cada una de estas dos B.S.C. se les asigna el rango medio que
es 10,5.

Al ordenar de menor a mayor según el número de hechos esclarecidos


encontramos en primer lugar Entrevías con 36 (asignamos rango 1), luego
Tetuán con 50 (asignamos rango 2), etc., y terminamos con Centro que tiene 440
hechos esclarecidos y a la que asignamos rango 19; en esta ordenación no han
aparecido rangos empatados.

Ahora basta calcular las diferencias di = xi – yi, luego sus cuadrados di2,
sumarlas y aplicar la fórmula (11.8.1):

274
Estadística - Capítulo 11

Tabla 11.8.1: Cálculo de una correlación de Spearman

(11.8.2)

Denuncias Rangos
H. Den. H. Esc. di2
B.S.C. H. Den. H. Esc. di = xi – yi
(xi) (yi)
Arganzuela 390 128 5 10 –5 25,00
Buenavista 499 159 8 13 –5 25,00
Carabanchel 348 70 3 4 –1 1,00
Cármenes, Los 416 76 6 5 1 1,00
Centro 1369 440 19 19 0 0,00
Chamartín 1244 122 18 9 9 81,00
Chamberí 680 212 15 18 –3 9,00
Entrevías 525 36 13 1 12 144,00
Estrella, La 1088 186 17 16 1 1,00
Fuencarral 810 183 16 15 1 1,00
Latina, La 549 111 14 7 7 49,00
Mediodía 504 115 9 8 1 1,00
Retiro 386 162 4 14 –10 100,00
San Blas 516 158 12 12 0 0,00
Tetuán 507 50 10,5 2 8,5 72,25
Universidad 507 190 10,5 17 –6,5 42,25
Usera 315 65 1 3 –2 4,00
Vallecas 341 144 2 11 –9 81,00
Ventas 450 109 7 6 1 1,00
TOTAL 638,50

275
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Si en lugar de aplicar la fórmula (11.8.1) se hubiera calculado el coeficiente


de correlación lineal de Pearson entre los rangos xi e yi se habría obtenido el
valor exacto de la correlación de Spearman rS = 0’4397 que vemos que es prác-
ticamente igual que el anterior. La fórmula (11.8.1) da el valor exacto de rS si no
hay rangos empatados y es una buena aproximación en otro caso.

El coeficiente de correlación de Spearman es muy útil para cuantificar el


grado de dependencia monótona entre variables ordinales o una ordinal y otra
numérica, en el sentido de poder decir que al aumentar las valoraciones de una
de ellas tienden a aumentar o disminuir los de la otra. Cuando ambas variables
son numéricas el coeficiente de correlación de Pearson mide el grado de depen-
dencia de tipo lineal, mientras que el de Spearman sólo mide la dependencia
monótona entre ambas, por lo que podría darse el caso de una correlación de
Pearson baja y una de Spearman próxima a ±1, lo que indicaría un cierto grado
de dependencia monótona pero no de tipo lineal; en la siguiente figura se
pretende plasmar este efecto.

Fig. 11.8.1: Ejemplo de dependencia no lineal con correlación de Spearman alta.

b) Coeficiente Φ
En el caso de que se quiera estudiar la asociación o correlación entre dos
variables dicotómicas, esto es, cada una dividida en dos modalidades, cuya tabla
de frecuencia absolutas sea de la forma:

276
Estadística - Capítulo 11

X \Y y1 y2 TOTAL
x1 a b a+b
x2 c d c+d

TOTAL a+c b+d a+b+c+d

Tabla 11.8.2: Cruce de dos variables dicotómicas

se puede utilizar el coeficiente phi, Φ, cuya expresión es:

(11.8.3)

donde a, b, c y d tienen el significado dado en la tabla anterior. Este coeficiente


F es precisamente la correlación de Pearson entre las variables X e Y suponiendo
x1 = y1 = 0 y x2 = y2 = 1, por lo que su valor está comprendido entre ±1, de modo
que un valor Φ ≈ 1 indica un predominio de la diagonal principal, es decir, una
asociación de x1 con y1 y x2 con y2, un valor Φ ≈ –1 señala un predominio de la
diagonal secundaria, esto es, una asociación de x1 con y2 y x2 con y1, mientras que
Φ ≈ 0 indica que no hay asociación entre los valores de X y los de Y.

Ejemplo 11.8.2. Con los datos que obran en cierta Comisaría se han clasifi-
cado 53 detenidos en función de si han sido o no condenados por delitos
contra la propiedad y su hábito de consumir drogas duras. Los resultados son
los que se muestran en la siguiente tabla:

Consumo de Drogas
Tipo de Duras TOTAL
Delitos
Sí No
Propiedad 8 3 11
Otros 2 40 42
TOTAL 10 43 53

277
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Una forma de medir la asociación o correlación entre el consumo de drogas


y la comisión o no de delitos contra la propiedad es por medio del coeficiente F,
que en este caso vale lo siguiente:

(11.8.4)

así pues existe una cierta correlación o asociación entre el consumo de drogas
duras y la comisión de delitos contra la propiedad y el no consumo de drogas
duras con otros tipos de delitos.

c) Correlación Biserial Puntual


Cuando una variable es numérica, pongamos por caso la variable X, y la otra
es dicotómica, por ejemplo Y, y que se codifique con valores 0 y 1, puede utili-
zarse el coeficiente de correlación biserial puntual, rbp, para medir el grado de
asociación entre ambas variables; su expresión es:

(11.8.5)

donde X 1 y X 0 son los valores medios de los xi para los que Y es igual a uno y
cero respectivamente, SX es la desviación típica de las observaciones X y p y q
son las frecuencias relativas de las observaciones de Y iguales a uno y cero
respectivamente. La correlación biserial puntual no es más que la correlación de
Pearson entre las variables X e Y, por lo que tomará valores entre –1 y +1, de
modo que rbp » +1 indicará una asociación entre valores altos de X con Y = 1 y
valores bajos de X con Y = 0, de forma análoga rbp » –1 es señal de una asocia-
ción de valores altos de X con Y = 0 y valores bajos de X con Y = 1, mientras que
rbp » 0 es síntoma de que no hay asociación o correlación entre los valores de X
y los de Y.

Ejemplo 11.8.3. El valor de lo estafado por medio de cheques sin fondo ha


sido lo siguiente (en euros): 1110, 2310, 550, 2760, 3130, 2810, 870, 1170,
1910 y 1640, mientras que al valor de lo sustraído en quince tirones ha sido de

278
Estadística - Capítulo 11

940, 990, 860, 1010, 1070, 770, 1070, 960, 1040, 1390, 690, 960, 1040, 1080
y 1130 (también en euros). Si queremos ver si existe algún tipo de asociación o
correlación entre el valor (variable numérica) y el tipo de delito (variable dicotó-
mica) podemos utilizar la correlación biserial puntual, para ello codificamos con
0 si se trata de una estafa con cheques y codificamos con 1 si se trata de un
tirón; de ese modo se podría construir una tabla como la siguiente:

Tipo de Delito 0 0 0 ... 1 1 1


Valor 1110 2310 550 ... 1040 1080 1130

pues bien, la correlación de Pearson entre la serie de ceros y unos y la serie de


las valoraciones de lo estafado o sustraído es precisamente la correlación biserial
puntual rbp entre el tipo de delito y la valoración. Para calcularla aplicando la
fórmula (11.8.5) tenemos que determinar lo siguiente:

en consecuencia obtenemos:

(11.8.6)

279
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

por lo que podemos afirmar que existe una cierta correlación o asociación entre
el tipo de delito y la valoración. Además, como la correlación sale negativa
significa que las valoraciones mayores están relacionadas con el delito codificado
con 0 (estafas con cheques) mientras que las valoraciones menores están rela-
cionadas o asociadas al tipo de delito codificado con 1 (tirones), en otras palabras,
por el método del tirón se tiende a sustraer menos que lo que se estafa con
cheques al descubierto.

Obsérvese que este problema es muy similar al de la comparación de la


media de dos grupos de datos no apareados, en ese caso lo que pretendemos
decidir es si los valores medios teóricos en ambos grupos se pueden considera
iguales o no, mientras que ahora lo que damos es una medida de la asociación
o correlación existente entre la variable que nos permite hacer los grupos (tipo
de delito, por ejemplo) y los valores de una magnitud numérica dentro de cada
grupo (valor en euros, en el ejemplo considerado). Si los valores en un grupo
tienden a ser mayores que los del otro es de prever que las medias serán
diferentes, y recíprocamente, si los valores de un grupo tienen una media superior
a los del otro es de prever también que sus valores tiendan a ser mayores que
los del grupo con media menor.

280
Prácticas
Estadística - Prácticas

PRÁCTICA 01: ESTRUCTURA DEL SPSS

1.1. Introducción

El programa SPSS (Statistical Package for Social Sciences, actualmente se le


asigna Statistical Product and Service Solution) es un conjunto de potentes herramien-
tas de tratamiento de datos y análisis estadístico. Utiliza como soporte el sistema
operativo Windows, funcionando mediante menús desplegables y cuadros de
diálogo que permiten hacer la mayor parte del trabajo con el puntero del ratón.

Al iniciar una sesión con el SPSS nos encontramos con una hoja similar a una
hoja de cálculo, es el Editor de datos, es la ventana principal que se abre
automáticamente al entrar en el programa.

Es aconsejable, para todo aquél que no haya manejado el SPSS, que haga uso
de la ayuda para hacer un recorrido a través del Tutorial: ? (Ayuda)  Tutorial

1.2. Las Barras de Menús

Las barras de menús contienen una serie de menús desplegables que permiten
controlar la mayor parte de las acciones que el SPSS puede llevar a cabo. Se
encuentran en la parte superior de cada ventana, justo debajo del nombre de la
ventana. Cada ventana tiene su propia barra de menús, aunque algunos son
comunes a todas. Con el Editor de menús es posible añadir o eliminar menús,
personalizando así la barra de menús;

Utilidades  Editor de menús

1.3. Las Barras de Herramientas

Una barra de herramientas es un conjunto de botones-iconos que permiten


ejecutar muchas de las funciones del SPSS de forma rápida y sencilla. Cada
ventana tiene su propia barra de herramientas, están situadas debajo de la barra
de menús, aunque pueden reubicarse en cualquier otro lugar sin mas que pinchar
sobre la barra y arrastrarla hacia el lugar deseado. También es posible ocultarlas

283
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

o mostrarlas si están ocultas, controlar el tamaño del los botones-iconos y modi-


ficar la barra añadiendo o quitando herramientas.

Ver  Barras de herramientas

1.4. Las Barras de Estado


Las barras de estado están situadas en la parte inferior de las ventanas del
SPSS. Pueden ocultarse/mostrarse seleccionando la opción;

Ver  Barras de estado.

284
Estadística - Prácticas

PRÁCTICA 02: MANEJO DE DATOS

2.1. Introducción
Para poder llevar a cabo un análisis estadístico, necesitamos, en primer lugar,
datos sobre los que efectuar el análisis. El Editor de datos es la ventana del SPSS
que contiene el archivo de datos en que se basan todos los análisis. Se trata de
una ventana tipo hoja de cálculo diseñada para crear y editar archivos de datos.
Entrar en el Editor de datos equivale entrar en el SPSS y cerrarlo a salir del SPSS.

El Editor de datos permite visualizar dos ventanas distintas mediante dos


pestañas o solapas situadas en la parte inferior izquierda del propio editor. La
solapa Vista de datos muestra el contenido del archivo de datos y la solapa Vista
de variables muestra los nombres de las variables acompañadas de sus caracterís-
ticas.

Un archivo de datos puede crearse de dos formas: utilizando el teclado para


introducir los datos o importando la información ya existente en alguna fuente.

La estructura de un archivo de datos en formato SPSS es la siguiente: las filas


representan casos (generalmente sujetos), las columnas representan variables.
Cada casilla contiene el valor individual que corresponde a un determinado caso
en una determinada variable. Las casillas vacías se consideran valores perdidos
(missing).

2.2. Fases en la configuración de un fichero de datos


El objetivo de esta práctica inicial, es la configuración de un fichero de datos.
Para ello el primer paso será definir las variables de acuerdo con la tabla (Tabla
con la información sobre las variables) y, posteriormente introduciendo los valores
asignados a dichas variables.

Para configurar el fichero inicial de datos, hacer las siguientes operaciones:

I. Situarse en Windows donde aparezca el icono del SPSS.

II. Dar un un doble clic en la aplicación del SPSS.

III. Con la acción anterior, nos situamos frente a la base de datos del SPSS
que presenta las opciones de vista de datos y vista de variables.

285
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

IV. Nos dirigimos dentro de a la base de datos a vista de variables.

V. Cumplimentar las opciones que nos ofrece la opción Definir variables:


Tipo (Tipo de variable), Etiquetas (Etiquetas de las variables), Valores
perdidos (Valores que aparecen en blanco en la respuesta a las variables)
y Formato de Columna (Amplitud de la columna para recoger el nombre
de la variable, así como su posición dentro de la columna: izquierda,
centro y derecha).

VI. A partir del punto iii) podemos tomar la decisión de dar nombre al
fichero. Para ello nos vamos a la opción del menú principal Fichero y tomamos
la opción guardar como, apareciendo un barra donde poder dar nombre al
fichero, su longitud no deberá exceder los 30 caracteres.

Una vez terminada la sesión de trabajo, se guarda el contenido del fichero y


se sale de la aplicación del SPSS.

Al comienzo de cada sesión de trabajo debemos de abrir el fichero con el que


deseamos trabajar. Para ello se va a la opción de abrir fichero, se selecciona el
fichero que queremos abrir, que estará situado en la unidad C (escritorio) o en
la A y se pulsa la opción aceptar.

2.3. Definir Variables


Para definir una variable: Pulsar la solapa Vista de variables para que el editor
de datos muestre la ventana de definición de variables, o pinchando dos veces
con el puntero del ratón en la cabecera de una variable. Existen varias formas de
crear una variable nueva: al introducir un valor en alguna casilla de una columna
vacía del Editor de datos, o al introducir un valor en alguna casilla en blanco del
Editor de datos-variables.

· Asignar nombre a una variable

Al crear una nueva variable, el SPSS le asigna por defecto un nombre consis-
tente en el prefijo var y una secuencia de 5 dígitos: var00001, var00002, etc.
Para asignar nombre a una variable basta con situar el cursor en la casilla corres-
pondiente a la variable y escribir el nuevo nombre, teniendo en cuenta: que debe

286
Estadística - Prácticas

empezar por una letra y no terminar con punto, con un máximo de 8 caracteres,
entre los que no valen los espacios en blanco, los signos de exclamación e
interrogación, el apóstrofe y el asterisco. No se hace distinción entre mayúsculas
y minúsculas. Existen nombres reservados que no se pueden usar como nombres
de variables: ALL, AND, BY, EQ, GE, LE, LT, NE, NOT, OR, TO y WITH.

· Definir el tipo de variable

Situar el cursor en la columna Tipo y pulsar el botón puntos suspensivos para


acceder al cuadro de diálogo Tipo de variable. Se puede elegir entre:

- Numérico (acepta como carácter válido cualquier número).

- Coma (número donde el punto es el separador decimal).

- Punto (cualquier número cuyo separador decimal sea la coma).

- Notación científica (formato de números con D y E).

- Fecha (admite como valores válidos fechas y horas, con diferentes formatos
disponibles).

- Dólar (cualquier número, símbolo $, el punto como separador decimal),

- Moneda personalizada (permite modificar las especificaciones hechas en


Edición  Opciones  Moneda),

- Cadena (admite como válido cualquier carácter)

· Asignar etiquetas

El nombre de una variable es a veces insuficiente para recordar de que variable


se trata, el SPSS permite asignar etiquetas descriptivas tanto a los nombres de
las variables como a sus valores.

Para asignar etiqueta a una variable, situar el cursor en la casilla de la columna


Etiquetas y escribir la etiqueta correspondiente de a lo más 120 caracteres,
puede utilizarse cualquier carácter del teclado, incluso espacios en blanco.

Para asignar etiquetas a los valores de una variable, situar el cursor en la


columna Valores sobre la casilla correspondiente a la variable que se desea
etiquetar y pulsar el botón de puntos suspensivos para acceder al cuadro de

287
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

diálogo Etiquetas de valores, a través del cual podremos etiquetar el valor de la


variable (a lo más 60 caracteres y puede utilizarse cualquier carácter incluso
espacios en blanco)

· Definir valores perdidos

Pueden ser de dos tipos, los definidos por el sistema (cualquier casilla vacía),
y los definidos por el usuario (si se quiere distinguir, por ejemplo, entre los que
no saben la respuesta a una pregunta, los que simplemente no responden y los
que no desean responder). Para definir valores perdidos, situar el cursor en la
columna Perdidos y pulsar el botón puntos suspensivos para acceder al cuadro
de diálogo Valores perdidos . Todos los tipos de variable admiten valores perdidos
definidos por el usuario excepto las variables de cadena larga.

La opción por defecto es No hay valores perdidos (indica que no existen valores
perdidos definidos por el usuario, solo las casillas vacías se consideran valores
perdidos). Valores perdidos discretos. Permite definir como valores perdidos
hasta tres valores concretos, todos los valores que coincidan con los establecidos
se consideraran valores perdidos. Sólo es válida para variables numéricas y de
cadena corta. Rango más un valor perdido discreto opcional. Permite definir
como valores perdidos un determinado rango de valores y, opcionalmente, un
valor concreto no perteneciente al rango. No es válido para variables de cadena

· Definir el formato de columna

La anchura de una variable viene determinada por la anchura asignada a la


variable, pero puede cambiarse introduciendo el valor deseado. Para cambiar la
anchura de las columnas del Editor de datos, situar el cursor en la columna
Columnas y utilizar las flechas para establecer la anchura deseada. También
puede cambiarse la anchura desde el Editor de datos, situando el puntero del
ratón en el borde derecho de la cabecera de la columna y arrastrando el puntero
hasta conseguir la anchura deseada.

· Alinear texto

Se refiere a la justificación adoptada por los valores dentro de sus casillas.


Situar el cursor en la columna Alineación y pulsar el botón de menú desplegable

288
Estadística - Prácticas

que contiene esa casilla con las tres opciones disponibles: izquierda, derecha o
centro

· Asignar un nivel de medida

Para terminar de definir una variable numérica, es necesario asignarle uno de


los siguientes niveles de medida: escala (para variables cuantitativas continuas
obtenidas con una escala de intervalo o razón: edad, salario, altura, etc.) ordinal
(para variables cuantitativas obtenidas con una escala ordinal: nivel educativo,
clase social, etc.) y nominal (para variables categóricas medidas con una escala
nominal: sexo, clasificación étnica, lugar de procedencia, etc.)

2.3. Entrar Datos


El Editor de datos permite meter datos en cualquier orden: por casos, por
variables, por áreas determinadas o sólo en casillas determinadas. Para introdu-
cir un dato en una casillas se puede hacer directamente (se coloca el cursor en
la casilla elegida y se escribe el dato, nos desplazamos a otras casillas por las
teclas del teclado o el puntero del ratón) o se puede introducir el dato en el
Display del Editor de datos (Situar el cursor en la casilla deseada, pinchar con el
puntero del ratón sobre el Display del Editor de datos, introducir el dato en el
Display y pulsar la tecla de retorno de carro para que los valores sean trasladados
a la casilla activa) Al introducir un valor en una columna vacía, el SPSS crea una
nueva variable asignándole un nombre por defecto; si el valor introducido es un
número le asigna formato numérico, si no es un número formato de cadena.

2.4. Editar Datos


El Editor de datos permite modificar el archivo de datos de múltiples maneras.
Además permite cortar, copiar y pegar valores individuales o áreas rectangulares,
borrar casos y variables, buscar datos, etc. Todas estas funciones las podemos
encontrar en los menús Edición, Datos y Ver.

Edición  Deshacer (o Rehacer). Anula el efecto de las últimas acciones de


edición.

Edición  Seleccionar. No está disponible si la ventana activa es el Editor de


datos. Pero se puede seleccionar un valor (situar el cursor en la casilla que lo

289
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

contiene), un caso (pinchar con el puntero sobre la cabecera de la fila que


contiene ese caso), una variable (pinchar con el puntero sobre la cabecera de la
variable), o un conjunto de datos (situar el cursor en un extremo y arrastrar el
puntero del ratón hasta el extremo opuesto) con el ratón.

Edición  Cortar. Elimina el texto seleccionado y lo lleva al portapapeles.

Edición  Copiar. Hace una copia del texto seleccionado y la lleva al


portapapeles.

Edición  Pegar. Inserta el contenido del portapapeles en la ventana activa a


partir del punto en el que se encuentra el cursor.

Edición  Borrar. Elimina lo seleccionado, ya sea una casilla, un caso o un


conjunto de casillas.

Edición  Buscar datos. Permite buscar un valor concreto en los casos de la


variable seleccionada. Si lo que se desea buscar es una etiqueta de valor:
Ver  Etiquetas de valor (deben coincidir el nombre la casilla de búsqueda, se
distinguen mayúsculas de minúsculas).

Datos  Ir a caso... Cuando el archivo de datos es muy grande y se desea


buscar un caso en concreto, permite posicionar el cursor de forma rápida en el
caso seleccionado.

Utilidades  Variables... Si el archivo contiene muchas variables y no se


encuentran ordenadas, permite buscar una variable de forma rápida y sencilla.
El cuadro de diálogo al que se accede permite, además, obtener información
detallada sobre cada variable.

Datos  Insertar variable. Permite insertar una variable nueva entre dos
variables existentes. Lo mismo se consigue pulsando el botón-icono Insertar
variable de la barra de herramientas (si se encuentra en ella). La variable inser-
tada pasa a ocupar la columna inmediatamente anterior a la de la variable donde
se encontraba el cursor.

Datos  Insertar caso. Inserta un caso nuevo entre dos casos existentes. (O
pulsar el botón-icono Insertar caso) El caso insertado pasa a ocupar la fila inme-
diatamente anterior a la del caso en que se encontraba el cursor.

290
Estadística - Prácticas

Práctica 2.1. Vamos a comenzar a introducir datos; al abrir el SPSS aparece el


Editor de datos vacío. Para empezar el manejo de datos vamos a crear un fichero
con una muestra de 10 empleados de una empresa. Construya un fichero con los
datos que aparecen a continuación:

Id Sexo Nacido E. Civil Categoría Salario (Euros)

1 Hombre 1965 Casado Administrativo 2324,60

2 Hombre 1950 Casado Directivo 7238,20

3 Mujer 1970 Soltera Administrativo 2248,50

4 Hombre 1945 Casado Directivo 9617,00

5 Mujer — Soltera Directivo 9561,50

6 Mujer 1968 Viuda Seguridad 3870,00

7 Hombre 1955 Soltero Seguridad 3920,70

8 Hombre 1958 Soltero Administrativo 2687,00

9 Hombre 1969 Casado Seguridad 3841,00

10 Mujer 1954 Separada Administrativo 2692,20

Antes de introducir los datos, definimos las variables. Para empezar a definir
variables podemos hacer doble clic con el ratón en el nombre de la variable
(parte superior de la columna) o pasar a la hoja Vista de variables, sin más que
picar sobre su pestaña (parte inferior izquierda). En la tabla que aparece a
continuación se recoge la información necesaria para realizarlo:

291
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Nombre Id Sexo Nacido E. civil


Tipo Numérica Cualitativa Numérica Cualitativa
Anchura 4 8 4 8
Decimales 0 0 0 0
Etiqueta Identificador Sexo del Año de Estado civil
del sujeto individuo nacimiento
1=Soltero
1=Hombre
2=Casado
Valores 2=Mujer 3=Separado
4=Viudo
Perdidos 9999
Columnas 4 8 6 8
Alineación Derecha Derecha Derecha Derecha
Medida Escala Nominal Escala Nominal

Nombre Categoría Salario

Tipo Cualitativa Numérica

Anchura 8 8

Decimales 0 2

Etiqueta Categoría laboral Salario actual

1=Administrativo
Valores 2=Seguridad
3=Directivo

Perdidos

Columnas 10 12

Alineación Derecha Derecha

Medida Nominal Escala

292
Estadística - Prácticas

Al introducir un nombre a una variable (y pulsar enter), el SPSS ,por defecto,


le asigna Tipo Numérico, Anchura 8, Decimales 2, ninguna Etiqueta de valor, ni
valor perdido, 8 Columnas, Alineación derecha y Medida de escala, cualquiera de
estas opciones se modifica sin mas que escribir encima de ellas, pulsando el
botón de puntos suspensivo, o a través de las flechas que dan paso a una
ventana desplegable con las opciones.

Haga una copia de seguridad del fichero de datos anterior con la opción:
Archivo  Guardar con el nombre pract21.sav

Veamos otro ejemplo. A continuación se recoge la información sobre las


variables (nombre y etiqueta de las variables), para configurar el fichero que
denominaremos pract12c.sav.

Las variables que encabezan las columnas de los datos tienen las siguientes
etiquetas:

CODJF (Codificación de las Jefaturas): MADRID=1, BARCELONA=2,


VALENCIA=3, BILBAO=4, SEVILLA=5, PAMPLONA=6.

A01I PATRULLAJE-IDONEIDAD

A01F PATRULLAJE-FRECUENCIA

A02I OBSERVACION-IDONEIDAD

A02F OBSERVACION-FRECUENCIA

A03I CONTROL ACTIV. MULTITUD-IDONEIDAD

A03F CONTROL ACTIV. MULTITUD-FRECUENCIA

A04I TECNICAS PROTECCION-IDONEIDAD

A04F TECNICAS PROTECCION-FRECUENCIA

A05I VIGILANCIA ESTATICA-IDONEIDAD

A05F VIGILANCIA ESTATICA-FRECUENCIA

B06I ACTUACION REGLAMENTARIA-IDONEIDAD

B06F ACTUACION REGLAMENTARIA-FRECUENCIA

293
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

La etiquetas de los valores de las variables son:

IDONEIDAD (Idoneidad para realizar la tarea encomendada):

1 = Mal

2 = Regular

3 = Bien

4 = Muy bien

FRECUENCIA (Frecuencia con la que ha realizado una tarea):

1 = De 0 a 3 veces al mes

2 = De 4 a 6 veces al mes

3 = De 7 a 9 veces al mes

4 = De 10 a 12 veces al mes

5 = 13 veces o más al mes

294
Estadística - Prácticas

Fichero de datos

CODJF A01I A01F A02I A02F A03I A03F A04I A04F A05I A05F B06I B06F
1 3 4 3 4 2 1 3 3 3 3 3 4
1 3 4 3 4 2 1 3 3 3 3 3 4
2 2 2 2 2 3 3 4 4 4 3 1 3
2 3 2 3 3 2 2 3 2 2 2 3 3
2 1 2 1 2 2 2 2 1 2 2 3 3
1 4 5 3 5 3 1 3 1 3 1 3 5
1 3 5 3 5 3 1 3 1 3 1 4 5
1 3 5 3 5 3 1 3 1 3 1 4 5
6 3 5 3 1 3 1 3 1 2 5 3 1
6 , 1 , 1 , 1 , 1 , 1 3 1
6 3 5 , , , , , , 2 5 , ,
3 3 2 3 4 2 1 3 3 1 1 3 3
3 , , , , , , , , , , 3 4
3 3 5 3 5 3 2 4 3 3 3 4 ,
4 3 5 4 5 2 2 2 1 3 1 3 2
4 4 5 3 5 2 2 3 2 3 1 4 3
4 3 5 4 5 2 3 3 3 3 2 4 2
2 2 3 3 3 2 2 2 2 2 2 2 2
2 3 2 2 3 2 3 3 2 2 1 1 1
2 3 2 2 3 3 2 2 2 2 1 1 1
4 3 5 3 5 2 2 2 1 3 5 3 5
5 3 4 3 4 2 1 3 2 3 2 3 2
4 3 5 3 3 2 1 2 1 1 1 3 2
1 3 , 3 , 2 , 1 , 2 , 3 ,
1 3 5 2 2 1 1 2 3 3 1 3 5
1 3 5 3 2 3 1 3 4 3 1 4 5
2 3 4 3 4 3 1 4 2 4 4 4 3
2 3 4 3 4 3 1 3 2 4 4 4 3
5 3 4 3 2 3 2 3 3 4 4 3 3
2 4 5 4 5 3 3 3 2 3 1 4 ,
5 4 5 4 5 3 3 3 2 3 1 4 3
3 , , , , , , , , , , 4 ,
6 3 4 3 2 2 2 3 3 3 3 4 5
6 2 4 3 3 2 2 3 3 2 3 3 5

295
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

PRÁCTICA 03: TRANSFORMAR DATOS

3.1. Introducción
En ocasiones, los datos de un archivo serán de tal índole que será posible
aplicar directamente sobre ellos el análisis estadístico deseado, pero lo habitual
será encontrarse con archivos de datos que necesitarán ser cuidadosamente
preparados antes de poder aplicar

con las mínimas garantías cualquier análisis estadístico. La preparación del


archivo de datos incluye desde la simple detección y corrección de los posibles
errores cometidos al introducir los datos, hasta sofisticadas transformaciones,
pasando por la recodificación de los códigos utilizados para los valores de una
o más variables, o la creación de nuevas a partir de las ya existentes.

El menú Transformar de la barra de menús principal incluye una serie de


opciones que permiten efectuar diferentes tipos de transformaciones, desde las
más simples a las más complejas.

Los archivos de datos no siempre están organizados de forma idónea. En


ocasiones podemos desear cambiar el orden de los casos, o transponer filas y
columnas, o mezclar en uno archivos diferentes, etc. Estas acciones se encuentran
en el menú Datos.

3.2. Calcular
El SPSS incluye varias opciones para crear nuevas variables a partir de otra u
otras existentes poniendo a disposición del usuario una gran cantidad de funciones
diferentes.

Transformar  Calcular... Da paso al cuadro de diálogo Calcular variable. La


variable de destino es la que recibirá los valores calculados, por defecto se le
asignará formato numérico, si se desea modificar basta pulsar el botón Tipo y
etiqueta. Para facilitar la tarea de construir la expresión numérica, el cuadro de
diálogo incluye un teclado con números y operadores aritméticos (+, -, *, /, **,
()), relacionales (<, >, <=, >=, =, ~=) y lógicos (&, |, ~). La lista del recuadro
Funciones, incluye más de 70 funciones aritméticas, estadísticas, lógicas, etc.

296
Estadística - Prácticas

Pulsando el botón Si... haremos que la expresión numérica escrita afecte sólo a
un conjunto de casos, mediante una expresión condicional; los casos no seleccio-
nados se tomarán como valores perdidos en la nueva variable.

3.3. Recodificar
Transformar  Recodificar. Permite cambiar los códigos asignados a los
valores de una variable. La recodificación resulta útil para agrupar en un único
valor diferentes valores de una variable, y para transformar variables con formato
de cadena en variables con formato numérico. Puede efectuarse sobre las
mismas variables (cambiando los códigos de una variable existente) o sobre
variables distintas (creando una variable nueva a partir de otra ya existente).

3.4. Categorizar Variables


Transformar  Categorizar variables... Categorizar variables consiste en
crear una nueva variable categórica a partir de una variable cuantitativa continua,
tomando como base para la transformación los percentiles de la variable conti-
nua. Este tipo de transformación lleva asociada una pérdida de información, pero
puede resultar muy útil para construir tablas de contingencia cruzando la variable
con otras categóricas. En el cuadro de texto Número de categorías, debe especi-
ficarse el número de categorías que va a contener la nueva variable, si por
ejemplo le decimos que 4, crea una variable categórica asignando un 1 a los
casos situados por debajo del percentil 25, un 2 a los casos comprendidos entre
el percentil 25 y el 50, el valor 3 a los que están entre el 50 y el 75 y el valor 4
a los casos situados por encima del percentil 75.

3.5. Reemplazar Valores Perdidos


Transformar  Reemplazar valores perdidos...Los valores perdidos casi
siempre son fuente de problemas en la mayor parte de los procedimientos
estadísticos. Normalmente se sustituyen por alguna estimación del valor que
podrían adoptar, en la opción Método aparecen los distintos métodos de
estimación que pueden escogerse.

297
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

3.6. Ordenar Casos


Datos  Ordenar casos... Permite cambiar el orden de los casos utilizando
como criterio una o más variables.

3.7. Transponer Archivos


En los archivos de datos se asume que las filas representan casos y las
columnas variables. Datos  Transponer... Permite crear un nuevo archivo con
los datos transpuestos, es decir, con las filas convertidas en columnas y las
columnas en filas.

3.8. Fundir Archivos


El SPSS permite combinar en un solo archivo los datos de archivos diferentes.
Existe dos posibilidades de combinación o fusión:

· Datos  Fundir archivos  Añadir casos... Combina archivos que


contienen las mismas variables pero con casos diferentes. Las variables
desemparejadas, son las que no serán incluidas en el archivo combinado
debido a que no se encuentran en los dos archivos a la vez, o por ser de
diferente tipo o anchura (si se desea incluirlas basta con señalarlas y pulsar
la flecha). Si dos variables distintas contienen la misma información, es
posible emparejarlas y formar una sola (Casar). La opción Indicar origen
del caso como variable, permite crear una variable indicador para identificar
a que archivo pertenecía originalmente cada caso del nuevo archivo
combinado.

· Datos  Fundir archivos  Añadir variables... Combina archivos que


contienen los mismos casos, pero con distintas variables. Es necesario que
los dos archivos tengan formato SPSS y que los casos estén en el mismo
orden. La lista Variables excluidas muestra las variables que no formarán
parte del archivo combinado debido a la coincidencia del nombre con otra
ya existente (si se desea incluir hay que cambiarle el nombre). En la lista
Nuevo archivo de datos de trabajo, aparecen las variables que pasarán a
formar parte del archivo combinado.

298
Estadística - Prácticas

3.9. Agregar Datos


Datos  Agregar... Consiste en agrupar varios casos en uno solo. Crea un
nuevo archivo de datos en el que cada nuevo caso representa a un conjunto de
casos del archivo de datos original. Los casos del archivo original son agrupados
a partir de los niveles de una o más variables de segmentación. Si no se indica
otra cosa, el SPSS asume que la función estadística que se desea utilizar es la
media aritmética, en caso contrario, existe una gran variedad de funciones
diferentes a utilizar (Función...).

3.10. Segmentar Archivo


Datos  Segmentar archivo... Consiste en dividirlo en subgrupos, así los
análisis estadísticos se repiten para cada subgrupo resultante de la segmentación.
La opción Analizar todos los casos, no crear los grupos, está activa mientras no
se solicita segmentar el archivo; una vez segmentado permanece así hasta que
se vuelve a activar esta opción. Para segmentar el archivo es necesario señalar
una o más variables de segmentación (Grupos basados en)

3.11. Seleccionar Casos


Datos  Seleccionar casos... Permite seleccionar un conjunto de casos utili-
zando diferentes criterios. Esto es útil si queremos que el análisis se centre en
sólo un grupo de casos que cumplan una determinada condición. La opción
Muestra aleatoria de casos selecciona aleatoriamente un porcentaje o un número
de casos. Los casos no seleccionados pueden tratarse de dos formas: Filtrados,
permanecen en el archivo de datos pero son excluidos de los análisis hasta que
se desactiva la selección de casos. Eliminados, son eliminados del archivo de
datos.

3.12. Ponderar Casos


Datos  Ponderar casos... Consiste en hacer que un registro (caso) represente
a más de un caso (lo contrario de la agregación). Exige utilizar una variable de
ponderación (Variable de frecuencia) que es la que contiene los pesos que serán
asignados a cada caso. Una vez activa la ponderación, ésta permanece activa

299
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

hasta que se cambia de variable de ponderación o hasta que se marca la opción


No ponderar casos.

Práctica 3.1. Manejo de ficheros y preparación de datos

Construya un fichero de datos con el nombre contra.sav que contenga las


variables siguientes (para definir las variables: Vista de variables). Los datos vie-
nen expresados en miles de euros.

FECHAS MULTAS COMISOS


1980 152,57 30,63
1981 194,79 43,22
1982 173,58 35,84
1983 139,30 22,84
1984 285,99 52,77
1985 90,12 29,03
1986 94,03 48,82
1987 1194,29 229,31
1988 1276,03 217,70
1989 297,37 64,17
1990 962,68 179,85
1991 305,94 72,53
1992 521,20 116,94
1993 355,56 53,77
1994 316,27 88,17
1995 609,10 138,76
1996 1588,24 382,68
1997 1643,05 501,23
1998 3055.61 928,58
1999 4573,30 1063,45

Manipulación del fichero

a) Haga una copia de seguridad del fichero anterior con la opción


Archivo -> Guardar como con el nombre seguri01.sav. Borre la variable

300
Estadística - Prácticas

fecha en la nueva copia. A partir de ahora trabajaremos siempre con esta


nueva versión.

b) Cree una nueva variable cualitativa con el nombre nivel con tres valores:
BAJO si comisos es menor de 50, MEDIO si está entre 50 y 500 y ALTO en
el resto.

Indicaciones: Transformar -> Recodificar -> En distintas variables… -> Var. de


entrada: comisos; Var. de resultado: nivel (pulse Cambiar) -> Valores antiguos y
valores nuevos: (Seleccione la opción de variable cadena) Valor antiguo: del menor
hasta 50 - valor nuevo: BAJO; valor antiguo: Rango: 50 hasta 500 - valor nuevo:
MEDIO; valor antiguo: Rango: 500 hasta el mayor - valor nuevo: ALTO.

c) Codifique la variable nivel con los valores 1, 2 y 3 respectivamente para


BAJO, MEDIO y ALTO en una nueva variable llamada nivel2. Quite los
decimales, si los tiene, de esta variable codificada.

Indicaciones: Transformar -> Recodificar -> En distintas variables… -> Var. de


entrada: nivel; Var. de resultado: nivel2 - > Valores antiguos y valores nuevos: valor
antiguo: BAJO - valor nuevo: 1; valor antiguo: MEDIO- valor nuevo: 2; valor antiguo:
ALTO - valor nuevo: 3.

d) Cree un nuevo fichero con las variables fecha, multas y nivel2 con el
nombre mezcla01.sav

Indicaciones: Datos -> Fundir archivos -> Añadir variables -> (seleccione el fichero
contra.sav). Con un * se señalan las del fichero actual (segurid01.sav) y con un +
las del fichero seleccionado (contra.sav). Esta variables se pueden mover de la
ventana de excluidas a la ventana del nuevo archivo de datos de trabajo y al revés
a conveniencia del usuario.

e) Abra de nuevo el fichero segurid01.sav y “pártalo” en tres grupos según


los valores de nivel. BAJO, MEDIO, ALTO

Indicaciones: 1. Datos -> Segmentar archivo -> Organizar los resultados por
grupos -> Grupos basados en: nivel.

301
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

f) Seleccione conjuntamente los casos correspondientes a los niveles ALTO


y BAJO de comisos

Indicaciones: 1. Datos->Seleccionar casos -> Si se satisface la condición ->


nivel=’ALTO’ | nivel=’BAJO’.

g) Guarde el fichero con los siguientes formatos y sus extensiones corres-


pondientes (Archivo -> Guardar como: Ficheroe):

1. SPSS portatil

2. dBASE IV

3. Excel

Importe de nuevo el fichero con formato Excel (Archivo -> Abrir ->Datos
-> Ficheroe.xls).

Práctica 3.2. (Abra el fichero de nombre pract21.sav)

· Ordene los datos según la variable Salar de mayor a menor: Datos 


Ordenar casos  Ordenar por: Salar  Orden de clasificación: Descendente.
(Para volver al fichero inicial ordene por la variable Id con tipo numérico)

· Construya una variable que sea la Edad del trabajador y elimine la variable
Nacido, poniéndola en su lugar. Transformar  Calcular  Variable destino: Edad
 Tipo y etiqueta: Edad del trabajador, Numérico  Expresión numérica:
2001-Nacido  Aceptar. Si aparece con decimales, vamos a la definición de la
variable en Vista de variables y ponemos Decimales 0. Para suprimir la variable
Nacido, la seleccionamos: Edición  Eliminar. Para colocar la nueva variable en
su lugar seleccionamos la variable Edad : Edición  Cortar, seleccionamos la
variable E_civil: Datos  Insertar variable y con la nueva variable seleccionada
(var00001): Edición  Pegar.

· Cree una nueva variable con el nombre Nivel, (se refiere al nivel salarial)
con tres valores: “Bajo” si el salario es menor de 30,000 euros, “Medio” si está
entre 30,000 euros y 60,000 euros y “Alto” en el resto. Transformar 
Recodificar  En distintas variables  Variable de entrada: Salar  Variable
resultado  Nombre: Nivel, Etiqueta: Nivel salarial  Cambiar  Valores

302
Estadística - Prácticas

antiguos y nuevos  Valor antiguo  Rango: Del menor hasta 30,000  Las
variables de resultado son cadenas  Valor nuevo: Bajo  Añadir. Valor antiguo
 Rango: 30,000 hasta 60,000  Valor nuevo: Medio  Añadir. Valor antiguo 
Rango: 60,000 hasta el mayor  Valor nuevo  Alto  Añadir  Continuar 
Aceptar.

· Codifique la variable Nivel con valores 1,2,3 respectivamente para Bajo,


Medio y Alto. Transformar  Recodificar  En las mismas variables: Variable de
cadena: Nivel  Valores antiguos y nuevos  Valor antiguo: Bajo  Valor nuevo:
‘1’  Añadir  Valor antiguo: Medio  Valor nuevo: 2  Añadir  Valor antiguo:
Alto  Valor nuevo: 3  Añadir  Continuar  Aceptar.

· Seleccione aleatoriamente de toda la muestra un 50% de los individuos.


Datos  Seleccionar casos  Muestra aleatoria de casos  Muestra... 
Aproximadamente 50% de todos los casos  Filtrados®Aceptar (Para volver al
fichero origen: Datos  Seleccionar casos  Todos los casos)

· Calcular una variable (Inicial) que recoja el salario que tenían los trabajadores
de la empresa hace cinco años, sabiendo que a los Administradores se les incre-
mentó el salario en un 5%, a los de Seguridad en un 10% y a los Directivos en un
15%. Transformar  Calcular  Variable destino: Inicial  Tipo y Etiqueta: Salario
Inicial, Numérico. Si  Incluir si el caso satisface la condición  Categori=’1’ 
Continuar  Expresión numérica  Salario*(100/105)  Aceptar

· Separe el fichero de datos en dos: uno para las mujeres y otro para los
hombres: Datos  Segmentar archivo  Organizar los resultados por grupos 
Grupos basados en: Sexo (Para volver al estado anterior: Datos  Segmentar
archivo  Analizar todos los datos no crear los grupos)

303
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

PRÁCTICA 04: ANÁLISIS DESCRIPTIVO DE DATOS

4.1. Introducción
Para llevar a cabo un análisis descriptivo de los datos, se hace necesario
cubrir previamente una serie de etapas. De manera sucinta éstas son:

I. Recopilación de datos. La información que necesitamos de los individuos


que integran la población a estudiar. Para ello definiremos como van a ser
los datos (numéricos o alfanuméricos), cuál es el tamaño máximo de los
mismos, cuántas variables van a entrar en juego, cuáles van a ser las cate-
gorías de esas variables en el caso de que así lo requieran, etc.

Ejemplo de tipo de datos


Cuantitativos
Continuos Discretos
Número de hijos, número de
Presión arterial, altura, etc.
ataques de asma por semana, etc.
Categóricos
Ordinal Nominal
Nivel socioeconómico, importancia
Sexo, estado civil, etc.
que da al estudio, etc.

II. Ordenación de los datos. Ordenar y agrupar los datos recogidos.

III. Entrada de los datos. Llevar los datos a una base de datos, en nuestro
caso a la del programa del SPSS. Esta fase supone definir correctamente la
variable en cuanto al tipo, etiqueta, valores perdidos, etc.

IV. Análisis de los datos. Operaciones con los datos que proporcionan los
valores, parámetros o “estadísticos” que caracterizan al grupo, es decir,
aplicar las técnicas estadísticas adecuadas a nuestro objetivo.

V. Interpretación de los datos: Esta fase supone; i) considerar los datos


observados, ii) sacar conclusiones derivadas de los resultados obtenidos,

304
Estadística - Prácticas

iii) tener en cuenta las limitaciones impuestas por los métodos empleados
y iv) señalar las implicaciones de los descubrimientos para su aplicación
práctica y para futuros trabajos.

Prácticas: Análisis Descriptivo de Datos

Abra el fichero hábitos de SPSS, que se encuentra en el disco adjunto a las


prácticas. En él encontraremos los resultados de una encuesta (simulados).

Práctica 4.1. Realice un análisis descriptivo (medidas de tendencia central,


medidas de dispersión, medidas de forma y gráficos oportunos) de variables del
fichero. Tenga en cuenta el tipo de variable para cada estudio

Variable Cualitativa Nominal

Escogemos la variable centro (tipo de centro de estudios: público o privado)


para hacer su análisis descriptivo como cualitativa nominal. Con este tipo de
variables sólo podemos construir su tabla de frecuencias, moda y gráfico de
barras o de sectores.
Hacemos: Analizar  Estadísticos descriptivos  Frecuencias...  Variables:
centro; Mostrar tablas de frecuencias; Estadísticos  Tendencia central: Moda;
Gráficos  Barras ó Sectores.

Variable Cualitativa Ordinal

Como cualitativa ordinal escogemos impest (importancia por los estudios, de


muy poca a muchísima). Podemos mostrar su tabla de frecuencias; de entre los
estadísticos: moda, máximo, mínimo y cuantiles; y gráficos los mismos que en
el caso anterior.

Hacemos: Analizar  Estadísticos descriptivos  Frecuencias...  Variables:


impest; Mostrar tablas de frecuencias; Estadísticos  Valores percentiles:
Cuartiles; Percentiles: 25, 50, 75; Dispersión: Mínimo, Máximo; Tendencia
central: Mediana, Moda; Gráficos  Barras ó Sectores.

Variable Cuantitativa

Como cuantitativa escogemos TV (número de horas semanales que ve un


chico la televisión). No mostramos su tabla de frecuencias, pues hay muchos

305
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

valores distintos y no nos llevaría a ver nada claro; de entre los estadísticos:
todos; y gráficos histograma. Escogemos los percentiles más comunes. Los cuar-
tiles 1 y 3 coinciden con los percentiles 25 y 75, respectivamente, y el 50 con la
mediana o cuartil 2.

Hacemos: Analizar  Estadísticos descriptivos  Frecuencias...  Variables:


tv; Estadísticos  Valores percentiles: Cuartiles; Percentiles: 5, 95; Dispersión:
Desviación típica, Varianza, Amplitud, Mínimo, Máximo, Error típico de la media;
Tendencia central: Media, Mediana, Moda, Suma; Distribución: Asimetría,
Curtosis; Gráficos  Histogramas con curva normal.

Práctica 4.2. Abra el fichero contra.sav y cree una nueva columna TOTAL con
el total de las sanciones (en miles de euros.) y la relación entre el valor de las
sanciones por multas y decomisos:

TOTAL = MULTAS + COMISOS

Calcule:

a) La media, mediana y cuasi-desviación típica de las MULTAS:


Media = ...........................C. Desv. Típica = ........................

Mediana = .......................

b) El cuartil inferior, superior y recorrido intercuartílico de los COMISOS:


Q1 = ................ Q3 = .................. RI = .....................

c) Valor medio del total de las multas y comisos (TOTAL):


Valor Medio del total (TOTAL) = .....................................

d) Coeficiente de asimetría y curtosis:


Coef. Asimetría del total (TOTAL) = ...…......…....

Coef. De curtosis del total (TOTAL) = ..................

Abra el fichero contra.sav y rellene la tabla siguiente para las variables mul-
tas y comisos (Analizar->Estadísticos descriptivos-> Frecuencias):

media Md Mo P95 Sc Asimetría Curtosis


MULTAS
COMISOS

306
Estadística - Prácticas

4.2. Gráficos
De manera resumida vamos a ver los gráficos más característicos:

· Gráficas de barras: Es uno de los gráficos más utilizados y puede aplicarse


a cualquier tipo de variable. Se dibujan rectángulos (barras) para cada
clase o modalidad establecida de un ancho arbitrario y de altura la
frecuencia de cada clase, utilizando como referencia un sistema cartesiano
de ejes x-y.

· Gráficas de líneas: Muy útiles para representar evoluciones temporales.

· Gráficas de Áreas: Este gráfico presenta como una superficie la evolu-


ción de una variable.

· Diagramas de sectores: Los diagramas de sectores o circulares se utili-


zan para variables generalmente cualitativas y de pocas clases; éstas se
representan mediante sectores circulares que se reparten los 360° de la
circunferencia. Los sectores son proporcionales a la frecuencia de las
clases.

· Histograma: La representación de variables cuantitativas continuas,


agrupadas en intervalos, en un sistema de coordenadas, da lugar al
Histograma de frecuencias. Representadas las clases de intervalo en el eje
X, se levantan rectángulos, con base la amplitud de la clase, y de altura la
frecuencia (absoluta, relativa o acumulada).

Práctica 4.3. Cree un fichero con los datos de la tabla y llámelo robos.sav.
Realice los siguientes gráficos:

a) Diagrama de sectores correspondiente a los robos del 2000. El título del


diagrama será “Robos superiores a un millón”, el subtítulo será el año “(2000)” y
tendrá un pie de página indicando la fuente: “Gabinete de estudios estadísticos”.
Haga modificaciones sobre el gráfico y guárdelo.

b) Diagrama de sectores con el número total de robos en los tres años. Cada
sector indicará el número de robos en ese año.

c) Gráfico de barras superpuestas para los tres años y explique lo que


representa:

307
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

CIUDAD ROBOS 1998 ROBOS 1999 ROBOS 2000


Madrid 31 28 37
Barcelona 26 25 24
Bilbao 12 9 15
Valencia 11 9 10
Sevilla 17 11 19

Abra el fichero contra.sav y realice las siguientes operaciones:

a) Histograma de multas.

b) Diagramas superpuestos de puntos de las variables multas y comisos a


lo largo del tiempo (Líneas, Areas, Secuencia).

c) Diagrama de dispersión de la variable multas respecto de la variable


comisos (Dispersión). ¿Se observa algún tipo de relación lineal entre
ambas variables? Haga modificaciones en el gráfico.

Práctica 4.4. Abra el fichero PRACT5 del SPSS y realice un análisis estadístico
descriptivo de las variables que contiene.

Nota: Esta práctica se recogerá al final de la clase. En las respuestas que den
debe figurar:

a) Tipo de variable.

b) Medidas de tendencia central y de dispersión, las que correspondan.

c) Coeficientes de asimetría y exceso (curtosis). Interpretación de ambos.

d) Los gráficos más adecuados al tipo de variable analizada.

Gráficos Interactivos

En este tipo de gráficos se permite hacer modificaciones después de su


realización, incluso aportar más variables al estudio. Vamos a verlo con un ejemplo.

Práctica 4.5. a) Cree un histograma interactivo con la variable cine (asistencia


anual al cine). b) Haga uno para las chicas y otro para los chicos por separado.

308
Estadística - Prácticas

a) Seleccionamos: Gráficos  Interactivos  Histograma  Variable: cine.

El gráfico aparecerá en la ventana del visor y se hace doble click sobre él para
activarlo. Aparecerá una ventana con barras de herramientas. Si paseamos el
ratón por encima de los iconos nos mostrará qué es cada uno de ellos.

Los gráficos interactivos se pueden modificar de muchas formas. Elegimos el


botón de asignar variables a los ejes, leyendas y otros rasgos del gráfico y pul-
samos de los botones de la esquina superior izquierda el de la derecha.
Aparecerá en tres dimensiones. Se permite la posibilidad de girarlo.

Con los otros botones se puede cambiar color de fondo, la forma de relleno,
... También podemos ayudarnos del botón derecho del ratón.

b) Lo que queremos es añadir otra variable, sexo. Elegimos el mismo botón


de antes y en Variables de panel: sexo. Tendremos dos histogramas.

Práctica 4.6 Haga un gráfico de sectores interactivo con la variable tipocine


(tipo de película que te gusta). Realice modificaciones.

Escogemos: Gráficos  Interactivos  Sectores  Simple ...  Sectores por


tipocine.

Separe por sexos en dos diagramas de sectores. Además de por sexos por
su nivel de rechazo a la violencia (violen).

Escogemos: Gráficos  Interactivos  Sectores  Simple ...  Sectores por


tipocine  Variable panel: violen

Elegimos estilo para que los sectores se diferencien por su forma de rellenado
en vez de por el color. “Cliqueteamos” dos veces sobre el gráfico. Sobre un sec-
tor con el botón derecho seleccionamos Etiquetas de los sectores: Categoría y
Porcentaje. Además, podemos cambiar colores, tramas, etc.

Si tiene que aparecer en el gráfico además separados por nivel de rechazo a


la violencia, hacemos: Gráficos  Interactivos  Sectores  Dispersados ... 
Sectores por: tipocine  Agrupar por: sexo; Variable de panel: violen.

309
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

PRÁCTICA 05: NÚMEROS ÍNDICES


1. Las actuaciones policiales en una comisaría pueden resumirse en cinco
tipos, A, B, C, D y E según se muestran en la tabla I, así como la importancia rela-
tiva de cada una de ellas (w) y el número de actuaciones de cada tipo en los dos
últimos años.

Tipo de
Importancia w (%) 2000 2001
actuación

A 20 150 190

B 30 200 220

C 15 315 300

D 25 80 100

E 10 65 80

1) Calcular los números índices elementales de cada tipo de actuación del


año 2001 con referencia al año anterior e interpretarlos.

2) Calcular el índice compuesto ponderado de las actuaciones de esa comi-


saría en el año 2001 tomando como año de referencia (base) al 2000 y
comentar su significado.

Indicaciones: Transformar  Calcular  Variable destino: Nombre del NI que


se vaya a calcular  En el cuadro de operaciones poner la expresión del número
índice que quereis calcular.

2. En una comisaría la evolución del número de robos que superan cierta


cantidad de euros, ha evolucionado con el tiempo según se muestra en la tabla.

AÑO 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Robos 77 95 99 88 107 115 103 122 98 127 125

Se desea saber:

a) Los números índices elementales tomando como año base 1995.

310
Estadística - Prácticas

b) Los números índices elementales tomando como referencia el año anterior.

c) Los números índices elementales tomando como referencia la media del


periodo 1990-2000.

d) Comente el significado de los diferentes índices calculados y represen-


tarlos gráficamente.

Indicaciones: Transformar  Calcular  Variable destino: Nombre del NI que


se vaya a calcular  En el cuadro de operaciones poner la expresión del número
índice que quereis calcular.

311
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

PRÁCTICA 06: PRÁCTICA DE ACCESO A BASES DE DATOS POR


INTERNET
1. Abra el Navegador de internet.

2. Dirección: http://www.ine.es/.

3. Banco de Datos TEMPUS  Acceso por divisiones.

4. MIG-Migraciones (Pulse consultar)  Migraciones (Pulse consultar) 


Migraciones: Por Provincia Destino y Lugar de Nacimiento (Pulse transfe-
rir)  (Ultimos 6 datos de la series TABLA)  Descomprimir el fichero.

5. Abra el fichero anterior desde Excel(Microsoft Excel) (Abrirlo como:


Todos los archivos).

6. Entre en el SPSS y abra el archivo (Ábralo con la extesión.xls)  Depure


el fichero y guárdelo con el nombre PracInternet.

7. Realice un análisis descriptivo del año 1995.

Otros casos:

8. INEbase. Explore las distintas opciones.

312
Estadística - Prácticas

PRÁCTICA 07: DISTRIBUCIÓN NORMAL


1. Complete la siguiente tabla correspondientes a una distribución Normal,
de media 0 y varianza 1, N(0,1):

P1 Zp1 P2 Zp2
1.6448 0.50
1.9599 0.60
2.3263 0.70
2.5758 0.75
3.0903 0.80
3.2905 0.90

Pasos a seguir para su resolución mediante el SPSS:

1. Crear un fichero con las variables que aparecen en la tabla. Introducir los
datos que se recogen en las tablas.

Para calcular P1(probabilidad):

1º Ir a la opción del menú Principal Transformadas  Calcular  Variable


destino: P1.

2º Seleccionar la función CDF.NORMAL (cuantil, media, desviación típica) y


colóquela en el recuadro de expresión numérica.

Para calcular Zp2(cuantil):

1º Ir a la opción del menú Principal Transformadas  Calcular  Variable


destino: Zp2.

2º Seleccionar la función IDF.NORMAL (probabilidad, media, desviación


típica) y colocarla en el recuadro de expresión numérica.

2. Se sabe que el tiempo que duran las llamadas telefónicas entre los “capos”
de la droga se puede representar por una variable aleatoria, X, que sigue una
distribución normal de media 8 minutos y desviación típica 2 minutos. ¿Qué
proporción de la duración de las llamadas estarán entre 7.5 y 8.2 minutos?

313
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

3. Práctica de manejo de la distribución Normal a través de Internet: Una


empresa de seguridad ofrece dos tipos de servicios, A y B. Los gastos en euros
de cada tipo, para 81 servicio, están recogidos en el fichero PractCN52 del SPSS.
Supongamos que ambos gastos siguen distribuciones normales NA (mA, S2Ac) y
NB (mB, S2Bc) respectivamente.

Utilizando la dirección: http://www.psychstat.smsu.edu/introbook/normal.htm

Conteste a las preguntas siguientes:

a) Valores de los parámetros de la distribuciones normales NA(mA, S2Ac)


y NB(mB, S2Bc).

b) Porcentaje de gastos de servicios tipo A que superan mA.

c) Porcentaje de gastos de servicios tipo A que superan 1100 euros.

d) Porcentaje de gastos de servicios tipo B que superan mA.

e) Porcentaje de gastos de servicios tipo B que superan 1100 euros.

f) Porcentaje de gastos de servicios que están entre mA y mB, para tipo A


y tipo B.

g) Comente los resultados obtenidos.

314
Estadística - Prácticas

PRÁCTICA 08: ESTIMACIÓN DEL TAMAÑO DE UNA MUESTRA.


INTERVALO DE CONFIANZA
1. En un colectivo de 2358 jóvenes de Castilla y León, con edades compren-
didas entre 15 y 20 años, se ha pasado una encuesta dando como resultado que
el 5% de ellos habían consumido drogas de diseño. Conteste a las cuestiones
siguientes:

a) ¿Qué tamaño de muestra deberíamos tomar para tener un error de


muestreo del ±1%, con un grado de confianza del 95%?. ¿Cuál sería el
tamaño muestral si desconociéramos el valor de p?.

Vaya a la dirección: http://calculators.stat.ucla.edu/ (Sample Size


Calculator).

· Seleccione proporciones.

· Introduzca los datos del problema.

Solución: ..............................................................................

b) Obtenga un intervalo de confianza para la proporción.

Vaya a la dirección: http://www.surveysystem.com/sscalc.htm

· Introduzca los datos que piden

Solución: ..............................................................................

2. El valor, en euros, de 10 cheques en descubierto ha sido de 777, 1.617,


385, 1.932, 2.191, 1.967, 609, 819, 1.337 y 1.148. Si estas diez denuncias se con-
sideran como una muestra del total de las que por este motivo se realizan a lo
largo de un año, ¿cuál será el valor medio de los cheques en descubierto que se
expedirán?. Calcule un intervalo de confianza del 95 % para dicho valor. (Nota: el
número de cheques en descubierto que se expiden en un año es de unos 7.000).

Vaya a la dirección: http://glass.ed.asu.edu/stats/analysis/mci.html.

· Introduzca los datos que piden (Si necesita algún valor obténgalo a través
del SPSS).

Solución: ..............................................................................

315
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

PRÁCTICA 09: GRÁFICOS DE CONTROL


En los siguientes gráficos de control se estudiarán las anomalías que presentan:
Rachas, tendencias, puntos fuera de los límites de control, alerta, etc.

Práctica 9.1. Se quiere estudiar el tiempo de reacción de grupos de policías frente


a un suceso. Para evaluar esta situación se decide tomar 20 muestras de 5 poli-
cías a las que se mide el tiempo de reacción en segundos. (S = Subgrupo,
M = Individuo del subgrupo, T=Tiempo de reacción en sg.).

Construya los gráficos de control X-barra S para los siguientes casos

Elegir: Gráficos  Gráficos de control  X-barra, R, s

S M T S M T S M T
1 1 12,02 5 2 12,04 9 3 12,18
1 2 12,15 5 3 11,97 9 4 12,09
1 3 12,10 5 4 11,88 9 5 12,14
1 4 12,20 5 5 12,05 10 1 12,04
1 5 12,12 6 1 11,90 10 2 12,13
2 1 12,14 6 2 11,91 10 3 12,21
2 2 12,07 6 3 12,05 10 4 12,41
2 3 11,99 6 4 12,07 10 5 12,03
2 4 11,98 6 5 11,86 11 1 12,20
2 5 12,02 7 1 12,08 11 2 12,31
3 1 12,04 7 2 12,09 11 3 12,16
3 2 12,09 7 3 12,21 11 4 12,15
3 3 12,20 7 4 12,02 11 5 12,24
3 4 12,05 7 5 12,01 12 1 12,09
3 5 12,24 8 1 12,17 12 2 12,11
4 1 12,14 8 2 12,18 12 3 12,28
4 2 12,25 8 3 12,10 12 4 12,02
4 3 12,09 8 4 12,09 12 5 12,15
4 4 12,07 8 5 12,15 13 1 12,00
4 5 11,96 9 1 12,32 13 2 12,14
5 1 12,17 9 2 12,26 13 3 11,92

316
Estadística - Prácticas

S M T S M T S M T
13 4 11,88 16 1 12,08 18 3 11,92
13 5 11,81 16 2 12,09 18 4 11,96
14 1 11,90 16 3 11,93 18 5 11,87
14 2 11,90 16 4 12,09 19 1 12,14
14 3 11,91 16 5 12,08 19 2 12,07
14 4 11,91 17 1 12,02 19 3 12,99
14 5 12,01 17 2 11,85 19 4 11,98
15 1 12,02 17 3 11,72 19 5 12,32
15 2 11,86 17 4 11,91 20 1 12,24
15 3 12,03 17 5 11,82 20 2 11,79
15 4 12,03 18 1 11,85 20 3 12,20
15 5 12,05 18 2 11,87 20 4 12,15
20 5 12,04

Práctica 9.2. Una determinada empresa realiza cada día un control sobre sus
productos eligiendo al azar una muestra de tamaño n variable. como se recoge en
la tabla siguiente (R = Rechazados):

Día R n Día R n Día R n


1 14 286 11 15 307 21 19 317
2 22 281 12 16 328 22 23 323
3 9 310 13 21 296 23 15 304
4 19 313 14 9 296 24 12 304
5 21 293 15 25 317 25 19 324
6 18 305 16 15 297 26 17 289
7 16 322 17 14 283 27 15 299
8 16 316 18 13 321 28 13 318
9 21 293 19 10 317 29 19 313
10 14 287 20 21 307 30 12 289

Hacemos: Gráficos  Control  Definir: p  Los casos son subgrupos  Nº


de disconformidades: R  Subgrupos etiquetados mediante: Subgrupos 
Tamaño muestral: variable

317
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Práctica 9.3. En una línea de fabricación de circuitos integrados se han inspec-


cionado 25 subgrupos a razón de 1000 uds/subgrupo. El número de unidades
defectuosas por subgrupo (uds) es: 8. 14. 10. 4. 13. 9. 7. 11. 15. 13. 5. 14. 12. 8.
15. 11. 9. 18. 6. 12. 6. 12. 8. 15. 14. Construir un gráfico de control.

Hacemos: Gráficos  Control  Definir: np  Los casos son subgrupos  Nº


de disconformidades: uds  Subgrupos etiquetados mediante: Subgrupos 
Tamaño muestral: 1000

Práctica 9.4. En un proceso de falsificación de cintas de vídeo (fcv) el número


de defectos por cada 50 metros de cinta son. para 20 cintas. los siguientes. fcv:
7. 1. 2. 5. 0. 6. 2. 0. 4. 5. 6. 3. 3. 3. 1. 6. 3. 1. 5 y 6. Construir un gráfico de
control c y otro u.

Hacemos: Gráficos  Control  Definir: c  Los casos son unidades 


Característica: fcv  Subgrupos definidos por: Subgrupos.

Práctica 9.5. Una determinada empresa realiza cada día un control sobre sus
productos eligiendo al azar una muestra de tamaño variable. Los datos se recogen
en la tabla siguiente:

Unidades
Día Disconformidades
inspeccionadas
1 110 120
2 82 94
3 96 89
4 115 162
5 108 150
6 56 82
7 120 143
8 98 134
9 102 97
10 115 145
11 88 128
12 71 83
13 95 120
14 103 116

318
Estadística - Prácticas

15 113 127
16 85 92
17 101 140
18 42 60
19 97 121
20 92 108
21 100 131
22 115 119
23 99 93
24 57 88
25 89 107
26 101 105
27 122 143
28 105 132
29 98 100
30 48 60

Hacemos: Gráficos  Control  Definir: u  Organización de los datos: Los


casos son subgrupos  Definir  Nº de disconformidades: Variable a tratar
(disconformidades)  Subgrupos etiquetados mediante: Subgrupos(día) 
Tamaño muestral  Variable: nº inspeccionados

319
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

PRÁCTICA 10: CONTRASTES DE HIPÓTESIS. COMPARACIÓN DE


MEDIAS

10.1. Forma Práctica de Operar en un Contraste de Hipótesis para la


Media de Dos Grupos Independientes
Suponiendo que disponemos de los datos en un fichero en condiciones de
operar con ellos. es decir. variables bien definidas. datos depurados. etc.. el pro-
ceso es el siguiente:

I. Elección de un nivel de significación a.

Contraste de varianzas

II. Enunciado de la hipótesis nula H0 y de la alternativa H1

H0: σ12 = σ22

H1: σ12 ≠ σ22

III. Selección del estadístico de contraste. cuya distribución debe ser conocida
para H0 verdadera. en nuestro caso la F de Snedecor.

Contraste de medias:

IV. Enunciado de la hipótesis nula H0 y de la alternativa H1

H0: µ1 = µ2

H1: µ1 ≠ µ2

V. Si en el contraste de la varianza ha resultado aceptada la hipótesis nula


H0: σ12 = σ22, es decir, se acepta la igualdad de varianzas (la prueba de Levene
para la igualdad de varianzas ha resultado no significativa. p (Sig) > α ___por lo
que. al analizar la salida del SPSS, bloque de prueba t para la comparación de
medias, tomaremos la primera fila (se han asumido varianzas iguales) para
contrastar la media de los grupos:

H0: µ1 = µ2
H0: σ12 = σ22 
H1: µ1 ≠ µ2

320
Estadística - Prácticas

donde si p ≤ α__se rechaza la H0 . es decir. se acepta H1. Si p > α__se se acepta H0.

En el caso de aceptar H1: σ12 ≠ σ22 . la F de Snedecor ha resultado significa-


tiva, p ≤ α. estaremos en el caso de que no se han asumido varianzas iguales,
segunda fila de la tabla de la prueba t para la comparación de medias. El proce-
so es análogo al anterior:

H0: µ1 = µ2
H0: σ12 ≠ σ22 
H1: µ1 ≠ µ2

si p ≤ α__ se rechaza la H0 , es decir, se acepta H1. Si p > α __se acepta H0.

El programa SPSS suministra. por defecto. Probabilidades bilaterales (Sig


(bilateral)) para la prueba de la comparación entre medias con la t de Student. La
diferencia de medias realizada con el SPSS suministra un grado de significación
bilateral.

Práctica 10.1. Utilizando el fichero hábitos de SPSS. Contestamos a las


siguientes preguntas sobre pruebas t:

¿Se puede afirmar que en la población el número de hermanos incluido


sujeto numher) es 3?. ¿por qué?

¿Qué hipótesis estamos contrastando?

¿Cuál es el valor del estadístico de contraste?

¿Qué distribución sigue?. ¿con cuántos grados de libertad?

¿Cuál es el número medio de hermanos en la muestra escogida?

Eligiendo la opción: Analizar  Comparar Medias  Prueba T para una


muestra  Valor para la prueba 3.

Práctica 10.2. Supongamos que se quieren comparar las concentraciones diarias


de un determinado componente químico. recogidas por dos estaciones X(1)
e Y(2) cuyos valores son X: 1.69. 1.81. 2. 1.47. 1.12 e Y: 0.89. 1.46. 1.30. 2.60.
3.05. 1.63. 2.31. 0.79. Para un nivel de significación del 5%. conteste a las cues-
tiones siguientes:

a) ¿Se acepta la hipótesis de igualdad de varianzas?.

321
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

b) ¿Qué hipótesis estamos contrastando?.

c) ¿Cuál es el valor del estadístico de contraste?. ¿con cuántos grados de


libertad?.

d) ¿Cuál es el intervalo de confianza?.

e) ¿Se acepta la hipótesis nula?.

Para dar respuesta a los apartados anteriores. configure un fichero con los
datos anteriores y elija Analizar  Comparar Medias  Prueba T para muestras
independientes  Contrastar variables: concent. Variable de agrupación
estación (1. 2).

Práctica 10.3. Las horas semanales que ven los chicos la televisión. ¿son iguales
en el medio rural que en el urbano para un nivel de confianza del 99%?.

Abra el fichero hábitos de SPSS. seleccione la opción de Analizar  Comparar


Medias  Prueba T para muestras independientes  Contrastar variables TV.
Variable de agrupación hábitat (1. 2)  Opciones 99% .

Practica 10.4. Deseamos comprobar si mejora la calificación de una prueba de


tiro la utilización de una nueva técnica. Para ello a un grupo de 10 expertos en
seguridad se le ha recogido las puntuaciones en tiro antes y después de utilizar
la nueva técnica.

Experto 1 2 3 4 5 6 7 8 9 10
Antes 6 7 8 4 5 7 9 6 5 9
Después 6 8 7 5 7 7 8 8 7 8

Conteste a las cuestiones siguientes con una significación del 5%:

a) ¿Qué hipótesis estamos contrastando?.

b) ¿Cuál es el valor del estadístico de contraste?. ¿con cuántos grados de


libertad?.

c) ¿Cuál es el intervalo de confianza?.

d) ¿Se acepta la hipótesis nula?.

322
Estadística - Prácticas

Realizada a los 175 chicos una primera pregunta sobre los libros leídos anualmen-
te. se obtuvieron los datos recogidos en la variable “lect”. Pasado un tiempo se
volvió a hacer la misma pregunta y se recogieron los datos en “lectp”. Para una
significación de 5%. ¿Ha variado la tasa de lectura?.

Escogemos Analizar  Comparar Medias  Prueba T para muestras relacionadas


 Variables relacionadas: lect. lectp.

Practica 10.5. (Continuación) Esta práctica tiene tres partes que consisten en:

1. Comparar la media de una muestra con un valor dado de antemano para


decidir si la diferencia es significativa o no. Los datos corresponden al valor en
euros. de 25 sustracciones en vehículos y se desea saber si el valor medio de lo
sustraido difiere estadísticamente o no del valor medio de otros años que estaba
fijado en 65.euros. Los datos son: 69. 48. 62. 39. 28. 59. 43. 45. 40. 59. 51. 49.
65. 70. 67. 64. 87. 91. 86. 87. 92. 85. 74. 87. 93.

La media de la muestra ¿Difiere estadísticamente del valor 65?

Lo que tenemos en este caso es una prueba T para una sola muestra. quere-
mos ver si una población tiene un valor en un parámetro. la media. Eligiendo la
opción de Estadísticos  Comparar Medias  Prueba T para una muestra  Valor
para la prueba 65.

Conteste a las cuestiones siguientes:

a) ¿Cuánto vale la significación muestral de la hipótesis nula anterior?.

b) Intervalo de confianza del 95 % para la media m de la población.

c) ¿Cuánto vale la media?.

d) ¿Se acepta la hipótesis nula?.

2. Comparar las medias de dos grupos independientes para ver si se pueden


considerar iguales o no. En concreto vamos a comparar el valor medio de los
cheques en descubierto con el valor medio de lo sustraido por el método del
tirón. Los datos son:

323
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

GRUPO 1: 29, 48, 62, 39, 28, 59, 43, 45, 40, 59, 51, 49, 40, 30, 47, 64,
37, 31, 56, 47, 41, 45, 54, 57, 43

GRUPO 2: 45, 53, 55, 76, 34, 81, 87, 67, 65, 64, 94, 49, 86, 35, 57, 43, 51,
46, 64, 81, 69, 56, 65, 48, 53

Eligiendo la opción de Estadísticos  Comparar Medias  Prueba T para


muestras independientes  Contrastar variables DESCUB. Variable de agrupación
GRUPO (1, 2)

a) ¿Difieren estadísticamente la medias de los dos grupos? (Justifique la


respuesta).

b) ¿Cuánto vale la significación muestral de la hipótesis nula anterior?.

c) ¿Puede suponerse que los datos proceden de poblaciones con varianzas


iguales?. Justifique la respuesta.

d) Intervalo de confianza del 90 % para la diferencia de medias.

e) ¿Se acepta la hipótesis nula?.

3. Comparar las medias de dos grupos relacionados para ver si se pueden


considerar iguales o no. Se trata de un análisis grafométrico de un texto manus-
crito con medidas del espacio entre palabras tomadas por dos técnicos; se pre-
tende decidir si el espacio medio entre palabras determinado por ambos técni-
cos es similar o no. Los datos (en mm) se muestran en la tabla:

Espacio Técnico 1 Técnico 2 Espacio Técnico 1 Técnico 2


1 3.51 3.50 9 4.02 4.04
2 3.82 3.85 10 4.28 4.31
3 4.63 4.62 11 3.09 3.12
4 5.54 5.51 12 3.81 3.84
5 3.02 3.03 13 3.06 3.10
6 5.01 5.06 14 6.00 5.99
7 5.33 5.32 15 2.51 2.47
8 3.74 3.74 16 3.55 3.59

324
Estadística - Prácticas

Los datos correspondientes a estos tres ejemplos se grabarán en un archivo


denominado pract105c.sav.

¿Cuánto vale la media de la reunión de las dos muestras?:

Escogemos Estadísticos  Comparar Medias  Prueba T para muestras


relacionadas  Variables relacionadas TECNI1. TECNI2.

a) Difieren estadísticamente la medias de los dos grupos? (Justifique la res-


puesta).

b) Cuánto vale la significación muestral de la hipótesis nula anterior?.

c) Intervalo de confianza del 95 % para la diferencia de medias.

d) ¿Cuánto vale la media de la diferencia?.

325
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

PRÁCTICA 11: CORRELACIÓN

11.1. Introducción
El concepto de relación o correlación se refiere al grado de variación conjunta
existente entre dos o más variables. La forma más intuitiva de formarnos una
primera impresión sobre el tipo de relación existente entre dos variables es a través
de un diagrama de dispersión (Gráficos  Dispersión...). La nube de puntos nos
da una idea de la relación existente entre las variables.

11.2. Correlación Lineal Simple


Vamos a centrar el estudio en un tipo particular de relación llamada lineal (la
representación gráfica de los puntos sigue una línea recta) y con dos variables
(simple). Una relación lineal positiva entre dos variables X. Y indica que los valores
de las dos varían de forma parecida. Una relación lineal negativa significa que los
valores de ambas varían justamente al revés. Estos tipos de relación se ven
claramente a través de diagrama de dispersión. al igual que podemos observar
si los puntos se aproxima o no a una línea recta. Para determinar de una forma
numérica el grado de ajuste. Necesitamos índices capaces de cuantificar ese
grado con una mayor precisión de lo que permite hacerlo una simple inspección
del diagrama de dispersión.

Estos índices numéricos suelen denominarse coeficientes de correlación y


permiten cuantificar el grado de relación lineal existente entre dos variables
cuantitativas.

Analizar  Correlaciones  Bivariadas... Da paso al cuadro de diálogo


Correlaciones Bivariadas. Seleccionar las variables cuantitativas cuyo grado de
relación se desea estudiar y trasladarlas a la lista de Variables. Pueden seleccio-
narse uno o más de los siguientecoeficiente de correlación:

Tau-b de Kendall. Este coeficiente de correlación es apropiado para estudiar


la relación entre variables ordinales.

Spearman. El coeficiente de correlación rho de Spearman (1904) es el coe-


ficiente de correlación de Pearson. pero aplicado después de transformar
las puntuaciones originales en rangos.

326
Estadística - Prácticas

11.3. Correlación Parcial


Permite estudiar la relación lineal existente entre dos variables controlando
el posible efecto de otras variables.

Práctica 11: Abra el fichero Reg08.sav. en él aparecen datos de salarios de


empleados de una empresa de seguridad.

Podemos hacer un gráfico de dispersión para ver si los pares de datos se


aproximan a una línea recta. Gráficos  Dispersión. Eje Y: Salario. Eje X: salaini
(lo repetiremos cambiando la variable X)

Calculemos el coeficiente de correlación lineal de Pearson para cada par de


variables. esto nos dará el grado de linealidad entre cada par de ellas: Analizar
 Correlaciones  Bivariadas...  Variables: (pasamos todas)  Coeficientes de
correlación: Pearson  Prueba de significación: Bilateral.  Marcar las correla-
ciones significativas.

Repita lo anterior calculando el coeficiente de correlación de Spearman.


Compruebe si las relaciones han variado.

Podemos obtener a través del botón Opciones.... estadísticos de las variables


como la media. desviaciones típicas. productos cruzados y covarianzas.

Calcular el coeficiente de correlación parcial entre todas las variables cuando


controla la variable Edad. es decir quitamos los efectos de esa variable (es el
coeficiente de correlación de Pearson entre los residuos de las ecuaciones de la
regresión entre cada variable y la variable Edad): Analizar  Correlaciones 
Parciales...  Variables: (pasamos todas menos la Edad) Controlando para: Edad
 Prueba de significación: Bilateral. Mostrar el nivel de significación real 
Opciones  Correlaciones de orden cero.

327
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

PRÁCTICA 12: REGRESIÓN

12.1. Regresión Lineal


Abra el archivo ya utilizado en la práctica anterior Reg08.sav y realice las
prácticas siguientes:

En Practica
primer lugar
12.1. vamos a calcular las correlaciones de Pearson y de Spearman
entre estas variables numéricas y vamos a ver qué variables presentan correla-
ciones significativamente distintas de cero con la talla actual para un nivel de sig-
nificación del 5%.

Hacemos: Analizar  Correlaciones  Bivariadas  Seleccionar: Variables =


edad. pesonac. tallac. tallnac. tóraxnac; Coeficientes de correlación = Pearson.
Spearman; Prueba de significación = Bilateral; Marcar las correlaciones significa-
tivas  Opciones  Seleccionar: Estadísticos = Medias y desviaciones típicas;
Valores perdidos = Excluir casos según pareja  Continuar  Aceptar.

Practica
Vamos 12.2. una relación lineal que explique el salario actual en función de
a buscar
las demás:

Hacemos: Analizar  Regresión  Lineal  Seleccionar: Dependiente = salario;


Independientes: edad. educ. catlab. salini. tiempemp. expprev. sex; Método =
Introducir  Estadísticos  Seleccionar: Coeficientes de regresión =
Estimaciones. Intervalos de confianza. Ajuste del modelo. Descriptivos 
Continuar  Opciones Seleccionar: Criterios del método por pasos = Usar proba-
bilidad de F Entrada = 0.05. Salida = 0.10; Incluir constante en la ecuación;
Valores perdidos = Excluir casos según pareja  Continuar  Aceptar.

Vamos a seleccionar
Practica 12.3. variables por regresión paso a paso hacia adelante:

Hacemos: Analizar  Regresión  Lineal  Seleccionar: Dependiente = salario;


Independientes: edad. educ. catlab. salini. tiempemp. expprev. sex; Método =
Pasos suc.  Estadísticos  Seleccionar: Coeficientes de regresión =
Estimaciones. Intervalos de confianza. Ajuste del modelo  Continuar 
Opciones Seleccionar: Criterios del método por pasos = Usar probabilidad de F
Entrada = 0.05. Salida = 0.10; Incluir constante en la ecuación; Valores perdidos
= Excluir casos según pareja  Continuar  Aceptar.

328
Estadística - Cuestionario de autoevaluación

CUESTIONARIO DE AUTOEVALUACIÓN

Primer Cuatrimestre

Tema 1

1. Cuando una investigación policial se realiza de forma racional, ordenada


y objetiva, ...

a) Se trata de lograr conocimiento científico.

b) Puede tratarse de una investigación de laboratorio.

c) Se puede hablar de método científico.

d) Todas las anteriores son acertadas.

2. El objetivo del conocimiento científico, en relación con su campo de


actuación, es:

a) Analizar.

b) Predecir y actuar.

c) Explicar.

d) Todas las anteriores son válidas.

3. La duda y la precisión ...

a) Son conceptos incompatibles con la ciencia.

b) No son conceptos válidos en investigación policial, ya que se requiere


seguridad y certeza.

c) Son conceptos integradores del método científico.

d) No es posible la duda cuando se trabaja con precisión científica.

329
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Tema 2

1. ¿Cuáles de las siguientes fases los son en un proceso estadístico?

a) Análisis de datos.

b) Recopilación de datos.

c) Ordenación de datos.

d) Todas las anteriores son válidas.

2. Cuando en una población dada se selecciona adecuadamente un grupo de


individuos, a este grupo se le denomina:

a) Estadístico.

b) Muestra.

c) Parámetro.

d) Todas las anteriores son válidas.

3. Por eficacia policial se entiende:

a) El porcentaje existente entre los delitos esclarecidos sobre el total de


los delitos conocidos.

b) Relación entre el número de delitos esclarecidos y el número de funcio-


narios de la Dependencia.

c) Relación entre el número de delitos conocidos y el número de funcionarios


de la Dependencia.

d) Todas las anteriores son válidas.

Tema 3

1. La entrevistas telefónica es:

a) Un control policial.

b) Un tipo de encuesta.

c) Un muestreo.

d) Todas las anteriores son válidas.

330
Estadística - Cuestionario de autoevaluación

2. La expresión fi = ni / Σni representa:

a) La frecuencia absoluta acumulada.

b) El porcentaje absoluto.

c) La frecuencia relativa.

d) Todas las anteriores son válidas.

3. El intervalo de clase de la forma [XI, XS], es:

a) Abierto.

b) Semiabierto.

c) Cerrado.

d) Todas las anteriores son válidas.

Tema 4

1. Las medidas de centralización sirven para:

a) Saber el número de casos que tenemos.

b) Informarnos de la posición de los valores centrales de los datos.

c) De la dispersión de los datos.

d) Todas las anteriores son válidas.

2. De las medidas de centralización: media mediana y moda ¿cuál es la más


sensible a los valores extremos?:

a) La Mediana.

b) La moda.

c) La media.

d) Todas las anteriores son válidas.

331
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

3. De las medidas de centralización: media mediana y moda ¿cuál puede


tomar varios valores?:

a) La moda.

b) La media.

c) La media.

d) Todas las anteriores son válidas.

Tema 5

1. La desviación típica es una medida de:

a) Tendencia Central.

b) Una medida de asimetría.

c) Una medida de curtosis.

d) Una medida de dispersión.

2. La desviación media es una medida de:

a) Dispersión.

b) Asimetría.

c) Curtosis.

d) Tendencia Central.

3. El coeficiente de asimetría es una medida de:

a) Dispersión.

b) Forma.

c) Tendencia central.

d) Todas las anteriores son válidas.

332
Estadística - Cuestionario de autoevaluación

4. El coeficiente de curtosis (exceso) es una medida de:

a) Dispersión.

b) Forma.

c) Tendencia central.

d) Todas las anteriores son válidas.

Tema 6

1. Los números índices simples que se expresan como (xi - x0 )/x0 se


denominan:

a) Índices incrementales.

b) Índices incrementales porcentuales.

c) Índices absolutos.

d) Todas las anteriores son válidas.

2. Los números índices compuestos pueden ser:

a) Índices simples.

b) Índices simples porcentuales.

c) Índices compuestos no ponderados.

d) Todas las anteriores son válidas.

3. Los números índices compuestos pueden ser:

a) Índices compuestos ponderados.

b) Índices simples.

c) Índices simples porcentuales.

d) Todas las anteriores son válidas.

333
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Segundo Cuatrimestre

Tema 7

1. La probabilidad de un suceso más la de su contrario vale:

a) Cero.

b) Un medio.

c) Uno.

d) Más de uno.

2. Si una variable X con distribución normal tiene de media 160 y desviación


típica 12, la variable tipificada Z es:

a) Z = (X – 12)/160.

b) Z = (X – 160)/12.

c) Z = (X – 12) 160.

d) Z = (X – 160) 12.

3. Si z es una puntuación normal tipificada y consultamos las probabilidades


con la tabla de la distribución normal, entonces pz + p-z vale:

a) Cero.

b) Un cuarto.

c) Un medio.

d) Uno.

Tema 8

1. En el muestreo estratificado interesa que:

a) Dentro de cada estrato las unidades estadísticas sean muy parecidas


entre sí, aunque entre estratos pueda haber mucha diferencia.

b) Los estratos sean parecidos entre sí, aunque dentro de cada estrato
puede haber mucha diferencia entre las unidades estadísticas.

334
Estadística - Cuestionario de autoevaluación

c) Los estratos sean muy parecidos a la totalidad de la población.

d) Los estratos sean muchos para poder elegir unos cuantos al azar.

2. La cuasivarianza muestral se utiliza porque...

a) Es un estimador centrado de la varianza poblacional.

b) Su raíz cuadrada es más fácil de calcular que la de la varianza muestral.

c) No tiene unidades de medida.

d) Sus unidades de medida son las mismas que las de los datos.

3. El grado de confianza de un intervalo representa:

a) La fiabilidad de que esté bien construido.

b) El porcentaje de población que se ha tomado para formar

la muestra.

c) La seguridad con que se ha tomado la muestra.

d) La probabilidad de que contenga el verdadero valor del parámetro.

Tema 9

1. Un gráfico de control:

a) Es la representación del resultado de un proceso controlado automáti-


camente.

b) Es un diagrama temporal para anotar los servicios realizados por el


personal.

c) Es una representación gráfica de la evolución temporal de una variable


que nos permite tomar decisiones.

d) Es aquél que una vez diseñado controla automáticamente la evolución


de un proceso.

335
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

2. Habitualmente, y respecto de la línea central, las líneas de control se


sitúan a:

a) Una desviación típica.

b) Dos desviaciones típicas.

c) Tres desviaciones típicas.

d) Cuatro desviaciones típicas.

3. En condiciones de normalidad, la probabilidad de que, por azar, una


observación quede fuera de los límites de control es:

a) Muy pequeña, del 3 por mil aproximadamente.

b) Pequeña, del 5 por cien aproximadamente.

c) Cero.

d) Un diez por ciento.

Tema 10

1. El error de Tipo I consiste en:

a) Aceptar la hipótesis nula siendo falsa.

b) Rechazar la hipótesis nula siendo verdadera.

c) Tomar una decisión incorrecta.

d) Equivocarse por errores en el muestreo.

2. La significación muestral de la hipótesis nula, que habitualmente se repre-


senta con p, es una medida de:

a) La probabilidad de equivocarse.

b) La probabilidad de tomar la decisión correcta.

c) La probabilidad de que la muestra sea representativa.

d) La coherencia entre el valor observado del estadístico de contraste y la


hipótesis nula.

336
Estadística - Cuestionario de autoevaluación

3. Si en contraste de hipótesis se trabaja con un nivel de significación del 5%,


y la significación muestral de la hipótesis nula vale p = 0.0048, entonces:

a) Se acepta la hipótesis nula.

b) Se rechaza la hipótesis nula.

c) Es una situación en que para decidir convendría tomar una muestra


mayor.

d) La muestra es excesivamente grande.

Tema 11

1. Una correlación positiva entre dos variables significa que:

a) Hay una dependencia real y directa entre ellas.

b) La relación que existe favorece los resultados de nuestro estudio.

c) Al aumentar los valores de una de ellas tienden a aumentar los valores


de la otra.

d) Se ha calculado tomando muchos datos de ambas variables.

2. El coeficiente de determinación, r2, representa:

a) La proporción de variabilidad explicada por la regresión.

b) La desviación típica de los residuales.

c) La pendiente de la recta de regresión.

d) El error de tipo II.

3. Si correlación de Pearson no es significativa pero la de Spearman sí que lo


es, y su valor es negativo, eso quiere decir que:

a) Hemos tomado una muestra no significativa.

b) La muestra es pequeña.

c) No hemos elegido bien las variables.

d) Entre los valores de las variables existe una relación estadística


decreciente que no es de tipo lineal.

337
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

Respuestas Primer Cuatrimestre


1.1 1.2 1.3 2.1 2.2 2.3 3.1 3.2 3.3 4.1 4.2 4.3 5.1 5.2 5.3 6.1 6.2 6.3
a) X X X X X
b) X X X X
c) X X X X X
d) X X X X

Respuestas Segundo Cuatrimestre

7.1 7.2 7.3 8.1 8.2 8.3 9.1 9.2 9.3 10.1 10.2 10.3 11.1 11.2 11.3
a) X X X X
b) X X X
c) X X X X
d) X X X X

338
Estadística - Bibliografía

BIBLIOGRAFÍA
ALCAIDE A. (1976): “Estadística Aplicada a las Ciencias Sociales”. Ed. Pirámide.
Madrid.

ÁLVAREZ VILLAR. (1975): “Manual de Psicología Experimental. Metodología”. Edit.


Biblioteca Nueva. Madrid.

ANDER-EGG E. (1987): “Técnicas de Investigación Social (21 ed.)” Ed. El Ateneo.


México.

ARDANUY ALBAJAR R. y MARTIN MARTIN Q. (1993): “Estadística para Ingenieros”.


Ed. Hespérides. Salamanca.

ARDANUY ALBAJAR R. y SOLDEVILLA MORENO Mª M. (1992): “Estadística Básica”.


Ed. Hespérides, Salamanca.

ARDANUY ALBAJAR R.; CANELO BARRADO, C.; MARTIN MARTIN Q.; LOPEZ FIDALGO,
J. y ALCALA HERNÁNDEZ, A. (1999): “Metodología de la Invstigación en Ciencias
Policiales. Aplicaciones Estadísticas”. Dirección General de la Policía. División de
Formación y Perfeccionamiento.

ARNAU J. (1979): “Psicología Experimental”. Ed. Trillas. México.

BUNGE M. (1973): “La Investigación Científica”. Ed. Ariel. Barcelona.

CALVO F. (1987): “Estadística Aplicada”. Ediciones Deusto S.A.

DEWEY J. (1933): “How we Think. Heat”. Boston. GARCÍA FERRANDO M. (1985):


“Socioestadística”. Alianza Editorial. Madrid.

GARCÍA HOZ V. (1968): “Principios de Pedagogía Sistemática”. Ed. Rialp. Madrid.

GONZÁLEZ ÁLVAREZ A. (1951): “Introducción a la Metafísica”. Mendoza.

KERLINGER F.N. (1975): “Investigación del Comportamiento”. Interamericana.


México.

MARITAIN J. (1958): “Ciencia y Filosofía”. Ed. Taurus. Madrid.

PEÑA SÁNCHEZ DE RIVERA D. (1991): “Estadística, Modelos y Métodos”. Vol. 1


(Fundamentos). Alianza Universidad Textos, Madrid.

339
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

PÉREZ JUSTE y otros.(1989): “P. Experimental”. Ed. UNED.

PIAGET J. (1973): “Tendencias de la Investigación en Ciencias Sociales”. Edit.


Alianza UNESCO. Madrid.

POPPER K.R. (1977): “La Lógica de la Investigación”. Técnos. Madrid.

RASO J. M. y otros (1987): “Estadística Básica para Ciencias Sociales”. Editorial


Ariel. Barcelona.

RÍOS S. (1991): “Iniciación Estadística”. Ed. Paraninfo (7ª edición), Madrid.

ROMERO MARÍN A. (1963): “Los Cuestionarios Científicos”. Revista Española de


Pedagogía nº 41, págs. 37 a 43.

RUSSELL B. (1969): “La Perspectiva Científica”. Ariel. Barcelona.

SAMPSON P.(1989): “Cómo Guiar Eficazmente el Pensamiento”. Edit. Deusto.

SIDMAN M. (1978): “Tácticas de Investigación Científica”. Fontanella. Barcelona.

SIERRA BRAVO R.(1984): “Ciencias Sociales. Epistemología, Lógica y


Metodología”. Edit. Paraninfo. Madrid.

ZARAGÜETA J. (1953): “Pedagogía Fundamental”. Labor. Madrid.

340
Estadística - Notas

NOTAS

341
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

342
Estadística - Notas

343
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

344
Estadística - Notas

345
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

346
Estadística - Notas

347
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

348
Estadística - Notas

349
CIENCIAS DE LA SEGURIDAD. UNIVERSIDAD DE SALAMANCA

350
Estadística - Notas

351

También podría gustarte