Está en la página 1de 20

MÓDULO 1.

FUNDAMENTOS DE LAS TÉCNICAS DE MEJORA DE


LAS CONDICIONES DE TRABAJO

U.D. 1.5: Bases estadísticas aplicadas a la prevención

INTRODUCCIÓN

Actualmente, para poder realizar cualquier estudio o trabajo de investigación, por pequeño que sea,
o simplemente para la lectura de artículos científicos, es imprescindible tener un mínimo
conocimiento de estadística, sin que ello implique un gran dominio de las matemáticas.

No es el objetivo de esta Unidad Didáctica, por tanto, formar expertos estadísticos, sino
proporcionar al Técnico de Prevención de Riesgos Laborales las bases que le permitan entender la
aplicación de la estadística a las investigaciones o estudios en este terreno.

La estadística nos proporciona una serie de métodos para, al realizar el estudio de un conjunto de
individuos, recoger, ordenar, tabular y analizar los datos de interés, así como para aceptar o
rechazar ciertos supuestos (hipótesis). Estos son los cometidos fundamentales de la llamada
Estadística Descriptiva.

Por otro lado, la estadística nos permite también hacer el estudio sobre una muestra, y a partir de
los resultados obtenidos en la muestra, hacer inferencias acerca de la población de origen. De
esta parte se encarga la Estadística Inferencial.

A lo largo de la Unidad iremos viendo algunos de los aspectos más básicos y fundamentales de estas
dos ramas de la Estadística, centrándonos fundamentalmente en la Estadística Descriptiva.
Posteriormente, en la Unidad Didáctica 2 de la Especialidad de Ergonomía y Psicosociología Aplicada:
"Métodos estadísticos más aplicados en Ergonomía y Psicosociología Aplicada", trataremos
con más detenimiento algunos de los aspectos de la Estadística Inferencial.

OBJETIVOS

En esta Unidad se pretende que el alumno sepa:

• Qué es la población de estudio y qué es una muestra representativa de la misma.


• Qué diferencia hay entre parámetros y estadísticos.
• Cuáles son los objetivos de la Estadística Descriptiva.
• Qué es y cómo se construye una matriz de datos.

1
• Qué tipos de variables existen en Estadística.
• Cómo ordenar y describir los datos recogidos en un estudio.
• Qué índices estadísticos son los adecuados para describir cada tipo de variable.
• Cuáles son los objetivos de la Estadística Inferencial.
• Cómo se selecciona una muestra para que sea representativa de la población de origen.
• Cuáles son los procedimientos más habituales en Estadística Inferencial.
• Qué se entiende por grado de significación estadística.

ESQUEMA DE LA UNIDAD

2
CAPÍTULO 1: CONCEPTOS PREVIOS

1. POBLACIÓN Y MUESTRA

En la introducción hemos definido la Estadística como una ciencia que recoge, ordena, y analiza los
datos de una muestra o población, y que nos permite hacer inferencias acerca de la población a
partir de los datos obtenidos en una muestra.

En esta definición estamos incluyendo dos conceptos básicos, el concepto de población y el


concepto de muestra. El binomio población y muestra es fundamental en cualquier planteamiento
estadístico.

• Población: es el conjunto completo de individuos a los cuales queremos generalizar las


conclusiones de un estudio.
• Muestra: es el conjunto de individuos que realmente se estudian; la muestra debe ser
representativa de la población de estudio.

Cuando nos planteamos realizar un estudio sobre determinadas características o comprobar una
cierta teoría a partir de unos datos empíricos u observados, el primer paso que debemos dar es
definir perfectamente la población, es decir, determinar el conjunto completo de individuos a los
cuales se referirán las conclusiones de nuestro estudio.

En muchas ocasiones, la población que nos interesa es muy extensa, por lo que será prácticamente
imposible, o al menos muy costoso, estudiarla de forma completa.

Las técnicas estadísticas nos permiten inferir las características y relaciones existentes en una
población, analizando dichos aspectos en una muestra representativa de esa población.

Es decir, las técnicas estadísticas nos permiten estudiar las características o relaciones que nos
interesan en un grupo reducido de individuos de la población, y a partir de los resultados obtenidos,
hacer inferencias o extrapolar esas conclusiones a la población.

Una vez que hemos definido el conjunto de sujetos a los que se desea generalizar las conclusiones
del estudio, tendremos una única población, pero pueden existir infinidad de muestras
representativas: cada vez que elijamos un determinado grupo de sujetos, obtendremos una muestra
cuya composición, muy probablemente, será diferente de la anterior, ya que la selección se hace al
azar.

2. PARÁMETROS Y ESTADÍSTICOS

Los diferentes índices estadísticos que describen una población se denominan parámetros, y se
suelen representar con letras griegas.

Cada parámetro de la población puede ser estimado a partir de los datos observados en una
muestra extraída al azar. Los índices estadísticos descriptivos de una muestra se denominan
estadísticos, y son una estimación del valor del parámetro en la población.

• Parámetros: Índices estadísticos descriptivos de la población. Toda función definida sobre


los valores numéricos de una población.
3
• Estadísticos: Índices estadísticos descriptivos de la muestra. Toda función definida sobre los
valores numéricos de una muestra.

Supongamos por ejemplo que conocemos la talla de todos los mozos españoles incorporados a filas
durante un determinado año, es decir, que conocemos los datos de toda la población, de manera
que su media ha resultado ser 173.2 cm. Supongamos además, que de esa población se ha extraído
una muestra de 600 mozos, y que su talla media ha resultado ser 172.1 cm.

La talla media de la población, es decir, el parámetro media de la población de tallas de esos


mozos vale µ=173.2 cm. La talla media de la muestra, es decir, el valor del estadístico en la
muestra de 600 mozos es =172.1 cm. Este valor es una estimación del parámetro µ (media
verdadera de la población).

El parámetro media tiene un único valor, µ=173.2 cm, mientras que pueden existir varios
estadísticos, ya que al aplicar el estadístico a cada muestra, obtendremos un valor diferente,
debido al error aleatorio de muestreo.

Si no existen sesgos, los estadísticos calculados en las diferentes muestras, fluctuarán alrededor
de la verdadera media µ; esta fluctuación será más débil (las estimaciones serán más parecidas al
parámetro µ ), cuanto mayor sea el tamaño de las muestras.

3. ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL

Como hemos dicho al principio, la estadística nos permite, por un lado, recoger, ordenar, tabular y
analizar datos referidos a un conjunto de individuos, (además de aceptar o rechazar ciertos
supuestos o hipótesis), y por otro lado, partiendo de los datos de una muestra, hacer inferencias
sobre la población. Según esto, la estadística consta de dos partes fundamentales:

• Estadística Descriptiva, cuyo cometido es describir una muestra o población. La Estadística


Descriptiva nos permite presentar y describir la información recogida mediante la tabulación,
la representación gráfica y el cálculo de índices estadísticos.

4
• Estadística Inferencial, cuyo cometido es hacer inferencias sobre la población, a partir de
los datos obtenidos en una muestra.

CAPÍTULO 2: ESTADÍSTICA DESCRIPTIVA

Cuando nos planteamos el estudio de los datos recogidos de una determinada muestra o población,
el primer paso, antes de entrar en análisis más complicados, es el análisis descriptivo de esos
datos.

Este tipo de análisis es fundamental, porque nos permitirá posteriormente formular hipótesis de
trabajo razonadas y elegir los métodos estadísticos más adecuados para verificar dichas hipótesis.

La Estadística Descriptiva nos proporciona los instrumentos para llevar a cabo este primer
análisis, es decir, para estudiar las características existentes en un conjunto de individuos (muestra
o población), con dos finalidades fundamentales:

• Organizar los datos, bien a través de tablas, bien por medio de representaciones gráficas.
• Analizar esos datos, obteniendo unos índices estadísticos que representan a la muestra
o población objeto del estudio.

1. MATRIZ DE DATOS

Los datos de interés de cualquier estudio se recogen mediante un formulario o cuestionario, en el


que se registra la información de cada uno de los sujetos, y que permite estructurar esa información
en forma de matriz de datos.

La matriz de datos es un tipo de estructura o tabla que contiene los valores de cada
sujeto en las diferentes variables. Generalmente, en las filas se representan cada uno
de los individuos (sujetos, puestos de trabajo,...), y en las columnas las variables.

Supongamos que vamos a realizar un estudio de ambiente térmico en un determinado taller.


Seleccionamos una muestra de 10 puestos de trabajo, y recogemos información de Temperatura
Seca (TS) en ºC, Temperatura Radiante (TR) en ºC, Humedad Relativa (HR) en % y Velocidad del
Aire (VA) en m/s, en cada uno de ellos. Registramos además datos sobre el sexo del trabajador que
ocupa cada puesto (HOMBRE = 0, MUJER =1), sobre su peso corporal en Kg. (redondeado al valor
entero más próximo), y sobre su grado de comodidad con el ambiente térmico (COMODO=0, ALGO
INCOMODO=1, INCOMODO=2, MUY INCOMODO=3).

En una matriz de datos recogemos los valores que estas variables toman en cada uno de los puestos
de trabajo:

5
2. TIPOS DE VARIABLES

Cuando hablamos de variables nos estamos refiriendo a cada uno de los caracteres o
aspectos que se miden en una muestra de individuos. Son características comunes a
un grupo de individuos, objetos, grupos o hechos, que tienen distintos valores o
diferentes categorías dentro de ese grupo.

La estadística clasifica las variables en dos grandes grupos: variables cualitativas o categóricas, y
variables cuantitativas. Dentro de las variables cualitativas se distinguen dos tipos, según se
puedan ordenar o no las diferentes categorías de la variable. Dentro de las variables cuantitativas se
distinguen las discretas de las continuas. Así, tenemos:

2.1. Variables cualitativas

• Variables cualitativas nominales: aquellas cuyos valores o modalidades se


presentan en forma de cualidad, es decir, no pueden ser medidas. Ej.: sexo, estado
civil, color de ojos, etc.
• Variables cualitativas ordinales: aquellas cuyos valores se presentan también en
forma de cualidad, pero son susceptibles de ser ordenadas. Ej.: molestias producidas
por el ruido (nada, poco, mucho).

2.2. Variables cuantitativas

Son variables cuyas modalidades se presentan en forma numérica, es decir, pueden ser
medidas. Podemos distinguir:

• Variables cuantitativas discretas: aquellas para las cuales no existe un valor


intermedio entre dos valores consecutivos. El caso más frecuente es aquel en el que
los posibles valores de la variable son números enteros o múltiplos de un número fijo.
Ejemplo: número de hijos, número de accidentes, etc.
• Variables cuantitativas continuas: aquellas para las cuales existen valores
intermedios entre dos valores consecutivos. Los valores posibles de la variable están
en número infinito, y "a priori" puede ser cualquiera en un intervalo determinado.
Ejemplo: peso, superficie, temperatura, etc.

6
En algunas ocasiones, la propia definición de la variable lleva implícita la escala de medida que se ha
de utilizar, pero en otras puede ser necesario escoger entre distintas posibilidades.

Por ejemplo, si en un determinado estudio nos interesa conocer el consumo de alcohol de un grupo
de trabajadores, podríamos recoger la información sobre esta variable de distintas formas:

- Hábito de beber (BEBEDOR / ABSTEMIO): Variable cualitativa nominal


- Dosis de alcohol (ALTA / BAJA / SIN): Variable cualitativa ordinal
- Consumo de alcohol (EN GRAMOS): Variable cuantitativa continua

Como norma general, siempre que sea posible es preferible escoger la escala cuantitativa
continua, ya que este tipo de escala contiene más información, y permite utilizar pruebas
estadísticas más potentes.

Además, cuando recogemos información sobre un determinado dato en forma de variable


cuantitativa, posteriormente tendremos la posibilidad de agrupar esa información en categorías
cualitativas, mientras que el proceso inverso no es posible.

Sin embargo, a la hora de decidir en qué tipo de escala vamos a recoger la información que nos
interese, también deberemos valorar la dificultad que supone hacerlo de una determinada manera,
frente al beneficio esperado.

3. TABULACIÓN DE LOS DATOS

Una vez recogidos los valores en la matriz de datos, debemos organizarlos para obtener un resumen
claro, y que conserve el máximo posible de la información original. Para ello, construimos una
distribución de frecuencias.

Una distribución de frecuencias consiste en una serie de clases predeterminadas


con el número total de sujetos que se incluyen en cada clase.

En primer lugar, se ordenan los sujetos según los valores que presentan en la variable por la que les
vamos a clasificar. La clasificación se hace en categorías (si la variable se ha medido en una escala
nominal u ordinal), o en números o intervalos de valores (si la variable se ha medido en una
escala cuantitativa). En la distribución de frecuencias podemos incluir distintos tipos de datos, como:

• Frecuencia absoluta (ni): número de veces que ocurre un determinado valor de la variable
estudiada. La suma total de las frecuencias absolutas coincide con el número total de casos.
• Frecuencia relativa (fi): se obtiene dividiendo la frecuencia absoluta de cada modalidad
entre el número total de casos observados. La suma de todas las frecuencias relativas es
igual a 1.
• Frecuencia absoluta acumulada (Ni): número de veces que ocurre un determinado valor
o alguna de las modalidades anteriores, una vez ordenadas de menor a mayor. (Los valores
acumulados no tienen sentido para variables nominales). Se inicia el cálculo por la modalidad
inferior de la variable, a continuación se suma la siguiente categoría, y así sucesivamente. La
frecuencia absoluta acumulada de la última modalidad coincide con el número total de casos.
• Frecuencia relativa acumulada (Fi): se obtiene dividiendo la frecuencia absoluta
acumulada de cada modalidad entre el número total de casos. La frecuencia relativa
acumulada de la última modalidad coincide con 1.

7
• Porcentaje (pi): producto de las frecuencias relativas por 100. Representa el porcentaje de
elementos en cada modalidad, y la suma total equivale a 100.
• Porcentaje acumulado (Pi): se obtiene multiplicando la frecuencia relativa acumulada por
100. Representa el porcentaje de elementos que están en una modalidad o en alguna de las
modalidades inferiores.

Siguiendo el ejemplo, vamos a hacer la distribución de frecuencias clasificando los datos en función
de los valores obtenidos en la variable COMODIDAD.

Esta variable, que hace referencia al grado de comodidad de los trabajadores con el ambiente
térmico, la hemos recogido como una variable cualitativa ordinal, con cuatro categorías, codificadas
como: COMODO=0, ALGO INCOMODO=1, INCOMODO=2, y MUY INCOMODO=3. La distribución de
frecuencias de esta variable consiste por tanto en ordenar los sujetos según estas cuatro categorías.

Así, en la primera columna (ni), registramos la frecuencia absoluta, es decir, el número de sujetos
que han considerado que el ambiente térmico es cómodo (4), algo incómodo (2), incómodo (3), o
muy incómodo (1).

En la segunda columna (fi) registramos la frecuencia relativa, dividiendo la frecuencia absoluta por
el número total de casos. Por ejemplo, para la categoría COMODO, fi es el resultado de dividir
4/10=0.4. La suma de fi de todas las categorías es igual a 1. El porcentaje (fi) es el resultado de
multiplicar fi por 100. Para esta primera categoría, 0.4*100=40, que significa que el 40% de los
trabajadores consideran que el ambiente térmico es cómodo.

En la cuarta columna (Ni) registramos la frecuencia absoluta acumulada. Puesto que empezamos
por la categoría "inferior", para COMODO Ni es igual a ni, y a partir de ahí se empieza a sumar a
cada categoría la ni de la anterior, de forma que la frecuencia absoluta acumulada de la segunda
categoría (algo incómodo) es 2+4=6, y así sucesivamente, hasta llegar a la última categoría, cuya
Ni coincide con el número total de casos, 10.

La frecuencia relativa acumulada (Fi) se puede calcular dividiendo la frecuencia absoluta acumulada
(Ni) por el total de casos, o sumando a la frecuencia relativa (fi) de cada categoría la de las
anteriores. La Fi de la última categoría es igual a 1.

Finalmente, el porcentaje acumulado (Pi) se calcula multiplicando la frecuencia relativa acumulada


(Fi) por 100, o sumando al porcentaje (pi) de cada categoría el de las anteriores. El Pi de la última
categoría es igual a 100.

8
Cuando nos interese tabular una variable cuantitativa con muchas observaciones, es
recomendable agrupar los datos en intervalos, determinando previamente la amplitud de la
distribución, el número de intervalos, la amplitud de éstos, y sus límites exactos.

Supongamos por ejemplo que nos interesa tabular nuestros datos por la variable PESO.

• En primer lugar, calculamos la amplitud de la distribución, es decir, el intervalo dentro del


cual están comprendidos todos los valores observados, que corresponde a la diferencia entre
el valor máximo y el valor mínimo de la distribución: 83-52=31.

• A continuación, decidimos el número de intervalos que vamos a hacer, dependiendo del


tamaño de la muestra. Se aconseja no superar los 10 intervalos, debido a que con un
número reducido perderemos información, y utilizando un número excesivo,
obtendremos una tabla muy extensa y difícil de interpretar.

Como orientación general, la mayoría de los autores recomiendan que el número de


intervalos sea el equivalente a la raíz cuadrada del número total de casos. En nuestro
ejemplo: v = 3.36 ˜3

• Determinamos la amplitud de los intervalos dividiendo la amplitud de la distribución entre


el número de intervalos previsto: 31/3=10.33. Por lo tanto, vamos a establecer intervalos de
amplitud 10, que podrían ser por ejemplo, 51-60, 61-70, 71-80, 81-90.

Estos son los límites reales de los intervalos, los extremos de cada uno de los grupos,
denominándose inferior y superior a los límites correspondientes al valor mínimo y máximo
del intervalo. Los límites reales, que coinciden con los valores observados, son diferentes
de los límites exactos, que marcan con mayor precisión el principio y el fin de cada
intervalo.

El límite exacto inferior de cada intervalo queda media unidad por debajo del límite real, y el
límite exacto superior, media unidad por encima del real, coincidiendo el límite exacto superior
con el límite exacto inferior del siguiente intervalo. Es decir, en nuestro ejemplo, los límites exactos
de los intervalos serían 50.5-60.5, 60.5-70.5, 70.5-80.5, 80.5-90.5.

9
4. REPRESENTACIÓN GRÁFICA

Las distribuciones de frecuencias de las distintas variables recogidas en un estudio se pueden


visualizar mediante representaciones gráficas, cuya función fundamental es dar información global
de forma resumida, es decir, facilitar una visión de conjunto del fenómeno analizado.

Es conveniente incluir en cada gráfico toda la información posible, para evitar ambigüedades y
facilitar su interpretación por otras personas o por nosotros mismos.

Vamos a ver algunos de los tipos de representaciones gráficas más utilizados, en función del tipo de
variable:

• Diagrama de barras

Nos permite representar variables cualitativas nominales y ordinales, y variables


cuantitativas discretas. Consiste en la construcción de barras o rectángulos sobre un eje
de coordenadas, ubicándose generalmente en el eje de abscisas (X) las distintas
modalidades de la variable, y en el eje de ordenadas (Y) las frecuencias o porcentajes de
las mismas, iniciándose siempre la escala de ordenadas en cero.

Sobre cada categoría se construye un rectángulo de base arbitraria (pero constante), cuya
altura es la frecuencia o porcentaje correspondiente. Puesto que no existe una continuidad
entre las distintas modalidades de la variable, los rectángulos o barras están separadas por
espacios en blanco.

En el caso de las variables cualitativas nominales, las categorías pueden ir colocadas en


cualquier orden, mientras que para las cualitativas ordinales y las continuas discretas habrá
que respetar el orden entre las distintas modalidades.

• Diagrama de sectores

Este tipo de gráfico permite representar variables cualitativas nominales y ordinales,


fundamentalmente cuando la variable no tiene más de 6 categorías.

Las distintas modalidades de la variable se representan por medio de sectores proporcionales


a la frecuencia relativa sobre una circunferencia, transformando la frecuencia relativa (fi)
10
correspondiente a cada categoría de la variable en un ángulo proporcional a dicha frecuencia
de la siguiente forma: fi * 360º = ángulo. La suma de los ángulos de todos los sectores ha de
ser igual a 360º.

• Histograma

Con él se representan las variables cuantitativas continuas, con los datos agrupados en
intervalos. Consiste en formar, sobre cada intervalo de valores, rectángulos cuyo área sea
igual a la frecuencia del intervalo.

Si la amplitud de los intervalos es la misma, su altura será proporcional a la frecuencia, con


lo que podremos poner en el eje de ordenadas la frecuencia relativa de cada modalidad.
Cuando esto es así, la metodología para la construcción de un histograma es:
- Agrupar los valores por intervalos
- Fijar los límites exactos de cada intervalo
- Construir una escala de frecuencias, en el eje de ordenadas, haciendo
coincidir el cero con el inicio del eje
- Construir sobre la abscisa tantos rectángulos como intervalos tenga la
variable estudiada, de altura igual a la frecuencia.

Si algún intervalo es abierto, es decir, si no tiene límite, no se puede construir el


histograma.

11
5. ANÁLISIS DESCRIPTIVO DE LOS DATOS

Habitualmente, en un estudio manejamos gran cantidad de datos. La estadística ha establecido una


serie de medidas o índices con el objeto de describir distribuciones de datos, índices que
resumen y pueden sustituir a todo el conjunto de datos.

Los índices que vamos a utilizar van a depender del tipo de variables que estemos estudiando, es
decir, de si se trata de variables cualitativas o cuantitativas.

5.1. Índices estadísticos para variables cualitativas

Para describir la distribución de valores de una variable cualitativa, basta con calcular las
proporciones y los porcentajes relativos de cada una de las categorías. En nuestro ejemplo:

• Distribución de la variable SEXO en la muestra de trabajadores estudiados: 4 hombres


(40%) y 6 mujeres (60%).
• Distribución de la variable COMODIDAD: 40% cómodo, 20% algo incómodo, 30%
incómodo, y 10% muy incómodo.

Con estos datos, las variables cualitativas quedan perfectamente definidas y representadas.

5.2. Índices estadísticos para variables cuantitativas

Para el análisis descriptivo de las variables cuantitativas es necesario utilizar distintos tipos de
medidas, a través de las cuales se caracteriza la distribución de sus valores.

a) Medidas de tendencia central: indican el valor de la variable estudiada hacia el que tienden
a agruparse los datos u observaciones. Los índices más estudiados son la media, la mediana y la
moda.
- Media ( ): Este índice se calcula exclusivamente para las variables cuantitativas,
y equivale al cociente entre la suma de todos los valores de la variable y el número
total de casos.

Siendo la media, ∑xi la suma de todos los valores que toma la variable, y n el
número total de casos.

Para la variable PESO:

= ( 67 + 74 + 60 + 83 + 59 + 52 + 71 + 77 + 56 + 63) / 10 = 66.2

- Mediana (Md): Equivale a la puntuación que ocupa el lugar central de la


distribución de los valores, es decir, la puntuación que deja por debajo de sí al 50% de
los individuos de la distribución, y por encima al otro 50%.

- Moda (Mo): Corresponde al valor observado un mayor número de veces, es decir,


al valor de la variable con mayor frecuencia.

12
b) Medidas de dispersión: Reflejan la variabilidad de la variable estudiada respecto a su punto
central, es decir, cómo se agrupan los datos en torno a la medida de tendencia central, muy
concentrados o muy dispersos. Las principales medidas de dispersión son la varianza, la
desviación típica, la amplitud y la amplitud intercuartil.

- Varianza (sx2): Se define como la media de los cuadrados de las diferencias


entre cada valor observado respecto a la media de la variable estudiada.

Siendo sx2 la varianza, xi cada uno de los valores observados, la media y n el


número total de casos.

- Desviación estándar o desviación típica (sx): Es la medida de dispersión


más utilizada, y equivale a la raíz cuadrada de la varianza.

- Amplitud o rango: Corresponde a la diferencia entre el valor máximo y el


mínimo de la distribución de datos.

- Amplitud intercuartil: Es una medida de dispersión que equivale a la


longitud del intervalo que contiene el 50% central de los individuos de la
distribución.

c) Medidas de posición: Son valores de la variable que indican la posición relativa de un


individuo dentro de la población de referencia, es decir, proporcionan información sobre la
posición que ocupa un valor determinado de la variable estudiada dentro de la distribución. Los
más utilizados son los percentiles y los cuartiles.

- Percentiles: Son cada uno de los 99 valores de la variable que dividen la


muestra ordenada en 100 grupos con el mismo número de sujetos.

Por ejemplo, cuando hablamos del percentil 75 (P75) nos estamos refiriendo al
valor de la variable que deja por debajo de sí al 75% de los casos. Si el
percentil 75 de un determinado carácter cuantitativo, como puede ser la edad,
es 34, esto significa que el 75% de los individuos del grupo tienen, en la
variable edad, puntuaciones iguales o inferiores a 34.

- Cuartiles: Valores que dividen la muestra ordenada en cuatro grupos, con el


mismo número de sujetos. Su significado es idéntico al de los percentiles, pero
únicamente hay tres: Q1, Q2, y Q3.

El Q1 deja por debajo de sí al 25% de los sujetos y por encima al 75%; el Q2


deja por debajo de sí al 50% y por encima al otro 50%; y el Q3 deja al 75%
por debajo de sí y por encima al 25%. El percentil 50 (P50) y el cuartil 2 (Q2)
coinciden con el valor de la mediana.

13
d) Medidas de forma: La asimetría (G) es el coeficiente que indica si la forma de la
distribución de una variable cuantitativa es o no simétrica. Este dato es muy importante, porque
la elección de los índices estadísticos que describen a una distribución dependerá de si ésta es o
no simétrica.

Entre todos los índices estadísticos presentados, seleccionaremos en cada caso los más
apropiados para caracterizar la distribución de valores de la variable que queramos describir.
Generalmente, los índices más utilizados son la media como medida de tendencia central, y la
varianza o la desviación típica como medida de dispersión.

Sin embargo, cuando las variables son asimétricas, la media deja de ser una buena medida
de la tendencia central, y la varianza de dispersión. En estos casos, como medida de tendencia
central es mejor utilizar la mediana, y como medida de dispersión, la amplitud intercuartil.
La moda y la amplitud son índices especialmente indicados para describir distribuciones de
valores muy homogéneas (de muy poca variabilidad).

6. ASOCIACIÓN LINEAL ENTRE DOS VARIABLES

En los apartados anteriores hemos visto distintos índices descriptivos para variables cualitativas y
cuantitativas. Vamos a ver ahora algunos índices que nos permiten medir la asociación entre dos
variables, es decir, nos permiten ver si existe relación entre dos variables, si una de ellas depende,
en alguna medida, de la otra.

En la Unidad Didáctica 2 de la Especialidad de Ergonomía y Psicosociología aplicada, "Métodos


Estadísticos más aplicados en Ergonomía y Psicosociología", se recogen algunas pruebas para
estudiar la relación entre dos variables cualitativas o entre una variable cuantitativa y una
cualitativa.

En este apartado vamos a centrarnos en el estudio de los índices que nos permiten medir la
asociación lineal entre dos variables cuantitativas X e Y. Estos índices son la covarianza y el
coeficiente de correlación de Pearson.

6.1. Covarianza (sxy)

El índice básico para describir la asociación lineal entre dos variables cuantitativas X e Y (por
ejemplo, peso y talla) es la covarianza, que da una medida de la variabilidad conjunta de las dos
variables, y que tiene como unidades de medida el producto de las unidades de medida de las
variables X e Y.

La covarianza se define como el promedio de los productos de las desviaciones de las dos
variables respecto a su media . La suma de estos productos para los n sujetos de una muestra se
llama suma de productos cruzados, y se representa como SPxy.
Así, la fórmula de la covarianza es:

14
La covarianza toma valores positivos cuando en la muestra existe una asociación lineal
positiva entre las dos variables (es decir, a medida que aumentan los valores de una variable
aumentan los de la otra, para un mismo sujeto, a valores altos en una variable corresponden
valores altos en la otra variable), y negativos cuando se presenta una asociación lineal
negativa (a medida que aumentan los valores de una variable decrecen los valores de la otra
variable).

Como ya hemos dicho, estos valores tienen como unidades de medida el producto de las unidades
de medida de cada una de las variables, lo que supone un gran inconveniente de esta medida de
asociación.

6.2. Coeficiente de correlación de Pearson (rxy)

El coeficiente de correlación rxy se obtiene estandarizando la covarianza, consiguiendo así una


medida de asociación que no depende de las unidades de medida de las variables X e Y.
Esta estandarización se consigue dividiendo la covarianza sxy por las desviaciones estándar de cada
una de las dos variables, es decir, por sx y sy.

El coeficiente de correlación toma valores comprendidos entre +1 y -1. Un coeficiente de correlación


de +1 significa que existe una asociación lineal perfecta positiva entre las dos variables, mientras
que un coeficiente de -1 indica asociación lineal perfecta negativa. Un valor nulo no indica ausencia
de relación, sino ausencia de relación lineal entre las dos variables.

Aunque más arriba hemos presentado la fórmula que nos permite calcular el valor del coeficiente de
correlación entre dos variables, el cálculo es muy sencillo, ya que basta con introducir en la
calculadora los n pares de valores para cada uno de los individuos (xi; yi).

CAPÍTULO 3: ESTADÍSTICA INFERENCIAL

Hasta ahora hemos visto cómo la Estadística Descriptiva nos permite recoger, ordenar, tabular y
describir los datos de un conjunto de individuos (muestra o población), es decir, conocer cómo se
comporta una población o una muestra respecto a una variable determinada (enfermedad,
exposición, parámetros bioquímicos, etc.). Pero en ocasiones, cuando la población es muy grande,
resultaría muy costoso y prácticamente imposible estudiar uno a uno a los sujetos de dicha
población.

La Estadística Inferencial nos permite establecer conclusiones aplicables a una población, a


partir de los datos obtenidos en una muestra. Sin embargo, para que los resultados de un
estudio realizado sobre una muestra sean generalizables o extrapolables a la población, es necesario
que la muestra sea representativa de la población de origen. Para ello, habrá que prestar
atención fundamentalmente a dos aspectos: el tamaño de la muestra y el método de muestreo.

15
1. TAMAÑO DE LA MUESTRA

Como paso previo cualquier técnica de muestreo, es necesario calcular el tamaño de la muestra,
es decir, determinar el número de sujetos que han de componer la muestra que vamos a estudiar.

Este es un aspecto importante, ya que la inclusión de un número excesivo de sujetos encarece el


estudio, tanto desde el punto de vista económico como de recursos humanos y físicos, mientras que
un estudio con un tamaño insuficiente de muestra será incapaz de estimar un parámetro
determinado con la precisión deseada.

2. ELECCIÓN DE LA MUESTRA

Una vez calculado el tamaño de muestra necesario, el siguiente paso será la elección de la muestra
propiamente dicha. La técnica de muestreo deberá diseñarse de forma que asegure que la muestra
de sujetos incluida represente adecuadamente a la población de estudio, es decir, que la
muestra sea representativa de la población de estudio. Si la muestra es representativa, la teoría de
la estimación permitirá inferir las características de la población a la cual pertenece dicha muestra.

La estadística ha desarrollado una serie de técnicas de muestreo que ayudan a obtener muestras
representativas y permiten calcular la magnitud del error debido al muestreo. Las principales
técnicas de muestreo son:

• Muestreo aleatorio simple: Partiendo de la lista completa de las unidades de muestreo, se


calcula el tamaño de muestra necesario, y se seleccionan las unidades necesarias mediante
un sistema como el de las tablas de números aleatorios o procedimientos informatizados.

Para seleccionar una muestra por este sistema, necesitamos el listado completo y ordenado
de todos los trabajadores que componen la población, y a partir de ahí, utilizando por
ejemplo una tabla de números aleatorios, iremos seleccionando trabajadores hasta alcanzar
el tamaño de muestra adecuado.

• Muestreo sistemático: La muestra se selecciona según un proceso periódico eligiendo uno


de cada K individuos (K es la constante de muestreo). La constante se calcula dividiendo el
tamaño de la población candidata por el tamaño de la muestra necesaria.

Imaginemos que un médico de empresa quiere hacer un estudio sobre una muestra de los
trabajadores que acuden a su consulta. Conociendo el tamaño de la población candidata, y el
tamaño de muestra que necesita para realizar el estudio, se calcula el valor de K.

Supongamos que el resultado es K=10. Esto quiere decir que el médico realizará el estudio
sobre el décimo trabajador que acuda a su consulta, sobre el que haga el número 20, y así
sucesivamente hasta completar el tamaño de muestra necesario.

• Muestreo estratificado: La población se divide en subgrupos (estratos) de acuerdo con


ciertas características, y luego se extrae una muestra al azar de cada uno de los estratos. La
finalidad es asegurar que la distribución de sujetos de la muestra en las variables por las que
se estratifica, es similar a la de la población.

Por ejemplo, si tenemos una población con un 40% de hombres y un 60% de mujeres, y
queremos que la muestra sea similar a la población respecto a esta característica, deberemos

16
estratificar por la variable sexo (dividir a la población por esa característica) y seleccionar
una muestra de tamaño adecuado dentro de cada uno de los estratos, manteniendo la misma
proporción.

• Muestreo en etapas múltiples: Se seleccionan, en una primera etapa, unidades de


muestreo de una población (unidades primarias), y en una segunda etapa, una muestra
dentro de cada una de las unidades primarias (unidades secundarias).

Para realizar un estudio en empresas de un determinado sector, podemos hacer un primer


muestreo para seleccionar una muestra de empresas, que serán las unidades primarias, y
posteriormente, en una segunda fase, seleccionar una muestra de trabajadores dentro de
cada una de esas empresas.

Si la muestra es representativa de la población a la que pertenece, la Estadística nos permitirá


inferir las características de dicha población a partir de los datos obtenidos en la muestra. En función
del tipo de problema que nos planteemos, en estadística inferencial se utilizan dos tipos de
procedimientos: la estimación de parámetros y el contraste de hipótesis. Veamos a grandes
rasgos en qué consiste cada uno de ellos.

3. ESTIMACIÓN DE PARÁMETROS

Como dijimos al principio de la Unidad, los parámetros son los índices estadísticos que definen una
población. La Estadística Inferencial nos permite, a partir de un estadístico calculado para una
muestra (por ejemplo, una media o una proporción), estimar el parámetro para la población.

La forma más idónea de hacer esta estimación es utilizando intervalos de confianza, que permiten
definir el rango de valores donde muy probablemente (asumiendo cierto error) se encontrará
el parámetro que queremos estimar para la población.

Los parámetros que más habitualmente nos va a interesar estimar a partir de los datos de una
muestra van a ser la proporción y la media, aunque se puede hacer la estimación de cualquier
parámetro de la población, como la mediana, la varianza, etc.

• Estimación de una proporción poblacional: Tras realizar un estudio en una muestra de


tamaño n, se llega a la conclusión de que una proporción P de dicha muestra tiene cierta
característica. A partir de este dato puntual, se trata de conocer qué proporción espero
encontrar en la población de referencia.

• Estimación de una media poblacional: Tras realizar un estudio en una muestra de


tamaño n, se llega a la conclusión de que la media de cierta variable cuantitativa es . A
partir de este dato puntual, interesa conocer qué media espero encontrar en la
población de referencia.

4. CONTRASTE DE HIPOTESIS

En muchos estudios nos interesa, de un modo general, contrastar unos datos observados con
unos valores esperados (teóricos), es decir, comprobar si los datos obtenidos en el estudio de
una muestra son compatibles con nuestra hipótesis de trabajo, ver si esa hipótesis puede ser o no
aceptada. Al iniciar una investigación científica se plantean dos hipótesis que son mútuamente
excluyentes:
17
• La hipótesis nula (H0), de no diferencia, que es aquella que mantiene que no existen
diferencias entre los valores observados y los valores teóricos o esperados.

• La hipótesis alternativa (H1), de diferencia, que es aquella que mantiene que sí existen
diferencias entre los valores observados y los teóricos o esperados. Esta hipótesis se planta
como la más verosímil cuando se rechaza la hipótesis nula.

La hipótesis alternativa puede ser unilateral, cuando además de especificar que existen diferencias,
determina si el estadístico observado es mayor o menor que el parámetro, o bilateral, cuando
únicamente especifica que existen diferencias entre el estadístico observado y el parámetro, sin
determinar si es mayor o menor.

Ambas hipótesis, la nula y la alternativa, (de igualdad y de diferencia) deben ser planteadas de
forma simultánea. Las pruebas de significación o de contraste de hipótesis nos permiten valorar la
verosimilitud de una hipótesis respecto a los datos empíricos, y poder tomar la decisión de mantener
o rechazar la hipótesis formulada.

Por ejemplo, supongamos que deseamos comparar la proporción de accidentes laborales mortales
(accidentes mortales/total de accidentes) extraídos de dos muestras aleatorias de accidentes
ocurridos en dos años diferentes (A y B). Es decir, queremos saber si la proporción de accidentes
mortales en esos dos años es igual o diferente.

La hipótesis nula que deseamos contrastar es la hipótesis de igualdad, es decir: "La proporción de
accidentes laborales mortales en el año A es igual a la proporción de accidentes en el año B".

Junto a esta hipótesis nula se plantea su hipótesis complementaria, que se denomina hipótesis
alternativa: "La proporción de accidentes laborales mortales en el año A es diferente a la
proporción en el año B".

Para probar nuestras hipótesis, se pueden plantear distintas pruebas estadísticas, en función de
diversos factores. En cualquier caso, una vez realizadas las pruebas estadísticas oportunas, las
conclusiones se canalizan en dos sentidos diferentes:

• La hipótesis nula se rechaza por haber encontrado "diferencias estadísticamente


significativas" entre las proporciones o medias contrastadas. Cuando se rechaza la
hipótesis nula, la hipótesis alternativa resulta la más verosímil.
• La hipótesis nula no se rechaza, "por no haber encontrado diferencias
estadísticamente significativas" entre las proporciones o medias contrastadas.

La aceptación de la hipótesis nula no equivale a demostrar que sea verdadera. Ante un


resultado no significativo, se puede concluir que nada se opone a aceptar la hipótesis nula, es
decir, "no significativo" es sinónimo de hipótesis alternativa no demostrada. Veamos a qué se refiere
la significación estadística:

5. GRADO DE SIGNIFICACIÓN ESTADÍSTICA

Una vez planteadas la hipótesis nula y la alternativa, se procede a realizar las pruebas estadísticas
específicas y apropiadas para cada problema concreto. El resultado de cualquier prueba va a ser
siempre una probabilidad "p", que puede interpretarse como la probabilidad de que las
diferencias encontradas se deban al azar.
18
A partir de este valor p, debemos tomar una decisión sobre si la H0 puesta a prueba debe ser o no
rechazada. Se trata por tanto de evaluar si el grado de significación p obtenido es lo suficientemente
pequeño como para considerar la H0 poco verosímil, y en consecuencia, tomar la decisión de
rechazarla. Cuanto más pequeño sea el valor de "p", menos verosímil es la hipótesis nula de
igualdad.

No es posible establecer un criterio objetivo para decidir que probabilidad es alta o baja. Por ello, se
ha establecido un consenso por el que generalmente se da como valor de referencia el valor de
significación de 0.05, de manera que se considera significativo todo valor de "p" igual o menor de
0.05 (p£0.05). Cuanto mayor sea el valor de "p", más verosímil será nuestra hipótesis de igualdad.
Sin embargo, una p>0.05, pese a ser considerada una probabilidad alta de que la hipótesis nula se
cumpla, no nos permite afirmarla.

Cuando la "p" es mayor de 0.05, la hipótesis nula simplemente se aceptará, limitándose a


no poder rechazarla. Un resultado no significativo sólo indica que es compatible con la H0 porque
la discrepancia observada es pequeña, no demuestra que la H0 sea cierta. Es decir, un resultado no
significativo es equivalente a no demostrado o no concluyente.

Por el contrario, un resultado estadísticamente significativo indica que no es compatible con la


hipótesis nula porque es muy poco verosímil. En cualquier caso, una diferencia estadísticamente
significativa indica que la H0 es poco verosímil, pero no tiene nada que ver con la importancia
clínica, biológica o psicológica de la hipótesis.

Un resultado puede ser estadísticamente muy significativo, y no tener ninguna relevancia clínica, ya
que la significación estadística depende de otros factores, además de la magnitud de la diferencia
observada. Por ello, es conveniente utilizar los intervalos de confianza para estimar la magnitud
de la diferencia (entre proporciones, medias, etc.) o la intensidad de la relación entre variables.

RESUMEN DE LA UNIDAD

La Estadística Descriptiva nos permite recoger, ordenar y analizar los datos de una muestra o
población, y la Estadística Inferencial nos permite, a partir de una muestra extraída de cierta
población, hacer inferencias acerca de esa población.

Los datos de una investigación se recogen en una tabla o matriz de datos, donde las filas
representan sujetos y las columnas variables. Las variables se pueden clasificar en dos grupos:
cualitativas (nominales u ordinales) y cuantitativas (discretas o continuas).

Las tablas que se obtienen con los diferentes tipos de variables se pueden visualizar mediante
representaciones gráficas cuya principal función es dar información global y resumida de los
datos recogidos.

Las distribuciones de datos se pueden describir a través de una serie de medidas o índices
estadísticos, diferentes en función del tipo de variable de la que se trate.

19
Posteriormente, si hemos realizado el estudio sobre una muestra, utilizaremos las técnicas de la
Estadística Inferencial para extrapolar esos datos a la población de procedencia de la muestra, es
decir, procederemos a la estimación de parámetros de la población.

Y finalmente, si el objetivo de nuestro estudio era comparar nuestros datos con unos datos teóricos,
procederemos a realizar los contrastes de hipótesis oportunos, utilizando para ellos las técnicas
adecuadas, en función fundamentalmente del tipo de variables que queramos comparar.

BIBLIOGRAFÍA

· AMON, J. (1981). Estadística para psicólogos. Madrid: Ed. Pirámide, S.A.

· CARRASCO, J.L. (1986). El método estadístico en la investigación médica. Madrid: Ed. Ciencia 3
S.A.

· DE LA IGLESIA HUERTA, A. y otros (1992). Epidemiología Laboral. Madrid: INSHT.

· DOMENECH, J.M. (1996). Métodos estadísticos en Ciencias de la Salud. Barcelona: Editorial -


Gráficas Signo.

· DOMENECH, J.M. (1994). Tablas de Estadística. Herder.

20

También podría gustarte