Está en la página 1de 11

Tema 9

Estadística descriptiva

Establecer los objetivos del trabajo


Los objetivos de un trabajo estadístico pueden ser de dos clases:

- Descriptivos: Describir las características de un determinado conjunto de elementos.


Por ejemplo, se puede tratar de describir las costumbres de un determinado grupo de jóvenes
durante su período de ocio.

- Confirmación/Rechazo de una hipótesis formulada previamente. De esta manera, se


plantean determinadas hipótesis previas (el tiempo dedicado al ocio durante el fin de semana es
mayor, los chicos consumen más bebidas alcohólicas que las chicas, etc.) de manera que el
estudio estadístico permita confirmarlas o rechazarlas.

Esto implica la elección de variables en el estudio estadístico a realizar, que pueden ser, a
su vez, de dos clases:

- Cualitativas, atributos cuyos valores no conocen valores intermedios. Por ejemplo,


fumas/no fumas, tienes ordenador en casa/no lo tienes, te gusta para el verano la playa/la
montaña, tienes el pelo rubio/moreno/castaño/blanco.

- Cuantitativas son aquellas variables cuyos valores pueden asociarse a una escala
numérica como, por ejemplo, edad, estatura, número de vasos de cerveza bebidos, etc. En
términos matemáticos, son variables susceptibles de ser medidas, hecho que no sucede en las
variables cualitativas. Las variables cuantitativas, a su vez, se diferencian en continuas (entre dos
valores siempre puede existir uno intermedio, como en el caso de la estatura) y discretas (si no
puede tomar valores intermedios, como al considerar el número de hermanos).

Elegir la población
La población investigada puede ser de tamaño tan reducido que resulte fácilmente
asequible, por ejemplo, eligiendo como población o conjunto de elementos investigados, los
jóvenes presentes en una fiesta. Sin embargo, un tamaño demasiado pequeño conlleva una
escasa generalización de los resultados obtenidos a una población más amplia. Así, analizar la
presencia de bebidas alcohólicas en la juventud preguntando a los integrantes de una botellona
resultará completamente sesgado y no permitirá generalizar las respuestas a todo tipo de jóvenes.
Sin embargo, una población más grande implica la elección de muestras representativas y
para que lo sean tendrían que tomarse diversos estratos (jóvenes de distintas edades, de distinto
poder adquisitivo, de pueblos y de ciudad, etc.) y con un número en relación a la población total
estudiada.
Confección de un cuestionario

Elegidas los variables a estudiar (cualitativas/cuantitativas) hay que formular las


preguntas oportunas para conseguir los objetivos planteados. Las preguntas pueden ser abiertas
(¿cómo pasas el fin de semana cuando sales de casa?) pero lo más aconsejable a la hora de
facilitar la codificación de las respuestas es elegir preguntas de respuesta múltiple.

Por ejemplo, ¿qué medios de comunicación tienes en tu casa?:

Televisión ()
Radio ()
Teléfono ()
Internet ()
Móvil ()
Otros () Especifíquese ..........................................

En estos casos siempre conviene dejar un apartado para casos no previstos (radios de
onda corta, por ejemplo, o cualquier otra tecnología).

Naturalmente, las respuestas múltiples se pueden prever en el caso de los atributos


cualitativos. En la elección de estos factores hay que tener en cuenta algunos aspectos que
pueden causar serios problemas de codificación después.
Las preguntas deben estar bien formuladas y permitir respuestas inequívocas. Así, por
ejemplo:

¿Utilizas mucho el ordenador? Sí ( ) No ( )

es una pregunta mal formulada por cuanto el entrevistado dará un significado a la palabra
“mucho” que puede ser muy distinta de otras personas que respondan. Para unos mucho serán 2
horas al día, que puede resultar lo normal para otros.

Te gusta pasar el verano en : La playa ( ) La montaña ( ) Con tus amigos ( )

Esta pregunta también está mal formulada por dos motivos. En primer lugar, las
respuestas múltiples deben corresponder, en la medida de lo posible, a una misma variable. No
se puede mezclar en las respuestas sugeridas el entorno (playa/montaña) con la compañía. En
segundo lugar, las respuestas deben ser excluyentes entre sí. En este caso, tal como se ha
formulado la pregunta puede que haya encuestados a los que guste tanto la playa como la
montaña y ello no está previsto. La pregunta podría formularse mejor así:

¿Dónde te gusta más pasar el verano?: La playa ( ) La montaña ( ) Otros ( )

El análisis que es posible efectuar de los atributos cualitativos es más pobre en cuanto a
resultados que el efectuado en las variables cuantitativas. Por ello conviene elegir, siempre que
se pueda, a estas segundas de manera preferente.

Así, la pregunta: ¿Fumas? Sí ( ) No ( )

puede sustituirse por: ¿Cuántos cigarrillos fumas al día? .................

de manera que quien responda 0 podemos determinar que es no fumador y, al tiempo, la variable
es cualitativa y se puede examinar el grado en que se fuma dentro de la población estudiada.
Esto conduce a otra observación de importancia dentro de la formulación de preguntas
propias de las variables cualitativas/cuantitativas. Es fácil transformar una variable cualitativa en
cuantitativa imponiendo un criterio propio. Así, podemos distinguir

No fumadores ....................... 0 cigarrillos al día.


Pequeños fumadores ............. 0 - 5 cigarrillos al día.
Medianos fumadores ............ 5 - 10 cigarrillos al día.
Grandes fumadores ............... Más de 10 cigarrillos al día.

Sin embargo, una variable cualitativa es difícil de transformar en cuantitativa sin una
pérdida considerable de exactitud en el análisis de los datos cuando no contradicciones y análisis
inadecuados. Por ejemplo:

¿De qué color tienes el pelo?


Rubio ( ) Moreno ( ) Castaño ( ) Blanco ( ) Otros ( )

no tiene sentido codificarlo como variable cualitativa posteriormente,

Rubio (1) Moreno (2) Castaño (3) Blanco (4) Otros (5)

puesto que las respuestas no tienen una naturaleza numérica que pueda ser ordenada.

Construcción de tablas de frecuencia


Cuando se empieza a examinar las respuestas habidas, la primera actuación consiste en
construir una tabla para cada variable donde aparezcan sus valores con la frecuencia absoluta,
es decir, el número de respuestas que corresponden a dicho valor.

Así, ante la pregunta ¿Fumas? (Variable cualitativa) se presentan dos valores posibles, Sí
y No. Si se ha pasado el cuestionario a 50 personas en total, la frecuencia absoluta puede ser:

Frecuencia absoluta Sí ........... 20


No .......... 30

Que daría paso a una frecuencia relativa o cociente entre la frecuencia absoluta y el número
total de respuestas:
Frecuencia relativa Sí ......... 20/50 = 0,4 ......... 40 %
No ........ 30/50 = 0,6 ......... 60 %

expresable, como se ve, por medio de porcentajes sobre el total de respuestas. La frecuencia
relativa sería, en este sentido, el tanto por uno.

Cuando nos encontramos con una variable cuantitativa x que presenta una serie de
valores xi, cada uno con una frecuencia absoluta ni, se puede disponer el mismo tipo de tabla,
teniendo en cuenta que la frecuencia relativa se definirá como Fr = ni / N siendo N = ∑ ni el
número total de observaciones. Así, en el caso de la edad de los estudiantes en una clase:
xi ni fr % fa
18 6 0,12 12 % 0,12
19 12 0,24 24 % 0,36
20 14 0,28 28 % 0,64
21 10 0,20 20 % 0,84
22 8 0,16 16 % 1
N = 50 1 100 %

La última columna corresponde a la frecuencia relativa acumulada, que se obtiene


haciendo corresponder a cada valor xi la suma de las frecuencias relativas de dicho valor y todos
sus anteriores. El significado que tiene se refiere fundamentalmente a las variables cuantitativas
y consiste en indicar la frecuencia de la presencia de valores menores o iguales que el indicado.
Así, el hecho de que al valor xi = 20 le corresponda una frecuencia acumulada de 0,64 indica
que el 64 % de las observaciones se refiere a estudiantes de hasta 20 años.
Cuando en la variable se consideran intervalos más que valores concretos,
fundamentalmente si la variable cualitativa es continua, el valor de xi se suele tomar como el
valor medio del intervalo. De esta forma, al registrar estaturas, se pueden obtener los intervalos

(1,50 - 1,60], (1,60 - 1,70], (1,70 - 1,80], (1,80 - 1,90]

sustituyéndose de cara a obtener los estadísticos oportunos por:

1,55 - 1,65 - 1,75 - 1,85.

Representaciones gráficas
Existen diversas representaciones gráficas más o menos aconsejables según el tipo de
variables utilizada. El más importante suele ser el diagrama de barras o histograma,
particularmente adecuado cuando la variable es cualitativa y continua (el ancho de barra
representaría el intervalo) pero presente también en las variables de tipo cualitativo.
En otras ocasiones o cuando los intervalos son sustituidos por las marcas de clase o
valores intermedios, se tiene un diagrama de puntos que, para mejor comprensión, se unen
entre sí mediante una línea.

Uno de los más populares también es el diagrama de sectores, particularmente de


aplicación en las variables cualitativas. En él, el ángulo central de cada sector es
proporcional a la frecuencia (absoluta o relativa).

En caso de disponer, como en la tabla, de 50 observaciones y querer representar un valor


de frecuencia 12 se procedería a establecer a siguiente proporcionalidad:

360º / 50 = xº / 12
de modo que
x = 12 x 360º / 50 = 86,4 º

y la representación de esta frecuencia correspondería a un ángulo central de 86º, fácilmente


determinado con el transportador de ángulos.
Existen otras representaciones gráficas derivadas del diagrama de barras y que muestran
la frecuencia de los valores de la variable según criterios de tamaño pero no referidos a barras,
sino a figuras alusivas a la variable de que se trata. Son los pictogramas.
Medidas de centralización
Las medidas de centralización pretenden sustituir todo el conjunto de datos por uno que
los represente de manera resumida. Existen básicamente tres, que se examinan a continuación.

Media aritmética
U U

Si se ha obtenido en un examen parcial un 4 y en el siguiente un 6, estas dos


observaciones se resumen en una sumando ambas y dividiendo por el número de observaciones:
x = ½ (4 + 6) = 5
Si se desea hallar un valor que represente las notas obtenidas en determinado examen, se
vuelven a sumar todas ellas dividiendo por el número de notas registradas:

x = 1/12 (1 + 1 + 4 + 5 + 5 + 5 + 6 + 6 + 6 + 7 + 7 + 8) = 5,08

Así que, si las observaciones son xi y el número total de datos es N, la media aritmética se
B B

definirá como
x = 1/N (x1 + x2 + x3 + ... + xN) = ∑ xi / N
B B B B B B B B B B

Ahora bien, en vez de sumar tres veces cinco o dos veces siete, se pueden sustituir los
valores repetidos por el producto del valor xi por la frecuencia absoluta que presentan ni , que
B B B B

para el caso planteado en la tabla 1, daría lugar a

x = 1/50 (18 x 6 + 19 x 12 + 20 x 14 + 21 x 10 + 22 x 8) = 20,04

x = ∑ xi n i / N B B B B

Mediana
U U

La mediana se define como el valor que ocupa el punto central cuando la serie
numérica está ordenada creciente o decrecientemente. Para su cálculo resulta de gran utilidad
la frecuencia acumulada por cuanto la mediana será el valor numérico que deje la mitad de las
observaciones por debajo y la mitad por encima de dicho valor.
Si el número de observaciones es impar el cálculo de la mediana es inmediato porque,
una vez ordenadas las observaciones, se elige a la central. Tal es el caso de las siguientes
calificaciones:
1 1 3 4 4 5 6 6 7 8 8 U U

Se tienen once valores ordenados, de manera que la mediana será la que tenga la posición sexta
(el 5) por cuanto hay cinco notas inferiores y cinco notas superiores.
Cuando el número de observaciones es par, como en el caso recogido antes de las notas
de un examen:
1 1 4 5 5 5 6 6 6 7 7 8 U U

resultará que habrá una pareja de valores que deja a un lado y otro el mismo número de
observaciones. En ese caso, la mediana se considera la semisuma de estos dos valores centrales
que, para el ejemplo considerado, será de 5,5.
Cuando el número de valores es muy grande, se considera también admisible tomar como
mediana el valor de la variable correspondiente a la frecuencia absoluta acumulada
inmediatamente superior a N/2 o bien, en la frecuencia relativa acumulada, la inmediatamente
superior a 0,50 (50 %) que, en el caso de la tabla 1, sería 20.
Este cálculo puede representarse fácilmente en un diagrama de barras o de puntos. Dado
que en ordenadas se suele reflejar el número N de observaciones, se tiende una línea paralela al
eje de abcisas por N/2 de manera que el valor coincidente con este línea o el inmediatamente
superior resulta ser la mediana.

Moda
U U

La moda, de aplicación tanto a variables cualitativas como cuantitativas, es el valor de


la variable de mayor frecuencia. Su determinación, obviamente, se produce al observar el
valor xi al que corresponde el mayor ni en la tabla de frecuencias.
B B B B

Medidas de dispersión
Un alumno A tiene las siguientes calificaciones en una asignatura: 4, 7, 9, 2, 8. Otro
alumno B tiene en cambio las siguientes: 5, 6, 6, 6, 7. Las medias respectivas son:
xA = 6 ; x B = 6
B B B

Sin embargo, se puede apreciar que el simple dato de la media aritmética no describe el
comportamiento de ambos alumnos, el segundo mucho más regular que el primero. Esta
regularidad se basa en que sus calificaciones están más cerca de la media aritmética mientras
que las del alumno A aparecen más dispersas respecto a este estadístico.

La primera medida estadística para determinar el grado de dispersión de los datos es el


recorrido, es decir, la diferencia entre el valor mayor y el valor menor de la variable. En el
caso de los dos alumnos sería:
RA = 8 - 2 = 6 ; RB = 7 - 5 = 2
B B B

Sin embargo, la medida de la dispersión será más exacta si consideramos las diferencias
de cada dato respecto de la media aritmética:

Alumno A
U U Alumno B
U U

4-6=-2 5 - 6 = -1
7-6=1 6-6=0
9-6=3 6-6=0
2-6= -4 6-6=0
8-6=2 7-6=1

Se puede observar que la suma de las desviaciones es igual a 0 en ambos casos porque
unas desviaciones por debajo son compensadas por otras desviaciones por encima de la media,
lo que es lógico esperar dadas las características de la propia media como valor centralizado de
los datos presentes. Sin embargo, la idea de sumar estas desviaciones es adecuada pero siempre
que consideremos, o bien el valor absoluto de estas desviaciones (- 4 y + 4 supondrían una
misma desviación) o bien, como se hace habitualmente, el cuadrado de las desviaciones
parciales.

Alumno A
U U Desv 2
U Alumno B Desv 2
UPU U
P U U U UPU U
P

4-6=-2 4 5 - 6 = -1 1
7-6=1 1 6-6=0 0
9-6=3 9 6-6=0 0
2-6= -4 16 6-6=0 0
8-6=2 4 7-6=1U U 1 U U

Suma 34 Suma 2
Cuando se comparan sumas de desviaciones al cuadrado habrá que tener en cuenta el
número de observaciones para poder comparar de manera uniforme casos en que el número de
observaciones es diferente (por ejemplo, comparar la dispersión de notas en una asignatura en la
que hay cinco notas parciales con otra de la que se llega a disponer de ocho notas parciales). De
este modo se divide esta suma por el número de observaciones en lo que puede entenderse como
una media aritmética de los cuadrados de las desviaciones.
A este término se le llama varianza, es decir, el cociente entre la suma de los
cuadrados de la desviación a la media aritmética y el número de datos:

V = ∑ ni (xi - x)2 / N
B B B B P
P

Pero esta varianza no puede compararse adecuadamente con la media ya que las
desviaciones están elevadas al cuadrado. Por eso, se define la desviación típica como la raíz
cuadrada de la varianza y se suele representar por la letra σ. De este modo, si la varianza de los
dos casos anteriores era:
VA = 34 / 5 = 6,8
B B

VB = 2 / 5 = 0,4 B

su desviación típica será:


σA = √6,8 = 2,6
B B

σB = √0,4 = 0,6
B

de manera que los datos referidos al alumno A quedan mejor descritos con los dos estadísticos,
la medida de su centralización y de su dispersión, (6, 2,6) mientras que el alumno B queda
descrito de la misma forma (6, 0,6).

Variables bidimensionales
Cuando, dentro de una misma población estudiada, se disponen datos de la presencia
simultánea de valores de dos variables, esto permite estudiar la posible relación entre ambas. En
este sentido, nuevamente hay que distinguir entre el estudio de la relación de dos variables
cuantitativas (lo que da lugar a la idea de correlación y un análisis a partir de la covarianza) y
cuando al menos una de las variables es de tipo cualitativo (y entonces el estudio se realiza por
medio de las tablas de doble entrada).

Dos variables cuantitativas


U U

Supongamos que, dentro de una clase formada por diez alumnos, se tienen las notas de
dos asignaturas, matemáticas y física.
Variable X Variable Y
Matemáticas Física

7 6
6 4
8 7
3 4
6 5
9 6
4 2
10 9
2 1
5 6
Media: x = 6 Media: 5

Podemos representar estas calificaciones (cada uno de los valores de estas variables) de
manera conjunta en un eje de abcisas (notas de Matemáticas) y otro de ordenadas (notas de
Física) de manera que nos encontremos ante un diagrama de puntos. Cuando los puntos
representados distan poco de una recta como la trazada podemos afirmar que existe una
correlación positiva entre ambas asignaturas. En otras palabras, que cuando los valores de una
asignatura aumentan (notas mejores) también aumentan los de la otra así como que si las notas
de una asignatura disminuyen (peores notas) también lo hacen los de la otra.
Cabe también la existencia de una correlación negativa, es decir, que al aumento de los
valores de una variable le corresponda una disminución similar de los valores de la otra. Ello
puede suceder, por ejemplo, cuando confrontamos las distancias a las que un jugador tira a
canasta en baloncesto con el nivel de aciertos. Es posible una correlación negativa que indicaría
que a mayor distancia menor número de aciertos y viceversa.
Continuando con el ejemplo de la tabla 2, existe un parámetro estadístico que nos indica
el carácter y grado de la correlación entre ambas variables. Se trata de la covarianza, entendida
como la media de los productos de las distancias de un valor a su media. La idea es una
extensión de la de varianza para una variable. En efecto, cada variable tiene una media de
manera que la conjunción de ambas da lugar a un punto dentro de la representación gráfica que,
tal como se señala en la figura, es el (6,5).
Pues bien, la covarianza considera la desviación respecto de la media correspondiente de
los valores de cada variable y los multiplica por parejas. Naturalmente, ello tiene que corregirse,
dado que se suman todos estos productos, con la división por el número de observaciones. Por
otro lado, se demuestra en Estadística, que este valor se puede expresar como la media de los
productos menos el producto de las medias, dando lugar a otra forma de cálculo más sencilla:

CXY = 1/N ∑ (xi - x) (yi - y) = 1/N ∑ (xi yi) - x y


B B B B B B B B B B

de forma que en el caso de las dos asignaturas, esta covarianza sería se:

C XY = 1/10 (348 - 30) = 31,8


B B
que da un valor positivo alto, indicando un grado de relación elevado entre ambas variables.

Una variable cualitativa al menos U

Cuando interviene una variable cualitativa en el análisis de la relación entre variables la


complejidad estadística del estudio que es posible realizar aumenta notablemente. Es por ello
que, al nivel de este curso, solamente citaremos como elemento de análisis la realización de una
tabla de doble entrada en la que los valores de cada variable aparezcan en abcisas u ordenadas de
manera que cada casilla registre el número de casos conjuntos de un valor determinado de cada
variable.
Así, si relacionamos las notas de una asignatura distribuidas en cuatro categorías
(suspenso S, aprobado A, notable N y sobresaliente SO) con el sexo de los estudiantes (hombre
H y mujer M) se puede establecer una tabla con los casos en que suceden simultáneamente los
distintos valores de las variables.
En una columna de la derecha se dispone la frecuencia absoluta y relativa (en forma de
porcentaje) de los valores de la variable sexo. Se puede observar que, al haber 12 observaciones
en cada caso, hay un 50 % de hombres y un 50 % de mujeres.
De igual modo, en la fila inferior se señala los mismos tipos de frecuencias de los valores
de la variable calificaciones: Para toda la población (24 casos), hay un 21 % de suspensos, 37 %
de aprobados, 25 % de notables y 17 % de sobresalientes. Todos estos porcentajes son los
esperables si la otra variable no tiene efecto sobre la que presenta estas frecuencias.

S A N SO
3 5 3 1
H 25 % 42 % 25 % 8% 12
60 % 55 % 50 % 25 % 50 %
12,5 % 21 % 12,5 % 4%

2 4 3 3
M 17 % 33 % 25 % 25 % 12
40 % 45 % 50 % 75 % 50 %
8% 17 % 12,5 % 12,5 %

5 9 6 4 24
21 % 37 % 25 % 17 %

Es por ello que se incluye, tras la frecuencia absoluta de cada casilla (primera línea en
cada una), tres porcentajes sucesivos. Veamos qué análisis permiten.
El primer porcentaje corresponde a la frecuencia relativa al valor de la variable Sexo.
Así, hay 5 suspensos en esta población, que representan el 21 % de total de observaciones. Pues
bien, considerando sólo los hombres, los suspensos son 3, es decir, 3/12 = 0,25 de frecuencia
relativa sobre el total de hombres (el 25 %). De este modo, podemos comparar el porcentaje de
suspensos de toda la población (21 %) con el porcentaje de suspensos de los hombres (25 %) y
de las mujeres (17 %), de donde se puede concluir que parece existir una influencia de la
variable Sexo sobre el número de suspensos. Si comparamos del mismo modo el porcentaje de
sobresalientes global (17 %) podemos observar que es más elevado en las mujeres (25 %) que en
los hombres (8 %) revelando una tendencia a que las mujeres saquen mejores notas y, en
consecuencia, la variable Sexo tenga influencia sobre a variable Calificación.
El segundo porcentaje realiza una labor similar pero refiriendo los valores de cada casilla
a la frecuencia absoluta de cada calificación. Así, sobre 5 suspensos, 3 son de hombres (60 % del
total de suspensos) y 2 de mujeres (40 %). Teniendo en cuenta que la frecuencia esperable, si
hubiera una distribución equitativa, sería del 50 % en cada caso, parece haber una tendencia
nuevamente confirmada, a un número mayor de suspensos entre los hombres. Del
total de sobresalientes (4), por otra parte, el 75 % son de mujeres y sólo el 25 % de
hombres, mostrando
la misma tendencia.
El último porcentaje se refiere a la frecuencia relativa de cada casilla, no respecto
a la fila o columna correspondiente, sino respecto del total.

También podría gustarte