Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema 9 Estadística Descriptiva: Establecer Los Objetivos Del Trabajo
Tema 9 Estadística Descriptiva: Establecer Los Objetivos Del Trabajo
Estadística descriptiva
Esto implica la elección de variables en el estudio estadístico a realizar, que pueden ser, a
su vez, de dos clases:
- Cuantitativas son aquellas variables cuyos valores pueden asociarse a una escala
numérica como, por ejemplo, edad, estatura, número de vasos de cerveza bebidos, etc. En
términos matemáticos, son variables susceptibles de ser medidas, hecho que no sucede en las
variables cualitativas. Las variables cuantitativas, a su vez, se diferencian en continuas (entre dos
valores siempre puede existir uno intermedio, como en el caso de la estatura) y discretas (si no
puede tomar valores intermedios, como al considerar el número de hermanos).
Elegir la población
La población investigada puede ser de tamaño tan reducido que resulte fácilmente
asequible, por ejemplo, eligiendo como población o conjunto de elementos investigados, los
jóvenes presentes en una fiesta. Sin embargo, un tamaño demasiado pequeño conlleva una
escasa generalización de los resultados obtenidos a una población más amplia. Así, analizar la
presencia de bebidas alcohólicas en la juventud preguntando a los integrantes de una botellona
resultará completamente sesgado y no permitirá generalizar las respuestas a todo tipo de jóvenes.
Sin embargo, una población más grande implica la elección de muestras representativas y
para que lo sean tendrían que tomarse diversos estratos (jóvenes de distintas edades, de distinto
poder adquisitivo, de pueblos y de ciudad, etc.) y con un número en relación a la población total
estudiada.
Confección de un cuestionario
Televisión ()
Radio ()
Teléfono ()
Internet ()
Móvil ()
Otros () Especifíquese ..........................................
En estos casos siempre conviene dejar un apartado para casos no previstos (radios de
onda corta, por ejemplo, o cualquier otra tecnología).
es una pregunta mal formulada por cuanto el entrevistado dará un significado a la palabra
“mucho” que puede ser muy distinta de otras personas que respondan. Para unos mucho serán 2
horas al día, que puede resultar lo normal para otros.
Esta pregunta también está mal formulada por dos motivos. En primer lugar, las
respuestas múltiples deben corresponder, en la medida de lo posible, a una misma variable. No
se puede mezclar en las respuestas sugeridas el entorno (playa/montaña) con la compañía. En
segundo lugar, las respuestas deben ser excluyentes entre sí. En este caso, tal como se ha
formulado la pregunta puede que haya encuestados a los que guste tanto la playa como la
montaña y ello no está previsto. La pregunta podría formularse mejor así:
El análisis que es posible efectuar de los atributos cualitativos es más pobre en cuanto a
resultados que el efectuado en las variables cuantitativas. Por ello conviene elegir, siempre que
se pueda, a estas segundas de manera preferente.
de manera que quien responda 0 podemos determinar que es no fumador y, al tiempo, la variable
es cualitativa y se puede examinar el grado en que se fuma dentro de la población estudiada.
Esto conduce a otra observación de importancia dentro de la formulación de preguntas
propias de las variables cualitativas/cuantitativas. Es fácil transformar una variable cualitativa en
cuantitativa imponiendo un criterio propio. Así, podemos distinguir
Sin embargo, una variable cualitativa es difícil de transformar en cuantitativa sin una
pérdida considerable de exactitud en el análisis de los datos cuando no contradicciones y análisis
inadecuados. Por ejemplo:
Rubio (1) Moreno (2) Castaño (3) Blanco (4) Otros (5)
puesto que las respuestas no tienen una naturaleza numérica que pueda ser ordenada.
Así, ante la pregunta ¿Fumas? (Variable cualitativa) se presentan dos valores posibles, Sí
y No. Si se ha pasado el cuestionario a 50 personas en total, la frecuencia absoluta puede ser:
Que daría paso a una frecuencia relativa o cociente entre la frecuencia absoluta y el número
total de respuestas:
Frecuencia relativa Sí ......... 20/50 = 0,4 ......... 40 %
No ........ 30/50 = 0,6 ......... 60 %
expresable, como se ve, por medio de porcentajes sobre el total de respuestas. La frecuencia
relativa sería, en este sentido, el tanto por uno.
Cuando nos encontramos con una variable cuantitativa x que presenta una serie de
valores xi, cada uno con una frecuencia absoluta ni, se puede disponer el mismo tipo de tabla,
teniendo en cuenta que la frecuencia relativa se definirá como Fr = ni / N siendo N = ∑ ni el
número total de observaciones. Así, en el caso de la edad de los estudiantes en una clase:
xi ni fr % fa
18 6 0,12 12 % 0,12
19 12 0,24 24 % 0,36
20 14 0,28 28 % 0,64
21 10 0,20 20 % 0,84
22 8 0,16 16 % 1
N = 50 1 100 %
Representaciones gráficas
Existen diversas representaciones gráficas más o menos aconsejables según el tipo de
variables utilizada. El más importante suele ser el diagrama de barras o histograma,
particularmente adecuado cuando la variable es cualitativa y continua (el ancho de barra
representaría el intervalo) pero presente también en las variables de tipo cualitativo.
En otras ocasiones o cuando los intervalos son sustituidos por las marcas de clase o
valores intermedios, se tiene un diagrama de puntos que, para mejor comprensión, se unen
entre sí mediante una línea.
360º / 50 = xº / 12
de modo que
x = 12 x 360º / 50 = 86,4 º
Media aritmética
U U
x = 1/12 (1 + 1 + 4 + 5 + 5 + 5 + 6 + 6 + 6 + 7 + 7 + 8) = 5,08
Así que, si las observaciones son xi y el número total de datos es N, la media aritmética se
B B
definirá como
x = 1/N (x1 + x2 + x3 + ... + xN) = ∑ xi / N
B B B B B B B B B B
Ahora bien, en vez de sumar tres veces cinco o dos veces siete, se pueden sustituir los
valores repetidos por el producto del valor xi por la frecuencia absoluta que presentan ni , que
B B B B
x = ∑ xi n i / N B B B B
Mediana
U U
La mediana se define como el valor que ocupa el punto central cuando la serie
numérica está ordenada creciente o decrecientemente. Para su cálculo resulta de gran utilidad
la frecuencia acumulada por cuanto la mediana será el valor numérico que deje la mitad de las
observaciones por debajo y la mitad por encima de dicho valor.
Si el número de observaciones es impar el cálculo de la mediana es inmediato porque,
una vez ordenadas las observaciones, se elige a la central. Tal es el caso de las siguientes
calificaciones:
1 1 3 4 4 5 6 6 7 8 8 U U
Se tienen once valores ordenados, de manera que la mediana será la que tenga la posición sexta
(el 5) por cuanto hay cinco notas inferiores y cinco notas superiores.
Cuando el número de observaciones es par, como en el caso recogido antes de las notas
de un examen:
1 1 4 5 5 5 6 6 6 7 7 8 U U
resultará que habrá una pareja de valores que deja a un lado y otro el mismo número de
observaciones. En ese caso, la mediana se considera la semisuma de estos dos valores centrales
que, para el ejemplo considerado, será de 5,5.
Cuando el número de valores es muy grande, se considera también admisible tomar como
mediana el valor de la variable correspondiente a la frecuencia absoluta acumulada
inmediatamente superior a N/2 o bien, en la frecuencia relativa acumulada, la inmediatamente
superior a 0,50 (50 %) que, en el caso de la tabla 1, sería 20.
Este cálculo puede representarse fácilmente en un diagrama de barras o de puntos. Dado
que en ordenadas se suele reflejar el número N de observaciones, se tiende una línea paralela al
eje de abcisas por N/2 de manera que el valor coincidente con este línea o el inmediatamente
superior resulta ser la mediana.
Moda
U U
Medidas de dispersión
Un alumno A tiene las siguientes calificaciones en una asignatura: 4, 7, 9, 2, 8. Otro
alumno B tiene en cambio las siguientes: 5, 6, 6, 6, 7. Las medias respectivas son:
xA = 6 ; x B = 6
B B B
Sin embargo, se puede apreciar que el simple dato de la media aritmética no describe el
comportamiento de ambos alumnos, el segundo mucho más regular que el primero. Esta
regularidad se basa en que sus calificaciones están más cerca de la media aritmética mientras
que las del alumno A aparecen más dispersas respecto a este estadístico.
Sin embargo, la medida de la dispersión será más exacta si consideramos las diferencias
de cada dato respecto de la media aritmética:
Alumno A
U U Alumno B
U U
4-6=-2 5 - 6 = -1
7-6=1 6-6=0
9-6=3 6-6=0
2-6= -4 6-6=0
8-6=2 7-6=1
Se puede observar que la suma de las desviaciones es igual a 0 en ambos casos porque
unas desviaciones por debajo son compensadas por otras desviaciones por encima de la media,
lo que es lógico esperar dadas las características de la propia media como valor centralizado de
los datos presentes. Sin embargo, la idea de sumar estas desviaciones es adecuada pero siempre
que consideremos, o bien el valor absoluto de estas desviaciones (- 4 y + 4 supondrían una
misma desviación) o bien, como se hace habitualmente, el cuadrado de las desviaciones
parciales.
Alumno A
U U Desv 2
U Alumno B Desv 2
UPU U
P U U U UPU U
P
4-6=-2 4 5 - 6 = -1 1
7-6=1 1 6-6=0 0
9-6=3 9 6-6=0 0
2-6= -4 16 6-6=0 0
8-6=2 4 7-6=1U U 1 U U
Suma 34 Suma 2
Cuando se comparan sumas de desviaciones al cuadrado habrá que tener en cuenta el
número de observaciones para poder comparar de manera uniforme casos en que el número de
observaciones es diferente (por ejemplo, comparar la dispersión de notas en una asignatura en la
que hay cinco notas parciales con otra de la que se llega a disponer de ocho notas parciales). De
este modo se divide esta suma por el número de observaciones en lo que puede entenderse como
una media aritmética de los cuadrados de las desviaciones.
A este término se le llama varianza, es decir, el cociente entre la suma de los
cuadrados de la desviación a la media aritmética y el número de datos:
V = ∑ ni (xi - x)2 / N
B B B B P
P
Pero esta varianza no puede compararse adecuadamente con la media ya que las
desviaciones están elevadas al cuadrado. Por eso, se define la desviación típica como la raíz
cuadrada de la varianza y se suele representar por la letra σ. De este modo, si la varianza de los
dos casos anteriores era:
VA = 34 / 5 = 6,8
B B
VB = 2 / 5 = 0,4 B
σB = √0,4 = 0,6
B
de manera que los datos referidos al alumno A quedan mejor descritos con los dos estadísticos,
la medida de su centralización y de su dispersión, (6, 2,6) mientras que el alumno B queda
descrito de la misma forma (6, 0,6).
Variables bidimensionales
Cuando, dentro de una misma población estudiada, se disponen datos de la presencia
simultánea de valores de dos variables, esto permite estudiar la posible relación entre ambas. En
este sentido, nuevamente hay que distinguir entre el estudio de la relación de dos variables
cuantitativas (lo que da lugar a la idea de correlación y un análisis a partir de la covarianza) y
cuando al menos una de las variables es de tipo cualitativo (y entonces el estudio se realiza por
medio de las tablas de doble entrada).
Supongamos que, dentro de una clase formada por diez alumnos, se tienen las notas de
dos asignaturas, matemáticas y física.
Variable X Variable Y
Matemáticas Física
7 6
6 4
8 7
3 4
6 5
9 6
4 2
10 9
2 1
5 6
Media: x = 6 Media: 5
Podemos representar estas calificaciones (cada uno de los valores de estas variables) de
manera conjunta en un eje de abcisas (notas de Matemáticas) y otro de ordenadas (notas de
Física) de manera que nos encontremos ante un diagrama de puntos. Cuando los puntos
representados distan poco de una recta como la trazada podemos afirmar que existe una
correlación positiva entre ambas asignaturas. En otras palabras, que cuando los valores de una
asignatura aumentan (notas mejores) también aumentan los de la otra así como que si las notas
de una asignatura disminuyen (peores notas) también lo hacen los de la otra.
Cabe también la existencia de una correlación negativa, es decir, que al aumento de los
valores de una variable le corresponda una disminución similar de los valores de la otra. Ello
puede suceder, por ejemplo, cuando confrontamos las distancias a las que un jugador tira a
canasta en baloncesto con el nivel de aciertos. Es posible una correlación negativa que indicaría
que a mayor distancia menor número de aciertos y viceversa.
Continuando con el ejemplo de la tabla 2, existe un parámetro estadístico que nos indica
el carácter y grado de la correlación entre ambas variables. Se trata de la covarianza, entendida
como la media de los productos de las distancias de un valor a su media. La idea es una
extensión de la de varianza para una variable. En efecto, cada variable tiene una media de
manera que la conjunción de ambas da lugar a un punto dentro de la representación gráfica que,
tal como se señala en la figura, es el (6,5).
Pues bien, la covarianza considera la desviación respecto de la media correspondiente de
los valores de cada variable y los multiplica por parejas. Naturalmente, ello tiene que corregirse,
dado que se suman todos estos productos, con la división por el número de observaciones. Por
otro lado, se demuestra en Estadística, que este valor se puede expresar como la media de los
productos menos el producto de las medias, dando lugar a otra forma de cálculo más sencilla:
de forma que en el caso de las dos asignaturas, esta covarianza sería se:
S A N SO
3 5 3 1
H 25 % 42 % 25 % 8% 12
60 % 55 % 50 % 25 % 50 %
12,5 % 21 % 12,5 % 4%
2 4 3 3
M 17 % 33 % 25 % 25 % 12
40 % 45 % 50 % 75 % 50 %
8% 17 % 12,5 % 12,5 %
5 9 6 4 24
21 % 37 % 25 % 17 %
Es por ello que se incluye, tras la frecuencia absoluta de cada casilla (primera línea en
cada una), tres porcentajes sucesivos. Veamos qué análisis permiten.
El primer porcentaje corresponde a la frecuencia relativa al valor de la variable Sexo.
Así, hay 5 suspensos en esta población, que representan el 21 % de total de observaciones. Pues
bien, considerando sólo los hombres, los suspensos son 3, es decir, 3/12 = 0,25 de frecuencia
relativa sobre el total de hombres (el 25 %). De este modo, podemos comparar el porcentaje de
suspensos de toda la población (21 %) con el porcentaje de suspensos de los hombres (25 %) y
de las mujeres (17 %), de donde se puede concluir que parece existir una influencia de la
variable Sexo sobre el número de suspensos. Si comparamos del mismo modo el porcentaje de
sobresalientes global (17 %) podemos observar que es más elevado en las mujeres (25 %) que en
los hombres (8 %) revelando una tendencia a que las mujeres saquen mejores notas y, en
consecuencia, la variable Sexo tenga influencia sobre a variable Calificación.
El segundo porcentaje realiza una labor similar pero refiriendo los valores de cada casilla
a la frecuencia absoluta de cada calificación. Así, sobre 5 suspensos, 3 son de hombres (60 % del
total de suspensos) y 2 de mujeres (40 %). Teniendo en cuenta que la frecuencia esperable, si
hubiera una distribución equitativa, sería del 50 % en cada caso, parece haber una tendencia
nuevamente confirmada, a un número mayor de suspensos entre los hombres. Del
total de sobresalientes (4), por otra parte, el 75 % son de mujeres y sólo el 25 % de
hombres, mostrando
la misma tendencia.
El último porcentaje se refiere a la frecuencia relativa de cada casilla, no respecto
a la fila o columna correspondiente, sino respecto del total.