Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadstica descriptiva
Esto implica la eleccin de variables en el estudio estadstico a realizar, que pueden ser, a
su vez, de dos clases:
- Cuantitativas son aquellas variables cuyos valores pueden asociarse a una escala
numrica como, por ejemplo, edad, estatura, nmero de vasos de cerveza bebidos, etc. En
trminos matemticos, son variables susceptibles de ser medidas, hecho que no sucede en las
variables cualitativas. Las variables cuantitativas, a su vez, se diferencian en continuas (entre dos
valores siempre puede existir uno intermedio, como en el caso de la estatura) y discretas (si no
puede tomar valores intermedios, como al considerar el nmero de hermanos).
Elegir la poblacin
La poblacin investigada puede ser de tamao tan reducido que resulte fcilmente
asequible, por ejemplo, eligiendo como poblacin o conjunto de elementos investigados, los
jvenes presentes en una fiesta. Sin embargo, un tamao demasiado pequeo conlleva una
escasa generalizacin de los resultados obtenidos a una poblacin ms amplia. As, analizar la
presencia de bebidas alcohlicas en la juventud preguntando a los integrantes de una botellona
resultar completamente sesgado y no permitir generalizar las respuestas a todo tipo de jvenes.
Sin embargo, una poblacin ms grande implica la eleccin de muestras representativas y
para que lo sean tendran que tomarse diversos estratos (jvenes de distintas edades, de distinto
poder adquisitivo, de pueblos y de ciudad, etc.) y con un nmero en relacin a la poblacin total
estudiada.
Confeccin de un cuestionario
Televisin ()
Radio ()
Telfono ()
Internet ()
Mvil ()
Otros () Especifquese ..........................................
En estos casos siempre conviene dejar un apartado para casos no previstos (radios de
onda corta, por ejemplo, o cualquier otra tecnologa).
es una pregunta mal formulada por cuanto el entrevistado dar un significado a la palabra
mucho que puede ser muy distinta de otras personas que respondan. Para unos mucho sern 2
horas al da, que puede resultar lo normal para otros.
Esta pregunta tambin est mal formulada por dos motivos. En primer lugar, las
respuestas mltiples deben corresponder, en la medida de lo posible, a una misma variable. No
se puede mezclar en las respuestas sugeridas el entorno (playa/montaa) con la compaa. En
segundo lugar, las respuestas deben ser excluyentes entre s. En este caso, tal como se ha
formulado la pregunta puede que haya encuestados a los que guste tanto la playa como la
montaa y ello no est previsto. La pregunta podra formularse mejor as:
de manera que quien responda 0 podemos determinar que es no fumador y, al tiempo, la variable
es cualitativa y se puede examinar el grado en que se fuma dentro de la poblacin estudiada.
Esto conduce a otra observacin de importancia dentro de la formulacin de preguntas
propias de las variables cualitativas/cuantitativas. Es fcil transformar una variable cualitativa en
cuantitativa imponiendo un criterio propio. As, podemos distinguir
Sin embargo, una variable cualitativa es difcil de transformar en cuantitativa sin una
prdida considerable de exactitud en el anlisis de los datos cuando no contradicciones y anlisis
inadecuados. Por ejemplo:
Rubio (1) Moreno (2) Castao (3) Blanco (4) Otros (5)
puesto que las respuestas no tienen una naturaleza numrica que pueda ser ordenada.
As, ante la pregunta Fumas? (Variable cualitativa) se presentan dos valores posibles, S
y No. Si se ha pasado el cuestionario a 50 personas en total, la frecuencia absoluta puede ser:
Que dara paso a una frecuencia relativa o cociente entre la frecuencia absoluta y el nmero
total de respuestas:
Frecuencia relativa S ......... 20/50 = 0,4 ......... 40 %
No ........ 30/50 = 0,6 ......... 60 %
expresable, como se ve, por medio de porcentajes sobre el total de respuestas. La frecuencia
relativa sera, en este sentido, el tanto por uno.
Cuando nos encontramos con una variable cuantitativa x que presenta una serie de
valores xi, cada uno con una frecuencia absoluta ni, se puede disponer el mismo tipo de tabla,
teniendo en cuenta que la frecuencia relativa se definir como Fr = ni / N siendo N = ni el
nmero total de observaciones. As, en el caso de la edad de los estudiantes en una clase:
xi ni fr % fa
18 6 0,12 12 % 0,12
19 12 0,24 24 % 0,36
20 14 0,28 28 % 0,64
21 10 0,20 20 % 0,84
22 8 0,16 16 % 1
N = 50 1 100 %
Representaciones grficas
Existen diversas representaciones grficas ms o menos aconsejables segn el tipo de
variables utilizada. El ms importante suele ser el diagrama de barras o histograma,
particularmente adecuado cuando la variable es cualitativa y continua (el ancho de barra
representara el intervalo) pero presente tambin en las variables de tipo cualitativo.
En otras ocasiones o cuando los intervalos son sustituidos por las marcas de clase o
valores intermedios, se tiene un diagrama de puntos que, para mejor comprensin, se unen
entre s mediante una lnea.
360 / 50 = x / 12
de modo que
x = 12 x 360 / 50 = 86,4
Media aritmtica
U U
x = 1/12 (1 + 1 + 4 + 5 + 5 + 5 + 6 + 6 + 6 + 7 + 7 + 8) = 5,08
definir como
x = 1/N (x1 + x2 + x3 + ... + xN) = xi / N
B B B B B B B B B B
Ahora bien, en vez de sumar tres veces cinco o dos veces siete, se pueden sustituir los
valores repetidos por el producto del valor xi por la frecuencia absoluta que presentan ni , que
B B B B
x = xi n i / N B B B B
Mediana
U U
La mediana se define como el valor que ocupa el punto central cuando la serie
numrica est ordenada creciente o decrecientemente. Para su clculo resulta de gran utilidad
la frecuencia acumulada por cuanto la mediana ser el valor numrico que deje la mitad de las
observaciones por debajo y la mitad por encima de dicho valor.
Si el nmero de observaciones es impar el clculo de la mediana es inmediato porque,
una vez ordenadas las observaciones, se elige a la central. Tal es el caso de las siguientes
calificaciones:
1 1 3 4 4 5 6 6 7 8 8 U U
Se tienen once valores ordenados, de manera que la mediana ser la que tenga la posicin sexta
(el 5) por cuanto hay cinco notas inferiores y cinco notas superiores.
Cuando el nmero de observaciones es par, como en el caso recogido antes de las notas
de un examen:
1 1 4 5 5 5 6 6 6 7 7 8 U U
resultar que habr una pareja de valores que deja a un lado y otro el mismo nmero de
observaciones. En ese caso, la mediana se considera la semisuma de estos dos valores centrales
que, para el ejemplo considerado, ser de 5,5.
Cuando el nmero de valores es muy grande, se considera tambin admisible tomar como
mediana el valor de la variable correspondiente a la frecuencia absoluta acumulada
inmediatamente superior a N/2 o bien, en la frecuencia relativa acumulada, la inmediatamente
superior a 0,50 (50 %) que, en el caso de la tabla 1, sera 20.
Este clculo puede representarse fcilmente en un diagrama de barras o de puntos. Dado
que en ordenadas se suele reflejar el nmero N de observaciones, se tiende una lnea paralela al
eje de abcisas por N/2 de manera que el valor coincidente con este lnea o el inmediatamente
superior resulta ser la mediana.
Moda
U U
Medidas de dispersin
Un alumno A tiene las siguientes calificaciones en una asignatura: 4, 7, 9, 2, 8. Otro
alumno B tiene en cambio las siguientes: 5, 6, 6, 6, 7. Las medias respectivas son:
xA = 6 ; x B = 6
B B B
Sin embargo, se puede apreciar que el simple dato de la media aritmtica no describe el
comportamiento de ambos alumnos, el segundo mucho ms regular que el primero. Esta
regularidad se basa en que sus calificaciones estn ms cerca de la media aritmtica mientras
que las del alumno A aparecen ms dispersas respecto a este estadstico.
Alumno A
U U Alumno B
U U
4-6=-2 5 - 6 = -1
7-6=1 6-6=0
9-6=3 6-6=0
2-6= -4 6-6=0
8-6=2 7-6=1
Se puede observar que la suma de las desviaciones es igual a 0 en ambos casos porque
unas desviaciones por debajo son compensadas por otras desviaciones por encima de la media,
lo que es lgico esperar dadas las caractersticas de la propia media como valor centralizado de
los datos presentes. Sin embargo, la idea de sumar estas desviaciones es adecuada pero siempre
que consideremos, o bien el valor absoluto de estas desviaciones (- 4 y + 4 supondran una
misma desviacin) o bien, como se hace habitualmente, el cuadrado de las desviaciones
parciales.
Alumno A
U U Desv 2
U Alumno B Desv 2
UPU U
P U U U UPU U
P
4-6=-2 4 5 - 6 = -1 1
7-6=1 1 6-6=0 0
9-6=3 9 6-6=0 0
2-6= -4 16 6-6=0 0
8-6=2 4 7-6=1U U 1 U U
Suma 34 Suma 2
Cuando se comparan sumas de desviaciones al cuadrado habr que tener en cuenta el
nmero de observaciones para poder comparar de manera uniforme casos en que el nmero de
observaciones es diferente (por ejemplo, comparar la dispersin de notas en una asignatura en la
que hay cinco notas parciales con otra de la que se llega a disponer de ocho notas parciales). De
este modo se divide esta suma por el nmero de observaciones en lo que puede entenderse como
una media aritmtica de los cuadrados de las desviaciones.
A este trmino se le llama varianza, es decir, el cociente entre la suma de los
cuadrados de la desviacin a la media aritmtica y el nmero de datos:
V = ni (xi - x)2 / N
B B B B P
P
Pero esta varianza no puede compararse adecuadamente con la media ya que las
desviaciones estn elevadas al cuadrado. Por eso, se define la desviacin tpica como la raz
cuadrada de la varianza y se suele representar por la letra . De este modo, si la varianza de los
dos casos anteriores era:
VA = 34 / 5 = 6,8
B B
VB = 2 / 5 = 0,4 B
B = 0,4 = 0,6
B
de manera que los datos referidos al alumno A quedan mejor descritos con los dos estadsticos,
la medida de su centralizacin y de su dispersin, (6, 2,6) mientras que el alumno B queda
descrito de la misma forma (6, 0,6).
Variables bidimensionales
Cuando, dentro de una misma poblacin estudiada, se disponen datos de la presencia
simultnea de valores de dos variables, esto permite estudiar la posible relacin entre ambas. En
este sentido, nuevamente hay que distinguir entre el estudio de la relacin de dos variables
cuantitativas (lo que da lugar a la idea de correlacin y un anlisis a partir de la covarianza) y
cuando al menos una de las variables es de tipo cualitativo (y entonces el estudio se realiza por
medio de las tablas de doble entrada).
Supongamos que, dentro de una clase formada por diez alumnos, se tienen las notas de
dos asignaturas, matemticas y fsica.
Variable X Variable Y
Matemticas Fsica
7 6
6 4
8 7
3 4
6 5
9 6
4 2
10 9
2 1
5 6
Media: x = 6 Media: 5
Podemos representar estas calificaciones (cada uno de los valores de estas variables) de
manera conjunta en un eje de abcisas (notas de Matemticas) y otro de ordenadas (notas de
Fsica) de manera que nos encontremos ante un diagrama de puntos. Cuando los puntos
representados distan poco de una recta como la trazada podemos afirmar que existe una
correlacin positiva entre ambas asignaturas. En otras palabras, que cuando los valores de una
asignatura aumentan (notas mejores) tambin aumentan los de la otra as como que si las notas
de una asignatura disminuyen (peores notas) tambin lo hacen los de la otra.
Cabe tambin la existencia de una correlacin negativa, es decir, que al aumento de los
valores de una variable le corresponda una disminucin similar de los valores de la otra. Ello
puede suceder, por ejemplo, cuando confrontamos las distancias a las que un jugador tira a
canasta en baloncesto con el nivel de aciertos. Es posible una correlacin negativa que indicara
que a mayor distancia menor nmero de aciertos y viceversa.
Continuando con el ejemplo de la tabla 2, existe un parmetro estadstico que nos indica
el carcter y grado de la correlacin entre ambas variables. Se trata de la covarianza, entendida
como la media de los productos de las distancias de un valor a su media. La idea es una
extensin de la de varianza para una variable. En efecto, cada variable tiene una media de
manera que la conjuncin de ambas da lugar a un punto dentro de la representacin grfica que,
tal como se seala en la figura, es el (6,5).
Pues bien, la covarianza considera la desviacin respecto de la media correspondiente de
los valores de cada variable y los multiplica por parejas. Naturalmente, ello tiene que corregirse,
dado que se suman todos estos productos, con la divisin por el nmero de observaciones. Por
otro lado, se demuestra en Estadstica, que este valor se puede expresar como la media de los
productos menos el producto de las medias, dando lugar a otra forma de clculo ms sencilla:
de forma que en el caso de las dos asignaturas, esta covarianza sera se:
S A N SO
3 5 3 1
H 25 % 42 % 25 % 8% 12
60 % 55 % 50 % 25 % 50 %
12,5 % 21 % 12,5 % 4%
2 4 3 3
M 17 % 33 % 25 % 25 % 12
40 % 45 % 50 % 75 % 50 %
8% 17 % 12,5 % 12,5 %
5 9 6 4 24
21 % 37 % 25 % 17 %
Es por ello que se incluye, tras la frecuencia absoluta de cada casilla (primera lnea en
cada una), tres porcentajes sucesivos. Veamos qu anlisis permiten.
El primer porcentaje corresponde a la frecuencia relativa al valor de la variable Sexo.
As, hay 5 suspensos en esta poblacin, que representan el 21 % de total de observaciones. Pues
bien, considerando slo los hombres, los suspensos son 3, es decir, 3/12 = 0,25 de frecuencia
relativa sobre el total de hombres (el 25 %). De este modo, podemos comparar el porcentaje de
suspensos de toda la poblacin (21 %) con el porcentaje de suspensos de los hombres (25 %) y
de las mujeres (17 %), de donde se puede concluir que parece existir una influencia de la
variable Sexo sobre el nmero de suspensos. Si comparamos del mismo modo el porcentaje de
sobresalientes global (17 %) podemos observar que es ms elevado en las mujeres (25 %) que en
los hombres (8 %) revelando una tendencia a que las mujeres saquen mejores notas y, en
consecuencia, la variable Sexo tenga influencia sobre a variable Calificacin.
El segundo porcentaje realiza una labor similar pero refiriendo los valores de cada casilla
a la frecuencia absoluta de cada calificacin. As, sobre 5 suspensos, 3 son de hombres (60 % del
total de suspensos) y 2 de mujeres (40 %). Teniendo en cuenta que la frecuencia esperable, si
hubiera una distribucin equitativa, sera del 50 % en cada caso, parece haber una tendencia
nuevamente confirmada, a un nmero mayor de suspensos entre los hombres. Del
total de sobresalientes (4), por otra parte, el 75 % son de mujeres y slo el 25 % de
hombres, mostrando
la misma tendencia.
El ltimo porcentaje se refiere a la frecuencia relativa de cada casilla, no respecto
a la fila o columna correspondiente, sino respecto del total.