Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen de Estadistica Basica
Resumen de Estadistica Basica
1 Estadística descriptiva.
La estadística es un conjunto de métodos que nos ayudan a tomar decisiones razonables, incluso en
casos de incertidumbre. Es un método de descripción numérica de conjuntos numerosos, que utiliza
el número como soporte objetivo.
La estadística descriptiva trata de describir y analizar un conjunto de elementos dado sin sacar
conclusiones o diferencias sobre conjuntos mayores.
La Estadística descriptiva se aplica a todos los dominios de investigación cuantitativa: investi-
gación demográfica, económica, agronómica, biológica, industrial... etc.
2 Unidades estadísticas.
Llamaremos unidades estadísticas o individuos a los elementos que componen la población que se
estudia.
La población puede ser un conjunto de personas, objetos, número de coches que salen de una
fábrica, número de objetos defectuosos en un proceso, o conjuntos abstractos de cosas (no de acci-
dentes de carretera).
Es indispensable en todo estudio estadístico definir con precisión cuál será la población a estudiar.
Por ejemplo, si estudiamos los habitantes de Granada, tendremos que dejar claro si los extranjeros
residentes son elementos de estudio. El campo estadístico debe estar siempre bien definido.
Caracteres cuantitativos: Un carácter se dice cuantitativo si sus diversas modalidades son med-
ibles o numerables, es decir, si a cada una de las modalidades se le asigna un número (por
ejemplo la altura de un colectivo de individuos). Este número (variable con la modalidad pero
específico de cada modalidad) se llama variable estadística: las diferentes modalidades de un
carácter cuantitativo son los diferentes valores posibles o los diferentes grupos de valores posi-
bles de la variable estadística.
1
3.2 Tipos de variables estadísticas.
Variables estadísticas discretas: Una variable estadística es discreta si sus valores posibles son
valores aislados. El caso más frecuente de variables discretas es aquel en que los valores posi-
bles son números enteros o múltiplos enteros de un número fijo. Ejemplos de variables discretas
son:
Variables estadísticas continuas: Una variable estadística es continua si sus valores posibles
están en número infinito y a priori son cualesquiera en un intervalo de valores. Ejemplos son:
Los valores de las variables estadísticas continuas se agrupan en intervalos o clases, que con-
sideramos como modalidades de variable. Así, por ejemplo, para determinar el peso de una
persona, podemos dividir los datos en las clases siguientes: menos de 60, de 60 a 70, de 70 a 75,
etc. El número de clases que se toma al agrupar los datos en intervalos es indistinto, pero
es lógico que a mayor cantidad de clases, habrá más información y mejor.
k
∑ ni = n1 + n2 + + nk = N
i =1
k
∑ fi = f1 + f2 + + fk = 1
i =1
2
Las distintas modalidades de un carácter C, así como las frecuencias correspondientes, se suelen
distribuir en tablas numéricas o estadísticas:
En el caso de que la variable estadística sea continua, hay que agrupar, como ya se ha dicho, en
intervalos o clases, determinando también si los extremos son cerrados o abiertos. Se consignarán
además las marcas de clase de cada intervalo:
marcas de
C clase frecuencias absolutas frecuencias relativas
ci = ei +2ei 1
[ e0 , e1 ) c1 n1 f1
.. .. .. ..
. . . .
[ ei 1 , ei ) ci ni fi
.. .. .. ..
. . . .
[ ek 1 , ek ) ck nk fk
∑ik=1 ni = N k
∑ i =1 f i =1
3
Frecuencias acumuladas relativas: Se definen como la proporción de elementos de la población
con un valor de la variable menor o igual que xi (hemos de suponer aquí igualmente que los
valores de la variable están también ordenados en orden creciente). Se representará por Fi . Por
consiguiente, tendremos que
i
Ni
Fi =
N
= f1 + f2 + + fi = ∑ f j.
j =1
Recibe el nombre de Distribución de Frecuencias al conjunto de los valores que presenta la vari-
able junto con sus frecuencias. Dependiendo del tipo de frecuencias que se consideren hablaremos
de Distribución de Frecuencias Absolutas, Distribución de Frecuencias Relativas Acumuladas, etc.
Una tabla estadística típica, para una variable estadística discreta X que toma los valores x1 , x2 , , xk
y con los tipos de frecuencias estudiados podría ser la siguiente:
xi ni fi Ni Fi
x1 n1 f1 N1 = n1 F1 = f 1
x2 n2 f2 N2 = n1 + n2 F2 = f 1 + f 2
.. .. .. .. ..
. . . . .
xi ni fi Ni = n1 + + ni Fi = f 1 + + fi
.. .. .. .. ..
. . . . .
xk nk fk Nk = n1 + + nk = N Fk = f 1 + + fk = 1
N 1
Cuando la variable estadística es continua, los datos se agrupan en intervalos o clases, que repre-
sentaremos por [ei 1 , ei ), y como la notación de intervalo nos indica, el extremo inferior pertenece a la
clase, pero el extremo superior no pertenece a la clase (en todo caso a la clase siguiente). Cada clase,
como ya se mencionó con anterioridad, se representará por un valor característico o marca de clase,
que normalmente será su punto medio, o lo que es lo mismo, la media aritmética de los extremos,
que aquí también representaremos por xi :
ei + ei 1
xi = ,
2
y el rol que desempeña este valor es el mismo que el de los valores de las variables estadísticas
discretas.
Otro dato que también se puede destacar en este contexto es la llamada Amplitud del Intervalo,
que no es más que la longitud del intervalo en cuestión y que se calcula restando sus extremos:
a i = ei ei 1.
Los intervalos que se consideren al estudiar una población, pueden ser de igual o de distinta longitud,
si bien es recomendable siempre que sea posible que sean de igual longitud (aunque como se verá,
no siempre es posible).
Una tabla de frecuencias correspondiente a una variable típicamente continua podría ser la sigu-
iente:
ei + ei 1
[ ei 1 , ei ) ni xi = 2 ai fi Ni Fi
[ e0 , e1 ) n1 x1 a1 f1 N1 = n1 F1 = f 1
[ e1 , e2 ) n2 x2 a2 f2 N2 = n1 + n2 F2 = f 1 + f 2
.. .. .. .. .. .. ..
. . . . . . .
[ ei 1 , ei ) ni xi ai fi Ni = n1 + + ni Fi = f 1 + + fi
.. .. .. .. .. .. ..
. . . . . . .
[ ek 1 , ek ) nk xk ak fk Nk = n1 + + nk = N Fk = f 1 + + fk = 1
N 1
4
Es usual también expresar los intervalos [ei 1 , ei ) uniendo sus extremos con un guión (no con-
fundirlo con una diferencia o resta): ei 1 ei .
Veamos ejemplos de cómo se confeccionan tablas estadísticas como las anteriores.
2, 3, 6, 1, 2, 5, 1, 2, 4, 5, 1, 2, 4, 3, 6, 3, 6, 5, 5, 4, 1, 5, 6, 1, 3
Basta contabilizar los resultados obtenidos para los distintos valores posibles, obteniéndose las
frecuencias siguientes:
xi ni fi Ni Fi
1 5 0, 2 5 0, 2
2 4 0, 16 9 0, 36
3 4 0, 16 13 0, 52
4 3 0, 12 16 0, 62
5 5 0, 2 21 0, 84
6 4 0, 16 25 1
Ejemplo 2 La tabla siguiente muestra los salarios, en miles de euros, de 100 personas de una empresa inter-
nacional:
Salarios ni
40 70 2
70 80 5
80 100 10
100 200 35
200 300 43
300 350 5
100
Obtener para ella la correspondiente tabla de frecuencias.
Salarios ni xi ai fi Ni Fi
40 70 2 55 30 0, 02 2 0, 02
70 80 5 75 10 0, 05 7 0, 07
80 100 10 90 20 0, 10 17 0, 17
100 200 35 150 100 0, 35 52 0, 52
200 300 43 250 100 0.43 95 0, 95
300 350 5 325 50 0, 05 100 1
100 1
5
4.2.1 Diagramas de barras (o rectángulos).
Los diagramas de barras son especialmente útiles cuando se desea comparar datos cualitativos pero
también son útiles para el estudio de los datos cuantitativos de tipo discreto.
Se representan utilizando unos ejes de coordenadas cartesianas. Para trazarlos se representan
sobre el eje de abscisas los valores de la variable, y sobre el eje de ordenadas las frecuencias absolutas
o relativas, según proceda. A continuación, por los puntos marcados en el eje de abscisas se levantan
trazos gruesos, barras, o bien rectángulos, de longitud igual a la frecuencia correspondiente. Veamos
algunos ejemplos.
Ejemplo 3 Representar mediante un diagrama de barras los datos correspondientes al carácter color del pelo
de los alumnos de una clase de 4o de ESO:
Color ni
Rubio 4
Castaño 10
Moreno 6
12
10
8
6
4
2
0
Rubio Castaño Moreno
El diagrama de barras propiamente dicho sería como el anterior, pero usando líneas más bien en
vez de rectángulos. La funcionalidad es la misma, la de representar con una longitud el número de
individuos con una determinada modalidad del carácter estudiado.
Ejemplo 4 Representar mediante un diagrama de barras los datos de la tabla siguiente; los datos corresponden
a los resultados obtenidos por los alumnos de una clase en un examen de Matemáticas:
Notas en el examen
1 2 3 4 5 6 7 8 9 10
de Matemáticas
No de alumnos 3 2 4 5 5 4 3 3 2 1
6
Nº de Alumnos
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10
Notas
6
Ejemplo 5 La superficie sembrada (en miles de Ha) de lentejas en España durante los años 1970 a 1974 fue la
siguiente:
Año 1970 1971 1972 1973 1974
Superficie 68 75 87 99 105
Representar los datos en un diagrama de barras.
Como vemos, las barras se han representado con una cierta profundidad, que sumada con el efecto
del gradiente del fondo, otorga al gráfico una elegancia y efecto visual agradable para la persona que
recibe la información.
o 360o ni
gi = .
N
Para finalizar, los sectores se pueden trazar por ejemplo en el sentido de las agujas del reloj, em-
pezando desde un radio, normalmente el vertical superior, o bien por el horizontal de la derecha, si
bien no existen convencionalismos al respecto sobre dónde empezar o en qué orden se deben colocar
los sectores.
Ejemplo 6 Veamos un ejemplo de cómo se obtiene el diagrama se sectores correspondiente a los datos del
ejemplo 3.
Color ni
Rubio 4
Castaño 10
Moreno 6
7
Los grados de los ángulos centrales de los sectores de cada modalidad se obtienen según el proced-
imiento descrito más arriba:
o 360o 4
Rubio ! g1 = = 72o
20
o 360o 10
Castaño ! g2 = = 180o
20
o 360o 6
Moreno ! g3 = = 108o
20
Y la suma de los ángulos nos dan los 360o que debe tener un ángulo completo. El diagrama de
sectores correspondiente es el siguiente. Lo damos con varios formatos posibles. El lector puede
utilizar cualquiera de ellos en sus representaciones, aunque el más sencillo de elaborar es obviamente
el sector plano, sin profundidad espacial.
Rubio
Moreno
Moreno Rubio
Castaño
Castaño
Ejemplo 7 Al preguntar a 50 personas, elegidas al azar, por el número de miembros que componen la unidad
familiar a la que pertenecen, se han obtenido los datos de la tabla siguiente:
8
Solución. Los siguientes diagramas muestran las frecuencias absolutas y las frecuencias relativas.
Estos diagramas se les denomina, respectivamente, diagrama de barras de frecuencias absolutas y dia-
grama de barras de frecuencias relativas.
25 1
20 0,8
15 0,6
10 0,4
5 0,2
0 0
1 2 3 4 5 1 2 3 4 5
Con los datos anteriores podríamos haber representado también las frecuencias acumuladas ab-
solutas y las acumuladas relativas. Los gráficos obtenidos en tal caso se llaman, como ya se ha antici-
pado anteriormente, diagramas de frecuencias acumuladas absolutas y de frecuencias acumuladas relativas.
Completamos en primer lugar la tabla anterior con las frecuencias necesarias:
xi ni fi Ni Fi
1 8 0,16 8 0,16
2 23 0,46 31 0,62
3 12 0,24 43 0,86
4 6 0,12 49 0,98
5 1 0,02 50 1
Total 50 1
En este caso, los diagramas que se obtendrían serían los siguientes:
60 1
50
0,8
40
0,6
30
0,4
20
0,2
10
0 0
1 2 3 4 5 1 2 3 4 5
25 0,5
20 0,4
15 0,3
10 0,2
5 0,1
0 0
1 2 3 4 5 1 2 3 4 5
9
Ejemplo 8 Obtener el polígono de frecuencias absolutas correspondiente a los datos de la tabla siguiente, que
muestra la cantidad de gatos atropellados en una carretera durante los años 2002 a 2007:
7
6
5
4
3
2
1
0
2002 2003 2004 2005 2006 2007
4.4.1 Histogramas.
Son los diagramas más representativos de las variables estadísticas continuas. Se utilizan cuando
dichas variables se encuentran delimitadas mediante intervalos. Dependiendo de si la amplitud de
cada intervalo sea la misma o no, distinguimos dos casos:
(a) Los intervalos poseen la misma amplitud. El histograma se representa utilizando unos ejes
de coordenadas cartesianos, marcando sobre el eje horizontal (o de abscisas) los extremos de
cada intervalo, y levantando sobre cada uno de ellos rectángulos de altura igual a la frecuencia
absoluta (o relativa, según se desee representar) correspondiente.
(b) Los intervalos no poseen la misma amplitud. Se procederá como en el caso anterior, pero con-
siderando que la altura de cada rectángulo será igual a la razón naii entre la frecuencia absoluta
fi
y la amplitud del intervalo correspondiente (o a la razón ai si lo que se desean representar son
las frecuencias relativas).
Alturas 160 165 165 170 170 175 175 180 180 185
ni 4 7 10 13 6
10
Solución. El diagrama es el siguiente:
14
12
10
8
6
4
2
0
160 165 170 175 180 185
Ejemplo 10 Representar con un histograma las edades de 40 jóvenes colaboradores de la Cruz Roja:
Edades 14 15 15 17 17 18 18 20 20 23
ni 6 14 11 6 3
Solución. Como los intervalos no poseen las mismas amplitudes, añadiremos a la tabla anterior los
datos correspondientes a las amplitudes de cada intervalo así como las razones entre sus frecuencias
y dichas amplitudes, que representaremos por hi = naii .
Edades 14 15 15 17 17 18 18 20 20 23
ni 6 14 11 6 3
ai 1 2 1 2 3
hi 6 7 11 3 1
10
14 15 17 18 20 23
11
Los correspondientes polígonos de frecuencias de los ejemplos anteriores son los siguientes:
10
14 15 17 18 20 23
Medidas Estadísticas.
Existen distintos tipos de medidas, según el papel que juegan:
2. Medidas de posición: Indican, una vez ordenados, cuántos elementos quedan a la izquierda o
derecha de uno dado: cuartiles, deciles, centiles o percentiles.
3. Medidas de dispersión: Proporcionan una idea sobre la separación de los datos: rango o recor-
rido, desviación media, varianza, desviación típica y coeficiente de variación.
5 Medidas de centralización.
5.1 Media.
Es la media aritmética de los valores del carácter en estudio. Se calcula al sumar todos los valores
y dividir por el total de individuos de la población. Por tanto, es una medida de posición central o
de centralización que puede asignarse únicamente a variables estadísticas. Si la variable estadística
en estudio es de tipo discreto, llamémosla X, toma los valores x1 , x2 , ..., xk con frecuencias absolutas
n1 , n2 , ..., nk , respectivamente, entonces la media aritmética, que representaremos por x, se define por:
1 k
∑ik=1 ni xi k
x=
N ∑ ni xi = N
= ∑ f i xi (1)
i =1 i =1
Ejemplo 11 Las notas de un examen de Estadística en una clase fueron las siguientes:
Notas ( xi ) 2 3 4 5 6 7 8 9 10
No alumnos (ni ) 1 1 5 7 7 4 4 2 1
12
Solución. completamos la tabla con los valores de los productos ni xi :
Notas ( xi ) 2 3 4 5 6 7 8 9 10
No alumnos (ni ) 1 1 5 7 7 4 4 2 1 N = 32
ni xi 2 3 20 35 42 28 32 18 10 190
∑9i=1 ni xi 190
x= = 5, 94 puntos
N 32
Ejemplo 12 En un cierto barrio se ha constatado que las familias residentes se han distribuido, según su
tamaño, de la siguiente forma:
Tamaño familias 0 2 2 4 4 6 6 8 8 10
No familias 110 200 90 75 25
Solución. Completaremos en primer lugar la tabla anterior con los datos necesarios:
Tamaño ni xi ni xi
0 2 110 1 110
2 4 200 3 600
4 6 90 5 450
6 8 75 7 525
8 10 25 9 225
500 1910
Con los datos anteriores, obtenemos que la media solicitada es:
∑5i=1 ni xi 1910
x= = = 3, 82 miembros
N 500
6 Medidas de dispersión.
Al estudiar cada carácter de cualquier población o muestra, se pueden observar con inmediatez las
diferencias existentes entre los resultados individuales de las observaciones. La variabilidad en los
resultados es inherente a cada fenómeno aleatorio, originando en el conjunto de los datos observados
una cierta homogeneidad o heterogeneidad, según que las diferencias u oscilaciones entre ellos sea
pequeña o grande. Este grado de variabilidad o disparidad o esparcimiento mutuo de los datos
estadísticos es lo que en estadística se denomina dispersión.
∑ik=1 ni ( xi x )2 k
V ( X ) = σ2 =
N
= ∑ f i ( xi x )2 .
i =1
Cuando la variable estadística X sea de tipo continuo, cambiaremos entonces los xi de la expresión anterior por
las marcas de clase de las distintas clases en que esté agrupada dicha variable.
13
Normalmente la varianza puede calcularse de manera más asequible mediante la tesis del cono-
cido por Teorema de König.
Teorema 14 (König) La varianza de una variable estadística de tipo discreto X que toma los valores x1 , x2 , ..., xk ,
con frecuencias absolutas n1 , n2 , ..., nk cumple la identidad:
∑ik=1 ni ( xi x )2 1 k
1 k
2x k
x2 k
σ2 =
N
= σ2 =
N ∑ ni (xi2 2xi x + x2 ) ==
N ∑ ni xi2 N ∑ ni xi + N ∑ ni =
i =1 i =1 i =1 i =1
como queríamos.
Definición 15 En las mismas condiciones de la definición anterior, llamaremos desviación típica o estándar
de la variable X a la raíz cuadrada de la varianza. La representaremos por σ. En tal caso:
s v
q u k
k
∑ i =1 i i
n ( x x ) 2 u
σ = V (X) = = t ∑ f i ( x i x )2 ,
N i =1
Aplicando el Teorema 14 es inmediato que la desviación típica puede obtenerse mediante la ex-
presión: s
∑ik=1 ni xi2
σ= x2 ,
N
mucho más práctica de aplicar en el cálculo rudimentario.
(x tσ, x + tσ)
es como mínimo
1
. 1
t2
Por ejemplo, la proporción de datos incluidos en el intervalo ( x 2σ, x + 2σ) es como mínimo 1
1
22
= 34 , es decir, el 75% de la población total. También podemos deducir que la proporción de datos
que se encuentran en el intervalo ( x 3σ, x + 3σ) es como mínimo 1 312 = 0, 88, es decir, el 88% de
la población total.
La desviación típica es, por tanto, una medida bastante precisa de la dispersión de los datos
alrededor de la media aritmética de la distribución, siendo preferida, en general, a las demás medidas
absolutas de dispersión.
14
6.3 Observaciones a la varianza y la desviación típica.
1. Tanto la varianza como la desviación típica dependen de todos los valores de la distribución,
así como la media.
2. En los casos en que no sea posible calcular la media aritmética, no será posible tampoco obtener
la varianza y la desviación típica, por ser funciones de la media aritmética.
3. La varianza tiene el inconveniente de que no viene expresada en las mismas unidades que los
datos, debido a que las desviaciones van elevadas al cuadrado. Así, por ejemplo, si los datos son
metros, la varianza vendrá dada en metros cuadrados. En cambio, la desviación típica viene
expresada en las mismas unidades que los datos de la distribución, de ahí que la desviación
típica resulte más interesante que la varianza como parámetro para estimar la dispersión de los
datos de una distribución.
15