Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La estadística estudia propiedades de una población sin recurrir al sufragio universal. El estudio
estadístico tiene dos posibilidades
(1) Describir lo que ocurre en la muestra mediante tablas gráficos y parámetros estadísticos.
(2) Hacer inferencias, es decir, sacar conclusiones que puedan servir para toda la población
Población.
Conjunto finito o infinito de elementos (personas ó cosas) sobre el que se va a hacer el estudio. El
primer paso de un estudio estadístico es la definición de la población.
Elemento ó individuo
Cada una de las personas o cosas que integran la población.
Muestra
Conjunto de elementos representativos de la población. La muestra debe de tener las mismas
propiedades que la población a la que representa. Al número de elementos o individuos de una muestra se
llama tamaño. Una muestra es aleatoria cuando sus elementos se escogen al azar. Una muestra es
proporcional cuando cada parte de la población está representada de acuerdo con su importancia en ella.
Carácter ó variable
Los caracteres ó variables son las propiedades que se desean estudiar, se pueden clasificar de la
siguiente forma
Discreto
Cuantitati vo :
Caracter o variable : Continuo
Cualitativo
- Carácter cuantitativo. Son aquellas variables que se puede medir, por ejemplo edad, peso,... etc.
- Carácter cualitativo. Son aquellas variables que no se pude medir, por ejemplo color, sabor,... etc.
Para agrupar los valores de la variable en intervalos no hay una regla fija, sólo debe tenerse en cuenta
que la agrupación sea coherente con el tipo de variable que sé este agrupando. Los intervalos pueden ser de
igual amplitud o de diferente amplitud, en función de cada caso. Si se consideran intervalos constante, un
criterio para determinar el número y amplitud de los intervalos es el de Nordcliff, que dice que el número de
intervalos debe ser aproximadamente igual a la raíz cuadrada positiva del número de datos. Una vez
determinado el número de intervalos, la amplitud se calcula aproximadamente como el cociente entre el rango
de la variable(diferencia entre el mayor y menor valor de la variable) y el número de intervalos.
La marca de clase, o valor representativo del intervalo, es la semisuma de los extremos del intervalo:
L + L s L i = Límite inferior del intervalo
xi = i :
2 L s = Límite superior del intervalo
para los cálculos de parámetros de la distribución, se usa la marca de clase como valor representativo del
intervalo
Ejemplo 2. Número de respuestas correcta de un test de 50 preguntas
Gráficos estadísticos
- Diagrama de barras.- Son gráficos que representan cada valor de la variable mediante una barra
proporcional a la frecuencia con la que se presentan. Las barras deben estar separadas.
- Histogramas.- Se usa para variables agrupadas por intervalos, asignando a cada intervalo un
rectángulo de superficie proporcional a su frecuencia. La altura de cada intervalo se halla dividiendo
la frecuencia que representa entre la amplitud del intervalo
- Poligonal de frecuencias.- Los histogramas y los diagramas de barras se pueden representar por una
poligonal de frecuencias, que es la línea que une los puntos correspondientes a las frecuencias de
cada valor(extremos superiores de las barras)
- Diagrama de sectores.- En estos gráficos, cada valor de la variable estadística viene representado
por un sector circular de amplitud proporcional a su frecuencia. La amplitud(αi) de cada sector se
halla multiplicando la frecuencia relativa por 360 sí se mide en grados sexagesimales o por 2π si se
mide en radianes.
Los diagramas de sectores dan una clara visión de conjunto de cada valor respecto a la
totalidad. Para su mejor interpretación es conveniente mostrar en cada sector su proporción.
Ejemplo 3. Sobre una muestra de 80 parejas se ha estudiado el número de hijos obteniendo los siguientes
resultados:
Número de hijos xi 0 1 2 3 4 5ó+
Número de parejas fi 15 21 26 12 4 2
a. Cuadro de frecuencias
b. Diagrama de barras
c. Poligonal de frecuencias
d. Diagrama de sectores
Ejemplo 4. Sobre una muestra de 150 personas a las que se le ha realizado un test de 50 preguntar sobre
seguridad vial, se han obtenido los siguientes resultado agrupados en intervalos:
Intervalo 0 − 10 10 − 20 20 − 30 30 − 40 40 − 50
Frecuencia 24 32 48 26 20
a. Calcular el cuadro de frecuencias
b. Representar el histograma para la frecuencia absoluta y la frecuencia acumulada
c. Representar la poligonal de la frecuencia absoluta y de la frecuencia acumulada
a. Cuadro de frecuencias
Parámetros estadísticos.
Describen de un modo conciso el comportamiento y las características generales de los datos
estudiados. Se pueden clasificar de la siguiente forma:
- Media
Medidas de centralización : - Moda
- Mediana
- Cuartiles
Cuantiles : - Quintiles
Parámetros estadísticos :
- Deciles
- Percentiles
Medidas de dispersión :
- Amplitud, rango o recorrido
- Desviación media
- Varianza y desviación
- Coeficiente de variación
Parámetros de centralización
Media
Es la medida de centralización más usual. Existen diversos tipos de medias:
- Media aritmética.
n
∑ xi ⋅fi n
o Simple: x = i =1
N
Donde N = ∑ fi .
i =1
n
∑x
i =1
i ⋅ pi
o Ponderada: x p = n
Se utiliza cuando los valores de la variable tienen diferente
∑p i =1
i
Media geométrica: x g = N x 1 1 ⋅ x 2 2 ⋅ ... ⋅ x nn n La media geométrica se utiliza para los casos en que
n n
-
sea necesario una gran precisión, puesto que es la única media a la que no la afectan los valores
extremos. No puede utilizarse si la variable toma valores negativos ó cero.
N
- Media armónica: x a = n Se utiliza cuando la variable está medida en unidades relativas,
∑
1
⋅ni
i =1
xi
como por ejemplo Km ,€ , ...etc
H m
Moda
Es el valor de la variable estadística que se repite más veces, es decir, el que tiene una frecuencia
absoluta más elevada. Puede haber más de una moda, en estos casos se tratará de distribuciones bimodales,
trimodales,... etc.
Para una distribución sin agrupar, la moda se calcula directamente como el valor de la variable
estadística con mayor frecuencia absoluta.
Para distribuciones con datos agrupados, él calculo de la moda se hace mediante una interpolación
lineal sobre el intervalo modal, obteniéndose la siguiente expresión
D1
Mo = L i + c ⋅
D1 + D 2
L i = Límite inferior del intervalo modal
c = Amplitud de intercalo
donde:
D1 = f i − f i −1 diferencia entre la frecuencia absoluta del intervalo modal y de intervalo posterior
D 2 = f i − f i +1 diferencia entre la frecuencia absoluta del intervalo modal y de intervalo anterior
Siendo el intervalo modal el de mayor frecuencia absoluta.
Mediana
Es el valor que ocupa la posición central de la distribución cuando los valores de la variable están
ordenados de forma creciente o decreciente. Por lo tanto, la mediana divide a la distribución en dos
subconjuntos con igual número de datos, estando el 50% de los datos por debajo de ella y el otro 50% por
encima de ella.
Para el calculo de la mediana en distribuciones con datos sin agrupar, existen dos casos
- Para N(tamaño de muestra) impar, la mediana es el valor central. Se busca en la frecuencia absoluta
acumulada, siendo el primer valor de la variable estadística cuya frecuencia absoluta acumulada sea
mayor o igual que el cociente N/2.
- Para N par, la mediana es la media aritmética de los valores centrales de la variable estadística, que
son los dos primeros valores cuya frecuencia absoluta acumulada es mayor o igual que el cociente
N/2.
Respecto a la media y la mediana, en general, se utilizan ambas, ya que esto permite realizar algunas
deducciones sobre la simetría de la distribución. Existen algunos casos donde el uso de la media es mejor que
el uso de la media, estos casos son
- Cuando se tiene la sospecha que en los datos pueden existir errores.
- En el caso de que existan valores extremos
- Cuando los datos están en escala nominal
Ejemplo 5. El número de urgencias atendidas en centro de salud en 30 noches ha sido:
Nº de urgencias (xi) 0 1 2 3 4 5 6
Nº de días (fi) 7 8 5 4 3 1 2
x=
∑ x i ⋅ f i = 59 = 1'97
N 30
Mediana: Por ser el número de datos par, la mediana es la media aritmética de los dos valores centrales.
x i / Fi ≥ N = 15 : x 1 = 1
Valores centrales: 2
i i
x / F ≥ N + 1 = 16 : x = 2
2
2
x + x 2 1+ 2
Me = 1 = = 1'5
2 2
Ejemplo 6. Sobre una muestra de 150 personas a las que se le ha realizado un test de 50 preguntar sobre
seguridad vial, se han obtenido los siguientes resultado agrupados en intervalos:
Intervalo 0 − 10 10 − 20 20 − 30 30 − 40 40 − 50
Frecuencia 24 32 48 26 20
Calcular los parámetros de centralización.
Cuadro de frecuencias
x=
∑ x i ⋅ f i = 3610 = 24'1
N 150
Moda: El intervalo modal es el de mayor frecuencia
Intervalo Modal ≡ [20, 30 )
El calculo de la moda se hace por interpolación lineal sobre el intervalo modal según la expresión:
D1
Mo = L i + c ⋅
D1 + D 2
L i = 20
c = 10
teniendo en cuenta:
D1 = f i − f i −1 = 48 − 32 = 16
D 2 = f i − f i +1 = 48 − 26 = 22
16
Mo = 20 + 10 ⋅ = 24'2
16 + 22
Mediana: El intervalo mediano es el primer intervalo cuya frecuencia absoluta acumulada es mayor o igual
que el cociente N/2. Aplicando a este caso
Fi ≥ 150 = 75 ⇒ Intervalo mediano ≡ [20, 30 )
2
El cálculo de la mediana se hace por interpolación lineal sobre el intervalo mediano según la
expresión:
N
− Fi −1
Me = L i + c ⋅ 2
fi
L i = 20
= 150
c 10 − 56
donde: N = 150 ⇒ Me = 20 + 10 ⋅ 2 = 24'0
F = 56 48
i −1
f i = 48
Gráficamente
Cálculo:
- Para distribuciones con datos sin agrupar se busca el primer valor que cumpla:
N
Fi = k ⋅
n
Donde n indica el tipo de cuantil; Para cuartiles n = 4, para quintiles n = 5, para deciles n = 10, y para
percentiles n = 100. k especifica el cuantil buscado, toma valores desde 1 hasta n−1. N es el tamaño de la
muestra.
N N N N
Ejemplos: Q 3 : Fi ≥ 3 ⋅ ; K 2 : Fi ≥ 2 ⋅ ; D 7 : Fi ≥ 7 ⋅ ; P35 : Fi ≥ 35
4 5 10 100
- Para distribuciones con datos agrupados se busca el intervalo donde se encuentra el cuantil deseado
de la misma forma que en las distribuciones sin agrupar y sobre este intervalo se hace una
interpolación mediante la expresión:
N
k ⋅ − Fi −1
n k = Li + c ⋅ n
fi
Ejemplos:
N N
3 ⋅ − Fi −1 2 ⋅ − Fi −1
Q3 = Li + c ⋅ 4 ; K 2 = Li + c ⋅ 5
fi fi
N N
7⋅ − Fi−1 35 ⋅ − Fi −1
D7 = Li + c ⋅ 10 ; P35 = L i + c ⋅ 100
fi fi
Rango o recorrido
Es la diferencia entre el mayor y menor valor de la variable. Es una medida muy imprecisa, ya que
sólo tiene en cuenta los valores extremos. Tampoco permite hacer comparaciones entre distintas
distribuciones.
Desviación media respecto a la media aritmética
n
∑ xi − x ⋅ fi
D x = i =1
N
Cuanto más elevado sea su valor, más dispersión existirá y la media, será menos representativa.
s2 =
∑ (x i − x )2 ⋅ f i
N
aplicando las propiedades de los sumatorios, se obtiene una expresión más práctica
s 2
=
∑ x i2 ⋅ f i
−x
2
N
La varianza, al obtenerse a partir del cuadrado de las diferencias de los datos respecto de la media,
hace que los valores más alejados tenga mayor peso en el resultado: en consecuencia, distingue mejor que la
amplitud la variabilidad ó dispersión de los datos de dos distribuciones. Cuanto más elevado sea su valor, más
dispersión existirá y la media , será menos representativa. La varianza viene expresada en unidades al
cuadrado.
Propiedades
- Siempre es positiva
- Si sumamos a todos los valores de la distribución una constante, la varianza no varia.
- Si multiplicamos a todos los valores de la distribución por una constante, la varianza queda
multiplicada por la constante al cuadrado.
Desviación típica
La desviación típica es la raíz cuadrada positiva de la varianza.
s=
∑ (x i − x )2 ⋅ f i ó bien s=
∑ x i2 ⋅ f i − x 2
N N
La desviación típica es la medida de variabilidad ó dispersión más utilizada. Cuanto más elevado sea su valor,
más dispersión existirá y la media , será menos representativa.
La varianza y la desviación típica también se designan por σ 2 y σ , respectivamente. En las
calculadoras, la desviación típica suele describirse por σ o por σ n .
Propiedades
- Siempre es positiva
- Si sumamos a todos los valores de la distribución una constante, la desviación típica no varia.
- Si multiplicamos a todos los valores de la distribución por una constante, la desviación típica queda
multiplicada por la constante.
El coeficiente de variación
La dispersión no puede determinarse exclusivamente a partir de la desviación típica, ya que es un
concepto relativo. Por tanto, para establecer comparaciones hay que tener también en cuenta la media de los
datos. Una medida de la dispersión relativa de dos conjuntos de datos es el coeficiente de variación, que se
define como:
s
Coeficiente de variación C.V. =
x
Dados dos conjuntos, aquel que tenga un coeficiente de variación mayor es el más disperso, el más
heterogéneo. Además, su valor no depende de la unidad de medida utilizada, pues la media y la desviación
típica se ven afectadas igualmente.
Ejemplo 7. Durante el mes de Julio, en una determinada ciudad de la costa levantina, se han registrado las
siguientes temperaturas máximas:
T(ºC) (xi) 27 28 29 30 31 32 33 34
Nº días (fi) 1 2 6 7 8 3 3 1
Calcular:
a. Media, Moda y Mediana
b. Q1, Q3, P35, P85
c. Desviación media, desviación típica y coeficiente de variación.
xi fi Fi xi · fi
27 1 1 27
28 2 3 56
29 6 9 174
30 7 16 210
31 8 24 248
32 3 27 96
33 3 30 99
34 1 31 34
N= ∑ f i = 31 ∑ x i ⋅ f i = 944
Media: x =
∑ x i ⋅ f i = 944 = 30'45
N 31
Mediana: Por ser el número de datos impares, la mediana es el valor central. Se localiza por ser el primer
valor cuya frecuencia absoluta acumulada es mayor o igual que el cociente N/2.
N = 31 = 15'5 : F ≥ 15'5 ⇒ Me = 30
2 2 Me
xi Fi
27 1
28 3
29 9
30 16
31 24
32 27
33 30
34 31
31 31
Q 1: FQ1 ≥ 1 ⋅ = 7'75 ⇒ Q1 = 29 Q 3: FQ3 ≥ 3 ⋅ = 23'25 ⇒ Q 3 = 31
4 4
31 31
P 35: FP 35 ≥ 35 ⋅ = 10'89 : P35 = 30 P 85: FP 85 ≥ 85 ⋅ = 26'35 : P85 = 32
100 100
c. Para calcular los parámetros de dispersión pedidos, es necesario el siguiente cuadro de frecuencias:
xi fi xi · fi xi2 · fi
27 1 27 729 −3’45 11’9025
28 2 56 1568 −2’45 12’005
29 6 174 5046 −1’45 12’615
30 7 210 6300 −0’45 1’4175
31 8 248 7688 0’55 2’42
32 3 96 3072 1’55 7’2075
33 3 99 3267 2’55 19’5075
34 1 34 1156 3’55 12’6025
∑ f i = 31 ∑ x i ⋅ f i = 944 ∑ x i2 ⋅ f i = 28826 ∑ (x i − 30'5)2 f i = 79'68
n
∑ xi − x ⋅fi 79'68
Desviación media: D x = i =1 = = 2'57
N 31
Desviación típica: s = σ =
∑ x i2 ⋅ f i − x 2 = 28826
− 30'45 2 = 1'63
N 31
a. Cuadro de frecuencias
Intervalo xi fi Fi xi · fi
[82, 90) 86 12 12 1032
[90, 98) 94 32 44 3008
[98, 106) 102 49 93 4998
[106, 114) 110 54 147 5940
[114, 122) 118 30 177 3540
[122, 130) 126 17 194 2142
[130, 138) 134 11 205 1474
[138, 146) 142 5 210 710
∑ f i = 210 ∑ x1 ⋅ f i = 22844
Media: x =
∑ x i ⋅ f i = 22844 = 108'8
N 210
Moda: El intervalo modal es el de mayor frecuencia. [106, 114). La moda se obtiene por interpolación:
D1
Mo = L i + c ⋅
D1 + D 2
L i = 106
c=8
teniendo en cuenta:
D1 = f i − f i −1 = 54 − 49 = 5
D 2 = f i − f i +1 = 54 − 30 = 24
5
Mo = 106 + 8 ⋅ = 107'4
5 + 24
Mediana: El intervalo donde se encuentra la media es el primer cuya frecuencia absoluta acumulada es mayor
o igual que el cociente N/2.
Fi ≥ 210 = 105
2
buscando en la columna de la frecuencia acumulada
Me ∈ [106, 114 )
Una vez localizada se calcula por interpolación
N
− Fi −1
Me = L i + c ⋅ 2
fi
L i = 106
= 210
c 8 − 93
donde: N = 210 ⇒ Me = 106 + 8 ⋅ 2 = 107'8
F = 93 54
i −1
f i = 54
b. El segundo quintil está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor o igual
N
que 2 ⋅
5
= 84 ⇒ K 2 ∈ [98, 106)
210
Fi ≥ 2 ⋅
5
El K2 se obtiene por interpolación:
L i = 98
N 210
2 ⋅ − Fi −1 c = 8 2⋅ − 44
5 5
K 2 = Li + c ⋅ = N = 210 = 98 + 8 ⋅ = 104'5
fi F = 44 49
i −1
f i = 49
El octavo decil(D8) está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor ó igual
N
que 8 ⋅
10
El quinto percentil(P5) está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor ó
N
igual que 5 ⋅
100
= 10'5 ⇒ P5 ∈ [82, 90 )
210
Fi ≥ 5 ⋅
100
El P5 se obtiene por interpolación:
L i = 82
N 210
5⋅ − Fi −1 c = 8 5⋅ −0
100 100
P5 = L i + c ⋅ = N = 210 = 82 + 8 ⋅ = 89
fi F = 0 12
i −1
f i = 12
c. Se pide calcular el percentil ochenta y cinco, ya que este deja a su izquierda el 85% de la
distribución, y a su derecha el 15%, que debido al orden creciente de la distribución, corresponde al de mayor
nota.
N
El P85 está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor ó igual que 85 ⋅
100
Par estar en el 15% de mayor coeficiente intelectual, la nota del test debe ser mayo que 122.
d. Cuadro de frecuencias
Intervalo xi fi xi · fi xi2 · fi
[82, 90) 86 12 1032 88752
[90, 98) 94 32 3008 282752
[98, 106) 102 49 4998 509796
[106, 114) 110 54 5940 653400
[114, 122) 118 30 3540 417720
[122, 130) 126 17 2142 269892
[130, 138) 134 11 1474 197516
[138, 146) 142 5 710 100820
∑ f i = 210 ∑ x1 ⋅ f i = 22844 ∑ x i2 ⋅ f i = 2520648
Varianza: σ 2 =
∑ x i2 ⋅ f i − x 2 = 2520648 − 108'8 2 = 165'6
N 210
σ σ2
= 0'1183 ⇒ C.V.(% ) = 11'83
165'5
C.V. = = =
x x 108'8
En la distribución del ejemplo 7, los datos están menos dispersos respecto de la media que en el
ejemplo 8.
Comparación de puntuaciones
Para poder comparar valores de dos distribuciones diferentes, es decir, para poder comparar las
posiciones de dos valores dentro de sus respectivas distribuciones, es necesario tipificar las variables
x −x
Variable tipificada: z i = i
σ
Ejemplo 9. Un alumno obtiene un 5’5 en el examen de matemáticas y un 6’4 en el examen de filosofía. ¿En
cual examen obtuvo mejor nota respecto a su clase?.
x m = 5'2
Examen de matemáticas :
Datos: σ m = 1'02
Examen de filosofía : x f = 5'9
σ f = 1'72
Para poder compara las puntuaciones de dos exámenes hay que desvincular las variables de lo que
miden, eso se consigue mediante su tipificación.
x − x m 5'5 − 5'2
z = m = = 0'294
x i − x m σm 1'02
zi = :
σ z f = x f − x f = 6'4 − 5'9 = 0'291
σf 1'72
Respecto de la clase, obtuvo mejor nota en el examen de matemáticas ya que su valor tipificado es
mayor.