Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DEFINICIÓN: Se define la Estadística como una rama de las matemáticas que se encarga del
estudio de una determinada característica en una población recopilando los datos, organizándolos
en tabla, representándolos gráficamente y analizándolos para sacar conclusiones de dicha
población.
Es un conjunto de técnicas y métodos que son usados para recolectar, organizar y presentar en
forma de tablas y graficas información numérica. Se incluyen además el cálculo de indicadores
estadísticos de centralidad y de variabilidad.
Vamos a considerar estudios donde la cantidad de datos sea igual o inferior a 30 (muestras
pequeñas) y cuando los datos superen a 30 (muestras grandes)
Para muestras pequeñas una vez recolectada la información numérica (los datos tal cual son
recolectados se denominan datos no agrupados, se proceden a ordenarlos por lo general de
menor a mayor, para posteriormente analizarlos usando para ello los percentiles que vemos a
continuación.
PERCENTILES
Los Percentiles dividen a una distribución de datos en 100 partes iguales donde cada una de las
partes contiene el 1% de la información, existiendo 99 puntos de división los cuales denotamos
por:
P1 , P2 , … P 99
Se leen el Percentil1, el percentil 2, etc. De este modo por ejemplo el Percentil 30 representa a
aquel dato que deja bajo si el 30% de los casos. Para su cálculo se emplea la formula siguiente:
( n+ 1 ) x
P x= siendo n la cantidad de datos , x es un numero entero comprendido entre 1 y 99
100
el resultado de usar esta fórmula es un valor ordinal el cual nos puede dar un entero (E) o un
decimal (d).Si nos da el entero E buscamos en la serie ordenada de datos el que ocupa la posición
E el cual resultara ser el Percentil buscado .Ahora si nos da un decimal al dato que ocupa la
posición E lo denotaremos x E y aquel que ocupa la posicion E+1 lodenotaremos como
NOTA Los Percentiles son medidas de posición y se emplean de preferencia en análisis de datos
numerosos sobre 30.
4,2; 4,4; 4 ; 4,3 ; 4 ; 4,3 ; 5,4 ; 2,5 ; 6,1 ; 2 ; 7 ; 5,9 ; 5,6 ; 4 ; 3,2 ; 2
SOLUCIÓN: Primero ordenaremos los datos de menor a mayor, quedando estos como sigue:
2; 2 ; 2,5 ; 3,2 ¸ 4 ; 4 ; 4 ; 4,2 ; 4,3 ; 4,3 ; 4,4 ; 5,4 ; 5,6 ; 5,9 ; 6,1 ; 7
Ahora calculamos los percentiles pedidos nótese que la cantidad de datos son 16 es decir n=16
( n+1 ) 30 17 ∙ 30
a ¿ P30= = =5,1 es un decimal siendo su parte entera E=5 y su parte decimal
100 100
d=0,1. En los datos ordenados identificamos a los datos que ocuparon la posición quinta y sexta
siendo estos 4 y 4 por lo tanto:
P30=4+ ( 4−4 ) 0,1=4 esto es, el 30% de los datos es igual o inferior a 4
17∙ 50
b−¿ P50= =8,5 siendo la parte entera E=8 y su parte decimal d=0,5, buscamos entonces
100
en nuestra serie ordenada los datos que ocupan la posición 8 y 9 siendo estos 4,2 y 4,3
respectivamente, por lo tanto:
P50=4,2+ ( 4,3−4,2 ) ∙0,5=4,25 esto es el 50% de los datos son iguales o inferior a 4,25
70 ∙17
c .−¿ P70= =11,9 siendo su parte entera E=11 y su parte decimal d=0,9. Buscamos
100
entonces en nuestra serie ordenada los datos que ocupan la posición 11 y 12, siendo estos 4,4 y
5,4 respectivamente, por lo tanto.
P70=4,4+ ( 5,4−4,4 ) ∙0,9=5,3 esto es el 70% de los datos son iguales o inferior a 5,3
Otras medidas de localización que también se usan son: Los Deciles, Los Quintiles y los Cuartiles
LOS DECILES
Estos dividen a una distribución de datos en 10 partes iguales donde cada una de partes contiene
el 10% de la información, existiendo 9 puntos de división, los cuales se denotan como:
LOS QUINTILES
Estos dividen a una distribución de datos en 5 partes iguales, donde cada una de las partes
contiene el 20% de la información, existiendo 4 puntos de división que denotaremos:
LOS CUARTILES
Estos dividen a una distribución de datos en 4 partes iguales, donde cada una de las partes
contiene el 25% de la información, existiendo 3 puntos de división que denotaremos:
Estas han de actuar como representantes de una serie de datos, nos ayudan a caracterizar en
parte a una información. Estudiaremos las siguientes medidas de tendencia central: La Moda, La
Mediana, La media Aritmética, El medio geométrico y el Medio Armónico.
LA MODA
Se define la moda como el valor de la variable que posee una frecuencia mayor que las restantes.
Si la variable se denota por X, la moda se denota como: ^x o bien como M o
La desventaja que presenta la Moda es que en ocasiones pueden haber 2 o más modas, para el
caso de dos modas se habla de una distribución bimodal, también puede no haber moda se habla
en este caso de una distribución amodal.
LA MEDIANA
LA MEDIA ARITMÉTICA
∑ xi
x + x +… …+ x n
x́= 1 2 en simbolo de sumatoria x́= i=1
n n
LA MEDIA GEOMÉTRICA
M .G= √n x 1 ∙ x 2 ∙ … … . ∙ x n
Pierde toda representatividad si a lo menos una de las observaciones es cero y también, sí. hay
una cantidad impar de observaciones negativas siendo la cantidad de observaciones un numero
par.
LA MEDIA ARMÓNICA
Sean x 1 , x 2 , … ….. , x n n observaciones, la media armónica de estos denotada por M.H se obtiene
como:
n
M . H=
1 1 1
+ + … …+
x1 x 2 xn
Para calcular la mediana ordenamos los datos previamente quedando estos así;
3+4 +2+5+1 15
x́= = =3
5 5
Ahora para calcular la media geométrica se tiene que:
n
1. ∑ ( xi −x́ ) =0
i=1
2. La mediana es insensible a valores extremos no asila media aritmetica
3. La media geométrica se usa de preferencia en problemas demográficos
4. La media armónica es usada en el ámbito financiero
5. Sea y=a+ b∙ x , entonces ý =a+b ∙ x́
MEDIDAS DE DISPERSION
Nos sirven estas para medir el grado de alejamiento de los datos con respecto a alguna medida de
tendencia central de preferencia la media aritmética
Analizaremos en este curso las siguientes medidas de dispersión también conocidas como medidas
de variabilidad.
EL RANGO
En una serie de observaciones el Rango denotado por R equivale a la diferencia entre el puntaje
máximo y el puntaje mínimo en la serie.
EL RANGO INTERCUARTIL
OBSERVACIONES:
1 ;2;3;4;5
SOLUCIÓN
a ¿ R=5−1=4
σ 2=2
c ¿ σ= √ 2
COEFICIENTE DE VARIACIÓN
Al comparar series de observaciones para determinar cuál de ellas se comporta más homogénea la
que posea menor desviación standard será la elegida
Ahora cuando los datos difieran en demasía o vengan expresados en distintas unidades o ante
igualdad de desviación standard se recurre a un nuevo indicador de dispersión El Coeficiente de
Variación denotado C.V el cual toma en cuenta no solo la desviación standard sino también un
indicador de tendencia central de preferencia la media aritmética. El Coeficiente de Variación se
calcula usando la formula
σ
C.V=
x́
Este indicador se expresa en Porcentaje, donde a menor valor más homogéneo es la serie.
EJERCICIO: Dadas las series siguientes las cuales corresponden a las calificaciones de la primera
prueba en la asignatura de algebra II correspondientes a los alumnos de la carrera de Ingeniería
Comercial año 2019 (SERIE A) y a los pesos registrados por los alumnos en kilogramos que
cursaron la asignatura de Estadística correspondientes a la carrera de construcción civil el año
2019
SERIE A
2 3 5 4,5 6 3 5,5 3
SERIE B
55 60 52 73 60 60 60
SOLUCIÓN: Calculamos los coeficientes de variación en ambas series, esto es debemos calcular la
media aritmética y la desviación standard en ambas series.
32 142,5
SERIE A : Á= =4 ; Á2= =17,8125 ; σ A 2=17,8125−16=1,8125 ; σ A =1,34
8 8
420 2 25458
SERIE B : B́= =60 B́ = =3636,86 ; σ B2=3636,86−3600=36,86 ; σ B =6,07
7 7
1,34 6,07
C . V A= =0,335=33,5 % ; C . V B= =0,10=10 %
4 60
Dado que el coeficiente de variación de la Serie B es menor que el coeficiente de variación de la
Serie A , es decir los pesos de los alumnos de Construcción Civil se comportan más homogéneo
que las notas de los alumnos de Ingeniería Comercial.
La estructura de esta tabla tendrá ahora como primera columna los intervalos de clase que
contienen un límite inferior y un límite superior.
Si la información es muy grande conviene usar una gran cantidad de intervalos y si fuera pequeña
usar pocos intervalos. Existe una regla conocida como la regla de Sturges que nos proporciona
cuantos intervalos han de usarse
REGLA DE STURGES
k =1+3,3 logn
Siendo k el número de intervalos, n el número de observaciones. Por lo general ocurre un numero
decimal que se puede redondear al entero mayor si el numero después de la coma es 5 o mayor
Si se asume que los intervalos tengan todos ellos la misma amplitud denotando por i la amplitud
de los intervalos se usa:
EJEMPLO: Los datos siguientes corresponden a los salarios mensuales (en miles de pesos) que
reciben los empleados de la Empresa Constructora “SCOLA E HIJOS” en el presente año.
345 300 270 400 450 375 300 310 350 285
400 420 440 455 370 350 350 290 310 270
550 480 475 500 460 490 385 370 370 290
550 475 450 500 350 370 400 425 370 310
480 440 550 500 490 360 320 275 355 450
430 360 350 280 350 390 410 440 390 300
SOLUCION
550−270+1
i= =40,14
7
Asumiremos amplitud igual a 40, así los intervalos de clase nos quedan como sigue, con sus
respectivas frecuencias absolutas asociadas
f
510-----550 3
470-----510 9
430-----470 9
390-----430 8
350-----390 16
310-----350 5
270-----310 10
Orientada la tabla de abajo hacia arriba del menor salario al mayor salario se tiene entonces que el
primer intervalo es entre 270 y 310, el segundo intervalo esta entre 310 y 350, y así sucesivamente
hasta llegar al último intervalo que sería el séptimo entre 510 y 550.
Hacemos notar que los intervalos descritos son semiabiertos cerrados por izquierda y abiertos por
derecha exceptuando el ultimo intervalo el cual es cerrado.
Nótese que la suma total de las frecuencias absolutas debe coincidir con el número de empleados
en este estudio es decir en este caso 60.
k
∑ f j=n
j=1
fj
h j=
n
Asi la tabla de distribución de frecuencia incluyendo la frecuencia relativa nos queda:
f h
510-----550 3 0,05
470-----510 9 0,15
430-----470 9 0,15
390-----430 8 0,13
350-----390 16 0,26
310-----350 5 0,08
270-----310 10 0,17
h5 =0,15 esto es el 15% de los trabajadores reciben mensualmente entre $430000 y $470000
FRECUENCIA ACUMULADA
Se denota por F y se construye realizando las sumas acumulativas de las frecuencias absolutas así:
F j=f 1 +f 2+ …+f j
F 4=10+5+ 16+8=39
Fj
H j=
n
EJEMPLO: Determine e Interprete la Frecuencia acumulada relativa al tercer intervalo
31
H 3= =0,516
60
Esto es el 51,6% de los trabajadores de la construcción reciben una renta mensual inferior a los
$350000.
MARCA DE CLASE
LI j + L . S j
x j= siendo L . I j y L . S j los limites inferior y superior del intervalo j-esimo
2
La marca de clase de un determinado intervalo ha de actuar como el representante de ese
intervalo.
310+350
x 2= =330 y se interpreta como que 5 trabajadores en la constructora reciben una renta
2
mensual de $330000.
f h F H x
510---550 3 0,05 60 1 530
470---510 9 0,15 57 0,95 490
430---470 9 0,15 48 0,80 450
390---430 8 0,13 39 0,65 410
350---390 16 0,27 31 0,52 370
310---350 5 0,08 15 0,25 330
270---310 10 0,17 10 0,17 290
Otra forma de presentar la información aparte de las tablas ya comentadas es de manera grafica,
analizaremos los gráficos siguientes: el Histograma, el Pictograma ,la ojiva y la ojiva porcentual
EL HISTOGRAMA
NOTA: En el grafico anterior si en vez de considerar en el eje vertical las frecuencias absolutas se
ubican las frecuencias relativas el grafico es conocido como Histograma de frecuencias relativas.
Este es un gráfico de línea, donde primeramente se ubican puntos en el plano XY, tantos como
intervalos hallan. Cada uno de estos puntos relaciona la marca de clase con la frecuencia absoluta
en cada intervalo, además se agregan dos puntos más para que tal grafico quede cerrado,
relacionando el primer punto como la marca de clase anterior al primer intervalo con frecuencia
absoluta cero, y el último punto, la marca de clase después del último intervalo con frecuencia
absoluta cero. Estos puntos finalmente se unen mediante trazos rectilíneos.
NOTA: En el pictograma si en vez de usar las frecuencias absolutas se usaran las frecuencias
relativas el grafico es conocido como Pictograma de frecuencias relativas o polígono de
frecuencias relativas.
LA OJIVA
Este es un gráfico de línea creciente, para ello en el plano XY se ubican puntos tantos como
intervalos hallan. Estos puntos conectan los limites reales superiores, con las Frecuencias
acumuladas respectivas en cada intervalo, se agrega un punto adicional que relaciona en el eje
horizontal el límite real inferior asociado al primer intervalo , con la frecuencia acumulada cero
esto es para que el grafico comience desde el eje X, una vez ubicados estos puntos ellos se unen
por segmentos rectilíneos.
NOTA: Si en el gráfico de la ojiva en vez de ubicar en el eje vertical las Frecuencias acumuladas se
usaran las Frecuencias acumuladas relativas el grafico es llamado La Ojiva Porcentual
El grafico de la ojiva porcentual es muy interesante pues relaciona puntajes (en el eje horizontal)
con porcentajes (en el eje vertical)
n∙x
(
P x =L. R . I +
100
−F a
f )
∙i
n ∙ x 60∙ 40
= =24
100 100
Este es un numero ordinal, buscamos en la tabla aquel dato que ocupa la posición veinte y cuatro
avo, el cual se encuentra en el tercer intervalo entre 350 y 390, es decir el Percentil 40 se
encuentra en el intervalo entre 350 y 390.Luego en la formula se tiene:
P40=350+ ( 24−15
16 )
∙ 40=372,5
Esto es el 40% de los trabajadores de la Constructora reciben un salario mensual inferior a los
$372500.
RANGO PERCENTIL
También se puede fijar cualquier puntaje en la tabla y buscar su porcentaje asociado esto se
conoce como hallar el Rango Percentil de un dato cualquiera que esté en la tabla el cual se denota
como R.P y se encuentra usando la formula
x−L . R . I 100
( (
R . P (x)= F a+
i ) )
∙f ∙
n
480−470 100
R . P ( 480 )= 48+
( ( 40
∙9 ∙ ) )
60
=83,75
b) Se verán beneficiados en esta Empresa con un bono adicional todos aquellos trabajadores que
tengan sueldo mensual inferior a los $ 360000. ¿Cuántos empleados aproximadamente serán
beneficiados? Justifique.
SOLUCION: a) Se debe calcular un Percentil, en este caso se debe calcular el Percentil 80 dado que
me entregara un salario tal que el 80% cae bajo el y por ende el 20% sobre el
80∙ 60
P80=L . R . I + (
100
f
−F a
∙i=430+ )
48−39
9 (
∙ 40=470 )
Son despedidos aquellos que ganen $ 470000 o más.
360−350 100
( (
R . P ( 360 ) = 15+
40
∙ 16 ∙ ) )
60
=31,67
31,67∙ 60
=19,002
100
Es decir, aproximadamente 19 trabajadores se ven favorecidos
MODA
f i−f i−1
^x =L . R . I + ∙i
f i−f i−1+ f i−f i+1
Lo primero es determinar lo que llamaremos el intervalo modal, este será aquel intervalo que este
asociado a la mas alta frecuencia. Una vez determinado este en la formula
x̌=P50
LA MEDIA ARITMETICA
f 1 x 1+ f 2 x 2 +…+ f k x k
x́=
f 1 + f 2+ …+ f k
Usando el símbolo de sumatoria se tiene que:
k
∑ f j xj
x́= j=1
n
siendo f j =frecuencia absoluta del j−esimo intervalo
En miles de pesos f F x fx
510-----550 3 60 530 1590
470-----510 9 57 490 4410
430-----470 9 48 450 4050
390-----430 8 39 410 3280
350-----390 16 31 370 5920
310-----350 5 15 330 1650
270-----310 10 10 290 2900
Total 60 23800
A) Para la moda se tiene que el intervalo modal es el tercero entre 350 y 390 pues tiene asociada
la frecuencia absoluta más alta, donde se tiene que;
60
Obtenemos primero =30. Determinamos ahora el intervalo que contiene al dato que ocupa la
2
posición 30 resultando este ser el tercer intervalo aquel comprendido entre 350 y 390.
x̌=350+ ( 30−15
16 )
∙ 40=387,5
∑ f j x = 23800 =396,667
j=1 j
60
EL RANGO
Se define el Rango en datos agrupados (en tabla) como la diferencia entre las marcas de clases del
ultimo y el primer intervalo
LA VARIANZA
f 1 ∙ ( x 1− x́ )2 + f 2 ∙ ( x 2−x́ )2 +…+ f k ∙ ( x k − x́ )2
2
σx =
n
k
∑ f j ∙ ( x j −x́ ) 2
Usando Sumatorias se tiene :σ x 2= j=1
n
k
∑ f j ∙ x j2
Tambien se puede usar la formula:σ x 2= j=1 −x́ 2
n
LA DESVIACION STANDARD
SOLUCION
x f f∙x x2 f ∙ x2
530 3 1590 280900 842700
490 9 4410 240100 2160900
450 9 4050 202500 1822500
410 8 3280 168100 1344800
370 16 5920 136900 2190400
330 5 1650 108900 544500
290 10 2900 84100 841000
TOTAL 60 23800 9746800
9746800 23800 2
La Varianza: σ x 2=
60
− (
60 )
=162447−157344=5103