Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(Mat-010)
UNIVERSIDAD SANTO TOMS Profesor: Carlos Quispe O.
Marzo 2016
Estadstica Descriptiva
I. Conceptos bsicos.
comn que son de inters para la investigacin. Por ejemplo: Cantidad de familias que poseen conexin
a internet, alumnos con promedio mayor a 6.0, pertenecientes a un liceo municipal, asistentes a un
Variable: Es una caracterstica que se asocia a los elementos de una muestra o poblacin, sta puede
1 Variable cualitativa: Es aquella que toma valores de opciones, conceptos o categoras, por
ejemplo: rendimiento, nacionalidad, color de piel, gnero, etc., stas se dividen en:
1 Ordinales: Son aquellas que sugieren un orden, por ejemplo: nivel de estudio, lugar de
premiacin, etc.
2 Nominales: Son aquellas que se expresan por medio del nombre del atributo en estudio, por
2 Variable cuantitativa: Es aquella que podemos expresar numricamente: edad, peso, nmero de
nmero de hijos por familia, nmero de obreros por fbrica, nmero de alumnos de las
2 Variable continua: Es aquella que puede tomar los infinitos valores de un intervalo. En muchas
dificultan que puedan existir todos los valores del intervalo. Ejemplos, peso, estatura, distancia
La variable se denota por una letra mayscula X. A su vez cada una de estas variables puede tomar
3 Muestra: Conjunto de elementos que forman parte de poblacin. En general la muestra debera ser
representativa de la poblacin.
4 Tamao muestral: Es el nmero total de elementos que conforman la muestra. Se denota por n.
poblacin.
II. Distribuciones de frecuencias.
Frecuencia absoluta: Nmero de veces que se repite una valor cualitativo o cuantitativo de la variable.
fi
Se representa por .
Por ejemplo: Los siguientes datos corresponden a las notas obtenidas por un curso de 24 alumnos en
3,2 4,2 5,6 6,0 2,8 3,9 4,2 4,2 5,0 5,0 3,9 3,9
3,2 3,2 4,2 5,6 6,0 6,0 3,2 6,0 4,2 5,0 5,6 5,0
Cantidad
Notas de
alumnos
xi fi
2,8 1
3,2 4
3,9 3
4,2 5
5,0 5
5,6 2
6,0 4
n = 24
f 2 4 : 4 Alumnos de un curso del Liceo Instituto Comercial Arica obtuvieron una nota 3,2 en el trabajo de matemtica.
Frecuencia relativa: Es la frecuencia absoluta dividida por el nmero total de datos (n), se suele expresar en porcentajes,
fi
hi
n
La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad.
Por ejemplo:
Cantidad de
alumnos Frecuencia
Notas Relativa
xi fi hi
2,8 1 0,041
3,2 4 0,167
3,9 3 0,125
4,2 5 0,208
5,0 4 0,167
5,6 3 0,125
6,0 4 0,167
n = 24 1
h4 20,8 : El 20,8% de los alumnos de un curso del Liceo Instituto Comercial Arica obtendran una nota 4,2 en el trabajo
de matemtica.
Frecuencia absoluta acumulada: Es la suma acumulada de los distintos valores de la frecuencia absoluta. La ltima
F1 f1
F2 f1 f 2
Fk f1 f 2 f k 1 f k n
Por ejemplo:
Cantidad
Cantidad de Frecuenci acumulada de
Notas alumnos a Relativa alumnos
xi fi hi Fi
2,8 1 0,041 1
3,2 4 0,167 5
3,9 3 0,125 8
4,2 5 0,208 13
5,0 4 0,167 17
5,6 3 0,125 20
6,0 4 0,167 24
n = 24 1
F3 8
: Hay 8 alumnos de un curso del Liceo Instituto Comercial Arica que obtienen un: 2,8, 3,2 3,9 como nota en un
trabajo de matemtica.
Frecuencia relativa acumulada: Es el resultado de dividir cada frecuencia absoluta acumulada por el nmero total de
Hi
datos, se la suele representar con la notacin: , o puede ser definido a partir de la frecuencia relativa, como suma de los
distintos valores de la frecuencia relativa, tomando como referencia un individuo dado. La ltima frecuencia relativa
Por ejemplo:
xi fi hi Fi Hi
2,8 1 0,041 1 0,041
3,2 4 0,167 5 0,208
3,9 3 0,125 8 0,303
4,2 5 0,208 13 0,541
5,0 4 0,167 17 0,708
5,6 3 0,125 20 0,833
6,0 4 0,167 24 1
n = 24 1
H 5 70,8
: El 70,8% de los alumnos de un curso del Liceo Instituto Comercial Arica obtendran un: 2,8, 3,2, 3,9, 4,2 5,0
de una variable, se suelen agrupar estas observaciones en intervalos, para facilitar la descripcin e interpretacin de la
informacin obtenida. Esta prctica tiene un inconveniente: se pierde informacin sobre la propia distribucin.
x mayor xmenor
Donde se le denomina el rango.
L0 xmenor y L1 xmenor a
Lk 1 , Lk
Li 1 Li
MC
2
Ejemplo:
Se desea saber el rendimiento del 4 Ao Medio E del Liceo Instituto Comercial Arica en la asignatura de Matemtica durante
el primer semestre. La muestra est constituida por 40 datos, los cuales corresponden al promedio final de cada alumno.
Datos obtenidos de la muestra
3,9 4,7 3,7 5,6 4,3 4,9 5,0 6,1 5,1 4,5
5,3 3,9 4,3 5,0 6,0 4,7 5,1 4,2 4,4 5,8
3,3 4,3 4,1 5,8 4,4 4,8 6,1 4,3 5,3 4,5
4,0 5,4 3,9 4,7 3,3 4,5 4,7 4,2 4,5 4,8
Solucin:
b) El problema que plantea es que existen muchos valores diferentes, por tanto es bueno agrupar la serie en intervalos.
k = 40 = 6,32 6 intervalos
c) 3 Alumnos
d) 5 Alumnos
Las medidas de posicin facilitan informacin sobre la serie de datos que se analiza. Estas medidas permiten conocer
a) Medidas de tendencia central: informan sobre los valores medios de la serie de datos.
b) Medidas de tendencia no centrales: informan de como se distribuye el resto de los valores de la serie.
1.- Media aritmtica o promedio aritmtico: se calcula multiplicando cada valor por el nmero de veces que se repite. La
x
x1 f 1 x 2 f 2 x3 f 3 x n 1 f n 1 x n f n
n
Lo ms positivo de la media es que en su clculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna
informacin.
Sin embargo, presenta el problema, ya que su valor se puede ver muy influido por valores extremos, que se aparten en
Estos valores anmalos podran condicionar en gran medida el valor de la media, perdiendo sta representatividad.
2.- Mediana: es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50% de valores son
No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su clculo toda la
informacin de la serie de datos (no pondera cada valor por el nmero de veces que se ha repetido).
3.- Moda: Se define como el valor de la variable que se presenta con mayor frecuencia absoluta, es decir, el valor que ms
se repite en la muestra.
Las medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que no son los valores
centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales:
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos
Cuartiles (C1 , C2 , C3): son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
Quintiles (Q1 , Q2 , Q3 , Q4): son 5 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente,
en cinco tramos iguales, en los que cada uno de ellos concentra el 20% de los resultados.
Deciles (D1 , D2 , D3 , D4 . D9): son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
Observacin: Como la mediana deja 50% de valores por debajo de ella y 50% de valores por sobre ella, se puede concluir
P50
que la mediana es igual al percentil cincuenta
IV. Medidas de dispersin
Estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o menos concentrados, o ms o
menos dispersos.
Existen diversas medidas de dispersin, entre las ms utilizadas podemos destacar las siguientes:
1.- Rango: Mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado y el valor ms
bajo.
2.- Varianza: Mide la distancia existente entre los valores de la serie y la media aritmtica. Se calcula como la suma de las
diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor. La
(x i x)2 fi
s2 i 1
n 1
La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie
alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn.
3.- Desviacin tpica: Puede ser interpretada como la distancia promedio de los datos de la variable con respecto a su
porcentaje.
n n
( xi x ) 2 (x i x )2
s i 1
s2 i 1
n n Varianza Desviacin tpica o estndar
(x i x )2 fi
s2 i 1
n Varianza para datos tabulados Desviacin tpica o estndar para datos
tabulados
(x i x )2 fi
s i 1
n
Varianza para datos agrupados por intervalos Desviacin tpica o estndar para datos agrupados por intervalos
n n
(M C x )2 fi (M C x )2 fi
s2 i 1
s i 1
n n
n n
xi x fi x x i
Dx i 1
Dx i 1
n n Desviacin media para datos no agrupados Desviacin media