Está en la página 1de 12

Matemticas Est. Bsc.

(Mat-010)
UNIVERSIDAD SANTO TOMS Profesor: Carlos Quispe O.
Marzo 2016

Estadstica Descriptiva

Unidad de Estadstica Descriptiva

I. Introduccin a la ciencia estadstica. (Conceptos bsicos y definiciones).

II. Distribuciones de frecuencias.

III. Medidas de tendencia. (Media o promedio aritmtico, moda, mediana, percentiles).

IV. Medidas de dispersin.

I. Conceptos bsicos.

Poblacin: Es el conjunto de elementos, individuos o entes, que poseen una o ms caractersticas en

comn que son de inters para la investigacin. Por ejemplo: Cantidad de familias que poseen conexin

a internet, alumnos con promedio mayor a 6.0, pertenecientes a un liceo municipal, asistentes a un

partido de futbol profesional, etc.

Variable: Es una caracterstica que se asocia a los elementos de una muestra o poblacin, sta puede

ser medida u observada. Existen dos categoras o tipo de variables:

1 Variable cualitativa: Es aquella que toma valores de opciones, conceptos o categoras, por

ejemplo: rendimiento, nacionalidad, color de piel, gnero, etc., stas se dividen en:

1 Ordinales: Son aquellas que sugieren un orden, por ejemplo: nivel de estudio, lugar de

premiacin, etc.

2 Nominales: Son aquellas que se expresan por medio del nombre del atributo en estudio, por

ejemplo: color de pelo, preferencias musicales, rendimiento, etc.

2 Variable cuantitativa: Es aquella que podemos expresar numricamente: edad, peso, nmero de

hijos, etc. A su vez la podemos subdividir en:


1 Variable discreta: Es aquella que puede tomar a lo sumo un nmero finito de valores. Ejemplos:

nmero de hijos por familia, nmero de obreros por fbrica, nmero de alumnos de las

universidades estatales, etc.

2 Variable continua: Es aquella que puede tomar los infinitos valores de un intervalo. En muchas

ocasiones la diferencia es ms terica que prctica, ya que los instrumentos de medida

dificultan que puedan existir todos los valores del intervalo. Ejemplos, peso, estatura, distancia

recorrida por un mvil, etc.

La variable se denota por una letra mayscula X. A su vez cada una de estas variables puede tomar

distintos valores, denotados por x1, x2,...xi,..xk

3 Muestra: Conjunto de elementos que forman parte de poblacin. En general la muestra debera ser

representativa de la poblacin.

4 Tamao muestral: Es el nmero total de elementos que conforman la muestra. Se denota por n.

5 Dato: Valor numrico o cualitativo de la variable observada en cada elemento de la muestra o

poblacin.
II. Distribuciones de frecuencias.

Frecuencia absoluta: Nmero de veces que se repite una valor cualitativo o cuantitativo de la variable.

fi
Se representa por .

Por ejemplo: Los siguientes datos corresponden a las notas obtenidas por un curso de 24 alumnos en

un trabajo de matemtica, pertenecientes al Liceo Instituto Comercial Arica.

3,2 4,2 5,6 6,0 2,8 3,9 4,2 4,2 5,0 5,0 3,9 3,9
3,2 3,2 4,2 5,6 6,0 6,0 3,2 6,0 4,2 5,0 5,6 5,0

Cantidad
Notas de
alumnos
xi fi
2,8 1
3,2 4
3,9 3
4,2 5
5,0 5
5,6 2
6,0 4
n = 24

Interpretacin de la segunda frecuencia absoluta

f 2 4 : 4 Alumnos de un curso del Liceo Instituto Comercial Arica obtuvieron una nota 3,2 en el trabajo de matemtica.

Frecuencia relativa: Es la frecuencia absoluta dividida por el nmero total de datos (n), se suele expresar en porcentajes,

siendo su valor i-simo.

fi
hi
n

La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad.
Por ejemplo:

Cantidad de
alumnos Frecuencia
Notas Relativa
xi fi hi
2,8 1 0,041
3,2 4 0,167
3,9 3 0,125
4,2 5 0,208
5,0 4 0,167
5,6 3 0,125
6,0 4 0,167
n = 24 1

Interpretacin de la cuarta frecuencia relativa

h4 20,8 : El 20,8% de los alumnos de un curso del Liceo Instituto Comercial Arica obtendran una nota 4,2 en el trabajo

de matemtica.

Frecuencia absoluta acumulada: Es la suma acumulada de los distintos valores de la frecuencia absoluta. La ltima

frecuencia absoluta acumulada es igual al tamao de la muestra n.

F1 f1

F2 f1 f 2

Fk f1 f 2 f k 1 f k n

Por ejemplo:

Cantidad
Cantidad de Frecuenci acumulada de
Notas alumnos a Relativa alumnos
xi fi hi Fi
2,8 1 0,041 1
3,2 4 0,167 5
3,9 3 0,125 8
4,2 5 0,208 13
5,0 4 0,167 17
5,6 3 0,125 20
6,0 4 0,167 24
n = 24 1

Interpretacin de la tercera frecuencia absoluta acumulada.

F3 8
: Hay 8 alumnos de un curso del Liceo Instituto Comercial Arica que obtienen un: 2,8, 3,2 3,9 como nota en un

trabajo de matemtica.

Frecuencia relativa acumulada: Es el resultado de dividir cada frecuencia absoluta acumulada por el nmero total de

Hi
datos, se la suele representar con la notacin: , o puede ser definido a partir de la frecuencia relativa, como suma de los

distintos valores de la frecuencia relativa, tomando como referencia un individuo dado. La ltima frecuencia relativa

acumulada es igual a la unidad.

Por ejemplo:

Cantidad Cantidad Frecuencia


de Frecuenci acumulada de Relativa
Notas alumnos a Relativa alumnos Acumulada

xi fi hi Fi Hi
2,8 1 0,041 1 0,041
3,2 4 0,167 5 0,208
3,9 3 0,125 8 0,303
4,2 5 0,208 13 0,541
5,0 4 0,167 17 0,708
5,6 3 0,125 20 0,833
6,0 4 0,167 24 1
n = 24 1

Interpretacin de la quinta frecuencia relativa acumulada

H 5 70,8
: El 70,8% de los alumnos de un curso del Liceo Instituto Comercial Arica obtendran un: 2,8, 3,2, 3,9, 4,2 5,0

como nota en un trabajo de matemtica.


Tabla de frecuencias con intervalos: Cuando nos encontramos con una distribucin con un gran nmero de observaciones

de una variable, se suelen agrupar estas observaciones en intervalos, para facilitar la descripcin e interpretacin de la

informacin obtenida. Esta prctica tiene un inconveniente: se pierde informacin sobre la propia distribucin.

El proceso utilizado es el siguiente:

1. Se obtiene la cantidad de intervalos a travs de:

Cantidad intervalo es determinada por: n k


x mayor x menor
a
2. La amplitud del intervalo es determinada por: k

x mayor xmenor
Donde se le denomina el rango.

3. Se comienza la tabla con el intervalo con


L0 , L1 tal que :

L0 xmenor y L1 xmenor a

En general se sigue con


Li1 , Li donde
Li 1
al extremo inferior del intervalo y
Li
al extremo superior. Cerramos el intervalo

por la derecha y abrimos por la izquierda. El ltimo intervalo ser:

Lk 1 , Lk

4. Se debe incorporar a esta tabla la marca de clase


M C , que es el punto medio del intervalo, definido como la semisuma
de los valores extremos del intervalo, es decir, se suman los extremos y se dividen por dos.

Li 1 Li
MC
2
Ejemplo:

Se desea saber el rendimiento del 4 Ao Medio E del Liceo Instituto Comercial Arica en la asignatura de Matemtica durante

el primer semestre. La muestra est constituida por 40 datos, los cuales corresponden al promedio final de cada alumno.
Datos obtenidos de la muestra

3,9 4,7 3,7 5,6 4,3 4,9 5,0 6,1 5,1 4,5
5,3 3,9 4,3 5,0 6,0 4,7 5,1 4,2 4,4 5,8
3,3 4,3 4,1 5,8 4,4 4,8 6,1 4,3 5,3 4,5
4,0 5,4 3,9 4,7 3,3 4,5 4,7 4,2 4,5 4,8

Responder las siguientes preguntas:

a) Qu tipo de variable es?

b) Qu problema plantea la construccin de la tabla de frecuencias?

c) Cuntos alumnos tienen un promedio entre 3,3 y 3,8?

d) Cuntos alumnos tienen un promedio superior a 5,6?

e) Qu porcentaje de alumnos del curso obtuvieron un promedio entre 4,7 y 5,6?

Solucin:

a) Es una variable continua.

b) El problema que plantea es que existen muchos valores diferentes, por tanto es bueno agrupar la serie en intervalos.

k = 40 = 6,32 6 intervalos

x mayor x menor 6,1 3,3


a 0,4 6 0,5
k 6
Rendimiento durante el primer semestre en la Asignatura de Matemtica del 4 Ao E del Liceo Instituto
Comercial Arica
Promedio M Alumnos Cantidad Proporcin Proporcin de
C
xi fi acumulada de de alumnos alumnos
alumnos h acumulados
i
Fi Hi

3,3 - 3,8 3,6 3 3 0,075 0,075


3,8 - 4,3 4,1 8 11 0,2 0,275
4,3 - 4,8 4,6 14 25 0,35 0,625
4,8 - 5,3 5,1 6 31 0,15 0,775
5,3 - 5,8 5,6 4 35 0,1 0,875
5,8 - 6,3 6,1 5 40 0,125 1
n=40 1

c) 3 Alumnos
d) 5 Alumnos

e) 0,15 0,1 0,25 0,25 100 25%

III. Medidas de posicin

Las medidas de posicin facilitan informacin sobre la serie de datos que se analiza. Estas medidas permiten conocer

diversas caractersticas la serie de datos.

Las medidas de posicin son de dos tipos:

a) Medidas de tendencia central: informan sobre los valores medios de la serie de datos.

b) Medidas de tendencia no centrales: informan de como se distribuye el resto de los valores de la serie.

a) Medidas de tendencia central

Las principales medidas de posicin central son las siguientes:

1.- Media aritmtica o promedio aritmtico: se calcula multiplicando cada valor por el nmero de veces que se repite. La

suma de todos estos productos se divide por el total de datos de la muestra:

x
x1 f 1 x 2 f 2 x3 f 3 x n 1 f n 1 x n f n
n

Lo ms positivo de la media es que en su clculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna

informacin.

Sin embargo, presenta el problema, ya que su valor se puede ver muy influido por valores extremos, que se aparten en

exceso del resto de la serie.

Estos valores anmalos podran condicionar en gran medida el valor de la media, perdiendo sta representatividad.
2.- Mediana: es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50% de valores son

inferiores y otro 50% son superiores).

No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su clculo toda la

informacin de la serie de datos (no pondera cada valor por el nmero de veces que se ha repetido).

3.- Moda: Se define como el valor de la variable que se presenta con mayor frecuencia absoluta, es decir, el valor que ms

se repite en la muestra.

b) Medidas de tendencia no central

Las medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que no son los valores

centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales:

Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos

iguales, en los que cada uno de ellos concentra el 1% de los resultados.

Cuartiles (C1 , C2 , C3): son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en

cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.

Quintiles (Q1 , Q2 , Q3 , Q4): son 5 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente,

en cinco tramos iguales, en los que cada uno de ellos concentra el 20% de los resultados.

Deciles (D1 , D2 , D3 , D4 . D9): son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o

decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.

Observacin: Como la mediana deja 50% de valores por debajo de ella y 50% de valores por sobre ella, se puede concluir

P50
que la mediana es igual al percentil cincuenta
IV. Medidas de dispersin

Estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o menos concentrados, o ms o

menos dispersos.

Existen diversas medidas de dispersin, entre las ms utilizadas podemos destacar las siguientes:

1.- Rango: Mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado y el valor ms

bajo.

2.- Varianza: Mide la distancia existente entre los valores de la serie y la media aritmtica. Se calcula como la suma de las

diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor. La

suma obtenida se divide por el tamao de la muestra menos 1.

(x i x)2 fi
s2 i 1

n 1

La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie

alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn.

3.- Desviacin tpica: Puede ser interpretada como la distancia promedio de los datos de la variable con respecto a su

media aritmtica. Se calcula como la raz cuadrada de la varianza.


4.- Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin tpica y la media. Se expresa en

porcentaje.

Medidas de dispersin para Datos no agrupados

n n

( xi x ) 2 (x i x )2
s i 1
s2 i 1
n n Varianza Desviacin tpica o estndar

Medidas de dispersin para Datos agrupados

(x i x )2 fi
s2 i 1
n Varianza para datos tabulados Desviacin tpica o estndar para datos

tabulados

(x i x )2 fi
s i 1
n
Varianza para datos agrupados por intervalos Desviacin tpica o estndar para datos agrupados por intervalos

n n

(M C x )2 fi (M C x )2 fi
s2 i 1
s i 1

n n

n n

xi x fi x x i
Dx i 1
Dx i 1
n n Desviacin media para datos no agrupados Desviacin media

para datos agrupados

También podría gustarte