Está en la página 1de 53

ESTADISTICA DESCRIPTIVA

MATEMATICA II.
CTEDRA SANTA MARIA

La Estadstica tiene por objeto recolectar, organizar, resumir,
presentar y analizar datos relativos a un conjunto de objetos,
personas, procesos, etc.
A travs de la cuantificacin y el ordenamiento de los datos
intenta explicar los fenmenos observados, por lo que resulta una
herramienta de suma utilidad para la toma de decisiones

Definicin de Estadstica
CONCEPTOS BSICOS

Poblacin o Universo:

Es el total del conjunto de elementos u objetos de los cuales se quiere obtener
informacin.
La poblacin debe estar perfectamente definida en el tiempo y en el espacio,
de modo que ante la presencia de un potencial integrante de la misma, se pueda
decidir si forma parte o no de la poblacin bajo estudio.
El tamao de una poblacin viene dado por la cantidad de elementos que la
componen.

Unidad de anlisis:

Es el objeto del cual se desea obtener informacin. Muchas veces nos referimos a
las unidades de anlisis con el nombre de elementos.
Muestra:

Es un subconjunto de unidades de
anlisis de una poblacin dada,
destinado a suministrar informacin
sobre la poblacin. Para que este
subconjunto de unidades de anlisis sea
de utilidad estadstica, deben reunirse
ciertos requisitos en la seleccin de los
elementos.
La muestra debe ser representativa, en
el sentido de que las conclusiones
obtenidas deben servir para el total de
la poblacin.
VARIABLE
Es la cualidad o
cantidad medible que
se estudia de las
unidades de anlisis y
que varan de una
unidad a otra. Por
ejemplo: edad, ingreso
de un individuo, sexo,
cantidad de lluvia
cada, etc.
Variables
cuantitativas:
Se expresan
numricamente
(temperatura, salario,
nmero de goles en
un partido). Las
variables cuantitativas
segn el tipo de
valores que pueda
tomar pueden ser
discretas o continuas.
Variables discretas:
Son el resultado de contar
y slo toman valores
enteros (nmero de hijos).

Variables continuas:
Son el resultado de
mediciones, (temperatura,
peso, altura). Se pueden
subdividir a voluntad.
Pueden tomar, entonces,
cualquier valor de un
determinado intervalo.
Variables
cualitativas:
La caracterstica que
miden de la unidad de
anlisis es una cualidad.
Aquellas que no aparecen
en forma numrica, sino
como categoras o
atributos (sexo, profesin,
color de ojos).
TIPOS DE ESTADSTICA
Estadstica Descriptiva:

Se refiere a la recoleccin, presentacin, descripcin, anlisis e
interpretacin de una coleccin de datos, esencialmente
consiste en resumir stos con uno o dos elementos de
informacin (medidas descriptivas) que caracterizan la
totalidad de los mismos.
La estadstica Descriptiva es el mtodo que permite obtener
de un conjunto de datos conclusiones sobre si mismos y no
sobrepasan el conocimiento proporcionado por stos. Puede
utilizarse para resumir o describir cualquier conjunto ya sea que
se trate de una poblacin o de una muestra.
Se refiere al proceso de lograr generalizaciones acerca de las propiedades de la
poblacin, partiendo de lo especfico, muestra. Para que stas generalizaciones
sean vlidas la muestra deben ser representativa de la poblacin y la calidad de
la informacin debe ser controlada, adems puesto que las conclusiones as
extradas estn sujetas a errores, se tendr que especificar el riesgo o
probabilidad que con que se pueden cometer esos errores. La estadstica
Inferencial es el conjunto de tcnicas que se utiliza para obtener conclusiones
que sobrepasan los lmites del conocimiento aportado por los datos, busca
obtener informacin de un colectivo mediante un metdico procedimiento del
manejo de datos de la muestra.

Estadstica Inferencial

Presentacin de los datos

VARIABLE CUANTITATIVA
Los datos son colecciones de un nmero cualquiera de
observaciones relacionadas entre si, para que sean tiles se deben
organizar de manera que faciliten su anlisis, se puedan seleccionar
tendencias, describir relaciones, determinar causas y efectos que
permitan llegar a conclusiones lgicas y tomar decisiones bien
fundamentadas; por esa razn es necesario conocer lo mtodos de
Organizacin y Representacin, la finalidad de stos mtodos es
permitir ver rpidamente todas las caractersticas posibles de los
datos que se han recolectado.
TABLAS DE FRECUENCIAS:

Una forma de presentar ordenadamente un grupo de
observaciones, es a travs
de tablas de distribucin de frecuencias. La estructura de estas
tablas depende de
la cantidad y tipo de variables que se estn analizando, siendo
las ms simples las
que se refieren a una variable.
Nombre de la
variable
Frecuencia
Categoras o
Recorrido de la
variable
Frecuencias
Observadas
TOTAL n


Es la cantidad de veces que se repite un valor particular de la variable.
La suma de las frecuencias absolutas simples debe ser igual a la cantidad de
valores observados



Frecuencia
Absoluta
f
i
Es el cociente entre la frecuencia absoluta y el total de observaciones

Frecuencia
Relativa
r
i



Se obtiene sumando los valores de las frecuencias simples hasta un cierto
valor de la variable.
Frecuencia
Absoluta
Acumulada
F
i

Se obtiene sumando los valores de las frecuencias relativas simples hasta un
cierto valor de la variable.
Frecuencia
Relativa
Acumulada
R
i

=
=
k
i
i
f n
1
f
i
r
i
n
=
A)TABLA DE FRECUENCIA: DATOS SIN
AGRUPAR
Ejemplo:
Los siguientes datos corresponden a las notas obtenidas por un curso
de 24 alumnos en un examen de Matemtica II:

3,2 4,2 5,6 6,0 2,8 3,9 4,2 4,2 5,0
5,0 3,9 3,9 3,2 3,2 4,2 5,6 6,0 6,0
3,2 6,0 4,2 5,0 5,6 5,0

Nota Frecuencia
Absoluta
Frecuencia
Absoluta
Acumulada
Frecuencia
Relativa
Frecuencia Relativa
Acumulada

2,8 1 1 0,04167 0,04167
3,2 4 5 0,16667 0,20834
3,9 3 8 0,12500 0,33334
4,2 5 13 0,20833 0,54167
5,0 4 17 0,16667 0,70834
5,6 3 20 0,12500 0,83334
6,0 4 24 0,16666 1,00
24
Se resume la informacin en la siguiente tabla de frecuencia.
De esta tabla se pueden sacar conclusiones como:
4 alumnos obtuvieron nota 5,0
8 alumnos obtuvieron nota inferior a 4,0
El 16,67 % de los alumnos obtuvo nota 5,0
El 54,167% obtuvo nota 4.2 o inferior a sta, mientras que el
45,833 % obtuvo una nota superior a 4,2

Esta informacin tambin puede ser representada en forma grfica
como se muestra a continuacin:
REPRESENTACIN GRFICA:
Para representar grficamente una distribucin de frecuencias absolutas
se utiliza un par de ejes coordenados. En el eje de las abscisas se
representar la variable estudiada y en el eje de las ordenadas, las
correspondientes frecuencias.
Para representar grficamente una distribucin de frecuencias absolutas
acumuladas se utiliza tambin un par de ejes de coordenados. En el eje
de las abscisas se representar la variable estudiada y en el eje de las
ordenadas, las correspondientes frecuencias acumuladas, empleando un
grafico escalonado.
Grfico de Bastones
( Frecuencia absoluta)
0
1
2
3
4
5
6
2.8 3.2 3.9 4.2 5 5.6 6


En el grfico se observa la distribucin de las notas del
examen, y que la calificacin ms alta es la nota 4,2 que
coinciden con la frecuencia ms alta de la tabla.

En el ejemplo se puede observar que se representan
los 24 valores que toman las notas. La frecuencia ms
baja de alumnos la alcanza la nota 2,8.


Grfico Escalonado
(Frecuencia Acumulada)
B ) Datos agrupados por intervalo de clase
Clases o intervalos de clase:


) |
s i
L L ;
Grupo de valores que describen una caracterstica. Deben incluir todas
las observaciones de la variable dentro de sus lmites, por convencin
se incluye el limite inferior y se excluye el superior, es decir cada
intervalo de clase corresponde a un intervalo semiabierto por derecha.
Cada uno de los intervalos deben ser mutuamente excluyentes
Tomemos por ejemplo la siguiente distribucin por intervalos de clase
correspondiente al volumen de ingresos (en millones de pesos) de 50 empresas
constructoras en agosto del ao 2011.

Nmero de clases
Es el nmero total de grupos en que se clasifica
la informacin, se recomienda que no sea menor
que 5 ni mayor que 15
Marca de clases
Amplitud del Intervalo
2
. inf sup Lim Lim
x
+
=
'
. inf sup Lim Lim Amplitud =
Intervalos de
clase
4555 6
5565 10
6575 19
7585 11
8595 4
n 50
i
f
Histograma
Esta formado por rectngulos cuya base es la amplitud del intervalo y tiene la
caracterstica que la superficie que corresponde a las barras es representativa de la
cantidad de casos o frecuencia de cada tramo de valores
Polgono de Frecuencias
Se puede obtener uniendo cada punto medio (marca de clase) de los rectngulos del
histograma con lneas rectas, teniendo cuidado de agregar al inicio y al final marcas de
clase adicionales, con el objeto de asegurar la igualdad del reas.
Ojivas
La ojiva representa grficamente la forma en que se acumulan los datos y permiten ver
cuantas observaciones se hallan por arriba o debajo de ciertos valores.
REPRESENTACIN GRFICA
HISTOGRAMA
Medidas descriptivas
Medidas de Posicin
Medidas de Dispersin
MEDIDA DE TENDENCIA
CENTRAL
Media Aritmtica
Mediana
Modo
Para datos agrupados por tablas de frecuencias, la frmula correspondiente es:

Para datos agrupados con intervalos de clase, la frmula correspondiente es:

Media Aritmtica
.
( )
var
i i
i i
x f
x Datos muestrales
n
f frecuencia absoluta del valor de iable x
=

( )
.
( )
:
int
int
i i
i
i
x f
x Datos muestrales
n
Aclaracin
x es el punto medio de cada ervalo marca de clase
f es la frecuencia de cada ervalo
'
=
'

Media Aritmtica
La nota promedio es de 3,815 puntos.
Nota Frecuencia
Absoluta
2,8 1
3,2 4
3,9 3
4,2 5
5,0 4
5,6 3
6,0 4
24
Media Aritmtica
El volumen de ingreso promedio en pesos durante el mes
de agosto del 2011 fue de $69,4
.
3470
69, 4
50
i i
x f
x
n
'
= = =

Intervalos de clase
4555 6 50 300
5565 10 60 600
6575 19 70 1330
7585 11 80 880
8595 4 90 360
n 50 3470
i
f
i
x'
i i
f x - '
Propiedades de la media aritmtica:

Una serie de datos solo tiene una media.
Todos los valores son incluidos en el clculo de la media.
Es una medida muy til para comparar dos o ms poblaciones.
Es la nica medida de tendencia central donde la suma de las
desviaciones de cada valor respecto a la media es igual a cero. Por
lo tanto, podemos considerar a la media como el punto de balance
de una serie de datos.

Desventajas de la media aritmtica:
Si alguno de los valores es extremadamente grande o
extremadamente pequeo, la media no es el promedio
apropiado para representar la serie de datos.

No se puede determinar si en una distribucin de
frecuencias hay intervalos de clase abiertos.
Mediana (Me):

Se define como el valor que deja igual nmero de observaciones a
su izquierda que a su derecha, es decir, divide al conjunto de datos
en dos partes iguales.
No le afectan las observaciones extremas.
Si los datos no estn tabulados la mediana se determina, ordenando
las observaciones de menor a mayor y determinando el valor
central.
Si la cantidad de datos es impar, la mediana se representa
justamente por ese valor. En cambio, si la cantidad es par, la mediana
es el promedio de los datos centrales.

Para datos agrupados por tablas de frecuencias

Para datos agrupados con intervalos de clase, la formula correspondiente es:

Mediana
La mediana es el valor de variable hasta donde se acumula el 50%
de las observaciones.
Donde L
i
es el lmite inferior del intervalo
que contiene al 50% de las observaciones
a es el ancho del intervalo
F
ant
es la frecuencia acumulada del intervalo
anterior al que contiene el 50% de las
observaciones.
f es la frecuencia absoluta del intervalo que
contiene al 50% de las observaciones.
2
ant
i
n
F
Me L a
f
(

(
= +
(
(

Para datos agrupados por tablas de frecuencias
Mediana
La ubicacin de la mediana se encuentra
en :

(Me)= n/2

Entonces (Me)=24/ 2= 12 por lo tanto
el valor de la mediana coincide con la
observacin 12

Me = 4,2 puntos

Nota
Frecuencia
Absoluta
Frecuencia
Absoluta
Acumulada
2,8 1 1
3,2 4 5
3,9 3 8
4,2 5 13
5,0 4 17
5,6 3 20
6,0 4 24
24

Para datos agrupados con intervalos de clase, la formula correspondiente es:

Mediana
Para calcular la mediana primero hay que
determinar el 50% de la observaciones:
50% de n
50% de 50=25

Intervalos de clase
4555 6 6
5565 10 16
6575 19 35
7585 11 46
8595 4 50
n 50
i
f
i
F
50
16
2 2
65 10 69, 74
19
ant
i
n
F
Me L a
f
( (

( (
= + = + =
( (
( (

Modo (Mo):

Es el valor de la variable que ms veces se repite, es decir, aquella
cuya frecuencia absoluta es mayor. Puede haber ms de una moda
en una distribucin.
Para datos agrupados por tablas de frecuencias

Para datos agrupados con intervalos de clase, la formula correspondiente es:

Modo
Donde L
i
es el limite inferior del intervalo de
mayor frecuencia.(intervalo modal)
a es el ancho del intervalo
d
1
es la diferencia entre la frecuencia absoluta
del intervalo modal y la frecuencia absoluta
del intervalo anterior
d
2
es la diferencia entre la frecuencia absoluta
del intervalo modal y la frecuencia absoluta
del intervalo posterior
Para datos agrupados por tablas de frecuencias, el modo es el valor de variable de
mayor frecuencia
1
1 2
.
o i
d
M L a
d d
(
= +
(
+

Para datos agrupados por tablas de frecuencias
Modo
El modo corresponde al valor de variable
de mayor frecuencia.


Mo = 4,2 puntos



Por lo tanto la nota que se da con mayor
frecuencia es 4,2 puntos

Nota
Frecuencia
Absoluta
2,8 1
3,2 4
3,9 3
4,2 5
5,0 4
5,6 3
6,0 4
24

Para datos agrupados con intervalos de clase, la formula
correspondiente es:

Modo
Intervalos de clase
4555 6
5565 10
6575 19
7585 11
8595 4
n 50
i
f
1
1 2
9
. 65 10. 70, 29
9 8
o i
d
M L a
d d
(
(
= + = + =
(
(
+ +


El volumen de ingreso en pesos durante el mes de agosto del
2011 de mayor frecuencia fue $70,29
MEDIDA DE TENDENCIA
NO CENTRAL

Fractiles
Fractiles

Son valores que dividen a la distribucin en n partes iguales :

Cuartiles, cuatro partes iguales: Q
1
, Q
2
, Q
3

Deciles, diez pares iguales: D
1
, D
2
..........D
9

Percentiles, cien partes iguales: P
1
, P
2
.....P
99


Para datos agrupados con intervalos de clase, la formula correspondiente al
percentil k es:



Donde L
i
es el lmite inferior del intervalo que contiene al k% de las
observaciones
a es el ancho del intervalo
F
ant
es la frecuencia acumulada del intervalo anterior al que contiene al k%
de las observaciones.
f es la frecuencia absoluta del intervalo que contiene al k% de las
observaciones.
.
100
ant
k i
k n
F
P L a
f
(

(
= +
(
(

Cul es el ingreso por venta del 30% de la empresas que menos ingreso tienen?
Intervalos de clase
4555 6 6
5565 10 16
6575 19 35
7585 11 46
8595 4 50
n 50
i
f
i
F
30 3
. 30.50
6
100 100
65 10 64
10
ant
k n
F
P D Li a
f
( (

( (
= = + = + - =
( (
( (

El ingreso por venta del 30% de la empresas que menos ingreso tienen es de $64
Vtas en miles de $ f
400-500 4
500-600 8
600-700 30
700-800 15
800-900 5
Los siguientes datos corresponden a las ventas (en miles
de $) de un producto masivo de 20 aos en el mercado.
a) Analice la siguiente afirmacin: El monto de ventas
ms frecuente es mayor que el monto del 50% de las
ventas de mayores montos.
b) La empresa est evaluando la posibilidad de realizar
eventos para promocionar la venta del producto
considerndolo necesario si el monto de venta del 45%
de las de mayor monto es menor a $620. Qu decisin
deber tomar la empresa?
Los siguientes datos corresponden a las alturas en cm. de un
grupo de atletas de una institucin deportiva

Cul es la altura ms frecuente?
Cul es la altura promedio promedio?
Cul es la altura no superada por el 12 % de los atletas?
Calcular el porcentaje de atletas que miden como mnimo 170
cm.
Altura en cm. 160-164 164-168 168-172 172-176 176-180 180-184
N Atletas 2 7 9 13 3 1
MEDIDAS DE DISPERSIN
Rango
Varianza
Desvo Entandar
Coeficiente de Variacin
Rango o amplitud:
Es la diferencia entre el mayor y el menor valor de la
variable.
Si se tienen intervalos de clase, es la diferencia entre el lmite
superior de la ltima clase y el lmite inferior de la primera.









Varianza:
Es la suma de los cuadrados de las desviaciones de los valores de la
variable con respecto a la media aritmtica, dividida el nmero de
observaciones.
Para datos agrupados por
tablas de frecuencias
Para datos agrupados por
intervalos de clase
( )
2
2
1
i
i
x x
n
o =

n
f x x
i
i i

=
. ) (
2
2
o
n
f x x
i
i i

=
. ) (
2
|
2
o
Desvo o desviacin estndar
Es la raz cuadrada de la varianza. Es una medida de dispersin
absoluta. Cuanto mayor es su valor, mayores son las diferencias de
las observaciones con respecto a la media.





2
o o =
Una desviacin estndar grande indica que los puntos estn lejos
de la media.
Una desviacin pequea indica que los datos estn agrupados
cerca de la media.
Coeficiente de Variacin
Es el cociente entre el desvo estndar y la
media aritmtica. Se lo expresa como
porcentaje, para lo cual se lo multiplica por
100.

Criterio de homogeneidad:
Si el coeficiente de variacin es menor o igual al 20% se considera que la
distribucin de los datos es homognea, y si es mayor al 20%, no lo ser.
100
x
CV
o
=
Intervalos de
clase
4555 6 50 2258,16
5565 10 60 883,6
6575 19 70 6,84
7585 11 80 1235,96
8595 4 90 1697,44
n 50 6082
i
f
i
x' ( )
i i
f x x - '
2
95 45 50 R Vmx Vmn = = =
Rango
Varianza
( )
2
2
'
6082
124,12
1 49
x x fi
s
n

= = =

Coeficiente de Variacin
Desvo Estndar
2
124,12 11,141 s s = + = + =
11,141
100 100 0,16 100 16%
69, 4
s
CV
x
= - = - = - =
Interpretaciones
El rango de variacin en los ingresos es de $50.
La dispersin respecto del promedio es de $11,141.
La media es representativa del conjunto de datos ya que el
CV es menor al 20% , por lo tanto los datos son
homogneos.

Uno de los principales factores que repercuten en el costo
cuando se adquiere una vivienda es el de los pagos mensuales
del prstamo. Un banco analiza la posibilidad de ofrecer
prstamos para la adquisicin de viviendas. Antes de tomar una
decisin final, seleccionar una muestra de 590 prstamos
recientes, con sus pagos mensuales correspondientes.

PAGO MENSUAL N DE PROPIETARIOS

0 - 500 5
500 - 1000 120
1000 - 1500 185
1500 - 2000 142
2000 - 2500 68
2500 - 3000 43
3000 - 3500 12
3500 - 4000 15

a) El pago mximo del 65% de los propietarios que menos
pagan es superior al pago ms frecuente?