Está en la página 1de 43

1

ESTADSTICA
DESCRIPTIVA
E INFERENCIAL
Ing. Pedro Lpez Eiro


soportedelconocimiento.blogspot.mx
origensobrehumano.blogspot.mx
ciudadanosdelreinodeloscielos.blogspot.mx
2
La estadstica se ocupa de los
mtodos cientficos para : recolectar
, organizar , resumir , presentar y
analizar datos ; as como de sacar
conclusiones vlidas y tomar
decisiones con base a este anlisis
Murray R. Spiegel & Larry J. Stephens
Qu es la estadstica ?
3
No existe actividad humana donde no se involucre :

Uso de la estadstica
Personalmente : comparacin de alternativas ,
evaluacin de servicios , ingresos vs. Pagos, etc.
Cotidianamente : Censos , indices de precios ,
ajustes de tarifas , frecuencia de enfermedades,
preferencia de candidatos polticos.
Empresarialmente : control de proceso y calidad ,
evaluacin de productividad, estudios de costos,
nivel de satisfaccin de clientes , proyectos de
inversin,etc.
4
Importancia de la estadstica
De qu sirve tener datos si no son representativos?
Qu pasa si tomo decisiones con informacin incorrecta?
Es bueno suponer informacin para su anlisis?
Hay una forma objetiva de mejorar una situacin o proceso?
Hay una forma clara de reducir riesgos y tener certidumbre ?
Puedo controlar variables sin tener su medicin?
Si podemos observar y recolectar informacin precisa y
relevante , para organizarla de la mejor forma y analizarla de
tal forma que nos permita tener un panorama completo de la
situacin u objeto de estudio estamos entonces haciendo
Estadstica .
5
El empleo correcto de la estadstica nos permite :

Ventajas de la estadstica
Visualizacin de los datos
Medicin de las variables
Apoyo en las decisiones
Reduccin de riesgos
Organizacin de informacin
Certeza
Reconocimiento
de alternativas
Aceptacin de soluciones
Eliminacin de incertidumbre
Integracin de comunicacin
Optimizacin de uso de tiempo
Mejora de la eleccin
Eficacia de manejo de
informacin
Estmulo enfocado a resultados
Documentacin de procesos y
decisiones
Visualizacin y control de
tendencias
Toma de decisiones racional y
objetiva
6
Definiciones bsicas
Habitantes de una ciudad.
Televisores fabricados en una factora.
Alumnos de primero de bachillerato.
Color del pelo: negro, castao, rubio o pelirrojo
Sexo: hombre o mujer
Miembros asalariados de una familia: 0, 1 , 2 , 3 ,4 ,
Alturas de alumnos:178, 169, 172, 183,
Variable estadstica : Cada uno de los rasgos o
caractersticas que se quiere estudiar de los elementos de
la poblacin, susceptible o no de medida.
Poblacin: Conjunto de elementos que se quiere estudiar.
Muestra: Cualquier subconjunto de una poblacin. El
nmero de elementos de una muestra se llama tamao.
7
Definiciones bsicas
Es sinnimo de unidad bsica o ltima del muestreo
Ingreso promedio de los trabajadores
Frecuencia de venta de productos
Estadstico : Es una medida descriptiva de una muestra
Individuo: Cada uno de los elementos que componen una
poblacin y/o muestra .
Carcter : Propiedad o cualidad que presentan los
elementos de una poblacin que se desea estudiar .
Cualitativo cuando no puede medirse numricamente
Cuantitativo cuando puede medirse numricamente (Variable)
8
Tipos de Estadstica
Trata del recuento, ordenacin y clasificacin de
los datos obtenidos de las observaciones:
Construccin de tablas, grficos y clculo de parmetros.
La Estadstica descriptiva o deductiva:
La Estadstica inferencial o inductiva:
Utiliza los resultados de la estadstica
descriptiva y se apoya en el clculo de
probabilidades para la obtencin de
conclusiones sobre una poblacin a partir de los
resultados obtenidos de una muestra.
9
Variables cualitativas y cuantitativas

vas Cuantitati
as Cualitativ
Variables

Continuas
Discretas
(Cualidades ,
categoras o
atributos)
(Aquellas
medibles
numricamente)
Nmero de hijos
Pginas de un libro
Edad
Peso
Talla
Tiempo
(Unidades
completas )
(Cualquier
valor en un
rango)
Ordinales
Nominales
Escalas
Etapas
Colores
Lugares
Profesiones
10
Dicotmicas: Slo hay dos categora, que son
excluyentes una de la otra
Ejemplo: enfermo-sano, muerto-vivo, mujer-hombre

Nominal: tiene mas de dos categoras y no hay orden
entre ellas.
Ejemplo: color de los ojos, grupo sanguneo

Ordinal: tiene varias categoras y hay orden entre
ellas.
Ejemplo: grado tumoral, calificacin del riesgo en
anestesia.

Tipos de Variables Cualitativas
11
Continuas: nmeros infinito no numerables de
elementos. Tiene asociado el concepto de
medida, en unidades a veces fraccionarias.
Ejemplo: Presin arterial, Edad, peso.

Discretas: nmeros finitos o infinitos
numerables de elementos. Se asocia con el
concepto de conteo.
Ejemplo: N de hijos, N de casos de
tuberculosis por estado.
Tipos de Variables Cuantitativas
12
Presentaciones estadsticas y
representaciones grficas
Forma sencilla y clara de agrupar la informacin
Pueden ser sencillas o complejas segn la cantidad de datos
Es importante el manejo lgico de la disposicin
Tablas:
Grficos:
Son los mtodos empleados para organizar y presentar las
observaciones , con el objeto de mostrar la mxima
informacin con una rpida visualizacin , manejo de
esttica y sencillz operativa . Pueden ser de dos tipos:
Permiten visualizar la informacin y sus relaciones
Es una forma ilustrativa y clara de los datos
Es una forma creativa y artstica de presentacin
13
Variables : Representacin Tabular
VENTAS MENSUALES POR ZONA
Fecha de
Venta
Volumen
Ventas
Norte
Volmen
Ventas
Centro
Volmen
Ventas Sur
Volmen
Ventas
Forneo
Total
%
Mensual
Enero $8,691.89 $19,156.00 $57,793.83 $28,688.78 $114,330.50 18.7%
Febrero $1,617.88 $1,076.03 $19,437.13 $19,321.98 $41,453.02 6.8%
Marzo $1,223.00 $6,677.00 $33,278.32 $20,249.31 $61,427.63 10.1%
Abril $9,645.62 $0.00 $21,343.71 $14,846.76 $45,836.09 7.5%
Mayo $1,051.57 $4,354.00 $19,174.22 $16,886.01 $41,465.80 6.8%
Junio $4,387.45 $0.00 $20,529.59 $22,709.82 $47,626.86 7.8%
Julio $3,362.64 $8,899.00 $26,405.06 $21,065.89 $59,732.59 9.8%
Agosto $0.00 $0.00 $0.00 $0.00 $0.00 0.0%
Septiembre $1,681.32 $1,036.16 $26,598.83 $30,541.29 $59,857.60 9.8%
Octubre $7,132.00 $0.00 $25,738.73 $21,813.00 $54,683.73 9.0%
Noviembre $1,051.57 $2,345.00 $18,477.38 $22,846.24 $44,720.19 7.3%
Diciembre $2,334.00 $6,487.00 $14,802.09 $15,639.72 $39,262.81 6.4%
Total $42,178.94 $50,030.19 $283,578.89 $234,608.80 $610,396.82
% por Zona 6.9% 8.2% 46.5% 38.4%
14
Variables cualitativas:
Representacin grfica
Sabores de refrescos preferidos por 50 personas
Clases Frecuencias Frecuencias
Refrescos absolutas: fi relativas: hi
Naranja 18 0,36
Limn 12 0,24
Pia 10 0,20
Manzana 10 0,20
Sumas 50 1
Sabores de refescos
0
2
4
6
8
10
12
14
16
18
20
Naranja Limn Pia Manzana
F
r
e
c
u
e
n
c
i
a
s
Naranja
36%
Limn
24%
Pia
20%
Manzana
20%
Naranja
Limn
Pia
Manzana
15
Variables cuantitativas:
Representacin grfica
Frecuencia por Volmen de Ventas
$-
$10,000
$20,000
$30,000
$40,000
$50,000
$60,000
$70,000
$80,000
1
,
0
0
0



a



1
,
9
9
9
2
,
0
0
0



a



2
,
9
9
9
3
,
0
0
0



a



3
,
9
9
9
4
,
0
0
0



a


4
,
9
9
9
5
,
0
0
0



a



5
,
9
9
9
6
,
0
0
0



a



6
,
9
9
9
7
,
0
0
0



a



7
,
9
9
9
8
,
0
0
0



a



8
,
9
9
9
9
,
0
0
0



a



9
,
9
9
9
1
0
,
0
0
0


a


1
0
,
9
9
9
Volmen de Ventas
V
e
n
t
a

T
o
t
a
l
$0.00
$20,000.00
$40,000.00
$60,000.00
$80,000.00
$100,000.00
$120,000.00
Venta
E
n
e
r
o
F
e
b
r
e
r
o
M
a
r
z
o
A
b
r
il
M
a
y
o
J
u
n
io
J
u
lio
A
g
o
s
to
S
e
p
tie
m
b
r
e
O
c
tu
b
r
e
N
o
v
ie
m
b
r
e
D
ic
ie
m
b
r
e
Mes
Ventas Mensuales por Zona
Norte Centro Sur Forneo
Comparativo ventas Josefina vs. Juan
$0
$10,000
$20,000
$30,000
$40,000
$50,000
$60,000
E
n
e
r
o
F
e
b
r
e
r
o
M
a
r
z
o
A
b
r
i
l
M
a
y
o
J
u
n
i
o
J
u
l
i
o
A
g
o
s
t
o
S
e
p
t
i
e
m
b
r
e
O
c
t
u
b
r
e
N
o
v
i
e
m
b
r
e
D
i
c
i
e
m
b
r
e
Mes
V
e
n
t
a
Josefina Romero Garca Juan Rodrguez Maldonado
16
Las descripciones numricas de datos son
importantes. Dado un conjunto de n
observaciones :

La estadstica descriptiva nos ayuda
mediante el manejo de medidas de
tendencia central relativas a la posicin
de los datos y medidas de dispersin
relativas a la variabilidad de los datos.

n
x x x ,....., ,
2 1
Diferentes tipos de medidas
17
Las medidas descriptivas ms comunes de
tendencia central o posicin son: la media
aritmtica y la mediana

Existen otras medidas de tendencia central
que en ocasiones pueden resultar de inters
tales como : la moda, los cuartiles, los
deciles, los percentiles, la media armnica,
la media geomtrica y la media ponderada.
Medidas de Tendencia Central
18
Media Aritmtica
La media aritmtica es simplemente el
promedio (tambin llamada media muestral
ya que generalmente se calcula en relacin a
una muestra).
Se calcula de la siguiente forma: si las
observaciones de una muestra de tamao n
son x
1
, x
2
,,x
n
entonces:


n
x
n
x x x
X
n
i
i
n

=
=
+ + +
=
1
2 1
...
19
Ventajas :
Fcil de calcular e interpretar.
En su clculo intervienen todos los datos disponibles.
Su valor es nico para una serie de datos.
Es el punto de equilibrio de la informacin.

Desventajas :
No es representativa con pocos datos
Se ve afectada por el grado de dispersin
Es poco til con datos muy heterogneos
No todos los valores contribuyen de igual forma ,los
mayores tienen ms peso

Caractersticas de la media
20
La mediana se suele definir como el valor
ms intermedio o central una vez que los
datos han sido ordenados en forma creciente.
Se suele denotar por Me. La forma ms
general de calcular la mediana es la siguiente:


( ) ( )
( ) ( )
1 2
2 ( 2) 1
2
n
n n
x si n es impar
Me
x x
si n es par
+
+

=

+

Mediana
21
Ventajas :
Valor nico que no se ve afectado por los extremos por ser
equidistante de ellos.
Se localiza a la mitad de los datos , dejando el 50 % por arriba y
el 50 % por debajo de su valor.
Es menos sensible a las variaciones de los datos.
No se ve afectada por la dispersin de los datos.

Desventajas :
No se emplea para hacer clculos
Utiliza muy poca informacin de los datos
Cuanto ms grande es la serie de datos , ms complicado se
vuelve su determinacin.

Caractersticas de la mediana
22
La moda de un conjunto de observaciones es el
valor que ms se repite, aquel cuya frecuencia
absoluta es mxima.
Puede ser nica, que haya ms de una, o que
no exista.
Cuando hay ms de una , la distribucin de los
datos se denomina acorde : bimodal , trimodal,
polimodal, etc.
Moda
23
Nos brindan una idea muy clara de la posicin de los
parmetros dentro de una distribucin de datos.
Uso de : Media , Mediana y Moda
La media tiene el uso ms frecuente y sencillo ,
tales como : talla media del mexicano,
temperatura histrica promedio , etc.
La mediana es representativa en poblaciones
heterogneas , tales como : distribucin de
salarios , peso medio, etc.
La moda literalmente tiene que ver con estar de
moda o lo que ms se lleva , tal como: nmero de
individuos por casa en Mxico, cantidad de
usuarios de ciertos equipos celulares , etc.


24
La forma de distribucin de las observaciones puede variar ,
causando desviaciones de estas mediciones centrales , por eso
es conveniente el empleo conjunto de la media y la mediana en
una poblacin o muestra.
Relacin entre : Media,Mediana y Moda
La media se usa para distribuciones simtricas que
no tienen sesgo , mientras que la mediana es ms
representativa cuando se tienen datos de
distribucin sesgada.
25
Las medidas descriptivas ms comunes de
dispersin son: el rango, la varianza y la
desviacin estndar .

Existen otras medidas de dispersin que en
ocasiones pueden resultar de inters tales
como : rango semi-intercuartilar , rango
percentilar y coeficiente de variacin.

Medidas de Dispersin
26
Rango
El rango de la muestra es la medida de
variabilidad ms sencilla entre todas las
mencionadas
Como valor se define como la diferencia entre la
observacin ms grande y la ms pequea :



Indica el ancho, recorrido o amplitud de valores .
Tiene como sus lmites el valor mayor y el menor
en la distribucin de datos.


min max
x x r =
27
Ventajas :
Fcil de determinar e interpretar.
Nos indica los lmites de nuestra informacin.
Nos permite visualizar la amplitud de dispersin
de los valores de forma sencilla.

Desventajas :
Ignora toda la informacin de la muestra
No mide el grado de dispersin , solo su ancho
No nos da una idea detallada de la informacin
de las observaciones.


Caractersticas del rango
28
Varianza
Es una medida significativa de la dispersin de
las observaciones alrededor de la media.
Se define como el promedio de las desviaciones
respecto a su media , elevadas al cuadrado :
n
x x
s
n
i
i
=

=
1
2
2
) (
n
x x
s
n
i
i
=

=
1
2
2
) (
29
Ventajas :
Fcil de calcular mediante su frmula.
Indica el grado y forma de dispersin de los
datos con respecto a la media.
Depende de todas las mediciones.

Desventajas :
Es imprctica por ser un trmino cuadrtico de
poco sentido en la realidad.
Es un nmero muy grande de referencia
matemtica , pero sin valor concreto y de difcil
manejo comparativo.


Caractersticas de la Varianza
30
Desviacin estndar
Es una medida significativa de la dispersin de
las observaciones alrededor de la media.
Se define como la raz cuadrada del promedio de
las desviaciones respecto a su media , elevadas al
cuadrado ; es decir la raz cuadrada de la
varianza :
n
x x
n
i
i
=

=
1
2
) (
o
31
Ventajas :
Fcil de calcular mediante su frmula y particularmente en
hojas de clculo como Excel que lo hacen de forma
automtica.
Indica el grado y forma de dispersin de los datos con
respecto a la media.
Depende de todas las mediciones.
Muy prctica por usar los mismos valores de las unidades
que se analizan.
Un valor grande indica que los datos se alejan mucho de la
media y un valor pequeo indica que se acercan a la media.

Desventajas :
Si hacemos el clculo manual , es complicado.

Caractersticas de la Desviacin Estndar
32
Las medidas centrales solo nos indican el valor medio
alrededor del cual se agrupan nuestros datos , pero
las de dispersin nos detallan la variacin de las
observaciones en cuanto a forma y extensin.

Nos muestran claramente la distancia entre los
datos y la media aritmtica, adems de que
dependen de todas las observaciones.

Son nicas de una serie de datos y por eso se
denominan absolutas , pero pierden sentido de
comparacin , para lo cual hay que usar el
coeficiente de variacin (desviacin estndar sobre
la media en porcentaje) .

Utilidad de las medidas de dispersin
33
Las medidas de distribucin nos permiten
identificar la forma en que se separan o
aglomeran los valores de acuerdo a su
representacin grfica. Son : la simetra y la
curtosis.

Estas medidas describen la manera como los
datos tienden a reunirse de acuerdo con la
frecuencia con que se hallen dentro de la
informacin.

Su utilidad radica en la posibilidad de
identificar las caractersticas de la
distribucin sin necesidad de generar el
grfico.
Medidas de Distribucin
34
Si los valores de la serie de datos presentan
la misma tendencia (forma) a izquierda y
derecha de un valor central como la media
aritmtica, se dice que es simtrica de lo
contrario ser asimtrica.
Para medir el nivel de asimetra se utiliza el
llamado Coeficiente de Asimetra de Fisher,
que viene definido:

3
1
3
1
) ( )( / 1 (
s
x x n
g
n
i
i
=

=
Simetra y Asimetra
35
g
1
< 0 (distribucin asimtrica
negativa; existe mayor
concentracin de valores a la
izquierda de la media que a su
derecha)

g
1
= 0 (distribucin simtrica;
existe la misma concentracin de
valores a la derecha y a la
izquierda de la media)

g
1
> 0 (distribucin asimtrica
positiva; existe mayor
concentracin de valores a la
derecha de la media que a su
izquierda)
Simetra y Asimetra
Los resultados pueden ser los siguientes:
36
El Coeficiente de Curtosis analiza el grado de
concentracin que presentan los valores
alrededor de la zona central de la distribucin.

Se calcula con la siguiente frmula :



Los resultados pueden ser :
g2 = 0 (distribucin mesocrtica).
g2 > 0 (distribucin leptocrtica).
g2 < 0 (distribucin platicrtica).
Curtosis
3
) ( )( / 1 (
4
1
4
2

=

=
s
x x n
g
n
i
i
37
Existen 3 tipos de distribuciones segn su grado
de curtosis se observar de la siguiente forma :
Curtosis
38
Distribucin mesocrtica: presenta un grado de
concentracin medio alrededor de los valores
centrales de la variable (el mismo que presenta
una distribucin normal).

Distribucin leptocrtica: presenta un elevado
grado de concentracin alrededor de los valores
centrales de la variable.

Distribucin platicrtica: presenta un reducido
grado de concentracin alrededor de los valores
centrales de la variable.
Tipos de Curtosis
39
Ejemplo prctico de Alfredo Casas
Se tiene informacin del consumo promedio de agua de
los huspedes de un hotel segn la temporada :
MES
CONSUMO($)
PROMEDIO
POR HUESPED
ENERO 30
FEBRERO 45
MARZO 50
ABRIL 58
MAYO 65
JUNIO 110
JULIO 100
AGOSTO 120
SEPTIEMBRE 50
OCTUBRE 60
NOVIEMBRE 45
DICIEMBRE 35
TOTAL 768
40
Ejemplo prctico de Alfredo Casas
Ordenando los datos y con base
a las frmulas y funciones de la
hoja de Excel obtenemos los
siguientes resultados de las
medidas centrales y de
dispersin :
CONSUMO PROMEDIO
POR HUESPED
MES
30 ENERO
35 DICIEMBRE
45 FEBRERO
45 NOVIEMBRE
50 MARZO
50 SEPTIEMBRE
58 ABRIL
60 OCTUBRE
65 MAYO
100 JULIO
110 JUNIO
120 AGOSTO
768 TOTAL
Media : 64
Mediana : 54
Moda : 45
Rango : 30 120
Varianza : 809.33
Desviacin Estndar : 28.45
Simetra : 0.98
Curtosis : -0.32
41
Ejemplo prctico de Alfredo Casas
Interpretacin :
Cada huesped consume $ 64 en promedio por mes
Los datos NO son simtricos , se desplazan ligeramente
hacia la derecha con un sesgo positivo , solo con ver que la
mediana es inferior a la media.
Aunque la frmula solo indica un dato de moda, tenemos dos
nmeros que se repiten dos veces : 45 y 50 , por lo que la
distribucin es de tipo bimodal.
El rango de consumo es de 90 unidades , entre el lmite
inferior de 30 y el superior de 120
La desviacin estndar no es grande comparativamente ,
lo que indica que los datos no se alejan tanto de la media.
El valor de simetra g
1
> 0 , nos indica una distribucin
asimtrica positiva porque existe mayor concentracin de
valores a la derecha de la media que a su izquierda.
En cuanto a la curtosis con valor de de -0.32 (g2 < 0 ) nos
confirma una distribucin platicrtica porque presenta un
reducido grado de concentracin alrededor de los
valores centrales de la variable.



42
Grfico del ejemplo de Alfredo
DISPERSION DE CONSUMO
0
20
40
60
80
100
120
140
1 2 3 4 5 6 7 8 9 10 11 12
MES
M
O
N
T
O

C
O
N
S
U
M
I
D
O
CONSUMO PROMEDIO POR HUESPED
Polinmica (CONSUMO PROMEDIO POR HUESPED)
Media
Mediana
Moda
R
a
n
g
o

D
e
s
v
i
a
c
i

n

E
s
t

n
d
a
r

43
BIBLIOGRAFA
1) Spiegel, Murray R. y Stephens, Larry J. (2001).
Estadstica serie Schaum. Mxico: McGraw-Hill, pp. 1
124
2) Domnguez, Jorge. (2009). Estadstica y probabilidad. El
Mundo de los datos y el azar. Mxico: Oxford University
Press. Unidad 3: Resumen y organizacin de datos, pp. 76
a 129.