Está en la página 1de 89

Se refiere a un conjunto de mtodos para

manejar la obtencin, presentacin y anlisis


de observaciones numricas.
Sus fines son describir al conjunto de datos
obtenidos y tomar decisiones o realizar
generalizaciones acerca de las caractersticas
de todas las observaciones bajo
consideracin.
Estadstica Descriptiva (Deductiva): es la
encargada de la organizacin,
condensacin, presentacin de los
datos en tablas y grficos y del clculo
de medidas numricas que permitan
estudiar los aspectos ms importantes
de los datos.
DESCRIBIR
Estadstica Inferencial o Inferencia
Estadstica: est definida por un
conjunto de tcnicas, mediante las
cuales se hacen generalizaciones o se
toman decisiones en base a informacin
parcial obtenida mediante tcnicas
descriptivas.
INFERIR
El uso de la Estadstica es muy amplio. Resulta
difcil nombrar un rea en la cual no se emplee.
Los mtodos estadsticos han encontrado
aplicacin en:
Gobierno
Negocios
Ciencias Sociales
Ingeniera
Ciencias Fsica y Naturales
Control de Calidad
Procesos de Manufactura
Muchos otros campos de la actividad intelectual.
Esto se debe a la creciente facilidad con
la cual se pueden manejar grandes
cantidades de datos numricos, debido
al uso de
Poblacin: es la coleccin de todas las
posibles mediciones u observaciones
que pueden hacerse de una variable
bajo estudio.
Se clasifica en dos categoras:
Finita: es aquella que incluye una cantidad limitada
contable de observaciones, individuos o medidas.
Siempre que sea posible alcanzar (contar) el
nmero total de todas las posibles mediciones, se
considera como finita la poblacin.

Infinita: es aquella que incluye un gran conjunto de
observaciones o mediciones que no pueden
alcanzarse por conteo. Al menos, hipotticamente,
no existe lmite en cuanto al nmero de
observaciones que el experimento puede generar.
Muestra:
es un conjunto de mediciones u
observaciones tomadas a partir de una
poblacin.
es un subconjunto de la poblacin.
Muestra aleatoria: se considera aleatoria
siempre y cuando cada observacin, medicin
o individuo de la poblacin tenga la misma
probabilidad de ser seleccionado.
Variables:
son las caractersticas o lo que se estudia de cada
individuo de la muestra. Ej: sexo, edad, peso,
estatura, color de ojos, estado civil, temperatura,
cantidad de nacimientos, presin, grosor, dimetro,
...
Datos:
son los valores que toma la variable en cada caso.
Cualitativos: son datos que solo toman valores
asociados a las cualidades o atributos,
clasificndolos en una de varias categoras, es
decir, no son valores numricos. Ej:
Sexo: f/m.
Hbito de fumar: Fumador/No fumador
Color de ojos: negro, azul, marrn,
Religin: catlica, evanglica,
Estado civil: soltero, casado, divorciado,
Cuantitativos: provienen de variables que pueden
medirse, cuantificarse o expresarse
numricamente. Ejemplos:
Peso
Edad
Estatura
Presin
Humedad
Intensidad de un sismo
Cantidad de hermanos
Tipos de variables cuantitativas:
Discretas: es aquella que solo puede tomar un
nmero finito o infinito numerable de valores.
Ejemplo: cantidad de hermanos.
Continuas: es la variable que puede tomar cualquier
valor en una escala continua. Ejemplo: cantidad de
lquido contenido en un recipiente.
Escala Nominal.
Escala Ordinal.
Escala de Intervalos.
Escala de Razn o Proporcin.
Escala Absoluta.

Variables Cualitativas
Variables
Cuantitativas
Escala nominal: los datos se pueden
agrupar en categoras que no
mantienen una relacin de orden entre
si, por lo tanto no estn definidas las
operaciones lgicas (>, <, s, >) sino
solo las de igualdad o diferencia.
Ejemplos: color de ojos, sexo,
profesin, estado civil, religin.
Escala ordinal: existe un cierto orden o
jerarqua entre las categoras (>, <, s, >).
Ejemplos: grados militares, organigrama de
una empresa, escalafn de los profesores
universitarios, grados de disnea, estadiaje de
un tumor.
Escala de Intervalos: valores numricos de
las variables y adems de las relaciones de
orden (>, <, s, >), se pueden establecer
distancias, es decir, tienen sentido las
operaciones de suma y resta. Tiene dos
propiedades:
Existe una unidad de medida que se mantiene
constante para todos los valores que toma la
variable.
Existe un valor patrn u origen relativo que no
significa la ausencia de valor en la variable.
Ejemplo: temperatura, nivel de ruido,
movimientos ssmicos.
Escala de razn o proporcin: es la ms
completa y general de todas las escalas.
Se caracteriza porque los valores de la
variable son nmeros entre los cuales,
adems de las relaciones de orden (>, <,
s, >) y distancia (+,-), se pueden
establecer mltiplos y proporciones.
Ejemplos: peso, altura, volumen
Escala Absoluta: se caracteriza porque los
valores que toma la variable son el resultado
de contar y por lo tanto, est constituida por
los enteros positivos y el cero.
Ejemplos: nmero de hermanos, cantidad de
autos vendidos, cantidad de accidentes en
una interseccin, cantidad de hijos,
Univariantes o unidimensionales: slo
recogen informacin sobre una caracterstica
(Ej: edad de los alumnos de una clase).
Bivariantes o bidimensionales: recogen
informacin sobre dos caractersticas de la
poblacin. (Ej: edad y estatura de los alumnos
de una clase).
Multivariantes o pluridimensionales: recogen
informacin sobre tres ms caractersticas.
(Ej: edad, estatura y peso de los alumnos de
una clase).
Conclusiones errneas debido a que los
datos son numricamente insuficientes.
Representaciones grficas engaosas
(escalas).
Datos muestrales no representativos:
Muestra que no incluye a elementos de toda la
poblacin.
Ciertas categoras de personas no responden
correctamente.
Respuestas voluntarias (sesgadas).
Una vez que se ha
realizado la
recoleccin de los
datos, se obtienen
datos en bruto, los
cuales rara vez son
significativos sin
una organizacin y
tabulacin.
Formas de organizar los datos:
Un arreglo: es la forma ms sencilla de organizar
los datos en bruto, consiste en colocar las
observaciones en orden segn su magnitud:
ascendente o descendente.
Poco prctica cuando se tiene una gran cantidad
de datos.
Una distribucin de frecuencias: es un
arreglo de los datos que permite expresar la
frecuencia de ocurrencias de las
observaciones en cada una de las clases,
mostrando el patrn de la distribucin de
manera ms significativa.

Clase Pto.
Medio
f
i
F
a
fr
i
FR
a
%
i

%
a

La Distribucin de Frecuencias:
Se recomienda su uso cuando se tienen
grandes cantidades de datos (n).
Su construccin requiere, en primer lugar, la
seleccin de los lmites de los intervalos de
clase.
Para definir la cantidad de intervalos de clase
(k), se puede usar:
La regla de Sturges: k = 1 + 3.322log(n)
La cantidad de clases no puede ser tan
pequeo (menos de 5) o tan grande (ms de
20), que la verdadera naturaleza de la
distribucin sea imposible de visualizar.
La amplitud de todas las clases deber ser la
misma. Se recomienda que sea impar y que
los puntos medios tengan la misma cantidad
de cifras significativas que los datos en
bruto.
Los lmites de las clases deben tener una
cifra significativa ms que los datos en
bruto.
Determinar:
Punto medio = (Li+Ls)/2.
Frecuencia absoluta de la clase (f
i
).
Frecuencia acumulada de la clase (F
a
).
Frecuencia relativa de la clase (fr
i
):
fr
i
= f
i
/n
Frecuencia relativa acumulada de la clase (FR
a
).
Porcentaje de la clase (fr
i
):
%
i
= fr
i
.100
Porcentaje acumulado de la clase (%
a
).

A continuacin se presentan
las calificaciones de 60
estudiantes
23 60 79 32 57 74 52 70 82 36
80 77 81 95 41 65 92 85 55 76
52 10 64 75 78 25 80 98 81 67
41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79
34 67 17 82 69 74 63 80 85 61

a) Construya una distribucin de frecuencias.
b) Qu puede concluir de estos datos.

Los grficos permiten visualizar en forma global
y rpida el comportamiento de los datos.
Para datos cuantitativos agrupados en clases,
comnmente se utilizan tres grficos:
Histogramas.
Polgono de frecuencias.
Ojiva o Polgono de frecuencias acumuladas.
Histograma
Histograma y Polgono de Frecuencias
Ojiva
Para datos cualitativos se usan:
Curvas


Barras



Sectores
Barras
Barras
Curvas
Sectores, torta o circular
Corresponden a valores que generalmente se
ubican en la parte central de un conjunto de
datos.
Forma como los datos pueden condensarse
en un solo valor central alrededor del cual
todos los datos muestrales se distribuyen.
Las medidas de tendencia central ms
importantes son:
Media: Aritmtica y Aritmtica ponderada.
Mediana.
Moda.
Es la suma de todas las observaciones dividida entre el
nmero total de observaciones.
Expresada de forma ms intuitiva, podemos decir que
la media aritmtica es la cantidad total de la variable
distribuida a partes iguales entre cada observacin.
(wikipedia)
Por ejemplo, si en una habitacin hay tres personas, la
media de dinero que tienen en sus bolsillos sera el
resultado de tomar todo el dinero de los tres y
dividirlo a partes iguales entre cada uno de ellos. Es
decir, la media es una forma de resumir la informacin
de una distribucin (dinero en el bolsillo) suponiendo
que cada observacin (persona) tendra la misma
cantidad de la variable. (wikipedia)
Para datos no agrupados:

n
f x
X
i
n
i
i
.
1

=
=
n
Pm f
X
k
i
i i
=
=
1
.
Para datos agrupados:

Donde: Pm
i
: punto medio de la clase i
f
i
: frecuencia absoluta de la clase i


Es el valor que ocupa la posicin central de
un conjunto de observaciones, una vez que
han sido ordenados en forma ascendente o
descendente.
Divide al conjunto de datos en dos partes
iguales.
Para datos no agrupados:

Si n es impar: posicin donde se ubica la mediana
es igual a (n+1)/2.


Si n es par: (n+1)/2 no es entero, por lo tanto la
mediana ser igual al promedio de las dos
posiciones centrales.

Datos agrupados: clase mediana es la
que contiene a la observacin que
ocupa la posicin n/2.
I
f
F
x
Lm Md
i
aanterior
i
.
2

+ =

Donde: Lm: lmite inferior de la clase mediana.
F(a
anterior
): frecuencia acumulada de la clase
anterior a la clase mediana.
f
i
: frecuencia absoluta de la clase mediana.
I: amplitud o intervalo de la clase mediana.
Observacin o clase que tiene la mayor
frecuencia en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal,
bimodal o multimodal.
Es la nica medida de tendencia central que
se puede determinar para datos de tipo
cualitativo.
Para datos no agrupados: es simplemente
la observacin que ms se repite.
Para datos agrupados:
I
f f
f
L Mo i .
2 1
2
+
+ =
Donde: Li: lmite inferior de la clase modal.
f
1
: diferencia entre f
i
de la clase modal y la
anterior.
f
2
: diferencia entre f
i
de la clase modal y la
posterior.
I: amplitud o intervalode la clase modal
(clase de mayor frecuencia).
Cuando los datos son sesgados es mejor emplear la Md
Propiedades:
La suma de las diferencias entre las media
muestral y el valor de cada observacin es cero.
La media de una constante es la constante.
Si todas las observaciones x
i
se multiplican por
una constante a, la X tambin se debe multiplicar
por ese mismo valor constante.
Si se somete a una variable estadstica X a un
cambio de origen y escala, Y = a + bX, la
media aritmtica de dicha variable X vara en
la misma proporcin.
La media de la suma de dos variables es igual
a la suma de sus medias.
Ventajas:
Emplea en su clculo toda la informacin
disponible.
Se expresa en las mismas unidades que la
variable en estudio.
Es el centro de gravedad de toda la
distribucin, representando a todos los
valores observados.
Es una valor nico.
Se trata de un concepto familiar para la
mayora de las personas.
Es til para llevar a cabo procedimientos
estadsticos como la comparacin de medias
de varios conjuntos de datos.
Desventajas:
Se ve adversamente afectada por valores
extremos, perdiendo representatividad.
Si el conjunto de datos es muy grande puede ser
tedioso su clculo manual.
No se puede calcular para datos cualitativos.
No se puede calcular para datos que tengan
clases de extremo abierto, tanto superior como
inferior.
Ventajas:
Fcil de calcular si el nmero de
observaciones no es muy grande.
No se ve influenciada por valores
extremos, ya que solo influyen los
valores centrales.
Fcil de entender.
Se puede calcular para cualquier tipos de
datos cuantitativos, incluso los datos con
clase de extremo abierto.
Es la medida de tendencia central ms
representativa en el caso de variables que
solo admiten la escala ordinal.
Desventajas:
No utiliza en su clculo toda la informacin
disponible.
No pondera cada valor por el nmero de
veces que se ha repetido.
Hay que ordenar los datos antes de
determinarla.
Ventajas:
No requiere clculos.
Puede usarse para datos tanto cuantitativos
como cualitativos.
Fcil de interpretar.
No se ve influenciada por valores extremos.
Se puede calcular en clases de extremo
abierto.
Desventajas:
Para conjuntos pequeos de datos su
valor no tiene casi utilidad, si es que de
hecho existe. Solo tiene significado en el
caso de una gran cantidad de datos.
No utiliza toda la informacin disponible.
No siempre existe, si los datos no se
repiten.
En ocasiones, el azar hace que una sola
observacin se no representativa se el valor
ms frecuente del conjunto de datos.
Difcil de interpretar si los datos tiene 3 o
ms modas.

Son valores numricos que indican o
describen la forma en que las observaciones
estn dispersas o diseminadas, con respecto
al valor central.
Son importantes debido a que dos muestras
de observaciones con el mismo valor central
pueden tener una variabilidad muy distinta.

Rango.
Varianza.
Desviacin Tpica.
Coeficiente de variacin.
Rango (amplitud o recorrido):
Est determinado por los dos valores
extremos de los datos muestrales, es
simplemente la diferencia entre la
mayor y menor observacin.
Es una medida de dispersin absoluta,
ya que depende solamente de los datos
y permite conocer la mxima
dispersin.
Casi no se emplea debido a que depende
nicamente de dos valores.
No proporciona una medida de variabilidad
de las observaciones con respecto al centro
de la distribucin.
Notacin: R
Es un valor numrico que mide el grado de
dispersin relativa porque depende de la
posicin de los datos x
1
,x
2
,,x
n
con respecto
a la media.
Es el promedio al cuadrado de las
desviaciones de cada observacin con
respecto a la media.
Notacin: s
2
, o
2
, var(X)
Si la varianza de un conjunto de
observaciones es grande se dice que los
datos tiene una mayor variabilidad que un
conjunto de datos que tenga un varianza
menor.
( )
n
x Pm f
s
n
i
i
i

=

=
1
2
.
2
Para datos NO
agrupados:
Para datos agrupados en una distribucin
de frecuencias:
( )
( )
2
1
2
2
1
2
2
x
n
f m
s
n
f x m
s
k
i
i i
k
i
i i

=

=

=
=
Es la raz cuadrada de la varianza.
Notacin: s, o.
2
s s =
Es una medida de dispersin relativa que
permite comparar el nivel de dispersin de
dos muestras de variables estadsticas
diferentes.
No tiene dimensiones.
Notacin: CV
% 100 =
x
s
CV
Ventajas:
til cuando se quiere conocer la extensin de
las variaciones extremas (valor mximo de la
dispersin).
Fcil de calcular.
Desventajas:
No es una MD con respecto al centro de la
distribucin.
Solo emplea dos valores en su clculo.
No se puede calcular en distribuciones de
lmite de clase abierto.
Propiedades:
1. Siempre es mayor o igual a cero y menor
que infinito.
2. La varianza de una constante es cero.
3. Si a una variable X la sometemos a Y=a+bX,
la varianza de Y ser Var(Y) = b
2
Var(X)
Ventajas:
Es til cuando se compara la variabilidad de dos
o ms conjuntos de datos.
Utiliza toda la informacin disponible.
Desventajas:
No proporciona ayuda inmediata cuando se
estudia la dispersin de un solo conjunto de
datos.
Difcil de interpretar por tener sus unidades
elevadas al cuadrado.
Ventajas:
Esta expresada en las mismas unidades que
la variable en estudio.
Utiliza todas las observaciones en su clculo.
Fcil de interpretar.
Desventajas:
No tiene.
Ventajas:
Es la nica MD que permite comparar el nivel
de dispersin de dos muestras de variables
diferentes.
Emplea toda la informacin disponible en su
clculo.
Fcil de calcular.
Desventaja:
No es una MD con respecto al centro de la
distribucin de los datos.
Son medidas numricas que permiten
determinar la forma que tiene la curva de los
datos, por lo tanto, sirven para corroborar lo
que los grficos muestran.
Medidas
de forma
-Asimetra

-Kurtosis o apuntamiento
Coeficiente de Pearson
Coeficiente de Fisher
Permiten estudiar la forma de la curva,
dependiendo de cmo se agrupan los datos.
Coeficiente de Asimetra de Pearson:
Fcil de calcular e interpretar.
Clculo:
( )
s
Md X
ASP

=
3
o Interpretacin:
ASP
= 0, X=Md Simtrica

> 0, X>Md Asimtrica Positiva

< 0, X<Md Asimtrica Negativa
Coeficiente de Asimetra de Fisher:
No es de fcil clculo, pero si su
interpretacin.
( )
( )
3
1
3
3
1
3
ns
f x Pm
ASF
ns
X x
ASF
k
i
i i
n
i
i

=
=

=

=
Datos NO agrupados
Datos Agrupados
o Interpretacin:
ASF
= 0, Simtrica

> 0, Asimtrica Positiva

< 0, Asimtrica Negativa
Miden si los valores de la distribucin estn
ms o menos concentrados alrededor de los
valores medios de la muestra (zona central de
la distribucin).
Se definen tres tipos de distribucin segn su
grado de Kurtosis:
Mesocrtica: grado de concentracin
medio alrededor de los valores centrales
de la variable.
Leptocrtica: grado de concentracin
elevado.
Platicrtica: grado de concentracin
reducido.

( )
( )
3
3
4
1
4
4
1
4

=
=
ns
f X Pm
CK
ns
X x
CK
k
i
i i
n
i
i
Datos No Agrupados
Datos Agrupados
Interpretacin:
CK
=0 Mesocrtica

>0 Leptocrtica

<0 Platicrtica