Está en la página 1de 84

ANLISIS ESTADSTICO

Mtra. Laura Ziga


lgzuniga@anahuac.mx
5627-0210 ext. 8423
Qu es Estadstica?
La Estadstica estudia mtodos
cientficos para recoger, organizar,
resumir y analizar datos, as como para
sacar conclusiones vlidas y tomar
decisiones razonables basadas en tal
anlisis
Murray R. Spiegel
Estudio Estadstico
1. Se realizan observaciones aleatorias
de un fenmeno que no se puede
predecir con anterioridad.
2. Se realiza un muestreo (se selecciona
una muestra representativa de la
poblacin).
Estudio Estadstico
3. Se recolectan datos de cada
elemento muestreado (por ejemplo a
travs de un cuestionario).
4. El objetivo final es inferir
estadsticamente algo sobre la
poblacin, deseamos concluir algo
sobre alguna caracterstica de la
poblacin en la que se realiza el
estudio.
Ramas de la Estadstica
Estadstica Descriptiva o Deductiva:
estudia los mtodos para organizar,
sumarizar y describir un conjunto de
datos para que sus caractersticas se
vuelvan evidentes. Se divide en:
Tcnicas Grficas
Tcnicas Numricas.
Ramas de la Estadstica
Estadstica Inferencial o Inductiva: usa
la teora de probabilidades para
generalizar las caractersticas de una
poblacin a partir de las caractersticas
de una muestra representativa. Es
decir, utiliza estadsticas muestrales
para obtener conclusiones sobre los
verdaderos parmetros de la poblacin.
Poblacin vs Muestra
Poblacin: es el conjunto de todas las
mediciones de inters al
experimentador. Su tamao se denota
con la letra N.
Muestra: es un subconjunto de la
poblacin. Generalmente esta
seleccin se hace aleatoriamente, cada
individuo en la muestra tuvo la misma
posibilidad de haber sido seleccionado.
Su tamao se denota con la letra n.
Parmetro vs Estadstico
Parmetro Pobacional: es un valor
numrico que caracteriza cierta
poblacin.
Estadstico Muestral: es un valor
numrico que caracteriza cierta
muestra.
En Estadstica se busca estimar el
verdadero valor del parmetro a travs
de un estadstico.
Importancia del estudio estadstico
Lo ms importante no est en lo que la
muestra nos dice sobre sus miembros
especficos, sino en cmo hacer
inferencias sobre los miembros de la
poblacin que no fueron incluidos en la
muestra.
Importancia del estudio estadstico
Un estadstico primero disea la
muestra y el experimento para
minimizar los costos de obtener la
informacin.
Despus busca el mejor mtodo para
realizar la inferencia segn el muestreo
dado.
Finalmente mide la bondad de la
inferencia.
Variables Aleatorias
A los diferentes fenmenos o
caractersticas que se miden en un
estudio estadstico se les denomina
variables aleatorias.
La diferencia entre variables aleatorias
y variables algebraicas es que nos
interesa saber la probabilidad de
ocurrencia de sus posibles valores
antes de que estos valores sean
observados.
Tipos de Datos
Cualitativos:
Arrojan respuesta categricas.
Miden cualidades
Se les puede asignar despus un valor
numrico (codificarlas)
Cuantitativos:
Producen respuestas numricas.
Miden cantidades
Podemos tratar un dato cuantitativo como
cualitativo (categorizando)
Tipos de Datos Cuantitativos
Discretos:
Si el nmero de posibles valores que
puede tomar es contable (nmero
naturales).
Generalmente resultan de un proceso de
conteo
Tipos de Datos Cuantitativos
Continuos:
Si sus posibles valores estn en el
continuo (nmeros reales).
Generalmente resultan de un proceso de
medicin
Escalas de Medicin
Los datos que se asocian con las
variables aleatorias pueden medirse
con diferentes escalas dependiendo
del tipo de dato que se trate. Las
distintas medidas son:
Escalas de Medicin
a) Medidas por Escala Nominal:
Los datos de tipo cualitativo se
agrupan en varias categoras
nominales.
Generalmente se le asigna un valor
numrico a cada categora nominal
(codificar los datos)
Caso especial: dictomos
Escalas de Medicin
b) Medidas por Escala Ordinal:
Los datos de tipo cualitativo guardan un
orden natural.
Son datos que pueden medirse con una
escala nominal, en donde adems existe un
orden natural entre las categoras.
Se pueden realizar operaciones aritmticas
con los nmeros asignados a las categoras.
El resultado no indica nada.
Escalas de Medicin
c) Medidas por Escala de Intervalo:
Los datos que se utilizan son cuantitativos y
guardan las caractersticas descritas en las
medidas ordinales.
No existe un cero natural, es decir, el cero
no implica necesariamente la ausencia del
atributo en estudio.
Implican la asignacin de nmeros de modo
que a iguales diferencias entre los grados
del atributo, correspondan iguales
diferencias entre los valores numricos
Escalas de Medicin
d) Medidas por Escala de Razn:
Datos que cumplen con las
caractersticas necesarias para
medirse con una escala de intervalo, y
que adems posee un cero natural.
Tener un cero natural implica que el
punto cero no es arbitrario y
corresponde a una total ausencia del
atributo en estudio.
TABLAS DE FRECUENCIA
Tablas de Frecuencia
Los datos recopilados en la muestra se
pueden organizar en Tablas de
Frecuencias.
Estas tablas muestran:
las clases o categoras de respuesta de
donde se obtuvieron los datos (o los
intervalos de clase si los datos son
cuantitativos)
El nmero o proporcin de veces que la
clase se encontr en los datos
recopilados.
Tablas de Frecuencia
Datos Cualitativos
Estado Civil
(clase)
Nmero de
ocurrencias
(frecuencia)
Porcentaje
(frecuencia
relativa)
Soltero 22 22 %
Casado 45 45 %
Divorciado 20 20 %
Viudo 8 8 %
Otro 5 5 %
Total 100 personas 100 %
Tablas de Frecuencia
Datos Cualitativos
Frecuencia (f): Resulta de contar el
nmero de observaciones que "entran" en
una clase
Frecuencia Relativa (fr): Es la proporcin
de observaciones que "entran" en una clase:
fr
f
n
i
i
=
Tablas de Frecuencia
Datos Cuantitativos
Se construyen intervalos de clase:
Rango: Es la diferencia que existe entre el
valor mas grande y el mas pequeo.
min max rango =
Tablas de Frecuencia
Datos Cuantitativos
Nmero de Intervalos:
Se aconsejan no menos de 6 ni mas de 15
Para aproximarlo se puede utilizar de manera
alternativa:
Raz de n: el resultado se redondea al siguiente
entero.
Regla de Sturges:
num.de intervalos = 3.3 (log n) + 1
Tablas de Frecuencia
Datos Cuantitativos
Amplitud de Intervalos:
Se calcula aplicando la frmula:



La unidad toma valores de acuerdo a los valores de
la variable:
Si la variable toma valores enteros, unidad=1
Si la variable toma valores con decimales, unidad=0.1
Si la variable toma valores con centsimas, unidad=0.01
Si la variable toma valores con milsimas, unidad=0.001
Si la variable toma valores con diezmilsimas,
unidad=0.0001
etc

c
rango unidad
num.intervalos
=
+
Tablas de Frecuencia
Datos Cuantitativos
Lmites de Clase o Establecidos:
Lmite inferior: es el valor inicial del intervalo
de clase.


Lmite inferior: es el valor final del intervalo de
clase.
LI min
LI LI c
1
i i 1
=
= +

unidad LI c LS LS
unidad LI LS
1 i 1 i i
2 1
= + =
=
+
Tablas de Frecuencia
Datos Cuantitativos
Marca de Clase: Es el punto medio del
intervalo de clase. Se usa en los mtodos
estadsticos como valor estimado de las
observaciones que cayeron dentro de ese
intervalo
2
LS LI
X
i i
i
+
=
Tablas de Frecuencia
Datos Cualitativos y Cuantitativos
Frecuencia Acumulada (fa): Es el nmero de
observaciones acumuladas hasta la clase de
referencia:
fa f
i j
j 1
i
=
=

Tablas de Frecuencia
Datos Cualitativos y Cuantitativos
Frecuencia Relativa Acumulada (fra): es la
proporcin de observaciones acumuladas
hasta la clase de referencia:
fra
fa
n
i
i
=
Tablas de Frecuencia en Excel
1. Cargar el mdulo de Anlisis de Datos:
Herramientas
Complementos
Palomeo Herramientas para Anlisis
Tablas de Frecuencia en Excel
2. Acceso la subrutina Histograma de mdulo
de Anlisis de Datos:
Herramientas
Anlisis de Datos
Histograma:
Selecciono a los datos de la muestra como rango
de entrada
OPCIONAL: Selecciono a los lmites superiores
como rango de clases
Tablas de Frecuencia Bivariadas
Se tabulan dos variables en una sola tabla.
Tambin se llaman tablas de cruce o de
contingencia.
Estado Civil Hombre Mujer Total por Estado Civil
Soltero 10 12 22
Casado 22 23 45
Divorciado 7 13 20
Viudo 2 6 8
Otro 4 1 5
Total por Sexo 45 55 100 personas
TCNICAS GRFICAS
Tcnicas Grficas
Graficamos el contenido de la tabla de
frecuencia.
Las ms importantes grficas:
Pie
Barras
Histograma
Polgono
Grficas de Pie o de Sectores
Se usa con datos cualitativos o cuantitativos.
A travs de una regla de tres , un crculo se
divide en sectores.



Cada rebanada representa la proporcin
de datos contenidos en una clase de la tabla
de frecuencia.
grados fr 360
i i
=
Grficas de Pie o de Sectores
2%
8%
25%
39%
17%
2%
5%
2%
clase 1
clase 2
clase 3
clase 4
clase 5
clase 6
clase 7
clase 8
Grficas de Pie o de Sectores
en Excel:
Selecciono la frecuencia de la tabla
Llamo al asistente para grficas
Selecciono una grfica circular
Coloco los rtulos de categora:
categoras
marcas de clase
Coloco los rtulos de datos en porcentaje

Grficas de Columnas o Barras
Se usa con datos cualitativos o cuantitativos.
Se puede hacer con la frecuencia o con la
frecuencia relativa.
Se grafican rectngulos sobre un eje
cartesiano en donde cada rectngulo
representa a cada clase en la tabla de
frecuencia.
Grficas de Columnas o Barras
1
5
15
23
10
1
3
1
0
5
10
15
20
25
clase 1 clase 2 clase 3 clase 4 clase 5 clase 6 clase 7 clase 8
Grficas de Columnas o Barras
En Excel:
Selecciono la frecuencia o frecuencia
relativa de la tabla
Llamo al asistente para grficas
Selecciono una grfica de columnas o de
barras
Coloco los rtulos de categora:
categoras
marcas de clase
Coloco los rtulos de datos

Histograma
Es exclusiva para datos cuantitativos.
Se puede hacer con la frecuencia o con la
frecuencia relativa.
Se grafican rectngulos sobre un eje
cartesiano en donde el rea de cada
rectngulo representa a cada intervalo de
clase en la tabla de frecuencia.
Sirve para comparar las magnitudes
representadas en cada intervalo de clase.
Histograma
1
5
15
23
10
1
3
1
0
5
10
15
20
25
clase 1 clase 2 clase 3 clase 4 clase 5 clase 6 clase 7 clase 8
Histograma
En Excel (Opcin 1)
Selecciono la frecuencia de la tabla
Llamo al asistente para grficas
Selecciono una grfica de columnas
Coloco los rtulos de categora: marcas de
clase
Coloco los rtulos de datos
Reduzco el ancho del rango a cero.

NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma
para cualquier intervalo de clase.
Histograma
En Excel (Opcin 2)
Acceso la subrutina Histograma de mdulo de
Anlisis de Datos:
Herramientas
Anlisis de Datos
Histograma:
Selecciono a los datos de la muestra como rango de
entrada
OPCIONAL: Selecciono a los lmites superiores como
rango de clases
Selecciono la opcin Crear Grfico
Ya en la grfica, reduzco la distancia entre barras a
cero.
NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma para
cualquier intervalo de clase.
Polgono
Es exclusiva para datos cuantitativos.
Se puede hacer con la frecuencia o con la
frecuencia relativa.
Es una grfica de punto y lnea sobre el eje
cartesiano.
Sirve para observar la forma de la
distribucin de frecuencias.
Polgono
Lo importante en el polgono es mantener el
rea bajo la curva igual al rea acumulada
en el histograma.
Aado una marca de clase anterior a la
primera (restndole la amplitud)
Aado una marca de clase posterior a la
ltima (sumndole la amplitud)
Les adjudico frecuencia igual a cero a estas
marcas de clase adicionales
Grafico utilizando estas marcas de clase
adicionales.
Polgono
0
1
5
15
23
10
1
3
1
0
0
5
10
15
20
25
0 2 4 6 8 10 12
Polgono
En Excel (Opcin 1)
Selecciono la frecuencia o frecuencia
relativa de la tabla (ampliada)
Llamo al asistente para grficas
Selecciono una grfica de dispersin XY, que
muestre los puntos unidos por lneas.
Coloco las marcas de clase como rtulos de
categora
Coloco los rtulos de datos
NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma
para cualquier intervalo de clase.
Polgono
En Excel (Opcin 2)
Realizo el histograma de frecuencias a
travs de la subrutina de Anlisis de Datos
con la tabla ampliada.
Ya en la grfica, cambio el tipo de grfica a:
Dispersin XY.





NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma
para cualquier intervalo de clase.
TCNICAS NUMRICAS
Tcnicas Numricas
Estos son los estadsticos muestrales.
Calculamos valores que resumen las
caractersticas de los datos en la muestra:
Tendencia Central
Dispersin
Forma
Medidas de Posicin
Tcnicas Numricas
En Excel Opcin 1
Acceso la subrutina Estadstica Descriptiva
del mdulo de Anlisis de Datos:
Herramientas
Anlisis de Datos
Estadstica Descriptiva:
Selecciono a los datos de la muestra como rango
de entrada
Selecciono la opcin Resumen de Estadsticas
Tendencia Central
Las principales medidas son:
Media Aritmtica
Mediana
Moda
Media Geomtrica
Media aritmtica ponderada

Tendencia Central
Media Aritmtica
La media aritmtica poblacional se denota
como
La media aritmtica muestral es el promedio
de los datos.

X =
X
n
i
i 1
n
=

En Excel Opcin 2: funcin PROMEDIO



Tendencia Central
Mediana
Se define como el valor central.
El valor que delimita al 50% de los datos .
En Excel Opcin 2: funcin MEDIANA

Tendencia Central
Moda
Es el valor ms frecuente, el que se observa
mayor nmero de veces
Pueden existir varios o ningn valor de moda
para un solo conjunto de datos, la
distribucin puede ser:
Amodal cuando ningn valor se repite
Unimodal cuando un solo valor es el ms frecuente
Bimodal cuando dos valores son los ms
frecuentes
trimodal,...., polimodal
En Excel Opcin 2: funcin MODA
Relacin entre Tendencia Central y
la Simetra de la distribucin
Simetra Relacin
Simtrica o insesgada Moda = Mediana = Media
sesgo positivo o a la
derecha
Moda > Mediana > Media
sesgo negativo o a la
izquierda
Moda < Mediana < Media
Relacin entre Tendencia Central y
la Simetra de la distribucin

Moda=Mediana=Media
Insesgada
Relacin entre Tendencia Central y
la Simetra de la distribucin

Moda
Mediana
Media
Sesgo Positivo (a la derecha)
Relacin entre Tendencia Central y
la Simetra de la distribucin

Moda Mediana Media
Sesgo Negativo (a la izquierda)
Tendencia Central
Media Geomtrica
Es el crecimiento promedio.
El factor de crecimiento de la variable X:

( ) i + = =

1
X
X
Y
1 i
i
i
Entonces, el factor de crecimiento promedio
de la variable X:
( )( ) ( )
n
n 2 1
n
n 2 1
1 1 1 Y Y Y G i i i + + + = =
Tendencia Central
Media Geomtrica
La tasa de crecimiento de la variable X:
1
X
X
1 Y
1 i
i
i
= =

i
Entonces, la tasa de crecimiento promedio
de la variable X:
1 - G i =
La media aritmtica siempre es mayor que la
geomtrica.
Tendencia Central
Media Geomtrica
En Excel: funcin MEDIA.GEOM
usando como argumentos los factores de
crecimiento de la variable X = (1+i)
Para calcular la tasa promedio de
crecimiento, al resultado de MEDIA.GEOM se
le resta 1.
Tambin se puede calcular:

n
1
n
X
X
G =
Tendencia Central
Media Aritmtica Ponderada
Se calcula la media aritmtica muestral,
adjudicando diferente importancia a cada
uno de los datos.

=
=
n
1 i
i
n
1 i
i i
p
w
X w
= X
Dispersin
Las principales medidas son:
Rango
Desviacin Media
Varianza
Desviacin Estndar
Coeficiente de Variacin


Dispersin
Rango
Es la diferencia que existe entre el valor mas
grande y el mas pequeo.
min max rango =
Dispersin
Desviacin Media Absoluta
Es el promedio de las distancias absolutas
de los datos a su media aritmtica.
En Excel: funcin DESVPROM
n
X X
= M
n
1 i
i
=

D
Dispersin
Varianza poblacional
La varianza poblacional se denota como
Es el promedio de los cuadrados de las
distancias de los datos a su media
aritmtica.
Es un estimador sesgado. Funciona solo
para muestras grandes.
En Excel Opcin 2: funcin VARP
( )
n
X X
=
n
1 i
2
i
2

=

o
Dispersin
Varianza muestral
La varianza muestral se denota como S
Se calcula igual que la varianza poblacional,
dividiendo entre n-1.
Es un estimador insesgado. Funciona para
cualquier tamao de muestra.
En Excel Opcin 2: funcin VAR
( )
1 - n
X X
=
n
1 i
2
i
2

=

S
Dispersin
Desviacin Estndar
Mide la variacin de los datos en trminos
absolutos.
Se interpreta como la distancia promedio de
los datos a su media aritmtica.
Se expresa en las mismas unidades que las
empleadas en los datos.
Se calcula tomando la raz cuadrada positiva
de la varianza.
Dispersin
Desviacin Estndar
Desviacin Estndar Poblacional:
o o =
2
2
S = S
En Excel: funcin DESVESTP

Desviacin Estndar Muestral:
En Excel: funcin DESVEST
Dispersin
Desviacin Estndar
Para interpretar la dispersin absoluta, se
construyen intervalos alrededor del
promedio. Con esto se determina en dnde
se sitan los valores de una distribucin de
frecuencia en relacin con la media
aritmtica. Esto se puede lograr utilizando:
Teorema de Chebyshev
Regla Emprrica
Dispersin: Desviacin Estndar
Teorema de Chebyshev
Cualquiera que sea la forma de la
distribucin de los datos:
al menos el 75% de los valores (poblacin)
caern dentro de 2 desviaciones estndar
respecto de la media de la distribucin:
( ) 2S X
( ) X 3S
al menos el 89% de los valores (poblacin)
caern dentro de 3 desviaciones estndar
respecto de la media de la distribucin:
Dispersin: Desviacin Estndar
Regla Emprica
Solo cuando la forma de la distribucin de
los datos es simtrica (insesgada):
aproximadamente el 68% de los datos
(poblacin) se encuentran a una desviacin
estndar alrededor de la media de la
distribucin :
( ) S X
Dispersin: Desviacin Estndar
Regla Emprica
aproximadamente el 95% de los datos
(poblacin) se encuentran a 2 desviaciones
estndar alrededor de la media de la
distribucin :
( ) 2S X
( ) X 3S
aproximadamente el 99% de los datos
(poblacin) se encuentran a 3 desviaciones
estndar alrededor de la media de la
distribucin :
Dispersin
Coeficiente de Variacin
Mide la variacin relativa de la variable con
respecto a su promedio.
Cuando deseamos comparar la dispersin
de dos distribuciones, necesitamos medir la
magnitud de la desviacin estndar en
relacin con la magnitud de la media
Expresa a la variacin de los datos como
porcentaje de su promedio.
X
S
= CV
Forma
Las medidas de forma son:
Sesgo
Curtosis
Forma
Sesgo
Es el grado de asimetra que tiene la
distribucin
Una curva insesgada tiene sesgo cero
Medimos en cunto se aleja la distribucin
de una insesgada:
Si el polgono de frecuencias tiene la mayor
acumulacin a la izquierda, tiene sesgo
positivo o a la derecha.
Si el polgono de frecuencias tiene la mayor
acumulacin a la derecha, tiene sesgo
negativo o a la izquierda
Forma
Sesgo
En Excel Opcin 2: funcin
COEFICIENTE.ASIMETRIA
Coeficiente de
Asimetra
Sesgo
= 0 No hay sesgo. La distribucin
es insesgada
> 0 La distribucin tiene sesgo
positivo o a la derecha.
< 0 La distribucin tiene sesgo
negativo o a la izquierda.
Forma
Curtosis
Mide qu tan puntiaguda es una
distribucin, con respecto a la Normal.
La distribucin Normal se considera
mesocrtica, es el trmino medio.
Las distribuciones mas puntiagudas que la
Normal se llaman leptocrticas
Las distribuciones menos puntiagudas que la
Normal se conocen como platocrticas
Forma
Curtosis

Leptocrtica
Mesocrtica
Platocrtica
Forma
Curtosis
En Excel Opcin 2: funcin CURTOSIS
Funcin Curtosis Curtosis
= 3 Mesocrtica
> 3 Leptocrtica
< 3 Platocrtica
Medidas de Posicin
Las medidas de posicin son:
Cuartiles: Son tres y delimitan al 25%, 50% y
75% de los datos acumulados.
Deciles: Son nueve y delimitan al 10%, 20%,
... , 90% de los datos acumulados.
Percentiles: Son noventa y nueve y delimitan
al 1%, 2%, ... , 99% de los datos acumulados.
Siempre acumulamos de izquierda a
derecha.
En Excel: funcin PERCENTIL