Está en la página 1de 84

ANLISIS ESTADSTICO

Mtra. Laura Ziga


lgzuniga@anahuac.mx
5627-0210 ext. 8423

Qu es Estadstica?
La

Estadstica estudia mtodos


cientficos para recoger, organizar,
resumir y analizar datos, as como para
sacar conclusiones vlidas y tomar
decisiones razonables basadas en tal
anlisis
Murray R. Spiegel

Estudio Estadstico
Se realizan observaciones aleatorias
de un fenmeno que no se puede
predecir con anterioridad.
2. Se realiza un muestreo (se selecciona
una muestra representativa de la
poblacin).
1.

Estudio Estadstico
Se recolectan datos de cada
elemento muestreado (por ejemplo a
travs de un cuestionario).
4. El objetivo final es inferir
estadsticamente algo sobre la
poblacin, deseamos concluir algo
sobre alguna caracterstica de la
poblacin en la que se realiza el
estudio.
3.

Ramas de la Estadstica

Estadstica Descriptiva o Deductiva:


estudia los mtodos para organizar,
sumarizar y describir un conjunto de
datos para que sus caractersticas se
vuelvan evidentes. Se divide en:

Tcnicas Grficas
Tcnicas Numricas.

Ramas de la Estadstica

Estadstica Inferencial o Inductiva: usa


la teora de probabilidades para
generalizar las caractersticas de una
poblacin a partir de las caractersticas
de una muestra representativa. Es
decir, utiliza estadsticas muestrales
para obtener conclusiones sobre los
verdaderos parmetros de la poblacin.

Poblacin vs Muestra

Poblacin: es el conjunto de todas las


mediciones de inters al
experimentador. Su tamao se denota
con la letra N.
Muestra: es un subconjunto de la
poblacin. Generalmente esta seleccin
se hace aleatoriamente, cada individuo
en la muestra tuvo la misma posibilidad
de haber sido seleccionado. Su tamao
se denota con la letra n.

Parmetro vs Estadstico
Parmetro Pobacional: es un valor
numrico que caracteriza cierta
poblacin.
Estadstico Muestral: es un valor
numrico que caracteriza cierta
muestra.
En Estadstica se busca estimar el
verdadero valor del parmetro a travs
de un estadstico.

Importancia del estudio estadstico

Lo ms importante no est en lo que la


muestra nos dice sobre sus miembros
especficos, sino en cmo hacer
inferencias sobre los miembros de la
poblacin que no fueron incluidos en la
muestra.

Importancia del estudio estadstico


Un estadstico primero disea la
muestra y el experimento para
minimizar los costos de obtener la
informacin.
Despus busca el mejor mtodo para
realizar la inferencia segn el muestreo
dado.
Finalmente mide la bondad de la
inferencia.

Variables Aleatorias
A los diferentes fenmenos o
caractersticas que se miden en un
estudio estadstico se les denomina
variables aleatorias.
La diferencia entre variables aleatorias
y variables algebraicas es que nos
interesa saber la probabilidad de
ocurrencia de sus posibles valores
antes de que estos valores sean
observados.

Tipos de Datos

Cualitativos:

Arrojan respuesta categricas.


Miden cualidades
Se les puede asignar despus un valor
numrico (codificarlas)

Cuantitativos:

Producen respuestas numricas.


Miden cantidades
Podemos tratar un dato cuantitativo como
cualitativo (categorizando)

Tipos de Datos Cuantitativos

Discretos:

Si el nmero de posibles valores que


puede tomar es contable (nmero
naturales).
Generalmente resultan de un proceso de
conteo

Tipos de Datos Cuantitativos

Continuos:

Si sus posibles valores estn en el


continuo (nmeros reales).
Generalmente resultan de un proceso de
medicin

Escalas de Medicin

Los datos que se asocian con las


variables aleatorias pueden medirse
con diferentes escalas dependiendo
del tipo de dato que se trate. Las
distintas medidas son:

Escalas de Medicin
a) Medidas por Escala Nominal:
Los datos de tipo cualitativo se
agrupan en varias categoras
nominales.
Generalmente se le asigna un valor
numrico a cada categora nominal
(codificar los datos)
Caso especial: dictomos

Escalas de Medicin
b) Medidas por Escala Ordinal:
Los datos de tipo cualitativo guardan un
orden natural.
Son datos que pueden medirse con una
escala nominal, en donde adems existe un
orden natural entre las categoras.
Se pueden realizar operaciones aritmticas
con los nmeros asignados a las categoras.
El resultado no indica nada.

Escalas de Medicin
c) Medidas por Escala de Intervalo:
Los datos que se utilizan son cuantitativos y
guardan las caractersticas descritas en las
medidas ordinales.
No existe un cero natural, es decir, el cero
no implica necesariamente la ausencia del
atributo en estudio.
Implican la asignacin de nmeros de modo
que a iguales diferencias entre los grados
del atributo, correspondan iguales
diferencias entre los valores numricos

Escalas de Medicin
d) Medidas por Escala de Razn:
Datos que cumplen con las
caractersticas necesarias para
medirse con una escala de intervalo, y
que adems posee un cero natural.
Tener un cero natural implica que el
punto cero no es arbitrario y
corresponde a una total ausencia del
atributo en estudio.

TABLAS DE FRECUENCIA

Tablas de Frecuencia

Los datos recopilados en la muestra se


pueden organizar en Tablas de
Frecuencias.
Estas tablas muestran:

las clases o categoras de respuesta de


donde se obtuvieron los datos (o los
intervalos de clase si los datos son
cuantitativos)
El nmero o proporcin de veces que la
clase se encontr en los datos
recopilados.

Tablas de Frecuencia
Datos Cualitativos
Estado Civil
(clase)

Nmero de
ocurrencias
(frecuencia)

Porcentaje
(frecuencia
relativa)

Soltero

22

22 %

Casado

45

45 %

Divorciado

20

20 %

Viudo

8%

Otro

5%

Total

100 personas

100 %

Tablas de Frecuencia
Datos Cualitativos

Frecuencia (f): Resulta de contar el


nmero de observaciones que "entran" en
una clase
Frecuencia Relativa (fr): Es la proporcin
de observaciones que "entran" en una clase:

fi
fri
n

Tablas de Frecuencia
Datos Cuantitativos
Se construyen intervalos de clase:

Rango: Es la diferencia que existe entre el


valor mas grande y el mas pequeo.

rango max min

Tablas de Frecuencia
Datos Cuantitativos

Nmero de Intervalos:

Se aconsejan no menos de 6 ni mas de 15


Para aproximarlo se puede utilizar de manera
alternativa:

Raz de n: el resultado se redondea al siguiente


entero.
Regla de Sturges:
num.de intervalos = 3.3 (log n) + 1

Tablas de Frecuencia
Datos Cuantitativos

Amplitud de Intervalos:

Se calcula aplicando la frmula:

rango unidad
c
num.intervalos

La unidad toma valores de acuerdo a los valores de


la variable:

Si la variable toma valores enteros, unidad=1


Si la variable toma valores con decimales, unidad=0.1
Si la variable toma valores con centsimas, unidad=0.01
Si la variable toma valores con milsimas, unidad=0.001
Si la variable toma valores con diezmilsimas,
unidad=0.0001
etc

Tablas de Frecuencia
Datos Cuantitativos

Lmites de Clase o Establecidos:

Lmite inferior: es el valor inicial del intervalo


de clase.
LI min
1

LI i LI i 1 c

Lmite inferior: es el valor final del intervalo de


clase.

LS1 LI 2 unidad

LSi LSi 1 c LIi 1 unidad

Tablas de Frecuencia
Datos Cuantitativos

Marca de Clase: Es el punto medio del


intervalo de clase. Se usa en los mtodos
estadsticos como valor estimado de las
observaciones que cayeron dentro de ese
intervalo

LIi LSi
Xi
2

Tablas de Frecuencia
Datos Cualitativos y Cuantitativos

Frecuencia Acumulada (fa): Es el nmero de


observaciones acumuladas hasta la clase de
referencia:
i

fa i f j
j1

Tablas de Frecuencia
Datos Cualitativos y Cuantitativos

Frecuencia Relativa Acumulada (fra): es la


proporcin de observaciones acumuladas
hasta la clase de referencia:

fa i
fra i
n

Tablas de Frecuencia en Excel


1.

Cargar el mdulo de Anlisis de Datos:

Herramientas
Complementos
Palomeo Herramientas para Anlisis

Tablas de Frecuencia en Excel


2.

Acceso la subrutina Histograma de mdulo


de Anlisis de Datos:

Herramientas
Anlisis de Datos
Histograma:

Selecciono a los datos de la muestra como rango


de entrada
OPCIONAL: Selecciono a los lmites superiores
como rango de clases

Tablas de Frecuencia Bivariadas

Se tabulan dos variables en una sola tabla.


Tambin se llaman tablas de cruce o de
contingencia.

Estado Civil

Hombre

Mujer

Total por Estado Civil

Soltero

10

12

22

Casado

22

23

45

Divorciado

13

20

Viudo

Otro

45

55

100 personas

Total por Sexo

TCNICAS GRFICAS

Tcnicas Grficas

Graficamos el contenido de la tabla de


frecuencia.
Las ms importantes grficas:

Pie
Barras
Histograma
Polgono

Grficas de Pie o de Sectores

Se usa con datos cualitativos o cuantitativos.


A travs de una regla de tres , un crculo se
divide en sectores.

gradosi fri 360

Cada rebanada representa la proporcin


de datos contenidos en una clase de la tabla
de frecuencia.

Grficas de Pie o de Sectores

Grficas de Pie o de Sectores


en Excel:

Selecciono la frecuencia de la tabla


Llamo al asistente para grficas

Selecciono una grfica circular


Coloco los rtulos de categora:

categoras
marcas de clase

Coloco los rtulos de datos en porcentaje

Grficas de Columnas o Barras

Se usa con datos cualitativos o cuantitativos.


Se puede hacer con la frecuencia o con la
frecuencia relativa.
Se grafican rectngulos sobre un eje
cartesiano en donde cada rectngulo
representa a cada clase en la tabla de
frecuencia.

Grficas de Columnas o Barras

Grficas de Columnas o Barras


En Excel:

Selecciono la frecuencia o frecuencia


relativa de la tabla
Llamo al asistente para grficas

Selecciono una grfica de columnas o de


barras
Coloco los rtulos de categora:

categoras
marcas de clase

Coloco los rtulos de datos

Histograma

Es exclusiva para datos cuantitativos.


Se puede hacer con la frecuencia o con la
frecuencia relativa.
Se grafican rectngulos sobre un eje
cartesiano en donde el rea de cada
rectngulo representa a cada intervalo de
clase en la tabla de frecuencia.
Sirve para comparar las magnitudes
representadas en cada intervalo de clase.

Histograma

Histograma
En Excel (Opcin 1)

Selecciono la frecuencia de la tabla


Llamo al asistente para grficas

Selecciono una grfica de columnas


Coloco los rtulos de categora: marcas de
clase
Coloco los rtulos de datos
Reduzco el ancho del rango a cero.

NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma


para cualquier intervalo de clase.

Histograma
En Excel (Opcin 2)

Acceso la subrutina Histograma de mdulo de


Anlisis de Datos:

Herramientas
Anlisis de Datos
Histograma:

Selecciono a los datos de la muestra como rango de


entrada
OPCIONAL: Selecciono a los lmites superiores como
rango de clases
Selecciono la opcin Crear Grfico

Ya en la grfica, reduzco la distancia entre barras a


cero.

NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma para


cualquier intervalo de clase.

Polgono

Es exclusiva para datos cuantitativos.


Se puede hacer con la frecuencia o con la
frecuencia relativa.
Es una grfica de punto y lnea sobre el eje
cartesiano.
Sirve para observar la forma de la
distribucin de frecuencias.

Polgono

Lo importante en el polgono es mantener el


rea bajo la curva igual al rea acumulada
en el histograma.

Aado una marca de clase anterior a la


primera (restndole la amplitud)
Aado una marca de clase posterior a la
ltima (sumndole la amplitud)
Les adjudico frecuencia igual a cero a estas
marcas de clase adicionales
Grafico utilizando estas marcas de clase
adicionales.

Polgono

Polgono
En Excel (Opcin 1)

Selecciono la frecuencia o frecuencia


relativa de la tabla (ampliada)
Llamo al asistente para grficas

Selecciono una grfica de dispersin XY, que


muestre los puntos unidos por lneas.
Coloco las marcas de clase como rtulos de
categora
Coloco los rtulos de datos

NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma


para cualquier intervalo de clase.

Polgono
En Excel (Opcin 2)

Realizo el histograma de frecuencias a


travs de la subrutina de Anlisis de Datos
con la tabla ampliada.
Ya en la grfica, cambio el tipo de grfica a:
Dispersin XY.

NOTA: Este procedimiento es vlido solo cuando la amplitud es la misma


para cualquier intervalo de clase.

TCNICAS NUMRICAS

Tcnicas Numricas

Estos son los estadsticos muestrales.


Calculamos valores que resumen las
caractersticas de los datos en la muestra:

Tendencia Central
Dispersin
Forma
Medidas de Posicin

Tcnicas Numricas
En Excel Opcin 1

Acceso la subrutina Estadstica Descriptiva


del mdulo de Anlisis de Datos:

Herramientas
Anlisis de Datos
Estadstica Descriptiva:

Selecciono a los datos de la muestra como rango


de entrada
Selecciono la opcin Resumen de Estadsticas

Tendencia Central

Las principales medidas son:

Media Aritmtica
Mediana
Moda
Media Geomtrica
Media aritmtica ponderada

Tendencia Central
Media Aritmtica

La media aritmtica poblacional se denota


como
La media aritmtica muestral es el promedio
de los datos.
n

X=

i 1

En Excel Opcin 2: funcin PROMEDIO

Tendencia Central
Mediana

Se define como el valor central.


El valor que delimita al 50% de los datos .
En Excel Opcin 2: funcin MEDIANA

Tendencia Central
Moda

Es el valor ms frecuente, el que se observa


mayor nmero de veces
Pueden existir varios o ningn valor de moda
para un solo conjunto de datos, la
distribucin puede ser:

Amodal cuando ningn valor se repite


Unimodal cuando un solo valor es el ms frecuente
Bimodal cuando dos valores son los ms
frecuentes
trimodal,...., polimodal

En Excel Opcin 2: funcin MODA

Relacin entre Tendencia Central y


la Simetra de la distribucin
Simetra
Relacin
Simtrica o insesgada Moda = Mediana = Media
sesgo positivo o a la Moda > Mediana > Media
derecha
sesgo negativo o a la Moda < Mediana < Media
izquierda

Relacin entre Tendencia Central y


la Simetra de la distribucin

Relacin entre Tendencia Central y


la Simetra de la distribucin

Relacin entre Tendencia Central y


la Simetra de la distribucin

Tendencia Central
Media Geomtrica

Es el crecimiento promedio.
El factor de crecimiento de la variable X:

Xi
Yi
1 i
X i 1

Entonces, el factor de crecimiento promedio


de la variable X:

G n Y1Y2 Yn n 1 i1 1 i2 1 in

Tendencia Central
Media Geomtrica

La tasa de crecimiento de la variable X:

Xi
i Yi 1
1
X i 1

Entonces, la tasa de crecimiento promedio


de la variable X:

i G -1

La media aritmtica siempre es mayor que la


geomtrica.

Tendencia Central
Media Geomtrica

En Excel: funcin MEDIA.GEOM

usando como argumentos los factores de


crecimiento de la variable X = (1+i)
Para calcular la tasa promedio de
crecimiento, al resultado de MEDIA.GEOM se
le resta 1.

Tambin se puede calcular:

Xn
Gn
X1

Tendencia Central
Media Aritmtica Ponderada

Se calcula la media aritmtica muestral,


adjudicando diferente importancia a cada
uno de los datos.
n

Xp=

w X
i 1
n

w
i 1

Dispersin

Las principales medidas son:

Rango
Desviacin Media
Varianza
Desviacin Estndar
Coeficiente de Variacin

Dispersin
Rango

Es la diferencia que existe entre el valor mas


grande y el mas pequeo.

rango max min

Dispersin
Desviacin Media Absoluta

Es el promedio de las distancias absolutas


de los datos a su media aritmtica.
n

DM =

X X
i 1

En Excel: funcin DESVPROM

Dispersin
Varianza poblacional

La varianza poblacional se denota como


Es el promedio de los cuadrados de las
distancias de los datos a su media
aritmtica.
n
2
Xi X

2 = i 1
n
Es un estimador sesgado. Funciona solo para muestras
grandes.
En Excel Opcin 2: funcin VARP

Dispersin
Varianza muestral

La varianza muestral se denota como S


Se calcula igual que la varianza poblacional,
dividiendo entre n-1.
n

S2 =

X X
i 1

n -1

Es un estimador insesgado. Funciona para cualquier


tamao de muestra.
En Excel Opcin 2: funcin VAR

Dispersin
Desviacin Estndar

Mide la variacin de los datos en trminos


absolutos.
Se interpreta como la distancia promedio de
los datos a su media aritmtica.
Se expresa en las mismas unidades que las
empleadas en los datos.
Se calcula tomando la raz cuadrada positiva
de la varianza.

Dispersin
Desviacin Estndar
Desviacin Estndar Poblacional:

En Excel: funcin DESVESTP

Desviacin Estndar Muestral:

S= S

En Excel: funcin DESVEST

Dispersin
Desviacin Estndar

Para interpretar la dispersin absoluta, se


construyen intervalos alrededor del
promedio. Con esto se determina en dnde
se sitan los valores de una distribucin de
frecuencia en relacin con la media
aritmtica. Esto se puede lograr utilizando:

Teorema de Chebyshev
Regla Emprrica

Dispersin: Desviacin Estndar


Teorema de Chebyshev

Cualquiera que sea la forma de la


distribucin de los datos:
al menos el 75% de los valores (poblacin)
caern dentro de 2 desviaciones estndar
respecto de la media de la distribucin:

X 2S

al menos el 89% de los valores (poblacin)


caern dentro de 3 desviaciones estndar
respecto de la media de la distribucin:

X 3S

Dispersin: Desviacin Estndar


Regla Emprica

Solo cuando la forma de la distribucin de


los datos es simtrica (insesgada):
aproximadamente el 68% de los datos
(poblacin) se encuentran a una desviacin
estndar alrededor de la media de la
distribucin :

X S

Dispersin: Desviacin Estndar


Regla Emprica

aproximadamente el 95% de los datos


(poblacin) se encuentran a 2 desviaciones
estndar alrededor de la media de la
distribucin :

X 2S

aproximadamente el 99% de los datos


(poblacin) se encuentran a 3 desviaciones
estndar alrededor de la media de la
distribucin :

X 3S

Dispersin
Coeficiente de Variacin

Mide la variacin relativa de la variable con


respecto a su promedio.
Cuando deseamos comparar la dispersin
de dos distribuciones, necesitamos medir la
magnitud de la desviacin estndar en
relacin con la magnitud de la media
Expresa a la variacin de los datos como
porcentaje de su promedio.

S
CV =
X

Forma

Las medidas de forma son:

Sesgo
Curtosis

Forma
Sesgo

Es el grado de asimetra que tiene la


distribucin
Una curva insesgada tiene sesgo cero
Medimos en cunto se aleja la distribucin
de una insesgada:

Si el polgono de frecuencias tiene la mayor


acumulacin a la izquierda, tiene sesgo
positivo o a la derecha.
Si el polgono de frecuencias tiene la mayor
acumulacin a la derecha, tiene sesgo
negativo o a la izquierda

Forma
Sesgo

En Excel Opcin 2: funcin


COEFICIENTE.ASIMETRIA
Coeficiente de
Asimetra

Sesgo

=0

No hay sesgo. La distribucin


es insesgada

>0

La distribucin tiene
positivo o a la derecha.

<0

La distribucin tiene sesgo


negativo o a la izquierda.

sesgo

Forma
Curtosis

Mide qu tan puntiaguda es una


distribucin, con respecto a la Normal.

La distribucin Normal se considera


mesocrtica, es el trmino medio.
Las distribuciones mas puntiagudas que la
Normal se llaman leptocrticas
Las distribuciones menos puntiagudas que la
Normal se conocen como platocrticas

Forma
Curtosis

Forma
Curtosis

En Excel Opcin 2: funcin CURTOSIS


Funcin Curtosis

Curtosis

=3

Mesocrtica

>3

Leptocrtica

<3

Platocrtica

Medidas de Posicin

Las medidas de posicin son:

Cuartiles: Son tres y delimitan al 25%, 50% y


75% de los datos acumulados.
Deciles: Son nueve y delimitan al 10%,
20%, ... , 90% de los datos acumulados.
Percentiles: Son noventa y nueve y delimitan
al 1%, 2%, ... , 99% de los datos acumulados.

Siempre acumulamos de izquierda a


derecha.
En Excel: funcin PERCENTIL

También podría gustarte