Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADSTICA DESCRIPTIVA
Medicin de variables
Variable: cualidad o caracterstica de un objeto (o evento) que contenga, al menos, dos atributos en los que pueda clasificarse un objeto o evento Medicin de una variable: asignar valores o categoras a las distintas caractersticas que conforman el objeto de estudio Requisitos bsicos:
Exhaustividad: debe comprender el mayor nmero de atributos posible. Toda observacin debe ser clasificada Exclusividad: los distintos atributos de la variable deben ser mutuamente excluyentes. Una observacin solo puede clasificarse en trminos de un solo atributo Precisin: realizar el mayor nmero de distinciones posibles. Las categoras pueden agruparse ms tarde, el camino inverso no es posible...
Variables Nominales:
Ejemplos: sexo, nacionalidad, estado ocupacional, grupo sanguneo, partido poltico, estado civil, religin, plan social al que pertenece, localidad donde reside, etc. No se puede establecer ningn tipo de relacin
Variables Ordinales:
Ejemplos: estrato social, orden de mrito, nivel educativo, opinin acerca de un hecho/situacin/gobierno Los atributos, adems de poseer las caractersticas mencionadas, tienen la propiedad de poder establecer un orden
Variables de intervalo:
Adems de establecer un orden, la diferencia entre dos atributos puede cuantificarse La distancia que separa a personas de 15 y 16 aos, es la misma que la existente entre personas de 72 y 73 aos Permite realizar la mayora de las operaciones aritmticas Ejemplos: temperatura en C No tiene cero absoluto. El cero no implica la ausencia de atributo
Variables de razn:
Adems de las caractersticas de las variables de intervalo, se suma la posibilidad de contar con un cero absoluto El cero absoluto indica ausencia de la caracterstica
Variables discretas:
Entre dos valores dados, no existen valores intermedios Ejemplos: nmero de hijos, nmero de elementos vendidos, nmero de beneficiarios de un plan
Variables continuas:
Entre dos valores dados, existen valores intermedios Ejemplos: edad, peso, altura, ingreso
Distribucin de frecuencias Distribucin porcentual Distribucin acumulada Proporciones Razones Representaciones grficas
Cantos jvenes de 15 a 29 aos del total del pas estn en hogares en situacin de pobreza?
Indicador: hogares por debajo de la lnea de Pobreza Fuente: EPH Variable : Valores : lphogD85 (hogar bajo la lnea de pobreza) 1 SI (hogar pobre) 2 NO (hogar no pobre)
Frecuencias
Estadsticos LPHOGD85 N Vlidos Perdid os
23523661 0
N nmero de casos
Variable
Frecuencia 7389959 16133702 23523661 Porcentaje 31,4 68,6 100,0 Porcentaje vlido 31,4 68,6 100,0 Porcentaje acumulado 31,4 100,0
Vlidos
1 2 Total
Valores / Categoras
frecuencias absolutas :(fi.) representan el nmero de veces que aparece cada valor de la variable
LPHOGD85 Porcentaje vlido 31,4 68,6 100,0 Porcentaje acumulado 31,4 100,0
Vlidos
1 2 Total
frecuencias relativas: (fr) Representan la relacin entre la frecuencia absoluta y el tamao de la muestra. (porcentajes y proporciones)
Vlidos
1 2 Total
frecuencia relativa acumulada: relacin entre la frecuencia absoluta acumulada dividido por el tamao de la muestra (N).
Vlidos
1 2 Total
Proporciones: es el cociente entre la frecuencia absoluta del valor y el N fi Valor (1) N 7389959 23523661
Razones: es el cociente entre la frecuencia absoluta de un valor y la frecuencia absoluta del otro
fi Valor 2 fi Valor 1 16133702 7389959 2,18
GRFICOS ESTADSTICOS
Diagrama de barras: Se utilizan rectngulos separados, que tienen como base a cada uno de los datos y como altura la frecuencia absoluta o relativa de ese dato.
LPHOGD85
LPHOGD85
20000000
fi
10000000
31
69
Frecuencia
0 1 2
LPHOGD85
20
40
60
80
LPHOGD85
Cas os ponderados por PONDIH
Porcentaje
Cas os ponderados por PONDIH
fr
GRFICOS ESTADSTICOS
LPHOGD85
Grfica de Torta: Se forma al dividir un crculo en sectores de manera que: a) cada sector equivale al porcentaje correspondiente al dato o grupo que representa; y b) la unin de los sectores forma el crculo y la suma de sus porcentajes es 100.
INFORMACIN RESUMEN DE VARIABLES ALEATORIAS Formas ms compactas para caracterizar las distribuciones
TENDENCIA CENTRAL
HETEROGENEIDAD O DESVO FORMA DE LA DISTRIBUCIN
PEA
3000000
Valid
Frequency
2000000
1000000
Activ o
Inactiv o
Valid Missing
5907235 0 1,00
PEA
Cas es weighted by PONDERA
TEMPORARY . SELECT IF (h12>25 AND h12<45) . FREQUENCIES VARIABLES=cdea /STATISTICS=MODE /BARCHART FREQ /ORDER ANALYSIS .
Variable nominal
Unimodal
Bimodal
Es el punto o valor numrico que deja por debajo (y por encima) a la mitad de las puntuaciones de la de la distribucin La mediana se calcula en primer lugar ordenando los datos y luego:
- Si el nmero de datos es impar, la mediana es el dato central - Si el nmero de datos es par, la mediana se considera como el promedio
150 150 150 160 160 200 200 200 220 250
250 250 280 280 300 300 300 300 300 300
300 300 300 320 330 350 360 380 400 400
400 400 400 450 450 480 480 500 500 500
500 500 500 510 540 550 550 550 570 580
600 600 600 600 600 640 650 650 680 700
700 700 750 760 800 800 800 800 800 800
800 850 900 900 900 960 960 980 1000 1000
1000 1000 1000 1100 1150 1200 1200 1500 1800 2440
Vlidos Perdidos
Vlidos
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Total
439878 427380 412200 419529 415349 399023 428206 378808 461983 408871 415516 430316 407540 385408 367549 6197556
VARIABLE CUANTITATIVA
Propiedades de la media
La media es sensible al valor exacto de todos los datos en la distribucin La suma de las desviaciones con respecto a la media es cero La media es muy sensible a los datos extremos
NOTA: Dado que cualquier valor extremo distorsiona la media aritmtica, no es una buena medida de tendencia central en esas circunstancias. Por ello en presencia de valores extremos, es mas apropiado usar la mediana como medida de tendencia central. La mediana no se afecta con la presencia de valores extremos.
800 800 1000 960 1000 150 1000 550 550 250
150 500 900 300 330 500 300 350 700 1800
680 760 800 500 500 400 600 120 250 160
510 2440 1200 320 650 600 300 650 1000 150
120 120 160 540 570 300 550 150 400 220
480 480 300 280 500 600 500 800 380 450
850 250 200 900 580 1200 400 300 200 1000
1 Cuartil
250 250 280 280 300 300 300 300 300 300 300 300 300 320 330 350 360 380 400 400 400 400 400 450 450 480 480 500 500 500 500 500 500 510 540 550 550 550 570 580
3 Cuartil
600 600 600 600 600 640 650 650 680 700 700 700 750 760 800 800 800 800 800 800 800 850 900 900 900 960 960 980 1000 1000 1000 1000 1000 1100 1150 1200 1200 1500 1800 2440
Percentil 99 Decil 10
1 decil
Medidas de Dispersin
Las distribuciones del ingreso de dos provincias con el mismo ingreso medio por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variacin de ingresos entre familias. Estamos interesados en la dispersin o variabilidad de los ingresos, adems de estarlo en sus centros
.
Distribucin con alta dispersin
Medidas de Dispersin
Los datos tambin se deben caracterizar en trminos de su dispersin o variabilidad.
Mximo y Mnimo Rango Amplitud Intercuartlica Varianza Desvo tpico Coeficiente de variabilidad
150 150 150 160 160 200 200 200 220 250
250 250 280 280 300 300 300 300 300 300
300 300 300 320 330 350 360 380 400 400
400 400 400 450 450 480 480 500 500 500
500 500 500 510 540 550 550 550 570 580
600 600 600 600 600 640 650 650 680 700
700 700 750 760 800 800 800 800 800 800
800 850 900 900 900 960 960 980 1000 1000
1000 1000 1000 1100 1150 1200 1200 1500 1800 2440
rango o recorrido
Amplitud intercuartlica
Mximo
Distancia entre el mximo valor y el mnimo valor que puede asumir la variable
Mximo - Mnimo 2240 - 20 = 2220
(Xi u)2
200 200 200 220 250 560 500 500 400 500 500 400 33512 620,5926 760 800 800 850 1000 1000 1000 900 900 900 960 960 980 1000 1000
20 40 72 90
600 600
650 680
2440
N: 54
(Xi u)2
(Xi u)2
X
(Xi u)2
N: 54
En dos poblaciones con distinta media qu grupo presenta mayor heterogeneidad ???????
S X
Estadsticos edad N Error tp. de la media Desv. tp. Varianza Rango Mnimo Mximo Vlidos Perdidos 6197556 0 ,002 4,297 18,465 14 15 29
Si se multiplica por 100 se obtiene el grado de variabilidad respecto de la media 4,3 / 21,9= 0,19
Vlidos Perdidos
CV= S/X
V= 723 / 688,9
1,05
1,08
M= 477,6 / 441,7
La Forma de la distribucin
Una tercera caracterstica de un conjunto de datos es la forma, es decir, la manera en que estn distribuidas las observaciones.
La distribucin de los datos puede ser o no simtrica. Si la distribucin de los datos no es simtrica, se llama asimtrica o sesgada. Para describir la forma se puede comparar la media y la mediana.
Tambin puede observarse a travs del coeficiente de asimetra Mide el grado de Simetra / Asimetra de la distribucin
La Forma de la distribucin
.
Media Mdn
Si es + indicar muchos casos en los valores ms bajos y pocos en los ms altos positivamente asimtrica . Media > Mediana: Positivos o con sesgamiento a la derecha
La Forma de la distribucin
Mdn Media
Si es - indicar muchos casos en los valores ms altos y pocos en los ms bajos negativamente asimtrica. Media < Mediana: Negativos o con sesgaminto a la izquierda.
La Forma de la distribucin
Mdn = Media
La Forma de la distribucin
Otra manera de apreciar la forma de una distribucin es observar el nivel de apilamiento o llanura de la curva
mesocrtica
La Forma de la distribucin
El coeficiente de kurtosis
Mide el grado de apuntamiento de la curva En la distribucin Normal es 0 mesocrtica Si es + indicar un grado de apilamiento mayor que en la normal leptocrtica (menor dispersin) Si es indicar que es ms aplanada que la normal platicrtica (mayor dispersin)
= -1
=-2 = -3
2,14
=2
2,14
=3
=-2 = -3
=3
Puntuaciones Z
Refiere al nmero de unidades de desviacin tpica que un individuo o caso queda por encima o por debajo de la media de su grupo 2,14
Z=XX S
S= 12
Z=XX
S
X= 143
168
2,14
48%
aprox 1,9%
No pobres
Total
Celdas condicionales
40 60
Marginales
(de fila)
70
Marginales
(de columna)
30
100
N: total poblacional o muestral
Funcin descriptiva
Rendimiento educativo/cond. Socioec.
Pobres
15
37,5 21,4 15
No pobres
25
62,5 83,3
Total
40
100 40
Aprobaron
% fila %Col % del total
No aprobaron
% fila
%Col % fila
55
91,6 78,6
5
8,4 16,7
60
100 60
% del total
Total
%Col % del total
70
70 100
30
30 100
100
100 100
ANLISIS DE ASOCIACIN
aprob
Variables:
categoras Si no
v. Nominal dicotmica
Situacin de pobreza
Si
no
v. Nominal dicotmica
No Pobres
Pobres
Total
XX XX
x XXXXXXXX
Hiptesis rinconal
Pobres
Total
XXXXXXXX XX XX XXXXXXXX
Hiptesis Diagonal
No pobres
25 25 50
Total
50 50 100
XXX
XXX
XXX
XXX
Si conozco la distribucin esperada bajo el supuesto de independencia estadstica lo puedo contrastar con la distribucin real y ver si las diferencias son estadsticamente significativas
No pobres
Total
(40 * 70) / 100 (40 * 30) / 100 40 28 12 (60 * 70) / 100 (60 * 30) / 100 60 42 18 70 30 100
No pobres
12 25 18 5 30
Total
40
60 100
Para medir el grado de dependencia o asociacin entre las variables X e Y se utillizan medidas de asociacin
Existen diferentes medidas segn las caractersticas de la tabla, el tipo de hiptesis y las caractersticas de las variables
Coeficiente phi
Medida de asociacin para dos variables dicotmicas Basada en el coeficiente ji cuadrado Asume valores entre 0 y 1
Coeficiente V de Cramer
Extensin de PHI Variables nominales de ms de 2 categ Asume valores entre 0 y 1
Coeficientes Lambdas
Basada en reduccin del error Interpretacin distinta de los anteriores Asume valores entre 0 y 1 Proporcin en que se reduce el error al predecir los valores de una variable a partir de los de la otra
Coeficiente Kappa
Compara los valores de dos variables nominales tales que sus valores pueden ser los mismos Tablas cuadradas Mide el grado de acuerdo entre las dos variables Asume valores entre -1y 1 Valores prximos a 1 : total acuerdo. Valores prximos a -1 : total desacuerdo
Medidas de asociacin
Medidas de asociacin
MEDIDAS DE ASOCIACIN
Medida de asociacin
Phi Tabla 2x2
Escala de Medida
Nominales
Observaciones Medidas basadas en chi cuadrado. Toman valores comprendidos entre 0 y 1. Evala hiptesis lineales (diagonal principal). Son tiles para estimar grados de asociacin entre pares de variables, sobre un mismo conjunto de individuos para n filas y columnas. Toma valores entre 0 y 1. Disponen versin asimtrica. Es fcil de interpretar en trminos de la proporcin que se reduce le error de prediccin del valor de una variable a partir de los valores de la otra (pero puede tomar valores muy bajos en tablas con asociacin). Toma valores entre -1 y 1, pasando por 0. Gamma es ms fcil de interpretar. Asume relaciones curvilineales. Tau b slo alcanza valores extremos cuando hay asociacin total y f y c son iguales. Tau c tiende a subestimar la relacin.
V de Cramer
fxc
Nominales
Lambda
fxc
Nominales
Gamma
fxc fxc
Ordinales Ordinales
Tau b / c de
Kendall