Está en la página 1de 145

ESTADISTICA

DESCRIPTIVA

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


2

 La estadística descriptiva es una gran parte de la


estadística que propone resumir, analizar y representar los
datos.
 Generalmente este análisis es muy básico y sirve para
caracterizar y resumir a las variable obtenidas.
 Aunque hay tendencia a generalizar a toda la población, las
primeras conclusiones obtenidas tras un análisis descriptivo,
es un estudio calculando una serie de medidas de tendencia
central (Promedio, mediana y moda), para ver en qué
medida los datos se agrupan o dispersan en torno a un
valor central.
3

 En la mayor parte de los casos, del conjunto de datos que


se obtienen en un estudio estadístico, no se desprende
ninguna información útil de manera inmediata y evidente.
 Los datos obtenidos tiene que ser organizados de tal
manera que la información que contienen se resuma para
mostrar patrones de variación.
 Por otro lado solamente cuando se conocen las
características de los datos se pueden decidir los métodos
de análisis estadístico a realizar.
4

 En esta clase se verá cómo clasificar y resumir los


diferentes tipos de variables obtenidos en un trabajo
estadístico y mostrar cómo se organizan y exhiben
estos resultados.
 Cualquiera que sea el estudio estadístico que se
realice, los primeros pasos del procesamiento de datos
es, en general, transformarlos en cuadros, gráficas o
resúmenes de cifras, como porcentajes, índices o
parámetros que representan a una variable.
Exploración y
Presentación de Datos

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


Como resumir los
datos estadísticos
Análisis Exploratorio

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


7

Presentaciones estadísticas y representaciones gráficas


Son los métodos empleados para organizar y presentar las
observaciones , con el objeto de mostrar la máxima información con una
rápida visualización , manejo de estética y sencillez operativa. Pueden
ser de dos tipos:
 Tablas:

 Forma sencilla y clara de agrupar y resumir la información.


 Pueden ser sencillas o complejas según la cantidad de datos.
 Es importante el manejo lógico de la disposición.
 Gráficos:

 Permiten visualizar la información y sus relaciones.


 Es una forma ilustrativa y clara de los datos.
 Es una forma creativa y artística de presentación.
8

 TABLAS DE FRECUENCIAS.
 Asigna a cada categoría el número de elementos que pertenecen a
ella.
 Permite visualizar la distribución de frecuencias de la variable.
 GRAFICOS.
 Es la representación gráfica de los resúmenes de datos presentados
en tablas.
 PARAMETROS / ESTADISTICOS.
 Medidas que representan o caracterizan a la variable, siendo de
tendencia central, posición, dispersión, forma o construidos (índices,
tasas o variables complejas).
Ejemplo
Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar
10
TABLAS
Estadígrafos Años
Años Frecuencia Porcentaje % acum.
Media 12,88

Formas de
0 2 0,1 0,1
Mediana 12,00
3 5 0,3 0,5
Moda 12
4 5 0,3 0,8

resumir los datos


10 9,00
5 6 0,4 1,2
20 11,00
6 12 0,8 2,0
25 12,00
7 25 1,7 3,6
30 12,00
8 68 4,5 8,1 40 12,00
9 56 3,7 11,9 Percentiles 50 12,00
10 73 4,8 16,7 60 13,00
11 85 5,6 22,3 70 14,00

12 461 30,5 52,8 75 15,00

13 130 8,6 61,5 80 16,00

14 175 11,6 73,0 90 16,00

15 73 4,8 77,9
16 194 12,8 90,7
17 43 2,8 93,6
Parámetros
18 45 3,0 96,6
19 22 1,5 98,0
Estadísticos
20 30 2,0 100,0
Total 1510 100,0 Tablas

Gráficos
11
TABLAS
Estadígrafos Años
Años Frecuencia Porcentaje % acum
Media 12,88

Mediana
0 2 0,1 0,1
Mediana 12,00
3 5 0,3 0,5
Moda 12
4 5 0,3 0,8
10 9,00
5 6 0,4 1,2
20 11,00
6 12 0,8 2,0
25 12,00
7 25 1,7 3,6 30 12,00
8 68 4,5 8,1 40 12,00
9 56 3,7 11,9 Percentiles 50 12,00
10 73 4,8 16,7 60 13,00

11 85 5,6 22,3 70 14,00

12 461 30,5 52,8 75 15,00

13 130 8,6 61,5 80 16,00

14 175 11,6 73,0 90 16,00

15 73 4,8 77,9
16 194 12,8 90,7
17 43 2,8 93,6
Parámetros
Estadísticos
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1510 100,0 Tablas

Gráficos
12
TABLAS
Estadígrafos Años
Años Frecuencia Porcentaje % acum

Percentil 75
Media 12,88
0 2 0,1 0,1
Mediana 12,00
3 5 0,3 0,5
Moda 12
4 5 0,3 0,8
10 9,00
5 6 0,4 1,2
20 11,00
6 12 0,8 2,0
25 12,00
7 25 1,7 3,6 30 12,00
8 68 4,5 8,1 40 12,00
9 56 3,7 11,9 Percentiles 50 12,00
10 73 4,8 16,7 60 13,00

11 85 5,6 22,3 70 14,00

12 461 30,5 52,8 75 15,00


13 130 8,6 61,5 80 16,00

14 175 11,6 73,0 90 16,00

15 73 4,8 77,9
16 194 12,8 90,7
17 43 2,8 93,6 Parámetros
18 45 3,0 96,6
Estadísticos
19 22 1,5 98,0
20 30 2,0 100,0
Total 1510 100,0
Tablas

Gráficos
13
TABLAS
Estadígrafos Años
Años Frecuencia Porcentaje % acum

Percentil 20
Media 12,88
0 2 0,1 0,1
Mediana 12,00
3 5 0,3 0,5
Moda 12
4 5 0,3 0,8
10 9,00
5 6 0,4 1,2
20 11,00
6 12 0,8 2,0
25 12,00
7 25 1,7 3,6
30 12,00
8 68 4,5 8,1 40 12,00
9 56 3,7 11,9 Percentiles 50 12,00
10 73 4,8 16,7 60 13,00
11 85 5,6 22,3 70 14,00

12 461 30,5 52,8 75 15,00

13 130 8,6 61,5 80 16,00

14 175 11,6 73,0 90 16,00

15 73 4,8 77,9
16 194 12,8 90,7
17 43 2,8 93,6
Parámetros
Estadísticos
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1510 100,0 Tablas

Gráficos
14

Distribución de Frecuencias
 Cuando se trabaja con un conjunto grande de datos, la
forma de organizarlos y resumirlos es construyendo
Tablas de Frecuencias de las variables de interes.
 Esto nos permitirá observar como se distribuyen los
datos a lo largo del recorrido de la variable.
 Podremos observar donde están más concentrados, si
hay datos extremos, si hay simetría en la distribución
etc.
TIPOS DE FRECUENCIAS
15

 Frecuencias Absolutas
 Frecuencias Relativas
 Frecuencias Porcentuales
 Frecuencias Absolutas Acumuladas
 Frecuencias Relativas Acumuladas
 Frecuencias Porcentuales Acumuladas

Además dependiendo de cuál sea el nivel de medición de las variables, el


número de datos que se obtuvieron y el número de variables involucradas
en el resumen, se construirá diferentes tipos de tabla de frecuencia.
16

 Distribución de frecuencias es como se denomina en


estadística a la agrupación de datos en categorías
mutuamente excluyentes (propiedades de una variable)
que indican el número de observaciones en cada una de
las categorías.
 Esto significa una de las cosas más importantes de la
matemática, su estadística con la agrupación de datos.
 La distribución de frecuencias presenta las
observaciones clasificadas de modo que se pueda ver el
número existente en cada intervalo de clase o categoría
de una variable.
17

Criterios para armar una tabla de Frecuencias


 Para datos medidos en escala nominal, la organización de
las categorías es indistinta.
 Para datos medidos en escala ordinal, hay que respetar el
orden intrínseco de las categorías que toma la variable.
 Para datos cuantitativos hay que agrupar los datos en
intervalos de clase, con algún criterio y teniendo el cuenta el
número de datos y el recorrido de la variable. En general el
número de intervalos de clase va entre 7 y no más de 15.
18

Distribución de frecuencias y porcentual del Estado civil actual


Frecuencia Porcentaje
Soltero 22593 44,5
Casado 22372 44,0
Divorciado 1339 2,6
Separado 977 1,9
Viudo 3486 6,9
Ns / Nr 32 0,1
Total 50799 100,0
Base SIEMPRO 2001
Variable cualitativa nominal: el orden de las categorías de las
variables es arbitrario, por lo que no se debe calcular
frecuencias o Porcentajes acumulados.
19
Encuesta Educativa en Bajo Flores
Lugar de nacimiento de los niños
Frecuencia Porcentaje

Ciudad de Bs As 1133 83,0


Gran Bs As 49 3,6
Interior del País 40 2,9
Bolivia 121 8,9
Perú 5 ,4
Paraguay 15 1,1
Brasil 1 ,1
Otros Países 1 ,1
Total 1365 100,0
Nivel Educativo alcanzado
20

Nivel educativo Frecuencia Frec. Relativa Porcentaje % acum.


Nunca asistió 419.406 0,015 1,5% 1,5%
Preescolar 631.322 0,022 2,2% 3,6%
Primario incompleto 7.468.725 0,259 25,9% 29,5%
Primario completo 5.366.333 0,186 18,6% 48,1%
Secundario incompleto 6.778.825 0,235 23,5% 71,6%
Secundario completo 3.097.247 0,107 10,7% 82,3%
Terciario incompleto 2.842.689 0,098 9,8% 92,1%
Terciario completo 2.076.122 0,072 7,2% 99,3%
Posgrado incompleto 7.1610 0,002 0,2% 99,6%
Posgrado completo 125.939 0,004 0,4% 100,0%
Total 28878218 1 100,0%

Base SIEMPRO 2001

Variable cualitativa ordinal: el orden de las categorías de las variables no es


arbitrario, por lo que se pueden calcular frecuencias o porcentajes acumulados.
21
Encuesta Educativa en Bajo Flores 2002
Nivel educativo alcanzado

Frecuencia Porcentaje % Acum.


Jardín Maternal 58 5,29% 5,29%
Nivel Inicial 128 11,68% 16,97%
Nivel Primario 603 55,02% 71,99%
Nivel Medio 307 28,01% 100,00%
Total 1096 100,00%

Variable cualitativa ordinal


22
DISTRIBUCIÓN DE LA POBLACIÓN SEXUALMENTE ACTIVA
SEGÚN EDAD DE LA PRIMERA RELACIÓN SEXUAL

Edad FA Fr % FAA FrA %A


12 16 0,049 4,9% 16 0,049 4,9%
13 37 0,114 11,4% 53 0,164 16,4%
14 47 0,145 14,5% 100 0,309 30,9%
15 75 0,231 23,1% 175 0,540 54,0%
16 51 0,157 15,7% 226 0,698 69,8%
17 35 0,108 10,8% 261 0,806 80,6%
18 29 0,090 9,0% 290 0,895 89,5%
19 16 0,049 4,9% 306 0,944 94,4%
20 18 0,056 5,6% 324 1 100,0%
Total 324 1 100,0%
Variable cuantitativa discreta
23
Comentarios sobre la tabla anterior:
 Es una variables cuantitativa continua, que se truncan los meses o
decimales (si una persona tiene 34 años hasta el día del cumpleaños 35
seguirá figurando la edad anterior)
 En la mayoría de los casos las variables se redondean, seleccionado la
cantidad de decimales según un criterio que esta relacionado con la
precisión de la medición.
 En la tabla anterior transformamos una variable que es continua en
discreta. Como son pocas categorías no es necesario agrupar los datos,
pero generalmente en las variables cuantitativas discretas con muchas
categorías es necesario agrupar los datos en intervalos de clase para
poder resumirlos, como observamos en la próxima tabla.
24
Encuesta Educativa en Bajo Flores. Año 2003 Porcentaje
Frecuencia Porcentaje acumulado
Edad de los niños 0 7 0,5 ,5
1 65 4,8 5,3
2 55 4,0 9,3
3 66 4,8 14,1
4 79 5,8 19,9
5 77 5,6 25,6
6 68 5,0 30,6
7 83 6,1 36,7
8 79 5,8 42,4
9 93 6,8 49,3
10 81 5,9 55,2
11 74 5,4 60,6
12 83 6,1 66,7
13 81 5,9 72,7
14 85 6,2 78,9
15 68 5,0 83,9
16 80 5,9 89,7
17 69 5,1 94,8

Qué hacemos 18
19
52
10
3,8
0,7
98,6
99,3

en 20
21
6
1
0,4
0,1
99,8
99,9
Agrupar con
este caso? 22

Total
2

1364
0,1

100,0
100,0
algún criterio
25

Distribución de frecuencias y porcentual de la edad de los niños

Porcentaje
Frecuencia Porcentaje
acumulado
0 a 4 años 272 19,9 19,9
5 a 9 años 400 29,3 49,3
10 a 14 años 404 29,6 78,9

15 a 19 años 279 20,5 99,3


20 a 24 años 9 ,7 100,0
Total 1364 100,0
Encuesta Educativa en Bajo Flores. Año 2003

Se agruparon las edades en intervalos de clase cada 5 años


26

Distribución de frecuencias y porcentual de la edad de los niños

Frecuencia % % acumulado

0 a 3 años 193 14,1 14,1


4 a 5 años 156 11,4 25,6
6 a 12 años 561 41,1 66,7
13 a 18 años 435 31,9 98,6
más de 18 años 19 1,4 100,0
Total 1364 100,0
Encuesta Educativa en Bajo Flores. Año 2003
Edades agrupadas en intervalos de clase desiguales, que corresponden a
grupos de edades según nivel educativo.
¿Cómo construimos y presentamos las frecuencias de una
27

variable cuantitativa numérica?


 Se arman intervalos de clase, con la misma amplitud para cada
intervalo, teniendo en cuenta el recorrido o rango de la variable
(valor máximo – valor mínimo).
 El número de intervalos de clase dependerá del recorrido y de la
amplitud de los intervalos de clase.
 También el número de intervalos dependerá de la cantidad de datos
que trabaje, ya que con pocos datos no podré armar una tabla con
muchos intervalos de clase dado que pueden quedar vacíos (sin
frecuencias).
 Tampoco es necesario armar tablas con más de 15 intervalos de
clase dado que se pierde la capacidad de resumir la distribución de
los datos.
28

Ingreso total por hogar


Frecuencia Porcentaje % acum.
 Aquí dividimos a la variable en Hasta $ 1000 24140319 75,5 75,5

intervalos de clase de $ 1000, salvo el $1000 - $ 2000 5575556 17,4 93,0

último intervalo que es abierto.


$2000 - $ 3000 1329832 4,2 97,1
$3000 - $ 4000 467138 1,5 98,6

 Para este caso en el cual observamos


$4000 - $ 5000 201324 ,6 99,2
$5000 - $ 6000 104382 ,3 99,6

que la distribución es muy asimétrica,


$6000 - $ 7000 29842 ,1 99,7
$7000 - $ 8000 37682 ,1 99,8

en donde la mayoría de los valores $8000 - $ 9000


$ 9000 - 10.000
19222
10481
,1
,0
99,8
99,9

esta en el primer intervalo de clases $ 10000 - 11.000 10922 ,0 99,9

podemos resumir los datos según lo


$ 11000 - 12.000 10668 ,0 99,9
$ 12000 - 13.000 7275 ,0 100,0

que se desee mostrar, por ejemplo


$ 13000 - 14.000 1110 ,0 100,0
$ 14000 - 15.000 7716 ,0 100,0

agrupado los datos utilizando medidas $ 15000 - 16.000


$ 18000 - 19.000
3724
1956
,0
,0
100,0
100,0

de posición para definir los intervalos Mayor a $ 20.000 276 ,0 100,0

Total 31.959.425 100,0


de clase.
Base de datos SIEMPRO 2001
29

Ingreso total por hogar: SIEMPRO 2001


 Una opción es presentar a la
variable usando medidas de Quintiles Percentiles
Ingreso
hogar
Agrupa a los
Sueldos entre
posición que nos divida a la
distribución en intervalos con 1 20 $ 178 $ 0 - $ 178
igual frecuencia de datos.
2 40 $ 400 $178 – $ 400
 Por ejemplo dividirla en 5 grupos
3 60 $ 700 $400 – $ 700
de igual frecuencia (20% de
datos para cada grupo). 4 80 $ 1173 $700 – $ 1173

 A esto lo llamaremos quintiles y Mayor 100 Más de $ 1173


son medidas de posición (ver
próxima clase) Base de datos SIEMPRO 2001
30

Salarios anuales en una empresa


Salarios FA % % acum. Salarios FA % % acum.

Hasta $25.000 143 30,2 30,2 Hasta $25.000 143 30,2 30,2

$25.000 -$ 50.000 260 54,9 85,0 $25.000 -$ 50.000 260 54,9 85,0

$50.000 -$ 75.000 54 11,4 96,4 Más $50.000 71 15,0 100,0

Más $75.000 17 3,6 100,0 Total 474 100,0

Total 474 100,0

Según algún criterio se puede tomar la decisión de


modificar la amplitud de los intervalos de clase.
Cómo construimos y presentamos las
frecuencias conjuntas de dos variables
cualitativas nominales u ordinales

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


Tablas bivariadas
o
Tablas de doble entrada
o
Tablas de contingencia
Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar
33
Encuesta Educativa en Bajo Flores
Variable Sexo de los niños encuestados
VARIABLE 1
Frecuencia Porcentaje

Masculino 717 52,6

Femenino 647 47,4

Total 1364 100,0

Ver archivo: base niños flores.xls (Excel) o base niños flores.sav (SPSS)
34
Encuesta Educativa en Bajo Flores
Lugar de nacimiento de los niños
VARIABLE 2

Frecuencia Porcentaje

Ciudad de Bs As 1133 83,0


Gran Bs As 49 3,6
Interior del País 40 2,9
Otros Países 143 10,5
Total 1365 100,0
35
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2
Sexo
Total
Masculino Femenino

Ciudad Bs As 600 532 1132


Lugar de Gran Bs As 23 26 49
nacimiento
Interior del País 18 22 40
Otros Países 76 67 143
Total 717 647 1364

Frecuencia Marginal de “Sexo”


Frecuencia Marginal de “Lugar de nacimiento”
Frecuencias conjuntas
36
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2: % por filas
(Probabilidad condicional por lugar de nacimiento)

Sexo
Total
Masculino Femenino

Ciudad Bs As 53,0% 47,0% 100% (1132)

% Lugar de Gran Bs As 46,9% 53,1% 100% (49)


nacimiento
Interior del País 45,0% 55,0% 100% (40)

Otros Países 53,1% 46,9% 100% (143)

Total 52,6% 47,4% 100% (1364)


37
Encuesta Educativa en Bajo Flores
VARIABLE 1 y VARIABLE 2: % por columna
(Probabilidad condicional por sexo)

Sexo
Total
Masculino Femenino

Ciudad Bs As 83,7% 82,2% 83,0%


% Lugar de Gran Bs As 3,2% 4,0% 3,6%
nacimiento
Interior del País 2,5% 3,4% 2,9%
Otros Países 10,6% 10,4% 10,5%

Total 100% (717) 100% (647) 100% (1364)


38
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variable
Frecuencias absolutas de Edad y Sexo en niños
Grupo de Sexo Total
edades Masculino Femenino
0 a 4 años 141 131 272
5 a 9 años 218 182 400
10 a 14 años 205 199 404
15 a 19 años 146 132 278
20 a 24 años 6 3 9
Total 716 647 1363
Encuesta Educativa en Bajo Flores 39

Cruzamiento entre las variable


% por filas
Sexo Total
Grupo de edades
Masculino Femenino % - FA
0 a 4 años 51,8% 48,2% 100 % (272)
5 a 9 años 54,5% 45,5% 100 % (400)
10 a 14 años 50,7% 49,3% 100 % (404)
15 a 19 años 52,5% 47,5% 100 % (278)
20 a 24 años 66,7% 33,3% 100 % (9)
Total 52,5% 47,5% 100 % (1363)

Cuando se presenta una tabla de porcentajes por fila (probabilidad


condicional), es necesario poner el número de datos de la frecuencia
marginal de cada fila.
40
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variable
% por columnas
Sexo
Grupo de edades Total
Masculino Femenino
0 a 4 años 19,7% 20,2% 20,0%
5 a 9 años 30,4% 28,1% 29,3%
10 a 14 años 28,6% 30,8% 29,6%
15 a 19 años 20,4% 20,4% 20,4%
20 a 24 años ,8% ,5% ,7%
Total 100 % (716) 100 % (647) 100% (1363)
Cuando se presenta una tabla de porcentajes por columnas (probabilidad
condicional), es necesario poner el número de datos de la frecuencia
marginal de cada columna.
41
Encuesta Educativa en Bajo Flores
Cruzamiento entre las variable
% sobre el total
Sexo Total
Grupo de edades
Masculino Femenino
0 a 4 años 10,3% 9,6% 20,0%
5 a 9 años 16,0% 13,4% 29,3%
10 a 14 años 15,0% 14,6% 29,6%
15 a 19 años 10,7% 9,7% 20,4%
20 a 24 años ,4% ,2% ,7%
Total 52,5% 47,5% 100 % (1363)
Un porcentaje de la tabla sobre el total, no da mucha información sobre la
distribución bivariada, igualmente en la celda total se debe mostrar cuál es el
N de la muestra o de la población.
Encuesta Educativa en Bajo Flores 42

Nivel Educativo
por Concurrencia a la escuela
Va a la escuela
Total
No Si
0 a 3 años 158 35 193
Grupo de
4 a 5 años 28 128 156
edad según
6 a 12 años 10 551 561
Nivel 13 a 18 años 48 387 435
educativo más de 18 años 3 16 19

Total 247 1117 1364


Encuesta Educativa en Bajo Flores 43

Edad de los niños según Nivel Educativo


por Concurrencia (% filas)
Va a la escuela
Total
No Si
0 a 3 años 81,9% 18,1% 100% (193)

Grupo de 4 a 5 años 17,9% 82,1% 100% (156)


edad según 6 a 12 años 1,8% 98,2% 100% (561)
Nivel
educativo 13 a 18 años 11,0% 89,0% 100% (435)

mas de 18 años 15,8% 84,2% 100% (19)

Total 18,1% 81,9% 100,0%


GRAFICOS

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


45

Presentación Gráfica de Datos


Representación de actos numéricos por medio de un dibujo
esquemático que hace visible la relación o gradación que
guardan entre sí:
• Es la manera más usual de presentación de datos
• Retrato gráfico de información cuantitativa
• Provee de una mirada la idea general de los datos
• Más fáciles de interpretar
• Menos grado de detalle
Gráfico
46

Eje y

Or
de p
na
da

Eje x
Abscisa
47

Utilidades
1. Tener una primera impresión de los datos antes de comenzar el análisis
(explorar).
2. Elección de tests estadísticos a realizar.
3. Poder del “Test de la ojeada”.
4. Mostrar los valores que asumen los datos.
5. Detectar patrones.
6. Comparar distintas muestras, o comparar en el tiempo.
7. Evaluar la distribución de los datos.
Gráficos de Sectores

Es exclusivo para variable cualtitativa


nominales

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


49
Distribución porcentual de sexo
Base de datos de adultos sanos

N= 585
50
Gráfico de Sectores o Circular (EPH Corrientes)
Vivienda en villa
1,1%

Esto no conviene!!
Sin fines habitación
,1%

Vivienda en lugar de
,2%

Inquilinato
,1%

Departamento
34,2%

Casa
64,3%
51

Gráfico de Sectores o Circular (EPH GBA)


Otro
1,5%

Departamento

34,2%

Casa
64,3%
52

Gráfico de Sectores o Circular (EPH GBA)


Inquilinato

7,4%

Vivienda en lugar de

14,8%
Sin fines habitacion

7,4%
Otros

1,5%

Vivienda en villa

70,4%

Se entiende? Otros (1,5%) se puede


Graficar a parte
Gráfico de Sectores o Circular 53

Encuesta Anual de Hogares 2009


Ciudad de Buenos Aires
54

Que asco de
gráfico!!
55

Está rereremal!!!
Índice de necesidad de tratamiento de caries en niños
de 5 a 7 años

N=321
Es un desastre
Índice de necesidad de tratamiento de caries en niños
57

de 5 a 7 años
Esta bien?
Índice de necesidad de tratamiento de caries en niños
58

de 5 a 7 años
O mejor asi?
59
Índice de necesidad de tratamiento de caries en niños
de 5 a 7 años

Vamos elegí uno!!!


Y este????
60
Gráficos de Barras
• Es exclusivo para variable cualitativas nominales
y ordinales.
• También se puede usar para variables
cuantitativas discretas con poco recorrido de la
variable.

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


62

Diagrama de Barras
 Mejor para atributos no numéricos.
 Datos Nominales.
 Datos Ordinales (eje no arbitrario).
 Altura proporcional al número de casos.
 Barras del mismo ancho.
 Distancias entre barras iguales.
 Se puede utilizar frecuencias absolutas, relativas y
porcentuales.
Gráfico de Barras
Verticales

Variables cualitativas nominales

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


64
Gráfico de barras verticales con frecuencias absolutas

Base SIEMPRO 2001


65

Gráfico de barras verticales con Porcentajes

Base SIEMPRO 2001


66
Producciones Extendidas 1996/97
Gráfico de barras verticales con frecuencias absolutas

8.000.000
7.366.850
6.669.500
7.000.000

6.000.000

5.000.000
4.153.400
4.000.000
3.119.750
3.000.000

2.000.000

1.000.000

0
Maíz Girasol Trigo Soja

Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería,


Pesca y Alimentación, SAGPyA, 2003.
Producciones Extendidas 1996/97
67

Gráfico de barras verticales con %


40,0%

34,2%
35,0%
31,0%

30,0%

25,0%

19,3%
20,0%

14,5%
15,0%

10,0%

5,0%

0,0%
Maíz Girasol Trigo Soja

Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería,


Pesca y Alimentación, SAGPyA, 2003.
Tasa neta de escolarización de la población de 13 a 17 años. Nivel de enseñanza Secundario,
según zona. Ciudad de Buenos Aires. Año 2009.

100
13
95,4
12
14
90 88,2
15 2 86,0
84,0
11 82,8
1
6 5 3 80
10
73,8
7
4
9 70

8
60

Zona A (norte)
Zona B (este) 50

Zona C (sur) Total A (norte) B (este) C (sur) D (oeste) E (centro)

Zona D (oeste)
Zona E (centro)

Fuente: Dirección General de Estadística y Censos (Ministerio de Hacienda GCBA). EAH 2009.
Gráfico de Barras
Verticales

Variables cualitativas ordinales

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


70

• Gráfico de barras verticales para variables cualitativas ordinales.


• En el eje de las x (variables) hay que respetar el orden.
Ingreso promedio mensual de los ocupados de 10 años y más por máximo nivel
educativo alcanzado. Ciudad de Buenos Aires. Año 2008
3.500
3.189
3.000

2.500
2.161
2.000 1.898
Pesos

1.500 1.383
1.189
1.000

500

0
Total Hasta primario Primario completo/ Secundario completo/ Superior completo y
incompleto secundario incompleto superior incompleto más

Fuente: Dirección General de Estadística y Censos (Ministerio de Hacienda GCBA). EAH 2008.
Distribución porcentual del nivel de instrucción alcanzado 72

Base de datos de adultos sanos

N= 585
73
Distribución porcentual del indice de masa corporal
Base de datos de adultos sanos

N= 585
Porcentaje de pacientes con exceso de peso que 74

atienden los profesionales de la salud

n=1254
Gráfico de Barras Verticales

Variables cuantitativas discretas

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


76

EPH: Provincia de Corrientes


20

• Grafico de barras para 18

variables cuantitativas 16

discretas. 14

• No están los datos agrupados. 12

Porcentaje
10

0
1 2 3 4 5 6 7 8 9 10 11 12 14 16

Cantidad de personas en el hogar


EPH: Provincia de Corrientes
77

40

30

Porcentaje

20

10

0
1 2 3 4 5 6 7 8 11

Cantidad de habitaciones que tiene en el hogar


78
Índice de necesidad de tratamiento de caries en niños
de 5 a 7 años
79

Gráfico de Barras
Horizontales
80

País de Origen de los que respondieron la encuesta


n=836
Indicadores por Región de base poblacional: Tasa de cesáreas

Patagonia 37,3%

Cuyo 31,1%

Centro 30,0%

NOA 27,8%

Brecha 1,5
Total País 27,5%
Rango: 12,8%
NEA 26,9%

CABA 24,8%

PBA 24,5%

0% 5% 10% 15% 20% 25% 30% 35% 40%


82
% Bovinos

Buenos Aires 36,4%

Santa Fe 12,3%

Córdoba 10,9%

Entre Ríos 8,3%

Corrientes 7,8%

La Pampa 6,9%

Resto Pcias. 5,5%

Chaco 4,1%

Formosa 2,9%

San Luis 2,8%

Stgo. del Estero 2,1%

0% 5% 10% 15% 20% 25% 30% 35% 40%

Estimación estadística obtenida de las oficinas locales del SENASA año 2002.

Gráfico de barras horizontales para variables cualitativas


nominales ordenados de mayor a menor frecuencia (si la variable
es ordinal, no se puede cambiar el orden de las categorías de la
variables).
83
84

Distribuciones Bivariadas

Gráfico de Barras Adyacentes

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


85

Diagrama de barras adyacentes. Es la representación gráfica de


una tabla de contingencia. Este tipo de grafico permite visualizar si
hay relación entre variables.
Evolución de la soja durante el quinquenio 1996/97 – 2001/02 86

respecto a otras producciones extensivas.

12.000.000

10.000.000

8.000.000

1996/97
6.000.000
2001/02

4.000.000

2.000.000

0
Maíz Girasol Trigo Soja

Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería, Pesca y


Alimentación, SAGPyA, 2003.
Evolución de la soja durante el quinquenio 1996/97 – 2001/02 87

respecto a otras producciones extensivas.

50,0%

45,0%

40,0%

35,0%

30,0%
1996/97
25,0%
2001/02
20,0%

15,0%

10,0%

5,0%

0,0%
Maíz Girasol Trigo Soja

Fuente: Dirección de Coordinación de Delegaciones de la Secretaria de Agricultura, Ganadería, Pesca y


Alimentación, SAGPyA, 2003.
88
Distribución porcentual del indice de masa corporal por sexo
Base de datos de adultos sanos

N= 585
89
Distribución porcentual del indice de masa corporal por sexo
Base de datos de adultos sanos

N= 585
90
Porcentaje de pacientes atendidos con exceso de peso por Especialidad Médica

95%
Nutrición
5%
Más de 40%
63% Hasta el 40%
Cirugía
37%

77%
Cardiología
23% n=1254

49%
Tocoginecología
51%

17%
Pediatría
83%

52%
Otros
48%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Distribuciones
Bivariadas

Gráfico de Barras Superpuestas

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


92
Gráfico de Barras Superpuestas
80

70

60

50

40

30

20 Va a la escuela

10 Si

0 No
0 a 3 años 6 a 12 años mas de 18 años
4 a 5 años 13 a 18 años

Grupo etáreo según Nivel educativo


93

Gráfico de Barras Superpuestas Al 100%


Compara como contribuye cada categoría al total
100%

90% 18,10%

80%

70%

60% 82,10% 84,20%


89,00%
50% 98,20%

40%

30%
20%

10%
0%
0 a 3 años 4 a 5 años 6 a 12 años 13 a 18 años mas de 18
años
No concurre Concurre
94
Evolución de la soja durante el quinquenio 1996/97 – 2001/02
respecto a otras producciones extensivas.
100%

90%

80% 42,5% 39,7%


49,1%
70% 63,6%
60%

50% 2001/02
1996/97
40%

30%

20%

10%

0%
Maíz Girasol Trigo Soja
95

Gráfico de Barras Superpuestas Al 100%


Compara como contribuye cada categoría al total
100%

90%

80%

70%
67,30%
60%
94,10%
50%

40%

30%

20%
32,70%
10%
5,90%
0%
Técnica cepillado Uso de Hilo dental
Adecuada Inadecuada Usa No usa
96

 En general, los datos nominales se describen en


términos de porcentajes o proporciones (frecuencias
relativas).
 Las tablas de contingencia, gráficos circulares y
gráficas de barras son las mas comunes para mostrar
esta clase de información.
 Las mismas clases de cuadros y gráficas que se
utilizan pare exhibir datos nominales se usan también
con datos ordinales, salvo el diagrama circular que
podríamos decir que es exclusivo de los datos
nominales.
97

Gráficos para Variables


Continuas

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


Histogramas
98

 Se usa para distribuciones de frecuencias de variables


cuantitativas discretas o continuas.
 Eje Horizontal: Límites de cada intervalo (en general de
igual tamaño)
 Eje Vertical: frecuencia absoluta, relativa o porcentual;
comenzando en el en origen (cero).
 La frecuencia asociada a cada intervalo está dada por el
área de la barra.
 Area total: 100% ó 1
99
PASOS PARA ARMAR UN HISTOGRAMA
1. Dividir los datos de la variable en grupos disjuntos e iguales
denominado “intervalos de clase” o “clase”.
2. Para ello se debe calcular la longitud de cada intervalo.
3. Calcular el recorrido de la variable:
R= xmax - x min
4. Calcular el número de intervalos de clase (L) que se utilizarán.
No hay una forma efectiva y tampoco un número óptimo. En
general cuanto mayor es el N mas intervalos se pueden utilizar.
100
PASOS PARA ARMAR UN HISTOGRAMA

5. Una vez definida el R y el L, se calcula la


amplitud del intervalo:

A= R/L
6. Luego construir las clases y contar las
frecuencias y armar una tabla de frecuencias.
101

DATOS DE EDAD DE PACIENTES


DATOS DE EDAD DE PACIENTES ORDENADOS DE MENOR A MAYOR
61 48 55 48 47 57 47 33 39 47 24 38 43 46 48 50 53 56 60 64
58 58 68 47 47 37 61 53 41 46 25 38 44 46 48 51 53 56 60 65
41 54 64 48 33 56 45 55 51 73 28 39 44 46 48 51 54 56 60 66
37 50 67 48 40 53 46 39 60 47 29 39 44 46 48 51 54 57 61 66
68 42 45 49 42 48 44 53 55 45 31 40 44 46 48 51 54 57 61 66
67 51 56 49 58 55 51 37 29 44 32 40 44 46 48 51 54 57 61 66
51 60 66 45 58 57 25 40 63 41 33 40 44 47 48 51 54 57 61 66
53 64 61 74 45 48 36 66 55 45 33 40 44 47 48 51 54 57 61 66
61 35 40 44 54 57 52 48 56 47 33 40 45 47 48 51 54 57 61 67
41 42 69 47 45 35 57 56 33 50 33 41 45 47 49 51 55 57 61 67
61 43 46 46 64 38 45 44 51 52 35 41 45 47 49 51 55 58 61 67
49 57 45 47 53 43 50 43 53 48 35 41 45 47 49 52 55 58 61 67
33 56 38 53 72 59 37 57 59 66 36 41 45 47 49 52 55 58 61 67
61 55 50 64 54 48 69 28 51 47 36 42 45 47 49 52 55 58 61 68
32 61 45 49 48 51 49 50 60 61 37 42 45 47 49 53 55 58 61 68
59 46 66 40 38 45 67 58 24 51 37 42 45 47 50 53 55 58 62 69
48 66 44 40 44 49 45 55 38 57 37 42 45 47 50 53 56 59 63 69
48 52 66 62 61 54 36 42 51 61 37 42 45 48 50 53 56 59 64 72
54 31 44 65 53 46 54 59 58 47 38 43 45 48 50 53 56 59 64 73
61 61 54 56 42 67 51 50 56 67 38 43 45 48 50 53 56 59 64 74
102

Histograma con 17 intervalos de clase


PM Clase FA fr % FAA fra %A
Histograma
25.5 27 2 0.01 1 2 0.01 1
28.5 30 2 0.01 1 4 0.02 2 30
31.5 33 3 0.015 1.5 7 0.035 3.5
34.5 36 6 0.03 3 13 0.065 6.5 25
37.5 39 11 0.055 5.5 24 0.12 12
40.5 42 13 0.065 6.5 37 0.185 18.5 20

Frecuencia
43.5 45 16 0.08 8 53 0.265 26.5
46.5 48 28 0.14 14 81 0.405 40.5 15
49.5 51 27 0.135 13.5 108 0.54 54
52.5 54 15 0.075 7.5 123 0.615 61.5
10
55.5 57 23 0.115 11.5 146 0.73 73
58.5 60 16 0.08 8 162 0.81 81
61.5 63 14 0.07 7 176 0.88 88 5
64.5 66 10 0.05 5 186 0.93 93
67.5 69 10 0.05 5 196 0.98 98 0
70.5 72 2 0.01 1 198 0.99 99 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75
73.5 75 2 0.01 1 200 1 100 Clase
TOTAL 200 1 100
103

Histograma con 11 intervalos de clase


PM Clase FA fr % FAA fra %A Histograma
26.0 28 2 0.01 1 2 0.01 1
50
31.0 33 5 0.025 2.5 7 0.035 3.5
45
36.0 38 14 0.07 7 21 0.105 10.5 40
41.0 43 17 0.085 8.5 38 0.19 19 35
46.0 48 43 0.215 21.5 81 0.405 40.5

Frecuencia
30

51.0 53 37 0.185 18.5 118 0.59 59 25


20
56.0 58 35 0.175 17.5 153 0.765 76.5
15
61.0 63 23 0.115 11.5 176 0.88 88 10
66.0 68 19 0.095 9.5 195 0.975 97.5 5
71.0 73 3 0.015 1.5 198 0.99 99 0
28 33 38 43 48 53 58 63 68 73 78
76.0 78 2 0.01 1 200 1 100
Clase
TOTAL 200 1 100
104

Histograma con 25 intervalos de clase

Sujetos Adultos sanos:


105

Histograma con 9 intervalos de clase

Sujetos Adultos sanos:


 Como vemos en las diapositivas 100 a 102, PM es el punto medio del intervalo
106

de clases que es:


(Limite inferior + limite superior)/2.
 Es el valor representativo de cada intervalo de clases.
 En la diapositiva 100 observamos los datos (archivo de datos crudos). A la
derecha de la misma diapositiva lo ordenamos de mayor a menor.
 En la diapositiva 101 se crearon 17 intervalos de clase y se graficó el
Histograma. Lo que observamos es un “serruchito” , entonces en la diapositiva
102 lo hacemos con un menor numero de intervalos de clases: 11, de esta forma
no aparece el serrucho y podemos describir la distribución de la variable que se
aproxima a una curva de Gauss.
 En la diapositiva 103 y 104 es el mismo ejemplo, cambiando el número de
intervalos de clase.
 Con esto se quiere evidenciar que el número de intervalos de clase pude variar
desde 7 a 15 (ni mas ni menos). Esto depende del número de casos (a mayor
número de casos puedo aumentar el número de intervalos de clase).
107

Histograma con 9 intervalos de clase

Sujetos Adultos sanos:


EPH Corrientes
108

35000

30000

25000

20000

15000

10000

5000

0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
250 750 1250 1750 2250 2750 3250 3750 4250 4750 5250

Monto de ingreso total familiar


109

Minimental Test
Olvido Benigno Sujetos sanos
25 50

20 40

15 30
Frecuencia

Frecuencia
10 20

5 10

0 0
26 27 28 29 30 28 29

Minimental Test Minimental Test


110

Distribución de edades de los encuestados

n=1254
111
Distribución de edades de los encuestados

n=1254
Gráficos bivariados:

para un variable cualitativa y una


variables cuantitativa continuas

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


113

Pirámide de Población
114

Box-Plots (Diagrama de Cajas)


 Variables Discretas/Contínuas

 Muy útiles para tener una idea general de todos los


datos
 Simetría
 Diagnóstico de distribución normal vs. no normal

 Comparar distribuciones en varios grupos


BOXPLOT: Variables Continuas/Discretas
115

Valores adyacentes

Percentilo 75 Percentilo 75

=Media La caja contiene


Mediana El 50% de los
=Media valores centrales
Mediana

Percentilo 25 Percentilo 25

Valor atípicos

Valores Extremos

Grupo A Grupo B
116

Box-Plots (Construcción)
• Ordenar los datos y obtener Max, Min, Q1, Q2 y Q3
• Dibujar un rectángulo con Q1 y Q3.
• Dibujar la mediana (Q2)
• Calcular los límites inferior y superior:
• Li = Q1 - 1,5 (Q3 - Q1)
• Ls= Q3 + 1,5 (Q3 - Q1)
• Considerar como atípicos los valores exteriores al intervalo
• Dibujar una línea desde los extremos del rectángulo hasta los valores
límites.
• Identificar los datos fuera del intervalo como atípicos
117

Diagrama de cajas: Edad por Género

n=1254
118

Diagrama de Cajas:
Variable: perímetro de cintura
n= 585
119
Índice de necesidad de tratamiento de caries en niños
de 5 a 7 años por escuela
120

Barras de errores
 Variables Continuas.
 Muy útiles para comparar y graficar diferencias entre
variables teniendo en cuenta el promedio y alguna medida de
dispersión (desvió estándar, error estándar o intervalo de
confianza).
 Como condición las variables deben ser simétricas y
aproximarse a la distribución normal.
 Comparar distribuciones en varios grupos.
121

Diagrama de Barras de Errores


10,2

Límite superior del IC al 95%


10,0

9,8
95% IC Edad

Promedio
9,6

9,4

Límite inferior del IC al 95%


9,2

9,0
N= 716 648

Masculino Femenino

Sexo
122
123
Índice de necesidad de tratamiento de caries en niños
de 5 a 7 años por escuela
124
125
Tasa de mortalidad infantil anual (muertos por mil nacidos) con su Intervalo de
Confianza al 95%. Ciudad de Buenos Aires. Año 2010

21

19

17

15

13

11

5
Algunos consideraciones entre:
Diagramas de caja
Barra de errores

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar 126


127

 El diagrama de cajas, utiliza para graficar la tendencia central y la


dispersión medidas de posición (mediana, cuartiles y desvíos
intercuartiles), lo que permite apreciar la simetría de la
distribución de la variable y los valores atípicos y extremos.
 En los gráficos de barra de errores, se utiliza el promedio y los
derivados del desvío estándar (error estándar). Si la variable es
asimétrica este gráfico no lo muestra como tampoco los valores
atípicos y extremos. Se recomienda utilizarlos en caso que se
tenga la certeza de que la variables con la que estamos
trabajando tenga una distribución cercana a la Distribución
Normal o de Gauss.
128
Histograma y Diagrama de cajas: Variable Asimétrica no gausiana
129
Barra de errores y Diagrama de cajas: Variable muy Asimétrica no gausiana

Diagrama Barra de errores con distintos intervalos:


de cajas Intervalo de confianza al 95%, un y dos desvíos estándar
130
131

Percentiles

Distribución z score
132
133

Diagrama de cajas
134

Distribución Normal
Minimental Test
135

31

30

29
Minimental Test

28

27 38
19

26 1

25
N= 54 42

Olvido Benigno Normal


136

90000 90000

80000 80000

70000 70000

60000 60000
SALARIO

SALARIO
50000 50000

40000 40000

30000 30000

20000 20000

Mediana Mean
10000 25%-75% 10000
Hombre Mujer Mean±SE
Rango Hombre Mujer
Mean±SD
Género del empleado Género del empleado
137
138
Evolución de la Producción (en miles de Toneladas) y Superficie139
Implantada (en miles de Hectáreas) del cultivo de Soja en
Argentina.
Gráficos para bivariado

Variables Cuantitativas Continuas

Pablo Salgado EMAIL: cursos-estadistica@centroredes.org.ar


141
142
Tasa de mortalidad infantil anual (muertos por mil nacidos). Ciudad de Buenos Aires.
Año 2010
20
19,0 19,0
18,3 18,2
18 17,1
16,4
16,0 16,0 16,0
16

15,5 14,4 14,3 14,3


15,2 14,0
14
12,6
13,5

12 12,5
11,8
10,3 10,1
9,9
10 9,2
9,0
8,5 8,3
7,8 7,9 7,9
8 7,3
6,7

TMI DGEyC
143
Tasa de mortalidad infantil anual (muertos por mil nacidos). Ciudad de Buenos Aires.
Año 2010
20 Curva de regresión ajustada

18

16

14
TMI anual

12

10

4
1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010
Año

TMI DGEyC
144
Peso = - 58 + 80 x Talla
R cuadrado = 0,263
145
IMC = 3,4 + 0,26 x PC
R cuadrado = 0,55

También podría gustarte