Está en la página 1de 58

Dr.

Tabaré Fernández

Estadística Social
Básica - 2017
Módulo II- tema 5
Módulo III-

Dr. Tabaré Fernández


Mag. Rafael Rey

1
Dr. Tabaré Fernández

Sugerencia de un tutorial aplicable a


PSPP

 https://www.youtube.com/watch?v=d6IubrVmRYc&
list=PLrzstxkdbVcnoV-2J6M29Z8tgx_M6TcVD

2
Dr. Tabaré Fernández

Agenda de la clase

Módulo II, tema 5: Operaciones con las matrices

Módulo III: estadística descriptiva para variables no


métricas

3
Dr. Tabaré Fernández

Tipos de variables o “escalas de


medición”

 https://www.youtube.com/watch?v=UM2Ddge-qZE

4
Dr. Tabaré Fernández

Estadística Social Básica

Módulo II: bases de datos


Tema II.5. Operaciones con las matrices

Tabaré Fernández
2017

5
Dr. Tabaré Fernández

Cuatro grandes tipos de


operaciones sobre una matriz
 Data cleaning o data mining

 Fusión de matrices o combinación de información de distintas bases


de datos

 Transformaciones

 Estimaciones (o “procesamientos”)

6
Dr. Tabaré Fernández

II.5.1. Algo sobre data cleaning

 Consiste en “limpiar” y “ordenar” la base de datos,


resolviendo inconsistencias halladas en la digitación de
la información contenida en los formularios

 Podemos ver 2 formas de data cleaning, la primera


consiste en corregir digitación:

 Por ejemplo, verificar que cuando se digitó la información sobre


el “sexo”(biológico) de los respondentes, las respuestas estén
todas entre dos valores: 1 (para varón) y 2 (para mujeres). En
el caso de que se observen valores tales como 3, 11 o 22 habrá
que tomar decisiones de cómo tratarlo. 7
Dr. Tabaré Fernández

II. 5.1. Data Cleaning (2)

 Una segunda aplicación del procedimiento de data


cleaning consiste en hacer consistencia entre la
información provista por dos o más variables
lógicamente consideradas.

 Por ejemplo, en una pregunta se indaga sobre el número


de empleos que tuvo el encuestado hasta ese momento. Él
responde “3” pero luego en la hoja que registra cada uno
de los empleos habidos, da información sobre 4 empleos.

 Sea por corrección o por consistencia, se trata de


una operación muy importante, por lo general
inevitable. 8
Dr. Tabaré Fernández

II.5.2. Transformaciones de la matriz

 Por el lado de las columnas:

 Opera sobre las variables

 Por el lado de las filas

 Opera sobre las unidades

9
5.2 Transformaciones en las variables
Dr. Tabaré Fernández

 Es posible realizar dos grandes tipos de


transformaciones sobre las variables:

 la recodificación de variables
 la generación de nuevas variables

 Ambos implican crear nuevas columnas en la


matriz sin modificar las (cantidades de) unidades.

10
Dr. Tabaré Fernández

A. Recodificación de variables

 Cuando recodificamos partimos de los valores que tiene


una variable ya existente en la matriz.

 Por ejemplo, tenemos la variable departamento (depto) y


queremos tener una variable que solamente informe si el lugar
de residencia es Montevideo o el interior. “Sobra” la
información sobre los 18 departamentos del interior.

 En general, se trata de “agrupar” esos valores de


acuerdo a algún criterio sustantivo.
 En el caso anterior, existe una larga tradición de describir
situaciones en distintos campos comparando lo que ocurre en
Montevideo con lo que ocurre en el interior. En el caso del
acceso a la educación superior esto es fundamental, dado el
centralismo con que se ha desarrollado la opción universitaria.
11
Dr. Tabaré Fernández

Recodificación (II)

 La recodificación tiene 2 consecuencias:

 Simplifica la información disponible en la matriz de datos

 Por ejemplo pasando de 19 departamentos a 2 áreas geográficas

 Implica una pérdida de información: la nueva variable


informa con menor detalle y precisión que la variable
original.

 Por ejemplo, sabíamos que el hogar residía en el departamento


de 33, pero luego de la recodificación sabemos solo que vivía
“en el interior”.
 Antes de recodificar una variable, es necesario tener
claro el balance entre simplificación e imprecisión 12
Dr. Tabaré Fernández

Recodificación (III) ejemplo

 Concepto y medición:
 Necesidad básica de vivienda medida a través del material
predominante en el techo de la vivienda habitada por el hogar

13
Dr. Tabaré Fernández

Recodificación (IV) ejemplo

 Recodificación:
 Se propone hacer 2 categorías:
• Techos ligeros : desecho, quincho y liviano sin cielo raso.
• Otros techos: planchada, liviano con cielo raso

 Sintaxis en PSPP
 Recode c3 (1 2 3=1) ( 4 5 6=0) into c3r.

14
Dr. Tabaré Fernández

Generación de una nueva variable

 Tiene por propósito combinar información registrada en


distintas variables para construir una nueva variable.

 Crea una nueva variable combinando información de


otras variables de la propia vivienda

 El ingreso total en el ultimo mes de una persona es igual a la


suma de los ingresos que puede haber recibido por actividad
económica, donaciones, transferencias de la seguridad social

 Un hogar no tiene satisfecha su necesidad de vivienda si la


edificación que habita presenta alguna de las siguientes
características: paredes de material ligero, techos ligeros y
pisos sin recubrimiento.
15
Dr. Tabaré Fernández

Generación de una nueva variable (II)

 La combinación de la información en la nueva variable se


hace:
 A través de una combinación lógica de valores en las variables originales

 A través de operaciones matemáticas (sumatoria del ingreso total)

 La generación permite tener una nueva variable que puede


ser de distintos tipos:
 Índice (ingresos)
 Tipología (NBI vivienda)
 Razones (de diverso tipo)

 En todos los casos, hay un concepto (teoría) por detrás que se


encuentra mejor medido a través de un índice o tipología que
con variables por separado.
16
Dr. Tabaré Fernández

Generación (III): índice

 Concepto:
 Capital económico del hogar

 Pregunta ECH de tenencia de bienes de confort en


el hogar

 DVD, lavarropa, secarropa, lavavajillas, horno de


microondas, aire acondicionado, computador, internet,
teléfono fijo y automóvil.

 En el cuestionario ECH de 2015, es la pregunta 21 del


Módulo D.
17
Dr. Tabaré Fernández

18
Dr. Tabaré Fernández

Ejemplo: matriz de datos ECH


2015 hogares
base correlativ depto d21_9 d21_10 d21_11 d21_12 d21_13 d21_14 d21_15 d21_16 d21_17 d21_18

2015 2015000002 canelones 1 0 1 1 0 0 0 0 0 0


2015 2015000003 canelones 1 0 1 1 0 1 1 0 0 0
2015 2015000008 montevideo 0 0 1 1 0 1 1 1 0 1
2015 2015000010 rocha 1 0 1 1 1 1 1 1 0 0
2015 2015000011 cerro largo 1 1 1 1 1 1 1 1 0 0
2015 2015000012 montevideo 0 0 1 0 0 0 0 0 0 0
2015 2015000015 colonia 0 0 0 1 0 0 0 1 1 0
2015 2015000016 montevideo 0 0 1 1 1 1 1 1 1 1
2015 2015000018 paysandú 0 0 1 1 1 1 1 1 1 1

19
Dr. Tabaré Fernández

Generación (III): índice

= ( 21 + 21 + 21 + 21 + 21 + 21 + 21 + 21 + 21
+ 21 ).

 La nueva variable tiene valores máximos de 0 y 10.

base correlativ d21_9 d21_10 d21_11 d21_12 d21_13 d21_14 d21_15 d21_16 d21_17 d21_18 indice

20152015000002 1 0 1 1 0 0 0 0 0 0 3
20152015000003 1 0 1 1 0 1 1 0 0 0 5
20152015000008 0 0 1 1 0 1 1 1 0 1 6

20
Dr. Tabaré Fernández

Generación (IV): críticas a un índice


simple
 El índice sumatorio simple no es la única
opción para construir una nueva variable
que resuma la información de un conjunto
de variables relacionadas con un concepto
a medir.

 Recordemos que se llama simple porque cada


elemento a sumar vale lo mismo. En el ejemplo, tener
un televisor vale lo mismo que tener un automóvil.

21
Dr. Tabaré Fernández

Generación (V): índice ponderado

 Hay buenas razones para computar índices donde


cada una de las variables tiene un “peso” o
ponderador distinto.
 El peso podría venir del valor económico (precio) del bien de
confort que se suma
 El peso podría ser una función de la escases con que ese bien
se tiene.
 Si designamos como W al ponderador, tendremos:
 =
∗ + ∗ + ∗ + ∗ + ∗ +
∗ + ∗ + ∗ .
+ ∗ + ∗

22
Dr. Tabaré Fernández

Generación (VI): razones de variables


depto tdad1519 taban PropAban
montevideo 100775 12824 0.1273
 Ejemplo:
artigas 7667 1248 0.1628
 Matriz de canelones 50415 6619 0.1313
datos sobre cerro largo 8520 1433 0.1682
departame colonia 10062 851 0.0846
ntos (vide durazno 5685 832 0.1464
guia nº3 de flores 2390 202 0.0845
florida 5862 440 0.0751
prácticos)
lavalleja 4804 563 0.1172
maldonado 15761 1657 0.1051
paysandú 11833 980 0.0828
 Peso del río negro 5282 1003 0.1899
abandono en rivera 10940 1931 0.1765
cada rocha 5637 1158 0.2054
departamento salto 13190 2247 0.1704
san josé 9121 1574 0.1726
soriano 8277 808 0.0976
tacuarembó 10079 1824 0.1810
23
treinta y tres 5041 949 0.1883
Dr. Tabaré Fernández

Generación (VII): razones

 Peso del abandon dentro de cada Departamento

 Computo una razón entre número de Estudiantes


que no asisten a la E.Media y que acreditaron el
Ciclo Básico.

 = ∀ = 1,2,3, … . , 19

24
Dr. Tabaré Fernández

Generación (VIII): razones


depto tdad1519 taban PropAban
montevideo 100775 12824 0.1273
 Ejemplo: artigas 7667 1248 0.1628
canelones 50415 6619 0.1313
 Matriz de
cerro largo 8520 1433 0.1682
datos colonia 10062 851 0.0846
sobre durazno 5685 832 0.1464
departam flores 2390 202 0.0845
entos florida 5862 440 0.0751
(vide guia lavalleja 4804 563 0.1172
maldonado 15761 1657 0.1051
nº3 de paysandú 11833 980 0.0828
prácticos) río negro 5282 1003 0.1899
rivera 10940 1931 0.1765
rocha 5637 1158 0.2054
salto 13190 2247 0.1704
san josé 9121 1574 0.1726
soriano 8277 808 0.0976
tacuarembó 10079 1824 0.1810
25
treinta y tres 5041 949 0.1883
Dr. Tabaré Fernández

Recursos educativos virtuales:

 Cómo calcular y recodificar variables: criterios


aplicables en PSPP
 https://youtu.be/lk8TSVP5Jcc

 Puede verse el link siguiente con el documento:


http://www.rubenjoserodriguez.com.ar/wp-
content/uploads/2011/06/Ayuda_SPSS-
Indice_Sumatorio_Ponderado.pdf
26
Dr. Tabaré Fernández

III.5.3. Transformaciones de los


renglones de la matriz

 El tema queda para lectura del libro.

27
Dr. Tabaré Fernández

Módulo III:
Estadística de atributos

28
Dr. Tabaré Fernández

Temas del módulo III


III.1. Atributos y descriptiva
III.2. Frecuencias absolutas y relativas
Normalización
III. 3. Razones
III. 4. Tablas de frecuencias
III.5. Gráficos
29
Dr. Tabaré Fernández

Ramas de la Estadística Básica según el


tipo de variables
Tipo de Sub-tipos por nivel Rama de la
Operaciones
variables de medición Estadística

Nominales Igual, distinto


No Estadística de
métricas Atributos
Ordinales Mayor, menor, igual

Intervales Suma, resta, división,


multiplicación, Estadística
Métricas
potencia, radicación, Descriptiva
De razón logaritmos

30
Dr. Tabaré Fernández

Estadística de atributos
 Es el análisis estadístico de las variables no métricas
(nominales y ordinales, también dicotómicas).

 Técnicas que usaremos (básicas):

Tablas de frecuencias
Univariada
Gráficos para variables de atributos +

Tablas de contingencia
+ Bivariada
Coeficientes de asociación

Gráficas para variables no métricas


31
Dr. Tabaré Fernández

El primer tema a abordar

 La estadística de atributos podría ubicarse


conceptualmente como la respuesta metodológica
que se le da a la necesidad de salir de “meros”
recuentos y pasar a la noción de “distribuciones”.

 O lo que es lo mismo, salir de las frecuencias


absolutas y entrar a las frecuencias relativas a
través de un proceso de normalización.

32
Dr. Tabaré Fernández

III.
Tema 2: Frecuencias y
normalización
De las frecuencias absolutas a las frecuencias
relativas

33
Dr. Tabaré Fernández

Recuentos o frecuencias absolutas

 ¿Cuántos varones y cuántas mujeres hay en nuestra muestra?, es decir,


¿cuál es su distribución por sexo?

 ¿Cuántos estudiantes asistían en 2009 a centros de entorno


sociocultural bajo, medio, etc.? O lo que es lo mismo, ¿Cómo se
distribuyen los estudiantes de la cohorte PISA 2009 en los centros
educativos según su entorno sociocultural?

 Cada una de estas preguntas involucra una sola variable (¿cuál?),


nominal u ordinal (o sea, no métrica).

 ENTONCES: Las frecuencias absolutas nos indican el número de


observaciones o casos en cada categoría de una variable no métrica.
34
Dr. Tabaré Fernández

Frecuencias absolutas: ejemplo


Alumnos de PISA 2009 según entorno
sociocultural del centro educativo al que
Alumnos de la cohorte PISA 2009 según asistían
sexo Frecuencias
absolutas
Varón 15842
Muy desfavorable 2181
Mujer 18059 Desfavorable 10270
Total 33901 Medio 11153
Favorable 6930
Muy favorable 3367
Total 33901

35
¿Qué pasa cuando queremos comparar dos
Dr. Tabaré Fernández

o más grupos o sub-poblaciones?


Alumnos de la cohorte PISA 2003 según entorno sociocultural del centro
educativo al que asistían en 2003 en dos regiones: Montevideo y
Canelones/Maldonado
Sur- Frontera
Metropolita Norte
na Muy desfavorable 487
Muy desfavorable 484 Desfavorable 966
Desfavorable 5656 Medio 518
Medio 6084 Favorable 388
Favorable 4122 Muy favorable 16
Muy favorable 2954 Total 2375
Total 19300

¿Dónde hay mayor peso de la desfavorabilidad educativa en el


alumnado? En los 484 casos de la región sur o en los 487 de la
frontera?
36
¿Qué pasa cuando computamos frecuencias
Dr. Tabaré Fernández

relativas?
Alumnos de la cohorte PISA 2003 según entorno sociocultural del centro
educativo al que asistían en 2003 en dos regiones: Sur y Frontera Norte

Sur-Metropolitana Frontera Norte

Muy Muy
desfavorable
484 0.025 487 0.205
desfavorable
Desfavorable 5656 0.293 Desfavorable 966 0.407
Medio 6084 0.315 Medio 518 0.218
Favorable 4122 0.214 Favorable 388 0.163
Muy favorable 2954 0.153 Muy favorable 16 0.007
Total 19300 1.000 Total 2375 1.000

Es claro que las frecuencias absolutas, es decir, el número de casos en cada


categoría, dependen de dos factores:
• la propia distribución de la variable que estamos estudiando
• el número total de observaciones (en este caso, 19300 o 2375)

La solución consiste en analizar frecuencias relativas en lugar de absolutas


37
Frecuencias relativas Dr. Tabaré Fernández

 Son razones entre el numero de casos de una categoría y el total de


casos
 Generalmente acompañan a las frecuencias absolutas.
 Se expresan como proporciones o porcentajes.
 Tienen la ventaja de que “normalizan” la distribución, es decir, son
independientes del número de casos (n).

Entorno Frecuencia Proporción Porcentaje


nk 3367
muy favorable 3367 0.099 9.9
pk    0.099
favorable 6930 0.204 20.4
n 33901
medio 11153 0.329 32.9
desfavorable 10270 0.303 30.3

muy desfavorable 2181 0.064 6.4 nk


Pk  100 *  100 * pk  9,9
Total 33901 1.000 100.0
n
38
Dr. Tabaré Fernández

¿Cuándo usar absolutas y


cuándo usar relativas?
Abramos la discusión..

39
Dr. Tabaré Fernández

Supongamos que:

 Nos piden recomendaciones para focalizar un


programa de inclusión educativa en jóvenes

 Está dirigido a Estudiantes de Media que concurren


a centros educativos en context “desfavorable” y
“muy desfavorable”.

 Donde lo aplicamos? Comparemos Región Sur-


Metropolitana y Frontera.
40
Dr. Tabaré Fernández

Alumnos de la cohorte PISA 2003 según entorno sociocultural del centro


educativo al que asistían en 2003 en dos regiones: Sur y Frontera Norte

Sur-Metropolitana Frontera Norte

Muy Muy
desfavorable
484 0.025 desfavorable
487 0.205

Desfavorable 5656 0.293 Desfavorable 966 0.407


Medio 6084 0.315 Medio 518 0.218
Favorable 4122 0.214 Favorable 388 0.163
Muy
favorable
2954 0.153 Muy favorable 16 0.007
Total 19300 1.000 Total 2375 1.000

41
Dr. Tabaré Fernández

En síntesis:

 Frecuencias simples

 Frecuencias absolutas
 Frecuencias relativas
 Proporciones
 Porcentajes

 Frecuencias acumuladas

42
Dr. Tabaré Fernández

Recordemos…

 La suma de las observaciones en cada categoría


acumula:

 N para las frec. Absolutas (suma de casos)

 1 para las frecuencias relativas (suma de


proporciones)

 100 para los porcentajes (P*100)

43
Dr. Tabaré Fernández

Frecuencias acumuladas

En ocasiones, puede interesarnos conocer las frecuencias acumuladas


hasta cierta categoría de interés.

Ejemplo1: ¿Cuántos estudiantes asistían a establecimientos del


entorno Muy desfavorable o Desfavorable?

Ejemplo 2: ¿Cuántos se ubicaron en el Nivel I o Bajo I en la prueba de


Matemática de PISA 2003?

44
Dr. Tabaré Fernández

Frecuencias acumuladas
(ejemplo)

Entorno Frecuencia Porcentaje Porc. Acumul.

Muy favorable 3367 9.9 9.9


favorable 6930 20.4 30.3
medio 11153 32.9 63.2
desfavorable 10270 30.3 93.5
muy
2181 6.4 100.0
desfavorable

Total 33901 100.0

45
Dr. Tabaré Fernández

Frecuencias acumuladas

 Informar con un estadístico que agrega frecuencias


de categorias que están continguas unas a otras
dentro de un continuo.

 “las dos categorías más altas”

 “Las primeras tres categorías, comenzando desde aquella


que indica la peor situación” …..

 No tiene sentido cuando la variable es solo


nominal.
46
Dr. Tabaré Fernández

Módulo III.
Tema 3: Razones
Capítulo III del libro Estadística Social Básica

47
Dr. Tabaré Fernández

Veamos en un nivel más abstracto…

 El pasaje de los recuentos a las distribuciones pone


en juego una “Aritmética” más “sofisticada” que
se denomina “razón” y que utiliza la operación
“división”

 Precisamente, “dividir” implica “distribuir”.

48
Dr. Tabaré Fernández

Razón

 La razón es una relación entre dos cantidades


cualquiera.

 Esta relación se computa a través de la operación


“división”.

 Desde el punto de vista matemático, la razón es


una medida resumen general, con múltiples
aplicaciones.
49
Dr. Tabaré Fernández

Tipos de razones

 Por definición, las razones se pueden computar


tanto en variables no métricas como en las
métricas

 Tipos a trabajar:

◦ Proporción
◦ Relación entre categorías de una misma variable
◦ Momios (introducida como un caso particular de una relación
entre las categorías de una variable dicotómica)
◦ Razones entre variables medidas en la misma unidad 50
Dr. Tabaré Fernández

Razón (I): Proporciones

 La proporción, p, es un tipo de razones que se


calcula como el cociente entre la cantidad de
casos que tiene el atributo k y el recuento total
N de casos una misma variable.
nk
 nK es el número de casos de la k ésima
pk 

categoria
N es el total
N
 Obsérvese que: 0  pk  1
51
Dr. Tabaré Fernández

De la proporción al porcentaje

 El porcentaje no es más que la proporción


multiplicada por 100.

nk
Pk  100 * pk  100 *
N

 Obsérvese que: 0  Pk  100

52
Dr. Tabaré Fernández

Proporción y porcentajes

 En el año 2015, se inscribieron en la UDELAR un


total 21413 estudiantes, de los cuales 18692 lo
hicieron para cursar carreras que se impartían en
Montevideo y 2721 para cursar carreras en las
sedes del interior de la UDELAR.

 La proporción de estudiantes del interior (es decir,


k) en la UDELAR por lo tanto es:

2721
pk   0.1271
18692
53
Dr. Tabaré Fernández

Segundo tipo de razones : relaciones


entre categorías de la misma variable
 Dos casos: i) variables pluricotómicas y ii) dicotómicas:

 Variables pluricotómicas que conlleva a que puedan


establecerse razones entre recuentos de casos de
categorías.

= ∀ ≠

 Una de las categorías es seleccionada como categoría de


referencia o de “base”. La cantidad de casos de esta
categoria será el denominador de las razones a calcular 54
Dr. Tabaré Fernández

Razón con variable


pluricotómicas

55
Dr. Tabaré Fernández

Razón con variable


dicotómica

56
Dr. Tabaré Fernández

Tercer tipo de razones: relaciones entre


recuentos de distintas variables.
 Util para comparar cuanto más extensa o
restringida está la tenencia de ciertos atributos y
comprender comportamientos (“preferencias”) o
“epidemiologías”.

 Podría ser cuanto más “frecuente” es tener una heladera


que un “calefón”, develando así preferencias de inversión
en equipamiento doméstico.

57
Dr. Tabaré Fernández

Razones (III): relación de Por cada hogar que


variables medidas sobre la mismatiene calefón hay
122 que tienen
unidad heladera. O un 22%
más de hogares con
heladera

58

También podría gustarte