Está en la página 1de 48

Estadística Social

Básica
Módulo II .
(1) Tipos de datos (2)Matriz de datos. (3)Unidades. (4)Tipos de
Variables. (5) Operaciones con la matriz

Dr. Tabaré Fernández


Depto. Sociología / FCS / UDELAR
Agosto de 2017
1

Dr. Tabaré Fernández 1


Índice del módulo
• II.1. Tipos de datos (cuestiones metodológicas)
• Video en EVA

• II.2. Bases (o matriz) de datos


• Noción general
• Elementos

• II.3. Unidad de análisis

• II. 4. Variables y tipos de variables

• II.5. Operaciones con la matriz de datos:


• II.4.1. Por el lado de las variables
• II.4.2. Por el lado de las unidades
• Video en EVA. 2

Dr. Tabaré Fernández 2


Bibliografía

• Cortés, Rubalcava & Fernández (2014) Capítulo 2: Matriz de


datos. Montevideo: FCS/UDELAR.

• (todo el capítulo)

Dr. Tabaré Fernández 3


Módulo II -
Tema 2: Matriz o base de datos
Su contenido está en el capítulo II del libro “Estadística Social Básica”.

Dr. Tabaré Fernández 4


¿Qué tipo de información necesita?
• Una vez que se ha planteado un problema de
investigación, esto es:

• Una(s) pregunta(s)
• Una hipótesis
• Objetivos

• La siguiente etapa del trabajo requiere decidir si:

• La información necesaria para responder al problema ya


existe (alguien hizo las observaciones antes) o si por el
5
contrario hay que producirla.
Dr. Tabaré Fernández 5
Si la información necesaria:

Existe •Datos Secundarios

No
•Datos Primarios
existe 6

Dr. Tabaré Fernández 6


En ambos casos..
• La información que habremos de utilizar para el
análisis estadístico estará (o lo más frecuente es
que estará) en formato de matriz de datos

• El instrumento de “recolección” de la información


será un cuestionario

• Asociado al cuestionario, habrá un diccionario 7

Dr. Tabaré Fernández 7


Del
cuestionario
a la matriz
de datos

Dr. Tabaré Fernández 8


EDUCACIÓN MEDIA
1 Asiste actualmente
ASISTENCIA A EDUCACIÓN
e201 2 Sí, asistió
MEDIA
3 No asistió
FINALIZÓ EL NIVEL e201_1 1 = Sí / 2 = No
Para personas entre 12 y 29 años que
asistieron y no finalizaron el nivel
e202_1 1 = Sí / 2 = No Comenzó a trabajar
No tenía interés / Le interesaba
e202_2
1 = Sí / 2 = No aprender otras cosas
Diccionario RAZONES POR NO HABER
e202_3
Quedó usted o su pareja
1 = Sí / 2 = No embarazada
e202_4 1 = Sí / 2 = No Le resultaban difíciles las materias
FINALIZADO LA EDUCACIÓN
Por dificultades económicas (compra
MEDIA e202_8
1 = Sí / 2 = No de mat. de estudio, etc.)
Porque tuvo que atender asuntos
e202_5
1 = Sí / 2 = No familiares
e202_6 1 = Sí / 2 = No Otras razones
e202_6_1 Descripción
PRINCIPAL RAZÓN POR NO
HABER FINALIZADO LA e202_7
EDUCACIÓN MEDIA 1 Comenzó a trabajar
Solo para los que cursan o cursaron
Bachillerato tecnológico
CURSO O CARRERA QUE
e209_1
ESTUDIA / ESTUDIÓ Código Código del curso o carrera
1 Público
TIPO DE CENTRO EDUCATIVO e210_3
2 Privado
Solo para quienes asisten a educación
pública
RECIBE ALIMENTACIÓN EN EL
e211 1 = Sí / 2 = No
CENTRO EDUCATIVO
e211_1 N° Desayunos
CANTIDAD DE COMIDAS
e211_2 N° Almuerzos / cenas
SEMANALES
e211_3 N° Meriendas
1 Sí, beca MEC 9
BECAS e562 2 Sí, Compromiso Educativo
3 No recibe
EDUCACIÓN TÉCNICA
ASISTENCIA A EDUCACIÓN
Dr. Tabaré Fernández 1 Asiste actualmente 9
e212 2 Sí, asistió
TÉCNICA
3 No asistió
Matriz de datos o base de datos
• Sinónimos en el marco de este curso básico

• Matriz de datos
• Base de datos

• En otros contextos son elementos distintos

• Matriz en matemática (más general). Revisar en los apuntes


• Tablas en informática
• Base de datos en informática

10

Dr. Tabaré Fernández 10


La matriz de datos (1)
• Es la forma de almacenar ordenada y sistemáticamente
la información tal que se puede operar sobre ella.

• Estas operaciones pueden ser:


• Procesamientos estadísticos (“resumenes”, estimaciones)
• modificación de las columnas de la matriz (transformaciones
por las variables)
• Limpieza de la base de datos (data cleaning) también llamada minería de datos
• Recodificaciones y creaciones de nuevas variables recodificadas
• Combinación de información contenida en varias variables (indices y tipologías)
• Modificación de las filas de la matriz (agregaciones o colapso 11
de la base de datos)
Dr. Tabaré Fernández 11
Elementos de una matriz de datos (2)

• Filas, donde se colocan las unidades

• Columnas, donde se colocan las variables

• Celdas donde están los valores (observados,


medidos) 12

Dr. Tabaré Fernández 12


La matriz de datos (una partecita..)

13

Dr. Tabaré Fernández 13


La misma matriz pero con “etiquetas”

14

Dr. Tabaré Fernández 14


Matriz en Matemática
• Un arreglo rectangular de números, símbolos o
expresiones, organizadas en filas y columnas.

• A las filas se las identifican con la letra “i” , tal que i = 1,2,3,…. N

• A las columnas con la letra “j”, tal que j=1, 2,3,… M columnas

• Los elementos individuales en la matriz son


denominados “elementos”.

15

Dr. Tabaré Fernández 15


¿Qué es una matriz de datos en
Estadística?
• Una base de datos es una forma rectangular de filas
y columnas que organiza unidades y variables

• Las unidades de análisis definen los renglones o filas


• Las variables definen las columnas

• El encuentro (celda) de renglón y columna contiene


el valor que asume la variable para esa unidad.
• Genéricamente, le llamaremos DATO a cada celda
16

Dr. Tabaré Fernández 16


Matriz: arreglo de filas y columnas

17

Dr. Tabaré Fernández 17


Módulo II.
TEMA 3. unidad de análisis

18

Dr. Tabaré Fernández 18


Unidad de análisis

• Ejemplos

• Definición formal

19

Dr. Tabaré Fernández 19


Matriz de datos con unidad de
análisis personas

20

Dr. Tabaré Fernández 20


Matriz de datos con unidad de
análisis liceos

21

Dr. Tabaré Fernández 21


Matriz de datos con unidad de
análisis países

22

Dr. Tabaré Fernández 22


Tipos de unidades
• Las más clásicas:
• Individuos
• Hogares
• Organizaciones
• Países

• Otras de tipo
territorial:
• Barrios
• Localidades o ciudades
• Regiones
• Departamentos, provincias,
estados 23

Dr. Tabaré Fernández 23


Tipos de unidades (i)
• Las más clásicas:
• Individuos
Las unidades pueden
• Hogares
ser entidades:
• Organizaciones
• Países Biológicas (personas)

Colección de entidades
• Otras de tipo biológicas
territorial:
• Barrios Sociales (sin existencia
• Localidades o ciudades física)
• Regiones
• Departamentos, provincias,
estados 24

Dr. Tabaré Fernández 24


Tipos de unidades (ii)

• Otras unidades más “abstractas”


• Leyes o proyectos de ley
• Convenios colectivos
• Conflictos sindicales
• Programas sociales (por ejemplo, para alivio a la pobreza)
• Textos escolares (por ejemplo, de lectura o matemática)

25

Dr. Tabaré Fernández 25


Definición formal
• Al objeto que, perteneciendo a una colección, lo
caracterizamos a través de sus atributos o
propiedades.

• Si usáramos una analogía gramatical, la unidad de


análisis es el sujeto de las oraciones que nos
proponemos realizar en nuestras descripciones o
explicaciones.

• La unidad de análisis es el renglón o la fila de la


matriz de datos 26

Dr. Tabaré Fernández 26


Es una definición metodológica….
• Las unidades pueden variar de una situación a otra

• Son una función del interés que está por detrás de la


sistematización o resumen

• Ej: la calidad de la educación puede ser estudiada sobre:


• Aprendizaje de los estudiantes
• Resultados comparados de las escuelas
• Logros y problemas comparando unidades territoriales (barrios, localidades,
departamentos, regiones)
• Países

• Esto sirve para reforzar la idea de que las definiciones


metodológicas no son relativas a “esencias” 27
• Por ejemplo, departamento.

Dr. Tabaré Fernández 27


Modulo II.
TEMA 4. Variables
El contenido de este submódulo está en el Anexo del libro.

28

Dr. Tabaré Fernández 28


Indice
• Ubicación de la variable en la matriz de datos

• Noción general y definición de variable

• Tipos de variables:
• No métricas
• Nominales
• Ordinales
• Métricas
• Intervales
• De razón

• El caso particular de las variables dicotómicas 29

Dr. Tabaré Fernández 29


Ubicación de las variables en la
matriz

• Matriz de datos:
• Arreglo rectangular de filas y columnas
• En las filas se ubican las unidades
• En las columnas se ubican las variables
• Una celda informa del valor que tomó la variable (columna) en esa fila
(unidad). Se denomina dato. También podemos decir que es una
observación.

• Primera noción:
• Cada columna de una matriz es una variable.
30

Dr. Tabaré Fernández 30


Cada columna de una matriz es una
variable

31

Dr. Tabaré Fernández 31


¿Qué es una variable?
• Es un criterio
• Hay una definición explícita, operacional, pública y replicable

• Está referido a un concepto


• Su definición operativa está vinculada a un concepto
• Una variable se propone para “hacer observable un concepto”

• Es un criterio de clasificación
• clasifica unidades en categorías, clases, o valores

• Es exhaustivo
• todas las unidades deben ser clasificadas en una categoría
• Si el criterio es insuficiente o deja casos dudosos, puede agregarse una categoría “otros”

• Es excluyente
• Una misma unidad no puede estar clasificada en dos categorías o clases definidas por el mismo
concepto
32
• Representado, general pero no necesariamente, por números.

Dr. Tabaré Fernández 32


¿Qué es una variable?
• Concepto más general:

• Es un criterio de clasificación de unidades que establece


una regla de correspondencia entre conceptos y
números a los efectos de identificar con precisión las
características de cada unidad.

• Regla de correspondencia
• permite pasar del campo de los atributos o propiedades de las unidades
• al campo de los números.

33

Dr. Tabaré Fernández 33


Variables, números y textos
• La pregunta de un cuestionario sobre la localidad en la que nació el entrevistado
puede ingresarse en una matriz de datos en forma textual.

• Por ejemplo, la persona contesta que nació en la ciudad de Salto

• Se ingresa ¨ciudad de Salto”, “Salto”, “en Salto” , “salto”

• Sin embargo, desde un punto de vista práctico, esta información textual (alfa
numérica), luego se codifica (porque textualmente “Salto” no es igual a “salto”).

• La ciudad de salto recibe el código numérico establecido por el INE que es 15120

• De aquí en más, supondremos que la matriz tiene todas sus variables con
números.
34

Dr. Tabaré Fernández 34


Medición y variables (i)

• Las variables en una matriz de datos son el


resultado de un proceso de medición específico en
una investigación que tiene un diseño específico

• Definiremos medir como el proceso de asignar


números a los indicadores. 35

Dr. Tabaré Fernández 35


Medición y variables (ii)
• Para decidir cómo medir es necesario:
• Conocer las exigencias lógicas del concepto a ser medido. Es un tema de la
teoría. ¿Qué se quiere decir de la clase de objetos a los que se aplicará el
concepto?, Qué diferencias se harán entre los objetos nombrados por el
concepto?

• Determinar qué propiedades de los números representan (sintetizan o


cuantifican) el concepto según las particularidades de las unidades
observadas

• Anticipar las operaciones (resúmenes y transformaciones) que se quieren


hacer con esas variables.

• A continuación abordaremos el tema de los tipos de variables


resultantes del proceso de medición.
36

Dr. Tabaré Fernández 36


Proceso de medición y variable

Concepto Propiedades de los


• Exigencia lógica Números
• Teoría

Tipos de variables
Operaciones con • No métricas: nominal y
las variables ordinal
•Estadística para variables no
• Métricas: interval y razón
métricas
•Estadística para variables
métricas

37

Dr. Tabaré Fernández


3
7
Requisito I: exigencia lógica

• Regiones
• Nordeste, litoral, este, central, suroeste, metropolitana.

• Clase social
• Alta, media, baja
• Burguesía, pequeña burguesía, proletariado, lumpenproletariado
• Servicio, intermedias, trabajadoras, “underclass”

• Desigualdad 38

Dr. Tabaré Fernández 38


Requisito II: Propiedades de los
números (reales)
• Infinitud

• Nombre
• sus puntos tienen nombres distintos (numerales)

• Orden.
• hay un orden perfectamente establecido de manera que dado un numeral queda
determinada inequívocamente su posición en la recta de los reales, y dada la posición, el
numeral se conoce sin lugar a dudas.

• Magnitud
• es posible medir la distancia entre dos números cualesquiera, en términos del tamaño del
segmento que los separa, de tal manera que si en dos parejas de números existe la misma
separación, la magnitud de la distancia será la misma

• Origen: el cero
39

Dr. Tabaré Fernández 39


Propiedades de los números (II)
• Las propiedades están relacionadas por relaciones de inclusión:

• La magnitud es la más comprensiva y la infinitud es la menos comprensiva.

• La asignación de números a las variables no usa todas las propiedades, sólo


aquellas que requiere el concepto que se quiere medir.

• Hay conceptos que sólo requieren de los números el nombre .


• No necesitan orden, ni magnitud, ni origen.
• Salto tiene el código 15120
• En este caso, el número ha sido atribuido en forma discrecional, aunque
siguiendo una convención.

40

Dr. Tabaré Fernández 40


Tipos de variables
Tipos de variables Sub-tipos por nivel de medición clase especial

Variables dicotómicas
Nominales

No métricas

Ordinales

Intervales

Métricas

De razón

41

Dr. Tabaré Fernández 41


Variables no métricas (I): nominales

• El concepto para ser observado no requiere más que


distinguir entre clases o categorías (clasificación):

• Sexo, estado civil, departamento de residencia, etc.),


• Se utiliza sólo la propiedad de los números reales que
tiene relación con el nombre (“uno”, “dos”, “tres”)
• Se asigna el nombre de un número a una categoría del
indicador.
• La asignación es “arbitraria”
• Las otras propiedades no son necesarias. El orden y la
distancia no se utilizan.
42

Dr. Tabaré Fernández 42


Variables no métricas (II): ordinales

• El concepto para ser observado requiere distinguir


entre clases o categorías y establecer un orden entre
categorías
• Nivel educativo (Inicial, Primaria, Ciclo Básico, Media
Superior y Superior).

• Exigencia lógica: Operación igual, mayor y menor

• Se utilizan dos propiedades de los números reales: el


nombre y la posición en la recta
• La asignación de números a categorías no es arbitraria, debe existir
isomorfía entre ambos conjuntos. 43

Dr. Tabaré Fernández 43


Variables Métricas
• El concepto para ser observado requiere como exigencia lógica:

• distinguir entre clases o categorías,


• establecer un orden entre categorías
• Determinar la magnitud entre los valores

• Por ejemplo, el ingreso de una persona, la edad de la persona, el número de alumnos que
asisten a cada escuela, la superficie que ocupa un establecimiento rural

• Igualdad o diferencia de magnitudes.

• Se utilizan tres propiedades de los números reales: el nombre, la posición en la


recta y la distancia que representa el segmento entre 2 puntos.

44

Dr. Tabaré Fernández 44


Variables métricas (2)
• Intervales
• Nombre
• Orden
• distancia

• De razón
• Nombre
• Orden
• Distancia
• cero 45

Dr. Tabaré Fernández 45


Variables métricas (3)
• Intervales Escala de Autoritarismo de Adorno
• Nombre
• Orden Auto-identificación ideológica
• distancia

• De razón
• Nombre Porcentaje de respuestas correctas
• Orden Ingreso recibido por trabajo el mes
• Distancia pasado
• Cero absoluto 46
Número de empleos que ha tenido
el entrevistado
Dr. Tabaré Fernández 46
Variables dicotómicas (1)
• La estudiamos como una clasificación distinta de
variables
• Según el numero de categorías:
• dos (binaria o dicotómica)
• tres o más policotómicas

• Las dos valores que toma una variable dicotómica:


• Varón / mujer
• Presencia o ausencia
• Pareces de la casa hecha con materiales de desecho / paredes de otros
materiales
• Casa sin ningún tipo de drenaje a red o pozo negro / otros
47

Dr. Tabaré Fernández 47


Las dicotómicas …..
•Refleja una propiedad con sólo dos posibilidades:
presencia / ausencia.

•Si se considera que una variable así podría no


Una variable dicotómica métrica (nominal, ordinal) tanto como métrica
(interval, razón).

•Cambia es la interpretación, no los


procedimientos estadísticos.

No es única la decisión donde clasificar este tipo de variables


Clase “especial”
Son un caso “especial”

48

Dr. Tabaré Fernández


4
8

También podría gustarte