Está en la página 1de 48

Estadística Social

Básica
Módulo II . Temas:
(A) Tipos de datos (B)Matriz de datos. (C) Unidades. (D) Tipos de
Variables. (E) Operaciones con la matriz

Dr. Tabaré Fernández


Depto. Sociología / FCS / UDELAR
Agosto de 2018
1

Dr. Tabaré Fernández 1


Índice del módulo
• II.A. Tipos de datos (cuestiones metodológicas)
• Video en EVA

• II.B. Bases (o matriz) de datos


• Noción general
• Elementos

• II.C. Unidad de análisis


• Video en EVA y polimedia optativo para Mvdeo, obligatorio Noreste).

• II. D. Variables y tipos de variables

• II.E. Operaciones con la matriz de datos:


• II.E.1. Por el lado de las variables
• II.E.2. Por el lado de las unidades
• Video en EVA. 2

Dr. Tabaré Fernández 2


Bibliografía alternativa

• Cortés, Rubalcava & Fernández (2014) Capítulo 2: Matriz de datos.


Montevideo: FCS/UDELAR. (todo el capítulo)

• Galtung (1978) Teoria y métodos de la investigación social. Tomo I. EUDEBA.


Capítulo 1 (matriz), capítulo 2 (las unidades) y capítulo 3 (variables),

• Hernández, Fernández y Batista (2010) Metodología de Investigación. 5ta


Edición. MacGraw Hill. Pp. 210-228.

• Guardiola, P (2014) matriz de datos” En:


http://www.um.es/docencia/pguardio/documentos/Tec3.pdf

• Fernández, T. (2003) Matriz de datos (guía de clase). El Colegio de México.


http://tabarefernandez.tripod.com/ficha06.pdf 3

Dr. Tabaré Fernández 3


Módulo II - II.
Tema B: Matriz o Bases de datos
Su contenido está en el capítulo II del libro “Estadística Social Básica”.

Dr. Tabaré Fernández 4


Del diseño de la investigación a la
colecta de la información
• Una vez que se ha planteado un problema de
investigación, esto es:

• Una(s) pregunta(s)
• Una(s) hipótesis
• Objetivos

• La siguiente etapa del trabajo requiere decidir si:

• La información necesaria para responder al problema ya


existe (alguien hizo las observaciones antes) o si por el
5
contrario hay que producirla.
Dr. Tabaré Fernández 5
Si la información necesaria:

Existe •Datos Secundarios

No
•Datos Primarios
existe 6

Dr. Tabaré Fernández 6


En ambos casos..
• La información que habremos de utilizar para el
análisis estadístico estará (o lo más frecuente es
que estará) en formato de matriz de datos
• Si no tiene este formato, porque por ejemplo, está registrada en páginas
de un libro y en formato de texto, habrá que digitarla

• El instrumento de “recolección” de la información


será un cuestionario (papel o digital)

• Asociado al cuestionario, habrá un diccionario o


7
libro de códigos
Dr. Tabaré Fernández 7
Del
cuestionario
a la matriz
de datos

Dr. Tabaré Fernández 8


EDUCACIÓN MEDIA
1 Asiste actualmente
ASISTENCIA A EDUCACIÓN
e201 2 Sí, asistió
MEDIA
3 No asistió
FINALIZÓ EL NIVEL e201_1 1 = Sí / 2 = No
Para personas entre 12 y 29 años que
asistieron y no finalizaron el nivel
e202_1 1 = Sí / 2 = No Comenzó a trabajar
No tenía interés / Le interesaba
e202_2
1 = Sí / 2 = No aprender otras cosas
Diccionario RAZONES POR NO HABER
e202_3
Quedó usted o su pareja
1 = Sí / 2 = No embarazada
e202_4 1 = Sí / 2 = No Le resultaban difíciles las materias
FINALIZADO LA EDUCACIÓN
Por dificultades económicas (compra
MEDIA e202_8
1 = Sí / 2 = No de mat. de estudio, etc.)
Porque tuvo que atender asuntos
e202_5
1 = Sí / 2 = No familiares
e202_6 1 = Sí / 2 = No Otras razones
e202_6_1 Descripción
PRINCIPAL RAZÓN POR NO
HABER FINALIZADO LA e202_7
EDUCACIÓN MEDIA 1 Comenzó a trabajar
Solo para los que cursan o cursaron
Bachillerato tecnológico
CURSO O CARRERA QUE
e209_1
ESTUDIA / ESTUDIÓ Código Código del curso o carrera
1 Público
TIPO DE CENTRO EDUCATIVO e210_3
2 Privado
Solo para quienes asisten a educación
pública
RECIBE ALIMENTACIÓN EN EL
e211 1 = Sí / 2 = No
CENTRO EDUCATIVO
e211_1 N° Desayunos
CANTIDAD DE COMIDAS
e211_2 N° Almuerzos / cenas
SEMANALES
e211_3 N° Meriendas
1 Sí, beca MEC 9
BECAS e562 2 Sí, Compromiso Educativo
3 No recibe
EDUCACIÓN TÉCNICA
ASISTENCIA A EDUCACIÓN
Dr. Tabaré Fernández 1 Asiste actualmente 9
e212 2 Sí, asistió
TÉCNICA
3 No asistió
Matriz de datos personas ECH 2016 (una parte)

10

Dr. Tabaré Fernández 10


• Sinónimos en el marco de este curso
básico

• Matriz de datos
• Base de datos
Matriz de
datos o • En otros contextos son elementos
distintos
base de
datos • Matriz en matemática (más
general). Revisar en los
apuntes
• Tablas en informática
• Base de datos en informática
11
La matriz de datos (1)
• Es la forma de almacenar ordenada y sistemáticamente
la información tal que se puede operar sobre ella.

• Estas operaciones pueden ser:


• Procesamientos estadísticos (“resumenes”, estimaciones)
• modificación de las columnas de la matriz (transformaciones
por las variables)
• Limpieza de la base de datos (data cleaning) también llamada minería de datos
• Recodificaciones y creaciones de nuevas variables recodificadas
• Combinación de información contenida en varias variables (indices y tipologías)
• Modificación de las filas de la matriz (agregaciones o colapso 12
de la base de datos)
Dr. Tabaré Fernández 12
La matriz de datos (2)

• La información está almacenada permitiendo en


todo momento revisar y repasar lo que cada unidad
contestó.

• Es La organización más eficiente y eficaz de la


información para su posterior análisis será una
matriz.

13

Dr. Tabaré Fernández 13


Filas, donde se colocan
las unidades

Elementos
Columnas, donde se
de una
colocan las variables
matriz de
datos (3)
Celdas donde están los
valores (observados,
medidos)
14

Dr. Tabaré Fernández 14


La matriz de datos (una partecita..)

15

Dr. Tabaré Fernández 15


La misma matriz pero con “etiquetas”

16

Dr. Tabaré Fernández 16


Matriz en Matemática
• Un arreglo rectangular de números, símbolos o
expresiones, organizadas en filas y columnas.

• A las filas se las identifican con la letra “i” , tal que i = 1,2,3,…. N

• A las columnas con la letra “j”, tal que j=1, 2,3,… M columnas

• Los elementos individuales en la matriz son


denominados “elementos”.

17

Dr. Tabaré Fernández 17


¿Qué es una matriz de datos en
Estadística?
• Una base de datos es una forma rectangular de filas
y columnas que organiza unidades y variables

• Las unidades de análisis definen los renglones o filas


• Las variables definen las columnas

• El encuentro (celda) de renglón y columna contiene


el valor que asume la variable para esa unidad.
• Genéricamente, le llamaremos DATO a cada celda
18

Dr. Tabaré Fernández 18


Matriz: arreglo de filas y columnas

19

Dr. Tabaré Fernández 19


Módulo II.
TEMA C: unidad de análisis

20

Dr. Tabaré Fernández 20


Ejemplos
Unidad de
análisis

Definición
formal
21

Dr. Tabaré Fernández 21


¿Qué es la unidad de análisis? (1)

• Es la entidad sobre la cual la investigación produjo o


producirá conocimiento.

• En ocasiones también se le puede llamar el objeto de la


Investigación, aunque este término es más amplio e
incluye otros aspectos y no solamente las unidades

• Se le puede llamar también caso


22

Dr. Tabaré Fernández 22


¿Qué es la unidad de análisis? (2)

• Tal entidad está definida conceptualmente por la


investigación en forma precisa y en el capítulo “problema”
del Proyecto de Investigación
• Esa entidad forma parte de una clase de entidades. Por ejemplo, en la Tesis de Maestría
de la Prof. Mahira Gonzalez (2018) la unidad de análisis fue la Casa de la Universidad de
Cerro Largo (CUCEL), una de las sedes de la UDELAR en el interior del país.

• La unidad a observer en la investigación está operaciolmente


definida en la Metodología
• Es parte del capítulo “selección de unidades” del Proyecto
• De la clase de entidades actualmente existente (el “universo”), se toma una “muestra”
(que podría ser de una única entidad).
23

Dr. Tabaré Fernández 23


Unidad de análisis y registro
• Diremos la unidad observada aunque en ocasiones
la Información sobre la unidad haya sido registrada
indirectamente. Por ejemplo:

• Los datos de los niños menores en la ECH o en el Censo


son informados por uno de los adultos del hogar.
• Si la unidad de análisis es un centro educativo, la
Información puede ser registrada mediante respuestas
que dan los docentes y Estudiantes.

24

Dr. Tabaré Fernández 24


Tipos de unidades
• Las más clásicas:
• Individuos
• Hogares
• Organizaciones
• Países

• Otras de tipo
territorial:
• Barrios
• Localidades o ciudades
• Regiones
• Departamentos, provincias,
estados 25

Dr. Tabaré Fernández 25


Matriz de datos con unidad de
análisis personas

26

Dr. Tabaré Fernández 26


Matriz de datos con unidad de
análisis liceos

27

Dr. Tabaré Fernández 27


Matriz de datos con unidad de
análisis países

28

Dr. Tabaré Fernández 28


Tipos de unidades (i)
• Las más clásicas:
• Individuos
Las unidades pueden
• Hogares
ser entidades:
• Organizaciones
• Países Biológicas (personas)

Colección de entidades
• Otras de tipo biológicas
territorial:
• Barrios Sociales (sin existencia
• Localidades o ciudades física)
• Regiones
• Departamentos, provincias,
estados 29

Dr. Tabaré Fernández 29


Tipos de unidades (ii)

• Otras unidades más “abstractas”


• Leyes o proyectos de ley
• Convenios colectivos
• Conflictos sindicales
• Programas sociales (por ejemplo, para alivio a la pobreza)
• Textos escolares (por ejemplo, de lectura o matemática)

30

Dr. Tabaré Fernández 30


Definición formal
• Al objeto que, perteneciendo a una colección, lo
caracterizamos a través de sus atributos o
propiedades.

• Si usáramos una analogía gramatical, la unidad de


análisis es el sujeto de las oraciones que nos
proponemos realizar en nuestras descripciones o
explicaciones.

• La unidad de análisis es el renglón o la fila de la


matriz de datos 31

Dr. Tabaré Fernández 31


Es una definición metodológica….
• Las unidades pueden variar de una situación a otra

• Son una función del interés que está por detrás de la


sistematización o resumen

• Ej: la calidad de la educación puede ser estudiada sobre:


• Aprendizaje de los estudiantes
• Resultados comparados de las escuelas
• Logros y problemas comparando unidades territoriales (barrios, localidades,
departamentos, regiones)
• Países

• Esto sirve para reforzar la idea de que las definiciones


metodológicas no son relativas a “esencias” 32
• Por ejemplo, departamento.

Dr. Tabaré Fernández 32


Modulo II.
TEMA D: Variables
El contenido de este submódulo está en el Anexo del libro de Cortés et al (2014) y
en Hernández et al (2010), entre otros.

33

Dr. Tabaré Fernández 33


Cada columna de una matriz es una
variable

34

Dr. Tabaré Fernández 34


Primera noción
• Toda columna de la matriz de datos es una variable

• En los textos de metodología además del término variable se


puede encontrar el término indicador
• Por tal se entiende aquella variable que el investigador afirma que mide válidamente cierto
concepto.
• El término indicador es un término “relacional”: remarca que entre una variable y un concepto
debería haber una relación teóricamente sustantada.

• En algunos casos se hablan de índices :


• Por ejemplo, el índice de equipamiento del hogar. En este sentido, también son variables, un
caso particular que se distingue solo por la forma en que se han construido
• Pero en otro sentido, como podría ser el “índice de criminalidad” o el “índice de repetición” o
el “índice de masculindad”, son resúmenes hechos sobre lo que sucede con las unidades
(personas) en relación de algunos atributos (víctimas, repetición o sexo).

• En Psicometría
• Suele hablarse de ítemes en lugar de variables, aunque el sentido estadístico es el mismo. 35

Dr. Tabaré Fernández 35


¿Qué es una variable?
• General:
• Es un criterio de clasificación de unidades que establece
una regla de correspondencia entre conceptos y
números a los efectos de identificar con precisión las
características de cada unidad.

• Regla de correspondencia
• permite pasar del campo de los atributos o propiedades de las unidades
• al campo de los números.

• Criterio de clasificación, exhaustivo y excluyente.


• basado en una conceptualización
• Representado, general pero no necesariamente, por números.
36

Dr. Tabaré Fernández 36


Variables, números y textos
• La pregunta de un cuestionario sobre la localidad en la que nació el entrevistado
puede ingresarse en una matriz de datos en forma textual.

• Por ejemplo, la persona contesta que nació en la ciudad de Salto

• Se ingresa ¨ciudad de Salto”, “Salto”, “en Salto” , “salto”

• Sin embargo, desde un punto de vista práctico, esta información textual (alfa
numérica), luego se codifica (porque textualmente “Salto” no es igual a “salto”).

• La ciudad de salto recibe el código numérico establecido por el INE que es 15120

• De aquí en más, supondremos que la matriz tiene todas sus variables con
números.
37

Dr. Tabaré Fernández 37


Medición y variables (i)

• Las variables en una matriz de datos son el resultado de


un proceso de medición específico en una investigación
que tiene un diseño específico

• Definiremos medir como el proceso de asignar números


a los indicadores.

• Medir NO quiere decir aquí “cuantificar” 38

Dr. Tabaré Fernández 38


Medición y variables (ii)
• Para decidir cómo medir es necesario:
• Conocer las exigencias lógicas del concepto a ser medido. Es un tema de la
teoría. ¿Qué se quiere decir de la clase de objetos a los que se aplicará el
concepto?, Qué diferencias se harán entre los objetos nombrados por el
concepto?

• Determinar qué propiedades de los números representan (sintetizan o


cuantifican) el concepto según las particularidades de las unidades
observadas

• Anticipar las operaciones (resúmenes y transformaciones) que se quieren


hacer con esas variables.

• A continuación abordaremos el tema de los tipos de variables


resultantes del proceso de medición.
39

Dr. Tabaré Fernández 39


Proceso de medición y variable

Concepto Propiedades de los


• Exigencia lógica Números
• Teoría

Tipos de variables
Operaciones con • No métricas: nominal y
las variables ordinal
•Estadística para variables no
• Métricas: interval y razón
métricas
•Estadística para variables
métricas

40

Dr. Tabaré Fernández


4
0
Requisito I: exigencia lógica

• Regiones
• Nordeste, litoral, este, central, suroeste, metropolitana.

• Clase social
• Alta, media, baja
• Burguesía, pequeña burguesía, proletariado, lumpenproletariado
• Servicio, intermedias, trabajadoras, “underclass”

• Desigualdad 41

Dr. Tabaré Fernández 41


Requisito II: Propiedades de los
números (reales)
• Infinitud

• Nombre
• sus puntos tienen nombres distintos (numerales)

• Orden.
• hay un orden perfectamente establecido de manera que dado un numeral queda
determinada inequívocamente su posición en la recta de los reales, y dada la posición, el
numeral se conoce sin lugar a dudas.

• Magnitud
• es posible medir la distancia entre dos números cualesquiera, en términos del tamaño del
segmento que los separa, de tal manera que si en dos parejas de números existe la misma
separación, la magnitud de la distancia será la misma

• Origen: el cero
42

Dr. Tabaré Fernández 42


Propiedades de los números (II)
• Las propiedades están relacionadas por relaciones de inclusión:

• La magnitud es la más comprensiva y la infinitud es la menos comprensiva.

• La asignación de números a las variables no usa todas las propiedades, sólo


aquellas que requiere el concepto que se quiere medir.

• Hay conceptos que sólo requieren de los números el nombre .


• No necesitan orden, ni magnitud, ni origen.
• Salto tiene el código 15120
• En este caso, el número ha sido atribuido en forma discrecional, aunque
siguiendo una convención.

43

Dr. Tabaré Fernández 43


Tipos de variables
Tipos de variables Sub-tipos por nivel de medición clase especial

Variables dicotómicas
Nominales

No métricas

Ordinales

Intervales

Métricas

De razón

44

Dr. Tabaré Fernández 44


Variables no métricas (I): nominales

• El concepto para ser observado no requiere más que


distinguir entre clases o categorías (clasificación):

• Sexo, estado civil, departamento de residencia, etc.),


• Se utiliza sólo la propiedad de los números reales que
tiene relación con el nombre (“uno”, “dos”, “tres”)
• Se asigna el nombre de un número a una categoría del
indicador.
• La asignación es “arbitraria”
• Las otras propiedades no son necesarias. El orden y la
distancia no se utilizan.
45

Dr. Tabaré Fernández 45


Variables no métricas (II): ordinales

• El concepto para ser observado requiere distinguir


entre clases o categorías y establecer un orden entre
categorías
• Nivel educativo (Inicial, Primaria, Ciclo Básico, Media
Superior y Superior).

• Exigencia lógica: Operación igual, mayor y menor

• Se utilizan dos propiedades de los números reales: el


nombre y la posición en la recta
• La asignación de números a categorías no es arbitraria, debe existir
isomorfía entre ambos conjuntos. 46

Dr. Tabaré Fernández 46


Variables Métricas
• El concepto para ser observado requiere como exigencia lógica:

• distinguir entre clases o categorías,


• establecer un orden entre categorías
• Determinar la magnitud entre los valores

• Por ejemplo, el ingreso de una persona, la edad de la persona, el número de alumnos que
asisten a cada escuela, la superficie que ocupa un establecimiento rural

• Igualdad o diferencia de magnitudes.

• Se utilizan tres propiedades de los números reales: el nombre, la posición en la


recta y la distancia que representa el segmento entre 2 puntos.

47

Dr. Tabaré Fernández 47


Las dicotómicas …..
•Refleja una propiedad con sólo dos posibilidades:
presencia / ausencia.

•Si se considera que una variable así poddría no


Una variable dicotómica métrica (nominal, ordinal) tanto como métrica
(interval, razón).

•Cambia es la interpretación, no los


procedimientos estadísticos.

No es única la decisión donde clasificar este tipo de variables


Clase “especial”
Son un caso “especial”

48

Dr. Tabaré Fernández


4
8

También podría gustarte