Documentos de Académico
Documentos de Profesional
Documentos de Cultura
METODOS Y TEC DE INV SOCIAL - Lectura 4 PDF
METODOS Y TEC DE INV SOCIAL - Lectura 4 PDF
Análisis de la
información
7. Análisis de la
información
7.1. Análisis e interpretación de los datos
Las tareas previas al análisis de datos, una vez completados todos los aspectos
de la captura, deben llevarse a cabo antes de iniciar el análisis propiamente
dicho. Esas tareas consisten en codificar las respuestas de preguntas abiertas,
cargar los datos y depurar errores de carga o inconsistencias.
1
Figura 1: Fases del análisis de datos
Para decidir qué tipo de análisis descriptivo se puede aplicar, hay que
considerar el nivel de medición de cada variable (nominal, ordinal, de intervalo
o de razón), al tiempo que las hipótesis a las que responde y cómo está
formulada.
Se denomina análisis univariado al que considera una por una cada variable del
estudio.
2
Figura 2: Análisis de datos
Fuente: [Imagen intitulada sobre análisis de datos] (s. f.). Recuperada de http://goo.gl/LVVo9q
Tomemos como ejemplo la encuesta sobre uso del tiempo (Indec, 2013) para
mostrar los conceptos involucrados en este módulo.
3
28,9 % respondió “No”, y el 0,1 % “Ns/Nr”. La cuarta columna indica los
porcentajes válidos. Como a esta pregunta la responden todos los encuestados,
coincide con la columna anterior. Pero si la pregunta se realizara a solo una
parte de los encuestados, el porcentaje de una y otra columna diferiría.
Finalmente, la quinta columna indica el porcentaje acumulado. Si bien puede
analizarse, en el caso de las variables cualitativas este análisis es menos
interesante que en el caso de las variables cuantitativas.
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Ns/Nr 64 ,1 ,1 100,0
4
Figura 4: Gráfico circular. Diagrama de sectores
5
Medidas de posición o tendencia central
Las medidas de tendencia central son medidas sintéticas que permiten indicar,
con un único número, un valor de referencia del conjunto de datos. Las
principales son: la media, la mediana y la moda.
Mediana = 5
Mo = 45 años
6
Tabla 2: Salida de SPSS. Estadísticas descriptivas
Estadísticos
Tiempo dedicado a trabajo voluntario
N Válido 65352
Perdidos 0
Media ,5487
Mediana ,0000
Moda ,00
Tomemos el conjunto de edades de los gerentes de 8 empresas: 40, 45, 45, 48,
52, 60, 65, 68. El rango es:
Rango = 68 – 40 = 28 años
Media: 52,875
7
para poder contar con una medida de dispersión, se eleva cada diferencia al
cuadrado. La varianza se calcula dividiendo la suma de desvíos al cuadrado en la
cantidad de casos:
40 -12,875 165,765625
45 -7,875 62,015625
45 -7,875 62,015625
48 -4,875 23,765625
52 -0,875 0,765625
60 7,125 50,765625
65 12,125 147,015625
68 15,125 228,765625
Suma: 0 740,875
Hay que tener en cuenta que la unidad de medida de la varianza está expresada
en la misma unidad de medida que la variable original, pero elevada al
cuadrado, como lo expresa el resultado anterior (en años2).
8
DS = 92,609 años2 = 9,623 años
Figura 6: Varianza
CV = (DS /Media).100
CV = (9,623/52,875).100 = 18,2 %
La siguiente tabla muestra la salida de SPSS respecto de medidas de dispersión, en este
caso de la variable “tiempo dedicado a trabajo voluntario”, con datos de la encuesta
de uso del tiempo (Indec, 2013).
Estadísticos
Tiempo dedicado a trabajo voluntario
N Válido 65352
Perdidos 0
Desviación estándar 3,16122
Varianza 9,993
Rango 105,00
Fuente: elaboración propia.
9
Medidas de asimetría y curtosis
Figura 7: Asimetría
10
Figura 8: Curtosis
N Válido 65352
Perdidos 0
Asimetría 11,570
Error estándar de asimetría ,010
Curtosis 188,328
Error estándar de curtosis ,019
11
Figura 9: Otras estadísticas descriptivas
Razones y tasas
12
Una tasa es la relación entre una categoría y un total. Por ejemplo, la tasa de
desocupación, que mide la proporción de la población activa que está sin
empleo en cierto período y busca uno de manera activa.
Una razón es un cociente entre dos categorías de una variable. Por ejemplo, la
razón de masculinidad en una población mide la cantidad de hombres respecto
de mujeres en un conjunto.
Referencias: Verde: es menor, mientras más intenso más reducida la tasa; Rojo: mayor,
mientras más intenso más elevada la tasa. Fuente: [Imagen intitulada sobre tasa de desempleo
en el mundo] (s. f.). Recuperada de https://goo.gl/ag8dGH
Referencias: Rosa: países con un índice de masculinidad menor que 1 (más mujeres que
hombres). Azul: países con un índice de masculinidad mayor que 1 (más hombres que mujeres).
Verde: países con un índice de 1. Gris: sin datos. Fuente: [Imagen intitulada sobre razón de
masculinidad en el mundo] (s. f.). Recuperada de http://goo.gl/0fKKHL
13
Análisis de la no respuesta
Validez y confiabilidad
Confiabilidad
Validez
14
poblacional) y a pruebas de hipótesis (decisiones basadas en una
fundamentación estadística).
Fuente: [Imagen intitulada sobre análisis de datos] (s. f.). Recuperada de http://goo.gl/1hA9S3
Este coeficiente sirve para cuantificar la relación entre dos variables, ambas
medidas en escalas de intervalo o razón.
15
Tabla 6: Interpretación del coeficiente de correlación
Valor Significa
-1 Correlación negativa perfecta.
-0.9 Correlación negativa muy fuerte.
-0,75 Correlación negativa considerable.
-0,5 Correlación negativa media.
-0,25 Correlación negativa reducida.
-0,1 Correlación negativa muy débil.
0 No existe correlación entre las variables.
0,1 Correlación positiva muy débil.
0,25 Correlación positiva reducida.
0,5 Correlación positiva media.
0,75 Correlación positiva considerable.
0,9 Correlación positiva muy fuerte.
1 Correlación positiva perfecta.
16
La fórmula de cálculo parece sumamente compleja, pero veamos con un
ejemplo cómo se aplica.
Tabla 7: Datos
Una primera exploración gráfica nos permite tener una hipótesis sobre la
relación entre las variables:
17
Figura 15: Diagrama de dispersión
10
9,5
9
8,5
8
7,5
7
6,5
6
5,5
5
5 6 7 8 9 10
Se observa una relación positiva entre las variables consideradas. Ahora, con el
coeficiente de correlación de Pearson, podemos cuantificar esta relación.
40 -12,875 165,765625
45 -7,875 62,015625
45 -7,875 62,015625
48 -4,875 23,765625
52 -0,875 0,765625
60 7,125 50,765625
65 12,125 147,015625
68 15,125 228,765625
Suma: 0 740,875
18
Tabla 9: Cálculo de coeficiente de correlación
Nota Notas
promedio promedio en
en el el primer año
secundario en la carrera
(xi) universitaria
(yi) xiyi xi2 yi2
6 5 30 36 25
7 6 42 49 36
7,5 6 45 56,25 36
7 8 56 49 64
8 6,5 52 64 42,25
8 7,5 60 64 56,25
9 8 72 81 64
19
r= 10 .536,9 - 77,1 . 68,5
10. 603,85- (77,1)2 10.482,25 –(68,5)2
r = 0,7917
20
Asociación entre dos variables categóricas
Jóvenes 48 42 60 150
Adultos 70 105 175 350
Total 118 147 235 500
Para obtener esta tabla que refleje independencia, tenemos que hacer algunos
cálculos auxiliares. Para esto tengamos presente los conceptos de frecuencias
marginales, que son las que corresponden a los márgenes de la tabla. Allí
figuran, tanto para fijas como para columnas, los totales. En la siguiente tabla
sólo dejamos los datos de las frecuencias marginales.
21
Tabla 11: Tabla de contingencia
Jóvenes 150
Adultos 350
Total 118 147 235 500
a11 = 35,4
22
a12= (150 . 147) / 500 = 44,1
a13= (150 . 235) / 500 = 70,5
a21= (350 . 118) / 500 = 82,6
a22= (350 . 147) / 500 = 102,9
a23= (350 . 235) / 500 = 164,5
Para determinar las diferencias, vamos a trabajar celda por celda y elevar tales
valores al cuadrado.
23
Generalmente, para una prueba estadística de la independencia de dos
variables categóricas, se usa el estadístico:
Que tiene distribución “chi” cuadrado, donde “O” hace referencia a los valores
de las frecuencias observadas y “E” a las frecuencias esperadas.
24
7.2 Informe y exposición de conclusiones
Fuente: [Imagen intitulada sobre otras estadísticas descriptivas] (s. f.). Recuperada de
http://goo.gl/WlktRs
25
Asimismo, no puede descuidarse la atención en cuanto a la situación o el
contexto. En este sentido, también siguiendo las recomendaciones de Naciones
Unidas (2009) tendientes a entender el contexto en el que se comunican los
datos, se sugiere “usar las herramientas del lenguaje, la estructura y la
presentación más apropiada para transmitir el mensaje” (p. 3).
26
Índices: tabla de contenido de todos los capítulos y, si corresponde, un
índice de tablas y figuras.
27
Método: se presentan el enfoque y los diseños adoptados, la
contextualización temporal y espacial, y aspectos de la muestra
utilizada. También deben estar los procedimientos, los métodos de
captura de datos y las operaciones de procesamiento y análisis
aplicadas.
28
estas referencias. En algunos casos el autor elige qué estilo usar; en
otros (por ejemplo, en artículos para revistas o congresos), se especifica
qué estilo se debe aplicar como condición.
comenzar cada párrafo con la idea central del párrafo. Luego desagregar
el análisis en sus componentes relevantes;
29
Cuando se elabora un gráfico para un reporte, se debe tener en cuenta que,
además de ser atractivo, no pierda sencillez, claridad y precisión. Un gráfico no
debe inducir a errores de interpretación. El tipo de gráfico que se defina aplicar
debe ser lo más sintético posible, de modo que haga más fáciles las
comparaciones y destaque las diferencias, si existen, o haga evidenciar las
tendencias que describe.
Gráfico de barras:
30
Figura 21: Gráficos de barras
Gráficos de líneas
Los gráficos de líneas permiten ilustrar tendencias a lo largo del tiempo. Por eso
es el tipo de gráfico más conveniente cuando se necesita mostrar series
temporales.
31
Figura 23: Gráficos de líneas
Gráficos circulares
32
La recomendación, desde el punto de vista de la comunicación, es que solo
conviene mostrar un pequeño número de categorías (no más de seis en un
gráfico).
“En la mayoría de los casos, gráficos como los de barras son más apropiados,
pero los gráficos circulares no se deben descartar por completo, ya que son
eficaces para visualizar la importancia relativa de una categoría en el total”
(Naciones Unidas, 2009, p. 23). Los gráficos circulares pueden ser muy útiles
para brindar una visión general, como en el ejemplo.
Diagrama de dispersión
33
¿Cómo lograr que un gráfico sea efectivo?
Los datos
La representación de los datos son las barras, líneas, sectores o puntos de los
diferentes gráficos mencionados previamente.
Información de apoyo
El título del gráfico debe dar una idea clara y concisa de lo que el gráfico
contiene. Los títulos pueden ser:
34
La fuente de los datos debe estar indicada en la parte inferior del
gráfico.
Figura 26: Dos gráficos con diferentes escalas para ilustrar los mismos datos
Nubes de etiquetas
Las nubes de etiquetas son una forma útil de identificar los términos comunes
de un texto y construir taxonomías de palabras clave.
35
Figura 27: Nube de etiquetas
Fuente: [Imagen intitulada sobre nube de palabras] (s. f.). Recuperada de http://goo.gl/lllPx4
Otros gráficos
36
Figura 29: Gráfico de sectores enriquecido
En primer lugar, la tabla que forma parte del reporte o de una presentación
tiene que tener algún nivel de síntesis y no todo el detalle de los datos
recogidos.
37
Fuente: indica de dónde provienen los datos, es decir, la organización
que elaboró los datos, el método de recogida de datos y el período de
obtención, si corresponde.
38
No dejar ninguna celda de datos vacía.
39
Referencias
Básica:
Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P. (2010).
Metodología de la investigación. México: Mc Graw Hill.
Ampliatoria:
Di Pietro, S.; Tófalo, A.; Medela, P. y Pitton, E. (2013). La situación educativa a través
de los censos nacionales de población. Dirección General de Evaluación de la Calidad
Educativa: Buenos Aires.
Rivas, A., Vera, A. & Bezem, P. (2010). Radiografía de la educación argentina. CIPPEC:
Buenos Aires.
Imágenes
40
Imagen intitulada sobre razón de masculinidad en el mundo] (s. f.). Recuperada de
http://goo.gl/0fKKHL
41