Está en la página 1de 48

ANALISIS DE DATOS EN CIENCIAS

SOCIALES
MENEJO DEL PAQUETE SPSS
Mercedes Fernández Liporace
Alejandro Castro Solano
Colaboradora Docente: Ma. Alejandra Carreras
Universidad de Buenos Aires
Investigación científica

 Planteo de problemas de investigación


 Descubrimiento de la organización de los
fenómenos, relaciones entre ellos, leyes que
las regulan
 Procedimiento para alcanzar un
conocimiento riguroso y objetivo de la
realidad: replicable, contrastable
empíricamente y comunicable
 Relevancia y transferencia
Circuito de una investigación

Teoría

Conceptos

Problema
Hipótesis

Datos (empiria)
Fases de una investigación

 Planteo del problema


 Búsqueda de antecedentes teóricos y empíricos
 Formulación de objetivos e hipótesis
 Diseño
 Recogida y análisis de datos
 Interpretación, discusión y generalización de
resultados
 Transferencia de conocimientos y de tecnología
Planteo del problema

 Pregunta para la que no hay respuesta


 Requisitos:
 Resoluble
 Claro, sin ambigüedades
 Circunscripto
 Contrastable empíricamente

 Implica apelar a conocimientos anteriores (marco


teórico y antecedentes empíricos)
Objetivos

 Son el “qué” de la investigación


 “¿Qué se va a hacer?”
 Generales y específicos
 Determinan el tipo de estudio desde el principio
 Exploratorio
 Descriptivo
 Correlacional
 De diferencias entre grupos
 Explicativo
Hipótesis
 “¿Qué resultado se espera obtener?”
 Afirmaciones que establecen relaciones entre
variables
 Posible explicación o descripción del problema.
 Debe ser contrastable empíricamente
 Hipótesis de trabajo e hipótesis nula
 Hipótesis alternativa e hipótesis rival plausible

 No siempre se dispone de HIPÓTESIS (según


tipo de estudio)
Diseño
 Plan estructurado de acción para intentar responder al
problema
 Aspectos que intervienen: objetivos, naturaleza del
problema y de las hipótesis, variables, universo, unidades
de análisis, muestreo, instrumentos, procedimiento y
análisis de datos

 Tiene que ver con la estrategia científica de partida:

 Observacional
 Selectiva
 Cuasiexperimental
 Experimental
Recogida y análisis de datos

 Determinada por el diseño (procedimiento)


 Estadística: amplio cuadro de herramientas al
servicio del método científico

 Estadística Descriptiva e Inferencial


 Paso previo: Análisis Exploratorio
 Elección de la prueba estadística: nº de
variables, papel, nivel de medición, distribución
Interpretación de resultados
 En ciencia no hay verdades absolutas: los resultados
deben expresarse en términos probabilísticos
 Margen de error .......Significación ()

 Deben relacionarse con los antecedentes y preverse sus


implicaciones prácticas. Actitud prospectiva y predictiva

 Aceptación o rechazo de la hipótesis de trabajo A LA LUZ


DEL MARCO TEORICO
Generalización de resultados
 Determinar a qué población es posible
generalizar los resultados (muestreo)

 Problema de la representatividad de la muestra:

* Sujetos
* Contexto

Validez Externa
Validez Ecológica
Redacción del informe

Oportunidad de replicación

Requisitos: completo, conciso, preciso,


claro, gramaticalmente correcto y ameno

Responder breve y claramente a los


objetivos planteados
Apartados de una comunicación
científica

 Introducción Marco Teórico y antecedentes


 Planteo del problema
 Objetivos General y específicos
 Hipótesis Si corresponde
Estudio y diseño
Variables e instrumentos
 Método Sujetos y muestreo
Procedimiento y análisis de datos
Hallazgos en detalle
 Resultados
Relectura de resultados a la luz del
 Discusión
marco teórico
 Referencias y Anexos
Estadística
Variables
 Toda característica o dimensión de un sujeto (u objeto)
susceptible de adoptar distintos valores o nombres

 Criterios clasificatorios
– Nivel de medida (Stevens, 1951):
 Nominales o cualitativas
 Ordinales o semicuantitativas
 Intervalo
 Razón Cuantitativas

– Su papel en la investigación
 Independientes (predictores)
 Dependientes (criterio)
Variables nominales o cualitativas
 Los números no implican cantidad ni orden o jerarquía,
sino cualidad, categorías, función identificatoria (sexo,
estado civil, lugar de residencia).
 Dicotómicas o politómicas

Ejemplos: nacionalidad sexo


1. argentino 1. masc
2. boliviano 2. fem
3. chileno
4. peruano
Variables ordinales
 Los números reflejan jerarquía, no cantidad del atributo
 Establecen relaciones de orden (mayor o menor)

 No existe una unidad de medida objetiva


 Es un nivel semicuantitativo

Ejemplo: En su opinión, la calidad pedagógica de este docente


es…..
* Totalmente inadecuada (1)
* Algo inadecuada (2)
* Bastante adecuada (3)
* Muy adecuada (4)
* Totalmente adecuada (5)
Variables cuantitativas,
métricas o de escala

Intervalos Razones
 Unidad de medida objetiva € Existencia de un cero
pero no cero absoluto o absoluto
“ausencia de atributo”
Ejemplo: NIVEL DE
Ejemplos: TEMPERATURA o INGRESOS
C.I.

Niveles de medida débiles y


fuertes
Análisis de datos

Análisis descriptivo
Análisis inferencial

Análisis exploratorio
Análisis exploratorio
Razones para examinar los datos

 Seguridad activa: Procedimiento de recogida de datos


 Seguridad pasiva:
 Problema I: los datos no son buenos
 Archivo de datos: depuración de errores e incoherencias.
 Problema II: falta de respuesta
 Tamaño de la muestra (potencia de los contrastes) y sesgo de los
resultados (no se distribuyen al azar)
 Problema III: casos anómalos
 Elección de la prueba o estadístico adecuado; tratamiento de
outliers
 Problema IV: herramientas estadísticas adecuadas
 Comprobación de supuestos paramétricos: pruebas paramétricas
vs. no paramétricas.
Depuración de errores e incoherencias

 Estimación de la calidad de los datos


 Cálculo de la cantidad de errores que pueden
contener, antes de proceder a su análisis

¿CÓMO?
 Selección de una muestra de datos
 Comprobación de cuántos errores existen en ella
 Estimación del total de errores en la muestra total
 Decidir si es preciso revisar la matriz total o asumir el
error encontrado
Valores perdidos o missings

Se corre grave riesgo en dos sentidos:

 Reducción excesiva del tamaño de la muestra


(disminución de la potencia de los contrastes)
 Sesgo en los resultados si los missings no se
distribuyen aleatoriamente (ingresos)

 Si la ausencia de información es pequeña y al azar,


es posible analizar los datos directamente
Identificación de missings

 Identificar los sujetos con muchos


missings

 Identificar las variables con muchos


missings
Pertinencia de la sustitución
 EN VARIABLES CLAVE:
 Dividir la muestra en dos grupos: los que responden (1)
y los que no responden a esa variable (2) (Recodificar
en una nueva variable)
 Eliminar los casos missing de manera completa

 EN VARIABLES SECUNDARIAS:
 Mantener los missings si no exceden un porcentaje
razonable

 Imputación de missings
El boxplot

600000

500000
10

400000

300000
9

200000

100000

0
N= 20

INGRESOS
Comprobación de supuestos

 Elegir la prueba estadística adecuada en cada


caso

 Pruebas paramétricas y no paramétricas

Ejemplos:
– t de Student y Anova
– U de Mann-Withney y 2
¿Cuáles son esos SUPUESTOS?
 LINEALIDAD: relación lineal entre las variables
analizadas
 ALEATORIEDAD o independencia de las medidas: que
los sujetos hayan sido seleccionados al azar

 NORMALIDAD: que la VD se distribuya


normalmente
 HOMOCEDASTICIDAD u homogeneidad de
varianzas: que los distintos grupos posean una
variabilidad similar
Comprobación de supuestos
 NORMALIDAD: prueba K-S

 HOMOCEDASTICIDAD: prueba de Levenne

 ALEATORIEDAD: prueba de las Rachas

 LINEALIDAD: gráfico de dispersión y correlación

 Se asume que se cumplen los supuestos, salvo


que las pruebas sean significativas (p< 0.05)
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
INGRESOS ,257 20 ,001 ,717 20 ,010**
**. Este es un límite superior de la significación verdadera.

Normalidad a. Corrección de la significación de Lilliefors


Si los supuestos no se cumplen

DOS ALTERNATIVAS:

Recurrir a una prueba no paramétrica o

TRANSFORMAR LA VARIABLE

-1/X2 -1/X log X X X X2 X3 antilog X

Fuerte Suave Sin cambio Suave Fuerte

Asimetría + Asimetría -
Cola hacia arriba Cola hacia abajo
Casos próximos al valor pequeño Casos próximo valor grande
Análisis estadístico  Tipo de estudio
OBJETIVOS

Descriptivo  Exploratorio
 Descriptivo

Inferencial  Correlacional
 De diferencias entre
grupos
 Explicativos
Estadística descriptiva

Objetivo: resumir e ilustrar en forma sencilla el


comportamiento de un conjunto de datos
 Frecuencias (f, f% y fa)
 Descriptivos
 Medidas de tendencia central
 Medidas de variabilidad
 Medidas de posición
 Medidas de distribución

 Tablas con descriptivos y/o %


 Gráficos
Frecuencias
Edad

Cumulative
Frequency Percent Valid Percent Percent
Valid 12 10 3,3 3,3 3,3
13 90 29,3 29,3 32,6
14 110 35,8 35,8 68,4
15 55 17,9 17,9 86,3
16 27 8,8 8,8 95,1
17 9 2,9 2,9 98,0
18 4 1,3 1,3 99,3
19 2 ,7 ,7 100,0
Total 307 100,0 100,0

Sexo

Cumulative
Frequency Percent Valid Percent Percent
Valid masc 105 34,2 34,3 34,3
fem 201 65,5 65,7 100,0
Total 306 99,7 100,0
Missing System 1 ,3
Total 307 100,0
Edades y estudios

8,6%
20,5%
61,5%
9,6%

0 20 40 60 80

12 años 13 años 14 años 15 años

Primarios
Medios
34,9% 24,7%
Superiores

40,5%
Descriptivos más utilizados
(tendencia central, dispersión, posición)

Statistics

Edad
N Valid 307
Missing 0
Mean 14,17
Median 14,00
Mode 14
Sum 4350 Statistics

Edad
N Valid 307
Statistics
Missing 0
Std. Deviation 1,25 Edad
Variance 1,57 N Valid 307
Range 7 Missing 0
Minimum 12 Percentiles 1 12,00
Maximum 19 5 13,00
25 13,00
50 14,00
75 15,00
90 16,00
97 17,00
99 18,00
Comparación de medias

22,5
22 22,16
21,5
21 21,18
20,5 20,48
20
19,5
1988 1993 1998
Estadística inferencial

Objetivos:

 Estimación de parámetros

 Contrastes de hipótesis
 Correlacionales
 De diferencias entre grupos
– Paramétricos
– No paramétricos
Regresión
 Permite la predicción del
comportamiento de una
variable (criterio),
basándonos en otra variable
Model Summary (predictor)
Model R R Square
Adjusted
R Square
Std. Error of
the Estimate
 R2: C.Determinación
1 ,812a ,659 ,652 7,54 (proporción de la variación
a. Predictors: (Constant), Cantidad de veces que
concurre en trimestre de Y explicada por la
variación de x; utilidad del
modelo)
 Sig: signif del modelo de
predicción
Correlación

 Cuantifica la intensidad
y sentido de la relación
entre dos variables Correlations

criterio
 No implica causalidad Puntuación
total 8 items
externo 10
valores
Puntuación total 8 items Pearson Correlation 1,000 ,939**

 Implica asociación Sig. (2-tailed)


N
,
750
,000
50
criterio externo 10 valores Pearson Correlation ,939** 1,000
 Afectada por los Sig. (2-tailed) ,000 ,
N 50 50

errores de medición **. Correlation is significant at the 0.01 level (2-tailed).


Supuestos cumplidos

VD cuantitativa,
PRUEBAS normalidad y
PARAMÉTRICAS homocedasticidad

2 grupos
 INDEPENDIENTES: t de Student para muestras independ
(puntuación en un test para hombres y mujeres)
 RELACIONADOS: t de Student para muestras relacionadas
(tasa cardíaca antes y después de la ingesta de un
fármaco)
K grupos
 INDEPENDIENTES: ANOVA One Way
(ingresos económicos en 3 grupos de educación)
 RELACIONADOS: ANOVA de Medidas Repetidas
(tiempo de reacción antes y después de ingesta fármaco)
Prueba t para grupos independientes

Group Statistics

Std. Error
Sexo N Mean Std. Deviation Mean
Puntuación total 8 items Masculino 375 60,34 11,74 ,61
Femenino 375 57,86 12,12 ,63

Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
F Sig. t df Sig. (2-tailed)
Puntuación total 8 items Equal variances
,162 ,687 2,847 748 ,005
assumed
Equal variances
2,847 747,227 ,005
not assumed
ANOVA One Way
ANOVA

PJE. BRUTO
Sum of
Squares df Mean Square F Sig.
Between Groups 4381,311 4 1095,328 6,603 ,000
Within Groups 105674,8 637 165,895
Total 110056,1 641
PJE. BRUTO
a,b
Tukey B
Subset for alpha = .05
EDUCACIOADULTO N 1 2
terciario/universitario
212 24,78
completo
secundario
completo-terciario/univ. 238 27,81
incompleto
NO CONTESTA 23 29,26
primario
completo-secundario 153 29,59
incompleto
primario incompleto 16 38,81
Means for groups in homogeneous subsets are displayed.
a. Uses Harmonic Mean Sample Size = 41,175.
b. The group sizes are unequal. The harmonic mean of the
group sizes is used. Type I error levels are not
guaranteed.
VD ordinal
nominal o
cuantitativa
PRUEBAS NO
sin supuestos
PARAMÉTRICAS

2 grupos
 INDEPENDIENTES:
VD nominal: X2 (con corrección de continuidad si es una tabla 2 x2)
(tabaquismo presente o ausente según sexo)
VD ordinal: U de Mann – Whitney
(Ranking de popularidad entre políticos de dos partidos)
 RELACIONADOS:
VD Nominal: Mc Nemar (para variables dicotómicas)
(presencia o ausencia de alucinaciones antes y desp de fármaco)
VD Ordinal: T de Wilcoxon
(ranking de severidad del trastorno antes y desp de tratamiento)

K grupos
 INDEPENDIENTES:
VD nominal: X2
(tipo de trastorno psiquiátrico según región geográfica)
VD ordinal: Kruskal-Wallis (One Way)
(severidad del retraso intelect sec. según varias enfermed base)
 RELACIONADOS
VD nominal: Cochran (para variables dicotómicas)
(síntoma presente o ausente a lo largo de los últimos seis meses)
VD ordinal: Friedman
(ranking de rendimiento académico según ciclo EGB y Polimodal)
Prueba t para grupos independientes

Paired Samples Statistics

Std. Error
Mean N Std. Deviation Mean
Pair Nº DE CIGARRILLOS
1 ANTES DEL 16,30 20 8,86 1,98
TRATAMIENTO
Nº DE CIGARRILLOS
DESPUES DEL 11,05 20 6,92 1,55
TRATAMIENTO

Paired Samples Test

t df Sig. (2-tailed)
Pair Nº DE CIGARRILLOS ANTES DEL
1 TRATAMIENTO - Nº DE CIGARRILLOS 4,682 19 ,000
DESPUES DEL TRATAMIENTO
Mann - Whitney
Ranks

SEXO N Mean Rank Sum of Ranks


ACTITUD ABORTO HOMBRE 9 6,72 60,50
MUJER 11 13,59 149,50
Total 20

Test Statisticsb

ACTITUD
ABORTO
Mann-Whitney U 15,500
Wilcoxon W 60,500
Z -2,643
Asymp. Sig. (2-tailed) ,008
Exact Sig. [2*(1-tailed a
,007
Sig.)]
a. Not corrected for ties.
b. Grouping Variable: SEXO
X2

Fracaso escolar * Clases de apoyo Crosstabulation

Count
Clases de apoyo
Sí No Total
Fracaso Sí 4 7 11
escolar No 6 3 9
Total 10 10 20

Chi-Square Tests

Asymp. Sig. Exact Sig. Exact Sig.


Value df (2-sided) (2-sided) (1-sided)
Pearson Chi-Square 1,818b 1 ,178
Continuity Correctiona ,808 1 ,369
Likelihood Ratio 1,848 1 ,174
Fisher's Exact Test ,370 ,185
Linear-by-Linear
1,727 1 ,189
Association
N of Valid Cases 20
a. Computed only for a 2x2 table
b. 2 cells (50,0%) have expected count less than 5. The minimum expected count is
4,50.
Kruskall Wallis One Way

Ranks

Provincia N Mean Rank


Nivel de Córdoba 10 26,20
Contaminación aguas Bs As 10 13,60
San Juan 10 13,60
Mendoza 10 28,60
Total 40
Test Statisticsa,b

Nivel de
Contamina
ción aguas
Chi-Square 16,110
df 3
Asymp. Sig. ,001
a. Kruskal Wallis Test
b. Grouping Variable: Provincia

También podría gustarte