Estadistica Básica

ANALISIS DE DATOS EN CIENCIAS
SOCIALES
MENEJO DEL PAQUETE SPSS
Mercedes Fernández Liporace
Alejandro Castro Solano
Colaboradora Docente: Ma. Alejandra Carreras
Universidad de Buenos Aires
Investigación científica
 Planteo de problemas de investigación

 Descubrimiento de la organización de los
fenómenos, relaciones entre ellos, leyes que
las regulan
 Procedimiento para alcanzar un
conocimiento riguroso y objetivo de la
realidad: replicable, contrastable
empíricamente y comunicable
 Relevancia y transferencia
Circuito de una investigación
Teoría
Conceptos
Problema
Hipótesis
Datos (empiria)
Fases de una investigación
 Planteo del problema

 Búsqueda de antecedentes teóricos y empíricos
 Formulación de objetivos e hipótesis
 Diseño
 Recogida y análisis de datos
 Interpretación, discusión y generalización de
resultados
 Transferencia de conocimientos y de tecnología
Planteo del problema
 Pregunta para la que no hay respuesta

 Requisitos:
 Resoluble
 Claro, sin ambigüedades
 Circunscripto
 Contrastable empíricamente
 Implica apelar a conocimientos anteriores (marco

teórico y antecedentes empíricos)
Objetivos
 Son el “qué” de la investigación

 “¿Qué se va a hacer?”
 Generales y específicos
 Determinan el tipo de estudio desde el principio
 Exploratorio
 Descriptivo
 Correlacional
 De diferencias entre grupos
 Explicativo
Hipótesis
 “¿Qué resultado se espera obtener?”
 Afirmaciones que establecen relaciones entre
variables
 Posible explicación o descripción del problema.
 Debe ser contrastable empíricamente
 Hipótesis de trabajo e hipótesis nula
 Hipótesis alternativa e hipótesis rival plausible
 No siempre se dispone de HIPÓTESIS (según

tipo de estudio)
Diseño
 Plan estructurado de acción para intentar responder al
problema
 Aspectos que intervienen: objetivos, naturaleza del
problema y de las hipótesis, variables, universo, unidades
de análisis, muestreo, instrumentos, procedimiento y
análisis de datos
 Tiene que ver con la estrategia científica de partida:
 Observacional
 Selectiva
 Cuasiexperimental
 Experimental
Recogida y análisis de datos
 Determinada por el diseño (procedimiento)

 Estadística: amplio cuadro de herramientas al
servicio del método científico
 Estadística Descriptiva e Inferencial

 Paso previo: Análisis Exploratorio
 Elección de la prueba estadística: nº de
variables, papel, nivel de medición, distribución
Interpretación de resultados
 En ciencia no hay verdades absolutas: los resultados
deben expresarse en términos probabilísticos
 Margen de error .......Significación ()
 Deben relacionarse con los antecedentes y preverse sus

implicaciones prácticas. Actitud prospectiva y predictiva
 Aceptación o rechazo de la hipótesis de trabajo A LA LUZ

DEL MARCO TEORICO
Generalización de resultados
 Determinar a qué población es posible
generalizar los resultados (muestreo)
 Problema de la representatividad de la muestra:
* Sujetos
* Contexto
Validez Externa
Validez Ecológica
Redacción del informe
Oportunidad de replicación
Requisitos: completo, conciso, preciso,

claro, gramaticalmente correcto y ameno
Responder breve y claramente a los

objetivos planteados
Apartados de una comunicación
científica
 Introducción Marco Teórico y antecedentes

 Planteo del problema
 Objetivos General y específicos
 Hipótesis Si corresponde
Estudio y diseño
Variables e instrumentos
 Método Sujetos y muestreo
Procedimiento y análisis de datos
Hallazgos en detalle
 Resultados
Relectura de resultados a la luz del
 Discusión
marco teórico
 Referencias y Anexos
Estadística
Variables
 Toda característica o dimensión de un sujeto (u objeto)
susceptible de adoptar distintos valores o nombres
 Criterios clasificatorios
– Nivel de medida (Stevens, 1951):
 Nominales o cualitativas
 Ordinales o semicuantitativas
 Intervalo
 Razón Cuantitativas
– Su papel en la investigación
 Independientes (predictores)
 Dependientes (criterio)
Variables nominales o cualitativas
 Los números no implican cantidad ni orden o jerarquía,
sino cualidad, categorías, función identificatoria (sexo,
estado civil, lugar de residencia).
 Dicotómicas o politómicas
Ejemplos: nacionalidad sexo

1. argentino 1. masc
2. boliviano 2. fem
3. chileno
4. peruano
Variables ordinales
 Los números reflejan jerarquía, no cantidad del atributo
 Establecen relaciones de orden (mayor o menor)
 No existe una unidad de medida objetiva

 Es un nivel semicuantitativo
Ejemplo: En su opinión, la calidad pedagógica de este docente

es…..
* Totalmente inadecuada (1)
* Algo inadecuada (2)
* Bastante adecuada (3)
* Muy adecuada (4)
* Totalmente adecuada (5)
Variables cuantitativas,
métricas o de escala
Intervalos Razones
 Unidad de medida objetiva € Existencia de un cero
pero no cero absoluto o absoluto
“ausencia de atributo”
Ejemplo: NIVEL DE
Ejemplos: TEMPERATURA o INGRESOS
C.I.
Niveles de medida débiles y

fuertes
Análisis de datos
Análisis descriptivo
Análisis inferencial
Análisis exploratorio
Análisis exploratorio
Razones para examinar los datos
 Seguridad activa: Procedimiento de recogida de datos

 Seguridad pasiva:
 Problema I: los datos no son buenos
 Archivo de datos: depuración de errores e incoherencias.
 Problema II: falta de respuesta
 Tamaño de la muestra (potencia de los contrastes) y sesgo de los
resultados (no se distribuyen al azar)
 Problema III: casos anómalos
 Elección de la prueba o estadístico adecuado; tratamiento de
outliers
 Problema IV: herramientas estadísticas adecuadas
 Comprobación de supuestos paramétricos: pruebas paramétricas
vs. no paramétricas.
Depuración de errores e incoherencias
 Estimación de la calidad de los datos

 Cálculo de la cantidad de errores que pueden
contener, antes de proceder a su análisis
¿CÓMO?
 Selección de una muestra de datos
 Comprobación de cuántos errores existen en ella
 Estimación del total de errores en la muestra total
 Decidir si es preciso revisar la matriz total o asumir el
error encontrado
Valores perdidos o missings
Se corre grave riesgo en dos sentidos:
 Reducción excesiva del tamaño de la muestra

(disminución de la potencia de los contrastes)
 Sesgo en los resultados si los missings no se
distribuyen aleatoriamente (ingresos)
 Si la ausencia de información es pequeña y al azar,

es posible analizar los datos directamente
Identificación de missings
 Identificar los sujetos con muchos

missings
 Identificar las variables con muchos

missings
Pertinencia de la sustitución
 EN VARIABLES CLAVE:
 Dividir la muestra en dos grupos: los que responden (1)
y los que no responden a esa variable (2) (Recodificar
en una nueva variable)
 Eliminar los casos missing de manera completa
 EN VARIABLES SECUNDARIAS:
 Mantener los missings si no exceden un porcentaje
razonable
 Imputación de missings
El boxplot
600000
500000
10
400000
300000
9
200000
100000
0
N= 20
INGRESOS
Comprobación de supuestos
 Elegir la prueba estadística adecuada en cada

caso
 Pruebas paramétricas y no paramétricas
Ejemplos:
– t de Student y Anova
– U de Mann-Withney y 2
¿Cuáles son esos SUPUESTOS?
 LINEALIDAD: relación lineal entre las variables
analizadas
 ALEATORIEDAD o independencia de las medidas: que
los sujetos hayan sido seleccionados al azar
 NORMALIDAD: que la VD se distribuya

normalmente
 HOMOCEDASTICIDAD u homogeneidad de
varianzas: que los distintos grupos posean una
variabilidad similar
Comprobación de supuestos
 NORMALIDAD: prueba K-S
 HOMOCEDASTICIDAD: prueba de Levenne
 ALEATORIEDAD: prueba de las Rachas
 LINEALIDAD: gráfico de dispersión y correlación
 Se asume que se cumplen los supuestos, salvo

que las pruebas sean significativas (p< 0.05)
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
INGRESOS ,257 20 ,001 ,717 20 ,010**
**. Este es un límite superior de la significación verdadera.
Normalidad a. Corrección de la significación de Lilliefors

Si los supuestos no se cumplen
DOS ALTERNATIVAS:
Recurrir a una prueba no paramétrica o
TRANSFORMAR LA VARIABLE
-1/X2 -1/X log X X X X2 X3 antilog X
Fuerte Suave Sin cambio Suave Fuerte
Asimetría + Asimetría -
Cola hacia arriba Cola hacia abajo
Casos próximos al valor pequeño Casos próximo valor grande
Análisis estadístico  Tipo de estudio
OBJETIVOS
Descriptivo  Exploratorio
 Descriptivo
Inferencial  Correlacional
 De diferencias entre
grupos
 Explicativos
Estadística descriptiva
Objetivo: resumir e ilustrar en forma sencilla el

comportamiento de un conjunto de datos
 Frecuencias (f, f% y fa)
 Descriptivos
 Medidas de tendencia central
 Medidas de variabilidad
 Medidas de posición
 Medidas de distribución
 Tablas con descriptivos y/o %

 Gráficos
Frecuencias
Edad
Cumulative
Frequency Percent Valid Percent Percent
Valid 12 10 3,3 3,3 3,3
13 90 29,3 29,3 32,6
14 110 35,8 35,8 68,4
15 55 17,9 17,9 86,3
16 27 8,8 8,8 95,1
17 9 2,9 2,9 98,0
18 4 1,3 1,3 99,3
19 2 ,7 ,7 100,0
Total 307 100,0 100,0
Sexo
Cumulative
Frequency Percent Valid Percent Percent
Valid masc 105 34,2 34,3 34,3
fem 201 65,5 65,7 100,0
Total 306 99,7 100,0
Missing System 1 ,3
Total 307 100,0
Edades y estudios
8,6%
20,5%
61,5%
9,6%
0 20 40 60 80
12 años 13 años 14 años 15 años
Primarios
Medios
34,9% 24,7%
Superiores
40,5%
Descriptivos más utilizados
(tendencia central, dispersión, posición)
Statistics
Edad
N Valid 307
Missing 0
Mean 14,17
Median 14,00
Mode 14
Sum 4350 Statistics
Edad
N Valid 307
Statistics
Missing 0
Std. Deviation 1,25 Edad
Variance 1,57 N Valid 307
Range 7 Missing 0
Minimum 12 Percentiles 1 12,00
Maximum 19 5 13,00
25 13,00
50 14,00
75 15,00
90 16,00
97 17,00
99 18,00
Comparación de medias
22,5
22 22,16
21,5
21 21,18
20,5 20,48
20
19,5
1988 1993 1998
Estadística inferencial
Objetivos:
 Estimación de parámetros
 Contrastes de hipótesis
 Correlacionales
 De diferencias entre grupos
– Paramétricos
– No paramétricos
Regresión
 Permite la predicción del
comportamiento de una
variable (criterio),
basándonos en otra variable
Model Summary (predictor)
Model R R Square
Adjusted
R Square
Std. Error of
the Estimate
 R2: C.Determinación
1 ,812a ,659 ,652 7,54 (proporción de la variación
a. Predictors: (Constant), Cantidad de veces que
concurre en trimestre de Y explicada por la
variación de x; utilidad del
modelo)
 Sig: signif del modelo de
predicción
Correlación
 Cuantifica la intensidad
y sentido de la relación
entre dos variables Correlations
criterio
 No implica causalidad Puntuación
total 8 items
externo 10
valores
Puntuación total 8 items Pearson Correlation 1,000 ,939**
 Implica asociación Sig. (2-tailed)

N
,
750
,000
50
criterio externo 10 valores Pearson Correlation ,939** 1,000
 Afectada por los Sig. (2-tailed) ,000 ,
N 50 50
errores de medición **. Correlation is significant at the 0.01 level (2-tailed).

Supuestos cumplidos
VD cuantitativa,
PRUEBAS normalidad y
PARAMÉTRICAS homocedasticidad
2 grupos
 INDEPENDIENTES: t de Student para muestras independ
(puntuación en un test para hombres y mujeres)
 RELACIONADOS: t de Student para muestras relacionadas
(tasa cardíaca antes y después de la ingesta de un
fármaco)
K grupos
 INDEPENDIENTES: ANOVA One Way
(ingresos económicos en 3 grupos de educación)
 RELACIONADOS: ANOVA de Medidas Repetidas
(tiempo de reacción antes y después de ingesta fármaco)
Prueba t para grupos independientes
Group Statistics
Std. Error
Sexo N Mean Std. Deviation Mean
Puntuación total 8 items Masculino 375 60,34 11,74 ,61
Femenino 375 57,86 12,12 ,63
Independent Samples Test
Levene's Test for

Equality of Variances t-test for Equality of Means
F Sig. t df Sig. (2-tailed)
Puntuación total 8 items Equal variances
,162 ,687 2,847 748 ,005
assumed
Equal variances
2,847 747,227 ,005
not assumed
ANOVA One Way
ANOVA
PJE. BRUTO
Sum of
Squares df Mean Square F Sig.
Between Groups 4381,311 4 1095,328 6,603 ,000
Within Groups 105674,8 637 165,895
Total 110056,1 641
PJE. BRUTO
a,b
Tukey B
Subset for alpha = .05
EDUCACIOADULTO N 1 2
terciario/universitario
212 24,78
completo
secundario
completo-terciario/univ. 238 27,81
incompleto
NO CONTESTA 23 29,26
primario
completo-secundario 153 29,59
incompleto
primario incompleto 16 38,81
Means for groups in homogeneous subsets are displayed.
a. Uses Harmonic Mean Sample Size = 41,175.
b. The group sizes are unequal. The harmonic mean of the
group sizes is used. Type I error levels are not
guaranteed.
VD ordinal
nominal o
cuantitativa
PRUEBAS NO
sin supuestos
PARAMÉTRICAS
2 grupos
 INDEPENDIENTES:
VD nominal: X2 (con corrección de continuidad si es una tabla 2 x2)
(tabaquismo presente o ausente según sexo)
VD ordinal: U de Mann – Whitney
(Ranking de popularidad entre políticos de dos partidos)
 RELACIONADOS:
VD Nominal: Mc Nemar (para variables dicotómicas)
(presencia o ausencia de alucinaciones antes y desp de fármaco)
VD Ordinal: T de Wilcoxon
(ranking de severidad del trastorno antes y desp de tratamiento)
K grupos
 INDEPENDIENTES:
VD nominal: X2
(tipo de trastorno psiquiátrico según región geográfica)
VD ordinal: Kruskal-Wallis (One Way)
(severidad del retraso intelect sec. según varias enfermed base)
 RELACIONADOS
VD nominal: Cochran (para variables dicotómicas)
(síntoma presente o ausente a lo largo de los últimos seis meses)
VD ordinal: Friedman
(ranking de rendimiento académico según ciclo EGB y Polimodal)
Prueba t para grupos independientes
Paired Samples Statistics
Std. Error
Mean N Std. Deviation Mean
Pair Nº DE CIGARRILLOS
1 ANTES DEL 16,30 20 8,86 1,98
TRATAMIENTO
Nº DE CIGARRILLOS
DESPUES DEL 11,05 20 6,92 1,55
TRATAMIENTO
Paired Samples Test
t df Sig. (2-tailed)
Pair Nº DE CIGARRILLOS ANTES DEL
1 TRATAMIENTO - Nº DE CIGARRILLOS 4,682 19 ,000
DESPUES DEL TRATAMIENTO
Mann - Whitney
Ranks
SEXO N Mean Rank Sum of Ranks

ACTITUD ABORTO HOMBRE 9 6,72 60,50
MUJER 11 13,59 149,50
Total 20
Test Statisticsb
ACTITUD
ABORTO
Mann-Whitney U 15,500
Wilcoxon W 60,500
Z -2,643
Asymp. Sig. (2-tailed) ,008
Exact Sig. [2*(1-tailed a
,007
Sig.)]
a. Not corrected for ties.
b. Grouping Variable: SEXO
X2
Fracaso escolar * Clases de apoyo Crosstabulation
Count
Clases de apoyo
Sí No Total
Fracaso Sí 4 7 11
escolar No 6 3 9
Total 10 10 20
Chi-Square Tests
Asymp. Sig. Exact Sig. Exact Sig.

Value df (2-sided) (2-sided) (1-sided)
Pearson Chi-Square 1,818b 1 ,178
Continuity Correctiona ,808 1 ,369
Likelihood Ratio 1,848 1 ,174
Fisher's Exact Test ,370 ,185
Linear-by-Linear
1,727 1 ,189
Association
N of Valid Cases 20
a. Computed only for a 2x2 table
b. 2 cells (50,0%) have expected count less than 5. The minimum expected count is
4,50.
Kruskall Wallis One Way
Ranks
Provincia N Mean Rank

Nivel de Córdoba 10 26,20
Contaminación aguas Bs As 10 13,60
San Juan 10 13,60
Mendoza 10 28,60
Total 40
Test Statisticsa,b
Nivel de
Contamina
ción aguas
Chi-Square 16,110
df 3
Asymp. Sig. ,001
a. Kruskal Wallis Test
b. Grouping Variable: Provincia

Estadistica Básica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Básica

Cargado por

Copyright:

Formatos disponibles

ANALISIS DE DATOS EN CIENCIAS

 Planteo de problemas de investigación

 Planteo del problema

 Pregunta para la que no hay respuesta

 Implica apelar a conocimientos anteriores (marco

 Son el “qué” de la investigación

 No siempre se dispone de HIPÓTESIS (según

 Tiene que ver con la estrategia científica de partida:

 Determinada por el diseño (procedimiento)

 Estadística Descriptiva e Inferencial

 Deben relacionarse con los antecedentes y preverse sus

 Aceptación o rechazo de la hipótesis de trabajo A LA LUZ

 Problema de la representatividad de la muestra:

Requisitos: completo, conciso, preciso,

Responder breve y claramente a los

 Introducción Marco Teórico y antecedentes

Ejemplos: nacionalidad sexo

 No existe una unidad de medida objetiva

Ejemplo: En su opinión, la calidad pedagógica de este docente

Niveles de medida débiles y

 Seguridad activa: Procedimiento de recogida de datos

 Estimación de la calidad de los datos

Se corre grave riesgo en dos sentidos:

 Reducción excesiva del tamaño de la muestra

 Si la ausencia de información es pequeña y al azar,

 Identificar los sujetos con muchos

 Identificar las variables con muchos

 Elegir la prueba estadística adecuada en cada

 Pruebas paramétricas y no paramétricas

 NORMALIDAD: que la VD se distribuya

 HOMOCEDASTICIDAD: prueba de Levenne

 ALEATORIEDAD: prueba de las Rachas

 LINEALIDAD: gráfico de dispersión y correlación

 Se asume que se cumplen los supuestos, salvo

Normalidad a. Corrección de la significación de Lilliefors

Recurrir a una prueba no paramétrica o

-1/X2 -1/X log X X X X2 X3 antilog X

Fuerte Suave Sin cambio Suave Fuerte

Objetivo: resumir e ilustrar en forma sencilla el

 Tablas con descriptivos y/o %

12 años 13 años 14 años 15 años

 Implica asociación Sig. (2-tailed)

errores de medición **. Correlation is significant at the 0.01 level (2-tailed).

Independent Samples Test

Levene's Test for

Paired Samples Statistics

Paired Samples Test

SEXO N Mean Rank Sum of Ranks

Fracaso escolar * Clases de apoyo Crosstabulation

Asymp. Sig. Exact Sig. Exact Sig.

Provincia N Mean Rank

También podría gustarte