Documentos de Académico
Documentos de Profesional
Documentos de Cultura
sociolgica
www.cisolog.com
Frmulas y apuntes de
Estadstica aplicada
a las ciencias sociales
Mayo 2013
El contenido de este documento realizado por
Rubn Crespo se encuentra bajo una Licencia
Creative Commons: Atribucin-NoComercialSinDerivadas 3.0 Unported.
Rubn Crespo
cisolog@cisolog.com
NotaPrevia
Rubn Crespo
ndice
cisolog.com
Rubn Crespo
cisolog.com
Rubn Crespo
cisolog.com
Rubn Crespo
cisolog.com
Rubn Crespo
.............................................................................................................................. 52
........................................................................ 60
cisolog.com
Rubn Crespo
Frmulas y apuntes de
Estadstica aplicada a las Ciencias Sociales
Tipologa de los datos
Ventajas
Inconvenientes
REGISTROS
Actualizacin frecuente.
ENCUESTAS
Costes menores.
Informacin instantnea.
Pueden incluir mayor nmero de
variables.
Mayor posibilidad de verificacin de
los datos.
CENSOS
ORDINAL
(N-2)
INTERVALO
(N-3)
RAZN
(N-4)
Ejemplos
Clasifica
Clasifica y ordena
0 es la ausencia de caracterstica
cisolog.com
Rubn Crespo
Distribuciones de Frecuencias
ni frecuencias absoluta
N = n1 + n2 + n3 + + ni
Frecuencia Relativa
Frecuencia Acumulada
Variable:
o
Discreta
Continua
Depende de la variable
Ejemplos:
Distancia
[2,5 4,5[
Edad
[3 5[
Aplanada
2. LEPTOCRTICA
Puntiaguda
3. MESOCRTICA
Intermedia
Marca de clase
Media estadstica Ponderada
cisolog.com
Rubn Crespo
Mediana
Li Lmite Inferior
Ci Amplitud del Intervalo
Ci = Lsup Linf
Cuartiles
Q2 = Me
Q4 = Lsup = Valor Mximo de la Poblacin/Muestra
Deciles
Centiles
Moda
Clculo de Percentiles
Rango Intercuntico:
Rango Semi-Intercuantlico:
Ejemplo: si para la variable edad de una muestra quisiramos agregar los datos en diferentes grupos de edades,
en el caso del grupo de 25 a 29 aos el lmite inferior es 25, y el lmite superior es 30 [25 30[. Por tanto, la marca
de clase para ese grupo de edad es 27,5 aos.
cisolog.com
Rubn Crespo
Medidas de Dispersin
Varianza
Frmula Alternativa
Desviacin Estndar (o Tpica)
Frmula Alternativa
Varianza para datos agrupados
Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin
en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas.
Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta
distancia en unidades de desviacin tpica o estndar (
).
cisolog.com
Rubn Crespo
El Teorema de Chebyshev
Media Cuadrtica
Media Geomtrica
10
cisolog.com
Rubn Crespo
Tipos de Grfico
Problema de Investigacin
Tipo de Grfico
Representacin Grfica
DIAGRAMA DE BARRAS
DIAGRAMA DE SECTORES
HISTOGRAMA
S = b x h h = S/b
POLGONO DE FRECUENCIAS
Anlisis y Comparacin de
Distribuciones
OJIVA
DIAGRAMA DE CAJAS
Anlisis Temporales
DIAGRAMA DE LNEAS
Distribucin conjunta de
dos variables
DIAGRAMA DE DISPERSIN
11
cisolog.com
Rubn Crespo
Fuente
Ttulo y subttulos
Ao o periodo
Etiquetado de los Ejes
Diferenciacin de las categoras
Base (el 0 se debe representar si forma base de la escala)
Discontinuidad en el Eje Vertical (si es necesario)
Aritmtica
P (S)
E = Espacio de Sucesos
Suceso Complementario
Variaciones
Combinaciones
12
cisolog.com
Rubn Crespo
Tipos de Sucesos
o
o
Elemental
Compuesto
unin
interseccin
( ) / o [Simultneo]
( ) / y [Secuencial]
Si estn condicionados
Si
no estn condicionados:
Regla de Laplace
13
cisolog.com
Rubn Crespo
Suceso Seguro
Discretas
Continuas
Estadsticos:
= Media de la Poblacin
= Media de la Muestra
Valor Esperado
14
cisolog.com
Rubn Crespo
Distribucin Real
Distribucin Terica
Distribucin Emprica
15
cisolog.com
Rubn Crespo
Distribucin Uniforme
Es la ms sencilla de las distribuciones de probabilidad: aquella en que la probabilidad se
distribuye por igual en todos los casos o en todos los grupos de la poblacin. No existen
probabilidades diferentes parea casos o grupos diferentes.
Distribucin Uniforme Discreta
es:
Funcin de Densidad
La funcin de densidad se aplica para calcular la probabilidad que toma un intervalo dentro de
distribuciones continuas. Se utilizan reas para conocer la probabilidad de un intervalo de
valores.
Distribucin Binomial
p probabilidad de xito
q probabilidad de fracaso
Experimento Binomial
Para cada nmero de sucesos que fijemos (n) y para cada probabilidad de xito (p) en cada uno
de estos sucesos tendremos una distribucin binomial distinta. Cada distribucin binomial es
determinada por estos dos parmetros: n y p.
Forma General de la Distribucin Binomial
N de xitos
(x)
Probabilidad
p(x)
1
2
3
16
cisolog.com
Rubn Crespo
n-1
n
Esta distribucin se describe por los trminos del desarrollo del binomio de Newton
Los
coeficientes
de
cada
trmino
17
cisolog.com
Media de una
distribucin binomial
Varianza de una
distribucin binomial
Rubn Crespo
Desviacin Estndar
(o Tpica) de una
distribucin binomial
Distribucin Normal
La distribucin normal es la distribucin terica ms usada en estadstica. Aparte de que
mltiples conjuntos de datos pueden ajustarse a ella, es la clave de la estadstica inferencial.
Toda distribucin muestral de medias se aproxima a la distribucin normal.
Funcin de la Distribucin Normal
18
cisolog.com
Rubn Crespo
Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin
en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas.
Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta
distancia en unidades de desviacin tpica o estndar ( ).
19
cisolog.com
Rubn Crespo
20
cisolog.com
Rubn Crespo
Distribucin t de Student
La distribucin de Stundent nos sirve para hacer inferencias sobre la media poblacional a
partir de la media de la muestra cuando se desconoce la desviacin tpica de la poblacin. La
distribucin de Student es una distribucin asociada a la normal. Se puede decir que es una
distribucin normal corregida.
En muchos manuales se sostiene de forma arbitraria que si
entonces la distribucin
normal puede sustituir a la distribucin de Student. Se puede dar este lmite por bueno.
Transformacin valores de x en unidades de t
Hay una distribucin t distinta para cada tamao muestral . En este caso se habla de los
Grados de Libertad, que sern siempre
, y que estn asociados a l clculo de la
desviacin tpica de la muestra.
Grados de Libertad de la Distribucin t de Student:
21
cisolog.com
Rubn Crespo
Media
Varianza
Uniforme
b = mximo
a = mnimo
Binominal
= nmero de casos
= probabilidad de xito
Normal
Normal Estndar
de Student
= grados de libertad
Error
Confianza
Representatividad de la Muestra
Uniforme
Proporcional
Por Conglomerados
b. Muestreo por Cuotas
4. Inferirencia de los resultados para el Universo.
22
cisolog.com
Rubn Crespo
Parmetros y Estadsticos
Estadstico
Error y Sesgo
Error Estadstico
Es aquel que procede del hecho de utilizar observaciones muestrales, es decir, de no
observar la totalidad de los datos. Este error puede ser conocido e incorporado en los
resultados a travs de un intervalo.
Error Estadstico
Errores No Estadsticos
Procede de defectos en los instrumentos de medida y de las condiciones en las que se
establece la medida, as como de otro conjunto de errores en la transmisin de datos. Este
tipo de errores se pueden (y deben) ser evitados. Entre los errores no estadsticos se
encuentra el sesgo:
Sesgo
Desviacin sistemtica de nuestras observaciones respecto a lo que estamos
midiendo. En investigacin mediante muestras el sesgo se produce al obtener
muestra que no se adecan a la poblacin, es decir, por el desfase que existe
entre la poblacin objetivo y la poblacin de la que obtenemos la muestra.
Muestreo Aleatorio. Uso de tres tipos de distribuciones distintas:
cisolog.com
Rubn Crespo
Error Estadstico
Es la medida de la distancia entre el valor del estadstico obtenido en la muestra y el valor del
parmetro en la poblacin.
Nivel de Confianza
Es la probabilidad que existe de que esa distancia, o error estadstico, no sea mayor que la
preestablecida.
Si en una distribucin muestral se aumenta el valor de , la varianza de la distribucin
disminuir y los resultados de las distintas muestras se concentrarn ms en el valor del
parmetro. Por consiguiente, para un mismo nivel de error, el nivel de confianza mejora con
tamaos muestrales mayores.
directa
inversa
inversa
24
cisolog.com
Rubn Crespo
y desviacin
y desviacin
tpica
Con poblaciones grandes
y:
Distribucin Normal en Z
Error Estadstico
25
cisolog.com
Rubn Crespo
Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 220.
Estadstico
Media:
Media:
Varianza:
Varianza:
Proporcin/Probabilidad
Proporcin/Probabilidad
Complementario
Complementario
PROPORCIN
Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y
de la Proporcin (Poblaciones Infinitas)
Media
Proporcin*
Parmetro
Error Tpico
Error Estndar
La distribucin se considera
como la Normal cuando:
Tamao Muestral
cisolog.com
Rubn Crespo
Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 222.
Poblaciones
Poblaciones Finitas
En investigacin social casi siempre nos referimos a poblaciones finitas. Por tanto las
formulas anteriores aplicadas a poblaciones finitas deben incorporar el factor de
correccin para poblaciones finitas:
Factor de Correccin para Poblaciones Finitas
27
cisolog.com
Rubn Crespo
Poblaciones Infinitas
Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y
de la Proporcin (Poblaciones Finitas)
Media
Proporcin*
Parmetro
Error Tpico
Error Estndar
La distribucin se considera
como la Normal cuando:
Tamao Muestral
Muestras Pequeas
Muestras Grandes
Diseo de Muestras
Marco
28
cisolog.com
Rubn Crespo
Procedimiento de Muestreo
Dadas las dificultades de realizar muestras aleatorias simples, en las que todos los elementos
de una poblacin tienen la misma probabilidad de ser seleccionados, se recurre a distintos
sistemas de muestreo que tienen en cuenta lo que ya conocemos sobre la poblacin a
investigar. Al incorporar informacin existente podremos realizar diseos muestrales ms
eficientes, esto es, obtendremos la misma informacin con menor coste que si usramos
mtodos aleatorios puros. Adems, al incorporar informacin existente, podremos mejorar la
representatividad de la muestra.
Mtodo de Seleccin de la Muestra
a. Muestreo Aleatorio
Estratificado
Afijacin
Uniforme
Proporcional
Por Conglomerados
b. Muestreo por Cuotas
Muestreo Estratificado
Estratos
Son subconjuntos o grupos del universo, de forma que todos los elementos pertenecen a uno
de los grupos y slo a uno.
Diseo Uniforme: deseamos conocer resultados para cada uno de los estratos.
Para la aplicacin del diseo estratificado se necesita definir los diferentes estratos y disponer
de informaciones que nos permitan estimar las varianzas en cada uno de ellos.
29
cisolog.com
Rubn Crespo
Nmero de estratos
Poblacin en el estrato
Poblacin
Proporcin de la poblacin en el estrato
o peso del estrato
Tamao de la muestra en el estrato
Muestra
Proporcin de la muestra en el estrato
30
cisolog.com
Rubn Crespo
Procedimientos de Afijacin
Afijacin Proporcional al
tamao
Afijacin de Neyman
(proporcional a la varianza)
Coeficiente de Ponderacin
31
cisolog.com
Rubn Crespo
32
cisolog.com
Rubn Crespo
Muestreo Mixto
En la prctica, en muchas encuestas sociolgicas y de opinin se utiliza un procedimiento
mixto en la seleccin de la muestra. La primera fase del diseo muestral se realiza mediante
tcnicas probabilsticas (seleccin de municipios dentro de estratos por tamao poblacional);
y la fase final de seleccin del entrevistado se realiza mediante muestreo por cuotas.
33
cisolog.com
Rubn Crespo
Estimador insesgado
Desviacin Tpica
Estimador sesgado
Cuasivarianza
Estimador insesgado
Cuasivarianza Muestral
Varianza = Cuasivarianza
Cuasidesviacin Muestral
Media
Proporcin
34
cisolog.com
Rubn Crespo
Inferencia Estadstica
Estimacin de Medias y Proporciones
;
Error Estadstico
Estadstico
Error Tpico
(Poblaciones Infinitas)
Error Tpico
(Poblaciones Finitas)
Intervalo
MEDIA
PROPORCIN
Notas
Cuasidesviacin
En la prctica si
35
cisolog.com
Rubn Crespo
Dificultades para
Intervalo de Wilson
Diferencias de Estadsticos
En el campo de la investigacin social es frecuente el uso de estadsticos compuestos que
resultan de la combinacin de estadsticos. Puede interesarnos conocer la diferencia de
medias de los salarios de hombres y mujeres, o la razn entre dos cantidades que han sido
obtenidas mediante una muestra: por ejemplo, si en una encuesta se ha preguntado por el
nmero de horas trabajadas y el salario, podemos calcular la razn entre la media de horas
trabajadas y el salario medio, de donde se obtendr un estadstico nuevos que ser el cociente
entre dos estadsticos que ya disponamos en la muestra.
Cuando producimos nuevos estadsticos a partir de las combinaciones de otros estadsticos
tenemos dos situaciones diferentes:
1. Que las observaciones que comparamos procedan de muestras independientes, por
ejemplo si queremos estimar la diferencia de salario medio entre hombres y mujeres.
Al hablar de muestras independientes no nos referimos a dos encuestas diferentes,
sino que las unidades muestrales no tienen relacin entre s. Para comparar los
salarios de hombres y mujeres, los hombres y las mujeres pertenecen a la misma
muestra, sin embargo son subconjuntos que no guardan relacin entre s, es decir, las
observaciones sobre los salarios de los hombres no afectan a las observaciones de las
mujeres. Por consiguiente, ambos conjuntos de datos se consideran muestras
independientes.
2. Que sean muestras relacionadas entre s. Esta situacin tiene distintos orgines. En
unos casos, sobre la misma unidad muestral tomamos medidas repetidas en el tiempo,
como sucede en los estudios de panel (se realiza la misma pregunta a la misma
persona en fechas diferentes y se comparan). En otros casos, sobre la misma unidad
muestral medimos caractersticas o variables distintas pero que estn relacionadas
entre s. Por ejemplo, se pregunta a una persona, por ejemplo, sobre su valoracin del
presidente del gobierno y tambin del lder de la oposicin. Para calcular un
estadstico de diferencia entre ambas valoraciones tenemos que tener en cuenta que
existe relacin entre las repuestas. Seguramente quien valore alto al presidente del
gobierno, lo haga bajo sobre el lder de la oposicin.
36
cisolog.com
Rubn Crespo
Una Variable
Misma Unidad Muestral
Distintas Unidades Muestrales
Dos Variables
Dependiente
Independiente
Error Estadstico
Error Estadstico
37
cisolog.com
Rubn Crespo
Test de significacin
Un resultado estadstico es significativo cuando no se debe al azar. En estadstica, significante
no se interpreta como en el lenguaje normal, no significa que el estadstico sea relevante o
importante, ni siquiera que se considere verdadero. Un estadstico es significativo porque el
investigador lo considera fiable.
Los test de significacin son pruebas que se realizan para contrastar la informacin emprica
con la terica. Para ello se fija un umbral de corte a partir del cual los valores obtenidos en la
muestra emprica se consideran poco probables. Si el resultado obtenido est al lado del
umbral de corte donde los resultados se consideran probables, decimos que est dentro de la
zona de aceptacin de la hiptesis nula, pero si, por el contrario, el resultado cae del lado del
umbral de corte donde se considera poco probable, decimos que entra dentro de la zona de
rechazo de la hiptesis nula.
Hiptesis Nula
38
cisolog.com
Rubn Crespo
Pruebas de hiptesis
La evidencia que se necesita para aceptar que un acontecimiento se ha producido por azar es
el nivel de significacin (n.s. / significante level en ingls) o el valor crtico . Si el valor es
, es falsa o inusual.
pequeo, entonces debe rechazarse la hiptesis nula
Segn los trabajos de Neyman y Pearson, el planteamiento requiere tanto de la hiptesis nula
como de una hiptesis alternativa
, que deben ser definidas e investigadas
mediante repeticin de procedimientos de muestreo; si no, se corre el riesgo de rechazar un
resultado que cae fuera de la zona de aceptacin y, sin embargo, ser verdadero. Es el valor
crtico el que nos da la probabilidad de equivocarnos al rechazar ese valor.
Cuando se realizan pruebas de hiptesis existen dos tipos de errores que se pueden cometer:
1. Error de Tipo I: rechazar la hiptesis nula cuando es verdadera.
2. Error de Tipo II: aceptar la hiptesis nula cuando es falsa.
Tipos de error en los test de hiptesis
verdadera
falsa
Aceptar
Correcto
Error Tipo II
Rechazar
Error Tipo I
Correcto
cisolog.com
Rubn Crespo
p valor
40
cisolog.com
Rubn Crespo
2. Calcular el estadstico.
3. Comparar el estadstico (en valores de o de Student) con el umbral fijado (tambin
en valores de o de Student) para el valor crtico .
4. Resultado:
a. Si el estadstico es ms alto que el valor crtico, queda por tanto en la zona de
rechazo de la hiptesis nula y la diferencia es significativa. La probabilidad de
es pequea y el
es menor que la relacin
equivocarse al rechazar
]
encontrada por azar. [
b. Si el estadstico es ms bajo que el valor crtico, al contrario, queda en la zona
de aceptacin de la hiptesis nula y la diferencia no es significativ. La
es muy alta y el
es mayor que el valor
probabilidad de rechazar
crtico. [
]
Valores de Z para los niveles de significacin (n.s.) 5% y 1%
Tipo de Test
n.s. = 5%
n.s. = 1%
41
cisolog.com
Rubn Crespo
Comparacin de proporciones
Proporcin Conjunta
cisolog.com
Rubn Crespo
4. Grados de Libertad
Grados de libertad total
6. Contraste de la
(Estimador
de Snedecor)
43
cisolog.com
Distribucin
La distribucin
simtrica:
Rubn Crespo
de Snedecor
Error
Contraste de
En una distribucin bivariada contamos con una medida de dispersin que tiene en cuenta las
dos variables a la vez. Para ello es necesario hacer uso de la Covarianza, que se obtiene del
producto de las diferencias de e a sus medias.
Covarianza
44
cisolog.com
Rubn Crespo
Interpretacin de la Covarianza
El valor de la covarianza nos informa de la existencia (o no) de dependencia lineal entre las
variables. Si no hay relacin lineal entre las dos variables, la covarianza ser igual a
Si
Si
Si
se
Si
se
Los errores o residuos son la diferencia entre los valores reales y los de la recta ajustada a los
datos. Por cada valor de tenemos dos valores de , el de la ecuacin y el real observado. La
suma de los residuos sirve para evaluar el ajuste final.
45
cisolog.com
Rubn Crespo
Los parmetros de la recta de regresin se ajustan por el mtodo de los mnimos cuadrados.
Covarianza
Varianza de
Una vez se han calculado los parmetros de la funcin de la recta de regresin lineal, la
correlacin sirve para cuantificar la bondad del ajuste de la recta a la nube de puntos.
Coeficiente de correlacin de Pearson
;
Interpretacin del valor de
Si
Si
: Hay correlacin positiva. Al aumentar una variable, al aumentar una variable
la otra tambin aumenta. La recta de regresin tiene pendiente positiva.
Si
: Hay correlacin negativa. Al aumentar una variable, al aumentar una
variable la otra disminuye. La recta de regresin tiene pendiente negativa.
Si
cisolog.com
Rubn Crespo
Coeficiente de determinacin
Coeficiente de determinacin
y el estimado
Residuo
indica qu
El coeficiente de determinacin
tambin puede obtenerse mediante el producto de las
pendientes de las dos rectas de regresin:
47
cisolog.com
Rubn Crespo
Tablas de contingencia
Las tablas de contingencia sirven para comparar grupos y observar cmo se distribuye una
variable en el seno de otra variable. Para ver cmo se agrupa la poblacin simultneamente en
dos variables, se realiza un cruce de variables y obtenemos una tabla de contingencia. 2
Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos
Nivel de
Estudios
Bajar los
Gastar ms en
impuestos y
prestaciones
gastar menos en
aumentando los
prestaciones
impuestos
Ns/Nc.
Total
571
441
275
1287
Secundarios
251
283
112
646
Superiores
151
293
83
527
973
1017
470
2460
Total
La relacin entre dos variables se establece con el esquema explicativo: la distribucin de una
variable es explicada por la distribucin de otra variable. En otras palabras, una variable es
Es importante destacar la diferencia entre variables de registro y variables de anlisis. Las variables
de registro son las variables originales que se emplean para registra la informacin, que suelen
presentarse con mucho detalle (asimiladas a trminos abstractos o administrativos de registro) y sirven
como punto de partida para la investigacin. Las variables de anlisis son las variables construidas con
pertinencia emprica y/o terica para el anlisis sociolgico.
48
cisolog.com
Rubn Crespo
determinada por otra. Por tanto, tenemos variable independiente y variable dependiente. Los
cambios de la variable independiente explican los de la dependiente.
Desde el enfoque matemtico, cualquiera de las dos variables puestas en relacin puede
ejercer indistintamente el papel de independiente como de dependiente. Pero desde el
enfoque emprico, estos papeles se definen contrastando que una de las variables es
antecedente (temporalmente) de la otra o presenta ms estabilidad temporal o se considera
ms bsica; y esta ser la variable independiente. Podra darse el caso que dos variables en
relacin terica no tengan ninguna relacin de dependencia, y por consiguiente ambas
variables seran independientes.
Regla de Zeisel
Para el anlisis de la relacin de dos variables en una tabla de contingencia se calculan los
porcentajes en la direccin de la variable independiente y se comparan en la direccin de
la variable dependiente.
Como regla general colocamos los datos de la variable independiente en las filas. Segn De
Miguel (1997): La mejor disposicin es la de porcentajes horizontales porque el ojo humano
compara mejor las relaciones de arriba abajo 3. Por tanto, conviene por sistema emplear esta
regla en todos los casos, calcular los porcentajes en la direccin horizontal y comparar las
relaciones entre ambas variables en la direccin vertical.
Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos
Nivel de
Estudios
Bajar los
Gastar ms en
impuestos y
prestaciones
gastar menos en
aumentando los
prestaciones
impuestos
Ns/Nc.
Total
44,4%
34,3%
21,4%
100,0%
Secundarios
38,9%
43,8%
17,3%
100,0%
Superiores
28,7%
55,6%
15,7%
100,0%
39,6%
41,3%
19,1%
100,0%
Total
49
cisolog.com
Rubn Crespo
Con las tablas de contingencia de dos variables se parte del supuesto de que el resto de
variables se mantienen constantes. Sin embargo, en la realidad esto no ocurre nunca. La
experiencia emprica demuestra que mltiples variables afectan al comportamiento de otra; y
muchas no se pueden controlar cuando no hay registro. Es posible que algunas no aparezcan
cuando se est estudiando una encuesta estadstica; otras se tienen que construir a partir de
las variables de registro.
La introduccin de una tercera variable puede alterar las supuestas relaciones halladas en la
tabla de contingencia de dos variables, de manera que la relacin bivariable anterior se
desvanezca. A esta tercera variable la llamamos variable de control, y se introduce
segmentando los datos del cruce de las dos variables anteriores en funcin de esta tercera
variable.
Sexo
Hombre
Bajar los
Gastar ms
impuestos y
en
gastar menos
prestaciones
en
aumentando
Ns/Nc.
Total
41,3%
41,6%
17,2%
100,0%
Secundarios
36,8%
44,2%
19,0%
100,0%
Superiores
27,5%
57,2%
15,3%
100,0%
Total
37,4%
45,2%
17,4%
100,0%
47,4%
27,1%
25,5%
100,0%
Secundarios
41,3%
43,3%
15,4%
100,0%
Superiores
29,5%
54,4%
16,1%
100,0%
41,6%
37,6%
20,8%
100,0%
Primarios
Mujer
Primarios
Total
Paradoja de Simpson
Una asociacin entre dos variables desaparece o cambia de sentido cuando los datos son
desagregados por grupos, esto es, cuando se controla el efecto de una tercera variable.
50
cisolog.com
Rubn Crespo
Variable Antecedente:
actua sobre
y sobre .
se interpone entre
e , esto es,
actua
51
cisolog.com
Rubn Crespo
Ji-cuadrado
La prueba de Ji-cuadrado
es un test que afecta a la distribucin de frecuencias de los
diferentes grupos que componen una poblacin y que son generados por un cruce de
variables.
Con la prueba de Ji-cuadrado
se pretende conocer en trminos probabilsticos si el
conjunto de las frecuencias relativas (proporciones) de todos los grupos generados en una
poblacin (por el cruce de variables) se distribuye forma a aleatoria (al azar), sin diferencias
significativas (significacin estadstica) entre ellas (en conjunto). Igual que en todas las
pruebas estadsticas, se contrasta la distribucin real de los datos (a partir de un estadstico)
, en donde definimos un punto
con una distribucin terica, en este caso, la Ji-cuadrado
crtico a partir del cual las diferencias se consideran significativas entre las proporciones del
conjunto de los grupos poblacionales (condensadas en el estadstico Ji-cuadrado). Por tanto,
por un lado tenemos el estadsitco (Ji-cuadrado) asociado a una tabla de contingencia, y por
otro, una distribucin terica de este estadstico.
La prueba de Ji-cuadrado slo tiene sentido cuando se trabaja con datos muestrales extrados
de forma aleatoria, esto es, en distribuciones (empricas) de probabilidad.
Con la prueba de Ji-cuadrado la especificidad (emprica/terica) concreta de las categoras
desaparece. Para Ji-cuadrado es irrelevante si la prueba la hacemos sobre variables de edad,
nivel de estudios, definiciones ideolgicas, etc. Ji-cuadrado vale lo mismo para categoras
sociolgicas, mdicas, criminolgicas, biolgicas, etc. Ji-cuadrado no distingue la especificidad
de las categoras consideradas. Se trata de un ndice que resume toda la distribucin teniendo
en cuenta slo el nmero de categoras y las frecuencias que se dan en stas.
Frecuencia terica (o esperada segn la lgica de Ji-cuadrado)
Se podra decir que las frecuencias esperadas en cada una de las casillas de una tabla de
contingencia son aquellas que cabe esperar en el caso de que no exista relacin entre las
variables, esto es, independencia estadstica o probabilstica entre las variables. Dos variables
son independientes estadsticamente si la probabilidad de que nos aparezca una categora
de una variable no depende de la distribucin de probabilidad de la otra variable.
Clculo de residuos
Los residuos son las diferencias entre las frecuencias observadas y las esperadas en cada celda.
Los residuos son errores del muestreo aleatorio.
Residuo
52
cisolog.com
Rubn Crespo
Para poder comparar las distancias entre las frecuencias observadas y las esperadas dentro
de cada celda, se ha de estandarizar estas distancias.
Residuos Estandarizados
de cada celda
Coeficiente Ji-cuadrado
Tabla
53
cisolog.com
Rubn Crespo
Coeficiente Ji-cuadrado
de la Tabla
Interpretacin de Ji-cuadrado
en tablas bivariables
Si
Si
de una tabla concreta no vale para comparar otras tablas distintas. Para ello existen
.
otros coeficientes de contingencia: V de Cramer, Coeficiente de contingencia o
La distribucin Ji-Cuadrado
se va acercando a la distribucin normal a medida que
aumentan sus grados de libertad.
Nmero de grados de libertad de una tabla bidimensional
54
cisolog.com
Rubn Crespo
55
cisolog.com
Rubn Crespo
Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta
56
cisolog.com
Rubn Crespo
Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta
57
cisolog.com
Rubn Crespo
Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta
58
cisolog.com
Rubn Crespo
Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta
59
cisolog.com
Rubn Crespo
Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta
60
cisolog.com