Está en la página 1de 62

ciencia

sociolgica

www.cisolog.com

Frmulas y apuntes de
Estadstica aplicada
a las ciencias sociales

Mayo 2013
El contenido de este documento realizado por
Rubn Crespo se encuentra bajo una Licencia
Creative Commons: Atribucin-NoComercialSinDerivadas 3.0 Unported.

Rubn Crespo
cisolog@cisolog.com

NotaPrevia

Este documento no tiene ninguna finalidad pedaggica. Se trata de una


compilacindelasprincipalesfrmulasestadsticasyapuntestericosrecogidos
delloslibrosdeLuisCamareroRiojaetal.2010.Estadsticaparalainvestigacin
social. Ibergarceta; y Alejandro Almazn et al. 2011. Anlisis estadstico para la
investigacin social. Ibergarceta, que constituye respectivamente los manuales
bsicosdelasasignaturasEstadsticasocialaplicadaalascienciassocialesIyIIde
losplanesdeestudiodeGradodeSociologaenlaUNED.
Lafinalidaddeestedocumentoesofrecerunaherramientadeapoyotantopara
elprofesionalcomoparaelestudiantequehaasimiladolosconocimientosbsicos
de estadstica aplicada a las ciencias sociales, de manera que cuando realice
prcticasdeinvestigacinsocialdondeserequiereelusodelaestadstica,pueda
disponer de un material de consulta que concentra las principales frmulas y
elementos tericos tiles para resolver la mayora de los problemas que se le
planteen. Por tanto, el contenido de este documento, al no disponer de
explicaciones precisas y exposicin de ejemplos, no es conveniente para el
aprendizaje de la estadstica enfocada a la investigacin social. Para ello se
recomiendalalecturaycomprensindelcitadomanual.Sibienhayotrosmuchos
manuales cuyo aprendizaje serviran para entender las formulas y apuntes
tericos que se compilan aqu, en este documento los contenidos se han
estructuradoenelmismoordenquelosmanualessealadosmsarriba.
Lamayoradelastablasygrficossondeelaboracinpropia,exceptounparde
ellosquesehanextradodelprimermanual,ascomolastablasdelosanexosque
sepuedenencontraralfinaldeldocumento.
RubnCrespo
Mayo,2013

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

ndice

TIPOLOGA DE LOS DATOS ..................................................................................................................... 6


TIPOS DE ESCALA DE LAS VARIABLES ..................................................................................................... 6
OTRA CLASIFICACIN DE LAS VARIABLES ............................................................................................... 6
DISTRIBUCIONES DE FRECUENCIAS ........................................................................................................ 7
FRECUENCIA RELATIVA, FRECUENCIA ACUMULADA .............................................................................................. 7
LMITES REALES PARA CREACIN DE CATEGORAS SEGN VARIABLES DE INTERVALO .......................... 7
TIPOS REPRESENTACIN GRFICA DISTRIBUCIN DE FRECUENCIAS SEGN APUNTAMIENTOS ......... 7
MEDIDAS DE TENDENCIA CENTRAL ........................................................................................................ 7
MEDIA ARITMTICA, MEDIA ARITMTICA DATOS AGRUPADOS ............................................................................... 7
MARCA DE CLASE.. ................................................ 7
MEDIA ESTADSTICA PONDERADA ..................................................................................................................... 7
CLCULO DE LAS MARCAS DE CLASE ................................................................................................................. 8
MEDIANA .................................................................................................................................................... 8
CUARTILES ................................................................................................................................................... 8
DECILES....................................................................................................................................................... 8
CENTILES ..................................................................................................................................................... 8
MODA ........................................................................................................................................................ 8
CLCULO DE PERCENTILES............................................................................................................................... 8
RANGO INTERCUNTICO, RANGO SEMI-INTERCUANTLICO: ................................................................................... 8
MEDIDAS DE DISPERSIN ...................................................................................................................... 9
VARIANZA.................................................................................................................................................... 9
DESVIACIN ESTNDAR (O TPICA) ................................................................................................................... 9
VARIANZA PARA DATOS AGRUPADOS ................................................................................................................. 9
DESVIACIN ESTNDAR (O TPICA) PARA DATOS AGRUPADOS ................................................................................ 9
COEFICIENTE DE VARIACIN (PARA COMPARAR EL GRADO DE DISPERSIN ENTRE VARIAS DISTRIBUCIONES) ...................... 9
MEDIDAS DE LOCALIZACIN RELATIVA .................................................................................................. 9
VALORES DE Z .............................................................................................................................................. 9
EL TEOREMA DE CHEBYSHEV ......................................................................................................................... 10
OTRAS FORMAS DE CALCULAR LA MEDIA ............................................................................................ 10
MEDIA ARMNICA, MEDIA CUADRTICA ........................................................................................................ 10
MEDIA GEOMTRICA ................................................................................................................................... 10
TIPOS DE GRFICO ............................................................................................................................... 11
ELEMENTOS BSICOS PARA LA CONSTRUCCIN DE GRFICOS ............................................................ 12
TEORA Y CLCULO DE PROBABILIDADES ............................................................................................. 12

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

PROBABILIDAD A PRIORI Y FRECUENCIA RELATIVA ............................................................................................... 12


SUCESO COMPLEMENTARIO .......................................................................................................................... 12
TCNICAS DE CONTEO (AGRUPACIONES/ORDENACIONES) ................................................................................... 12
PERMUTACIN, VARIACIONES ....................................................................................................................... 12
COMBINACIONES ........................................................................................................................................ 12
TIPOS DE SUCESOS ...................................................................................................................................... 13
REGLA DE LA ADICCIN: UNIN DE SUCESOS (SIMULTNEOS) .............................................................................. 13
REGLA DE LA MULTIPLICACIN: SUCESOS CONDICIONADOS O INTERSECCIN DE SUCESOS (SECUENCIALES) ................... 13
REGLA DE LAPLACE ...................................................................................................................................... 13
PROPIEDADES BSICAS DE LA PROBABILIDAD ..................................................................................... 14
DISTRIBUCIONES TERICAS DE PROBABILIDAD.................................................................................... 14
FUNCIN DE LA DISTRIBUCIN NORMAL .......................................................................................................... 14
VALOR ESPERADO ....................................................................................................................................... 14
DISTRIBUCIN REAL, TERICA Y EMPRICA .......................................................................................... 15
DISTRIBUCIN UNIFORME ................................................................................................................... 16
DISTRIBUCIN UNIFORME DISCRETA ............................................................................................................... 16
FUNCIN DE DENSIDAD ................................................................................................................................ 16
DISTRIBUCIN BINOMIAL .................................................................................................................... 16
EXPERIMENTO BINOMIAL.............................................................................................................................. 16
FORMA GENERAL DE LA DISTRIBUCIN BINOMIAL ............................................................................................. 16
TRINGULO DE TARTAGLIA (O DE PASCAL) ....................................................................................................... 17
VALOR ESPERADO EN LA DISTRIBUCIN BINOMIAL ............................................................................................. 18
DISTRIBUCIN NORMAL ...................................................................................................................... 18
FUNCIN DE LA DISTRIBUCIN NORMAL .......................................................................................................... 18
DISTRIBUCIONES NORMALES CON DISTINTAS DESVIACIONES TPICAS ....................................................................... 18
DISTRIBUCIONES NORMALES CON DISTINTAS MEDIAS .......................................................................................... 19
MEDIA DE UNA DISTRIBUCIN BINOMIAL.......................................................................................................... 18
VARIANZA DE UNA DISTRIBUCIN BINOMIAL ..................................................................................................... 18
DESVIACIN ESTNDAR (O TPICA) DE UNA DISTRIBUCIN BINOMIAL ..................................................................... 18
FUNCIN DE DENSIDAD NORMAL ................................................................................................................... 19
DISTRIBUCIN NORMAL ESTANDARIZADA .......................................................................................... 19
TRANSFORMACIN VALORES DE X EN UNIDADES DE Z ......................................................................................... 19
FUNCIN NORMAL ESTANDARIZADA, FUNCIN DE DENSIDAD ESTANDARIZADA ...................................................... 20
CLCULO DE PROBABILIDADES EN DISTRIBUCIONES NORMALES ......................................................... 20
APROXIMACIN DE LA DISTRIBUCIN BINOMIAL A LA NORMAL ........................................................ 20
DISTRIBUCIN T DE STUDENT ............................................................................................................. 21
TRANSFORMACIN VALORES DE X EN UNIDADES DE T.......................................................................................... 21
GRADOS DE LIBERTAD DE LA DISTRIBUCIN T DE STUDENT: ................................................................................. 21
DISTRIBUCIN T DE STUDENT PARA VARIOS GRADOS DE LIBERTAD ( ) .................................................................... 21
DESVIACIN TPICA DE LA DISTRIBUCIN T DE STUDENT ...................................................................................... 21
CUADRO RESUMEN MEDIAS Y VARIANZAS DE LAS DIFERENTES DISTRIBUCIONES DE PROBABILIDAD . 22
LAS MUESTRAS ESTADSTICAS ............................................................................................................. 22

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

PARMETROS Y ESTADSTICOS ....................................................................................................................... 23


ERROR Y SESGO .......................................................................................................................................... 23
MUESTREO ALEATORIO. USO DE TRES TIPOS DE DISTRIBUCIONES DISTINTAS: ........................................................... 23
ERROR ESTADSTICO .................................................................................................................................... 24
NIVEL DE CONFIANZA................................................................................................................................... 24
LOS TRES PILARES DE LA TEORA MUESTRAL ........................................................................................ 24
ERROR TPICO (O ERROR ESTNDAR) ............................................................................................................... 24
TEOREMA DEL LMITE CENTRAL ........................................................................................................... 25
DISTRIBUCIN NORMAL EN Z ERROR ESTADSTICO TEOREMA LMITE CENTRAL .................................................... 25
RELACIN ENTRE ERROR, NIVEL DE CONFIANZA ................................................................................................ 25
Y TAMAO DE LA MUESTRA .......................................................................................................................... 25
CLCULO DEL TAMAO MUESTRAL, CLCULO DEL ERROR ESTADSTICO ................................................................. 25
VALORES DE Z PARA NIVELES DE CONFIANZA MS USUALES ............................................................... 25
NOMENCLATURA DISTRIBUCIONES POBLACIN/MUESTRA ................................................................. 26
ERRORES TPICOS Y FRMULAS DEL TAMAOS MUESTRAL PARA LOS ESTADSTICOS DE LA MEDIA Y DE
LA PROPORCIN (POBLACIONES INFINITAS) ........................................................................................ 26
POBLACIONES ...................................................................................................................................... 27
POBLACIONES FINITAS.................................................................................................................................. 27
FACTOR DE CORRECCIN PARA POBLACIONES FINITAS ........................................................................................ 27
POBLACIONES INFINITAS ............................................................................................................................... 28
ERRORES TPICOS Y FRMULAS DEL TAMAOS MUESTRAL PARA LOS ESTADSTICOS DE LA MEDIA Y DE
LA PROPORCIN (POBLACIONES FINITAS) ........................................................................................... 28
MUESTRAS GRANDES Y PEQUEAS...................................................................................................... 28
MUESTRAS GRANDES.. ................................................................................................................ 28
MUESTRAS PEQUEAS ................................................................................................................... 28
REGLA DE APROXIMACIN A LA DESVIACIN TPICA CUANDO SE DESCONOCE LA DE LA POBLACIN . 28
DISEO DE MUESTRAS ......................................................................................................................... 28
MARCO..................................................................................................................................................... 28
PROCEDIMIENTO DE MUESTREO ......................................................................................................... 29
MTODO DE SELECCIN DE LA MUESTRA ......................................................................................................... 29
MUESTREO ESTRATIFICADO ................................................................................................................. 29
ESTRATOS .................................................................................................................................................. 29
DESCOMPOSICIN ESQUEMTICA DE UNA POBLACIN EN ESTRATOS ...................................................................... 30
ELEMENTOS DEL MUESTREO ESTRATIFICADO ..................................................................................................... 30
VARIANZA DE LA POBLACIN ESTRATIFICADA .................................................................................................... 30
PROCEDIMIENTOS DE AFIJACIN .................................................................................................................... 31
PONDERACIN EN DISEOS NO PROPORCIONALES AL TAMAO ........................................................ 31
COEFICIENTE DE PONDERACIN ..................................................................................................................... 31
MUESTREO POR CONGLOMERADOS .................................................................................................... 32
EXPOSICIN ESQUEMTICA DEL MUESTREO POR CONGLOMERADOS ....................................................................... 32

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

MUESTREO POR CUOTAS ..................................................................................................................... 33


MUESTREO MIXTO ............................................................................................................................... 33
LA ESTIMACIN DE LAS VARIANZAS .................................................................................................... 34
CUASIVARIANZA MUESTRAL .......................................................................................................................... 34
CUASIDESVIACIN MUESTRAL ....................................................................................................................... 34
VARIANZA MUESTRAL A PARTIR ..................................................................................................................... 34
DEL ESTADSTICO DE LA CUASIVARIANZA ........................................................................................................... 34
ERROR TPICO CUANDO ESTIMAMOS LA VARIANZA A TRAVS DE LA PROPIA MUESTRA ............................................... 34
INFERENCIA ESTADSTICA .................................................................................................................... 35
ESTIMACIN DE MEDIAS Y PROPORCIONES....................................................................................................... 35
ERROR ESTADSTICO .................................................................................................................................... 35
ERRORES E INTERVALOS PARA LA MEDIA Y LA PROPORCIN ESTIMANDO LA VARIANZA A PARTIR DE LA MUESTRA............ 35
INTERVALOS EN EL CASO DE MUESTRAS PEQUEAS ............................................................................ 35
ESTIMACIN DE MEDIAS (MUESTRAS PEQUEAS) .............................................................................................. 35
ESTIMACIN DE PROPORCIONES (MUESTRAS PEQUEAS) .................................................................................... 36
INTERVALO DE WILSON ................................................................................................................................ 36
DIFERENCIAS DE ESTADSTICOS............................................................................................................ 36
SITUACIONES DE DEPENDENCIA E INDEPENDENCIA ENTRE MUESTRAS ..................................................................... 37
DETERMINACIN DEL TIPO DE SITUACIN DE CONSTRUCCIN DE ESTADSTICOS COMPUESTOS ..................................... 37
DIFERENCIA DE MEDIAS EN CASOS DE MUESTRAS INDEPENDIENTES ....................................................................... 37
ERROR TPICO, ERROR ESTADSTICO ............................................................................................................... 37
DIFERENCIA DE PROPORCIONES EN CASOS DE MUESTRAS INDEPENDIENTES ............................................................. 37
ERROR TPICO, ERROR ESTADSTICO ............................................................................................................... 37
DIFERENCIA DE ESTADSTICOS EN CASOS DE MUESTRAS RELACIONADAS .................................................................. 37
ERROR TPICO ............................................................................................................................................ 37
ERROR TPICO A PARTIR DE LA CUASIDESVIACIN ............................................................................................... 37
TEST DE SIGNIFICACIN ....................................................................................................................... 38
HIPTESIS NULA
............................................................................................................................... 38
PRUEBAS DE HIPTESIS ................................................................................................................................. 39
TIPOS DE ERROR EN LOS TEST DE HIPTESIS....................................................................................................... 39
NIVEL DE SIGNIFICACIN DEL TEST O VALOR CRTICO ...................................................................................... 39
P VALOR .................................................................................................................................................... 40
DOS TIPOS DE TEST ...................................................................................................................................... 40
TEST DE UNA COLA (UNILATERAL)................................................................................................................... 40
TEST DE DOS COLAS (BILATERAL) .................................................................................................................... 40
PROCEDIMIENTO DEL TEST DE SIGNIFICACIN O PRUEBAS DE HIPTESIS .................................................................. 41
VALORES DE Z PARA LOS NIVELES DE SIGNIFICACIN (N.S.) 5% Y 1% ..................................................................... 41
CONTRASTES DE HIPTESIS (MUESTRA VS POBLACIN DE REFERENCIA) ............................................. 41
CONTRASTE PARA UNA MEDIA ....................................................................................................................... 41
CONTRASTE PARA UNA PROPORCIN ............................................................................................................... 42
COMPARACIONES (MUESTRA VS MUESTRA)........................................................................................ 42
COMPARACIN DE MEDIAS............................................................................................................................ 42
COMPARACIN DE PROPORCIONES ................................................................................................................. 42

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

ANLISIS DE VARIANZA (ANOVA) ........................................................................................................ 42


PROCEDIMIENTO DE CLCULO ANOVA ........................................................................................................... 42
DISTRIBUCIN DE SNEDECOR...................................................................................................................... 44
DISEO ALEATORIZADO CON UN FACTOR .......................................................................................................... 44
REGRESIN Y CORRELACIN LINEAL .................................................................................................... 44
LA COVARIANZA.......................................................................................................................................... 44
INTERPRETACIN DE LA COVARIANZA .............................................................................................................. 45
ERRORES O RESIDUOS................................................................................................................................... 45
ECUACIN DE LA RECTA DE REGRESIN ............................................................................................................ 45
FRMULAS DE AJUSTE DE LA RECTA DE REGRESIN ............................................................................................. 46
COEFICIENTE DE CORRELACIN DE PEARSON .................................................................................................. 46
INTERPRETACIN DEL VALOR DE .................................................................................................................. 46
COEFICIENTE DE DETERMINACIN
............................................................................................................. 47
TABLAS DE CONTINGENCIA .................................................................................................................. 48
ANLISIS BIVARIABLE ................................................................................................................................... 48
REGLA DE ZEISEL ......................................................................................................................................... 49
ANLISIS TRIVARIABLE (TERCERA VARIABLE. VARIABLE DE CONTROL) .................................................................... 50
PARADOJA DE SIMPSON................................................................................................................................ 50
COMO VARIABLE ANTECEDENTE................................................................................................................... 51
COMO VARIABLE INTERVINIENTE .................................................................................................................. 51
JI-CUADRADO

.............................................................................................................................. 52

FRECUENCIA TERICA (O ESPERADA SEGN LA LGICA DE JI-CUADRADO)................................................................ 52


CLCULO DE RESIDUOS ................................................................................................................................. 52
RESIDUO ................................................................................................................................................... 52
RESIDUOS ESTANDARIZADOS ......................................................................................................................... 53
JI-CUADRADO DE CADA CELDA ........................................................................................................................ 53
COEFICIENTE JI-CUADRADO DE TODA LA TABLA (EJEMPLO TABLA 2X2)................................................................... 53
TABLA
PARA LA FRMULA GENERAL DEL NDICE
............................................................................... 53
FRMULA SUMA DE FRECUENCIAS COLUMNA GENRICA
................................................................................ 53
FRMULA SUMA DE FRECUENCIAS FILA GENRICA
........................................................................................ 53
SUMATORIO DE TODAS LAS CELDAS ................................................................................................................. 53
FRECUENCIA ESPERADA DE UNA CELDA CUALQUIERA
.................................................................................. 54
COEFICIENTE JI-CUADRADO
DE LA TABLA.................................................................................................... 54
INTERPRETACIN DE JI-CUADRADO EN TABLAS BIVARIABLES............................................................................. 54
DISTINTAS DISTRIBUCIONES JI-CUADRADO PARA DISTINTOS GRADOS DE LIBERTAD (DF) ............................................. 54
NMERO DE GRADOS DE LIBERTAD DE UNA TABLA BIDIMENSIONAL
........................................................... 54
PRUEBA DE LA DISTRIBUCIN JI-CUADRADO
CON LOS CORRESPONDIENTES GRADOS DE LIBERTAD ........................... 55
EL VALOR CRTICO Y NIVEL DE SIGNIFICACIN DE ........................................................................................... 55
ANEXO 1: TABLA Z. DISTRIBUCIN NORMAL ESTNDAR ..................................................................... 56
ANEXO 2: TABLA T. DISTRIBUCIN T DE STUDENT .............................................................................. 57
ANEXO 3: TABLA F. DISTRIBUCIN F DE FISHER (N.S. = 0,01)............................................................... 58
ANEXO 4: TABLA F. DISTRIBUCIN F DE FISHER (N.S. = 0,05)............................................................... 59
ANEXO 5: TABLA JI-CUADRADO. DISTRIBUCIN DE

........................................................................ 60

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Frmulas y apuntes de
Estadstica aplicada a las Ciencias Sociales
Tipologa de los datos
Ventajas

Inconvenientes

Incluyen a toda la poblacin.


Posibilidad de desagregacin en
subpoblaciones.

Coste econmico elevado.


Periodicidad dilatada.

REGISTROS

Actualizacin frecuente.

Disponible slo para poblaciones


especficas.
Incluyen pocas variables
Consulta restringida.

ENCUESTAS

Costes menores.
Informacin instantnea.
Pueden incluir mayor nmero de
variables.
Mayor posibilidad de verificacin de
los datos.

Estn sujetas a errores de muestreo.


Dificultades de desagregacin de la
informacin de forma detallada por el
tamao limitado de la muestra.
Necesidad de previa existencia de
censos para seleccionar la muestra.

CENSOS

Tipos de escala de las variables


Propiedades
NOMINAL
(N-1)

ORDINAL
(N-2)

INTERVALO
(N-3)

RAZN
(N-4)

Ejemplos

Clasifica

Lugar de nacimiento, sexo, estado civil, lugar


de residencia, etc.

Clasifica y ordena

Nivel de estudios, grado de satisfaccin,


jerarqua de mando, etc.

Clasifica, ordena y posee unidad de


medida

Tamao del hogar, fecha, temperatura, etc.

Clasifica, ordena, posee unidad de


medida, y origen = 0 absoluto

Nmero de hijos, renta familiar, peso,


distancia, etc.

0 es la ausencia de caracterstica

Otra clasificacin de las variables

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribuciones de Frecuencias
ni frecuencias absoluta
N = n1 + n2 + n3 + + ni

N Nmero de casos de la poblacin

Frecuencia Relativa

Frecuencia Acumulada

Lmites reales para creacin de categoras segn variables de intervalo


Los intervalos reales de las categoras dependen de la naturaleza de la variable

Variable:
o

Discreta

Lmites Clase = Lmites Reales

Continua

Depende de la variable

Ejemplos:
Distancia

de 3 hasta 4 de 2,5 hasta 4,4999

[2,5 4,5[

Edad

de 3 hasta 4 de 3 hasta 4,4999

[3 5[

Tipos Representacin Grfica distribucin de frecuencias segn apuntamientos


1. PLATICRTICA

Aplanada

Frecuencias similares a lo largo del recorrido.

2. LEPTOCRTICA

Puntiaguda

Frecuencias altas en pocos valores.

3. MESOCRTICA

Intermedia

Intermedia entre las dos anteriores.

Medidas de Tendencia Central


Media Aritmtica

Media Aritmtica datos agrupados

Marca de clase
Media estadstica Ponderada

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Clculo de las Marcas de Clase

A partir de los lmites reales

Mediana

Li Lmite Inferior
Ci Amplitud del Intervalo

Ci = Lsup Linf

Cuartiles

Q2 = Me
Q4 = Lsup = Valor Mximo de la Poblacin/Muestra
Deciles

Centiles

Moda

Clculo de Percentiles

Rango Intercuntico:

Rango Semi-Intercuantlico:

Ejemplo: si para la variable edad de una muestra quisiramos agregar los datos en diferentes grupos de edades,
en el caso del grupo de 25 a 29 aos el lmite inferior es 25, y el lmite superior es 30 [25 30[. Por tanto, la marca
de clase para ese grupo de edad es 27,5 aos.

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Medidas de Dispersin
Varianza

Frmula Alternativa
Desviacin Estndar (o Tpica)

Frmula Alternativa
Varianza para datos agrupados

Desviacin Estndar (o Tpica) para datos agrupados

Coeficiente de Variacin (para comparar el grado de dispersin entre varias distribuciones)

Expresado en porcentaje (%)

Medidas de Localizacin Relativa


Valores de Z
Nos indica a cuntas desviaciones estndar
est cualquier valor ( ) de la Media ( ).

Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin
en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas.
Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta
distancia en unidades de desviacin tpica o estndar (

).

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

El Teorema de Chebyshev

*Porcentaje de casos (%) independientemente de que la distribucin sea normal o no.


Para cualquier otro valor se calcula:

Otras formas de calcular la Media


Media Armnica

Media Cuadrtica

Media Geomtrica

10

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Tipos de Grfico
Problema de Investigacin

Tipo de Grfico

Representacin Grfica

DIAGRAMA DE BARRAS

DIAGRAMA DE BARRAS APILADAS


Descripcin y
Comparacin de
Categoras

DIAGRAMA DE REAS APILADAS

DIAGRAMA DE SECTORES

HISTOGRAMA
S = b x h h = S/b

POLGONO DE FRECUENCIAS

Anlisis y Comparacin de
Distribuciones

OJIVA

DIAGRAMA DE CAJAS

Anlisis Temporales

DIAGRAMA DE LNEAS

Distribucin conjunta de
dos variables

DIAGRAMA DE DISPERSIN

11

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Elementos bsicos para la construccin de grficos


1.
2.
3.
4.
5.
6.
7.

Fuente
Ttulo y subttulos
Ao o periodo
Etiquetado de los Ejes
Diferenciacin de las categoras
Base (el 0 se debe representar si forma base de la escala)
Discontinuidad en el Eje Vertical (si es necesario)

Escala del Grfico:

Aritmtica

Logartmica Grfico semilogartmico.

Teora y clculo de Probabilidades


Probabilidad a priori y frecuencia relativa

P (S)

Suceso Elemental Unidad Muestral

E = Espacio de Sucesos

Conjunto de todos los sucesos posibles Espacio Muestral

Suceso Complementario

Tcnicas de Conteo (Agrupaciones/Ordenaciones)


Permutacin

Variaciones

Combinaciones

12

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Tipos de Sucesos

Simultneos son, o no, mutuamente excluyentes.

Sucesivos/Secuenciales Observar si el anterior condiciona al posterior

o
o

Elemental
Compuesto

unin

interseccin

( ) / o [Simultneo]
( ) / y [Secuencial]

Regla de la Adiccin: Unin de Sucesos (simultneos)

Si son mutuamente excluyentes:

Sin tener en cuenta la mutua exclusin:

Regla de la Multiplicacin: Sucesos Condicionados o Interseccin de Sucesos


(secuenciales)

Si estn condicionados

Si

no estn condicionados:

Regla de Laplace

La probabilidad de un suceso es igual a su cardinal entre el cardinal del espacio muestral


en el que se inscribe.

13

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Propiedades bsicas de la Probabilidad

Suceso Seguro

Distribuciones Tericas de Probabilidad


Segn el tipo de variable, las distribuciones de probabilidad pueden ser:

Discretas

Continuas

Funcin de la Distribucin Normal

Cuando trabajamos con muestras distinguimos entre la distribucin de la muestra y la de la


poblacin:
Parmetros:

Estadsticos:

= Media de la Poblacin

= Media de la Muestra

= Desviacin Tpica de la Poblacin

= Desviacin Tpica de la Muestra

Parmetro: es el valor que toma la poblacin respecto a un indicador utilizado para


resumir la informacin que nos interesa de dicha poblacin.

Estadstico: es el valor que obtenemos a partir de una muestra y que representa al


parmetro.

Valor Esperado

14

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribucin Real, Terica y Emprica

Distribucin Real

distribucin de la Poblacin a investigar

Distribucin Terica

distribucin muestral (media de todas las muestras)


INTERMEDIA entre la Real (Poblacin) y la Emprica (Muestra)

Distribucin Emprica

distribucin de una muestra seleccionada

Una distribucin de probabilidad es una distribucin de frecuencias relativas de una variable


que denominamos aleatoria, por estar asociada a un experimento de carcter aleatorio; no
presenta resultados ciertos, slo podemos conocer la probabilidad de sus resultados posibles.
En el campo de la investigacin social est asociada al muestreo: a la posibilidad de extraer de
una poblacin una serie de individuos que presentan una determinada caracterstica.
Igual que toda distribucin, la de probabilidad puede ser discreta o continua, segn sea el
espacio muestral del experimento que la define, es decir, segn sea el conjunto de valores que
puede tomar la variable: el conjunto de resultados posibles del experimento.
En el campo de la investigacin social podemos trabajar con distribuciones empricas, viendo
cmo se distribuyen los datos en una poblacin o en una muestra. Pero cuando trabajamos
con una muestra lo que pretendemos es saber hasta qu punto la distribucin de una variable
que obtenemos en la muestra se corresponde con la distribucin real de la variable en la
poblacin. Para ello necesitamos hacer uso de una distribucin intermedia entre la de la
muestra y la de la poblacin: la distribucin muestral, que es una distribucin terica. Al
calcular el valor esperado en una muestra que hemos supuesto, al trabajar con variables
numricas (no nominales), todas las medidas de todas las muestras posibles (de un
determinado tamao), la distribucin de estas medias constituye la distribucin muestral, que
no hay que confundir con la distribucin emprica de los datos de una muestra, ni con la
distribucin real de los datos de la poblacin.
Cuando realizamos el muestreo, automticamente las distribuciones de frecuencias relativas
de los datos de una poblacin o de una muestra se convierten en una distribucin de
probabilidad.
Por tanto, hay que subrayar la diferencia entre la distribucin emprica (de los datos de la
muestra o de la poblacin) y la distribucin terica que generan las medias de todas las
muestras que podemos extraer de la poblacin investigada en el caso de variables de tipo
cuantitativo.
Las distribuciones tericas son referencia obligada para constrastar distribuciones empricas
observadas en muestras y poder conocer la validez de los datos observados en stas, ya que
nos indicarn hasta qu punto los datos se corresponden con los de la poblacin de donde
extraemos las muestras.

15

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribucin Uniforme
Es la ms sencilla de las distribuciones de probabilidad: aquella en que la probabilidad se
distribuye por igual en todos los casos o en todos los grupos de la poblacin. No existen
probabilidades diferentes parea casos o grupos diferentes.
Distribucin Uniforme Discreta

Cuando contamos con

grupos y la probabilidad de cada grupo

es:

Funcin de Densidad

La funcin de densidad se aplica para calcular la probabilidad que toma un intervalo dentro de
distribuciones continuas. Se utilizan reas para conocer la probabilidad de un intervalo de
valores.

Distribucin Binomial

p probabilidad de xito
q probabilidad de fracaso
Experimento Binomial

Para cada nmero de sucesos que fijemos (n) y para cada probabilidad de xito (p) en cada uno
de estos sucesos tendremos una distribucin binomial distinta. Cada distribucin binomial es
determinada por estos dos parmetros: n y p.
Forma General de la Distribucin Binomial

N de xitos
(x)

Probabilidad
p(x)

1
2
3
16

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

n-1
n
Esta distribucin se describe por los trminos del desarrollo del binomio de Newton
Los

coeficientes

de

cada

trmino

corresponden con una de las lneas del tringulo de Tartaglia o de Pascal.

Tringulo de Tartaglia (o de Pascal)

Para cada n (nmero de elementos de la muestra) y cada x (nmero de xitos de sta)


obtenemos los coeficientes a partir del Tringulo de Tartaglia (o de Pascal).
Cada lnea representa los coeficientes de una distribucin binomial, coeficientes que
corresponden con estos nmeros combinatorios:

17

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Media de una
distribucin binomial

Varianza de una
distribucin binomial

Rubn Crespo

Desviacin Estndar
(o Tpica) de una
distribucin binomial

Para muestras de variable nominal biniomializar / dicotomizar


Valor esperado en la Distribucin Binomial

Distribucin Normal
La distribucin normal es la distribucin terica ms usada en estadstica. Aparte de que
mltiples conjuntos de datos pueden ajustarse a ella, es la clave de la estadstica inferencial.
Toda distribucin muestral de medias se aproxima a la distribucin normal.
Funcin de la Distribucin Normal

Como y son dos constantes matemticas transcendentes (


;
),
, aparte del valor variable de , depende de la media de todos los valores
y de su
. Cada distribucin normal depende de estos dos parmetros
desviacin tpica o estndar
(su media y su desviacin tpica); fijados estos, se puede conocer el valor de la funcin
para cada valor de .
Distribuciones normales con distintas desviaciones tpicas

18

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribuciones normales con distintas medias

Funcin de Densidad Normal

La funcin de densidad normal nos define la probabilidad de cualquier intervalo.

Distribucin Normal Estandarizada


Transformacin valores de x en unidades de Z

Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin
en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas.
Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta
distancia en unidades de desviacin tpica o estndar ( ).
19

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Si una distribucin continua la convertimos en valores de decimos que la estandarizamos. Al


estandarizarla, su media se convierte en 0 y desviacin tpica en 1.
Las transformaciones que convierten unidades de a (y viceversa) permiten generalizar esto
a todas las distribuciones normales, tengan la media y la desviacin tpica que tengan.
Funcin Normal Estandarizada

Funcin de Densidad Estandarizada

Clculo de probabilidades en Distribuciones Normales

Aproximacin de la Distribucin Binomial a la Normal


Si no es una probabilidad extrema (prxima al 0 o al 1), entonces podemos sustituir la
o
.
binomial por una normal cuando

20

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribucin t de Student
La distribucin de Stundent nos sirve para hacer inferencias sobre la media poblacional a
partir de la media de la muestra cuando se desconoce la desviacin tpica de la poblacin. La
distribucin de Student es una distribucin asociada a la normal. Se puede decir que es una
distribucin normal corregida.
En muchos manuales se sostiene de forma arbitraria que si
entonces la distribucin
normal puede sustituir a la distribucin de Student. Se puede dar este lmite por bueno.
Transformacin valores de x en unidades de t

Hay una distribucin t distinta para cada tamao muestral . En este caso se habla de los
Grados de Libertad, que sern siempre
, y que estn asociados a l clculo de la
desviacin tpica de la muestra.
Grados de Libertad de la Distribucin t de Student:

Distribucin t de Student para varios grados de libertad ( )

Desviacin Tpica de la Distribucin t de Student

21

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Cuadro Resumen Medias y Varianzas de las diferentes distribuciones de probabilidad


Tipo de Distribucin

Media

Varianza

Uniforme
b = mximo
a = mnimo
Binominal
= nmero de casos
= probabilidad de xito
Normal
Normal Estndar
de Student
= grados de libertad

Las Muestras Estadsticas


Investigacin mediante Muestras. Condiciones:
1. Definir el Universo (Conjunto o Poblacin de referencia)
2. Fijar las condiciones para la Estimacin:

Error

Confianza

Representatividad de la Muestra

3. Mtodo de Seleccin de la Muestra:


a. Muestreo Aleatorio
Estratificado
Afijacin

Uniforme

Proporcional

Neyman (proporcional a la Varianza)

Por Conglomerados
b. Muestreo por Cuotas
4. Inferirencia de los resultados para el Universo.

22

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Parmetros y Estadsticos

Parmetro Constante Fija ( , )


Es el valor que toma la poblacin respecto a un indicador utilizado para resumir la
informacin que nos interesa de dicha poblacin.
Estadstico Constante Variable ( , ,
)
Es el valor que obtenemos a partir de una muestra y que representa al parmetro.
Parmetro

Estadstico

Con el estadstico vamos buscando el parmetro

Error y Sesgo

Error Estadstico
Es aquel que procede del hecho de utilizar observaciones muestrales, es decir, de no
observar la totalidad de los datos. Este error puede ser conocido e incorporado en los
resultados a travs de un intervalo.
Error Estadstico

Error Tpico (Desviacin Tpica o Estndar)

Errores No Estadsticos
Procede de defectos en los instrumentos de medida y de las condiciones en las que se
establece la medida, as como de otro conjunto de errores en la transmisin de datos. Este
tipo de errores se pueden (y deben) ser evitados. Entre los errores no estadsticos se
encuentra el sesgo:
Sesgo
Desviacin sistemtica de nuestras observaciones respecto a lo que estamos
midiendo. En investigacin mediante muestras el sesgo se produce al obtener
muestra que no se adecan a la poblacin, es decir, por el desfase que existe
entre la poblacin objetivo y la poblacin de la que obtenemos la muestra.
Muestreo Aleatorio. Uso de tres tipos de distribuciones distintas:

1. Distribucin de la Poblacin: el conjunto de todos los datos de la poblacin y a cuyos


indicadores de resumen denominamos parmetros. Generalmente esta distribucin es
desconocida, por ello recurrimos a muestras.
2. Distribucin de la Muestra: el conjunto de datos pertenecientes a la muestra
seleccionada. Generalmente slo obtenemos una muestra de la poblacin. Sus
indicadores de resumen se denominan estadsticos.
3. Distribucin Muestral: la distribucin de los estadsticos (las medias, por ejemplo) de
todas las muestras posibles de tamao que proceden de una poblacin. Es una
distribucin terica. No se desarrolla en forma de tabla porque se necesitara conocer
todos los elementos de la poblacin, pero, aunque no se conozcan, se puede construir
a travs de sus parmetros.
23

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Error Estadstico

Es la medida de la distancia entre el valor del estadstico obtenido en la muestra y el valor del
parmetro en la poblacin.
Nivel de Confianza

Es la probabilidad que existe de que esa distancia, o error estadstico, no sea mayor que la
preestablecida.
Si en una distribucin muestral se aumenta el valor de , la varianza de la distribucin
disminuir y los resultados de las distintas muestras se concentrarn ms en el valor del
parmetro. Por consiguiente, para un mismo nivel de error, el nivel de confianza mejora con
tamaos muestrales mayores.

Los tres pilares de la Teora Muestral


1. TAMAO MUESTRAL: es el nmero de elementos que extraemos de una poblacin
para su observacin y estudio.
2. ERROR ESTADSTICO: es la diferencia mxima (en valor absoluto) que admitimos entre
el valor del estadstico y el del parmetro.
3. NIVEL DE CONFIANZA: es la probabilidad de que la muestra seleccionada no supere el
error preestablecido.
Estos tres trminos estn absolutamente relacionados y la variacin en uno produce
variaciones en los otros dos. As, por ejemplo, si aumentamos el tamao muestral y
mantenemos fijo el error, el nivel de confianza aumenta. Si aumentamos el error sin cambiar el
tamao muestral, el nivel de confianza aumenta.
Relaciones:
Tamao Muestral Nivel de Confianza

directa

Error Estadstico Tamao Muestral

inversa

Error Estadstico Nivel de Confianza

inversa

Error Tpico (o error estndar)

Es la medida de dispersin (varianza) de la distribucin muestral.


Error Estadstico

Error Tpico (Desviacin Tpica o Estndar)

24

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Teorema del Lmite Central


La distribucin muestral de las medias de una poblacin grande con media
tpica se aproxima, segn aumenta , a una distribucin normal con media

y desviacin
y desviacin

tpica
Con poblaciones grandes

y:

Distribucin Normal en Z

Error Estadstico

Teorema Lmite Central

Relacin entre Error, Nivel de Confianza


y Tamao de la Muestra

Clculo del Tamao Muestral

Clculo del Error Estadstico

Valores de Z para Niveles de Confianza ms usuales


Nivel de Confianza
95%
95,45%
99%
99,7%

25

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Tamaos muestrales para distintos errores y niveles de confianza

Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 220.

Nomenclatura Distribuciones Poblacin/Muestra


Parmetro
MEDIA

Estadstico

Media:

Media:

Varianza:

Varianza:

Proporcin/Probabilidad

Proporcin/Probabilidad

Complementario

Complementario

PROPORCIN

Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y
de la Proporcin (Poblaciones Infinitas)
Media

Proporcin*

Parmetro
Error Tpico
Error Estndar
La distribucin se considera
como la Normal cuando:
Tamao Muestral

*En el caso de la Proporcin, cuando desconocemos la varianza PQ, elegimos el caso ms


.
desfavorable, varianza mxima, cuando
26

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Tamaos muestrales para el estadstico de la proporcin con distintos valores de .


Nivel de Confianza 95,45%

Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 222.

Poblaciones
Poblaciones Finitas

En investigacin social casi siempre nos referimos a poblaciones finitas. Por tanto las
formulas anteriores aplicadas a poblaciones finitas deben incorporar el factor de
correccin para poblaciones finitas:
Factor de Correccin para Poblaciones Finitas

27

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Poblaciones Infinitas

Una poblacin infinita es un conjunto de elementos que no pueden definirse mediante


) es grande, se desprecia el factor
enumeracin. Cuando la relacin entre y (
de correccin para poblaciones finitas:
Cuando

(En la prctica cuando

Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y
de la Proporcin (Poblaciones Finitas)
Media

Proporcin*

Parmetro
Error Tpico
Error Estndar
La distribucin se considera
como la Normal cuando:
Tamao Muestral

Muestras Grandes y Pequeas

La distribucin muestral se a ajusta a la NORMAL

Muestras Pequeas

La distribucin muestral se a ajusta a la de STUDENT

Muestras Grandes

Regla de aproximacin a la Desviacin tpica cuando se desconoce la de la Poblacin

valores de la muestra o poblacin.

Diseo de Muestras
Marco

El registro fsico de los elementos de la poblacin se denomina marco. En algunos casos es un


listado para seleccionar elementos de una poblacin. En la mayora de las ocasiones no pude
obtenerse un marco completo y actualizado de la poblacin, o la elaboracin es costosa o
presenta problemas de manipulado.

28

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Procedimiento de Muestreo
Dadas las dificultades de realizar muestras aleatorias simples, en las que todos los elementos
de una poblacin tienen la misma probabilidad de ser seleccionados, se recurre a distintos
sistemas de muestreo que tienen en cuenta lo que ya conocemos sobre la poblacin a
investigar. Al incorporar informacin existente podremos realizar diseos muestrales ms
eficientes, esto es, obtendremos la misma informacin con menor coste que si usramos
mtodos aleatorios puros. Adems, al incorporar informacin existente, podremos mejorar la
representatividad de la muestra.
Mtodo de Seleccin de la Muestra

a. Muestreo Aleatorio
Estratificado
Afijacin

Uniforme

Proporcional

Neyman (proporcional a la Varianza)

Por Conglomerados
b. Muestreo por Cuotas

Muestreo Estratificado
Estratos

Son subconjuntos o grupos del universo, de forma que todos los elementos pertenecen a uno
de los grupos y slo a uno.

Diseo Uniforme: deseamos conocer resultados para cada uno de los estratos.

Diseo Proporcional: aprovechamos la ventaja de la estratificacin pare reducir el


nmero de extracciones necesarias para la estimacin del conjunto.

Afijacin: es el reparto de los elementos de la muestra entre los distintos estratos.

Para la aplicacin del diseo estratificado se necesita definir los diferentes estratos y disponer
de informaciones que nos permitan estimar las varianzas en cada uno de ellos.

29

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Descomposicin esquemtica de una poblacin en estratos

Elementos del muestreo estratificado

Nmero de estratos
Poblacin en el estrato
Poblacin
Proporcin de la poblacin en el estrato
o peso del estrato
Tamao de la muestra en el estrato
Muestra
Proporcin de la muestra en el estrato

Varianza de la Poblacin Estratificada

30

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Procedimientos de Afijacin

Nmero de entrevistas en el estrato una vez establecido el valor de


Afijacin Uniforme

Se hace el mismo nmero de


entrevistas en cada estrato.

Afijacin Proporcional al
tamao

El nmero de entrevistas se reparte


considerando el peso que tienen los
estratos en la poblacin.

Afijacin de Neyman
(proporcional a la varianza)

Las entrevistas se distribuyen de


forma que se concentran
relativamente en los estratos de
mayor varianza.

Ponderacin en diseos no proporcionales al tamao


Cuando se utilizan criterios de afijacin no porporcionales al tamao de la poblacin (por
ejemplo el diseo estratificado uniforme), los resultados obtenidos para el conjunto total
necesitan ser corregidos. Esto se realiza con la Ponderacin: el procedimiento de ajuste del
peso que tienen los estratos en la muestra al peso que les corresponde en la poblacin.
Ponderar las unidades muestrales equivale a darles el peso que, por el estrato al que
pertenecen, les corresponde en la poblacin. Para ello se aplica en cada estrato un coeficiente
de ponderacin que atribuye el peso correspondiente a cada estrato en el conjunto de la
poblacin.

Coeficiente de Ponderacin

Los cuestionarios ponderados se representan con el signo :

31

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Muestreo por Conglomerados


El diseo estratificado mejora la aplicacin del muestreo respecto al muestreo aleatorio, pero
no resuelve de forma efectiva la cuestin de la obtencin del marco. Si no tenemos un listado
del universo, es difcil tener un listado para sus estratos. El diseo por conglomerados resuelve
de forma prctica estas cuestiones y permite reducir los costes y tiempo de ejecucin.
Los conglomerados son tambin subconjuntos de la poblacin. La diferencia es que mientras
los estratos se construyen buscando homogeneidad entre sus elementos, en los
conglomerados se definen los grupos buscando que los elementos en su interior sean lo ms
diversos posibles. Una vez definidos los conglomerados, se hace una muestra de ellos y se
investiga nicamente los que han sido seleccionados. De hecho, se trata de una tcnica de
seleccin, no de unidades sino de grupos de unidades y en general se compone de varias
etapas.
Conglomerado Unidad Colectiva
Exposicin esquemtica del muestreo por conglomerados

32

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

En el diseo de conglomerados, los tamaos muestrales son mayores que en el muestreo


aleatorio simple y el muestreo estratificado, debido a que los conglomerados tienen varianzas
ms elevadas que el conjunto poblacional.
En la prctica se utilizan mtodos de seleccin combinados. La poblacin se divide en estratos
y dentro de los distintos estratos se realiza un diseo de conglomerados.

Muestreo por Cuotas


Aunque los diseos derivados del muestreo aleatorio (estratos y conglomerados) permiten la
obtencin de datos representativos de la poblacin, as como la inferencia de los resultados
obtenidos mediante muestras al conjunto del universo bajo criterios conocidos de error,
resultan todava procedimientos costosos. En algunos casos, cuando la investigacin se refiere
a opiniones, pueden emplearse otros procedimientos para obtener muestras representativas.
La principal tcnica alternativa es el muestreo por cuotas. Se trata de, en vez de confiar al azar
la seleccin de las unidades, desarrollar un procedimiento de seleccin que reproduzca con la
mxima fidelidad posible la propia estructura de la poblacin. No obstante, para el muestreo
por cuotas es necesario tener un conocimiento preciso sobre la poblacin, pues sera la nica
forma vlida de reproducir una miniatura de la poblacin a estudiar.
Gracias, por ejemplo, a los censos podemos conocer algunas variables como la edad, sexo y
nivel de estudios. De forma conjunta, estas tres variables estn muy relacionadas con las
opiniones polticas y con las actitudes. Siempre que tengamos un conocimiento amplio de la
distribucin de variables que estn relacionadas con las caractersticas a investigar, podremos
utilizar el muestreo por cuotas.
La diferencia respecto al muestreo estratificado es que la localizacin de los entrevistados no
sigue un procedimiento probabilstico, sino que se seleccionan los primeros elementos
localizados que cumplan con las caractersticas a estudiar. Sin embargo este procedimiento
tiene mayor riesgo de introducir sesgos, y deben aplicarse algunas normas para darle un
mnimo carcter aleatorio:
1. Distribuir al mximo las entrevistas entre los encuestadores: a un mismo
entrevistador se le asigna diferentes perfiles de entrevistados para que no pueda
obtenerlos en un mismo lugar.
2. Utilizar el sistema de barrido cuotas: una vez asignadas las entrevistas, a cada
entrevistador se le proporciona unas rutas que debe realizar buscando los perfiles a
investigar.

Muestreo Mixto
En la prctica, en muchas encuestas sociolgicas y de opinin se utiliza un procedimiento
mixto en la seleccin de la muestra. La primera fase del diseo muestral se realiza mediante
tcnicas probabilsticas (seleccin de municipios dentro de estratos por tamao poblacional);
y la fase final de seleccin del entrevistado se realiza mediante muestreo por cuotas.
33

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

La estimacin de las Varianzas


Media

Estimador insesgado

Desviacin Tpica

Estimador sesgado

Cuasivarianza

Estimador insesgado

Cuasivarianza Muestral

Sobre grados de libertad


Para tamaos

Varianza = Cuasivarianza

Cuasidesviacin Muestral

Sobre grados de libertad

Varianza Muestral a partir


del estadstico de la Cuasivarianza

Error Tpico cuando estimamos la Varianza a travs de la propia muestra

Media

Proporcin

34

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Inferencia Estadstica
Estimacin de Medias y Proporciones

;
Error Estadstico

Errores e Intervalos para la Media y la Proporcin estimando la Varianza a partir de la


muestra

Estadstico

Error Tpico
(Poblaciones Infinitas)

Error Tpico
(Poblaciones Finitas)

Intervalo

MEDIA

PROPORCIN

Notas

Cuasidesviacin

Frmulas para Poblaciones Finitas cuando

Para Muestras Pequeas

En el caso de las Proporciones se usa la Varianza que nos proporciona la muestra


no la poblacional
.

se usa de Student en vez de .


y

Intervalos en el caso de Muestras Pequeas


Estimacin de Medias (muestras pequeas)

En la prctica si

La Varianza (Desviacin Tpica) hay que obtenerla a partir de la Cuasivarianza


(Cuasidesviacin)

se usa la distribucin de Student

35

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Estimacin de Proporciones (muestras pequeas)

Dificultades para

No se usa la frmula del Error Tpico si


el Intervalo de Wilson

o las proporciones son muy prximas a 0 o 1


o

. Como alternativa se aplicara

Intervalo de Wilson

Diferencias de Estadsticos
En el campo de la investigacin social es frecuente el uso de estadsticos compuestos que
resultan de la combinacin de estadsticos. Puede interesarnos conocer la diferencia de
medias de los salarios de hombres y mujeres, o la razn entre dos cantidades que han sido
obtenidas mediante una muestra: por ejemplo, si en una encuesta se ha preguntado por el
nmero de horas trabajadas y el salario, podemos calcular la razn entre la media de horas
trabajadas y el salario medio, de donde se obtendr un estadstico nuevos que ser el cociente
entre dos estadsticos que ya disponamos en la muestra.
Cuando producimos nuevos estadsticos a partir de las combinaciones de otros estadsticos
tenemos dos situaciones diferentes:
1. Que las observaciones que comparamos procedan de muestras independientes, por
ejemplo si queremos estimar la diferencia de salario medio entre hombres y mujeres.
Al hablar de muestras independientes no nos referimos a dos encuestas diferentes,
sino que las unidades muestrales no tienen relacin entre s. Para comparar los
salarios de hombres y mujeres, los hombres y las mujeres pertenecen a la misma
muestra, sin embargo son subconjuntos que no guardan relacin entre s, es decir, las
observaciones sobre los salarios de los hombres no afectan a las observaciones de las
mujeres. Por consiguiente, ambos conjuntos de datos se consideran muestras
independientes.
2. Que sean muestras relacionadas entre s. Esta situacin tiene distintos orgines. En
unos casos, sobre la misma unidad muestral tomamos medidas repetidas en el tiempo,
como sucede en los estudios de panel (se realiza la misma pregunta a la misma
persona en fechas diferentes y se comparan). En otros casos, sobre la misma unidad
muestral medimos caractersticas o variables distintas pero que estn relacionadas
entre s. Por ejemplo, se pregunta a una persona, por ejemplo, sobre su valoracin del
presidente del gobierno y tambin del lder de la oposicin. Para calcular un
estadstico de diferencia entre ambas valoraciones tenemos que tener en cuenta que
existe relacin entre las repuestas. Seguramente quien valore alto al presidente del
gobierno, lo haga bajo sobre el lder de la oposicin.
36

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Situaciones de dependencia e independencia entre muestras

1. Muestras Independientes: aquellas en que las observaciones se realizan sobre


unidades muestrales distintas (una sola variable para comparar distintos grupos de
individuos).
2. Muestras Relacionadas: aquellas en que las observaciones (variables) se refieren a la
misma unidad muestral (se comparan varias variables sobre un solo conjunto de
individuos).
Determinacin del tipo de situacin de construccin de estadsticos compuestos

Una Variable
Misma Unidad Muestral
Distintas Unidades Muestrales

Dos Variables
Dependiente

Independiente

Diferencia de Medias en casos de muestras independientes


Error Tpico

Error Estadstico

Diferencia de Proporciones en casos de muestras independientes


Error Tpico

Error Estadstico

Diferencia de Estadsticos en casos de muestras relacionadas


Error Tpico

: Desviacin Tpica de la variable generada como diferencia de medias.


Error Tpico a partir de la Cuasidesviacin

37

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Test de significacin
Un resultado estadstico es significativo cuando no se debe al azar. En estadstica, significante
no se interpreta como en el lenguaje normal, no significa que el estadstico sea relevante o
importante, ni siquiera que se considere verdadero. Un estadstico es significativo porque el
investigador lo considera fiable.
Los test de significacin son pruebas que se realizan para contrastar la informacin emprica
con la terica. Para ello se fija un umbral de corte a partir del cual los valores obtenidos en la
muestra emprica se consideran poco probables. Si el resultado obtenido est al lado del
umbral de corte donde los resultados se consideran probables, decimos que est dentro de la
zona de aceptacin de la hiptesis nula, pero si, por el contrario, el resultado cae del lado del
umbral de corte donde se considera poco probable, decimos que entra dentro de la zona de
rechazo de la hiptesis nula.

Hiptesis Nula

En estadsticas la hiptesis nula


es la hiptesis de partida (tambin denominada
puede
hiptesis inicial) que considera las diferencias no significativas. La hiptesis nula
ser rechazada o no rechazada, pero no podemos probarla, salvo que estudiemos todos los
elementos de la poblacin y la mayora de las veces eso no es posible.
Un resultado puede ser estadsticamente significativo aunque la diferencia sea muy pequea y
pueda parecer que no tiene importancia; por esta razn en los tets de significacin se debe
indicar el efecto de la talla estadstica, esto es, el tamao de la muestra. En muestras de
tamao grande pequeas diferencias pueden ser consideradas a travs de los test como
significativas.

38

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Pruebas de hiptesis

La evidencia que se necesita para aceptar que un acontecimiento se ha producido por azar es
el nivel de significacin (n.s. / significante level en ingls) o el valor crtico . Si el valor es
, es falsa o inusual.
pequeo, entonces debe rechazarse la hiptesis nula
Segn los trabajos de Neyman y Pearson, el planteamiento requiere tanto de la hiptesis nula
como de una hiptesis alternativa
, que deben ser definidas e investigadas
mediante repeticin de procedimientos de muestreo; si no, se corre el riesgo de rechazar un
resultado que cae fuera de la zona de aceptacin y, sin embargo, ser verdadero. Es el valor
crtico el que nos da la probabilidad de equivocarnos al rechazar ese valor.
Cuando se realizan pruebas de hiptesis existen dos tipos de errores que se pueden cometer:
1. Error de Tipo I: rechazar la hiptesis nula cuando es verdadera.
2. Error de Tipo II: aceptar la hiptesis nula cuando es falsa.
Tipos de error en los test de hiptesis

verdadera

falsa

Aceptar

Correcto

Error Tipo II

Rechazar

Error Tipo I

Correcto

Nivel de significacin del test o valor crtico

Es la probabilidad que se est dispuesto a aceptar de rechazar errneamente la hiptesis nula.


Se trata de una probabilidad establecida. Habitualmente, como niveles de significacin se usan
el 5% y el 1%.
39

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

p valor

Es la probabilidad de obtener un resultado al menos tan extremo como el que realmente se ha


obtenido en el experimento o en una muestra (valor del estadstico calculado), suponiendo
est basado en
que la hiptesis nula es cierta. Es fundamental tener en cuenta que el
la aceptacin de la hiptesis de partida (o hiptesis nula). A su vez, es la probabilidad de
equivocarnos al aceptar que las diferencias (entre valor emprico y valor terico) son
significativas. Cuanto ms pequea sea esta probabilidad ms seguro se est de no
equivocarse.

Dos tipos de test


Test de una cola (Unilateral)

Cuando la hiptesis de partida se enuncia la direccin: que un valor es mayor que o


menor que se realiza la prueba de una sola cola.

Test de dos colas (Bilateral)

Cuando la hiptesis de partida no hace ninguna especificacin.

40

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Procedimiento del test de significacin o pruebas de hiptesis

1. Establecer el valor crtico

(el error que se est dispuesto a aceptar).

2. Calcular el estadstico.
3. Comparar el estadstico (en valores de o de Student) con el umbral fijado (tambin
en valores de o de Student) para el valor crtico .
4. Resultado:
a. Si el estadstico es ms alto que el valor crtico, queda por tanto en la zona de
rechazo de la hiptesis nula y la diferencia es significativa. La probabilidad de
es pequea y el
es menor que la relacin
equivocarse al rechazar
]
encontrada por azar. [
b. Si el estadstico es ms bajo que el valor crtico, al contrario, queda en la zona
de aceptacin de la hiptesis nula y la diferencia no es significativ. La
es muy alta y el
es mayor que el valor
probabilidad de rechazar
crtico. [
]
Valores de Z para los niveles de significacin (n.s.) 5% y 1%

Tipo de Test

n.s. = 5%

n.s. = 1%

Test de una cola


Unilateral
Test de dos colas
Bilateral

Contrastes de hiptesis (muestra vs poblacin de referencia)


Contraste para una media

Hiptesis de partida o nula


Hiptesis alternativa
Clculo del estadstico en valor de (Student)

Clculo del estadstico en valor de

41

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Contraste para una proporcin

Hiptesis de partida o nula


Hiptesis alternativa
Clculo en valor de

Comparaciones (muestra vs muestra)


Comparacin de medias

Comparacin de proporciones

Proporcin Conjunta

Anlisis de Varianza (ANOVA)


Procedimiento de clculo ANOVA

1. Suma de cuadrados total

= Sumatorio de los sumatorios de las observaciones.


= Sumatorio de los sumatorios de los cuadrados de las observaciones.
= Valor de la observacin en cada grupo .
42

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

= Cantidad de observaciones en los grupos


= Total de observaciones .
2. Suma de los cuadrados entre grupos

= Sumatorio de los sumatorios de las observaciones al cuadrado dividido por


el nmero de observaciones del grupo.
= Sumatorio de los cuadrados de las observaciones dividido por el total de
observaciones.
3. Suma de cuadrados dentro de los grupos

4. Grados de Libertad
Grados de libertad total

Grados de libertad entre grupos

Grados de libertad dentro de los grupos


Tambin:
5. Estimacin de la varianza
Varianza entre grupos

6. Contraste de la

(Estimador

Varianza dentro de los grupos

de Snedecor)

43

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Distribucin

La distribucin
simtrica:

Rubn Crespo

de Snedecor

de Snedecor es una distribucin de probabilidad asociada a la normal no

Diseo aleatorizado con un factor

1. Suma de cuadrados total


2. Suma de cuadrados debida a los tratamientos (factores)
3. Suma de los cuadrados debida a los bloques
4. Clculo de la suma de cuadrados debida al error
Varianza Factor

Error

Contraste de

Regresin y correlacin lineal


La regresin tiene por objeto definir una funcin matemtica que se ajuste lo mejor posible a
los datos observados. Cuando se realiza sobre la relacin de dos variables mediante el ajuste
de una lnea recta, hablamos de regresin lineal simple, y la manera ms habitual e idnea de
representarla es sobre los diagramas de dispersin.
La Covarianza

En una distribucin bivariada contamos con una medida de dispersin que tiene en cuenta las
dos variables a la vez. Para ello es necesario hacer uso de la Covarianza, que se obtiene del
producto de las diferencias de e a sus medias.
Covarianza

44

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Interpretacin de la Covarianza

El valor de la covarianza nos informa de la existencia (o no) de dependencia lineal entre las
variables. Si no hay relacin lineal entre las dos variables, la covarianza ser igual a

Si

: No hay relacin lineal entre ambas variabes.

Si

: Hay relacin. Mayor cuanto mayor sea la covarianza

Si

la relacin de dependencia lineal es positiva. Para grandes valores de

se

obtienen grandes valores de

Si

la relacin de dependencia lineal es negativa. Para grandes valores de

se

obtienen pequeos valores de .


Errores o residuos

Los errores o residuos son la diferencia entre los valores reales y los de la recta ajustada a los
datos. Por cada valor de tenemos dos valores de , el de la ecuacin y el real observado. La
suma de los residuos sirve para evaluar el ajuste final.

Ecuacin de la recta de regresin

45

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Frmulas de ajuste de la recta de regresin

Los parmetros de la recta de regresin se ajustan por el mtodo de los mnimos cuadrados.
Covarianza

Varianza de

Pendiente de la recta de regresin

-> La covarianza medida en unidades de la varianza de .


Punto de corte de la recta con el eje de la variable dependiente

Una vez se han calculado los parmetros de la funcin de la recta de regresin lineal, la
correlacin sirve para cuantificar la bondad del ajuste de la recta a la nube de puntos.
Coeficiente de correlacin de Pearson

;
Interpretacin del valor de

El valor de vara entre -1 y +1

Si

Si
: Hay correlacin positiva. Al aumentar una variable, al aumentar una variable
la otra tambin aumenta. La recta de regresin tiene pendiente positiva.

Si
: Hay correlacin negativa. Al aumentar una variable, al aumentar una
variable la otra disminuye. La recta de regresin tiene pendiente negativa.

Si

: No hay correlacin. Las rectas de regresin son paralelas a los ejes.

: Todos los puntos estn contenidos en la recta de regresin.

Aunque el coeficiente de correlacin se alto, no significa necesariamente que el ajuste sea


ptimo. Puede existir una relacin fuerte pero no lineal. Por ello, es imprescindible siempre
con el grfico del diagrama de
acompaar el clculo del coeficiente de correlacin
dispersin, con el fin de comprobar que se cumple la relacin lineal entre las variables.
El coeficiente de correlacin
es simtrico. Tiene el mismo valor tanto si se trata de
cuantificar con los mismos datos el ajuste de la recta de en como de la recta de en .
46

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Coeficiente de determinacin

Es el coeficiente de correlacin de Pearson al cuadrado . Expresa la reduccin proporcional


del error que se comete al estimar los valores de la variable dependiente a partir de la recta
de regresin. Se puede interpretar tambin como la probabilidad de la varianza total en una
variable que es explicada por la otra variable en el modelo lineal. Al igual que ,
es
simtrico y su valor es el mismo tanto si tomamos la variable independiente
por la
dependiente y viceversa.

Coeficiente de determinacin

: Diferencia entre los valores de

obtenidos de la ecuacin lineal y la media.

: Diferencia entre los valores observados y la media.


Para cada observacin

: Residuo o diferencia entre el valor observado


observado de no explicada por el modelo

y el estimado

. La parte del valor

Residuo

Suma de cuadrados total

Slo una parte de la variacin de es explicada por el modelo, y el valor de


parte de la variacin total supone la variacin explicada por la recta de regresin.

indica qu

El coeficiente de determinacin
tambin puede obtenerse mediante el producto de las
pendientes de las dos rectas de regresin:

47

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Tablas de contingencia
Las tablas de contingencia sirven para comparar grupos y observar cmo se distribuye una
variable en el seno de otra variable. Para ver cmo se agrupa la poblacin simultneamente en
dos variables, se realiza un cruce de variables y obtenemos una tabla de contingencia. 2
Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos

Actitud hacia los impuestos

Nivel de
Estudios

Bajar los

Gastar ms en

impuestos y

prestaciones

gastar menos en

aumentando los

prestaciones

impuestos

Ns/Nc.

Total

Sin Estudios o Primarios

571

441

275

1287

Secundarios

251

283

112

646

Superiores

151

293

83

527

973

1017

470

2460

Total

Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

La distribucin total de las filas se denomina distribucin marginal de filas, y la distribucin


total de columnas se denomina distribucin marginal de columnas. En la prctica se suele
referirse a ellas como marginales, que son las distribuciones totales de cada una de las
variables cruzadas. La distribucin conjunta de las variables se observa en las casillas
centrales.
La anterior tabla de contingencia se ha realizado con frecuencias absolutas, con lo que la
informacin contenida en la tabla no se presenta fcil para el anlisis. Para una mejor
comparacin de la distribucin entre las dos variables se hace necesario obtener la tabla con
las frecuencias relativas (en porcentajes).
Anlisis Bivariable

La relacin entre dos variables se establece con el esquema explicativo: la distribucin de una
variable es explicada por la distribucin de otra variable. En otras palabras, una variable es

Es importante destacar la diferencia entre variables de registro y variables de anlisis. Las variables
de registro son las variables originales que se emplean para registra la informacin, que suelen
presentarse con mucho detalle (asimiladas a trminos abstractos o administrativos de registro) y sirven
como punto de partida para la investigacin. Las variables de anlisis son las variables construidas con
pertinencia emprica y/o terica para el anlisis sociolgico.

48

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

determinada por otra. Por tanto, tenemos variable independiente y variable dependiente. Los
cambios de la variable independiente explican los de la dependiente.

Desde el enfoque matemtico, cualquiera de las dos variables puestas en relacin puede
ejercer indistintamente el papel de independiente como de dependiente. Pero desde el
enfoque emprico, estos papeles se definen contrastando que una de las variables es
antecedente (temporalmente) de la otra o presenta ms estabilidad temporal o se considera
ms bsica; y esta ser la variable independiente. Podra darse el caso que dos variables en
relacin terica no tengan ninguna relacin de dependencia, y por consiguiente ambas
variables seran independientes.
Regla de Zeisel

Para el anlisis de la relacin de dos variables en una tabla de contingencia se calculan los
porcentajes en la direccin de la variable independiente y se comparan en la direccin de
la variable dependiente.
Como regla general colocamos los datos de la variable independiente en las filas. Segn De
Miguel (1997): La mejor disposicin es la de porcentajes horizontales porque el ojo humano
compara mejor las relaciones de arriba abajo 3. Por tanto, conviene por sistema emplear esta
regla en todos los casos, calcular los porcentajes en la direccin horizontal y comparar las
relaciones entre ambas variables en la direccin vertical.
Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos

Actitud hacia los impuestos

Nivel de
Estudios

Bajar los

Gastar ms en

impuestos y

prestaciones

gastar menos en

aumentando los

prestaciones

impuestos

Ns/Nc.

Total

Sin Estudios o Primarios

44,4%

34,3%

21,4%

100,0%

Secundarios

38,9%

43,8%

17,3%

100,0%

Superiores

28,7%

55,6%

15,7%

100,0%

39,6%

41,3%

19,1%

100,0%

Total

Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

De Migel, A. 1997. Manual del perfecto socilogo, Madrid, Espasa, p. 67.

49

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anlisis Trivariable (Tercera Variable. Variable de Control)

Con las tablas de contingencia de dos variables se parte del supuesto de que el resto de
variables se mantienen constantes. Sin embargo, en la realidad esto no ocurre nunca. La
experiencia emprica demuestra que mltiples variables afectan al comportamiento de otra; y
muchas no se pueden controlar cuando no hay registro. Es posible que algunas no aparezcan
cuando se est estudiando una encuesta estadstica; otras se tienen que construir a partir de
las variables de registro.
La introduccin de una tercera variable puede alterar las supuestas relaciones halladas en la
tabla de contingencia de dos variables, de manera que la relacin bivariable anterior se
desvanezca. A esta tercera variable la llamamos variable de control, y se introduce
segmentando los datos del cruce de las dos variables anteriores en funcin de esta tercera
variable.

Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos * Sexo


Actitud hacia los impuestos

Sexo
Hombre

Bajar los

Gastar ms

impuestos y

en

gastar menos

prestaciones

en

aumentando

prestaciones los impuestos


Nivel de Estudios Sin Estudios o

Ns/Nc.

Total

41,3%

41,6%

17,2%

100,0%

Secundarios

36,8%

44,2%

19,0%

100,0%

Superiores

27,5%

57,2%

15,3%

100,0%

Total

37,4%

45,2%

17,4%

100,0%

Nivel de Estudios Sin Estudios o

47,4%

27,1%

25,5%

100,0%

Secundarios

41,3%

43,3%

15,4%

100,0%

Superiores

29,5%

54,4%

16,1%

100,0%

41,6%

37,6%

20,8%

100,0%

Primarios

Mujer

Primarios

Total

Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

Paradoja de Simpson

Una asociacin entre dos variables desaparece o cambia de sentido cuando los datos son
desagregados por grupos, esto es, cuando se controla el efecto de una tercera variable.

50

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

La variable de control que se introduce para observar el comportamiento en una relacin


bivariable original afecta a sta si:
1. Se relaciona con la variable independiente o causal
2. Se relaciona con la variable dependiente o efecto
3. Cuando segmentamos la poblacin segn los gruos de la variable de control
, se
son de menor
observa que las relaciones entre las variables originales
intensidad que la que manifestaban antes de introducir la tercera variable. Pero
tambin cabe la posibilidad de que la tercera variable afecte a las dos variables
sin alterar la relacin original establecida por stas.
En los modelos donde una tercera variable altera una determinada relacin entre dos
variables, existen dos casos en la forma en que acta la tercera variable:
1.
2.

Variable Antecedente:

actua sobre

Variable Interviniente (o mediadora):


sobre y sta sobre .

y sobre .
se interpone entre

e , esto es,

actua

como variable antecedente

como variable interviniente


(o mediadora)

Todas las interacciones posibles se deben fundamentar en modelos de interaccin de


pertinencia sociolgica.
La interaccin entre tres variables se puede resumir en una tabla, pero la forma ms ptima de
analizar las relaciones entre las tres variables es segmentando la poblacin entre los valores de
una de las variables, la que se considere ms bsica o primordial. De esta manera se puede
observar cmo se comporta las otras dos variables en cada una de las categoras (o valores) de
la primera.
En muchas ocasiones resulta interesante dualizar (o dicotomizar) las variables que se cruzan.
La visibilidad de las confrontaciones duales facilita el anlisis.

51

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Ji-cuadrado
La prueba de Ji-cuadrado
es un test que afecta a la distribucin de frecuencias de los
diferentes grupos que componen una poblacin y que son generados por un cruce de
variables.
Con la prueba de Ji-cuadrado
se pretende conocer en trminos probabilsticos si el
conjunto de las frecuencias relativas (proporciones) de todos los grupos generados en una
poblacin (por el cruce de variables) se distribuye forma a aleatoria (al azar), sin diferencias
significativas (significacin estadstica) entre ellas (en conjunto). Igual que en todas las
pruebas estadsticas, se contrasta la distribucin real de los datos (a partir de un estadstico)
, en donde definimos un punto
con una distribucin terica, en este caso, la Ji-cuadrado
crtico a partir del cual las diferencias se consideran significativas entre las proporciones del
conjunto de los grupos poblacionales (condensadas en el estadstico Ji-cuadrado). Por tanto,
por un lado tenemos el estadsitco (Ji-cuadrado) asociado a una tabla de contingencia, y por
otro, una distribucin terica de este estadstico.
La prueba de Ji-cuadrado slo tiene sentido cuando se trabaja con datos muestrales extrados
de forma aleatoria, esto es, en distribuciones (empricas) de probabilidad.
Con la prueba de Ji-cuadrado la especificidad (emprica/terica) concreta de las categoras
desaparece. Para Ji-cuadrado es irrelevante si la prueba la hacemos sobre variables de edad,
nivel de estudios, definiciones ideolgicas, etc. Ji-cuadrado vale lo mismo para categoras
sociolgicas, mdicas, criminolgicas, biolgicas, etc. Ji-cuadrado no distingue la especificidad
de las categoras consideradas. Se trata de un ndice que resume toda la distribucin teniendo
en cuenta slo el nmero de categoras y las frecuencias que se dan en stas.
Frecuencia terica (o esperada segn la lgica de Ji-cuadrado)

Se podra decir que las frecuencias esperadas en cada una de las casillas de una tabla de
contingencia son aquellas que cabe esperar en el caso de que no exista relacin entre las
variables, esto es, independencia estadstica o probabilstica entre las variables. Dos variables
son independientes estadsticamente si la probabilidad de que nos aparezca una categora
de una variable no depende de la distribucin de probabilidad de la otra variable.
Clculo de residuos

Los residuos son las diferencias entre las frecuencias observadas y las esperadas en cada celda.
Los residuos son errores del muestreo aleatorio.
Residuo

52

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Para poder comparar las distancias entre las frecuencias observadas y las esperadas dentro
de cada celda, se ha de estandarizar estas distancias.
Residuos Estandarizados

de cada celda

Coeficiente Ji-cuadrado

Tabla

de toda la tabla (Ejemplo Tabla 2x2)

para la frmula general del ndice

Frmula suma de frecuencias columna genrica

Frmula suma de frecuencias fila genrica

Sumatorio de todas las celdas

53

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Frecuencia esperada de una celda cualquiera

Coeficiente Ji-cuadrado

de la Tabla

Interpretacin de Ji-cuadrado

en tablas bivariables

Si

Si

de una tabla concreta no vale para comparar otras tablas distintas. Para ello existen
.
otros coeficientes de contingencia: V de Cramer, Coeficiente de contingencia o

toma valores entre

ndice o Coeficiente de relacin.

: No hay relacin entre las variables.

La prueba o test de Ji-cuadrado

es un contraste de proporciones mltiples. La distribucin

terica asociada a esta prueba es la distribucin . Se trata de una distribucin continua de


probabilidad, una distribucin muestral de la varianza derivada de la distribucin normal. Al
igual que la distribucin de Student, depende de un parmetro: grados de libertad. Por
tanto, existe una distribucin distinta para cada nmero de grados de libertad. La media de la
distribucin Ji-cuadrado
es igual a sus grados de libertad, su varianza es dos veces sus
.
grados de libertad, y sus valores oscilan entre
Distintas distribuciones Ji-cuadrado

para distintos grados de libertad (df)

La distribucin Ji-Cuadrado
se va acercando a la distribucin normal a medida que
aumentan sus grados de libertad.
Nmero de grados de libertad de una tabla bidimensional

54

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Prueba de la distribucin Ji-Cuadrado

Rubn Crespo

con los correspondientes grados de libertad

Como todas las distribuciones de probabilidad, la distribucin Ji-Cuadrado describe un rea


bajo la curva que es igual a 1, esto es, donde encontramos el 100% de los casos. Cualquier
valor de deja a su izquierda un porcentaje de casos que asignaremos a la proporcin , y a
su derecha el resto de casos que asignaremos a la proporcin . Entre 0 y un valor cualquiera
de encontraremos el
% de los casos. Y entre el valor e encontraremos el resto,
%. Y sabemos que
.
el

El valor crtico y nivel de significacin de

La de la Tabla Ji-cuadrado, distribucin de (ver Anexo 5) nos indica el valor crtico de


a
partir del cual todo valor mayor entre en la zona de rechazo de la hiptesis nula
, que
considera las variables cruzadas en la tabla son independientes estadsticamente, es decir, no
hay relacin entre ellas. Por tanto, la es el nivel de significacin que usamos para la prueba
de la distribucin Ji-cuadrado .

55

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anexo 1: Tabla Z. Distribucin Normal Estndar

Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta

56

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anexo 2: Tabla t. Distribucin t de Student

Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta

57

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anexo 3: Tabla F. Distribucin F de Fisher (N.s. = 0,01)

Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta

58

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anexo 4: Tabla F. Distribucin F de Fisher (N.s. = 0,05)

Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta

59

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anexo 5: Tabla Ji-cuadrado. Distribucin de

Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta

60

cisolog.com

También podría gustarte