Está en la página 1de 62

ciencia sociolgica

www.cisolog.com

Frmulas y apuntes de
Estadstica aplicada
a las ciencias sociales

Mayo 2013
El contenido de este documento realizado por
Rubn Crespo se encuentra bajo una Licencia Rubn Crespo
Creative Commons: Atribucin-NoComercial-
SinDerivadas 3.0 Unported. cisolog@cisolog.com

NotaPrevia

Este documento no tiene ninguna finalidad pedaggica. Se trata de una


compilacindelasprincipalesfrmulasestadsticasyapuntestericosrecogidos
delloslibrosdeLuisCamareroRiojaetal.2010.Estadsticaparalainvestigacin
social. Ibergarceta; y Alejandro Almazn et al. 2011. Anlisis estadstico para la
investigacin social. Ibergarceta, que constituye respectivamente los manuales
bsicosdelasasignaturasEstadsticasocialaplicadaalascienciassocialesIyIIde
losplanesdeestudiodeGradodeSociologaenlaUNED.

Lafinalidaddeestedocumentoesofrecerunaherramientadeapoyotantopara
elprofesionalcomoparaelestudiantequehaasimiladolosconocimientosbsicos
de estadstica aplicada a las ciencias sociales, de manera que cuando realice
prcticasdeinvestigacinsocialdondeserequiereelusodelaestadstica,pueda
disponer de un material de consulta que concentra las principales frmulas y
elementos tericos tiles para resolver la mayora de los problemas que se le
planteen. Por tanto, el contenido de este documento, al no disponer de
explicaciones precisas y exposicin de ejemplos, no es conveniente para el
aprendizaje de la estadstica enfocada a la investigacin social. Para ello se
recomiendalalecturaycomprensindelcitadomanual.Sibienhayotrosmuchos
manuales cuyo aprendizaje serviran para entender las formulas y apuntes
tericos que se compilan aqu, en este documento los contenidos se han
estructuradoenelmismoordenquelosmanualessealadosmsarriba.

Lamayoradelastablasygrficossondeelaboracinpropia,exceptounparde
ellosquesehanextradodelprimermanual,ascomolastablasdelosanexosque
sepuedenencontraralfinaldeldocumento.

RubnCrespo
Mayo,2013
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

ndice

TIPOLOGA DE LOS DATOS ..................................................................................................................... 6

TIPOS DE ESCALA DE LAS VARIABLES ..................................................................................................... 6

OTRA CLASIFICACIN DE LAS VARIABLES ............................................................................................... 6

DISTRIBUCIONES DE FRECUENCIAS ........................................................................................................ 7

FRECUENCIA RELATIVA, FRECUENCIA ACUMULADA .............................................................................................. 7

LMITES REALES PARA CREACIN DE CATEGORAS SEGN VARIABLES DE INTERVALO .......................... 7

TIPOS REPRESENTACIN GRFICA DISTRIBUCIN DE FRECUENCIAS SEGN APUNTAMIENTOS ......... 7

MEDIDAS DE TENDENCIA CENTRAL ........................................................................................................ 7

MEDIA ARITMTICA, MEDIA ARITMTICA DATOS AGRUPADOS ............................................................................... 7


MARCA DE CLASE.. ................................................ 7
MEDIA ESTADSTICA PONDERADA ..................................................................................................................... 7
CLCULO DE LAS MARCAS DE CLASE ................................................................................................................. 8
MEDIANA .................................................................................................................................................... 8
CUARTILES ................................................................................................................................................... 8
DECILES....................................................................................................................................................... 8
CENTILES ..................................................................................................................................................... 8
MODA ........................................................................................................................................................ 8
CLCULO DE PERCENTILES............................................................................................................................... 8
RANGO INTERCUNTICO, RANGO SEMI-INTERCUANTLICO: ................................................................................... 8

MEDIDAS DE DISPERSIN ...................................................................................................................... 9

VARIANZA.................................................................................................................................................... 9
DESVIACIN ESTNDAR (O TPICA) ................................................................................................................... 9
VARIANZA PARA DATOS AGRUPADOS ................................................................................................................. 9
DESVIACIN ESTNDAR (O TPICA) PARA DATOS AGRUPADOS ................................................................................ 9
COEFICIENTE DE VARIACIN (PARA COMPARAR EL GRADO DE DISPERSIN ENTRE VARIAS DISTRIBUCIONES) ...................... 9

MEDIDAS DE LOCALIZACIN RELATIVA .................................................................................................. 9

VALORES DE Z .............................................................................................................................................. 9
EL TEOREMA DE CHEBYSHEV ......................................................................................................................... 10

OTRAS FORMAS DE CALCULAR LA MEDIA ............................................................................................ 10

MEDIA ARMNICA, MEDIA CUADRTICA ........................................................................................................ 10


MEDIA GEOMTRICA ................................................................................................................................... 10

TIPOS DE GRFICO ............................................................................................................................... 11

ELEMENTOS BSICOS PARA LA CONSTRUCCIN DE GRFICOS ............................................................ 12

TEORA Y CLCULO DE PROBABILIDADES ............................................................................................. 12

1 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

PROBABILIDAD A PRIORI Y FRECUENCIA RELATIVA ............................................................................................... 12


SUCESO COMPLEMENTARIO .......................................................................................................................... 12
TCNICAS DE CONTEO (AGRUPACIONES/ORDENACIONES) ................................................................................... 12
PERMUTACIN, VARIACIONES ....................................................................................................................... 12
COMBINACIONES ........................................................................................................................................ 12
TIPOS DE SUCESOS ...................................................................................................................................... 13
REGLA DE LA ADICCIN: UNIN DE SUCESOS (SIMULTNEOS) .............................................................................. 13
REGLA DE LA MULTIPLICACIN: SUCESOS CONDICIONADOS O INTERSECCIN DE SUCESOS (SECUENCIALES) ................... 13
REGLA DE LAPLACE ...................................................................................................................................... 13

PROPIEDADES BSICAS DE LA PROBABILIDAD ..................................................................................... 14

DISTRIBUCIONES TERICAS DE PROBABILIDAD.................................................................................... 14

FUNCIN DE LA DISTRIBUCIN NORMAL .......................................................................................................... 14


VALOR ESPERADO ....................................................................................................................................... 14

DISTRIBUCIN REAL, TERICA Y EMPRICA .......................................................................................... 15

DISTRIBUCIN UNIFORME ................................................................................................................... 16

DISTRIBUCIN UNIFORME DISCRETA ............................................................................................................... 16


FUNCIN DE DENSIDAD ................................................................................................................................ 16

DISTRIBUCIN BINOMIAL .................................................................................................................... 16

EXPERIMENTO BINOMIAL.............................................................................................................................. 16
FORMA GENERAL DE LA DISTRIBUCIN BINOMIAL ............................................................................................. 16
TRINGULO DE TARTAGLIA (O DE PASCAL) ....................................................................................................... 17
VALOR ESPERADO EN LA DISTRIBUCIN BINOMIAL ............................................................................................. 18

DISTRIBUCIN NORMAL ...................................................................................................................... 18

FUNCIN DE LA DISTRIBUCIN NORMAL .......................................................................................................... 18


DISTRIBUCIONES NORMALES CON DISTINTAS DESVIACIONES TPICAS ....................................................................... 18
DISTRIBUCIONES NORMALES CON DISTINTAS MEDIAS .......................................................................................... 19
MEDIA DE UNA DISTRIBUCIN BINOMIAL.......................................................................................................... 18
VARIANZA DE UNA DISTRIBUCIN BINOMIAL ..................................................................................................... 18
DESVIACIN ESTNDAR (O TPICA) DE UNA DISTRIBUCIN BINOMIAL ..................................................................... 18
FUNCIN DE DENSIDAD NORMAL ................................................................................................................... 19

DISTRIBUCIN NORMAL ESTANDARIZADA .......................................................................................... 19

TRANSFORMACIN VALORES DE X EN UNIDADES DE Z ......................................................................................... 19


FUNCIN NORMAL ESTANDARIZADA, FUNCIN DE DENSIDAD ESTANDARIZADA ...................................................... 20

CLCULO DE PROBABILIDADES EN DISTRIBUCIONES NORMALES ......................................................... 20

APROXIMACIN DE LA DISTRIBUCIN BINOMIAL A LA NORMAL ........................................................ 20

DISTRIBUCIN T DE STUDENT ............................................................................................................. 21

TRANSFORMACIN VALORES DE X EN UNIDADES DE T.......................................................................................... 21


GRADOS DE LIBERTAD DE LA DISTRIBUCIN T DE STUDENT: ................................................................................. 21
DISTRIBUCIN T DE STUDENT PARA VARIOS GRADOS DE LIBERTAD ( ) .................................................................... 21
DESVIACIN TPICA DE LA DISTRIBUCIN T DE STUDENT ...................................................................................... 21

CUADRO RESUMEN MEDIAS Y VARIANZAS DE LAS DIFERENTES DISTRIBUCIONES DE PROBABILIDAD . 22

LAS MUESTRAS ESTADSTICAS ............................................................................................................. 22

2 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

PARMETROS Y ESTADSTICOS ....................................................................................................................... 23


ERROR Y SESGO .......................................................................................................................................... 23
MUESTREO ALEATORIO. USO DE TRES TIPOS DE DISTRIBUCIONES DISTINTAS: ........................................................... 23
ERROR ESTADSTICO .................................................................................................................................... 24
NIVEL DE CONFIANZA................................................................................................................................... 24

LOS TRES PILARES DE LA TEORA MUESTRAL ........................................................................................ 24

ERROR TPICO (O ERROR ESTNDAR) ............................................................................................................... 24

TEOREMA DEL LMITE CENTRAL ........................................................................................................... 25

DISTRIBUCIN NORMAL EN Z ERROR ESTADSTICO TEOREMA LMITE CENTRAL .................................................... 25


RELACIN ENTRE ERROR, NIVEL DE CONFIANZA ................................................................................................ 25
Y TAMAO DE LA MUESTRA .......................................................................................................................... 25
CLCULO DEL TAMAO MUESTRAL, CLCULO DEL ERROR ESTADSTICO ................................................................. 25

VALORES DE Z PARA NIVELES DE CONFIANZA MS USUALES ............................................................... 25

NOMENCLATURA DISTRIBUCIONES POBLACIN/MUESTRA ................................................................. 26

ERRORES TPICOS Y FRMULAS DEL TAMAOS MUESTRAL PARA LOS ESTADSTICOS DE LA MEDIA Y DE
LA PROPORCIN (POBLACIONES INFINITAS) ........................................................................................ 26

POBLACIONES ...................................................................................................................................... 27

POBLACIONES FINITAS.................................................................................................................................. 27
FACTOR DE CORRECCIN PARA POBLACIONES FINITAS ........................................................................................ 27
POBLACIONES INFINITAS ............................................................................................................................... 28

ERRORES TPICOS Y FRMULAS DEL TAMAOS MUESTRAL PARA LOS ESTADSTICOS DE LA MEDIA Y DE
LA PROPORCIN (POBLACIONES FINITAS) ........................................................................................... 28

MUESTRAS GRANDES Y PEQUEAS...................................................................................................... 28

MUESTRAS GRANDES.. ................................................................................................................ 28


MUESTRAS PEQUEAS ................................................................................................................... 28

REGLA DE APROXIMACIN A LA DESVIACIN TPICA CUANDO SE DESCONOCE LA DE LA POBLACIN . 28

DISEO DE MUESTRAS ......................................................................................................................... 28

MARCO..................................................................................................................................................... 28

PROCEDIMIENTO DE MUESTREO ......................................................................................................... 29

MTODO DE SELECCIN DE LA MUESTRA ......................................................................................................... 29

MUESTREO ESTRATIFICADO ................................................................................................................. 29

ESTRATOS .................................................................................................................................................. 29
DESCOMPOSICIN ESQUEMTICA DE UNA POBLACIN EN ESTRATOS ...................................................................... 30
ELEMENTOS DEL MUESTREO ESTRATIFICADO ..................................................................................................... 30
VARIANZA DE LA POBLACIN ESTRATIFICADA .................................................................................................... 30
PROCEDIMIENTOS DE AFIJACIN .................................................................................................................... 31

PONDERACIN EN DISEOS NO PROPORCIONALES AL TAMAO ........................................................ 31

COEFICIENTE DE PONDERACIN ..................................................................................................................... 31

MUESTREO POR CONGLOMERADOS .................................................................................................... 32

EXPOSICIN ESQUEMTICA DEL MUESTREO POR CONGLOMERADOS ....................................................................... 32

3 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

MUESTREO POR CUOTAS ..................................................................................................................... 33

MUESTREO MIXTO ............................................................................................................................... 33

LA ESTIMACIN DE LAS VARIANZAS .................................................................................................... 34

CUASIVARIANZA MUESTRAL .......................................................................................................................... 34


CUASIDESVIACIN MUESTRAL ....................................................................................................................... 34
VARIANZA MUESTRAL A PARTIR ..................................................................................................................... 34
DEL ESTADSTICO DE LA CUASIVARIANZA ........................................................................................................... 34
ERROR TPICO CUANDO ESTIMAMOS LA VARIANZA A TRAVS DE LA PROPIA MUESTRA ............................................... 34

INFERENCIA ESTADSTICA .................................................................................................................... 35

ESTIMACIN DE MEDIAS Y PROPORCIONES....................................................................................................... 35


ERROR ESTADSTICO .................................................................................................................................... 35
ERRORES E INTERVALOS PARA LA MEDIA Y LA PROPORCIN ESTIMANDO LA VARIANZA A PARTIR DE LA MUESTRA............ 35

INTERVALOS EN EL CASO DE MUESTRAS PEQUEAS ............................................................................ 35

ESTIMACIN DE MEDIAS (MUESTRAS PEQUEAS) .............................................................................................. 35


ESTIMACIN DE PROPORCIONES (MUESTRAS PEQUEAS) .................................................................................... 36
INTERVALO DE WILSON ................................................................................................................................ 36

DIFERENCIAS DE ESTADSTICOS............................................................................................................ 36

SITUACIONES DE DEPENDENCIA E INDEPENDENCIA ENTRE MUESTRAS ..................................................................... 37


DETERMINACIN DEL TIPO DE SITUACIN DE CONSTRUCCIN DE ESTADSTICOS COMPUESTOS ..................................... 37
DIFERENCIA DE MEDIAS EN CASOS DE MUESTRAS INDEPENDIENTES ....................................................................... 37
ERROR TPICO, ERROR ESTADSTICO ............................................................................................................... 37
DIFERENCIA DE PROPORCIONES EN CASOS DE MUESTRAS INDEPENDIENTES ............................................................. 37
ERROR TPICO, ERROR ESTADSTICO ............................................................................................................... 37
DIFERENCIA DE ESTADSTICOS EN CASOS DE MUESTRAS RELACIONADAS .................................................................. 37
ERROR TPICO ............................................................................................................................................ 37
ERROR TPICO A PARTIR DE LA CUASIDESVIACIN ............................................................................................... 37

TEST DE SIGNIFICACIN ....................................................................................................................... 38

HIPTESIS NULA ............................................................................................................................... 38


PRUEBAS DE HIPTESIS ................................................................................................................................. 39
TIPOS DE ERROR EN LOS TEST DE HIPTESIS....................................................................................................... 39
NIVEL DE SIGNIFICACIN DEL TEST O VALOR CRTICO ...................................................................................... 39
P VALOR .................................................................................................................................................... 40
DOS TIPOS DE TEST ...................................................................................................................................... 40
TEST DE UNA COLA (UNILATERAL)................................................................................................................... 40
TEST DE DOS COLAS (BILATERAL) .................................................................................................................... 40
PROCEDIMIENTO DEL TEST DE SIGNIFICACIN O PRUEBAS DE HIPTESIS .................................................................. 41
VALORES DE Z PARA LOS NIVELES DE SIGNIFICACIN (N.S.) 5% Y 1% ..................................................................... 41

CONTRASTES DE HIPTESIS (MUESTRA VS POBLACIN DE REFERENCIA) ............................................. 41

CONTRASTE PARA UNA MEDIA ....................................................................................................................... 41


CONTRASTE PARA UNA PROPORCIN ............................................................................................................... 42

COMPARACIONES (MUESTRA VS MUESTRA)........................................................................................ 42

COMPARACIN DE MEDIAS............................................................................................................................ 42
COMPARACIN DE PROPORCIONES ................................................................................................................. 42

4 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

ANLISIS DE VARIANZA (ANOVA) ........................................................................................................ 42

PROCEDIMIENTO DE CLCULO ANOVA ........................................................................................................... 42


DISTRIBUCIN DE SNEDECOR...................................................................................................................... 44
DISEO ALEATORIZADO CON UN FACTOR .......................................................................................................... 44

REGRESIN Y CORRELACIN LINEAL .................................................................................................... 44

LA COVARIANZA.......................................................................................................................................... 44
INTERPRETACIN DE LA COVARIANZA .............................................................................................................. 45
ERRORES O RESIDUOS................................................................................................................................... 45
ECUACIN DE LA RECTA DE REGRESIN ............................................................................................................ 45
FRMULAS DE AJUSTE DE LA RECTA DE REGRESIN ............................................................................................. 46
COEFICIENTE DE CORRELACIN DE PEARSON .................................................................................................. 46
INTERPRETACIN DEL VALOR DE .................................................................................................................. 46
COEFICIENTE DE DETERMINACIN ............................................................................................................. 47

TABLAS DE CONTINGENCIA .................................................................................................................. 48

ANLISIS BIVARIABLE ................................................................................................................................... 48


REGLA DE ZEISEL ......................................................................................................................................... 49
ANLISIS TRIVARIABLE (TERCERA VARIABLE. VARIABLE DE CONTROL) .................................................................... 50
PARADOJA DE SIMPSON................................................................................................................................ 50
COMO VARIABLE ANTECEDENTE................................................................................................................... 51
COMO VARIABLE INTERVINIENTE .................................................................................................................. 51

JI-CUADRADO .............................................................................................................................. 52

FRECUENCIA TERICA (O ESPERADA SEGN LA LGICA DE JI-CUADRADO)................................................................ 52


CLCULO DE RESIDUOS ................................................................................................................................. 52
RESIDUO ................................................................................................................................................... 52
RESIDUOS ESTANDARIZADOS ......................................................................................................................... 53
JI-CUADRADO DE CADA CELDA ........................................................................................................................ 53
COEFICIENTE JI-CUADRADO DE TODA LA TABLA (EJEMPLO TABLA 2X2)................................................................... 53
TABLA PARA LA FRMULA GENERAL DEL NDICE ............................................................................... 53
FRMULA SUMA DE FRECUENCIAS COLUMNA GENRICA ................................................................................ 53
FRMULA SUMA DE FRECUENCIAS FILA GENRICA ........................................................................................ 53
SUMATORIO DE TODAS LAS CELDAS ................................................................................................................. 53
FRECUENCIA ESPERADA DE UNA CELDA CUALQUIERA .................................................................................. 54
COEFICIENTE JI-CUADRADO DE LA TABLA.................................................................................................... 54
INTERPRETACIN DE JI-CUADRADO EN TABLAS BIVARIABLES............................................................................. 54
DISTINTAS DISTRIBUCIONES JI-CUADRADO PARA DISTINTOS GRADOS DE LIBERTAD (DF) ............................................. 54
NMERO DE GRADOS DE LIBERTAD DE UNA TABLA BIDIMENSIONAL ........................................................... 54
PRUEBA DE LA DISTRIBUCIN JI-CUADRADO CON LOS CORRESPONDIENTES GRADOS DE LIBERTAD ........................... 55
EL VALOR CRTICO Y NIVEL DE SIGNIFICACIN DE ........................................................................................... 55

ANEXO 1: TABLA Z. DISTRIBUCIN NORMAL ESTNDAR ..................................................................... 56

ANEXO 2: TABLA T. DISTRIBUCIN T DE STUDENT .............................................................................. 57

ANEXO 3: TABLA F. DISTRIBUCIN F DE FISHER (N.S. = 0,01)............................................................... 58

ANEXO 4: TABLA F. DISTRIBUCIN F DE FISHER (N.S. = 0,05)............................................................... 59

ANEXO 5: TABLA JI-CUADRADO. DISTRIBUCIN DE ........................................................................ 60

5 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Frmulas y apuntes de
Estadstica aplicada a las Ciencias Sociales

Tipologa de los datos

Ventajas Inconvenientes

Incluyen a toda la poblacin.


Coste econmico elevado.
CENSOS Posibilidad de desagregacin en
Periodicidad dilatada.
subpoblaciones.

Disponible slo para poblaciones


especficas.
REGISTROS Actualizacin frecuente.
Incluyen pocas variables
Consulta restringida.

Costes menores. Estn sujetas a errores de muestreo.


Informacin instantnea. Dificultades de desagregacin de la
Pueden incluir mayor nmero de informacin de forma detallada por el
ENCUESTAS
variables. tamao limitado de la muestra.
Mayor posibilidad de verificacin de Necesidad de previa existencia de
los datos. censos para seleccionar la muestra.

Tipos de escala de las variables

Propiedades Ejemplos

NOMINAL Lugar de nacimiento, sexo, estado civil, lugar


Clasifica
(N-1) de residencia, etc.

ORDINAL Nivel de estudios, grado de satisfaccin,


Clasifica y ordena
(N-2) jerarqua de mando, etc.

INTERVALO Clasifica, ordena y posee unidad de


Tamao del hogar, fecha, temperatura, etc.
(N-3) medida

Clasifica, ordena, posee unidad de Nmero de hijos, renta familiar, peso,


RAZN
(N-4)
medida, y origen = 0 absoluto distancia, etc.
0 es la ausencia de caracterstica

Otra clasificacin de las variables

6 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Distribuciones de Frecuencias

ni frecuencias absoluta
N = n1 + n2 + n3 + + ni N Nmero de casos de la poblacin

Frecuencia Relativa Frecuencia Acumulada

Lmites reales para creacin de categoras segn variables de intervalo

Los intervalos reales de las categoras dependen de la naturaleza de la variable

Variable:

o Discreta Lmites Clase = Lmites Reales


o Continua Depende de la variable

Ejemplos:
Distancia de 3 hasta 4 de 2,5 hasta 4,4999 [2,5 4,5[
Edad de 3 hasta 4 de 3 hasta 4,4999 [3 5[

Tipos Representacin Grfica distribucin de frecuencias segn apuntamientos

1. PLATICRTICA Aplanada Frecuencias similares a lo largo del recorrido.

2. LEPTOCRTICA Puntiaguda Frecuencias altas en pocos valores.


3. MESOCRTICA Intermedia Intermedia entre las dos anteriores.

Medidas de Tendencia Central


Media Aritmtica Media Aritmtica datos agrupados

Marca de clase

Media estadstica Ponderada

7 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Clculo de las Marcas de Clase

1
A partir de los lmites reales

Mediana

Li Lmite Inferior
Ci Amplitud del Intervalo Ci = Lsup Linf

Cuartiles

Q2 = Me
Q4 = Lsup = Valor Mximo de la Poblacin/Muestra

Deciles

Centiles

Moda

Clculo de Percentiles

Rango Intercuntico: Rango Semi-Intercuantlico:

1
Ejemplo: si para la variable edad de una muestra quisiramos agregar los datos en diferentes grupos de edades,
en el caso del grupo de 25 a 29 aos el lmite inferior es 25, y el lmite superior es 30 [25 30[. Por tanto, la marca
de clase para ese grupo de edad es 27,5 aos.

8 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Medidas de Dispersin
Varianza

Frmula Alternativa

Desviacin Estndar (o Tpica)

Frmula Alternativa

Varianza para datos agrupados

Desviacin Estndar (o Tpica) para datos agrupados

Coeficiente de Variacin (para comparar el grado de dispersin entre varias distribuciones)

Expresado en porcentaje (%)

Medidas de Localizacin Relativa

Valores de Z
Nos indica a cuntas desviaciones estndar
est cualquier valor ( ) de la Media ( ).

Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin
en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas.
Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta
distancia en unidades de desviacin tpica o estndar ( ).

9 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

El Teorema de Chebyshev

*Porcentaje de casos (%) independientemente de que la distribucin sea normal o no.


Para cualquier otro valor se calcula:

Otras formas de calcular la Media


Media Armnica Media Cuadrtica

Media Geomtrica

10 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Tipos de Grfico

Problema de Investigacin Tipo de Grfico Representacin Grfica

DIAGRAMA DE BARRAS

DIAGRAMA DE BARRAS APILADAS


Descripcin y
Comparacin de
Categoras
DIAGRAMA DE REAS APILADAS

DIAGRAMA DE SECTORES

HISTOGRAMA
S = b x h h = S/b

POLGONO DE FRECUENCIAS

OJIVA
Anlisis y Comparacin de
Distribuciones

DIAGRAMA DE CAJAS

Anlisis Temporales DIAGRAMA DE LNEAS

Distribucin conjunta de
DIAGRAMA DE DISPERSIN
dos variables

11 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Elementos bsicos para la construccin de grficos


1. Fuente
2. Ttulo y subttulos
3. Ao o periodo
4. Etiquetado de los Ejes
5. Diferenciacin de las categoras
6. Base (el 0 se debe representar si forma base de la escala)
7. Discontinuidad en el Eje Vertical (si es necesario)

Escala del Grfico:


Aritmtica
Logartmica Grfico semilogartmico.

Teora y clculo de Probabilidades


Probabilidad a priori y frecuencia relativa

0 P (S) 1
Suceso Elemental Unidad Muestral

E = Espacio de Sucesos Conjunto de todos los sucesos posibles Espacio Muestral

Suceso Complementario

Tcnicas de Conteo (Agrupaciones/Ordenaciones)

Permutacin Variaciones

Combinaciones

12 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Tipos de Sucesos
Simultneos son, o no, mutuamente excluyentes.
Sucesivos/Secuenciales Observar si el anterior condiciona al posterior

o Elemental
o Compuesto
unin ( ) / o [Simultneo]
interseccin ( ) / y [Secuencial]

Regla de la Adiccin: Unin de Sucesos (simultneos)


Si son mutuamente excluyentes:

Sin tener en cuenta la mutua exclusin:

Regla de la Multiplicacin: Sucesos Condicionados o Interseccin de Sucesos


(secuenciales)
Si estn condicionados

Si y no estn condicionados:

Regla de Laplace

La probabilidad de un suceso es igual a su cardinal entre el cardinal del espacio muestral


en el que se inscribe.

13 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Propiedades bsicas de la Probabilidad

Suceso Seguro

Distribuciones Tericas de Probabilidad

Segn el tipo de variable, las distribuciones de probabilidad pueden ser:

Discretas
Continuas

Funcin de la Distribucin Normal

Cuando trabajamos con muestras distinguimos entre la distribucin de la muestra y la de la


poblacin:
Parmetros: Estadsticos:

= Media de la Poblacin = Media de la Muestra

= Desviacin Tpica de la Poblacin = Desviacin Tpica de la Muestra

Parmetro: es el valor que toma la poblacin respecto a un indicador utilizado para


resumir la informacin que nos interesa de dicha poblacin.

Estadstico: es el valor que obtenemos a partir de una muestra y que representa al


parmetro.

Valor Esperado

14 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Distribucin Real, Terica y Emprica

Distribucin Real distribucin de la Poblacin a investigar

Distribucin Terica distribucin muestral (media de todas las muestras)


INTERMEDIA entre la Real (Poblacin) y la Emprica (Muestra)

Distribucin Emprica distribucin de una muestra seleccionada

Una distribucin de probabilidad es una distribucin de frecuencias relativas de una variable


que denominamos aleatoria, por estar asociada a un experimento de carcter aleatorio; no
presenta resultados ciertos, slo podemos conocer la probabilidad de sus resultados posibles.
En el campo de la investigacin social est asociada al muestreo: a la posibilidad de extraer de
una poblacin una serie de individuos que presentan una determinada caracterstica.

Igual que toda distribucin, la de probabilidad puede ser discreta o continua, segn sea el
espacio muestral del experimento que la define, es decir, segn sea el conjunto de valores que
puede tomar la variable: el conjunto de resultados posibles del experimento.
En el campo de la investigacin social podemos trabajar con distribuciones empricas, viendo
cmo se distribuyen los datos en una poblacin o en una muestra. Pero cuando trabajamos
con una muestra lo que pretendemos es saber hasta qu punto la distribucin de una variable
que obtenemos en la muestra se corresponde con la distribucin real de la variable en la
poblacin. Para ello necesitamos hacer uso de una distribucin intermedia entre la de la
muestra y la de la poblacin: la distribucin muestral, que es una distribucin terica. Al
calcular el valor esperado en una muestra que hemos supuesto, al trabajar con variables
numricas (no nominales), todas las medidas de todas las muestras posibles (de un
determinado tamao), la distribucin de estas medias constituye la distribucin muestral, que
no hay que confundir con la distribucin emprica de los datos de una muestra, ni con la
distribucin real de los datos de la poblacin.
Cuando realizamos el muestreo, automticamente las distribuciones de frecuencias relativas
de los datos de una poblacin o de una muestra se convierten en una distribucin de
probabilidad.
Por tanto, hay que subrayar la diferencia entre la distribucin emprica (de los datos de la
muestra o de la poblacin) y la distribucin terica que generan las medias de todas las
muestras que podemos extraer de la poblacin investigada en el caso de variables de tipo
cuantitativo.
Las distribuciones tericas son referencia obligada para constrastar distribuciones empricas
observadas en muestras y poder conocer la validez de los datos observados en stas, ya que
nos indicarn hasta qu punto los datos se corresponden con los de la poblacin de donde
extraemos las muestras.

15 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Distribucin Uniforme

Es la ms sencilla de las distribuciones de probabilidad: aquella en que la probabilidad se


distribuye por igual en todos los casos o en todos los grupos de la poblacin. No existen
probabilidades diferentes parea casos o grupos diferentes.
Distribucin Uniforme Discreta
Cuando contamos con grupos y la probabilidad de cada grupo es:

Funcin de Densidad
La funcin de densidad se aplica para calcular la probabilidad que toma un intervalo dentro de
distribuciones continuas. Se utilizan reas para conocer la probabilidad de un intervalo de
valores.

Distribucin Binomial

p probabilidad de xito
q probabilidad de fracaso

Experimento Binomial

Para cada nmero de sucesos que fijemos (n) y para cada probabilidad de xito (p) en cada uno
de estos sucesos tendremos una distribucin binomial distinta. Cada distribucin binomial es
determinada por estos dos parmetros: n y p.

Forma General de la Distribucin Binomial

N de xitos Probabilidad
(x) p(x)

16 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

n-1

Esta distribucin se describe por los trminos del desarrollo del binomio de Newton .
Los coeficientes de cada trmino
corresponden con una de las lneas del tringulo de Tartaglia o de Pascal.

Tringulo de Tartaglia (o de Pascal)

Para cada n (nmero de elementos de la muestra) y cada x (nmero de xitos de sta)


obtenemos los coeficientes a partir del Tringulo de Tartaglia (o de Pascal).
Cada lnea representa los coeficientes de una distribucin binomial, coeficientes que
corresponden con estos nmeros combinatorios:

17 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Media de una Varianza de una Desviacin Estndar


distribucin binomial distribucin binomial (o Tpica) de una
distribucin binomial

Para muestras de variable nominal biniomializar / dicotomizar

Valor esperado en la Distribucin Binomial

Distribucin Normal

La distribucin normal es la distribucin terica ms usada en estadstica. Aparte de que


mltiples conjuntos de datos pueden ajustarse a ella, es la clave de la estadstica inferencial.
Toda distribucin muestral de medias se aproxima a la distribucin normal.

Funcin de la Distribucin Normal

Como y son dos constantes matemticas transcendentes ( ; ),


, aparte del valor variable de , depende de la media de todos los valores y de su
desviacin tpica o estndar . Cada distribucin normal depende de estos dos parmetros
(su media y su desviacin tpica); fijados estos, se puede conocer el valor de la funcin
para cada valor de .

Distribuciones normales con distintas desviaciones tpicas

18 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Distribuciones normales con distintas medias

Funcin de Densidad Normal

La funcin de densidad normal nos define la probabilidad de cualquier intervalo.

Distribucin Normal Estandarizada

Transformacin valores de x en unidades de Z

Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin
en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas.
Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta
distancia en unidades de desviacin tpica o estndar ( ).

19 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Si una distribucin continua la convertimos en valores de decimos que la estandarizamos. Al


estandarizarla, su media se convierte en 0 y desviacin tpica en 1.

Las transformaciones que convierten unidades de a (y viceversa) permiten generalizar esto


a todas las distribuciones normales, tengan la media y la desviacin tpica que tengan.

Funcin Normal Estandarizada Funcin de Densidad Estandarizada

Clculo de probabilidades en Distribuciones Normales

Aproximacin de la Distribucin Binomial a la Normal

Si no es una probabilidad extrema (prxima al 0 o al 1), entonces podemos sustituir la


binomial por una normal cuando o .

20 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Distribucin t de Student

La distribucin de Stundent nos sirve para hacer inferencias sobre la media poblacional a
partir de la media de la muestra cuando se desconoce la desviacin tpica de la poblacin. La
distribucin de Student es una distribucin asociada a la normal. Se puede decir que es una
distribucin normal corregida.

En muchos manuales se sostiene de forma arbitraria que si entonces la distribucin


normal puede sustituir a la distribucin de Student. Se puede dar este lmite por bueno.

Transformacin valores de x en unidades de t

Hay una distribucin t distinta para cada tamao muestral . En este caso se habla de los
Grados de Libertad, que sern siempre , y que estn asociados a l clculo de la
desviacin tpica de la muestra.
Grados de Libertad de la Distribucin t de Student:

Distribucin t de Student para varios grados de libertad ( )

Desviacin Tpica de la Distribucin t de Student

21 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Cuadro Resumen Medias y Varianzas de las diferentes distribuciones de probabilidad

Tipo de Distribucin Media Varianza

Uniforme
b = mximo
a = mnimo

Binominal
= nmero de casos
= probabilidad de xito

Normal

Normal Estndar 0 1
de Student
= grados de libertad

Las Muestras Estadsticas

Investigacin mediante Muestras. Condiciones:

1. Definir el Universo (Conjunto o Poblacin de referencia)

2. Fijar las condiciones para la Estimacin:

Error
Representatividad de la Muestra
Confianza

3. Mtodo de Seleccin de la Muestra:


a. Muestreo Aleatorio

Estratificado
Afijacin
Uniforme
Proporcional
Neyman (proporcional a la Varianza)

Por Conglomerados

b. Muestreo por Cuotas

4. Inferirencia de los resultados para el Universo.

22 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Parmetros y Estadsticos

Parmetro Constante Fija ( , )


Es el valor que toma la poblacin respecto a un indicador utilizado para resumir la
informacin que nos interesa de dicha poblacin.

Estadstico Constante Variable ( , , )


Es el valor que obtenemos a partir de una muestra y que representa al parmetro.

Parmetro Estadstico
Con el estadstico vamos buscando el parmetro
Error y Sesgo

Error Estadstico

Es aquel que procede del hecho de utilizar observaciones muestrales, es decir, de no


observar la totalidad de los datos. Este error puede ser conocido e incorporado en los
resultados a travs de un intervalo.

Error Estadstico Error Tpico (Desviacin Tpica o Estndar)

Errores No Estadsticos
Procede de defectos en los instrumentos de medida y de las condiciones en las que se
establece la medida, as como de otro conjunto de errores en la transmisin de datos. Este
tipo de errores se pueden (y deben) ser evitados. Entre los errores no estadsticos se
encuentra el sesgo:

Sesgo
Desviacin sistemtica de nuestras observaciones respecto a lo que estamos
midiendo. En investigacin mediante muestras el sesgo se produce al obtener
muestra que no se adecan a la poblacin, es decir, por el desfase que existe
entre la poblacin objetivo y la poblacin de la que obtenemos la muestra.

Muestreo Aleatorio. Uso de tres tipos de distribuciones distintas:

1. Distribucin de la Poblacin: el conjunto de todos los datos de la poblacin y a cuyos


indicadores de resumen denominamos parmetros. Generalmente esta distribucin es
desconocida, por ello recurrimos a muestras.
2. Distribucin de la Muestra: el conjunto de datos pertenecientes a la muestra
seleccionada. Generalmente slo obtenemos una muestra de la poblacin. Sus
indicadores de resumen se denominan estadsticos.
3. Distribucin Muestral: la distribucin de los estadsticos (las medias, por ejemplo) de
todas las muestras posibles de tamao que proceden de una poblacin. Es una
distribucin terica. No se desarrolla en forma de tabla porque se necesitara conocer
todos los elementos de la poblacin, pero, aunque no se conozcan, se puede construir
a travs de sus parmetros.

23 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Error Estadstico
Es la medida de la distancia entre el valor del estadstico obtenido en la muestra y el valor del
parmetro en la poblacin.

Nivel de Confianza
Es la probabilidad que existe de que esa distancia, o error estadstico, no sea mayor que la
preestablecida.

Si en una distribucin muestral se aumenta el valor de , la varianza de la distribucin


disminuir y los resultados de las distintas muestras se concentrarn ms en el valor del
parmetro. Por consiguiente, para un mismo nivel de error, el nivel de confianza mejora con
tamaos muestrales mayores.

Los tres pilares de la Teora Muestral

1. TAMAO MUESTRAL: es el nmero de elementos que extraemos de una poblacin


para su observacin y estudio.
2. ERROR ESTADSTICO: es la diferencia mxima (en valor absoluto) que admitimos entre
el valor del estadstico y el del parmetro.

3. NIVEL DE CONFIANZA: es la probabilidad de que la muestra seleccionada no supere el


error preestablecido.

Estos tres trminos estn absolutamente relacionados y la variacin en uno produce


variaciones en los otros dos. As, por ejemplo, si aumentamos el tamao muestral y
mantenemos fijo el error, el nivel de confianza aumenta. Si aumentamos el error sin cambiar el
tamao muestral, el nivel de confianza aumenta.

Relaciones:

Tamao Muestral Nivel de Confianza directa

Error Estadstico Tamao Muestral inversa

Error Estadstico Nivel de Confianza inversa

Error Tpico (o error estndar)


Es la medida de dispersin (varianza) de la distribucin muestral.

Error Estadstico Error Tpico (Desviacin Tpica o Estndar)

24 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Teorema del Lmite Central

La distribucin muestral de las medias de una poblacin grande con media y desviacin
tpica se aproxima, segn aumenta , a una distribucin normal con media y desviacin
tpica

Con poblaciones grandes : y:

Distribucin Normal en Z Error Estadstico Teorema Lmite Central

Relacin entre Error, Nivel de Confianza


y Tamao de la Muestra

Clculo del Tamao Muestral Clculo del Error Estadstico

Valores de Z para Niveles de Confianza ms usuales

Nivel de Confianza

95%

95,45%

99%

99,7%

25 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Tamaos muestrales para distintos errores y niveles de confianza

Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 220.

Nomenclatura Distribuciones Poblacin/Muestra

Parmetro Estadstico
Media: Media:
MEDIA
Varianza: Varianza:

Proporcin/Probabilidad Proporcin/Probabilidad

PROPORCIN
Complementario Complementario

Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y
de la Proporcin (Poblaciones Infinitas)

Media Proporcin*
Parmetro

Error Tpico
Error Estndar

La distribucin se considera
como la Normal cuando:

Tamao Muestral

*En el caso de la Proporcin, cuando desconocemos la varianza PQ, elegimos el caso ms


desfavorable, varianza mxima, cuando .

26 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Tamaos muestrales para el estadstico de la proporcin con distintos valores de .


Nivel de Confianza 95,45%

Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 222.

Poblaciones

Poblaciones Finitas
En investigacin social casi siempre nos referimos a poblaciones finitas. Por tanto las
formulas anteriores aplicadas a poblaciones finitas deben incorporar el factor de
correccin para poblaciones finitas:

Factor de Correccin para Poblaciones Finitas

27 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Poblaciones Infinitas
Una poblacin infinita es un conjunto de elementos que no pueden definirse mediante
enumeracin. Cuando la relacin entre y ( ) es grande, se desprecia el factor
de correccin para poblaciones finitas:

Cuando (En la prctica cuando )

Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y
de la Proporcin (Poblaciones Finitas)

Media Proporcin*
Parmetro

Error Tpico
Error Estndar

La distribucin se considera
como la Normal cuando:

Tamao Muestral

Muestras Grandes y Pequeas

Muestras Grandes La distribucin muestral se a ajusta a la NORMAL

Muestras Pequeas La distribucin muestral se a ajusta a la de STUDENT

Regla de aproximacin a la Desviacin tpica cuando se desconoce la de la Poblacin

valores de la muestra o poblacin.

Diseo de Muestras
Marco
El registro fsico de los elementos de la poblacin se denomina marco. En algunos casos es un
listado para seleccionar elementos de una poblacin. En la mayora de las ocasiones no pude
obtenerse un marco completo y actualizado de la poblacin, o la elaboracin es costosa o
presenta problemas de manipulado.

28 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Procedimiento de Muestreo

Dadas las dificultades de realizar muestras aleatorias simples, en las que todos los elementos
de una poblacin tienen la misma probabilidad de ser seleccionados, se recurre a distintos
sistemas de muestreo que tienen en cuenta lo que ya conocemos sobre la poblacin a
investigar. Al incorporar informacin existente podremos realizar diseos muestrales ms
eficientes, esto es, obtendremos la misma informacin con menor coste que si usramos
mtodos aleatorios puros. Adems, al incorporar informacin existente, podremos mejorar la
representatividad de la muestra.

Mtodo de Seleccin de la Muestra

a. Muestreo Aleatorio

Estratificado
Afijacin
Uniforme
Proporcional
Neyman (proporcional a la Varianza)

Por Conglomerados

b. Muestreo por Cuotas

Muestreo Estratificado

Estratos
Son subconjuntos o grupos del universo, de forma que todos los elementos pertenecen a uno
de los grupos y slo a uno.

Diseo Uniforme: deseamos conocer resultados para cada uno de los estratos.

Diseo Proporcional: aprovechamos la ventaja de la estratificacin pare reducir el


nmero de extracciones necesarias para la estimacin del conjunto.

Afijacin: es el reparto de los elementos de la muestra entre los distintos estratos.

Para la aplicacin del diseo estratificado se necesita definir los diferentes estratos y disponer
de informaciones que nos permitan estimar las varianzas en cada uno de ellos.

29 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Descomposicin esquemtica de una poblacin en estratos

Elementos del muestreo estratificado

Nmero de estratos

Poblacin en el estrato
Poblacin
Proporcin de la poblacin en el estrato
o peso del estrato

Tamao de la muestra en el estrato


Muestra

Proporcin de la muestra en el estrato

Varianza de la Poblacin Estratificada

30 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Procedimientos de Afijacin
Nmero de entrevistas en el estrato una vez establecido el valor de

Se hace el mismo nmero de


Afijacin Uniforme
entrevistas en cada estrato.

El nmero de entrevistas se reparte


Afijacin Proporcional al
considerando el peso que tienen los
tamao estratos en la poblacin.

Las entrevistas se distribuyen de


Afijacin de Neyman forma que se concentran
(proporcional a la varianza) relativamente en los estratos de
mayor varianza.

Ponderacin en diseos no proporcionales al tamao

Cuando se utilizan criterios de afijacin no porporcionales al tamao de la poblacin (por


ejemplo el diseo estratificado uniforme), los resultados obtenidos para el conjunto total
necesitan ser corregidos. Esto se realiza con la Ponderacin: el procedimiento de ajuste del
peso que tienen los estratos en la muestra al peso que les corresponde en la poblacin.
Ponderar las unidades muestrales equivale a darles el peso que, por el estrato al que
pertenecen, les corresponde en la poblacin. Para ello se aplica en cada estrato un coeficiente
de ponderacin que atribuye el peso correspondiente a cada estrato en el conjunto de la
poblacin.

Coeficiente de Ponderacin

Los cuestionarios ponderados se representan con el signo :

31 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Muestreo por Conglomerados

El diseo estratificado mejora la aplicacin del muestreo respecto al muestreo aleatorio, pero
no resuelve de forma efectiva la cuestin de la obtencin del marco. Si no tenemos un listado
del universo, es difcil tener un listado para sus estratos. El diseo por conglomerados resuelve
de forma prctica estas cuestiones y permite reducir los costes y tiempo de ejecucin.
Los conglomerados son tambin subconjuntos de la poblacin. La diferencia es que mientras
los estratos se construyen buscando homogeneidad entre sus elementos, en los
conglomerados se definen los grupos buscando que los elementos en su interior sean lo ms
diversos posibles. Una vez definidos los conglomerados, se hace una muestra de ellos y se
investiga nicamente los que han sido seleccionados. De hecho, se trata de una tcnica de
seleccin, no de unidades sino de grupos de unidades y en general se compone de varias
etapas.
Conglomerado Unidad Colectiva

Exposicin esquemtica del muestreo por conglomerados

32 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

En el diseo de conglomerados, los tamaos muestrales son mayores que en el muestreo


aleatorio simple y el muestreo estratificado, debido a que los conglomerados tienen varianzas
ms elevadas que el conjunto poblacional.
En la prctica se utilizan mtodos de seleccin combinados. La poblacin se divide en estratos
y dentro de los distintos estratos se realiza un diseo de conglomerados.

Muestreo por Cuotas

Aunque los diseos derivados del muestreo aleatorio (estratos y conglomerados) permiten la
obtencin de datos representativos de la poblacin, as como la inferencia de los resultados
obtenidos mediante muestras al conjunto del universo bajo criterios conocidos de error,
resultan todava procedimientos costosos. En algunos casos, cuando la investigacin se refiere
a opiniones, pueden emplearse otros procedimientos para obtener muestras representativas.

La principal tcnica alternativa es el muestreo por cuotas. Se trata de, en vez de confiar al azar
la seleccin de las unidades, desarrollar un procedimiento de seleccin que reproduzca con la
mxima fidelidad posible la propia estructura de la poblacin. No obstante, para el muestreo
por cuotas es necesario tener un conocimiento preciso sobre la poblacin, pues sera la nica
forma vlida de reproducir una miniatura de la poblacin a estudiar.
Gracias, por ejemplo, a los censos podemos conocer algunas variables como la edad, sexo y
nivel de estudios. De forma conjunta, estas tres variables estn muy relacionadas con las
opiniones polticas y con las actitudes. Siempre que tengamos un conocimiento amplio de la
distribucin de variables que estn relacionadas con las caractersticas a investigar, podremos
utilizar el muestreo por cuotas.

La diferencia respecto al muestreo estratificado es que la localizacin de los entrevistados no


sigue un procedimiento probabilstico, sino que se seleccionan los primeros elementos
localizados que cumplan con las caractersticas a estudiar. Sin embargo este procedimiento
tiene mayor riesgo de introducir sesgos, y deben aplicarse algunas normas para darle un
mnimo carcter aleatorio:

1. Distribuir al mximo las entrevistas entre los encuestadores: a un mismo


entrevistador se le asigna diferentes perfiles de entrevistados para que no pueda
obtenerlos en un mismo lugar.

2. Utilizar el sistema de barrido cuotas: una vez asignadas las entrevistas, a cada
entrevistador se le proporciona unas rutas que debe realizar buscando los perfiles a
investigar.

Muestreo Mixto

En la prctica, en muchas encuestas sociolgicas y de opinin se utiliza un procedimiento


mixto en la seleccin de la muestra. La primera fase del diseo muestral se realiza mediante
tcnicas probabilsticas (seleccin de municipios dentro de estratos por tamao poblacional);
y la fase final de seleccin del entrevistado se realiza mediante muestreo por cuotas.

33 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

La estimacin de las Varianzas

Media Estimador insesgado

Desviacin Tpica Estimador sesgado

Cuasivarianza Estimador insesgado

Cuasivarianza Muestral

Sobre grados de libertad

Para tamaos Varianza = Cuasivarianza

Cuasidesviacin Muestral

Sobre grados de libertad

Varianza Muestral a partir


del estadstico de la Cuasivarianza

Error Tpico cuando estimamos la Varianza a travs de la propia muestra

Media Proporcin

34 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Inferencia Estadstica

Estimacin de Medias y Proporciones

; ;

Error Estadstico

Errores e Intervalos para la Media y la Proporcin estimando la Varianza a partir de la


muestra

Error Tpico Error Tpico


Estadstico Intervalo
(Poblaciones Infinitas) (Poblaciones Finitas)

MEDIA

PROPORCIN

Notas

Cuasidesviacin

Frmulas para Poblaciones Finitas cuando

Para Muestras Pequeas se usa de Student en vez de .

En el caso de las Proporciones se usa la Varianza que nos proporciona la muestra y


no la poblacional .

Intervalos en el caso de Muestras Pequeas

Estimacin de Medias (muestras pequeas)


En la prctica si se usa la distribucin de Student

La Varianza (Desviacin Tpica) hay que obtenerla a partir de la Cuasivarianza


(Cuasidesviacin)

35 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Estimacin de Proporciones (muestras pequeas)


Dificultades para o las proporciones son muy prximas a 0 o 1

No se usa la frmula del Error Tpico si o . Como alternativa se aplicara


el Intervalo de Wilson
Intervalo de Wilson

Diferencias de Estadsticos
En el campo de la investigacin social es frecuente el uso de estadsticos compuestos que
resultan de la combinacin de estadsticos. Puede interesarnos conocer la diferencia de
medias de los salarios de hombres y mujeres, o la razn entre dos cantidades que han sido
obtenidas mediante una muestra: por ejemplo, si en una encuesta se ha preguntado por el
nmero de horas trabajadas y el salario, podemos calcular la razn entre la media de horas
trabajadas y el salario medio, de donde se obtendr un estadstico nuevos que ser el cociente
entre dos estadsticos que ya disponamos en la muestra.
Cuando producimos nuevos estadsticos a partir de las combinaciones de otros estadsticos
tenemos dos situaciones diferentes:

1. Que las observaciones que comparamos procedan de muestras independientes, por


ejemplo si queremos estimar la diferencia de salario medio entre hombres y mujeres.
Al hablar de muestras independientes no nos referimos a dos encuestas diferentes,
sino que las unidades muestrales no tienen relacin entre s. Para comparar los
salarios de hombres y mujeres, los hombres y las mujeres pertenecen a la misma
muestra, sin embargo son subconjuntos que no guardan relacin entre s, es decir, las
observaciones sobre los salarios de los hombres no afectan a las observaciones de las
mujeres. Por consiguiente, ambos conjuntos de datos se consideran muestras
independientes.

2. Que sean muestras relacionadas entre s. Esta situacin tiene distintos orgines. En
unos casos, sobre la misma unidad muestral tomamos medidas repetidas en el tiempo,
como sucede en los estudios de panel (se realiza la misma pregunta a la misma
persona en fechas diferentes y se comparan). En otros casos, sobre la misma unidad
muestral medimos caractersticas o variables distintas pero que estn relacionadas
entre s. Por ejemplo, se pregunta a una persona, por ejemplo, sobre su valoracin del
presidente del gobierno y tambin del lder de la oposicin. Para calcular un
estadstico de diferencia entre ambas valoraciones tenemos que tener en cuenta que
existe relacin entre las repuestas. Seguramente quien valore alto al presidente del
gobierno, lo haga bajo sobre el lder de la oposicin.

36 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Situaciones de dependencia e independencia entre muestras


1. Muestras Independientes: aquellas en que las observaciones se realizan sobre
unidades muestrales distintas (una sola variable para comparar distintos grupos de
individuos).

2. Muestras Relacionadas: aquellas en que las observaciones (variables) se refieren a la


misma unidad muestral (se comparan varias variables sobre un solo conjunto de
individuos).

Determinacin del tipo de situacin de construccin de estadsticos compuestos

Una Variable Dos Variables

Misma Unidad Muestral Dependiente

Distintas Unidades Muestrales Independiente

Diferencia de Medias en casos de muestras independientes

Error Tpico Error Estadstico

Diferencia de Proporciones en casos de muestras independientes

Error Tpico Error Estadstico

Diferencia de Estadsticos en casos de muestras relacionadas

Error Tpico

: Desviacin Tpica de la variable generada como diferencia de medias.

Error Tpico a partir de la Cuasidesviacin

37 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Test de significacin

Un resultado estadstico es significativo cuando no se debe al azar. En estadstica, significante


no se interpreta como en el lenguaje normal, no significa que el estadstico sea relevante o
importante, ni siquiera que se considere verdadero. Un estadstico es significativo porque el
investigador lo considera fiable.

Los test de significacin son pruebas que se realizan para contrastar la informacin emprica
con la terica. Para ello se fija un umbral de corte a partir del cual los valores obtenidos en la
muestra emprica se consideran poco probables. Si el resultado obtenido est al lado del
umbral de corte donde los resultados se consideran probables, decimos que est dentro de la
zona de aceptacin de la hiptesis nula, pero si, por el contrario, el resultado cae del lado del
umbral de corte donde se considera poco probable, decimos que entra dentro de la zona de
rechazo de la hiptesis nula.

Hiptesis Nula
En estadsticas la hiptesis nula es la hiptesis de partida (tambin denominada
hiptesis inicial) que considera las diferencias no significativas. La hiptesis nula puede
ser rechazada o no rechazada, pero no podemos probarla, salvo que estudiemos todos los
elementos de la poblacin y la mayora de las veces eso no es posible.

Un resultado puede ser estadsticamente significativo aunque la diferencia sea muy pequea y
pueda parecer que no tiene importancia; por esta razn en los tets de significacin se debe
indicar el efecto de la talla estadstica, esto es, el tamao de la muestra. En muestras de
tamao grande pequeas diferencias pueden ser consideradas a travs de los test como
significativas.

38 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Pruebas de hiptesis
La evidencia que se necesita para aceptar que un acontecimiento se ha producido por azar es
el nivel de significacin (n.s. / significante level en ingls) o el valor crtico . Si el valor es
pequeo, entonces debe rechazarse la hiptesis nula , es falsa o inusual.

Segn los trabajos de Neyman y Pearson, el planteamiento requiere tanto de la hiptesis nula
como de una hiptesis alternativa , que deben ser definidas e investigadas
mediante repeticin de procedimientos de muestreo; si no, se corre el riesgo de rechazar un
resultado que cae fuera de la zona de aceptacin y, sin embargo, ser verdadero. Es el valor
crtico el que nos da la probabilidad de equivocarnos al rechazar ese valor.
Cuando se realizan pruebas de hiptesis existen dos tipos de errores que se pueden cometer:

1. Error de Tipo I: rechazar la hiptesis nula cuando es verdadera.

2. Error de Tipo II: aceptar la hiptesis nula cuando es falsa.

Tipos de error en los test de hiptesis

verdadera falsa

Aceptar Correcto Error Tipo II

Rechazar Error Tipo I Correcto

Nivel de significacin del test o valor crtico


Es la probabilidad que se est dispuesto a aceptar de rechazar errneamente la hiptesis nula.
Se trata de una probabilidad establecida. Habitualmente, como niveles de significacin se usan
el 5% y el 1%.

39 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

p valor
Es la probabilidad de obtener un resultado al menos tan extremo como el que realmente se ha
obtenido en el experimento o en una muestra (valor del estadstico calculado), suponiendo
que la hiptesis nula es cierta. Es fundamental tener en cuenta que el est basado en
la aceptacin de la hiptesis de partida (o hiptesis nula). A su vez, es la probabilidad de
equivocarnos al aceptar que las diferencias (entre valor emprico y valor terico) son
significativas. Cuanto ms pequea sea esta probabilidad ms seguro se est de no
equivocarse.

Dos tipos de test

Test de una cola (Unilateral)


Cuando la hiptesis de partida se enuncia la direccin: que un valor es mayor que o
menor que se realiza la prueba de una sola cola.

Test de dos colas (Bilateral)


Cuando la hiptesis de partida no hace ninguna especificacin.

40 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Procedimiento del test de significacin o pruebas de hiptesis


1. Establecer el valor crtico (el error que se est dispuesto a aceptar).

2. Calcular el estadstico.
3. Comparar el estadstico (en valores de o de Student) con el umbral fijado (tambin
en valores de o de Student) para el valor crtico .
4. Resultado:

a. Si el estadstico es ms alto que el valor crtico, queda por tanto en la zona de


rechazo de la hiptesis nula y la diferencia es significativa. La probabilidad de
equivocarse al rechazar es pequea y el es menor que la relacin
encontrada por azar. [ ]

b. Si el estadstico es ms bajo que el valor crtico, al contrario, queda en la zona


de aceptacin de la hiptesis nula y la diferencia no es significativ. La
probabilidad de rechazar es muy alta y el es mayor que el valor
crtico. [ ]

Valores de Z para los niveles de significacin (n.s.) 5% y 1%

Tipo de Test n.s. = 5% n.s. = 1%

Test de una cola


Unilateral

Test de dos colas


Bilateral

Contrastes de hiptesis (muestra vs poblacin de referencia)

Contraste para una media

Hiptesis de partida o nula

Hiptesis alternativa

Clculo del estadstico en valor de (Student)

Clculo del estadstico en valor de

41 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Contraste para una proporcin

Hiptesis de partida o nula

Hiptesis alternativa

Clculo en valor de

Comparaciones (muestra vs muestra)

Comparacin de medias

Comparacin de proporciones

Proporcin Conjunta

Anlisis de Varianza (ANOVA)

Procedimiento de clculo ANOVA


1. Suma de cuadrados total

= Sumatorio de los sumatorios de las observaciones.

= Sumatorio de los sumatorios de los cuadrados de las observaciones.

= Valor de la observacin en cada grupo .

42 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

= Cantidad de observaciones en los grupos

= Total de observaciones .

2. Suma de los cuadrados entre grupos

= Sumatorio de los sumatorios de las observaciones al cuadrado dividido por


el nmero de observaciones del grupo.

= Sumatorio de los cuadrados de las observaciones dividido por el total de


observaciones.

3. Suma de cuadrados dentro de los grupos

4. Grados de Libertad
Grados de libertad total Grados de libertad entre grupos

Grados de libertad dentro de los grupos

Tambin:

5. Estimacin de la varianza

Varianza entre grupos Varianza dentro de los grupos

6. Contraste de la (Estimador de Snedecor)

43 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Distribucin de Snedecor
La distribucin de Snedecor es una distribucin de probabilidad asociada a la normal no
simtrica:

Diseo aleatorizado con un factor

1. Suma de cuadrados total

2. Suma de cuadrados debida a los tratamientos (factores)


3. Suma de los cuadrados debida a los bloques
4. Clculo de la suma de cuadrados debida al error
Varianza Factor Error Contraste de

Regresin y correlacin lineal

La regresin tiene por objeto definir una funcin matemtica que se ajuste lo mejor posible a
los datos observados. Cuando se realiza sobre la relacin de dos variables mediante el ajuste
de una lnea recta, hablamos de regresin lineal simple, y la manera ms habitual e idnea de
representarla es sobre los diagramas de dispersin.
La Covarianza
En una distribucin bivariada contamos con una medida de dispersin que tiene en cuenta las
dos variables a la vez. Para ello es necesario hacer uso de la Covarianza, que se obtiene del
producto de las diferencias de e a sus medias.
Covarianza

44 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Interpretacin de la Covarianza
El valor de la covarianza nos informa de la existencia (o no) de dependencia lineal entre las
variables. Si no hay relacin lineal entre las dos variables, la covarianza ser igual a

Si : No hay relacin lineal entre ambas variabes.

Si : Hay relacin. Mayor cuanto mayor sea la covarianza

Si la relacin de dependencia lineal es positiva. Para grandes valores de se


obtienen grandes valores de

Si la relacin de dependencia lineal es negativa. Para grandes valores de se


obtienen pequeos valores de .

Errores o residuos
Los errores o residuos son la diferencia entre los valores reales y los de la recta ajustada a los
datos. Por cada valor de tenemos dos valores de , el de la ecuacin y el real observado. La
suma de los residuos sirve para evaluar el ajuste final.

Ecuacin de la recta de regresin

45 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Frmulas de ajuste de la recta de regresin


Los parmetros de la recta de regresin se ajustan por el mtodo de los mnimos cuadrados.

Covarianza Varianza de

Pendiente de la recta de regresin

-> La covarianza medida en unidades de la varianza de .

Punto de corte de la recta con el eje de la variable dependiente

Una vez se han calculado los parmetros de la funcin de la recta de regresin lineal, la
correlacin sirve para cuantificar la bondad del ajuste de la recta a la nube de puntos.

Coeficiente de correlacin de Pearson

Interpretacin del valor de


El valor de vara entre -1 y +1

Si : No hay correlacin. Las rectas de regresin son paralelas a los ejes.

Si : Hay correlacin positiva. Al aumentar una variable, al aumentar una variable


la otra tambin aumenta. La recta de regresin tiene pendiente positiva.

Si : Hay correlacin negativa. Al aumentar una variable, al aumentar una


variable la otra disminuye. La recta de regresin tiene pendiente negativa.

Si o : Todos los puntos estn contenidos en la recta de regresin.


Aunque el coeficiente de correlacin se alto, no significa necesariamente que el ajuste sea
ptimo. Puede existir una relacin fuerte pero no lineal. Por ello, es imprescindible siempre
acompaar el clculo del coeficiente de correlacin con el grfico del diagrama de
dispersin, con el fin de comprobar que se cumple la relacin lineal entre las variables.
El coeficiente de correlacin es simtrico. Tiene el mismo valor tanto si se trata de
cuantificar con los mismos datos el ajuste de la recta de en como de la recta de en .

46 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Coeficiente de determinacin

Es el coeficiente de correlacin de Pearson al cuadrado . Expresa la reduccin proporcional


del error que se comete al estimar los valores de la variable dependiente a partir de la recta
de regresin. Se puede interpretar tambin como la probabilidad de la varianza total en una
variable que es explicada por la otra variable en el modelo lineal. Al igual que , es
simtrico y su valor es el mismo tanto si tomamos la variable independiente por la
dependiente y viceversa.

Coeficiente de determinacin

: Diferencia entre los valores de obtenidos de la ecuacin lineal y la media.

: Diferencia entre los valores observados y la media.

Para cada observacin

: Residuo o diferencia entre el valor observado y el estimado . La parte del valor


observado de no explicada por el modelo
Residuo

Suma de cuadrados total

Slo una parte de la variacin de es explicada por el modelo, y el valor de indica qu


parte de la variacin total supone la variacin explicada por la recta de regresin.

El coeficiente de determinacin tambin puede obtenerse mediante el producto de las


pendientes de las dos rectas de regresin:

47 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Tablas de contingencia

Las tablas de contingencia sirven para comparar grupos y observar cmo se distribuye una
variable en el seno de otra variable. Para ver cmo se agrupa la poblacin simultneamente en
dos variables, se realiza un cruce de variables y obtenemos una tabla de contingencia. 2

Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos

Actitud hacia los impuestos

Bajar los Gastar ms en


impuestos y prestaciones
gastar menos en aumentando los
prestaciones impuestos Ns/Nc. Total

Sin Estudios o Primarios 571 441 275 1287

Nivel de Secundarios 251 283 112 646


Estudios

Superiores 151 293 83 527

Total 973 1017 470 2460

Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

La distribucin total de las filas se denomina distribucin marginal de filas, y la distribucin


total de columnas se denomina distribucin marginal de columnas. En la prctica se suele
referirse a ellas como marginales, que son las distribuciones totales de cada una de las
variables cruzadas. La distribucin conjunta de las variables se observa en las casillas
centrales.

La anterior tabla de contingencia se ha realizado con frecuencias absolutas, con lo que la


informacin contenida en la tabla no se presenta fcil para el anlisis. Para una mejor
comparacin de la distribucin entre las dos variables se hace necesario obtener la tabla con
las frecuencias relativas (en porcentajes).

Anlisis Bivariable
La relacin entre dos variables se establece con el esquema explicativo: la distribucin de una
variable es explicada por la distribucin de otra variable. En otras palabras, una variable es

2
Es importante destacar la diferencia entre variables de registro y variables de anlisis. Las variables
de registro son las variables originales que se emplean para registra la informacin, que suelen
presentarse con mucho detalle (asimiladas a trminos abstractos o administrativos de registro) y sirven
como punto de partida para la investigacin. Las variables de anlisis son las variables construidas con
pertinencia emprica y/o terica para el anlisis sociolgico.

48 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

determinada por otra. Por tanto, tenemos variable independiente y variable dependiente. Los
cambios de la variable independiente explican los de la dependiente.

Desde el enfoque matemtico, cualquiera de las dos variables puestas en relacin puede
ejercer indistintamente el papel de independiente como de dependiente. Pero desde el
enfoque emprico, estos papeles se definen contrastando que una de las variables es
antecedente (temporalmente) de la otra o presenta ms estabilidad temporal o se considera
ms bsica; y esta ser la variable independiente. Podra darse el caso que dos variables en
relacin terica no tengan ninguna relacin de dependencia, y por consiguiente ambas
variables seran independientes.

Regla de Zeisel
Para el anlisis de la relacin de dos variables en una tabla de contingencia se calculan los
porcentajes en la direccin de la variable independiente y se comparan en la direccin de
la variable dependiente.

Como regla general colocamos los datos de la variable independiente en las filas. Segn De
Miguel (1997): La mejor disposicin es la de porcentajes horizontales porque el ojo humano
compara mejor las relaciones de arriba abajo 3. Por tanto, conviene por sistema emplear esta
regla en todos los casos, calcular los porcentajes en la direccin horizontal y comparar las
relaciones entre ambas variables en la direccin vertical.

Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos

Actitud hacia los impuestos

Bajar los Gastar ms en


impuestos y prestaciones
gastar menos en aumentando los
prestaciones impuestos Ns/Nc. Total

Sin Estudios o Primarios 44,4% 34,3% 21,4% 100,0%

Nivel de Secundarios 38,9% 43,8% 17,3% 100,0%


Estudios

Superiores 28,7% 55,6% 15,7% 100,0%

Total 39,6% 41,3% 19,1% 100,0%

Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

3
De Migel, A. 1997. Manual del perfecto socilogo, Madrid, Espasa, p. 67.

49 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Anlisis Trivariable (Tercera Variable. Variable de Control)


Con las tablas de contingencia de dos variables se parte del supuesto de que el resto de
variables se mantienen constantes. Sin embargo, en la realidad esto no ocurre nunca. La
experiencia emprica demuestra que mltiples variables afectan al comportamiento de otra; y
muchas no se pueden controlar cuando no hay registro. Es posible que algunas no aparezcan
cuando se est estudiando una encuesta estadstica; otras se tienen que construir a partir de
las variables de registro.

La introduccin de una tercera variable puede alterar las supuestas relaciones halladas en la
tabla de contingencia de dos variables, de manera que la relacin bivariable anterior se
desvanezca. A esta tercera variable la llamamos variable de control, y se introduce
segmentando los datos del cruce de las dos variables anteriores en funcin de esta tercera
variable.

Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos * Sexo

Actitud hacia los impuestos

Bajar los Gastar ms


impuestos y en
gastar menos prestaciones
en aumentando
Sexo prestaciones los impuestos Ns/Nc. Total

Hombre Nivel de Estudios Sin Estudios o 41,3% 41,6% 17,2% 100,0%


Primarios

Secundarios 36,8% 44,2% 19,0% 100,0%

Superiores 27,5% 57,2% 15,3% 100,0%

Total 37,4% 45,2% 17,4% 100,0%

Mujer Nivel de Estudios Sin Estudios o 47,4% 27,1% 25,5% 100,0%


Primarios

Secundarios 41,3% 43,3% 15,4% 100,0%

Superiores 29,5% 54,4% 16,1% 100,0%

Total 41,6% 37,6% 20,8% 100,0%

Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

Paradoja de Simpson
Una asociacin entre dos variables desaparece o cambia de sentido cuando los datos son
desagregados por grupos, esto es, cuando se controla el efecto de una tercera variable.

50 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

La variable de control que se introduce para observar el comportamiento en una relacin


bivariable original afecta a sta si:

1. Se relaciona con la variable independiente o causal

2. Se relaciona con la variable dependiente o efecto

3. Cuando segmentamos la poblacin segn los gruos de la variable de control , se


observa que las relaciones entre las variables originales son de menor
intensidad que la que manifestaban antes de introducir la tercera variable. Pero
tambin cabe la posibilidad de que la tercera variable afecte a las dos variables
sin alterar la relacin original establecida por stas.

En los modelos donde una tercera variable altera una determinada relacin entre dos
variables, existen dos casos en la forma en que acta la tercera variable:

1. Variable Antecedente: actua sobre y sobre .

2. Variable Interviniente (o mediadora): se interpone entre e , esto es, actua


sobre y sta sobre .

como variable antecedente

como variable interviniente


(o mediadora)

Todas las interacciones posibles se deben fundamentar en modelos de interaccin de


pertinencia sociolgica.

La interaccin entre tres variables se puede resumir en una tabla, pero la forma ms ptima de
analizar las relaciones entre las tres variables es segmentando la poblacin entre los valores de
una de las variables, la que se considere ms bsica o primordial. De esta manera se puede
observar cmo se comporta las otras dos variables en cada una de las categoras (o valores) de
la primera.

En muchas ocasiones resulta interesante dualizar (o dicotomizar) las variables que se cruzan.
La visibilidad de las confrontaciones duales facilita el anlisis.

51 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Ji-cuadrado

La prueba de Ji-cuadrado es un test que afecta a la distribucin de frecuencias de los


diferentes grupos que componen una poblacin y que son generados por un cruce de
variables.

Con la prueba de Ji-cuadrado se pretende conocer en trminos probabilsticos si el


conjunto de las frecuencias relativas (proporciones) de todos los grupos generados en una
poblacin (por el cruce de variables) se distribuye forma a aleatoria (al azar), sin diferencias
significativas (significacin estadstica) entre ellas (en conjunto). Igual que en todas las
pruebas estadsticas, se contrasta la distribucin real de los datos (a partir de un estadstico)
con una distribucin terica, en este caso, la Ji-cuadrado , en donde definimos un punto
crtico a partir del cual las diferencias se consideran significativas entre las proporciones del
conjunto de los grupos poblacionales (condensadas en el estadstico Ji-cuadrado). Por tanto,
por un lado tenemos el estadsitco (Ji-cuadrado) asociado a una tabla de contingencia, y por
otro, una distribucin terica de este estadstico.
La prueba de Ji-cuadrado slo tiene sentido cuando se trabaja con datos muestrales extrados
de forma aleatoria, esto es, en distribuciones (empricas) de probabilidad.

Con la prueba de Ji-cuadrado la especificidad (emprica/terica) concreta de las categoras


desaparece. Para Ji-cuadrado es irrelevante si la prueba la hacemos sobre variables de edad,
nivel de estudios, definiciones ideolgicas, etc. Ji-cuadrado vale lo mismo para categoras
sociolgicas, mdicas, criminolgicas, biolgicas, etc. Ji-cuadrado no distingue la especificidad
de las categoras consideradas. Se trata de un ndice que resume toda la distribucin teniendo
en cuenta slo el nmero de categoras y las frecuencias que se dan en stas.

Frecuencia terica (o esperada segn la lgica de Ji-cuadrado)

Se podra decir que las frecuencias esperadas en cada una de las casillas de una tabla de
contingencia son aquellas que cabe esperar en el caso de que no exista relacin entre las
variables, esto es, independencia estadstica o probabilstica entre las variables. Dos variables
son independientes estadsticamente si la probabilidad de que nos aparezca una categora
de una variable no depende de la distribucin de probabilidad de la otra variable.

Clculo de residuos
Los residuos son las diferencias entre las frecuencias observadas y las esperadas en cada celda.
Los residuos son errores del muestreo aleatorio.
Residuo

52 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Para poder comparar las distancias entre las frecuencias observadas y las esperadas dentro
de cada celda, se ha de estandarizar estas distancias.
Residuos Estandarizados

de cada celda

Coeficiente Ji-cuadrado de toda la tabla (Ejemplo Tabla 2x2)

Tabla para la frmula general del ndice

Frmula suma de frecuencias columna genrica

Frmula suma de frecuencias fila genrica

Sumatorio de todas las celdas

53 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Frecuencia esperada de una celda cualquiera

Coeficiente Ji-cuadrado de la Tabla

Interpretacin de Ji-cuadrado en tablas bivariables


Si toma valores entre ndice o Coeficiente de relacin.

Si : No hay relacin entre las variables.

de una tabla concreta no vale para comparar otras tablas distintas. Para ello existen
otros coeficientes de contingencia: V de Cramer, Coeficiente de contingencia o .

La prueba o test de Ji-cuadrado es un contraste de proporciones mltiples. La distribucin


terica asociada a esta prueba es la distribucin . Se trata de una distribucin continua de
probabilidad, una distribucin muestral de la varianza derivada de la distribucin normal. Al
igual que la distribucin de Student, depende de un parmetro: grados de libertad. Por
tanto, existe una distribucin distinta para cada nmero de grados de libertad. La media de la
distribucin Ji-cuadrado es igual a sus grados de libertad, su varianza es dos veces sus
grados de libertad, y sus valores oscilan entre .

Distintas distribuciones Ji-cuadrado para distintos grados de libertad (df)

La distribucin Ji-Cuadrado se va acercando a la distribucin normal a medida que


aumentan sus grados de libertad.

Nmero de grados de libertad de una tabla bidimensional

54 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Prueba de la distribucin Ji-Cuadrado con los correspondientes grados de libertad

Como todas las distribuciones de probabilidad, la distribucin Ji-Cuadrado describe un rea


bajo la curva que es igual a 1, esto es, donde encontramos el 100% de los casos. Cualquier
valor de deja a su izquierda un porcentaje de casos que asignaremos a la proporcin , y a
su derecha el resto de casos que asignaremos a la proporcin . Entre 0 y un valor cualquiera
de encontraremos el % de los casos. Y entre el valor e encontraremos el resto,
el %. Y sabemos que .

El valor crtico y nivel de significacin de


La de la Tabla Ji-cuadrado, distribucin de (ver Anexo 5) nos indica el valor crtico de a
partir del cual todo valor mayor entre en la zona de rechazo de la hiptesis nula , que
considera las variables cruzadas en la tabla son independientes estadsticamente, es decir, no
hay relacin entre ellas. Por tanto, la es el nivel de significacin que usamos para la prueba
de la distribucin Ji-cuadrado .

55 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Anexo 1: Tabla Z. Distribucin Normal Estndar

Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta

56 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Anexo 2: Tabla t. Distribucin t de Student

Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta

57 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Anexo 3: Tabla F. Distribucin F de Fisher (N.s. = 0,01)

Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta

58 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Anexo 4: Tabla F. Distribucin F de Fisher (N.s. = 0,05)

Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta

59 cisolog.com
Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales Rubn Crespo

Anexo 5: Tabla Ji-cuadrado. Distribucin de

Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta

60 cisolog.com

También podría gustarte