Está en la página 1de 62

ciencia

sociolgica

www.cisolog.com

Frmulas y apuntes de Estadstica aplicada a las ciencias sociales

Mayo 2013
El contenido de este documento realizado por Rubn Crespo se encuentra bajo una Licencia Creative Commons: Atribucin-NoComercialSinDerivadas 3.0 Unported.

Rubn Crespo
cisolog@cisolog.com

NotaPrevia
Este documento no tiene ninguna finalidad pedaggica. Se trata de una compilacin de las principales frmulas estadsticas y apuntes tericos recogidos del los libros de Luis Camarero Rioja et al. 2010. Estadstica para la investigacin social. Ibergarceta; y Alejandro Almazn et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta, que constituye respectivamente los manuales bsicosdelasasignaturasEstadsticasocialaplicadaalascienciassocialesIyIIde losplanesdeestudiodeGradodeSociologaenlaUNED. La finalidad de este documento es ofrecer una herramienta de apoyo tanto para elprofesionalcomoparaelestudiantequehaasimiladolosconocimientosbsicos de estadstica aplicada a las ciencias sociales, de manera que cuando realice prcticas de investigacin social donde se requiere el uso de la estadstica, pueda disponer de un material de consulta que concentra las principales frmulas y elementos tericos tiles para resolver la mayora de los problemas que se le planteen. Por tanto, el contenido de este documento, al no disponer de explicaciones precisas y exposicin de ejemplos, no es conveniente para el aprendizaje de la estadstica enfocada a la investigacin social. Para ello se recomiendalalecturaycomprensin delcitadomanual.Si bien hayotrosmuchos manuales cuyo aprendizaje serviran para entender las formulas y apuntes tericos que se compilan aqu, en este documento los contenidos se han estructuradoenelmismoordenquelosmanualessealadosmsarriba. La mayora de las tablas y grficos son de elaboracin propia, excepto un par de ellosquesehanextradodelprimermanual,ascomolastablasdelosanexosque sepuedenencontraralfinaldeldocumento. RubnCrespo Mayo,2013

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

ndice

TIPOLOGA DE LOS DATOS ..................................................................................................................... 6 TIPOS DE ESCALA DE LAS VARIABLES ..................................................................................................... 6 OTRA CLASIFICACIN DE LAS VARIABLES ............................................................................................... 6 DISTRIBUCIONES DE FRECUENCIAS ........................................................................................................ 7 FRECUENCIA RELATIVA, FRECUENCIA ACUMULADA .............................................................................................. 7 LMITES REALES PARA CREACIN DE CATEGORAS SEGN VARIABLES DE INTERVALO .......................... 7 TIPOS REPRESENTACIN GRFICA DISTRIBUCIN DE FRECUENCIAS SEGN APUNTAMIENTOS ......... 7 MEDIDAS DE TENDENCIA CENTRAL ........................................................................................................ 7 MEDIA ARITMTICA, MEDIA ARITMTICA DATOS AGRUPADOS ............................................................................... 7 MARCA DE CLASE.. ................................................ 7 MEDIA ESTADSTICA PONDERADA ..................................................................................................................... 7 CLCULO DE LAS MARCAS DE CLASE ................................................................................................................. 8 MEDIANA .................................................................................................................................................... 8 CUARTILES ................................................................................................................................................... 8 DECILES....................................................................................................................................................... 8 CENTILES ..................................................................................................................................................... 8 MODA ........................................................................................................................................................ 8 CLCULO DE PERCENTILES............................................................................................................................... 8 RANGO INTERCUNTICO, RANGO SEMI-INTERCUANTLICO: ................................................................................... 8 MEDIDAS DE DISPERSIN ...................................................................................................................... 9 VARIANZA.................................................................................................................................................... 9 DESVIACIN ESTNDAR (O TPICA) ................................................................................................................... 9 VARIANZA PARA DATOS AGRUPADOS ................................................................................................................. 9 DESVIACIN ESTNDAR (O TPICA) PARA DATOS AGRUPADOS ................................................................................ 9 COEFICIENTE DE VARIACIN (PARA COMPARAR EL GRADO DE DISPERSIN ENTRE VARIAS DISTRIBUCIONES) ...................... 9 MEDIDAS DE LOCALIZACIN RELATIVA .................................................................................................. 9 VALORES DE Z .............................................................................................................................................. 9 EL TEOREMA DE CHEBYSHEV ......................................................................................................................... 10 OTRAS FORMAS DE CALCULAR LA MEDIA ............................................................................................ 10 MEDIA ARMNICA, MEDIA CUADRTICA ........................................................................................................ 10 MEDIA GEOMTRICA ................................................................................................................................... 10 TIPOS DE GRFICO ............................................................................................................................... 11 ELEMENTOS BSICOS PARA LA CONSTRUCCIN DE GRFICOS ............................................................ 12 TEORA Y CLCULO DE PROBABILIDADES ............................................................................................. 12

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

PROBABILIDAD A PRIORI Y FRECUENCIA RELATIVA ............................................................................................... 12 SUCESO COMPLEMENTARIO .......................................................................................................................... 12 TCNICAS DE CONTEO (AGRUPACIONES/ORDENACIONES) ................................................................................... 12 PERMUTACIN, VARIACIONES ....................................................................................................................... 12 COMBINACIONES ........................................................................................................................................ 12 TIPOS DE SUCESOS ...................................................................................................................................... 13 REGLA DE LA ADICCIN: UNIN DE SUCESOS (SIMULTNEOS) .............................................................................. 13 REGLA DE LA MULTIPLICACIN: SUCESOS CONDICIONADOS O INTERSECCIN DE SUCESOS (SECUENCIALES) ................... 13 REGLA DE LAPLACE ...................................................................................................................................... 13 PROPIEDADES BSICAS DE LA PROBABILIDAD ..................................................................................... 14 DISTRIBUCIONES TERICAS DE PROBABILIDAD.................................................................................... 14 FUNCIN DE LA DISTRIBUCIN NORMAL .......................................................................................................... 14 VALOR ESPERADO ....................................................................................................................................... 14 DISTRIBUCIN REAL, TERICA Y EMPRICA .......................................................................................... 15 DISTRIBUCIN UNIFORME ................................................................................................................... 16 DISTRIBUCIN UNIFORME DISCRETA ............................................................................................................... 16 FUNCIN DE DENSIDAD ................................................................................................................................ 16 DISTRIBUCIN BINOMIAL .................................................................................................................... 16 EXPERIMENTO BINOMIAL.............................................................................................................................. 16 FORMA GENERAL DE LA DISTRIBUCIN BINOMIAL ............................................................................................. 16 TRINGULO DE TARTAGLIA (O DE PASCAL) ....................................................................................................... 17 VALOR ESPERADO EN LA DISTRIBUCIN BINOMIAL ............................................................................................. 18 DISTRIBUCIN NORMAL ...................................................................................................................... 18 FUNCIN DE LA DISTRIBUCIN NORMAL .......................................................................................................... 18 DISTRIBUCIONES NORMALES CON DISTINTAS DESVIACIONES TPICAS ....................................................................... 18 DISTRIBUCIONES NORMALES CON DISTINTAS MEDIAS .......................................................................................... 19 MEDIA DE UNA DISTRIBUCIN BINOMIAL.......................................................................................................... 18 VARIANZA DE UNA DISTRIBUCIN BINOMIAL ..................................................................................................... 18 DESVIACIN ESTNDAR (O TPICA) DE UNA DISTRIBUCIN BINOMIAL ..................................................................... 18 FUNCIN DE DENSIDAD NORMAL ................................................................................................................... 19 DISTRIBUCIN NORMAL ESTANDARIZADA .......................................................................................... 19 TRANSFORMACIN VALORES DE X EN UNIDADES DE Z ......................................................................................... 19 FUNCIN NORMAL ESTANDARIZADA, FUNCIN DE DENSIDAD ESTANDARIZADA ...................................................... 20 CLCULO DE PROBABILIDADES EN DISTRIBUCIONES NORMALES ......................................................... 20 APROXIMACIN DE LA DISTRIBUCIN BINOMIAL A LA NORMAL ........................................................ 20 DISTRIBUCIN T DE STUDENT ............................................................................................................. 21 TRANSFORMACIN VALORES DE X EN UNIDADES DE T.......................................................................................... 21 GRADOS DE LIBERTAD DE LA DISTRIBUCIN T DE STUDENT: ................................................................................. 21 DISTRIBUCIN T DE STUDENT PARA VARIOS GRADOS DE LIBERTAD ( ) .................................................................... 21 DESVIACIN TPICA DE LA DISTRIBUCIN T DE STUDENT ...................................................................................... 21 CUADRO RESUMEN MEDIAS Y VARIANZAS DE LAS DIFERENTES DISTRIBUCIONES DE PROBABILIDAD . 22 LAS MUESTRAS ESTADSTICAS ............................................................................................................. 22

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

PARMETROS Y ESTADSTICOS ....................................................................................................................... 23 ERROR Y SESGO .......................................................................................................................................... 23 MUESTREO ALEATORIO. USO DE TRES TIPOS DE DISTRIBUCIONES DISTINTAS: ........................................................... 23 ERROR ESTADSTICO .................................................................................................................................... 24 NIVEL DE CONFIANZA................................................................................................................................... 24 LOS TRES PILARES DE LA TEORA MUESTRAL ........................................................................................ 24 ERROR TPICO (O ERROR ESTNDAR) ............................................................................................................... 24 TEOREMA DEL LMITE CENTRAL ........................................................................................................... 25 DISTRIBUCIN NORMAL EN Z ERROR ESTADSTICO TEOREMA LMITE CENTRAL .................................................... 25 RELACIN ENTRE ERROR, NIVEL DE CONFIANZA ................................................................................................ 25 Y TAMAO DE LA MUESTRA .......................................................................................................................... 25 CLCULO DEL TAMAO MUESTRAL, CLCULO DEL ERROR ESTADSTICO ................................................................. 25 VALORES DE Z PARA NIVELES DE CONFIANZA MS USUALES ............................................................... 25 NOMENCLATURA DISTRIBUCIONES POBLACIN/MUESTRA ................................................................. 26 ERRORES TPICOS Y FRMULAS DEL TAMAOS MUESTRAL PARA LOS ESTADSTICOS DE LA MEDIA Y DE LA PROPORCIN (POBLACIONES INFINITAS) ........................................................................................ 26 POBLACIONES ...................................................................................................................................... 27 POBLACIONES FINITAS.................................................................................................................................. 27 FACTOR DE CORRECCIN PARA POBLACIONES FINITAS ........................................................................................ 27 POBLACIONES INFINITAS ............................................................................................................................... 28 ERRORES TPICOS Y FRMULAS DEL TAMAOS MUESTRAL PARA LOS ESTADSTICOS DE LA MEDIA Y DE LA PROPORCIN (POBLACIONES FINITAS) ........................................................................................... 28 MUESTRAS GRANDES Y PEQUEAS...................................................................................................... 28 MUESTRAS GRANDES.. ................................................................................................................ 28 MUESTRAS PEQUEAS ................................................................................................................... 28 REGLA DE APROXIMACIN A LA DESVIACIN TPICA CUANDO SE DESCONOCE LA DE LA POBLACIN . 28 DISEO DE MUESTRAS ......................................................................................................................... 28 MARCO..................................................................................................................................................... 28 PROCEDIMIENTO DE MUESTREO ......................................................................................................... 29 MTODO DE SELECCIN DE LA MUESTRA ......................................................................................................... 29 MUESTREO ESTRATIFICADO ................................................................................................................. 29 ESTRATOS .................................................................................................................................................. 29 DESCOMPOSICIN ESQUEMTICA DE UNA POBLACIN EN ESTRATOS ...................................................................... 30 ELEMENTOS DEL MUESTREO ESTRATIFICADO ..................................................................................................... 30 VARIANZA DE LA POBLACIN ESTRATIFICADA .................................................................................................... 30 PROCEDIMIENTOS DE AFIJACIN .................................................................................................................... 31 PONDERACIN EN DISEOS NO PROPORCIONALES AL TAMAO ........................................................ 31 COEFICIENTE DE PONDERACIN ..................................................................................................................... 31 MUESTREO POR CONGLOMERADOS .................................................................................................... 32 EXPOSICIN ESQUEMTICA DEL MUESTREO POR CONGLOMERADOS ....................................................................... 32

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

MUESTREO POR CUOTAS ..................................................................................................................... 33 MUESTREO MIXTO ............................................................................................................................... 33 LA ESTIMACIN DE LAS VARIANZAS .................................................................................................... 34 CUASIVARIANZA MUESTRAL .......................................................................................................................... 34 CUASIDESVIACIN MUESTRAL ....................................................................................................................... 34 VARIANZA MUESTRAL A PARTIR ..................................................................................................................... 34 DEL ESTADSTICO DE LA CUASIVARIANZA ........................................................................................................... 34 ERROR TPICO CUANDO ESTIMAMOS LA VARIANZA A TRAVS DE LA PROPIA MUESTRA ............................................... 34 INFERENCIA ESTADSTICA .................................................................................................................... 35 ESTIMACIN DE MEDIAS Y PROPORCIONES....................................................................................................... 35 ERROR ESTADSTICO .................................................................................................................................... 35 ERRORES E INTERVALOS PARA LA MEDIA Y LA PROPORCIN ESTIMANDO LA VARIANZA A PARTIR DE LA MUESTRA............ 35 INTERVALOS EN EL CASO DE MUESTRAS PEQUEAS ............................................................................ 35 ESTIMACIN DE MEDIAS (MUESTRAS PEQUEAS) .............................................................................................. 35 ESTIMACIN DE PROPORCIONES (MUESTRAS PEQUEAS) .................................................................................... 36 INTERVALO DE WILSON ................................................................................................................................ 36 DIFERENCIAS DE ESTADSTICOS............................................................................................................ 36 SITUACIONES DE DEPENDENCIA E INDEPENDENCIA ENTRE MUESTRAS ..................................................................... 37 DETERMINACIN DEL TIPO DE SITUACIN DE CONSTRUCCIN DE ESTADSTICOS COMPUESTOS ..................................... 37 DIFERENCIA DE MEDIAS EN CASOS DE MUESTRAS INDEPENDIENTES ....................................................................... 37 ERROR TPICO, ERROR ESTADSTICO ............................................................................................................... 37 DIFERENCIA DE PROPORCIONES EN CASOS DE MUESTRAS INDEPENDIENTES ............................................................. 37 ERROR TPICO, ERROR ESTADSTICO ............................................................................................................... 37 DIFERENCIA DE ESTADSTICOS EN CASOS DE MUESTRAS RELACIONADAS .................................................................. 37 ERROR TPICO ............................................................................................................................................ 37 ERROR TPICO A PARTIR DE LA CUASIDESVIACIN ............................................................................................... 37 TEST DE SIGNIFICACIN ....................................................................................................................... 38 HIPTESIS NULA ............................................................................................................................... 38 PRUEBAS DE HIPTESIS ................................................................................................................................. 39 TIPOS DE ERROR EN LOS TEST DE HIPTESIS....................................................................................................... 39 NIVEL DE SIGNIFICACIN DEL TEST O VALOR CRTICO ...................................................................................... 39 P VALOR .................................................................................................................................................... 40 DOS TIPOS DE TEST ...................................................................................................................................... 40 TEST DE UNA COLA (UNILATERAL)................................................................................................................... 40 TEST DE DOS COLAS (BILATERAL) .................................................................................................................... 40 PROCEDIMIENTO DEL TEST DE SIGNIFICACIN O PRUEBAS DE HIPTESIS .................................................................. 41 VALORES DE Z PARA LOS NIVELES DE SIGNIFICACIN (N.S.) 5% Y 1% ..................................................................... 41 CONTRASTES DE HIPTESIS (MUESTRA VS POBLACIN DE REFERENCIA) ............................................. 41 CONTRASTE PARA UNA MEDIA ....................................................................................................................... 41 CONTRASTE PARA UNA PROPORCIN ............................................................................................................... 42 COMPARACIONES (MUESTRA VS MUESTRA)........................................................................................ 42 COMPARACIN DE MEDIAS............................................................................................................................ 42 COMPARACIN DE PROPORCIONES ................................................................................................................. 42

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

ANLISIS DE VARIANZA (ANOVA) ........................................................................................................ 42 PROCEDIMIENTO DE CLCULO ANOVA ........................................................................................................... 42 DISTRIBUCIN DE SNEDECOR...................................................................................................................... 44 DISEO ALEATORIZADO CON UN FACTOR .......................................................................................................... 44 REGRESIN Y CORRELACIN LINEAL .................................................................................................... 44 LA COVARIANZA.......................................................................................................................................... 44 INTERPRETACIN DE LA COVARIANZA .............................................................................................................. 45 ERRORES O RESIDUOS................................................................................................................................... 45 ECUACIN DE LA RECTA DE REGRESIN ............................................................................................................ 45 FRMULAS DE AJUSTE DE LA RECTA DE REGRESIN ............................................................................................. 46 COEFICIENTE DE CORRELACIN DE PEARSON .................................................................................................. 46 INTERPRETACIN DEL VALOR DE .................................................................................................................. 46 COEFICIENTE DE DETERMINACIN ............................................................................................................. 47 TABLAS DE CONTINGENCIA .................................................................................................................. 48 ANLISIS BIVARIABLE ................................................................................................................................... 48 REGLA DE ZEISEL ......................................................................................................................................... 49 ANLISIS TRIVARIABLE (TERCERA VARIABLE. VARIABLE DE CONTROL) .................................................................... 50 PARADOJA DE SIMPSON................................................................................................................................ 50 COMO VARIABLE ANTECEDENTE................................................................................................................... 51 COMO VARIABLE INTERVINIENTE .................................................................................................................. 51 JI-CUADRADO .............................................................................................................................. 52

FRECUENCIA TERICA (O ESPERADA SEGN LA LGICA DE JI-CUADRADO)................................................................ 52 CLCULO DE RESIDUOS ................................................................................................................................. 52 RESIDUO ................................................................................................................................................... 52 RESIDUOS ESTANDARIZADOS ......................................................................................................................... 53 JI-CUADRADO DE CADA CELDA ........................................................................................................................ 53 COEFICIENTE JI-CUADRADO DE TODA LA TABLA (EJEMPLO TABLA 2X2)................................................................... 53 TABLA PARA LA FRMULA GENERAL DEL NDICE ............................................................................... 53 FRMULA SUMA DE FRECUENCIAS COLUMNA GENRICA ................................................................................ 53 FRMULA SUMA DE FRECUENCIAS FILA GENRICA ........................................................................................ 53 SUMATORIO DE TODAS LAS CELDAS ................................................................................................................. 53 FRECUENCIA ESPERADA DE UNA CELDA CUALQUIERA .................................................................................. 54 COEFICIENTE JI-CUADRADO DE LA TABLA.................................................................................................... 54 INTERPRETACIN DE JI-CUADRADO EN TABLAS BIVARIABLES............................................................................. 54 DISTINTAS DISTRIBUCIONES JI-CUADRADO PARA DISTINTOS GRADOS DE LIBERTAD (DF) ............................................. 54 NMERO DE GRADOS DE LIBERTAD DE UNA TABLA BIDIMENSIONAL ........................................................... 54 PRUEBA DE LA DISTRIBUCIN JI-CUADRADO CON LOS CORRESPONDIENTES GRADOS DE LIBERTAD ........................... 55 EL VALOR CRTICO Y NIVEL DE SIGNIFICACIN DE ........................................................................................... 55 ANEXO 1: TABLA Z. DISTRIBUCIN NORMAL ESTNDAR ..................................................................... 56 ANEXO 2: TABLA T. DISTRIBUCIN T DE STUDENT .............................................................................. 57 ANEXO 3: TABLA F. DISTRIBUCIN F DE FISHER (N.S. = 0,01)............................................................... 58 ANEXO 4: TABLA F. DISTRIBUCIN F DE FISHER (N.S. = 0,05)............................................................... 59 ANEXO 5: TABLA JI-CUADRADO. DISTRIBUCIN DE ........................................................................ 60

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales


Tipologa de los datos
Ventajas CENSOS Incluyen a toda la poblacin. Posibilidad de desagregacin en subpoblaciones. Inconvenientes Coste econmico elevado. Periodicidad dilatada. Disponible slo para poblaciones especficas. Incluyen pocas variables Consulta restringida. Estn sujetas a errores de muestreo. Dificultades de desagregacin de la informacin de forma detallada por el tamao limitado de la muestra. Necesidad de previa existencia de censos para seleccionar la muestra.

REGISTROS

Actualizacin frecuente.

ENCUESTAS

Costes menores. Informacin instantnea. Pueden incluir mayor nmero de variables. Mayor posibilidad de verificacin de los datos.

Tipos de escala de las variables


Propiedades NOMINAL
(N-1)

Ejemplos Lugar de nacimiento, sexo, estado civil, lugar de residencia, etc. Nivel de estudios, grado de satisfaccin, jerarqua de mando, etc. Tamao del hogar, fecha, temperatura, etc. Nmero de hijos, renta familiar, peso, distancia, etc.

Clasifica Clasifica y ordena Clasifica, ordena y posee unidad de medida Clasifica, ordena, posee unidad de medida, y origen = 0 absoluto
0 es la ausencia de caracterstica

ORDINAL
(N-2)

INTERVALO
(N-3)

RAZN
(N-4)

Otra clasificacin de las variables

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribuciones de Frecuencias ni frecuencias absoluta N = n1 + n2 + n3 + + ni N Nmero de casos de la poblacin

Frecuencia Relativa

Frecuencia Acumulada

Lmites reales para creacin de categoras segn variables de intervalo


Los intervalos reales de las categoras dependen de la naturaleza de la variable Variable: o o Discreta Continua Ejemplos: Distancia Edad de 3 hasta 4 de 2,5 hasta 4,4999 de 3 hasta 4 de 3 hasta 4,4999 [2,5 4,5[ [3 5[ Lmites Clase = Lmites Reales Depende de la variable

Tipos Representacin Grfica distribucin de frecuencias segn apuntamientos


1. PLATICRTICA 2. LEPTOCRTICA 3. MESOCRTICA Aplanada Puntiaguda Intermedia Frecuencias similares a lo largo del recorrido. Frecuencias altas en pocos valores. Intermedia entre las dos anteriores.

Medidas de Tendencia Central


Media Aritmtica Media Aritmtica datos agrupados

Marca de clase
Media estadstica Ponderada

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Clculo de las Marcas de Clase

A partir de los lmites reales

Mediana

Li Lmite Inferior Ci Amplitud del Intervalo


Cuartiles

Ci = Lsup Linf

Q2 = Me Q4 = Lsup = Valor Mximo de la Poblacin/Muestra


Deciles

Centiles

Moda

Clculo de Percentiles

Rango Intercuntico:
1

Rango Semi-Intercuantlico:

Ejemplo: si para la variable edad de una muestra quisiramos agregar los datos en diferentes grupos de edades, en el caso del grupo de 25 a 29 aos el lmite inferior es 25, y el lmite superior es 30 [25 30[. Por tanto, la marca de clase para ese grupo de edad es 27,5 aos.

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Medidas de Dispersin
Varianza

Frmula Alternativa
Desviacin Estndar (o Tpica)

Frmula Alternativa
Varianza para datos agrupados

Desviacin Estndar (o Tpica) para datos agrupados

Coeficiente de Variacin (para comparar el grado de dispersin entre varias distribuciones)

Expresado en porcentaje (%)

Medidas de Localizacin Relativa


Valores de Z Nos indica a cuntas desviaciones estndar est cualquier valor ( ) de la Media ( ).

Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas. Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta distancia en unidades de desviacin tpica o estndar ( ).

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

El Teorema de Chebyshev

*Porcentaje de casos (%) independientemente de que la distribucin sea normal o no. Para cualquier otro valor se calcula:

Otras formas de calcular la Media


Media Armnica Media Cuadrtica

Media Geomtrica

10

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Tipos de Grfico
Problema de Investigacin Tipo de Grfico DIAGRAMA DE BARRAS Representacin Grfica

DIAGRAMA DE BARRAS APILADAS Descripcin y Comparacin de Categoras

DIAGRAMA DE REAS APILADAS

DIAGRAMA DE SECTORES

HISTOGRAMA S = b x h h = S/b

POLGONO DE FRECUENCIAS

Anlisis y Comparacin de Distribuciones

OJIVA

DIAGRAMA DE CAJAS

Anlisis Temporales

DIAGRAMA DE LNEAS

Distribucin conjunta de dos variables

DIAGRAMA DE DISPERSIN

11

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Elementos bsicos para la construccin de grficos


1. 2. 3. 4. 5. 6. 7. Fuente Ttulo y subttulos Ao o periodo Etiquetado de los Ejes Diferenciacin de las categoras Base (el 0 se debe representar si forma base de la escala) Discontinuidad en el Eje Vertical (si es necesario)

Escala del Grfico: Aritmtica Logartmica Grfico semilogartmico.

Teora y clculo de Probabilidades


Probabilidad a priori y frecuencia relativa

Suceso Elemental Unidad Muestral

P (S)

E = Espacio de Sucesos
Suceso Complementario

Conjunto de todos los sucesos posibles Espacio Muestral

Tcnicas de Conteo (Agrupaciones/Ordenaciones) Permutacin Variaciones

Combinaciones

12

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Tipos de Sucesos

o o

Simultneos son, o no, mutuamente excluyentes. Sucesivos/Secuenciales Observar si el anterior condiciona al posterior Elemental Compuesto unin interseccin

( ) / o [Simultneo] ( ) / y [Secuencial]

Regla de la Adiccin: Unin de Sucesos (simultneos)

Si son mutuamente excluyentes:

Sin tener en cuenta la mutua exclusin:

Regla de la Multiplicacin: Sucesos Condicionados o Interseccin de Sucesos (secuenciales)

Si estn condicionados

Si

no estn condicionados:

Regla de Laplace

La probabilidad de un suceso es igual a su cardinal entre el cardinal del espacio muestral en el que se inscribe.

13

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Propiedades bsicas de la Probabilidad


Suceso Seguro

Distribuciones Tericas de Probabilidad


Segn el tipo de variable, las distribuciones de probabilidad pueden ser: Discretas Continuas

Funcin de la Distribucin Normal

Cuando trabajamos con muestras distinguimos entre la distribucin de la muestra y la de la poblacin: Parmetros: = Media de la Poblacin Estadsticos: = Media de la Muestra = Desviacin Tpica de la Muestra

= Desviacin Tpica de la Poblacin


Parmetro: es el valor que toma la poblacin respecto a un indicador utilizado para resumir la informacin que nos interesa de dicha poblacin. Estadstico: es el valor que obtenemos a partir de una muestra y que representa al parmetro.

Valor Esperado

14

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribucin Real, Terica y Emprica


Distribucin Real Distribucin Terica distribucin de la Poblacin a investigar distribucin muestral (media de todas las muestras)
INTERMEDIA entre la Real (Poblacin) y la Emprica (Muestra)

Distribucin Emprica

distribucin de una muestra seleccionada

Una distribucin de probabilidad es una distribucin de frecuencias relativas de una variable que denominamos aleatoria, por estar asociada a un experimento de carcter aleatorio; no presenta resultados ciertos, slo podemos conocer la probabilidad de sus resultados posibles. En el campo de la investigacin social est asociada al muestreo: a la posibilidad de extraer de una poblacin una serie de individuos que presentan una determinada caracterstica. Igual que toda distribucin, la de probabilidad puede ser discreta o continua, segn sea el espacio muestral del experimento que la define, es decir, segn sea el conjunto de valores que puede tomar la variable: el conjunto de resultados posibles del experimento. En el campo de la investigacin social podemos trabajar con distribuciones empricas, viendo cmo se distribuyen los datos en una poblacin o en una muestra. Pero cuando trabajamos con una muestra lo que pretendemos es saber hasta qu punto la distribucin de una variable que obtenemos en la muestra se corresponde con la distribucin real de la variable en la poblacin. Para ello necesitamos hacer uso de una distribucin intermedia entre la de la muestra y la de la poblacin: la distribucin muestral, que es una distribucin terica. Al calcular el valor esperado en una muestra que hemos supuesto, al trabajar con variables numricas (no nominales), todas las medidas de todas las muestras posibles (de un determinado tamao), la distribucin de estas medias constituye la distribucin muestral, que no hay que confundir con la distribucin emprica de los datos de una muestra, ni con la distribucin real de los datos de la poblacin. Cuando realizamos el muestreo, automticamente las distribuciones de frecuencias relativas de los datos de una poblacin o de una muestra se convierten en una distribucin de probabilidad. Por tanto, hay que subrayar la diferencia entre la distribucin emprica (de los datos de la muestra o de la poblacin) y la distribucin terica que generan las medias de todas las muestras que podemos extraer de la poblacin investigada en el caso de variables de tipo cuantitativo. Las distribuciones tericas son referencia obligada para constrastar distribuciones empricas observadas en muestras y poder conocer la validez de los datos observados en stas, ya que nos indicarn hasta qu punto los datos se corresponden con los de la poblacin de donde extraemos las muestras.

15

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribucin Uniforme
Es la ms sencilla de las distribuciones de probabilidad: aquella en que la probabilidad se distribuye por igual en todos los casos o en todos los grupos de la poblacin. No existen probabilidades diferentes parea casos o grupos diferentes.
Distribucin Uniforme Discreta

Cuando contamos con

grupos y la probabilidad de cada grupo

es:

Funcin de Densidad

La funcin de densidad se aplica para calcular la probabilidad que toma un intervalo dentro de distribuciones continuas. Se utilizan reas para conocer la probabilidad de un intervalo de valores.

Distribucin Binomial

p probabilidad de xito q probabilidad de fracaso


Experimento Binomial

Para cada nmero de sucesos que fijemos (n) y para cada probabilidad de xito (p) en cada uno de estos sucesos tendremos una distribucin binomial distinta. Cada distribucin binomial es determinada por estos dos parmetros: n y p.
Forma General de la Distribucin Binomial

N de xitos (x) 0

Probabilidad p(x)

1 2 3 16
cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

X n-1 n

Esta distribucin se describe por los trminos del desarrollo del binomio de Newton Los coeficientes de cada trmino corresponden con una de las lneas del tringulo de Tartaglia o de Pascal.

Tringulo de Tartaglia (o de Pascal)

Para cada n (nmero de elementos de la muestra) y cada x (nmero de xitos de sta) obtenemos los coeficientes a partir del Tringulo de Tartaglia (o de Pascal). Cada lnea representa los coeficientes de una distribucin binomial, coeficientes que corresponden con estos nmeros combinatorios:

17

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Media de una distribucin binomial

Varianza de una distribucin binomial

Desviacin Estndar (o Tpica) de una distribucin binomial

Para muestras de variable nominal biniomializar / dicotomizar


Valor esperado en la Distribucin Binomial

Distribucin Normal
La distribucin normal es la distribucin terica ms usada en estadstica. Aparte de que mltiples conjuntos de datos pueden ajustarse a ella, es la clave de la estadstica inferencial. Toda distribucin muestral de medias se aproxima a la distribucin normal.
Funcin de la Distribucin Normal

Como y son dos constantes matemticas transcendentes ( ; ), , aparte del valor variable de , depende de la media de todos los valores y de su . Cada distribucin normal depende de estos dos parmetros desviacin tpica o estndar (su media y su desviacin tpica); fijados estos, se puede conocer el valor de la funcin para cada valor de .
Distribuciones normales con distintas desviaciones tpicas

18

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribuciones normales con distintas medias

Funcin de Densidad Normal

La funcin de densidad normal nos define la probabilidad de cualquier intervalo.

Distribucin Normal Estandarizada


Transformacin valores de x en unidades de Z

Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas. Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta distancia en unidades de desviacin tpica o estndar ( ). 19
cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Si una distribucin continua la convertimos en valores de decimos que la estandarizamos. Al estandarizarla, su media se convierte en 0 y desviacin tpica en 1. Las transformaciones que convierten unidades de a (y viceversa) permiten generalizar esto a todas las distribuciones normales, tengan la media y la desviacin tpica que tengan.
Funcin Normal Estandarizada Funcin de Densidad Estandarizada

Clculo de probabilidades en Distribuciones Normales

Aproximacin de la Distribucin Binomial a la Normal


Si no es una probabilidad extrema (prxima al 0 o al 1), entonces podemos sustituir la o . binomial por una normal cuando

20

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribucin t de Student
La distribucin de Stundent nos sirve para hacer inferencias sobre la media poblacional a partir de la media de la muestra cuando se desconoce la desviacin tpica de la poblacin. La distribucin de Student es una distribucin asociada a la normal. Se puede decir que es una distribucin normal corregida. En muchos manuales se sostiene de forma arbitraria que si entonces la distribucin normal puede sustituir a la distribucin de Student. Se puede dar este lmite por bueno.
Transformacin valores de x en unidades de t

Hay una distribucin t distinta para cada tamao muestral . En este caso se habla de los Grados de Libertad, que sern siempre , y que estn asociados a l clculo de la desviacin tpica de la muestra.
Grados de Libertad de la Distribucin t de Student:

Distribucin t de Student para varios grados de libertad ( )

Desviacin Tpica de la Distribucin t de Student

21

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Cuadro Resumen Medias y Varianzas de las diferentes distribuciones de probabilidad


Tipo de Distribucin Uniforme b = mximo a = mnimo Binominal = nmero de casos = probabilidad de xito Normal Normal Estndar de Student = grados de libertad Media Varianza

Las Muestras Estadsticas


Investigacin mediante Muestras. Condiciones: 1. Definir el Universo (Conjunto o Poblacin de referencia) 2. Fijar las condiciones para la Estimacin: Error Confianza Representatividad de la Muestra

3. Mtodo de Seleccin de la Muestra: a. Muestreo Aleatorio Estratificado Afijacin Uniforme Proporcional Neyman (proporcional a la Varianza)

Por Conglomerados b. Muestreo por Cuotas 4. Inferirencia de los resultados para el Universo.

22

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Parmetros y Estadsticos

Parmetro Constante Fija ( , ) Es el valor que toma la poblacin respecto a un indicador utilizado para resumir la informacin que nos interesa de dicha poblacin. Estadstico Constante Variable ( , , ) Es el valor que obtenemos a partir de una muestra y que representa al parmetro. Parmetro
Error y Sesgo

Estadstico

Con el estadstico vamos buscando el parmetro

Error Estadstico Es aquel que procede del hecho de utilizar observaciones muestrales, es decir, de no observar la totalidad de los datos. Este error puede ser conocido e incorporado en los resultados a travs de un intervalo.
Error Estadstico Error Tpico (Desviacin Tpica o Estndar)

Errores No Estadsticos Procede de defectos en los instrumentos de medida y de las condiciones en las que se establece la medida, as como de otro conjunto de errores en la transmisin de datos. Este tipo de errores se pueden (y deben) ser evitados. Entre los errores no estadsticos se encuentra el sesgo: Sesgo Desviacin sistemtica de nuestras observaciones respecto a lo que estamos midiendo. En investigacin mediante muestras el sesgo se produce al obtener muestra que no se adecan a la poblacin, es decir, por el desfase que existe entre la poblacin objetivo y la poblacin de la que obtenemos la muestra.
Muestreo Aleatorio. Uso de tres tipos de distribuciones distintas:

1. Distribucin de la Poblacin: el conjunto de todos los datos de la poblacin y a cuyos indicadores de resumen denominamos parmetros. Generalmente esta distribucin es desconocida, por ello recurrimos a muestras. 2. Distribucin de la Muestra: el conjunto de datos pertenecientes a la muestra seleccionada. Generalmente slo obtenemos una muestra de la poblacin. Sus indicadores de resumen se denominan estadsticos. 3. Distribucin Muestral: la distribucin de los estadsticos (las medias, por ejemplo) de todas las muestras posibles de tamao que proceden de una poblacin. Es una distribucin terica. No se desarrolla en forma de tabla porque se necesitara conocer todos los elementos de la poblacin, pero, aunque no se conozcan, se puede construir a travs de sus parmetros. 23
cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Error Estadstico

Es la medida de la distancia entre el valor del estadstico obtenido en la muestra y el valor del parmetro en la poblacin.
Nivel de Confianza

Es la probabilidad que existe de que esa distancia, o error estadstico, no sea mayor que la preestablecida. Si en una distribucin muestral se aumenta el valor de , la varianza de la distribucin disminuir y los resultados de las distintas muestras se concentrarn ms en el valor del parmetro. Por consiguiente, para un mismo nivel de error, el nivel de confianza mejora con tamaos muestrales mayores.

Los tres pilares de la Teora Muestral


1. TAMAO MUESTRAL: es el nmero de elementos que extraemos de una poblacin para su observacin y estudio. 2. ERROR ESTADSTICO: es la diferencia mxima (en valor absoluto) que admitimos entre el valor del estadstico y el del parmetro. 3. NIVEL DE CONFIANZA: es la probabilidad de que la muestra seleccionada no supere el error preestablecido. Estos tres trminos estn absolutamente relacionados y la variacin en uno produce variaciones en los otros dos. As, por ejemplo, si aumentamos el tamao muestral y mantenemos fijo el error, el nivel de confianza aumenta. Si aumentamos el error sin cambiar el tamao muestral, el nivel de confianza aumenta. Relaciones: Tamao Muestral Nivel de Confianza Error Estadstico Tamao Muestral Error Estadstico Nivel de Confianza directa inversa inversa

Error Tpico (o error estndar)

Es la medida de dispersin (varianza) de la distribucin muestral.


Error Estadstico Error Tpico (Desviacin Tpica o Estndar)

24

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Teorema del Lmite Central


La distribucin muestral de las medias de una poblacin grande con media tpica se aproxima, segn aumenta , a una distribucin normal con media tpica Con poblaciones grandes : y desviacin y desviacin

y:

Distribucin Normal en Z

Error Estadstico

Teorema Lmite Central

Relacin entre Error, Nivel de Confianza y Tamao de la Muestra

Clculo del Tamao Muestral

Clculo del Error Estadstico

Valores de Z para Niveles de Confianza ms usuales Nivel de Confianza 95% 95,45% 99% 99,7%

25

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Tamaos muestrales para distintos errores y niveles de confianza

Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 220.

Nomenclatura Distribuciones Poblacin/Muestra


Parmetro MEDIA Media: Varianza: Proporcin/Probabilidad PROPORCIN Complementario Complementario Estadstico Media: Varianza: Proporcin/Probabilidad

Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y de la Proporcin (Poblaciones Infinitas)
Media Parmetro Error Tpico Error Estndar La distribucin se considera como la Normal cuando: Tamao Muestral Proporcin*

*En el caso de la Proporcin, cuando desconocemos la varianza PQ, elegimos el caso ms . desfavorable, varianza mxima, cuando 26
cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Tamaos muestrales para el estadstico de la proporcin con distintos valores de . Nivel de Confianza 95,45%

Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 222.

Poblaciones
Poblaciones Finitas

En investigacin social casi siempre nos referimos a poblaciones finitas. Por tanto las formulas anteriores aplicadas a poblaciones finitas deben incorporar el factor de correccin para poblaciones finitas:
Factor de Correccin para Poblaciones Finitas

27

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Poblaciones Infinitas

Una poblacin infinita es un conjunto de elementos que no pueden definirse mediante ) es grande, se desprecia el factor enumeracin. Cuando la relacin entre y ( de correccin para poblaciones finitas: Cuando (En la prctica cuando )

Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y de la Proporcin (Poblaciones Finitas)
Media Parmetro Error Tpico Error Estndar La distribucin se considera como la Normal cuando: Tamao Muestral Proporcin*

Muestras Grandes y Pequeas


Muestras Grandes La distribucin muestral se a ajusta a la NORMAL La distribucin muestral se a ajusta a la de STUDENT

Muestras Pequeas

Regla de aproximacin a la Desviacin tpica cuando se desconoce la de la Poblacin

valores de la muestra o poblacin.

Diseo de Muestras
Marco

El registro fsico de los elementos de la poblacin se denomina marco. En algunos casos es un listado para seleccionar elementos de una poblacin. En la mayora de las ocasiones no pude obtenerse un marco completo y actualizado de la poblacin, o la elaboracin es costosa o presenta problemas de manipulado.

28

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Procedimiento de Muestreo
Dadas las dificultades de realizar muestras aleatorias simples, en las que todos los elementos de una poblacin tienen la misma probabilidad de ser seleccionados, se recurre a distintos sistemas de muestreo que tienen en cuenta lo que ya conocemos sobre la poblacin a investigar. Al incorporar informacin existente podremos realizar diseos muestrales ms eficientes, esto es, obtendremos la misma informacin con menor coste que si usramos mtodos aleatorios puros. Adems, al incorporar informacin existente, podremos mejorar la representatividad de la muestra.
Mtodo de Seleccin de la Muestra

a. Muestreo Aleatorio Estratificado Afijacin Uniforme Proporcional Neyman (proporcional a la Varianza)

Por Conglomerados b. Muestreo por Cuotas

Muestreo Estratificado
Estratos

Son subconjuntos o grupos del universo, de forma que todos los elementos pertenecen a uno de los grupos y slo a uno. Diseo Uniforme: deseamos conocer resultados para cada uno de los estratos. Diseo Proporcional: aprovechamos la ventaja de la estratificacin pare reducir el nmero de extracciones necesarias para la estimacin del conjunto. Afijacin: es el reparto de los elementos de la muestra entre los distintos estratos.

Para la aplicacin del diseo estratificado se necesita definir los diferentes estratos y disponer de informaciones que nos permitan estimar las varianzas en cada uno de ellos.

29

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Descomposicin esquemtica de una poblacin en estratos

Elementos del muestreo estratificado

Nmero de estratos Poblacin en el estrato Poblacin Proporcin de la poblacin en el estrato o peso del estrato Tamao de la muestra en el estrato Muestra Proporcin de la muestra en el estrato

Varianza de la Poblacin Estratificada

30

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Procedimientos de Afijacin

Nmero de entrevistas en el estrato una vez establecido el valor de Afijacin Uniforme Afijacin Proporcional al tamao
Se hace el mismo nmero de entrevistas en cada estrato. El nmero de entrevistas se reparte considerando el peso que tienen los estratos en la poblacin. Las entrevistas se distribuyen de forma que se concentran relativamente en los estratos de mayor varianza.

Afijacin de Neyman (proporcional a la varianza)

Ponderacin en diseos no proporcionales al tamao


Cuando se utilizan criterios de afijacin no porporcionales al tamao de la poblacin (por ejemplo el diseo estratificado uniforme), los resultados obtenidos para el conjunto total necesitan ser corregidos. Esto se realiza con la Ponderacin: el procedimiento de ajuste del peso que tienen los estratos en la muestra al peso que les corresponde en la poblacin. Ponderar las unidades muestrales equivale a darles el peso que, por el estrato al que pertenecen, les corresponde en la poblacin. Para ello se aplica en cada estrato un coeficiente de ponderacin que atribuye el peso correspondiente a cada estrato en el conjunto de la poblacin.

Coeficiente de Ponderacin

Los cuestionarios ponderados se representan con el signo :

31

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Muestreo por Conglomerados


El diseo estratificado mejora la aplicacin del muestreo respecto al muestreo aleatorio, pero no resuelve de forma efectiva la cuestin de la obtencin del marco. Si no tenemos un listado del universo, es difcil tener un listado para sus estratos. El diseo por conglomerados resuelve de forma prctica estas cuestiones y permite reducir los costes y tiempo de ejecucin. Los conglomerados son tambin subconjuntos de la poblacin. La diferencia es que mientras los estratos se construyen buscando homogeneidad entre sus elementos, en los conglomerados se definen los grupos buscando que los elementos en su interior sean lo ms diversos posibles. Una vez definidos los conglomerados, se hace una muestra de ellos y se investiga nicamente los que han sido seleccionados. De hecho, se trata de una tcnica de seleccin, no de unidades sino de grupos de unidades y en general se compone de varias etapas. Conglomerado Unidad Colectiva
Exposicin esquemtica del muestreo por conglomerados

32

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

En el diseo de conglomerados, los tamaos muestrales son mayores que en el muestreo aleatorio simple y el muestreo estratificado, debido a que los conglomerados tienen varianzas ms elevadas que el conjunto poblacional. En la prctica se utilizan mtodos de seleccin combinados. La poblacin se divide en estratos y dentro de los distintos estratos se realiza un diseo de conglomerados.

Muestreo por Cuotas


Aunque los diseos derivados del muestreo aleatorio (estratos y conglomerados) permiten la obtencin de datos representativos de la poblacin, as como la inferencia de los resultados obtenidos mediante muestras al conjunto del universo bajo criterios conocidos de error, resultan todava procedimientos costosos. En algunos casos, cuando la investigacin se refiere a opiniones, pueden emplearse otros procedimientos para obtener muestras representativas. La principal tcnica alternativa es el muestreo por cuotas. Se trata de, en vez de confiar al azar la seleccin de las unidades, desarrollar un procedimiento de seleccin que reproduzca con la mxima fidelidad posible la propia estructura de la poblacin. No obstante, para el muestreo por cuotas es necesario tener un conocimiento preciso sobre la poblacin, pues sera la nica forma vlida de reproducir una miniatura de la poblacin a estudiar. Gracias, por ejemplo, a los censos podemos conocer algunas variables como la edad, sexo y nivel de estudios. De forma conjunta, estas tres variables estn muy relacionadas con las opiniones polticas y con las actitudes. Siempre que tengamos un conocimiento amplio de la distribucin de variables que estn relacionadas con las caractersticas a investigar, podremos utilizar el muestreo por cuotas. La diferencia respecto al muestreo estratificado es que la localizacin de los entrevistados no sigue un procedimiento probabilstico, sino que se seleccionan los primeros elementos localizados que cumplan con las caractersticas a estudiar. Sin embargo este procedimiento tiene mayor riesgo de introducir sesgos, y deben aplicarse algunas normas para darle un mnimo carcter aleatorio: 1. Distribuir al mximo las entrevistas entre los encuestadores: a un mismo entrevistador se le asigna diferentes perfiles de entrevistados para que no pueda obtenerlos en un mismo lugar. 2. Utilizar el sistema de barrido cuotas: una vez asignadas las entrevistas, a cada entrevistador se le proporciona unas rutas que debe realizar buscando los perfiles a investigar.

Muestreo Mixto
En la prctica, en muchas encuestas sociolgicas y de opinin se utiliza un procedimiento mixto en la seleccin de la muestra. La primera fase del diseo muestral se realiza mediante tcnicas probabilsticas (seleccin de municipios dentro de estratos por tamao poblacional); y la fase final de seleccin del entrevistado se realiza mediante muestreo por cuotas. 33

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

La estimacin de las Varianzas


Media Estimador insesgado Estimador sesgado Estimador insesgado

Desviacin Tpica Cuasivarianza

Cuasivarianza Muestral

Sobre grados de libertad Para tamaos Varianza = Cuasivarianza

Cuasidesviacin Muestral

Sobre grados de libertad

Varianza Muestral a partir del estadstico de la Cuasivarianza

Error Tpico cuando estimamos la Varianza a travs de la propia muestra

Media

Proporcin

34

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Inferencia Estadstica
Estimacin de Medias y Proporciones

;
Error Estadstico

Errores e Intervalos para la Media y la Proporcin estimando la Varianza a partir de la muestra

Estadstico

Error Tpico (Poblaciones Infinitas)

Error Tpico (Poblaciones Finitas)

Intervalo

MEDIA

PROPORCIN

Notas Cuasidesviacin Frmulas para Poblaciones Finitas cuando Para Muestras Pequeas se usa de Student en vez de . y

En el caso de las Proporciones se usa la Varianza que nos proporciona la muestra no la poblacional .

Intervalos en el caso de Muestras Pequeas


Estimacin de Medias (muestras pequeas)

En la prctica si

se usa la distribucin de Student

La Varianza (Desviacin Tpica) hay que obtenerla a partir de la Cuasivarianza (Cuasidesviacin)

35

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Estimacin de Proporciones (muestras pequeas)

Dificultades para

o las proporciones son muy prximas a 0 o 1 o . Como alternativa se aplicara

No se usa la frmula del Error Tpico si el Intervalo de Wilson

Intervalo de Wilson

Diferencias de Estadsticos
En el campo de la investigacin social es frecuente el uso de estadsticos compuestos que resultan de la combinacin de estadsticos. Puede interesarnos conocer la diferencia de medias de los salarios de hombres y mujeres, o la razn entre dos cantidades que han sido obtenidas mediante una muestra: por ejemplo, si en una encuesta se ha preguntado por el nmero de horas trabajadas y el salario, podemos calcular la razn entre la media de horas trabajadas y el salario medio, de donde se obtendr un estadstico nuevos que ser el cociente entre dos estadsticos que ya disponamos en la muestra. Cuando producimos nuevos estadsticos a partir de las combinaciones de otros estadsticos tenemos dos situaciones diferentes: 1. Que las observaciones que comparamos procedan de muestras independientes, por ejemplo si queremos estimar la diferencia de salario medio entre hombres y mujeres. Al hablar de muestras independientes no nos referimos a dos encuestas diferentes, sino que las unidades muestrales no tienen relacin entre s. Para comparar los salarios de hombres y mujeres, los hombres y las mujeres pertenecen a la misma muestra, sin embargo son subconjuntos que no guardan relacin entre s, es decir, las observaciones sobre los salarios de los hombres no afectan a las observaciones de las mujeres. Por consiguiente, ambos conjuntos de datos se consideran muestras independientes. 2. Que sean muestras relacionadas entre s. Esta situacin tiene distintos orgines. En unos casos, sobre la misma unidad muestral tomamos medidas repetidas en el tiempo, como sucede en los estudios de panel (se realiza la misma pregunta a la misma persona en fechas diferentes y se comparan). En otros casos, sobre la misma unidad muestral medimos caractersticas o variables distintas pero que estn relacionadas entre s. Por ejemplo, se pregunta a una persona, por ejemplo, sobre su valoracin del presidente del gobierno y tambin del lder de la oposicin. Para calcular un estadstico de diferencia entre ambas valoraciones tenemos que tener en cuenta que existe relacin entre las repuestas. Seguramente quien valore alto al presidente del gobierno, lo haga bajo sobre el lder de la oposicin. 36
cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Situaciones de dependencia e independencia entre muestras

1. Muestras Independientes: aquellas en que las observaciones se realizan sobre unidades muestrales distintas (una sola variable para comparar distintos grupos de individuos). 2. Muestras Relacionadas: aquellas en que las observaciones (variables) se refieren a la misma unidad muestral (se comparan varias variables sobre un solo conjunto de individuos).
Determinacin del tipo de situacin de construccin de estadsticos compuestos

Una Variable Misma Unidad Muestral Distintas Unidades Muestrales Independiente

Dos Variables Dependiente

Diferencia de Medias en casos de muestras independientes Error Tpico Error Estadstico

Diferencia de Proporciones en casos de muestras independientes Error Tpico Error Estadstico

Diferencia de Estadsticos en casos de muestras relacionadas Error Tpico

: Desviacin Tpica de la variable generada como diferencia de medias.


Error Tpico a partir de la Cuasidesviacin

37

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Test de significacin
Un resultado estadstico es significativo cuando no se debe al azar. En estadstica, significante no se interpreta como en el lenguaje normal, no significa que el estadstico sea relevante o importante, ni siquiera que se considere verdadero. Un estadstico es significativo porque el investigador lo considera fiable. Los test de significacin son pruebas que se realizan para contrastar la informacin emprica con la terica. Para ello se fija un umbral de corte a partir del cual los valores obtenidos en la muestra emprica se consideran poco probables. Si el resultado obtenido est al lado del umbral de corte donde los resultados se consideran probables, decimos que est dentro de la zona de aceptacin de la hiptesis nula, pero si, por el contrario, el resultado cae del lado del umbral de corte donde se considera poco probable, decimos que entra dentro de la zona de rechazo de la hiptesis nula.

Hiptesis Nula

En estadsticas la hiptesis nula es la hiptesis de partida (tambin denominada puede hiptesis inicial) que considera las diferencias no significativas. La hiptesis nula ser rechazada o no rechazada, pero no podemos probarla, salvo que estudiemos todos los elementos de la poblacin y la mayora de las veces eso no es posible. Un resultado puede ser estadsticamente significativo aunque la diferencia sea muy pequea y pueda parecer que no tiene importancia; por esta razn en los tets de significacin se debe indicar el efecto de la talla estadstica, esto es, el tamao de la muestra. En muestras de tamao grande pequeas diferencias pueden ser consideradas a travs de los test como significativas.

38

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Pruebas de hiptesis

La evidencia que se necesita para aceptar que un acontecimiento se ha producido por azar es el nivel de significacin (n.s. / significante level en ingls) o el valor crtico . Si el valor es , es falsa o inusual. pequeo, entonces debe rechazarse la hiptesis nula Segn los trabajos de Neyman y Pearson, el planteamiento requiere tanto de la hiptesis nula como de una hiptesis alternativa , que deben ser definidas e investigadas mediante repeticin de procedimientos de muestreo; si no, se corre el riesgo de rechazar un resultado que cae fuera de la zona de aceptacin y, sin embargo, ser verdadero. Es el valor crtico el que nos da la probabilidad de equivocarnos al rechazar ese valor. Cuando se realizan pruebas de hiptesis existen dos tipos de errores que se pueden cometer: 1. Error de Tipo I: rechazar la hiptesis nula cuando es verdadera. 2. Error de Tipo II: aceptar la hiptesis nula cuando es falsa.
Tipos de error en los test de hiptesis

verdadera Aceptar Rechazar Correcto Error Tipo I

falsa Error Tipo II Correcto

Nivel de significacin del test o valor crtico

Es la probabilidad que se est dispuesto a aceptar de rechazar errneamente la hiptesis nula. Se trata de una probabilidad establecida. Habitualmente, como niveles de significacin se usan el 5% y el 1%. 39
cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

p valor

Es la probabilidad de obtener un resultado al menos tan extremo como el que realmente se ha obtenido en el experimento o en una muestra (valor del estadstico calculado), suponiendo est basado en que la hiptesis nula es cierta. Es fundamental tener en cuenta que el la aceptacin de la hiptesis de partida (o hiptesis nula). A su vez, es la probabilidad de equivocarnos al aceptar que las diferencias (entre valor emprico y valor terico) son significativas. Cuanto ms pequea sea esta probabilidad ms seguro se est de no equivocarse.

Dos tipos de test Test de una cola (Unilateral)

Cuando la hiptesis de partida se enuncia la direccin: que un valor es mayor que o menor que se realiza la prueba de una sola cola.

Test de dos colas (Bilateral)

Cuando la hiptesis de partida no hace ninguna especificacin.

40

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Procedimiento del test de significacin o pruebas de hiptesis

1. Establecer el valor crtico 2. Calcular el estadstico.

(el error que se est dispuesto a aceptar).

3. Comparar el estadstico (en valores de o de Student) con el umbral fijado (tambin en valores de o de Student) para el valor crtico . 4. Resultado: a. Si el estadstico es ms alto que el valor crtico, queda por tanto en la zona de rechazo de la hiptesis nula y la diferencia es significativa. La probabilidad de es pequea y el es menor que la relacin equivocarse al rechazar ] encontrada por azar. [ b. Si el estadstico es ms bajo que el valor crtico, al contrario, queda en la zona de aceptacin de la hiptesis nula y la diferencia no es significativ. La es muy alta y el es mayor que el valor probabilidad de rechazar crtico. [ ]
Valores de Z para los niveles de significacin (n.s.) 5% y 1%

Tipo de Test Test de una cola Unilateral Test de dos colas Bilateral

n.s. = 5%

n.s. = 1%

Contrastes de hiptesis (muestra vs poblacin de referencia)


Contraste para una media

Hiptesis de partida o nula Hiptesis alternativa Clculo del estadstico en valor de (Student)

Clculo del estadstico en valor de

41

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Contraste para una proporcin

Hiptesis de partida o nula Hiptesis alternativa Clculo en valor de

Comparaciones (muestra vs muestra)


Comparacin de medias

Comparacin de proporciones

Proporcin Conjunta

Anlisis de Varianza (ANOVA)


Procedimiento de clculo ANOVA

1. Suma de cuadrados total

= Sumatorio de los sumatorios de las observaciones. = Sumatorio de los sumatorios de los cuadrados de las observaciones. = Valor de la observacin en cada grupo .
42
cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

= Cantidad de observaciones en los grupos = Total de observaciones . 2. Suma de los cuadrados entre grupos

= Sumatorio de los sumatorios de las observaciones al cuadrado dividido por


el nmero de observaciones del grupo. = Sumatorio de los cuadrados de las observaciones dividido por el total de observaciones. 3. Suma de cuadrados dentro de los grupos

4. Grados de Libertad Grados de libertad total Grados de libertad entre grupos

Grados de libertad dentro de los grupos Tambin: 5. Estimacin de la varianza Varianza entre grupos Varianza dentro de los grupos

6. Contraste de la

(Estimador

de Snedecor)

43

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Distribucin

de Snedecor

La distribucin simtrica:

de Snedecor es una distribucin de probabilidad asociada a la normal no

Diseo aleatorizado con un factor

1. Suma de cuadrados total 2. Suma de cuadrados debida a los tratamientos (factores) 3. Suma de los cuadrados debida a los bloques 4. Clculo de la suma de cuadrados debida al error Varianza Factor Error Contraste de

Regresin y correlacin lineal


La regresin tiene por objeto definir una funcin matemtica que se ajuste lo mejor posible a los datos observados. Cuando se realiza sobre la relacin de dos variables mediante el ajuste de una lnea recta, hablamos de regresin lineal simple, y la manera ms habitual e idnea de representarla es sobre los diagramas de dispersin.
La Covarianza

En una distribucin bivariada contamos con una medida de dispersin que tiene en cuenta las dos variables a la vez. Para ello es necesario hacer uso de la Covarianza, que se obtiene del producto de las diferencias de e a sus medias. Covarianza

44

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Interpretacin de la Covarianza

El valor de la covarianza nos informa de la existencia (o no) de dependencia lineal entre las variables. Si no hay relacin lineal entre las dos variables, la covarianza ser igual a Si Si Si Si : No hay relacin lineal entre ambas variabes. : Hay relacin. Mayor cuanto mayor sea la covarianza la relacin de dependencia lineal es positiva. Para grandes valores de la relacin de dependencia lineal es negativa. Para grandes valores de se se

obtienen grandes valores de obtienen pequeos valores de .


Errores o residuos

Los errores o residuos son la diferencia entre los valores reales y los de la recta ajustada a los datos. Por cada valor de tenemos dos valores de , el de la ecuacin y el real observado. La suma de los residuos sirve para evaluar el ajuste final.

Ecuacin de la recta de regresin

45

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Frmulas de ajuste de la recta de regresin

Los parmetros de la recta de regresin se ajustan por el mtodo de los mnimos cuadrados. Covarianza Varianza de

Pendiente de la recta de regresin

-> La covarianza medida en unidades de la varianza de . Punto de corte de la recta con el eje de la variable dependiente

Una vez se han calculado los parmetros de la funcin de la recta de regresin lineal, la correlacin sirve para cuantificar la bondad del ajuste de la recta a la nube de puntos.
Coeficiente de correlacin de Pearson

;
Interpretacin del valor de

El valor de vara entre -1 y +1 Si : No hay correlacin. Las rectas de regresin son paralelas a los ejes.

Si : Hay correlacin positiva. Al aumentar una variable, al aumentar una variable la otra tambin aumenta. La recta de regresin tiene pendiente positiva. Si : Hay correlacin negativa. Al aumentar una variable, al aumentar una variable la otra disminuye. La recta de regresin tiene pendiente negativa. Si o : Todos los puntos estn contenidos en la recta de regresin.

Aunque el coeficiente de correlacin se alto, no significa necesariamente que el ajuste sea ptimo. Puede existir una relacin fuerte pero no lineal. Por ello, es imprescindible siempre con el grfico del diagrama de acompaar el clculo del coeficiente de correlacin dispersin, con el fin de comprobar que se cumple la relacin lineal entre las variables. El coeficiente de correlacin es simtrico. Tiene el mismo valor tanto si se trata de cuantificar con los mismos datos el ajuste de la recta de en como de la recta de en . 46

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Coeficiente de determinacin

Es el coeficiente de correlacin de Pearson al cuadrado . Expresa la reduccin proporcional del error que se comete al estimar los valores de la variable dependiente a partir de la recta de regresin. Se puede interpretar tambin como la probabilidad de la varianza total en una variable que es explicada por la otra variable en el modelo lineal. Al igual que , es simtrico y su valor es el mismo tanto si tomamos la variable independiente por la dependiente y viceversa.

Coeficiente de determinacin

: Diferencia entre los valores de

obtenidos de la ecuacin lineal y la media.

: Diferencia entre los valores observados y la media. Para cada observacin

: Residuo o diferencia entre el valor observado observado de no explicada por el modelo Residuo

y el estimado

. La parte del valor

Suma de cuadrados total

Slo una parte de la variacin de es explicada por el modelo, y el valor de parte de la variacin total supone la variacin explicada por la recta de regresin.

indica qu

El coeficiente de determinacin tambin puede obtenerse mediante el producto de las pendientes de las dos rectas de regresin:

47

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Tablas de contingencia
Las tablas de contingencia sirven para comparar grupos y observar cmo se distribuye una variable en el seno de otra variable. Para ver cmo se agrupa la poblacin simultneamente en dos variables, se realiza un cruce de variables y obtenemos una tabla de contingencia. 2
Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos

Actitud hacia los impuestos Bajar los impuestos y gastar menos en prestaciones Gastar ms en prestaciones aumentando los impuestos Ns/Nc. Total

Sin Estudios o Primarios Nivel de Estudios

571

441

275

1287

Secundarios

251

283

112

646

Superiores Total

151 973

293 1017

83 470

527 2460

Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

La distribucin total de las filas se denomina distribucin marginal de filas, y la distribucin total de columnas se denomina distribucin marginal de columnas. En la prctica se suele referirse a ellas como marginales, que son las distribuciones totales de cada una de las variables cruzadas. La distribucin conjunta de las variables se observa en las casillas centrales. La anterior tabla de contingencia se ha realizado con frecuencias absolutas, con lo que la informacin contenida en la tabla no se presenta fcil para el anlisis. Para una mejor comparacin de la distribucin entre las dos variables se hace necesario obtener la tabla con las frecuencias relativas (en porcentajes).
Anlisis Bivariable

La relacin entre dos variables se establece con el esquema explicativo: la distribucin de una variable es explicada por la distribucin de otra variable. En otras palabras, una variable es

Es importante destacar la diferencia entre variables de registro y variables de anlisis. Las variables de registro son las variables originales que se emplean para registra la informacin, que suelen presentarse con mucho detalle (asimiladas a trminos abstractos o administrativos de registro) y sirven como punto de partida para la investigacin. Las variables de anlisis son las variables construidas con pertinencia emprica y/o terica para el anlisis sociolgico.

48

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

determinada por otra. Por tanto, tenemos variable independiente y variable dependiente. Los cambios de la variable independiente explican los de la dependiente.

Desde el enfoque matemtico, cualquiera de las dos variables puestas en relacin puede ejercer indistintamente el papel de independiente como de dependiente. Pero desde el enfoque emprico, estos papeles se definen contrastando que una de las variables es antecedente (temporalmente) de la otra o presenta ms estabilidad temporal o se considera ms bsica; y esta ser la variable independiente. Podra darse el caso que dos variables en relacin terica no tengan ninguna relacin de dependencia, y por consiguiente ambas variables seran independientes.
Regla de Zeisel

Para el anlisis de la relacin de dos variables en una tabla de contingencia se calculan los porcentajes en la direccin de la variable independiente y se comparan en la direccin de la variable dependiente. Como regla general colocamos los datos de la variable independiente en las filas. Segn De Miguel (1997): La mejor disposicin es la de porcentajes horizontales porque el ojo humano compara mejor las relaciones de arriba abajo 3. Por tanto, conviene por sistema emplear esta regla en todos los casos, calcular los porcentajes en la direccin horizontal y comparar las relaciones entre ambas variables en la direccin vertical.
Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos

Actitud hacia los impuestos Bajar los impuestos y gastar menos en prestaciones Gastar ms en prestaciones aumentando los impuestos Ns/Nc. Total

Sin Estudios o Primarios Nivel de Estudios

44,4%

34,3%

21,4%

100,0%

Secundarios

38,9%

43,8%

17,3%

100,0%

Superiores Total

28,7% 39,6%

55,6% 41,3%

15,7% 19,1%

100,0% 100,0%

Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

De Migel, A. 1997. Manual del perfecto socilogo, Madrid, Espasa, p. 67.

49

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anlisis Trivariable (Tercera Variable. Variable de Control)

Con las tablas de contingencia de dos variables se parte del supuesto de que el resto de variables se mantienen constantes. Sin embargo, en la realidad esto no ocurre nunca. La experiencia emprica demuestra que mltiples variables afectan al comportamiento de otra; y muchas no se pueden controlar cuando no hay registro. Es posible que algunas no aparezcan cuando se est estudiando una encuesta estadstica; otras se tienen que construir a partir de las variables de registro. La introduccin de una tercera variable puede alterar las supuestas relaciones halladas en la tabla de contingencia de dos variables, de manera que la relacin bivariable anterior se desvanezca. A esta tercera variable la llamamos variable de control, y se introduce segmentando los datos del cruce de las dos variables anteriores en funcin de esta tercera variable.

Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos * Sexo Actitud hacia los impuestos Bajar los impuestos y gastar menos en Sexo Hombre Nivel de Estudios Sin Estudios o Primarios Secundarios Superiores Total Mujer Nivel de Estudios Sin Estudios o Primarios Secundarios Superiores Total 41,3% 29,5% 41,6% 43,3% 54,4% 37,6% 15,4% 16,1% 20,8% 100,0% 100,0% 100,0% 36,8% 27,5% 37,4% 47,4% 44,2% 57,2% 45,2% 27,1% 19,0% 15,3% 17,4% 25,5% 100,0% 100,0% 100,0% 100,0% Gastar ms en prestaciones aumentando Ns/Nc. 17,2% Total 100,0%

prestaciones los impuestos 41,3% 41,6%

Fuente: Barmetro CIS 2011. Estudio 2911. Tabla de elaboracin propia.

Paradoja de Simpson

Una asociacin entre dos variables desaparece o cambia de sentido cuando los datos son desagregados por grupos, esto es, cuando se controla el efecto de una tercera variable.

50

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

La variable de control que se introduce para observar el comportamiento en una relacin bivariable original afecta a sta si: 1. Se relaciona con la variable independiente o causal 2. Se relaciona con la variable dependiente o efecto 3. Cuando segmentamos la poblacin segn los gruos de la variable de control , se son de menor observa que las relaciones entre las variables originales intensidad que la que manifestaban antes de introducir la tercera variable. Pero tambin cabe la posibilidad de que la tercera variable afecte a las dos variables sin alterar la relacin original establecida por stas. En los modelos donde una tercera variable altera una determinada relacin entre dos variables, existen dos casos en la forma en que acta la tercera variable: 1. 2. Variable Antecedente: actua sobre y sobre . se interpone entre e , esto es, actua

Variable Interviniente (o mediadora): sobre y sta sobre .

como variable antecedente

como variable interviniente (o mediadora)

Todas las interacciones posibles se deben fundamentar en modelos de interaccin de pertinencia sociolgica. La interaccin entre tres variables se puede resumir en una tabla, pero la forma ms ptima de analizar las relaciones entre las tres variables es segmentando la poblacin entre los valores de una de las variables, la que se considere ms bsica o primordial. De esta manera se puede observar cmo se comporta las otras dos variables en cada una de las categoras (o valores) de la primera. En muchas ocasiones resulta interesante dualizar (o dicotomizar) las variables que se cruzan. La visibilidad de las confrontaciones duales facilita el anlisis.

51

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Ji-cuadrado
La prueba de Ji-cuadrado es un test que afecta a la distribucin de frecuencias de los diferentes grupos que componen una poblacin y que son generados por un cruce de variables. Con la prueba de Ji-cuadrado se pretende conocer en trminos probabilsticos si el conjunto de las frecuencias relativas (proporciones) de todos los grupos generados en una poblacin (por el cruce de variables) se distribuye forma a aleatoria (al azar), sin diferencias significativas (significacin estadstica) entre ellas (en conjunto). Igual que en todas las pruebas estadsticas, se contrasta la distribucin real de los datos (a partir de un estadstico) , en donde definimos un punto con una distribucin terica, en este caso, la Ji-cuadrado crtico a partir del cual las diferencias se consideran significativas entre las proporciones del conjunto de los grupos poblacionales (condensadas en el estadstico Ji-cuadrado). Por tanto, por un lado tenemos el estadsitco (Ji-cuadrado) asociado a una tabla de contingencia, y por otro, una distribucin terica de este estadstico. La prueba de Ji-cuadrado slo tiene sentido cuando se trabaja con datos muestrales extrados de forma aleatoria, esto es, en distribuciones (empricas) de probabilidad. Con la prueba de Ji-cuadrado la especificidad (emprica/terica) concreta de las categoras desaparece. Para Ji-cuadrado es irrelevante si la prueba la hacemos sobre variables de edad, nivel de estudios, definiciones ideolgicas, etc. Ji-cuadrado vale lo mismo para categoras sociolgicas, mdicas, criminolgicas, biolgicas, etc. Ji-cuadrado no distingue la especificidad de las categoras consideradas. Se trata de un ndice que resume toda la distribucin teniendo en cuenta slo el nmero de categoras y las frecuencias que se dan en stas.
Frecuencia terica (o esperada segn la lgica de Ji-cuadrado)

Se podra decir que las frecuencias esperadas en cada una de las casillas de una tabla de contingencia son aquellas que cabe esperar en el caso de que no exista relacin entre las variables, esto es, independencia estadstica o probabilstica entre las variables. Dos variables son independientes estadsticamente si la probabilidad de que nos aparezca una categora de una variable no depende de la distribucin de probabilidad de la otra variable.
Clculo de residuos

Los residuos son las diferencias entre las frecuencias observadas y las esperadas en cada celda. Los residuos son errores del muestreo aleatorio.
Residuo

52

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Para poder comparar las distancias entre las frecuencias observadas y las esperadas dentro de cada celda, se ha de estandarizar estas distancias.
Residuos Estandarizados

de cada celda

Coeficiente Ji-cuadrado

de toda la tabla (Ejemplo Tabla 2x2)

Tabla

para la frmula general del ndice

Frmula suma de frecuencias columna genrica

Frmula suma de frecuencias fila genrica

Sumatorio de todas las celdas

53

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Frecuencia esperada de una celda cualquiera

Coeficiente Ji-cuadrado

de la Tabla

Interpretacin de Ji-cuadrado

en tablas bivariables

Si Si

toma valores entre

ndice o Coeficiente de relacin.

: No hay relacin entre las variables.

de una tabla concreta no vale para comparar otras tablas distintas. Para ello existen . otros coeficientes de contingencia: V de Cramer, Coeficiente de contingencia o es un contraste de proporciones mltiples. La distribucin

La prueba o test de Ji-cuadrado

terica asociada a esta prueba es la distribucin . Se trata de una distribucin continua de probabilidad, una distribucin muestral de la varianza derivada de la distribucin normal. Al igual que la distribucin de Student, depende de un parmetro: grados de libertad. Por tanto, existe una distribucin distinta para cada nmero de grados de libertad. La media de la distribucin Ji-cuadrado es igual a sus grados de libertad, su varianza es dos veces sus . grados de libertad, y sus valores oscilan entre
Distintas distribuciones Ji-cuadrado para distintos grados de libertad (df)

La distribucin Ji-Cuadrado se va acercando a la distribucin normal a medida que aumentan sus grados de libertad.
Nmero de grados de libertad de una tabla bidimensional

54

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Prueba de la distribucin Ji-Cuadrado

con los correspondientes grados de libertad

Como todas las distribuciones de probabilidad, la distribucin Ji-Cuadrado describe un rea bajo la curva que es igual a 1, esto es, donde encontramos el 100% de los casos. Cualquier valor de deja a su izquierda un porcentaje de casos que asignaremos a la proporcin , y a su derecha el resto de casos que asignaremos a la proporcin . Entre 0 y un valor cualquiera de encontraremos el % de los casos. Y entre el valor e encontraremos el resto, %. Y sabemos que . el

El valor crtico y nivel de significacin de

La de la Tabla Ji-cuadrado, distribucin de (ver Anexo 5) nos indica el valor crtico de a partir del cual todo valor mayor entre en la zona de rechazo de la hiptesis nula , que considera las variables cruzadas en la tabla son independientes estadsticamente, es decir, no hay relacin entre ellas. Por tanto, la es el nivel de significacin que usamos para la prueba de la distribucin Ji-cuadrado .

55

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anexo 1: Tabla Z. Distribucin Normal Estndar

Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta

56

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anexo 2: Tabla t. Distribucin t de Student

Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta

57

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anexo 3: Tabla F. Distribucin F de Fisher (N.s. = 0,01)

Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta

58

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anexo 4: Tabla F. Distribucin F de Fisher (N.s. = 0,05)

Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta

59

cisolog.com

Frmulas y apuntes de Estadstica aplicada a las Ciencias Sociales

Rubn Crespo

Anexo 5: Tabla Ji-cuadrado. Distribucin de

Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta

60

cisolog.com

También podría gustarte