Documentos de Académico
Documentos de Profesional
Documentos de Cultura
sociolgica
www.cisolog.com
Mayo 2013
El contenido de este documento realizado por Rubn Crespo se encuentra bajo una Licencia Creative Commons: Atribucin-NoComercialSinDerivadas 3.0 Unported.
Rubn Crespo
cisolog@cisolog.com
NotaPrevia
Este documento no tiene ninguna finalidad pedaggica. Se trata de una compilacin de las principales frmulas estadsticas y apuntes tericos recogidos del los libros de Luis Camarero Rioja et al. 2010. Estadstica para la investigacin social. Ibergarceta; y Alejandro Almazn et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta, que constituye respectivamente los manuales bsicosdelasasignaturasEstadsticasocialaplicadaalascienciassocialesIyIIde losplanesdeestudiodeGradodeSociologaenlaUNED. La finalidad de este documento es ofrecer una herramienta de apoyo tanto para elprofesionalcomoparaelestudiantequehaasimiladolosconocimientosbsicos de estadstica aplicada a las ciencias sociales, de manera que cuando realice prcticas de investigacin social donde se requiere el uso de la estadstica, pueda disponer de un material de consulta que concentra las principales frmulas y elementos tericos tiles para resolver la mayora de los problemas que se le planteen. Por tanto, el contenido de este documento, al no disponer de explicaciones precisas y exposicin de ejemplos, no es conveniente para el aprendizaje de la estadstica enfocada a la investigacin social. Para ello se recomiendalalecturaycomprensin delcitadomanual.Si bien hayotrosmuchos manuales cuyo aprendizaje serviran para entender las formulas y apuntes tericos que se compilan aqu, en este documento los contenidos se han estructuradoenelmismoordenquelosmanualessealadosmsarriba. La mayora de las tablas y grficos son de elaboracin propia, excepto un par de ellosquesehanextradodelprimermanual,ascomolastablasdelosanexosque sepuedenencontraralfinaldeldocumento. RubnCrespo Mayo,2013
Rubn Crespo
ndice
TIPOLOGA DE LOS DATOS ..................................................................................................................... 6 TIPOS DE ESCALA DE LAS VARIABLES ..................................................................................................... 6 OTRA CLASIFICACIN DE LAS VARIABLES ............................................................................................... 6 DISTRIBUCIONES DE FRECUENCIAS ........................................................................................................ 7 FRECUENCIA RELATIVA, FRECUENCIA ACUMULADA .............................................................................................. 7 LMITES REALES PARA CREACIN DE CATEGORAS SEGN VARIABLES DE INTERVALO .......................... 7 TIPOS REPRESENTACIN GRFICA DISTRIBUCIN DE FRECUENCIAS SEGN APUNTAMIENTOS ......... 7 MEDIDAS DE TENDENCIA CENTRAL ........................................................................................................ 7 MEDIA ARITMTICA, MEDIA ARITMTICA DATOS AGRUPADOS ............................................................................... 7 MARCA DE CLASE.. ................................................ 7 MEDIA ESTADSTICA PONDERADA ..................................................................................................................... 7 CLCULO DE LAS MARCAS DE CLASE ................................................................................................................. 8 MEDIANA .................................................................................................................................................... 8 CUARTILES ................................................................................................................................................... 8 DECILES....................................................................................................................................................... 8 CENTILES ..................................................................................................................................................... 8 MODA ........................................................................................................................................................ 8 CLCULO DE PERCENTILES............................................................................................................................... 8 RANGO INTERCUNTICO, RANGO SEMI-INTERCUANTLICO: ................................................................................... 8 MEDIDAS DE DISPERSIN ...................................................................................................................... 9 VARIANZA.................................................................................................................................................... 9 DESVIACIN ESTNDAR (O TPICA) ................................................................................................................... 9 VARIANZA PARA DATOS AGRUPADOS ................................................................................................................. 9 DESVIACIN ESTNDAR (O TPICA) PARA DATOS AGRUPADOS ................................................................................ 9 COEFICIENTE DE VARIACIN (PARA COMPARAR EL GRADO DE DISPERSIN ENTRE VARIAS DISTRIBUCIONES) ...................... 9 MEDIDAS DE LOCALIZACIN RELATIVA .................................................................................................. 9 VALORES DE Z .............................................................................................................................................. 9 EL TEOREMA DE CHEBYSHEV ......................................................................................................................... 10 OTRAS FORMAS DE CALCULAR LA MEDIA ............................................................................................ 10 MEDIA ARMNICA, MEDIA CUADRTICA ........................................................................................................ 10 MEDIA GEOMTRICA ................................................................................................................................... 10 TIPOS DE GRFICO ............................................................................................................................... 11 ELEMENTOS BSICOS PARA LA CONSTRUCCIN DE GRFICOS ............................................................ 12 TEORA Y CLCULO DE PROBABILIDADES ............................................................................................. 12
cisolog.com
Rubn Crespo
PROBABILIDAD A PRIORI Y FRECUENCIA RELATIVA ............................................................................................... 12 SUCESO COMPLEMENTARIO .......................................................................................................................... 12 TCNICAS DE CONTEO (AGRUPACIONES/ORDENACIONES) ................................................................................... 12 PERMUTACIN, VARIACIONES ....................................................................................................................... 12 COMBINACIONES ........................................................................................................................................ 12 TIPOS DE SUCESOS ...................................................................................................................................... 13 REGLA DE LA ADICCIN: UNIN DE SUCESOS (SIMULTNEOS) .............................................................................. 13 REGLA DE LA MULTIPLICACIN: SUCESOS CONDICIONADOS O INTERSECCIN DE SUCESOS (SECUENCIALES) ................... 13 REGLA DE LAPLACE ...................................................................................................................................... 13 PROPIEDADES BSICAS DE LA PROBABILIDAD ..................................................................................... 14 DISTRIBUCIONES TERICAS DE PROBABILIDAD.................................................................................... 14 FUNCIN DE LA DISTRIBUCIN NORMAL .......................................................................................................... 14 VALOR ESPERADO ....................................................................................................................................... 14 DISTRIBUCIN REAL, TERICA Y EMPRICA .......................................................................................... 15 DISTRIBUCIN UNIFORME ................................................................................................................... 16 DISTRIBUCIN UNIFORME DISCRETA ............................................................................................................... 16 FUNCIN DE DENSIDAD ................................................................................................................................ 16 DISTRIBUCIN BINOMIAL .................................................................................................................... 16 EXPERIMENTO BINOMIAL.............................................................................................................................. 16 FORMA GENERAL DE LA DISTRIBUCIN BINOMIAL ............................................................................................. 16 TRINGULO DE TARTAGLIA (O DE PASCAL) ....................................................................................................... 17 VALOR ESPERADO EN LA DISTRIBUCIN BINOMIAL ............................................................................................. 18 DISTRIBUCIN NORMAL ...................................................................................................................... 18 FUNCIN DE LA DISTRIBUCIN NORMAL .......................................................................................................... 18 DISTRIBUCIONES NORMALES CON DISTINTAS DESVIACIONES TPICAS ....................................................................... 18 DISTRIBUCIONES NORMALES CON DISTINTAS MEDIAS .......................................................................................... 19 MEDIA DE UNA DISTRIBUCIN BINOMIAL.......................................................................................................... 18 VARIANZA DE UNA DISTRIBUCIN BINOMIAL ..................................................................................................... 18 DESVIACIN ESTNDAR (O TPICA) DE UNA DISTRIBUCIN BINOMIAL ..................................................................... 18 FUNCIN DE DENSIDAD NORMAL ................................................................................................................... 19 DISTRIBUCIN NORMAL ESTANDARIZADA .......................................................................................... 19 TRANSFORMACIN VALORES DE X EN UNIDADES DE Z ......................................................................................... 19 FUNCIN NORMAL ESTANDARIZADA, FUNCIN DE DENSIDAD ESTANDARIZADA ...................................................... 20 CLCULO DE PROBABILIDADES EN DISTRIBUCIONES NORMALES ......................................................... 20 APROXIMACIN DE LA DISTRIBUCIN BINOMIAL A LA NORMAL ........................................................ 20 DISTRIBUCIN T DE STUDENT ............................................................................................................. 21 TRANSFORMACIN VALORES DE X EN UNIDADES DE T.......................................................................................... 21 GRADOS DE LIBERTAD DE LA DISTRIBUCIN T DE STUDENT: ................................................................................. 21 DISTRIBUCIN T DE STUDENT PARA VARIOS GRADOS DE LIBERTAD ( ) .................................................................... 21 DESVIACIN TPICA DE LA DISTRIBUCIN T DE STUDENT ...................................................................................... 21 CUADRO RESUMEN MEDIAS Y VARIANZAS DE LAS DIFERENTES DISTRIBUCIONES DE PROBABILIDAD . 22 LAS MUESTRAS ESTADSTICAS ............................................................................................................. 22
cisolog.com
Rubn Crespo
PARMETROS Y ESTADSTICOS ....................................................................................................................... 23 ERROR Y SESGO .......................................................................................................................................... 23 MUESTREO ALEATORIO. USO DE TRES TIPOS DE DISTRIBUCIONES DISTINTAS: ........................................................... 23 ERROR ESTADSTICO .................................................................................................................................... 24 NIVEL DE CONFIANZA................................................................................................................................... 24 LOS TRES PILARES DE LA TEORA MUESTRAL ........................................................................................ 24 ERROR TPICO (O ERROR ESTNDAR) ............................................................................................................... 24 TEOREMA DEL LMITE CENTRAL ........................................................................................................... 25 DISTRIBUCIN NORMAL EN Z ERROR ESTADSTICO TEOREMA LMITE CENTRAL .................................................... 25 RELACIN ENTRE ERROR, NIVEL DE CONFIANZA ................................................................................................ 25 Y TAMAO DE LA MUESTRA .......................................................................................................................... 25 CLCULO DEL TAMAO MUESTRAL, CLCULO DEL ERROR ESTADSTICO ................................................................. 25 VALORES DE Z PARA NIVELES DE CONFIANZA MS USUALES ............................................................... 25 NOMENCLATURA DISTRIBUCIONES POBLACIN/MUESTRA ................................................................. 26 ERRORES TPICOS Y FRMULAS DEL TAMAOS MUESTRAL PARA LOS ESTADSTICOS DE LA MEDIA Y DE LA PROPORCIN (POBLACIONES INFINITAS) ........................................................................................ 26 POBLACIONES ...................................................................................................................................... 27 POBLACIONES FINITAS.................................................................................................................................. 27 FACTOR DE CORRECCIN PARA POBLACIONES FINITAS ........................................................................................ 27 POBLACIONES INFINITAS ............................................................................................................................... 28 ERRORES TPICOS Y FRMULAS DEL TAMAOS MUESTRAL PARA LOS ESTADSTICOS DE LA MEDIA Y DE LA PROPORCIN (POBLACIONES FINITAS) ........................................................................................... 28 MUESTRAS GRANDES Y PEQUEAS...................................................................................................... 28 MUESTRAS GRANDES.. ................................................................................................................ 28 MUESTRAS PEQUEAS ................................................................................................................... 28 REGLA DE APROXIMACIN A LA DESVIACIN TPICA CUANDO SE DESCONOCE LA DE LA POBLACIN . 28 DISEO DE MUESTRAS ......................................................................................................................... 28 MARCO..................................................................................................................................................... 28 PROCEDIMIENTO DE MUESTREO ......................................................................................................... 29 MTODO DE SELECCIN DE LA MUESTRA ......................................................................................................... 29 MUESTREO ESTRATIFICADO ................................................................................................................. 29 ESTRATOS .................................................................................................................................................. 29 DESCOMPOSICIN ESQUEMTICA DE UNA POBLACIN EN ESTRATOS ...................................................................... 30 ELEMENTOS DEL MUESTREO ESTRATIFICADO ..................................................................................................... 30 VARIANZA DE LA POBLACIN ESTRATIFICADA .................................................................................................... 30 PROCEDIMIENTOS DE AFIJACIN .................................................................................................................... 31 PONDERACIN EN DISEOS NO PROPORCIONALES AL TAMAO ........................................................ 31 COEFICIENTE DE PONDERACIN ..................................................................................................................... 31 MUESTREO POR CONGLOMERADOS .................................................................................................... 32 EXPOSICIN ESQUEMTICA DEL MUESTREO POR CONGLOMERADOS ....................................................................... 32
cisolog.com
Rubn Crespo
MUESTREO POR CUOTAS ..................................................................................................................... 33 MUESTREO MIXTO ............................................................................................................................... 33 LA ESTIMACIN DE LAS VARIANZAS .................................................................................................... 34 CUASIVARIANZA MUESTRAL .......................................................................................................................... 34 CUASIDESVIACIN MUESTRAL ....................................................................................................................... 34 VARIANZA MUESTRAL A PARTIR ..................................................................................................................... 34 DEL ESTADSTICO DE LA CUASIVARIANZA ........................................................................................................... 34 ERROR TPICO CUANDO ESTIMAMOS LA VARIANZA A TRAVS DE LA PROPIA MUESTRA ............................................... 34 INFERENCIA ESTADSTICA .................................................................................................................... 35 ESTIMACIN DE MEDIAS Y PROPORCIONES....................................................................................................... 35 ERROR ESTADSTICO .................................................................................................................................... 35 ERRORES E INTERVALOS PARA LA MEDIA Y LA PROPORCIN ESTIMANDO LA VARIANZA A PARTIR DE LA MUESTRA............ 35 INTERVALOS EN EL CASO DE MUESTRAS PEQUEAS ............................................................................ 35 ESTIMACIN DE MEDIAS (MUESTRAS PEQUEAS) .............................................................................................. 35 ESTIMACIN DE PROPORCIONES (MUESTRAS PEQUEAS) .................................................................................... 36 INTERVALO DE WILSON ................................................................................................................................ 36 DIFERENCIAS DE ESTADSTICOS............................................................................................................ 36 SITUACIONES DE DEPENDENCIA E INDEPENDENCIA ENTRE MUESTRAS ..................................................................... 37 DETERMINACIN DEL TIPO DE SITUACIN DE CONSTRUCCIN DE ESTADSTICOS COMPUESTOS ..................................... 37 DIFERENCIA DE MEDIAS EN CASOS DE MUESTRAS INDEPENDIENTES ....................................................................... 37 ERROR TPICO, ERROR ESTADSTICO ............................................................................................................... 37 DIFERENCIA DE PROPORCIONES EN CASOS DE MUESTRAS INDEPENDIENTES ............................................................. 37 ERROR TPICO, ERROR ESTADSTICO ............................................................................................................... 37 DIFERENCIA DE ESTADSTICOS EN CASOS DE MUESTRAS RELACIONADAS .................................................................. 37 ERROR TPICO ............................................................................................................................................ 37 ERROR TPICO A PARTIR DE LA CUASIDESVIACIN ............................................................................................... 37 TEST DE SIGNIFICACIN ....................................................................................................................... 38 HIPTESIS NULA ............................................................................................................................... 38 PRUEBAS DE HIPTESIS ................................................................................................................................. 39 TIPOS DE ERROR EN LOS TEST DE HIPTESIS....................................................................................................... 39 NIVEL DE SIGNIFICACIN DEL TEST O VALOR CRTICO ...................................................................................... 39 P VALOR .................................................................................................................................................... 40 DOS TIPOS DE TEST ...................................................................................................................................... 40 TEST DE UNA COLA (UNILATERAL)................................................................................................................... 40 TEST DE DOS COLAS (BILATERAL) .................................................................................................................... 40 PROCEDIMIENTO DEL TEST DE SIGNIFICACIN O PRUEBAS DE HIPTESIS .................................................................. 41 VALORES DE Z PARA LOS NIVELES DE SIGNIFICACIN (N.S.) 5% Y 1% ..................................................................... 41 CONTRASTES DE HIPTESIS (MUESTRA VS POBLACIN DE REFERENCIA) ............................................. 41 CONTRASTE PARA UNA MEDIA ....................................................................................................................... 41 CONTRASTE PARA UNA PROPORCIN ............................................................................................................... 42 COMPARACIONES (MUESTRA VS MUESTRA)........................................................................................ 42 COMPARACIN DE MEDIAS............................................................................................................................ 42 COMPARACIN DE PROPORCIONES ................................................................................................................. 42
cisolog.com
Rubn Crespo
ANLISIS DE VARIANZA (ANOVA) ........................................................................................................ 42 PROCEDIMIENTO DE CLCULO ANOVA ........................................................................................................... 42 DISTRIBUCIN DE SNEDECOR...................................................................................................................... 44 DISEO ALEATORIZADO CON UN FACTOR .......................................................................................................... 44 REGRESIN Y CORRELACIN LINEAL .................................................................................................... 44 LA COVARIANZA.......................................................................................................................................... 44 INTERPRETACIN DE LA COVARIANZA .............................................................................................................. 45 ERRORES O RESIDUOS................................................................................................................................... 45 ECUACIN DE LA RECTA DE REGRESIN ............................................................................................................ 45 FRMULAS DE AJUSTE DE LA RECTA DE REGRESIN ............................................................................................. 46 COEFICIENTE DE CORRELACIN DE PEARSON .................................................................................................. 46 INTERPRETACIN DEL VALOR DE .................................................................................................................. 46 COEFICIENTE DE DETERMINACIN ............................................................................................................. 47 TABLAS DE CONTINGENCIA .................................................................................................................. 48 ANLISIS BIVARIABLE ................................................................................................................................... 48 REGLA DE ZEISEL ......................................................................................................................................... 49 ANLISIS TRIVARIABLE (TERCERA VARIABLE. VARIABLE DE CONTROL) .................................................................... 50 PARADOJA DE SIMPSON................................................................................................................................ 50 COMO VARIABLE ANTECEDENTE................................................................................................................... 51 COMO VARIABLE INTERVINIENTE .................................................................................................................. 51 JI-CUADRADO .............................................................................................................................. 52
FRECUENCIA TERICA (O ESPERADA SEGN LA LGICA DE JI-CUADRADO)................................................................ 52 CLCULO DE RESIDUOS ................................................................................................................................. 52 RESIDUO ................................................................................................................................................... 52 RESIDUOS ESTANDARIZADOS ......................................................................................................................... 53 JI-CUADRADO DE CADA CELDA ........................................................................................................................ 53 COEFICIENTE JI-CUADRADO DE TODA LA TABLA (EJEMPLO TABLA 2X2)................................................................... 53 TABLA PARA LA FRMULA GENERAL DEL NDICE ............................................................................... 53 FRMULA SUMA DE FRECUENCIAS COLUMNA GENRICA ................................................................................ 53 FRMULA SUMA DE FRECUENCIAS FILA GENRICA ........................................................................................ 53 SUMATORIO DE TODAS LAS CELDAS ................................................................................................................. 53 FRECUENCIA ESPERADA DE UNA CELDA CUALQUIERA .................................................................................. 54 COEFICIENTE JI-CUADRADO DE LA TABLA.................................................................................................... 54 INTERPRETACIN DE JI-CUADRADO EN TABLAS BIVARIABLES............................................................................. 54 DISTINTAS DISTRIBUCIONES JI-CUADRADO PARA DISTINTOS GRADOS DE LIBERTAD (DF) ............................................. 54 NMERO DE GRADOS DE LIBERTAD DE UNA TABLA BIDIMENSIONAL ........................................................... 54 PRUEBA DE LA DISTRIBUCIN JI-CUADRADO CON LOS CORRESPONDIENTES GRADOS DE LIBERTAD ........................... 55 EL VALOR CRTICO Y NIVEL DE SIGNIFICACIN DE ........................................................................................... 55 ANEXO 1: TABLA Z. DISTRIBUCIN NORMAL ESTNDAR ..................................................................... 56 ANEXO 2: TABLA T. DISTRIBUCIN T DE STUDENT .............................................................................. 57 ANEXO 3: TABLA F. DISTRIBUCIN F DE FISHER (N.S. = 0,01)............................................................... 58 ANEXO 4: TABLA F. DISTRIBUCIN F DE FISHER (N.S. = 0,05)............................................................... 59 ANEXO 5: TABLA JI-CUADRADO. DISTRIBUCIN DE ........................................................................ 60
cisolog.com
Rubn Crespo
REGISTROS
Actualizacin frecuente.
ENCUESTAS
Costes menores. Informacin instantnea. Pueden incluir mayor nmero de variables. Mayor posibilidad de verificacin de los datos.
Ejemplos Lugar de nacimiento, sexo, estado civil, lugar de residencia, etc. Nivel de estudios, grado de satisfaccin, jerarqua de mando, etc. Tamao del hogar, fecha, temperatura, etc. Nmero de hijos, renta familiar, peso, distancia, etc.
Clasifica Clasifica y ordena Clasifica, ordena y posee unidad de medida Clasifica, ordena, posee unidad de medida, y origen = 0 absoluto
0 es la ausencia de caracterstica
ORDINAL
(N-2)
INTERVALO
(N-3)
RAZN
(N-4)
cisolog.com
Rubn Crespo
Frecuencia Relativa
Frecuencia Acumulada
Marca de clase
Media estadstica Ponderada
cisolog.com
Rubn Crespo
Mediana
Ci = Lsup Linf
Centiles
Moda
Clculo de Percentiles
Rango Intercuntico:
1
Rango Semi-Intercuantlico:
Ejemplo: si para la variable edad de una muestra quisiramos agregar los datos en diferentes grupos de edades, en el caso del grupo de 25 a 29 aos el lmite inferior es 25, y el lmite superior es 30 [25 30[. Por tanto, la marca de clase para ese grupo de edad es 27,5 aos.
cisolog.com
Rubn Crespo
Medidas de Dispersin
Varianza
Frmula Alternativa
Desviacin Estndar (o Tpica)
Frmula Alternativa
Varianza para datos agrupados
Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas. Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta distancia en unidades de desviacin tpica o estndar ( ).
cisolog.com
Rubn Crespo
El Teorema de Chebyshev
*Porcentaje de casos (%) independientemente de que la distribucin sea normal o no. Para cualquier otro valor se calcula:
Media Geomtrica
10
cisolog.com
Rubn Crespo
Tipos de Grfico
Problema de Investigacin Tipo de Grfico DIAGRAMA DE BARRAS Representacin Grfica
DIAGRAMA DE SECTORES
HISTOGRAMA S = b x h h = S/b
POLGONO DE FRECUENCIAS
OJIVA
DIAGRAMA DE CAJAS
Anlisis Temporales
DIAGRAMA DE LNEAS
DIAGRAMA DE DISPERSIN
11
cisolog.com
Rubn Crespo
P (S)
E = Espacio de Sucesos
Suceso Complementario
Combinaciones
12
cisolog.com
Rubn Crespo
Tipos de Sucesos
o o
Simultneos son, o no, mutuamente excluyentes. Sucesivos/Secuenciales Observar si el anterior condiciona al posterior Elemental Compuesto unin interseccin
( ) / o [Simultneo] ( ) / y [Secuencial]
Si estn condicionados
Si
no estn condicionados:
Regla de Laplace
La probabilidad de un suceso es igual a su cardinal entre el cardinal del espacio muestral en el que se inscribe.
13
cisolog.com
Rubn Crespo
Cuando trabajamos con muestras distinguimos entre la distribucin de la muestra y la de la poblacin: Parmetros: = Media de la Poblacin Estadsticos: = Media de la Muestra = Desviacin Tpica de la Muestra
Parmetro: es el valor que toma la poblacin respecto a un indicador utilizado para resumir la informacin que nos interesa de dicha poblacin. Estadstico: es el valor que obtenemos a partir de una muestra y que representa al parmetro.
Valor Esperado
14
cisolog.com
Rubn Crespo
Distribucin Emprica
Una distribucin de probabilidad es una distribucin de frecuencias relativas de una variable que denominamos aleatoria, por estar asociada a un experimento de carcter aleatorio; no presenta resultados ciertos, slo podemos conocer la probabilidad de sus resultados posibles. En el campo de la investigacin social est asociada al muestreo: a la posibilidad de extraer de una poblacin una serie de individuos que presentan una determinada caracterstica. Igual que toda distribucin, la de probabilidad puede ser discreta o continua, segn sea el espacio muestral del experimento que la define, es decir, segn sea el conjunto de valores que puede tomar la variable: el conjunto de resultados posibles del experimento. En el campo de la investigacin social podemos trabajar con distribuciones empricas, viendo cmo se distribuyen los datos en una poblacin o en una muestra. Pero cuando trabajamos con una muestra lo que pretendemos es saber hasta qu punto la distribucin de una variable que obtenemos en la muestra se corresponde con la distribucin real de la variable en la poblacin. Para ello necesitamos hacer uso de una distribucin intermedia entre la de la muestra y la de la poblacin: la distribucin muestral, que es una distribucin terica. Al calcular el valor esperado en una muestra que hemos supuesto, al trabajar con variables numricas (no nominales), todas las medidas de todas las muestras posibles (de un determinado tamao), la distribucin de estas medias constituye la distribucin muestral, que no hay que confundir con la distribucin emprica de los datos de una muestra, ni con la distribucin real de los datos de la poblacin. Cuando realizamos el muestreo, automticamente las distribuciones de frecuencias relativas de los datos de una poblacin o de una muestra se convierten en una distribucin de probabilidad. Por tanto, hay que subrayar la diferencia entre la distribucin emprica (de los datos de la muestra o de la poblacin) y la distribucin terica que generan las medias de todas las muestras que podemos extraer de la poblacin investigada en el caso de variables de tipo cuantitativo. Las distribuciones tericas son referencia obligada para constrastar distribuciones empricas observadas en muestras y poder conocer la validez de los datos observados en stas, ya que nos indicarn hasta qu punto los datos se corresponden con los de la poblacin de donde extraemos las muestras.
15
cisolog.com
Rubn Crespo
Distribucin Uniforme
Es la ms sencilla de las distribuciones de probabilidad: aquella en que la probabilidad se distribuye por igual en todos los casos o en todos los grupos de la poblacin. No existen probabilidades diferentes parea casos o grupos diferentes.
Distribucin Uniforme Discreta
es:
Funcin de Densidad
La funcin de densidad se aplica para calcular la probabilidad que toma un intervalo dentro de distribuciones continuas. Se utilizan reas para conocer la probabilidad de un intervalo de valores.
Distribucin Binomial
Para cada nmero de sucesos que fijemos (n) y para cada probabilidad de xito (p) en cada uno de estos sucesos tendremos una distribucin binomial distinta. Cada distribucin binomial es determinada por estos dos parmetros: n y p.
Forma General de la Distribucin Binomial
N de xitos (x) 0
Probabilidad p(x)
1 2 3 16
cisolog.com
Rubn Crespo
X n-1 n
Esta distribucin se describe por los trminos del desarrollo del binomio de Newton Los coeficientes de cada trmino corresponden con una de las lneas del tringulo de Tartaglia o de Pascal.
Para cada n (nmero de elementos de la muestra) y cada x (nmero de xitos de sta) obtenemos los coeficientes a partir del Tringulo de Tartaglia (o de Pascal). Cada lnea representa los coeficientes de una distribucin binomial, coeficientes que corresponden con estos nmeros combinatorios:
17
cisolog.com
Rubn Crespo
Distribucin Normal
La distribucin normal es la distribucin terica ms usada en estadstica. Aparte de que mltiples conjuntos de datos pueden ajustarse a ella, es la clave de la estadstica inferencial. Toda distribucin muestral de medias se aproxima a la distribucin normal.
Funcin de la Distribucin Normal
Como y son dos constantes matemticas transcendentes ( ; ), , aparte del valor variable de , depende de la media de todos los valores y de su . Cada distribucin normal depende de estos dos parmetros desviacin tpica o estndar (su media y su desviacin tpica); fijados estos, se puede conocer el valor de la funcin para cada valor de .
Distribuciones normales con distintas desviaciones tpicas
18
cisolog.com
Rubn Crespo
Los valores de los utilizamos para localizar de manera relativa cada valor en la distribucin en la que se encuentra, permitiendo la comparacin entre valores de distribuciones distintas. Se establece en cada distribucin la distancia de cualquier valor a la media ( ) y se mide esta distancia en unidades de desviacin tpica o estndar ( ). 19
cisolog.com
Rubn Crespo
Si una distribucin continua la convertimos en valores de decimos que la estandarizamos. Al estandarizarla, su media se convierte en 0 y desviacin tpica en 1. Las transformaciones que convierten unidades de a (y viceversa) permiten generalizar esto a todas las distribuciones normales, tengan la media y la desviacin tpica que tengan.
Funcin Normal Estandarizada Funcin de Densidad Estandarizada
20
cisolog.com
Rubn Crespo
Distribucin t de Student
La distribucin de Stundent nos sirve para hacer inferencias sobre la media poblacional a partir de la media de la muestra cuando se desconoce la desviacin tpica de la poblacin. La distribucin de Student es una distribucin asociada a la normal. Se puede decir que es una distribucin normal corregida. En muchos manuales se sostiene de forma arbitraria que si entonces la distribucin normal puede sustituir a la distribucin de Student. Se puede dar este lmite por bueno.
Transformacin valores de x en unidades de t
Hay una distribucin t distinta para cada tamao muestral . En este caso se habla de los Grados de Libertad, que sern siempre , y que estn asociados a l clculo de la desviacin tpica de la muestra.
Grados de Libertad de la Distribucin t de Student:
21
cisolog.com
Rubn Crespo
3. Mtodo de Seleccin de la Muestra: a. Muestreo Aleatorio Estratificado Afijacin Uniforme Proporcional Neyman (proporcional a la Varianza)
Por Conglomerados b. Muestreo por Cuotas 4. Inferirencia de los resultados para el Universo.
22
cisolog.com
Rubn Crespo
Parmetros y Estadsticos
Parmetro Constante Fija ( , ) Es el valor que toma la poblacin respecto a un indicador utilizado para resumir la informacin que nos interesa de dicha poblacin. Estadstico Constante Variable ( , , ) Es el valor que obtenemos a partir de una muestra y que representa al parmetro. Parmetro
Error y Sesgo
Estadstico
Error Estadstico Es aquel que procede del hecho de utilizar observaciones muestrales, es decir, de no observar la totalidad de los datos. Este error puede ser conocido e incorporado en los resultados a travs de un intervalo.
Error Estadstico Error Tpico (Desviacin Tpica o Estndar)
Errores No Estadsticos Procede de defectos en los instrumentos de medida y de las condiciones en las que se establece la medida, as como de otro conjunto de errores en la transmisin de datos. Este tipo de errores se pueden (y deben) ser evitados. Entre los errores no estadsticos se encuentra el sesgo: Sesgo Desviacin sistemtica de nuestras observaciones respecto a lo que estamos midiendo. En investigacin mediante muestras el sesgo se produce al obtener muestra que no se adecan a la poblacin, es decir, por el desfase que existe entre la poblacin objetivo y la poblacin de la que obtenemos la muestra.
Muestreo Aleatorio. Uso de tres tipos de distribuciones distintas:
1. Distribucin de la Poblacin: el conjunto de todos los datos de la poblacin y a cuyos indicadores de resumen denominamos parmetros. Generalmente esta distribucin es desconocida, por ello recurrimos a muestras. 2. Distribucin de la Muestra: el conjunto de datos pertenecientes a la muestra seleccionada. Generalmente slo obtenemos una muestra de la poblacin. Sus indicadores de resumen se denominan estadsticos. 3. Distribucin Muestral: la distribucin de los estadsticos (las medias, por ejemplo) de todas las muestras posibles de tamao que proceden de una poblacin. Es una distribucin terica. No se desarrolla en forma de tabla porque se necesitara conocer todos los elementos de la poblacin, pero, aunque no se conozcan, se puede construir a travs de sus parmetros. 23
cisolog.com
Rubn Crespo
Error Estadstico
Es la medida de la distancia entre el valor del estadstico obtenido en la muestra y el valor del parmetro en la poblacin.
Nivel de Confianza
Es la probabilidad que existe de que esa distancia, o error estadstico, no sea mayor que la preestablecida. Si en una distribucin muestral se aumenta el valor de , la varianza de la distribucin disminuir y los resultados de las distintas muestras se concentrarn ms en el valor del parmetro. Por consiguiente, para un mismo nivel de error, el nivel de confianza mejora con tamaos muestrales mayores.
24
cisolog.com
Rubn Crespo
y:
Distribucin Normal en Z
Error Estadstico
Valores de Z para Niveles de Confianza ms usuales Nivel de Confianza 95% 95,45% 99% 99,7%
25
cisolog.com
Rubn Crespo
Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 220.
Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y de la Proporcin (Poblaciones Infinitas)
Media Parmetro Error Tpico Error Estndar La distribucin se considera como la Normal cuando: Tamao Muestral Proporcin*
*En el caso de la Proporcin, cuando desconocemos la varianza PQ, elegimos el caso ms . desfavorable, varianza mxima, cuando 26
cisolog.com
Rubn Crespo
Tamaos muestrales para el estadstico de la proporcin con distintos valores de . Nivel de Confianza 95,45%
Fuente: Camarero Rioja, Luis et al. 2010. Estadstica para la investigacin social. Ibergarceta. p. 222.
Poblaciones
Poblaciones Finitas
En investigacin social casi siempre nos referimos a poblaciones finitas. Por tanto las formulas anteriores aplicadas a poblaciones finitas deben incorporar el factor de correccin para poblaciones finitas:
Factor de Correccin para Poblaciones Finitas
27
cisolog.com
Rubn Crespo
Poblaciones Infinitas
Una poblacin infinita es un conjunto de elementos que no pueden definirse mediante ) es grande, se desprecia el factor enumeracin. Cuando la relacin entre y ( de correccin para poblaciones finitas: Cuando (En la prctica cuando )
Errores Tpicos y Frmulas del Tamaos Muestral para los estadsticos de la Media y de la Proporcin (Poblaciones Finitas)
Media Parmetro Error Tpico Error Estndar La distribucin se considera como la Normal cuando: Tamao Muestral Proporcin*
Muestras Pequeas
Diseo de Muestras
Marco
El registro fsico de los elementos de la poblacin se denomina marco. En algunos casos es un listado para seleccionar elementos de una poblacin. En la mayora de las ocasiones no pude obtenerse un marco completo y actualizado de la poblacin, o la elaboracin es costosa o presenta problemas de manipulado.
28
cisolog.com
Rubn Crespo
Procedimiento de Muestreo
Dadas las dificultades de realizar muestras aleatorias simples, en las que todos los elementos de una poblacin tienen la misma probabilidad de ser seleccionados, se recurre a distintos sistemas de muestreo que tienen en cuenta lo que ya conocemos sobre la poblacin a investigar. Al incorporar informacin existente podremos realizar diseos muestrales ms eficientes, esto es, obtendremos la misma informacin con menor coste que si usramos mtodos aleatorios puros. Adems, al incorporar informacin existente, podremos mejorar la representatividad de la muestra.
Mtodo de Seleccin de la Muestra
Muestreo Estratificado
Estratos
Son subconjuntos o grupos del universo, de forma que todos los elementos pertenecen a uno de los grupos y slo a uno. Diseo Uniforme: deseamos conocer resultados para cada uno de los estratos. Diseo Proporcional: aprovechamos la ventaja de la estratificacin pare reducir el nmero de extracciones necesarias para la estimacin del conjunto. Afijacin: es el reparto de los elementos de la muestra entre los distintos estratos.
Para la aplicacin del diseo estratificado se necesita definir los diferentes estratos y disponer de informaciones que nos permitan estimar las varianzas en cada uno de ellos.
29
cisolog.com
Rubn Crespo
Nmero de estratos Poblacin en el estrato Poblacin Proporcin de la poblacin en el estrato o peso del estrato Tamao de la muestra en el estrato Muestra Proporcin de la muestra en el estrato
30
cisolog.com
Rubn Crespo
Procedimientos de Afijacin
Nmero de entrevistas en el estrato una vez establecido el valor de Afijacin Uniforme Afijacin Proporcional al tamao
Se hace el mismo nmero de entrevistas en cada estrato. El nmero de entrevistas se reparte considerando el peso que tienen los estratos en la poblacin. Las entrevistas se distribuyen de forma que se concentran relativamente en los estratos de mayor varianza.
Coeficiente de Ponderacin
31
cisolog.com
Rubn Crespo
32
cisolog.com
Rubn Crespo
En el diseo de conglomerados, los tamaos muestrales son mayores que en el muestreo aleatorio simple y el muestreo estratificado, debido a que los conglomerados tienen varianzas ms elevadas que el conjunto poblacional. En la prctica se utilizan mtodos de seleccin combinados. La poblacin se divide en estratos y dentro de los distintos estratos se realiza un diseo de conglomerados.
Muestreo Mixto
En la prctica, en muchas encuestas sociolgicas y de opinin se utiliza un procedimiento mixto en la seleccin de la muestra. La primera fase del diseo muestral se realiza mediante tcnicas probabilsticas (seleccin de municipios dentro de estratos por tamao poblacional); y la fase final de seleccin del entrevistado se realiza mediante muestreo por cuotas. 33
cisolog.com
Rubn Crespo
Cuasivarianza Muestral
Cuasidesviacin Muestral
Media
Proporcin
34
cisolog.com
Rubn Crespo
Inferencia Estadstica
Estimacin de Medias y Proporciones
;
Error Estadstico
Estadstico
Intervalo
MEDIA
PROPORCIN
Notas Cuasidesviacin Frmulas para Poblaciones Finitas cuando Para Muestras Pequeas se usa de Student en vez de . y
En el caso de las Proporciones se usa la Varianza que nos proporciona la muestra no la poblacional .
En la prctica si
35
cisolog.com
Rubn Crespo
Dificultades para
Intervalo de Wilson
Diferencias de Estadsticos
En el campo de la investigacin social es frecuente el uso de estadsticos compuestos que resultan de la combinacin de estadsticos. Puede interesarnos conocer la diferencia de medias de los salarios de hombres y mujeres, o la razn entre dos cantidades que han sido obtenidas mediante una muestra: por ejemplo, si en una encuesta se ha preguntado por el nmero de horas trabajadas y el salario, podemos calcular la razn entre la media de horas trabajadas y el salario medio, de donde se obtendr un estadstico nuevos que ser el cociente entre dos estadsticos que ya disponamos en la muestra. Cuando producimos nuevos estadsticos a partir de las combinaciones de otros estadsticos tenemos dos situaciones diferentes: 1. Que las observaciones que comparamos procedan de muestras independientes, por ejemplo si queremos estimar la diferencia de salario medio entre hombres y mujeres. Al hablar de muestras independientes no nos referimos a dos encuestas diferentes, sino que las unidades muestrales no tienen relacin entre s. Para comparar los salarios de hombres y mujeres, los hombres y las mujeres pertenecen a la misma muestra, sin embargo son subconjuntos que no guardan relacin entre s, es decir, las observaciones sobre los salarios de los hombres no afectan a las observaciones de las mujeres. Por consiguiente, ambos conjuntos de datos se consideran muestras independientes. 2. Que sean muestras relacionadas entre s. Esta situacin tiene distintos orgines. En unos casos, sobre la misma unidad muestral tomamos medidas repetidas en el tiempo, como sucede en los estudios de panel (se realiza la misma pregunta a la misma persona en fechas diferentes y se comparan). En otros casos, sobre la misma unidad muestral medimos caractersticas o variables distintas pero que estn relacionadas entre s. Por ejemplo, se pregunta a una persona, por ejemplo, sobre su valoracin del presidente del gobierno y tambin del lder de la oposicin. Para calcular un estadstico de diferencia entre ambas valoraciones tenemos que tener en cuenta que existe relacin entre las repuestas. Seguramente quien valore alto al presidente del gobierno, lo haga bajo sobre el lder de la oposicin. 36
cisolog.com
Rubn Crespo
1. Muestras Independientes: aquellas en que las observaciones se realizan sobre unidades muestrales distintas (una sola variable para comparar distintos grupos de individuos). 2. Muestras Relacionadas: aquellas en que las observaciones (variables) se refieren a la misma unidad muestral (se comparan varias variables sobre un solo conjunto de individuos).
Determinacin del tipo de situacin de construccin de estadsticos compuestos
37
cisolog.com
Rubn Crespo
Test de significacin
Un resultado estadstico es significativo cuando no se debe al azar. En estadstica, significante no se interpreta como en el lenguaje normal, no significa que el estadstico sea relevante o importante, ni siquiera que se considere verdadero. Un estadstico es significativo porque el investigador lo considera fiable. Los test de significacin son pruebas que se realizan para contrastar la informacin emprica con la terica. Para ello se fija un umbral de corte a partir del cual los valores obtenidos en la muestra emprica se consideran poco probables. Si el resultado obtenido est al lado del umbral de corte donde los resultados se consideran probables, decimos que est dentro de la zona de aceptacin de la hiptesis nula, pero si, por el contrario, el resultado cae del lado del umbral de corte donde se considera poco probable, decimos que entra dentro de la zona de rechazo de la hiptesis nula.
Hiptesis Nula
En estadsticas la hiptesis nula es la hiptesis de partida (tambin denominada puede hiptesis inicial) que considera las diferencias no significativas. La hiptesis nula ser rechazada o no rechazada, pero no podemos probarla, salvo que estudiemos todos los elementos de la poblacin y la mayora de las veces eso no es posible. Un resultado puede ser estadsticamente significativo aunque la diferencia sea muy pequea y pueda parecer que no tiene importancia; por esta razn en los tets de significacin se debe indicar el efecto de la talla estadstica, esto es, el tamao de la muestra. En muestras de tamao grande pequeas diferencias pueden ser consideradas a travs de los test como significativas.
38
cisolog.com
Rubn Crespo
Pruebas de hiptesis
La evidencia que se necesita para aceptar que un acontecimiento se ha producido por azar es el nivel de significacin (n.s. / significante level en ingls) o el valor crtico . Si el valor es , es falsa o inusual. pequeo, entonces debe rechazarse la hiptesis nula Segn los trabajos de Neyman y Pearson, el planteamiento requiere tanto de la hiptesis nula como de una hiptesis alternativa , que deben ser definidas e investigadas mediante repeticin de procedimientos de muestreo; si no, se corre el riesgo de rechazar un resultado que cae fuera de la zona de aceptacin y, sin embargo, ser verdadero. Es el valor crtico el que nos da la probabilidad de equivocarnos al rechazar ese valor. Cuando se realizan pruebas de hiptesis existen dos tipos de errores que se pueden cometer: 1. Error de Tipo I: rechazar la hiptesis nula cuando es verdadera. 2. Error de Tipo II: aceptar la hiptesis nula cuando es falsa.
Tipos de error en los test de hiptesis
Es la probabilidad que se est dispuesto a aceptar de rechazar errneamente la hiptesis nula. Se trata de una probabilidad establecida. Habitualmente, como niveles de significacin se usan el 5% y el 1%. 39
cisolog.com
Rubn Crespo
p valor
Es la probabilidad de obtener un resultado al menos tan extremo como el que realmente se ha obtenido en el experimento o en una muestra (valor del estadstico calculado), suponiendo est basado en que la hiptesis nula es cierta. Es fundamental tener en cuenta que el la aceptacin de la hiptesis de partida (o hiptesis nula). A su vez, es la probabilidad de equivocarnos al aceptar que las diferencias (entre valor emprico y valor terico) son significativas. Cuanto ms pequea sea esta probabilidad ms seguro se est de no equivocarse.
Cuando la hiptesis de partida se enuncia la direccin: que un valor es mayor que o menor que se realiza la prueba de una sola cola.
40
cisolog.com
Rubn Crespo
3. Comparar el estadstico (en valores de o de Student) con el umbral fijado (tambin en valores de o de Student) para el valor crtico . 4. Resultado: a. Si el estadstico es ms alto que el valor crtico, queda por tanto en la zona de rechazo de la hiptesis nula y la diferencia es significativa. La probabilidad de es pequea y el es menor que la relacin equivocarse al rechazar ] encontrada por azar. [ b. Si el estadstico es ms bajo que el valor crtico, al contrario, queda en la zona de aceptacin de la hiptesis nula y la diferencia no es significativ. La es muy alta y el es mayor que el valor probabilidad de rechazar crtico. [ ]
Valores de Z para los niveles de significacin (n.s.) 5% y 1%
Tipo de Test Test de una cola Unilateral Test de dos colas Bilateral
n.s. = 5%
n.s. = 1%
Hiptesis de partida o nula Hiptesis alternativa Clculo del estadstico en valor de (Student)
41
cisolog.com
Rubn Crespo
Comparacin de proporciones
Proporcin Conjunta
= Sumatorio de los sumatorios de las observaciones. = Sumatorio de los sumatorios de los cuadrados de las observaciones. = Valor de la observacin en cada grupo .
42
cisolog.com
Rubn Crespo
= Cantidad de observaciones en los grupos = Total de observaciones . 2. Suma de los cuadrados entre grupos
Grados de libertad dentro de los grupos Tambin: 5. Estimacin de la varianza Varianza entre grupos Varianza dentro de los grupos
6. Contraste de la
(Estimador
de Snedecor)
43
cisolog.com
Rubn Crespo
Distribucin
de Snedecor
La distribucin simtrica:
1. Suma de cuadrados total 2. Suma de cuadrados debida a los tratamientos (factores) 3. Suma de los cuadrados debida a los bloques 4. Clculo de la suma de cuadrados debida al error Varianza Factor Error Contraste de
En una distribucin bivariada contamos con una medida de dispersin que tiene en cuenta las dos variables a la vez. Para ello es necesario hacer uso de la Covarianza, que se obtiene del producto de las diferencias de e a sus medias. Covarianza
44
cisolog.com
Rubn Crespo
Interpretacin de la Covarianza
El valor de la covarianza nos informa de la existencia (o no) de dependencia lineal entre las variables. Si no hay relacin lineal entre las dos variables, la covarianza ser igual a Si Si Si Si : No hay relacin lineal entre ambas variabes. : Hay relacin. Mayor cuanto mayor sea la covarianza la relacin de dependencia lineal es positiva. Para grandes valores de la relacin de dependencia lineal es negativa. Para grandes valores de se se
Los errores o residuos son la diferencia entre los valores reales y los de la recta ajustada a los datos. Por cada valor de tenemos dos valores de , el de la ecuacin y el real observado. La suma de los residuos sirve para evaluar el ajuste final.
45
cisolog.com
Rubn Crespo
Los parmetros de la recta de regresin se ajustan por el mtodo de los mnimos cuadrados. Covarianza Varianza de
-> La covarianza medida en unidades de la varianza de . Punto de corte de la recta con el eje de la variable dependiente
Una vez se han calculado los parmetros de la funcin de la recta de regresin lineal, la correlacin sirve para cuantificar la bondad del ajuste de la recta a la nube de puntos.
Coeficiente de correlacin de Pearson
;
Interpretacin del valor de
El valor de vara entre -1 y +1 Si : No hay correlacin. Las rectas de regresin son paralelas a los ejes.
Si : Hay correlacin positiva. Al aumentar una variable, al aumentar una variable la otra tambin aumenta. La recta de regresin tiene pendiente positiva. Si : Hay correlacin negativa. Al aumentar una variable, al aumentar una variable la otra disminuye. La recta de regresin tiene pendiente negativa. Si o : Todos los puntos estn contenidos en la recta de regresin.
Aunque el coeficiente de correlacin se alto, no significa necesariamente que el ajuste sea ptimo. Puede existir una relacin fuerte pero no lineal. Por ello, es imprescindible siempre con el grfico del diagrama de acompaar el clculo del coeficiente de correlacin dispersin, con el fin de comprobar que se cumple la relacin lineal entre las variables. El coeficiente de correlacin es simtrico. Tiene el mismo valor tanto si se trata de cuantificar con los mismos datos el ajuste de la recta de en como de la recta de en . 46
cisolog.com
Rubn Crespo
Coeficiente de determinacin
Es el coeficiente de correlacin de Pearson al cuadrado . Expresa la reduccin proporcional del error que se comete al estimar los valores de la variable dependiente a partir de la recta de regresin. Se puede interpretar tambin como la probabilidad de la varianza total en una variable que es explicada por la otra variable en el modelo lineal. Al igual que , es simtrico y su valor es el mismo tanto si tomamos la variable independiente por la dependiente y viceversa.
Coeficiente de determinacin
: Residuo o diferencia entre el valor observado observado de no explicada por el modelo Residuo
y el estimado
Slo una parte de la variacin de es explicada por el modelo, y el valor de parte de la variacin total supone la variacin explicada por la recta de regresin.
indica qu
El coeficiente de determinacin tambin puede obtenerse mediante el producto de las pendientes de las dos rectas de regresin:
47
cisolog.com
Rubn Crespo
Tablas de contingencia
Las tablas de contingencia sirven para comparar grupos y observar cmo se distribuye una variable en el seno de otra variable. Para ver cmo se agrupa la poblacin simultneamente en dos variables, se realiza un cruce de variables y obtenemos una tabla de contingencia. 2
Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos
Actitud hacia los impuestos Bajar los impuestos y gastar menos en prestaciones Gastar ms en prestaciones aumentando los impuestos Ns/Nc. Total
571
441
275
1287
Secundarios
251
283
112
646
Superiores Total
151 973
293 1017
83 470
527 2460
La distribucin total de las filas se denomina distribucin marginal de filas, y la distribucin total de columnas se denomina distribucin marginal de columnas. En la prctica se suele referirse a ellas como marginales, que son las distribuciones totales de cada una de las variables cruzadas. La distribucin conjunta de las variables se observa en las casillas centrales. La anterior tabla de contingencia se ha realizado con frecuencias absolutas, con lo que la informacin contenida en la tabla no se presenta fcil para el anlisis. Para una mejor comparacin de la distribucin entre las dos variables se hace necesario obtener la tabla con las frecuencias relativas (en porcentajes).
Anlisis Bivariable
La relacin entre dos variables se establece con el esquema explicativo: la distribucin de una variable es explicada por la distribucin de otra variable. En otras palabras, una variable es
Es importante destacar la diferencia entre variables de registro y variables de anlisis. Las variables de registro son las variables originales que se emplean para registra la informacin, que suelen presentarse con mucho detalle (asimiladas a trminos abstractos o administrativos de registro) y sirven como punto de partida para la investigacin. Las variables de anlisis son las variables construidas con pertinencia emprica y/o terica para el anlisis sociolgico.
48
cisolog.com
Rubn Crespo
determinada por otra. Por tanto, tenemos variable independiente y variable dependiente. Los cambios de la variable independiente explican los de la dependiente.
Desde el enfoque matemtico, cualquiera de las dos variables puestas en relacin puede ejercer indistintamente el papel de independiente como de dependiente. Pero desde el enfoque emprico, estos papeles se definen contrastando que una de las variables es antecedente (temporalmente) de la otra o presenta ms estabilidad temporal o se considera ms bsica; y esta ser la variable independiente. Podra darse el caso que dos variables en relacin terica no tengan ninguna relacin de dependencia, y por consiguiente ambas variables seran independientes.
Regla de Zeisel
Para el anlisis de la relacin de dos variables en una tabla de contingencia se calculan los porcentajes en la direccin de la variable independiente y se comparan en la direccin de la variable dependiente. Como regla general colocamos los datos de la variable independiente en las filas. Segn De Miguel (1997): La mejor disposicin es la de porcentajes horizontales porque el ojo humano compara mejor las relaciones de arriba abajo 3. Por tanto, conviene por sistema emplear esta regla en todos los casos, calcular los porcentajes en la direccin horizontal y comparar las relaciones entre ambas variables en la direccin vertical.
Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos
Actitud hacia los impuestos Bajar los impuestos y gastar menos en prestaciones Gastar ms en prestaciones aumentando los impuestos Ns/Nc. Total
44,4%
34,3%
21,4%
100,0%
Secundarios
38,9%
43,8%
17,3%
100,0%
Superiores Total
28,7% 39,6%
55,6% 41,3%
15,7% 19,1%
100,0% 100,0%
49
cisolog.com
Rubn Crespo
Con las tablas de contingencia de dos variables se parte del supuesto de que el resto de variables se mantienen constantes. Sin embargo, en la realidad esto no ocurre nunca. La experiencia emprica demuestra que mltiples variables afectan al comportamiento de otra; y muchas no se pueden controlar cuando no hay registro. Es posible que algunas no aparezcan cuando se est estudiando una encuesta estadstica; otras se tienen que construir a partir de las variables de registro. La introduccin de una tercera variable puede alterar las supuestas relaciones halladas en la tabla de contingencia de dos variables, de manera que la relacin bivariable anterior se desvanezca. A esta tercera variable la llamamos variable de control, y se introduce segmentando los datos del cruce de las dos variables anteriores en funcin de esta tercera variable.
Tabla de contingencia Nivel de Estudios * Actitud hacia los impuestos * Sexo Actitud hacia los impuestos Bajar los impuestos y gastar menos en Sexo Hombre Nivel de Estudios Sin Estudios o Primarios Secundarios Superiores Total Mujer Nivel de Estudios Sin Estudios o Primarios Secundarios Superiores Total 41,3% 29,5% 41,6% 43,3% 54,4% 37,6% 15,4% 16,1% 20,8% 100,0% 100,0% 100,0% 36,8% 27,5% 37,4% 47,4% 44,2% 57,2% 45,2% 27,1% 19,0% 15,3% 17,4% 25,5% 100,0% 100,0% 100,0% 100,0% Gastar ms en prestaciones aumentando Ns/Nc. 17,2% Total 100,0%
Paradoja de Simpson
Una asociacin entre dos variables desaparece o cambia de sentido cuando los datos son desagregados por grupos, esto es, cuando se controla el efecto de una tercera variable.
50
cisolog.com
Rubn Crespo
La variable de control que se introduce para observar el comportamiento en una relacin bivariable original afecta a sta si: 1. Se relaciona con la variable independiente o causal 2. Se relaciona con la variable dependiente o efecto 3. Cuando segmentamos la poblacin segn los gruos de la variable de control , se son de menor observa que las relaciones entre las variables originales intensidad que la que manifestaban antes de introducir la tercera variable. Pero tambin cabe la posibilidad de que la tercera variable afecte a las dos variables sin alterar la relacin original establecida por stas. En los modelos donde una tercera variable altera una determinada relacin entre dos variables, existen dos casos en la forma en que acta la tercera variable: 1. 2. Variable Antecedente: actua sobre y sobre . se interpone entre e , esto es, actua
Todas las interacciones posibles se deben fundamentar en modelos de interaccin de pertinencia sociolgica. La interaccin entre tres variables se puede resumir en una tabla, pero la forma ms ptima de analizar las relaciones entre las tres variables es segmentando la poblacin entre los valores de una de las variables, la que se considere ms bsica o primordial. De esta manera se puede observar cmo se comporta las otras dos variables en cada una de las categoras (o valores) de la primera. En muchas ocasiones resulta interesante dualizar (o dicotomizar) las variables que se cruzan. La visibilidad de las confrontaciones duales facilita el anlisis.
51
cisolog.com
Rubn Crespo
Ji-cuadrado
La prueba de Ji-cuadrado es un test que afecta a la distribucin de frecuencias de los diferentes grupos que componen una poblacin y que son generados por un cruce de variables. Con la prueba de Ji-cuadrado se pretende conocer en trminos probabilsticos si el conjunto de las frecuencias relativas (proporciones) de todos los grupos generados en una poblacin (por el cruce de variables) se distribuye forma a aleatoria (al azar), sin diferencias significativas (significacin estadstica) entre ellas (en conjunto). Igual que en todas las pruebas estadsticas, se contrasta la distribucin real de los datos (a partir de un estadstico) , en donde definimos un punto con una distribucin terica, en este caso, la Ji-cuadrado crtico a partir del cual las diferencias se consideran significativas entre las proporciones del conjunto de los grupos poblacionales (condensadas en el estadstico Ji-cuadrado). Por tanto, por un lado tenemos el estadsitco (Ji-cuadrado) asociado a una tabla de contingencia, y por otro, una distribucin terica de este estadstico. La prueba de Ji-cuadrado slo tiene sentido cuando se trabaja con datos muestrales extrados de forma aleatoria, esto es, en distribuciones (empricas) de probabilidad. Con la prueba de Ji-cuadrado la especificidad (emprica/terica) concreta de las categoras desaparece. Para Ji-cuadrado es irrelevante si la prueba la hacemos sobre variables de edad, nivel de estudios, definiciones ideolgicas, etc. Ji-cuadrado vale lo mismo para categoras sociolgicas, mdicas, criminolgicas, biolgicas, etc. Ji-cuadrado no distingue la especificidad de las categoras consideradas. Se trata de un ndice que resume toda la distribucin teniendo en cuenta slo el nmero de categoras y las frecuencias que se dan en stas.
Frecuencia terica (o esperada segn la lgica de Ji-cuadrado)
Se podra decir que las frecuencias esperadas en cada una de las casillas de una tabla de contingencia son aquellas que cabe esperar en el caso de que no exista relacin entre las variables, esto es, independencia estadstica o probabilstica entre las variables. Dos variables son independientes estadsticamente si la probabilidad de que nos aparezca una categora de una variable no depende de la distribucin de probabilidad de la otra variable.
Clculo de residuos
Los residuos son las diferencias entre las frecuencias observadas y las esperadas en cada celda. Los residuos son errores del muestreo aleatorio.
Residuo
52
cisolog.com
Rubn Crespo
Para poder comparar las distancias entre las frecuencias observadas y las esperadas dentro de cada celda, se ha de estandarizar estas distancias.
Residuos Estandarizados
de cada celda
Coeficiente Ji-cuadrado
Tabla
53
cisolog.com
Rubn Crespo
Coeficiente Ji-cuadrado
de la Tabla
Interpretacin de Ji-cuadrado
en tablas bivariables
Si Si
de una tabla concreta no vale para comparar otras tablas distintas. Para ello existen . otros coeficientes de contingencia: V de Cramer, Coeficiente de contingencia o es un contraste de proporciones mltiples. La distribucin
terica asociada a esta prueba es la distribucin . Se trata de una distribucin continua de probabilidad, una distribucin muestral de la varianza derivada de la distribucin normal. Al igual que la distribucin de Student, depende de un parmetro: grados de libertad. Por tanto, existe una distribucin distinta para cada nmero de grados de libertad. La media de la distribucin Ji-cuadrado es igual a sus grados de libertad, su varianza es dos veces sus . grados de libertad, y sus valores oscilan entre
Distintas distribuciones Ji-cuadrado para distintos grados de libertad (df)
La distribucin Ji-Cuadrado se va acercando a la distribucin normal a medida que aumentan sus grados de libertad.
Nmero de grados de libertad de una tabla bidimensional
54
cisolog.com
Rubn Crespo
Como todas las distribuciones de probabilidad, la distribucin Ji-Cuadrado describe un rea bajo la curva que es igual a 1, esto es, donde encontramos el 100% de los casos. Cualquier valor de deja a su izquierda un porcentaje de casos que asignaremos a la proporcin , y a su derecha el resto de casos que asignaremos a la proporcin . Entre 0 y un valor cualquiera de encontraremos el % de los casos. Y entre el valor e encontraremos el resto, %. Y sabemos que . el
La de la Tabla Ji-cuadrado, distribucin de (ver Anexo 5) nos indica el valor crtico de a partir del cual todo valor mayor entre en la zona de rechazo de la hiptesis nula , que considera las variables cruzadas en la tabla son independientes estadsticamente, es decir, no hay relacin entre ellas. Por tanto, la es el nivel de significacin que usamos para la prueba de la distribucin Ji-cuadrado .
55
cisolog.com
Rubn Crespo
Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta
56
cisolog.com
Rubn Crespo
Fuente: Camarero Rioja, L. et al. 2010. Estadstica para la investigacin social. Ibergarceta
57
cisolog.com
Rubn Crespo
Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta
58
cisolog.com
Rubn Crespo
Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta
59
cisolog.com
Rubn Crespo
Fuente: Almazn, A. et al. 2011. Anlisis estadstico para la investigacin social. Ibergarceta
60
cisolog.com