Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema 1
En el método científico clásico, según el círculo de Wallace, se plantean unas hipótesis a partir
de nuestros marcos teóricos, se diseñan experimentos, se recogen y analizan los datos y se
obtienen conclusiones. Es un modelo teórico que se ve modificado en la práctica. AÑADIR
IMÁGENES.
Los datos primarios son aquellos que produce uno y los secundarios son aquellos producidos
por otros. No son mejores los primarios que los secundarios, de hecho, las CCSS en su
nacimiento vivían esencialmente de los secundarios. En los años 50, 60 en EEUU primó el uso
de datos primarios, pero hoy en día con Internet, Big Data, etc. Se ha vuelto a los secundarios.
La fórmula de estadísticas electorales del CIS no es pública. Y así ocurre con otros datos de
otras agencias.
Es importante conocer los formatos, variables que emplea cada agencia de investigación
científica.
El CIS es especialmente importante porque junto con el INE es la fuente más relevante de datos
secundarios del Estado Español.
Tema 2
Hay que medir el mundo social y político con variables, lo que requiere una pequeña reflexión:
se ha asumido que sí se pueden medir una serie de cuestiones sociales, asumiendo acuerdos y
protocolos para medir.
Qué es medir:
Variable: datos que pueden cambiar, toma al menos dos valores. Característica de interés de los
miembros de una población que toma distintos valores.
Niveles de medición:
Los conceptos y constructos son los términos que se utilizan para la elaboración de teorías. Ej.:
El voto en las elecciones generales está relacionado con la ideología política y las expectativas
económicas del elector.
Conceptos e indicadores
Clase social se puede operacionalizar a través del nivel de renta (salario en euros). A través de
la zona de residencia. Se puede operacionalizar mediante el nivel educativo y la profesión de los
padres (capital educativo). Se puede operacionalizar a través de una pregunta directa de
autodefinición. Se pueden definir a través de rentas patrimoniales (propiedades), se puede
operacionalizar a través de los tipos de consumo cultural.
Concepto: El absentismo escolar. Def. Teórica: Ausencia de la escuela en horario escolar. Def.
Operacional: Número de días al mes que el alumno falta sin justificación.
En vista de variables se trabaja solo con las variables y se clasifican según lo que indican las
columnas
Variables ordinales: son aquellas que además de clasificar ordenan las unidades de observación.
(Alta, media, baja).
Variables de intervalo: son variables cuantitativas cuya escala no parte del cero absoluto.
Variables de razón: son variables cuantitativas cuya escala parte del cero absoluto. Con ellas se
pueden realizar operaciones (el salario de los hombres duplica el de las mujeres). Se pueden
aplicar cocientes o ratios entre variables. Con las de intervalo no se podría (no se puede dividir
cosas entre cero y que no de infinito).
Según la función
- Variable dependiente: variable que se quiere describir o explicar en función de las otras
variables. Se suele representar con la letra Y.
o Ingresos en función del nivel de estudios alcanzado.
o El suicidio en Durkheim.
- Variable independiente: variable con la que tratamos de explicar la variable
dependiente. Se suele representar con la letra X.
o Nivel de estudios.
o Estado civil, situación social, religión, sexo… (en Durkheim)
En estadística hablamos de grandes poblaciones o universos pero como no se puede trabajar con
toda, se toma una muestra. Las encuestas del CIS son con unas 2500 personas.
- Muestreo aleatorio. Es muy democrático pero puede reducir el espectro de perfiles que
tomamos.
- Muestreo estratificado. Se hace una serie de divisiones de la población y se toma
aleatoriamente dentro de los grupos. Esto permite obtener muestras representativas.
Los estadísticos son las medidas que se hacen en una muestra, y eso lleva una notación. Los
parámetros son los referidos a toda una población, pero es casi imposible poder tener los datos
de toda la población. Cuanto más grande sea la muestra, más probabilidad de acierto, pero es
complicado.
En las CCSS dependiendo de cómo se haga puede ser algo cualitativo (ideologías según
categorías o según un eje de 1 a 10 según se sea más de izquierda o de derechas, u otros tipos de
variables para medir lo mismo).
El show de Truman
Casos perdidos son aquellos en los que no se ha rspondido y por ello se hacen dos porcentajes y
frecuencias relativas uno con los casos perdiddos que no responden y otro sin ellos. También
aquí se considera voto en blanco, abstención, etc.
No hay un criterio para agrupar, depende del tamaño de tabla deseado y la precisión. Marca de
clase es el punto medio del intervalo. En la edad en un intervalo de 0-9 el punto medio es 5 ya
que el nueve es límite en 9,99999999999999999… Así en intervalo de 10-19, el límite es
19,99999999999999… Y el punto medio 15.
La unidad de análisis en una encuesta son personas, número de votos a cada partido por
provincias la unidad de análisis son provincias, número de horas perdidas por huelga en cada
empresa la unidad de análisis es la empresa.
A la mediana no le afectan los casos extremos a la media sí, por ello no tienen por qué coincidir.
Con una representación gráfica se aprecian los puntos máximos, con los histogramas se ve la
evolución de las frecuencias según las variables.
La media es única, no tiene sentido en variables cualitativas, si se suma una cosntante a todos
los valores, la media aumenta en dicha constante
Si se multiplican todos los valores de la variable por una constante, la media queda multiplicada
por dicha constante.
La moda y la mediana son medidas robustas porque no cambian por medidas robustas. La media
es poco robusta o muy sensible.
La media es una abstracció,no existe necesariamente como valor. Si se emplean variables
discretas o cuasi-cualitativas, la media aritmética no pertenecerá al conjunto de valores de la
variable.
La mediana: punto o valor de la variabl que divide a la distribución de casos en dos partes
iguales. Corte que separa el 50% de los casos cundo
Si el número de casos es impar, el número que queda en medio tras ordenar los resultados
numéricos, si es par, la media de los dos casos del medio.
Con una tabla de frecuencias se calculan con el porcentaje acumulado, con las variables que
están en el 50%.
La utilización de la media, mediana o moda depende del caso, la representatividad varía según
el caso y conviene usar medidas de dispersión cuando esta característica está muy presente.
El rango o recorridono suele servir mucho porque con que haya un solo caso extermo, se
dispara. Muestra si hay mucha variabilidad de los valores o están muy concentradas. Con
frecuencias muy repartidas, la moda es poco representativa
En variables cuantitativas.
La media de las distancias al valor medio (el resultado de la media) es la desviación media. La
desviación mediana es la media de las distancias a la mediana.
La varianza al elevar al cuadrado evita valores negativos y penaliza los casos más distanciados
del centro. Es una media de las distancias al cuadrado. Sus unidades van al cuadrado.
Entre la media más la desviación típica y la media menos la desviación típica se encuentran el
68% de los casos.
Nivel nominal y ordinal: Tasa de variación. No hay buenas medidaso uso de porcentajes o
número de categorís distintas.
Curva normal o curva de Gauss, gaussiana: es la distribución de datos teórica, ideal de más
interés matemático por sus propiedades. Por ello, es la distribución teórica más usada en
estadística.
La no correspondencia con la curva normal, aunque sea lógica, es una anormalidad estadística
(alfabetización femenina).
En la curva norma la media menos o mas la desviación típica produce los puntos de inflexión.
entre la media más la desviación típica y menos, están el 68% de los casos
si se hace multiplicando la desviación típica por dos, están el 95% de los casos.
si se hace multiplicándola por tres, están el 99% de los casos. Todo esto nos permite hallar casos
atípicos, muy interesantes en el estudio estadístico.
En base a esto se calcula la puntuación tipificada o estandarizada que nos indica la posición del
caso en la gráfica y sabiendo si es normal o atípico. (El caso se sitúa en el 68%, 99%, 95%...)
(caso – media) / desviación típica = número de veces la desviación típica que es la puntuación
tipificada o estandarizada (Z). Se mide en unidades de desviación típica (Z).
Se pueden comparar casos y ver cómo de raros son con respecto al resto.
Marginales: sub totales de fila o de columna cuya suma da el numero total de casos.
Se suelen calcular los porcentajes en una table de contingencia para la variable independiente.
La desviación con respecto a las frecuencias esperadas implica cierta correlación e influencia en
la intervención de alguna de las variables.
gI2 = ∑ (fo-fe)2 / fe
Hipótesis nula, hay independencia de las variables. Hipótesis alternativa, hay correlación.
Alfa o p es el error que podemos tener. Si es mayor de 0,05 no hay dependencia o asociación y
se acepta la hipótesis nula. Si es menor de 0,05 se rechaza la hipótesis nula y hay asociación o
dependencia.
A más se acerque la v de Cramer a uno más dependencia hay, representa el porcentaje explicado
por la correlación. n
Se puede considerar en una correlación curva dos correlaciones lineales, descomponer la curva
en dos líneas rectas, de tal forma que de un valor de x hay una correlación y hasta ese valor otra.
Casos a encontrar: Relación líneal, relación no lineal (cuando hay una curva) y ausencia de
relación o correlación o covariación o variación conjunta (sinónimos).
A mayor concentración en torno a la línea recta hay menor dispersión, y al contrario. A mayor
R, mayor concentración en el diagrama de puntos en torno a la línea recta, y al contrario.
El error que comete el modelo de la recta de regresión es: y’-y: lo observado menos lo predicho
por el modelo (residuo)
Un modelo puede funcionar sin explicar ninguno de los casos individuales, la línea de regresión
lineal no tiene por qué explicar o pasar por alguno de los casos concretos.
Si por un caso muy atípico cambia la recta de regresión, quizás es interesante no considerarlo
para calcular dicha recta.