Está en la página 1de 8

- Profesor sustituto: Igor Sádaba. Tutorías: lunes y jueves de 13h a 14h.

- Quetelet y Durkheim marcan la historia de la estadística, el último con la obra de El


suicidio.
- Leer documentos hasta el tema 1 del campus.
- Peña, Daniel y Juan Romo: Introducción a la estadística.
- Ritchey, F. J.: Estadística aplicada a las Ciencias Sociales
- Trabajos individuales: 13N en el aula de informática, 22 campus virtual, 15 enero
(tercero y cuarto)
- Grupo a informática: 2O, 16O, 30O, 13N, 27N, 11D, 18D, 8E, 15E
- Programa: SPSS, PSPP -libre- , R (R PROJECT) -libre-.

Tema 1
En el método científico clásico, según el círculo de Wallace, se plantean unas hipótesis a partir
de nuestros marcos teóricos, se diseñan experimentos, se recogen y analizan los datos y se
obtienen conclusiones. Es un modelo teórico que se ve modificado en la práctica. AÑADIR
IMÁGENES.

Es preciso tener un marco teórico. Por ejemplo, la correlación estadística no necesariamente


implica causalidad. El marco teórico tiene que justificar la causalidad, aunque esa justificación
puede ser discutible. Hay marcos teóricos muy explícitos y otros más ocultos que nos llevan a
establecer causalidades, por lo que hay que revisar a los mismos y ver si consideran todos los
factores y factores adecuados.

Operacionalizar es dar las definiciones teóricas operativas, para desarrollar la investigación.


Hay que definir con qué concepto se trabaja de manera práctica u operativa. Ejemplo, el
crecimiento económico se operacionaliza en el PIB que no incluye todos los datos y de vez en
cuando se re operacionaliza para incluir más datos. Es muy importante ya que condiciona los
resultados que se obtengan y tiene un componente de elección individual.

Finalmente se induce, se va de lo particular a lo general para obtener teorías. De las teorías


finalmente se deduce, se va de lo general a lo particular y se elaboran nuevas hipótesis,
iniciando de nuevo el círculo de Wallace.

Los datos primarios son aquellos que produce uno y los secundarios son aquellos producidos
por otros. No son mejores los primarios que los secundarios, de hecho, las CCSS en su
nacimiento vivían esencialmente de los secundarios. En los años 50, 60 en EEUU primó el uso
de datos primarios, pero hoy en día con Internet, Big Data, etc. Se ha vuelto a los secundarios.

La fórmula de estadísticas electorales del CIS no es pública. Y así ocurre con otros datos de
otras agencias.

Es importante conocer los formatos, variables que emplea cada agencia de investigación
científica.

El CIS es especialmente importante porque junto con el INE es la fuente más relevante de datos
secundarios del Estado Español.
Tema 2
Hay que medir el mundo social y político con variables, lo que requiere una pequeña reflexión:
se ha asumido que sí se pueden medir una serie de cuestiones sociales, asumiendo acuerdos y
protocolos para medir.

Qué es medir:

Medir es asignar a fenómenos empíricos, observables determinados géneros o categorías.

Proceso de relacionar conceptos abstractos con indicadores empíricos.

Reglas de asignación de números a objetos par representar cantidades de atributos.

Asignar números a características y propiedades de objetos de acuerdo a reglas.

Proceso por el que un científico representa propiedades por números.

Razones para medir

Se precisa de un sistema estandarizado de la información para medir. Estandarización de la


información para poder medir. Objetividad. Exactitud. Permitir el análisis numérico de datos.

Variable: datos que pueden cambiar, toma al menos dos valores. Característica de interés de los
miembros de una población que toma distintos valores.

- Cualitativas: Sus valores corresponden a conceptos, atributos o cualidades que no son


medibles. Se pueden codificar numéricamente, asignar un número a una cualidad, pero
eso no significa que supongan algo cuantitativo.
- Cuantitativas: son medibles, sus valores corresponden a números reales.
o Discretas. Sólo toman algunos valores reales.
o Continuas. Toman infinitos valores de un intervalo de números reales.

Niveles de medición:

- Variables cualitativas o categóricas:


o Nivel nominal. No hay una ordenación lógica entre los nombres (que no
empírica). Ej.: Hombre, mujer; intención de voto al PP, PSOE, Podemos,
Ciudadanos (no tienen ordenación lógica aunque unos reciban más votantes que
otros, lo que sería una ordenación empírica). Es una mera casificación con
categorías que cumplen el doble requisito de ser exahustivas y ser excluyentes.
o Nivel ordinal: tienen una lógica de ordenación las variables cuantitativas. Clase
baja, media, alta. Las unidades de análisis pueden ser ordenadas de menor a
mayor en lo que respecta a una característica determinada pero no se reconocen
las distancias, no hay una noción de distancia numérica.
- Variables cuantitativas o numéricas.
o Nivel intervalo. Se desarrollan escalas de medición de forma arbitraria. Se ha
creado un intervalo expresamente para medir. Hay orden y además se conocen
las distancias, pero no existe la referencia de un cero absoluto. El cero no
significa ausencia de la variable sino un valor bajo. Escala arbitraria.
o Nivel de razón: cumple todo lo anterior y además el valor cero implica ausencia
de característica. Escala no arbitraria.
Conceptos y constructos:

Los conceptos y constructos son los términos que se utilizan para la elaboración de teorías. Ej.:
El voto en las elecciones generales está relacionado con la ideología política y las expectativas
económicas del elector.

- Conceptos: términos abstractos con referente empírico directo. Ej.: Sexo.


- Constructos: términos abstractos sin referente empírico directo. Ej.: Ideología.
- Definiciones nominales (diccionario) y operativas (operacionalización).

Conceptos e indicadores

La forma más conocida de operacionalización se debe a Lazarsfeld.

Concepto (definición teórica)  Diferenciar dimensiones (aspectos más relevantes) 


Indicadores (medidas de las dimensiones o variables empíricas o empíricamente observables) 
Índices (peso a cada indicador)  Índice global.

Clase social se puede operacionalizar a través del nivel de renta (salario en euros). A través de
la zona de residencia. Se puede operacionalizar mediante el nivel educativo y la profesión de los
padres (capital educativo). Se puede operacionalizar a través de una pregunta directa de
autodefinición. Se pueden definir a través de rentas patrimoniales (propiedades), se puede
operacionalizar a través de los tipos de consumo cultural.

A la hora de operacionalizar las categorías o valores de las variables deben ser:

- Exhaustivas (cubrir todos los valores posibles)


- Mutuamente excluyentes (no simultáneas)
- Precisas (sin ambigüedad)

Pero atención, la operacionalización no es única para una variable.

Pasos a seguir en el proceso de operacionalización

- Representación teórica del concepto (reflejar sus rasgos definitorios).


-

Concepto: El absentismo escolar. Def. Teórica: Ausencia de la escuela en horario escolar. Def.
Operacional: Número de días al mes que el alumno falta sin justificación.

Los procesos de operacionalización van cambiando a lo largo del tiempo.

SPSS: Las variables van en columnas los casos en filas

En vista de variables se trabaja solo con las variables y se clasifican según lo que indican las
columnas

Una variable es cualquier característica o magnitud no uniforme que midamos en el mundo


social.

VARIABLES NOMINALES: son aquellas que únicamente clasifican a las unidades de


observación en las diferentes categorías de la variable. Ejemplo: Grados que se imparten en la
Facultad de CC. Políticas y Sociología (antropología, sociología, CCPP, RRII, Doble grado de
Derecho y CCPP…).

Variables ordinales: son aquellas que además de clasificar ordenan las unidades de observación.
(Alta, media, baja).

Variables de intervalo: son variables cuantitativas cuya escala no parte del cero absoluto.

Variables de razón: son variables cuantitativas cuya escala parte del cero absoluto. Con ellas se
pueden realizar operaciones (el salario de los hombres duplica el de las mujeres). Se pueden
aplicar cocientes o ratios entre variables. Con las de intervalo no se podría (no se puede dividir
cosas entre cero y que no de infinito).

Según la función

- Variable dependiente: variable que se quiere describir o explicar en función de las otras
variables. Se suele representar con la letra Y.
o Ingresos en función del nivel de estudios alcanzado.
o El suicidio en Durkheim.
- Variable independiente: variable con la que tratamos de explicar la variable
dependiente. Se suele representar con la letra X.
o Nivel de estudios.
o Estado civil, situación social, religión, sexo… (en Durkheim)

En estadística hablamos de grandes poblaciones o universos pero como no se puede trabajar con
toda, se toma una muestra. Las encuestas del CIS son con unas 2500 personas.

Formas de construir muestras:

- Muestreo aleatorio. Es muy democrático pero puede reducir el espectro de perfiles que
tomamos.
- Muestreo estratificado. Se hace una serie de divisiones de la población y se toma
aleatoriamente dentro de los grupos. Esto permite obtener muestras representativas.

El concepto de representatividad no existía hasta hace poco. El hecho de representar a la


población con una muestra no ocurría. Antes se tomaba de las autoridades institucionales del
pueblo, pero no se concebía que aleatoriamente cualquiera pueda representar una población.

Los estadísticos son las medidas que se hacen en una muestra, y eso lleva una notación. Los
parámetros son los referidos a toda una población, pero es casi imposible poder tener los datos
de toda la población. Cuanto más grande sea la muestra, más probabilidad de acierto, pero es
complicado.

En las CCSS dependiendo de cómo se haga puede ser algo cualitativo (ideologías según
categorías o según un eje de 1 a 10 según se sea más de izquierda o de derechas, u otros tipos de
variables para medir lo mismo).

El show de Truman

Matriz de datos: casos en filas, variables en columnas.


Esquema de análisis estadístico: estudio de las frecuencias, cantidad de veces que aparece un
valor o categoría (descripción resumida de los datos). Estudio de las medidas de tendencia
central (indicadores representativos) se determina el centro o la tendencia de los datos, es más
útil y resumido pero perdemos información. Estudio de la dispersión o variabilidad (indicadores
del grado de homogeneidad o heterogeneidad) y forma (simetría o asimetría de los datos): forma
y geometría de los datos. Representación gráfica de los datos: tras el análisis se busca un
representación visual y sencilla de distribución.

Frecuencias: es contar el número de veces que aparece. VER DIAPOSITIVAS

n: número de casos en total.

Casos perdidos son aquellos en los que no se ha rspondido y por ello se hacen dos porcentajes y
frecuencias relativas uno con los casos perdiddos que no responden y otro sin ellos. También
aquí se considera voto en blanco, abstención, etc.

No hay un criterio para agrupar, depende del tamaño de tabla deseado y la precisión. Marca de
clase es el punto medio del intervalo. En la edad en un intervalo de 0-9 el punto medio es 5 ya
que el nueve es límite en 9,99999999999999999… Así en intervalo de 10-19, el límite es
19,99999999999999… Y el punto medio 15.

La unidad de análisis en una encuesta son personas, número de votos a cada partido por
provincias la unidad de análisis son provincias, número de horas perdidas por huelga en cada
empresa la unidad de análisis es la empresa.

A la mediana no le afectan los casos extremos a la media sí, por ello no tienen por qué coincidir.

Para las cualitativas nominales sólo se puede calcular la moda.

Con una representación gráfica se aprecian los puntos máximos, con los histogramas se ve la
evolución de las frecuencias según las variables.

La moda no siempre es única y a veces aporta poca información. En la media aritmética se


tienen que sumar las mismas unidades. La media no tiene por qué ser representativa, es sensible
a valores extremos y a veces no forma parte del conjunto de datos (número de hijos 4,5). En
caso de trabajar con datos agrupados se usa el sumatorio del número de casos de los intervalos
por el punto medio de los mismos.

La media es única, no tiene sentido en variables cualitativas, si se suma una cosntante a todos
los valores, la media aumenta en dicha constante

Si se multiplican todos los valores de la variable por una constante, la media queda multiplicada
por dicha constante.

La suma de las desviaciones de in conjunto de observaciones respecto a su media , es igual a


cero ya que se cmpensan unas con otras si veo cuales son las distancias de cad uno de los casos
y lo comparo con la media, me da siempre cero.

La moda y la mediana son medidas robustas porque no cambian por medidas robustas. La media
es poco robusta o muy sensible.
La media es una abstracció,no existe necesariamente como valor. Si se emplean variables
discretas o cuasi-cualitativas, la media aritmética no pertenecerá al conjunto de valores de la
variable.

La mediana: punto o valor de la variabl que divide a la distribución de casos en dos partes
iguales. Corte que separa el 50% de los casos cundo

Si el número de casos es impar, el número que queda en medio tras ordenar los resultados
numéricos, si es par, la media de los dos casos del medio.

Con una tabla de frecuencias se calculan con el porcentaje acumulado, con las variables que
están en el 50%.

La mediana: tiene propiedades, es robusta y no cambia ante valores extremos. Es más


representativa cuando se trabaja con conjuntos de datos cuantitativos relacionalmente, interesa
la mediana, y se evitan las variaciones de la media ante datos extremos. Así la mediana se
emplea para medir la pobreza relativa. Se puede extraer la mediana de los fragmentos obtenidos
con la mediana, dando los cuartiles Q1 Y Q3, también se puede dividir la muestra en 5
(quintiles), 10 (deciles), 100 (percentil): el Percentil 73 de algo quiere decir que por debajo
quedan el 73 % de los casos y por encima el 27% restante. Q2 o percentil 50, Q3 o P75, Q1 o
P25. El cociente entre P90 y P10 se emplea para medir desigualdad.

La utilización de la media, mediana o moda depende del caso, la representatividad varía según
el caso y conviene usar medidas de dispersión cuando esta característica está muy presente.

El rango o recorridono suele servir mucho porque con que haya un solo caso extermo, se
dispara. Muestra si hay mucha variabilidad de los valores o están muy concentradas. Con
frecuencias muy repartidas, la moda es poco representativa

La tasa de variación modal es la suma de las frecuencias no modales.

En variables cuantitativas.

La media de las distancias al valor medio (el resultado de la media) es la desviación media. La
desviación mediana es la media de las distancias a la mediana.

La varianza al elevar al cuadrado evita valores negativos y penaliza los casos más distanciados
del centro. Es una media de las distancias al cuadrado. Sus unidades van al cuadrado.

La desviación típica o estándar es la raíz cuadrada de la varianza, haciendo valores menores y


más manejables. Mide la variabilidad de los datos con respecto al valor medio o central.

Entre la media más la desviación típica y la media menos la desviación típica se encuentran el
68% de los casos.

El coeficiente de variación es la desviación típica entre la media y refleja en porcentaje la


dispersión de los resultados. Permite comparar unos con otros. Es adimensional.

Nivel nominal y ordinal: Tasa de variación. No hay buenas medidaso uso de porcentajes o
número de categorís distintas.

Nivel intervalo o razón (cuantitativas): rango o amplitud, ranglo intercuartílico. Desviación


media. Varianza y desviación típica. Coeficiente de variación (medida de dispersión relativa).
En la curva de un histograma cuenta la simetría o asimetría donde destaca la media menos la
moda entre la desviación típica o estándar que es el índice de asimetría de Pearson. La curtosis
mide el aplanamiento o empinamiento de la curva (mucho es leptocúrtica, medio mesocúrtica,
poco platicúrtica).

Curva normal o curva de Gauss, gaussiana: es la distribución de datos teórica, ideal de más
interés matemático por sus propiedades. Por ello, es la distribución teórica más usada en
estadística.

Quetelet dio el salto al uso de la curva normal en variables sociológica.

La no correspondencia con la curva normal, aunque sea lógica, es una anormalidad estadística
(alfabetización femenina).

S. Jay Gould La falsa medida del hombre.

En la curva norma la media menos o mas la desviación típica produce los puntos de inflexión.

entre la media más la desviación típica y menos, están el 68% de los casos

si se hace multiplicando la desviación típica por dos, están el 95% de los casos.

si se hace multiplicándola por tres, están el 99% de los casos. Todo esto nos permite hallar casos
atípicos, muy interesantes en el estudio estadístico.

En base a esto se calcula la puntuación tipificada o estandarizada que nos indica la posición del
caso en la gráfica y sabiendo si es normal o atípico. (El caso se sitúa en el 68%, 99%, 95%...)

(caso – media) / desviación típica = número de veces la desviación típica que es la puntuación
tipificada o estandarizada (Z). Se mide en unidades de desviación típica (Z).

Nos dice cuánto de normal o atípico es un dato.

Se pueden comparar casos y ver cómo de raros son con respecto al resto.

Asociación: relación estadística con variación conjunta.

Marginales: sub totales de fila o de columna cuya suma da el numero total de casos.

Se suelen calcular los porcentajes en una table de contingencia para la variable independiente.

La desviación con respecto a las frecuencias esperadas implica cierta correlación e influencia en
la intervención de alguna de las variables.

gI2 = ∑ (fo-fe)2 / fe

fe = ni (subtotal de fila) *nj (subtotal de columna) / N

Si gi2 es 0 hay independencia de variables, si es mayor que un valor hay dependencia o


asociación, este valor dependería del tamaño de la tabla y la certidumbre o confianza existentes.
El nivel de confianza en CCSS se pretende asegurar para gi 2 con un 95% y un margen de error
del 5%.

Grados de libertad = (número de filas – 1) * (número de columnas – 1)


Según los grados de libertad hay que obtener un gi 2 u otro, en función del error que se pretende,
en este caso 0,05%.

Hipótesis nula, hay independencia de las variables. Hipótesis alternativa, hay correlación.

Alfa o p es el error que podemos tener. Si es mayor de 0,05 no hay dependencia o asociación y
se acepta la hipótesis nula. Si es menor de 0,05 se rechaza la hipótesis nula y hay asociación o
dependencia.

A más se acerque la v de Cramer a uno más dependencia hay, representa el porcentaje explicado
por la correlación. n

En el eje y, la variable dependiente; en el eje x, la variable independiente.

Coeficiente de correlación de Pearson LINEAL, no mide correlaciones curvas: R=(COV(X,Y))/


(SX * SY) covariación de dos variables dividida por la dispersión que se da.

Se puede considerar en una correlación curva dos correlaciones lineales, descomponer la curva
en dos líneas rectas, de tal forma que de un valor de x hay una correlación y hasta ese valor otra.

Casos a encontrar: Relación líneal, relación no lineal (cuando hay una curva) y ausencia de
relación o correlación o covariación o variación conjunta (sinónimos).

Desigualdad, un análisis de la infelicidad de vida.

A mayor concentración en torno a la línea recta hay menor dispersión, y al contrario. A mayor
R, mayor concentración en el diagrama de puntos en torno a la línea recta, y al contrario.

R2 se interpreta como el porcentaje de la variable dependiente explicado por la independiente.


Es el porcentaje de varianza.

1-r2 = lo que queda sin explicar.

Si la y es constante ante una variación de x no hay correlación lineal (aunque se agrupen en


torno a una línea recta, es totalmente horizontal).

El error que comete el modelo de la recta de regresión es: y’-y: lo observado menos lo predicho
por el modelo (residuo)

Error total: ∑ (y’-y)2 . Se busca el valor mínimo obteniendo la derivada e igualando a 0.

Un modelo puede funcionar sin explicar ninguno de los casos individuales, la línea de regresión
lineal no tiene por qué explicar o pasar por alguno de los casos concretos.

y= a+bx; b es el coeficiente, a es la constante, punto de corte con el eje y cuando x es 0.

Si por un caso muy atípico cambia la recta de regresión, quizás es interesante no considerarlo
para calcular dicha recta.

También podría gustarte