Está en la página 1de 29

Estadística aplicada a las ciencias sociales

ESTADÍSTICA (1º pp)

Tema 1: EL ANÁLISIS DE DATOS SOCIOLÓGICOS


1. CONCEPTO DE ESTADÍSTICA
La estadística trata de buscar un método para examinar los procesos sociales y
para suministrar bases a las decisiones en la investigación.
Es una ciencia, ya que trata de hallar regularidades en los fenómenos sociales, de
manera que sirvan para describir y predecir. Es la colección de métodos científicos que
permiten el análisis e interpretación de la información numérica.
Hay una actitud poco favorable hacia la estadística que se produce paradójicamente en
una sociedad en la que la información cuantitativa invade los aspectos más íntimos de nuestra
vida: paro, divorcio, gasto público, etc.
Históricamente desde la óptica pagana o cristiana no había azar; todos los fenómenos
obedecían a leyes divinas y no a la probabilidad. Hasta que Europa no superó la teología y
filosofía medieval no fue posible desarrollar el cálculo de las probabilidades.
Desde finales del siglo XIX comienzan a descubrirse regularidades en disciplinas tan
diversas, como la genética, biología, meteorología, economía, psicología e incluso en las artes.
La demografía y las compañías de seguros ayudaron a desarrollar la estadística; el
primer censo de población en España se refiere al año 1860. Las compañías de seguros
necesitan tablas de esperanza de vida.
Parte del desprestigio de la estadística es porque a veces se utilizan datos numéricos
para apoyar razonamientos falsos.

2. APLICACIONES DE LA ESTADÍSTICA EN LAS CIENCIAS SOCIALES


Las aplicaciones de la estadística en las ciencias sociales son muy variadas:
1. resumen de los datos y extracción de información relevante de los mismos,
e.d., de las mediciones observadas;
2. búsqueda y evaluación de modelos y pautas que ofrecen los datos, pero que se
encuentran ocultos por la inherente variabilidad aleatoria de los mismos;
3. contribuir al diseño eficiente de experimentos y encuestas;
4. facilita la comunicación entre los científicos, ya que será más fácil comprender
la referencia a un procedimiento estándar sin necesidad de mayor detalle.

3. ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL


La estadística cumple dos funciones fundamentales, que se van a definir a su vez en dos
tipos de estadística:
1. LA ESTADÍSTICA DESCRIPTIVA; conjunto de técnicas para la reducción de
datos cuantitativos y cualitativos de una población o una muestra a un número más pequeño y
de lectura más simple, de modo que podamos caracterizar de forma resumida los valores
adoptados por las variables de nuestro estudio. La principal característica es que las
conclusiones no superan el límite del colectivo estudiado.
2. LA ESTADÍSTICA INFERENCIAL; conjunto de técnicas para tomar decisiones
acertadas que ayuden a los investigadores a hacer inferencias (= deducciones) de las muestras
a las poblaciones y, en consecuencia, a comprobar hipótesis relativas a la naturaleza de la
realidad social mediante un proceso de deducción - inducción. Se ocupa de la forma en la que
se pueden obtener muestras fiables y los resultados obtenidos en ellas se pueden hacer
extensibles a la población en general. La principal característica es que las conclusiones
superan el límite del colectivo estudiado.
Algunos científicos no distinguen entre las dos ramas mencionadas de la estadística y
quizá desde un punto de vista estricto no exista tal división.
La estadística tiene una naturaleza dual; de un lado representa una rama de las
matemáticas, de otro trabaja con conceptos abstractos.

4. RELACIÓN ENTRE ESTADÍSTICA Y SOCIOLOGÍA


Hemos de ser conscientes de las dificultades que plantea el análisis estadístico del
mundo social por varios factores, p.e. la medición de fenómenos, la subjetividad.

1
Estadística aplicada a las ciencias sociales

En el tratamiento estadístico daremos el error con el que trabajaremos numéricamente y


la fiabilidad con que hacemos la investigación.
Hemos de saber que la Ciencia Estadística al dar el resultado de fenómenos sociales es
acertada, e.d., no falla el instrumento si está bien utilizado.
Si el problema que nos ocupa no está teóricamente bien definido, de poco servirá la
utilización de un gran aparato estadístico. La estadística es siempre una buena ayuda, pero
nunca un sustituto para un buen razonamiento teórico y un buen quehacer metodológico. Es un
instrumento de la Sociología.
Los fundadores de la sociología reconocieron la importancia de la obtención de
información cuantitativa relevante sobre los fenómenos sociales y de su tratamiento estadístico
para construir una ciencia sobre la sociedad. "La estadística expresa cierto estado del alma
colectiva" (Durkheim).
A finales del siglo XIX los sociólogos disponían de pocos datos pero de mucho genio
creador para las bases teóricas; hoy en día se dispone de un mar de datos sociológicos, pero
los avances teóricos son muy pobres. El análisis multivariable puede suponer una gran ayuda.

Términos:
En los cuestionarios se incluyen preguntas sobre la edad, el nivel de educación, religión,
etc. Estos datos son denominados variables. El "objeto" de la variable es la unidad de análisis,
p.e. un individuo, familias, partidos políticos.
Una población estadística o universo lo forman el conjunto de todos los valores de las
variables que desea medir el investigador en todas las unidades de análisis. Pueden ser finitas
o infinitas.
Los sociólogos seleccionan a un subconjunto de valores llamados muestra estadística.
A la obtención de muestras que sean suficientemente representativas de la población que se
pretende estudiar dedican los sociólogos notables esfuerzos, ya que se ahorra tiempo y costos.
La estadística debe medir el universo real y por ello se basa en medidas sujetas a error,
pues en lo real nunca se puede alcanzar la exactitud perfecta. Uno de los mayores problemas
es que el sociólogo no influya excesivamente en la alteración de los fenómenos con su
presencia y sus instrumentos de medida.
parámetros: observación que se refieren a una población;
estadísticos; observaciones que se refieren a una muestra.

2
Estadística aplicada a las ciencias sociales

Tema 2: EL PROBLEMA DE LA MEDICIÓN EN SOCIOLOGÍA


1. EL PROBLEMA DE LA MEDICIÓN EN SOCIOLOGÍA
En primer lugar hemos de medir los conceptos; hay que cuantificar las variables que
definen el fenómeno social.
La medición sería la fase intermedia:
1. razonamiento teórico
2. medición
3. introducción de los métodos estadísticos de investigación.
La combinación ponderada de valores que toman cada uno de los indicadores (p.e.
nivel de ingresos, años de escuela y ocupación) forman un índice (status socioecómico), que
tomará valores numéricos concretos.
El empleo de las herramientas estadísticas requiere que las variables sociológicas sean
cuantificadas siguiendo el nivel de medición que las propiedades exigen.
El procedimiento de medición se busca fijándose en dos aspectos:
• la fiabilidad; propiedad del instrumento que le permite que al ser utilizado repetidas
veces bajo idénticas circunstancias produzca iguales efectos.
• la validez; que el instrumento mida lo que realmente queremos medir.
Validez interna: ¿se obtendrían resultados diferentes si se hubieran utilizado
procedimientos diferentes?
Validez externa: ¿cuán generalizable es el procedimiento utilizado?
Cualquier proceso de medición debe ser exhaustivo, e.d., con categorías
suficientes en las que puedan clasificarse cada uno de los casos considerados. Las
categorías deben ser mutuamente excluyentes, e.d., que debe ser posible clasificar cada
caso individual tan sólo en una categoría. También debe ser lo más preciso posible, e.d,
que haya el mayor número de distinciones.

2. TIPOS DE MEDICIÓN
Los distintos niveles forman una escala acumulativa de tipo ascendente; el nivel ordinal
posee las propiedades del nominal. Una de las metas más perseguidas por los científicos del
comportamiento es la de obtener medidas, cuyas naturalezas admitan el nivel de medición
intervalar.
1. Nivel nominal
Es el nivel más bajo de medición y permite la clasificación, p.e. religión, sexo, etc., sin
que uno sea superior a otro.
No puede teóricamente realizarse directamente operaciones matemáticas con ellas. Se
sustituyen los objetos reales por números o símbolos indicando sólo la diferencia respecto a
una cualidad dada, para poder realizar operaciones matemáticas.

2. Nivel Ordinal
Nos encontramos con un nivel que permite clasificación y orden de mayor a menor o
viceversa, p.e. ingresos medios según clase baja, media y alta.
No ofrece ningún tipo de información sobre la magnitud de las diferencias entre las
categorías, sólo que 3 > 2 > 1.
3. Nivel Intervalar
Este nivel nos clasifica, ordena y nos indica la distancia entre distintas categorías.
Lo característico es la existencia de una unidad de medida común y constante que permite
asignar un número real a todos los pares de objetos del conjunto ordenado, p.e. el coeficiente
de inteligencia, grados de temperatura.
En este nivel de medición el punto cero está arbitrariamente determinado y no
representa ausencia completa de la característica que se mida.
Sigue la discusión sobre la viabilidad del empleo de escalas de intervalo continuas, pues
se argumenta que al tener en cuenta el factor psicológico se pierde la propiedad de igualdad de
las diferencias entre los intervalos, p.e. no es lo mismo ingresos de 50 - 70.000 que de 500 -
520.000. Pero éste es un hecho social que habrá que tener en cuenta al interpretar los
resultados, no al realizar los cálculos estadísticos.
4. Nivel de proporción

3
Estadística aplicada a las ciencias sociales

Es similar al anterior, ya que permite clasificación, orden y distancia, pero el cero


en este nivel es absoluto y representa la ausencia completa de la característica que
mide, p.e. el peso, la masa, el tiempo.
La distinción con la anterior es puramente académica, ya que una vez establecida la
magnitud de la unidad es casi siempre posible concebir 0 unidades.
Si se utilizara un procedimiento estadístico poco apropiado para niveles bajos de
medición con puntuaciones definidas a un nivel de medición más alto, no se cometería un error
técnico, sino que se produciría una pérdida de información, dado que las propiedades de los
niveles de medición son acumulativas.
Situación laboral (ocupado, jubilado, parado) NOMINAL
Posición ideológica (extrema izq., izq., etc.) ORDINAL
Ingresos mensuales de familias madrileñas INTERVALO (=
proporción)

3. TIPOS DE VARIABLES
Variable independiente; son las que influyen en las dependientes; permiten conocer
porqué varía la variable dependiente de la forma en la que lo hace.
Variable dependiente; es la que atrae primordialmente la atención del investigador y
cuya variación trata de explicar.
Variable interviniente; se supone que tiene un efecto determinado sobre la variable
dependiente que puede ser controlado por la variable independiente.
Ej.: estudio sobre las causas del divorcio. La situación matrimonial es la variable
dependiente, que habría que explicar a partir de otras variables independientes.
Las variables son:
* cualitativas: no pueden adoptar valores numéricos
* cuantitativas: sí pueden adoptar valores numéricos:
** discretas; valores con números enteros, nº hijos.
** continuas: con infinitos valores fraccionados, p.e., temperaturas.
La mayoría de las variables nominales son discretas.

4
Estadística aplicada a las ciencias sociales

Tema 3: ESTADÍSTICA DESCRIPTIVA UNIVARIABLE


1. LA LÓGICA DEL ANÁLISIS COMPARATIVO
Hablamos de Estadística Descriptiva Univariable cuando es sólo una variable la de
estudio.
La información utilizada en el análisis sociológico está basada muchas veces en la
comparación, p.e. el porcentaje de abstención en una CC.AA. fue mayor que en otra.

2. TIPOS DE COMPARACIÓN:
Insistimos en que el análisis estadístico sólo puede ser relevante y fructífero una vez se
hayan resuelto, al menos suficientemente, los problemas de teoría, conceptualización, medición
y diseño que toda investigación comporta:
• entre grupos, dentro del mismo estudio o entre diferentes, p.e. entre un grupo
experimental al que se le ha sometido a un tratamiento conocido (p.e. alumnos ↔ educación
especial) y un grupo de control no sometido a dicho tratamiento.
• entre un individuo y un grupo, p.e. nota de 1 alumno y la media de una clase,
delincuencia de una ciudad con la sociedad en general. Lo importante consiste en delimitar y
definir las características del grupo que se compara con las correspondientes al individuo.
• entre el resultado de un estudio y uno estándar, p.e. paro. La teoría sociológica está
repleta de resultados que pueden servirnos para contrastar los hallazgos de nuevas
investigaciones. Tales comparaciones servirán además para contrastar en el sentido de
modificar o rechazar la teoría que sirve como comparación estándar.

3. OPERACIONES BÁSICAS DE COMPARACIÓN


3.1. Organización de datos
Una vez se hayan obtenido los datos que nos interesan conviene ordenarlos según algún
criterio, que nos permitirá observar con mayor facilidad la distribución de los datos y el lugar
dónde termina un grupo y comienza otro.
3.2. Tipos de distribuciones
El agrupamiento de datos no sólo reporta ventajas, sino que presenta el inconveniente
del "error de agrupamiento", que son las alteraciones que se producen al realizar algunos
agrupamientos al variar N.
• DISTRIBUCIÓN DE FRECUENCIAS; consiste en ordenar los datos de manera que en
una columna aparezca la variable (sea del tipo nominal, ordinal o intervalar) y en la otra
columna aparezcan las frecuencias absolutas (e.d. el número de veces que se repite cada
categoría).
• DISTRIBUCIÓN PORCENTUAL; primero hay que calcular la proporción que es igual al
número de casos en la categoría dividida por el número total de casos en la distribución
(p=a/N). El valor de una proporción no puede ser mayor que 1. Los % se obtienen a partir de
las proporciones multiplicado por 100. La suma de los % es 100. En lugar de los valores
absolutos en una distribución de frecuencias se utilizan los correspondientes %. Facilita la
comparación y evita una importante fuente de error. Es conveniente que el valor de N sea
superior a 50; si no es mejor ofrecer el número real de casos. Tampoco los números muy
grandes son convenientes, p.e. en lugar de decir que los visitantes del año pasado aumentaron
un 1200% es mejor decir que aumentó 12 veces.
• DISTRIBUCIÓN ACUMULADA; se forma al indicar para cada categoría el número de
casos por debajo de dicha categoría. Son útiles para la comparación cuando se desea
comparar la forma en que los casos se distribuyen a lo largo de una escala.

Edad n % Frec. Acumulada %


acumulado

de 18 a 20 10 8,3 10 8,3
de 21 a 25 14 11,7 24 20,0
de 26 a 35 23 19,2 47 39,2

N = 120

4. REGLAS GENERALES PARA FORMAR DISTRIBUCIONES DE FRECUENCIAS


1. Distribución de frecuencias para datos nominales

5
Estadística aplicada a las ciencias sociales

Consiste en 2 columnas:

x (sexo) n
Hombres 25
Mujeres 25
∑n = N = 50

2. Distribución de frecuencias para datos ordinales


Se representa el grado en que está presente una característica en particular:

x (estatus) n
clase alta 5
clase media 30
clase baja 15
∑n = N = 50

3. Distribución de frecuencias para datos intervalares


En una columna aparecen los valores de la variable y en otra las frecuencias. Para
facilitar la lectura se constituyen las distribuciones de frecuencias agrupadas.

x (edad) n Límite real


20 - 30 10 19,5 - 30,5
30 - 40 20 30,5 - 40,5
40 - 50 20 40,5 - 50,5
∑n = N = 50

n = frecuencia absoluta / N = frecuencia total / x = variable


* Intervalo de clase; cada grupo de valores de la variable en una distribución.
* Tamaño o amplitud del intervalo de clase; diferencia entre el límite superior e inferior
(a= Ls - Li); puede ser idéntico o diferente en cada intervalo.
3.1. Conversión a una distribución de frecuencias agrupadas (variable discreta)
x (edad) n
10 3
15 2
16 6
20 9
25 6
26 6
35 15
40 16
45 17
50 18
∑n = N = 98

1. Definir la diferencia entre el máximo valor y el mínimo: Rv = 50 - 10 = 40


2. Nº de clases que desean formarse (ideal entre 5 y 15): 40 : 5 = 8
3. x (edad) n
10 - 18 11
18 - 26 21
26 - 34 0
34 - 42 31
42 - 50 35
∑n = N = 98

5. DESARROLLO DE LAS TABLAS DE DISTRIBUCIÓN DE FRECUENCIA


* Marca de clase (xi); es el punto medio entre el límite superior e inferior del intervalo
de clase:
x n

6
Estadística aplicada a las ciencias sociales

10-20 10 Xi = Ls + Li : 2 = 10 + 20 : 2 = 15

Consiste en definitiva en pasar de la variable de tipo continuo a una variable de tipo


discreto.
* Límites reales de clase;

1. x 2. x 3. x 4. x
15 - 20 10 - 20 15 - 20 15 - 19,9
20 - 30 21 - 30 20,1 - 30 20 - 29,9
30 - 40 31 - 40 30,1 - 40 30 - 39,9
Los más utilizados son 1. y 2.; porque el valor 20 en el primer caso ¿dónde lo
incluiríamos? El segundo caso es el más preciso.
5.1. Cuartiles, deciles y percentiles
Podemos dividir las distribuciones, no ya en 2 partes que nos dejen el 50% a cada lado,
sino en 4 (cuatriles), en 10 (deciles) y en 100 (centiles).

Q1 Q2 Q3 Q4
--------------------------------------------------------------------
25% 25% 25% 25%

Q1 = valor de la variable que deja a su izquierda el 25% y a su derecha el 75%


Q2 = Me; valor de la variable que deja a su izquierda el 50% y a su derecha el 50%
Q3 = valor de la variable que deja a su izquierda el 75% y a su derecha el 25%
Q4 = coincide el último valor de la variable, que deja a su izquierda el 100%

Nx/4 - Na - 1
Qx = Li + ----------------- * C
n

Nx/10 - Na - 1
Dx = Li + ------------------- * C
n

Nx/100 - Na - 1
Cx = Li + -------------------- * C
n

C20 deja por debajo de su valor un 20% de los casos.

5.2. Razón
P.e. si en un parlamento hay 160 diputados de izquierda, 150 de derechas y 80
regionalistas, la razón de los diputados de izquierda a los de derecha = 160/150, y la razón de
los de izquierda y regionalistas a los de derecha = 160 + 80/150.

nº de casos en una categoría o valor


Razón = ---------------------------------------------------
nº de casos de otra

Las tasas son un tipo de razón para números grandes. Las tasas de crecimiento relativo
son muy utilizadas, p.e. tasa de crecimiento de la renta per cápita que ha pasado en 1960 a
1970 de 1500 a 2000. Si el número es negativo es que hay una tasa de decrecimiento.

2000 - 1500
---------------- = 0,33 x 100 = 33%
1500

6. TÉCNICAS BÁSICAS DE REPRESENTACIÓN GRÁFICA


La representación gráfica se realiza no tanto con fines analíticos como para ofrecer una
imagen asequible de los resultados de las investigaciones.
La mayoría de las mediciones en sociología se realizan a escalas que parten desde 0 en
dirección positiva, por lo que muchas veces se omiten los valores negativos.

7
Estadística aplicada a las ciencias sociales

1. Histograma
Si la variable es nominal, los rectángulos del histograma se separan ligeramente para
visualizar que se trata de categorías diferentes.
Los ordinales se tratan como los intervalares, juntando, si lo permite, los rectángulos.
2. Polígonos
Es una figura que se cierra al unir los puntos medios de cada intervalo a una altura
proporcional a la frecuencia.
El polígono queda cerrado y el área que contiene es igual al área de la suma de los
rectángulos del histograma.
3. Ojivas
Son polígonos de frecuencias acumuladas. El primer punto vendrá dado por el límite real
inferior del primer intervalo; para los restantes valores de 'x' se utilizan los valores del límite real
inferior de cada intervalo (de 43 a 45 - menos de 42,5; de 46 a 48 - menos de 45,5).
Si los valores 'x' son 43 o más ; 46 o más se produce una ojiva de pendiente inversa.
4. Línea de grafos
Muestra el valor de una variable dependiente (Y) para cada valor de la variable
independiente (X). La línea se traza por los puntos, pero no se cierra sobre X, ya que el área
bajo la línea no tiene ninguna importancia. Lo que interesa es la forma que adopta, como crece
y decrece.

8
Estadística aplicada a las ciencias sociales

Tema 4: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN


UNIVARIABLE
1. CARACTERÍSTICAS DE UNA DISTRIBUCIÓN UNIVARIABLE
La clasificación de datos cuantitativos y la construcción de una distribución de
frecuencias constituyen el primer paso en el trabajo de organización y análisis.
Para ciertos fines la misma distribución de frecuencias puede resumirse y condensarse,
hasta quedar reducida a 2 ó 3 cifras significativas y representativas de la distribución.
La uniformidad en el comportamiento de masas de datos hace posible el desarrollo de un
método generalizado para organizar, analizar y comparar mediciones obtenidas de distintos
campos de estudio científico.
La comparación de un gráfico de líneas de grafos nos ayuda a ver que las distribuciones
se conocen por su
- Tendencia Central
- Dispersión
- Forma
Las medidas de TENDENCIA CENTRAL, nos informan sobre la concentración de
número de casos. Las más utilizadas son:
- Media y media ponderada
- Mediana
- Moda
- Cuartiles, Deciles y Percentiles
Las medidas de DISPERSIÓN nos van a mostrar la dispersión del número de casos:
- Rango o recorrido
- Desviación Media
- Varianza
- Coeficiente de variación de Pearson
Las medidas de distribución incluyen las llamadas de FORMA, que son las curvas de los
datos. Adoptarán distintas formas según las distribuciones sean normales (concentración en el
centro) o asimétricas (concentración al extremo o por igual en todo el gráfico).

2. MEDIDAS DE TENDENCIA CENTRAL (son estadísticos)


Entendemos por 'tendencia central' la tendencia de las observaciones a agruparse
en torno a un valor particular. Hay una medida de tendencia central adecuada a cada nivel
de medición.

2.1. MODA(nominal, ordinal e intervalar)


Valor que se presenta con mayor frecuencia; es el número más común de la
distribución (el pico más alto en un polígono).
En las distribuciones
a) 233355 Moda = 3; unimodal
b) 632255 Moda = 2 y 5; bimodal (o multimodal)

En datos agrupados la moda está en el intervalo con más frecuencia que se denomina
clase modal.
De 9 a 11 10
De 7 a 8 7
De 4 a 6 15 Moda = 5

Li + Ls
Mo = ---------
2

La Moda tiene la virtud de ser fácilmente reconocible, pero el inconveniente de no ser


necesariamente única (p.e. multimodales).
Moda para variable de tipo continuo con amplitud constante:

ni+1
Mo = Li + ------------------------- * C
ni +1 - ni -1

9
Estadística aplicada a las ciencias sociales

Li = límite inferior del intervalo modal


ni + 1 = frecuencia absoluta del intervalo posterior al intervalo modal
ni - 1 = frecuencia absoluta del intervalo anterior al intervalo modal
C = amplitud del intervalo modal
Moda para variable de tipo continuo con amplitud variable:

ni+1 * Ci - 1
Mo = Li + ----------------------------------------- *C
ni +1 * Ci - 1 + ni -1 * Ci + 1

Ci - 1 = amplitud del intervalo anterior al intervalo modal


Ci + 1 = amplitud del intervalo posterior al intervalo modal

2.2. MEDIANA (ordinal e intervalar)

Es el valor que deja por encima y por debajo a la mitad de las puntuaciones de una
distribución. Para distribuciones intervalares:
N/2 - Na - 1
ME = Li + --------------- *C
n
N/2 = frecuencia total : 2 / Na - 1 = frecuencia acumulada anterior al intervalo mediano
Hay que utilizar el intervalo, cuya frecuencia acumulada Na incluya N/2. Es poco
influida por valores extremos, pues es sólo el punto que divide todos los casos en 2.

2.3. MEDIA ARITMÉTICA (intervalar)


Es la suma de todas las puntuaciones de una distribución dividida por el número
de casos. Se denota por Χ para muestras y µ para poblaciones.
Tiene como ventaja que es bastante estable de una muestra a otra, e.d., que si tomamos
varias muestras de una población sus medias tienden a diferir menos que otras medidas de
tendencia central. Es una buena medida para comparaciones.
Para datos agrupados: si la variable es de tipo continuo hay que calcular la marca de
clase 'xi' para después utilizar la fórmula.

∑xn
Χ = -------
N

∑xn = sumatorio del producto de cada valor 'x' por su correspondiente frecuencia 'n'.
N = frecuencia total.

3. COMPARACIÓN ENTRE LAS DIVERSAS MEDIDAS DE TENDENCIA CENTRAL


Hay que pensar qué se va a hacer una vez hallada la medida de tendencia central. Si se
puede elegir conviene la Χ por su estabilidad y sobre todo si pensamos hacer un
estudio posterior.
Hemos visto que la Χ utiliza más información que la Me, en el sentido de que todas las
puntuaciones entran en el cálculo de la Χ , mientras que el cálculo de la Me tan sólo implica la
puntuación del caso medio.
Por ello la Χ queda afectada por cambios en los valores extremos, cosa que no ocurre
en el caso de la Me.
La media Χ nos indica que repartida toda la distancia entre todos los alumnos de forma
igual cada uno recorre 8,98 Km.
La moda Mo indica que el número más numeroso recorre 8,05 Km.
La mediana Me parte en dos el grupo de alumnos de forma que la mitad recorre menos
de 8,5 km. Y la otra mitad más de 8,5 Km.

10
Estadística aplicada a las ciencias sociales

Tema 5: VARIACIÓN O DISPERSIÓN DE UNA


DISTRIBUCIÓN
Las medidas de dispersión o variación deben acompañar a las medidas de
Tendencia Central para conocer hasta qué punto la medida de Tendencia Central elegida
representa o no a la distribución de frecuencias.
Cuanto menor sea la medida de dispersión mayor será la representatividad de la
medida de Tendencia Central y vicecersa.

1. MEDIDAS DE VARIABILIDAD ABSOLUTA


1.1. RANGO
Es la diferencia entre el mayor y el menor número. Es una medida muy simple y sólo nos
da el abanico de elementos que existe en la distribución. Es poco fiable, pues no tiene en
cuenta los valores medios.

Edad (x)
15
16
18 R = 20 - 15 = 5
20

1.2. DESVIACIÓN MEDIA

∑|x - Χ |
Dm = ----------- = Χ =6
N

La desviación media es el promedio de las desviaciones a la media y viene dada en


números absolutos.

Ej.: |2-6| + |4-6| + |6-6| + |8-6| + |10-6| |-4| + |-2| + |0| + |2| + |4|
Dm = ---------------------------------------------- = -----------------------------------
5 5
4+2+0+2+4
Dm = ------------------------- = 2,4
5
El valor absoluto de un número es el mismo número sin asociarle signo alguno y se
indica por | |.
En distribuciones de frecuencia, hay que calcular el punto medio:

∑|xi - Χ | n
Dm = --------------
N
En general cuanto mayor sea el valor de la 'Dm' mayor será la variación entre las
diferentes puntuaciones.
1.3. DESVIACIÓN TÍPICA Y VARIANZA
Puesto que la desviación típica refleja la dispersión de las puntuaciones, resulta en cierto
sentido una estimación del error.
La desviación típica es la medida de dispersión o variabilidad por excelencia y se
utiliza con la Χ ; indica el grado de dispersión de los valores respecto a la Χ . Se denota
por σ cuando son parámetros y por S cuando son estadísticos.
Son medidas muy parecidas, pero en lugar de tomar los valores absolutos de las
desviaciones toman el cuadrado de la mismas. Los números negativos al cuadrado son
positivos.
Si dos distribuciones tienen la misma Χ para diversa dispersión, resulta más precisa la
de menor desviación estándar.

∑ (x - Χ )2 n
Varianza: S =σ =
2 2
-----------------
N

11
Estadística aplicada a las ciencias sociales

Es el valor medio del cuadrado de las desviaciones: tiene el inconveniente de medir la


desviación en unidades cuadradas.

√ ∑ (x - Χ )2 n
Desviación típica: S=σ = -----------------
N

Es la raíz cuadrada de la varianza.


Propiedades de la DESVIACIÓN TÍPICA:
1. nos va a dar la homo- o heterogeneidad de una distribución;
2. si todos los valores en la distribución son iguales, la desviación típica S = 0;
3. es siempre un número positivo;
4. varía de distribución a distribución aún con las mismas Χ ;
5. puesto que es la base de la inferencia, podemos decir que cuando la S es muy alta,
las predicciones nunca pueden ser muy buenas.
6. los valores extremos tienen un gran peso, ya que son elevados al cuadrado.

Los programas estándar de análisis de datos sociológicos, sobre todo, de los


provenientes de encuestas, calculan ya como parte de su rutina, la Χ y la S.

2. MEDIDAS DE VARIABILIDAD RELATIVA


Vienen en % y son más fáciles de interpretar y comprender. Se utilizan:
1. cuando hablamos de unidades de medida desiguales, p.e. coeficiente de
inteligencia;
2. cuando son promedios desiguales, pero con iguales unidades de medida, p.e.
edad en dos grupos.
2.1. COEFICIENTE DE VARIABILIDAD DE PEARSON
Se utiliza cuando hay una Χ , aunque no debe utilizarse cuando está próxima a 0. Mide
la dispersión relativa.
Es útil para comparar diversos grupos en relación a su relativa homogeneidad cuando los
grupos tienen Χ diferentes.

S Desviación típica
V = Cv = --- * 100 = ------------------------
Χ Media aritmética

Ej.: Católicos frente al aborto V = 2/3,5 = 0,57 = 57%


No creyentes V = 2,4/5,4 = 0,44 = 44 %

La desviación típica del grupo de católicos es el 57% de la Χ , valor superior al 44% de la


Χ que vale la desviación típica entre los no creyentes.

2.2. PUNTUACIONES NORMALIZADAS O UNIDADES Z


Hasta ahora hemos visto procedimientos estadísticos que comparan grupo a grupo o con
grupos tipo estándar.
Son ideales para comparaciones entre 1 individuo y 1 grupo. Es el número de unidades
de desviación típica que un individuo queda por encima o por debajo de la Χ de su0
grupo.
Las puntuaciones que se han transformado o convertido en distancias de desviación
estándar, a partir de la Χ , se conocen como puntuaciones Z, e.d., Z determina la posición
relativa de una puntuación dentro de su propia distribución.
En la puntuación normalizada se elimina el efecto de la Χ por sustracción y se expresa
la diferencia en unidades de desviación típica al dividir por ella.
Las cantidades de las unidades Z son adimensionales, e.d., son independientes de las
unidades empleadas.

x-Χ
Z= -------
S

12
Estadística aplicada a las ciencias sociales

Χ = media aritmética de la distribución


S = desviación típica de la distribución
Propiedades de las unidades Z:
1. si se transforma una distribución en unidades Z, no varía la forma de la distribución
original (si es asimétrica, lo seguirá siendo);
2. La media Χ de los valores de Z = 0
3. La S2 = S = 1.
3. ∑Z2 = N

13
Estadística aplicada a las ciencias sociales

Tema 6: FORMA DE UNA DISTRIBUCIÓN


Una distribución de frecuencias queda bastante bien caracterizada cuando
conocemos su medida de tendencia central y su medida de variabilidad, pero queda aún
mejor caracterizada si conocemos su grado de asimetría y su apuntamiento o kurtosis,
e.d., si conocemos la forma de distribución.
Estas medidas de asimetría que vamos a estudiar parten del hecho de que todos los
valores de la curva normal teórica se representan simétricamente distribuidas en torno a la
media aritmética (Χ ).
1. CARACTERÍSTICAS DE LA FORMA DE UNA DISTRIBUCIÓN

1.1. MEDIDAS DE ASIMETRÍA


Es fundamental conocer si las observaciones están dispuestas respecto a un valor
central o se dipersan asimétricamente respecto a dicho valor.
Si la curva es simétrica (= normal) la Χ , Me y Mo coincidirán en un punto.

Unimodal y simétrica Bimodal Multimodal


Χ = Me = Mo
Corresponde al investigador decidir cuantas modas considera relevantes. Hay dos tipos
de asimetría:

1. DIRECTA O POSITIVA; muchas puntuaciones bajas y pocas altas

Mo < Me < Χ

2. INVERSA O NEGATIVA; muchas puntuaciones altas y pocas bajas

Χ < Me < Mo

COEFICIENTE DIRECTO DE ASIMETRÍA O SESGO


Es el más fiable y utilizado para medir la asimetría.
∑ (x - Χ )3
-------------
N
B1 = a3 = ----------------
S3
Para datos agrupados:
∑ (xi - Χ )3 n
---------------
N
B1 = a3 = ----------------
S3
3
a =0 ==> simetría normal; Χ = Me = Mo

14
Estadística aplicada a las ciencias sociales

a3 = + ==> asimetría positiva; Mo < Me < Χ


a3 = - ==> asimetría negativa; Χ < Me < Mo

1.2. MEDIDAS DE APUNTAMIENTO O CURTOSIS


Mide el grado de concentración de frecuencias en un punto o intervalo de puntos
de la distribución (normalmente la Mo). Tiene en cuenta la distribución de las observaciones
entre las clases próximas a la Χ y las clases situadas en los extremos o colas de la
distribución.
Cuando la curva presenta las puntuaciones más normalmente distribuidas
==>> curva mesocúrtica

Cuando la curva presenta un gran apuntamiento ==>> curva leptocúrtica

Cuando la curva es achatada, y por tanto no hay concentración de frecuencias con


respecto a un punto justo de la distribución ==>> curva platicúrtica

COEFICIENTE DE EXCESO
Es la medida que nos permite conocer el grado de apuntamiento o curtosis.
∑ (x - Χ )4
---------------
N
B2 = a4 = ---------------- -3
S4
Para datos agrupados:
∑ (xi - Χ )4 n
---------------
N
B2 = a4 = ---------------- -3
S4
a4 = 0 ==>> mesocúrtica; bien distribuida
a4 = + ==>> leptocúrtica; mayor concentración
a4 = - ==>> platicúrtica; menor concentración
Puede presentarse una asimetría de izquierda y ser con respecto a la kurtosis platicúrtica
o leptocúrtica y viceversa.

1.3. OTRAS FORMAS DE CURVAS


Curva J:
Casi todos los datos se
concentran en un extremo
de la escala.
Curva rectangular:
Cuando una distribución
tiene idénticas frecuencias
en todas las categorías.
Curva en forma de U:
Aparece en distribuciones
bimodales con las modas en
ambos extremos.

15
Estadística aplicada a las ciencias sociales

Tema 7: INTRODUCCIÓN A LA ESTADÍSTICA


INFERENCIAL
1. ELEMENTOS BÁSICOS DE LA ESTADÍSTICA INFERENCIAL
La Estadística Inferencial se puede considerar como el estudio de grupos
pequeños (muestras), a fin de sacar conclusiones respecto a grandes grupos de
personas (poblaciones). La utilización de muestras es muy práctica para ahorrar tiempo y
recursos. La sociología aspira a establecer principios científicos que nos permitan
predecir la conducta social.
Las medidas resumen que hemos estudiado en la estadística descriptiva no se pueden
utilizar para obtener generalizaciones que sean aplicables a individuos. El valor de una teoría
científica radica en su capacidad para predecir más allá de los datos que sirvieron de base para
formularla.
Cuando nos referimos a las características de una población, hablaremos de
parámetros (letras griegas; µ , σ ) mientras que si nos refrimos a las características de una
muestra tendremos estadísticos (letras latinas; Χ , S).
Los parámetros, que son valores fijos de la población, suelen desconocerse; los
estadísticos que varían de muestra a muestra se utilizan para estimar los parámetros.
La Estadística Inferencial se basa en la la teoría de las probabilidades y la teoría del
muestreo.
Un fenómeno se dice aleatorio si puede dar lugar a varios resultados sin que pueda ser
posible enunciar con certeza real cuál va a ser el resultado del experimento. El espacio
muestral sería el conjunto de los posibles resultados de ese experimento aleatorio (∈).
La P enlaza la estadística descriptiva con la inferencial; permite que los datos obtenidos
en una muestra puedan ser generalizados.

2. NOCIONES BÁSICAS DE PROBABILIDAD Y DEFINICIÓN


La probabilidad matemática y las leyes del azar, se refieren tan sólo a sucesos
repetidos bajo condiciones determinadas y constantes (p.e. no tiene sentido "es probable
que mañana llueva", porque no es un suceso repetitivo).
Según esta descripción, tan sólo se podrían aplicar las probabilidades a sucesos tales
como la tirada de dados, los juegos de azar y otros sucesos en los que prevalece a largo plazo
la variación aleatoria.
El investigador tiene dos métodos disponibles: el apriorístico y el empírico. En casos
como juegos de dados se utiliza la probabilidad apriorística, pero hay muchos otros casos
dónde no se puede.
Las probabilidades empíricas se basan en el supuesto de que la proporción de aparición
de los sucesos observados en el pasado persistirán en el futuro, ej. las compañías de seguros
estiman las tasas de fallecimiento para establecer los baremos de las pólizas de los seguros de
vida.
Definición: es el número que caracteriza la posibilidad de que se produzca un suceso si
hay 'n' resultados igualmente probables; es la frecuencia relativa con la que ocurre dicho
acontecimiento.
PROPIEDADES MATEMÁTICAS DE LAS PROBABILIDADES
1. Si P(A) = 1 el acontecimiento A ocurrirá seguro
Si P(A) = 0 no es posible que A tenga lugar.

casos favorables
P(A) = ----------------------
casos posibles

0 ≤ P(A) ≤ 1
2. REGLA DE LA ADICIÓN; saber qué probabilidad hay de que ocurra A ó B
2.1. Fenómenos mutuamente excluyentes:

P(A ó B ó C) = P(A) + P(B) + P(C), etc.

La probabilidad de que A no suceda será: 1 - P(A) = P(B) + P(C)


2.2. Fenómenos no mutuamente excluyentes:

16
Estadística aplicada a las ciencias sociales

P(A ó B) = P(A) + P(B) - P(AB)


P(AB) = la probabilidad de obtener simultáneamente A y B; se sustrae porque la
probabilidad de ocurrencia conjunta se ha contado dos veces, p.e. en 1 elección
extraer a 1 licenciado en políticas o a 1 en derecho; puede darse una persona
licenciada en derecho y en políticas.
3. REGLA DE LA MULTIPLICACIÓN;
nos permite saber si dos o más sucesos pueden
ocurrir a la vez.

3.1. Fenómenos mutuamente excluyentes: P(A y B) = 0


no pueden suceder a la vez.

3.2. Fenómenos no mutuamente excluyentes

3.2.1. Sucesos independientes; si el hecho de que ocurra A no tiene efecto sobre


la probabilidad de que ocurra B.
P(A y B y C) = P(A) P(B) P(C)
3.2.2. Sucesos dependientes; = probabilidades condicionales: el hecho de que
ocurra A afecta a la probabilidad de que ocurra el segundo.
P(A y B) = P(A) P(B/A) = P(B) P(A/B)
P(B/A) significa la probabilidad que ocurra el suceso B una vez que ha ocurrido A.
P(A y B y C) = P(AB) P(C/AB) = P(A) P(B/A) P(C/AB)
Un modelo que explica cómo se desarrollan los sucesos de un fenómeno dado en el
tiempo se denomina un proceso; y si está regido por leyes de probabilidad se denomina
proceso estocástico. La palabra estocástico significa que los sucesos son probabilísticos en
lugar de determinísticos, e.d., es posible asignar probabilidaddes a la ocurrencia de tales
sucesos.

3. COMBINATORIA
El análisis combinatorio se utiliza para la obtención de probabilidades de un suceso
complejo, cuando la enumeración de los casos resulta difícil y pesada; p.e. cuando se tira una
moneda es fácil, pues sólo hay dos soluciones. Es para lograr el número de casos posibles.
3.1. Variación
Se refieren a los distintos grupos que se pueden formar con 'm' elementos tomados de 'n'
en 'n', siendo n < m, con la condición que dos grupos serán distintos si difieren en el orden o en
la naturaleza de sus elementos.
m!
Vm,n = ----------
(m - n)!

n! = el producto de todos los números naturales desde 1 a n; ej. 4! es 4 * 3 * 2 *1 = 24.


0! = 1
Variación con repetición; cuando se puede dar la repetición de los elementos:
Vm,n = mn
3.2. Permutaciones (ej. pág. 130)
Tenemos permutaciones cuando los grupos varían tan sólo en el orden de los elementos
que lo integran. Pueden considerarse como un caso particular de las variaciones cuando m = n.
Pm,n = n!
Pn,n = n!
Permutaciones con repetición;
n!
PRn= -----------
n1! n2!....nk!
3.3. Combinaciones
Cuando los grupos sólo varían por la naturaleza de sus elementos, sin tener en cuenta el
orden, se obtienen combinaciones.
Se define como los distintos grupos que se pueden formar con 'm' elementos tomados de
'n' en 'n', siendo n < m, con la condición de que dos grupos sean distintos si difieren en la
naturaleza de alguno de sus elementos.

17
Estadística aplicada a las ciencias sociales

(m) m! Vm,n
Cm,n = (----) = ----------- = --------
(n) n! (m-n)! Pn
Propiedades de las combinaciones:
(n) n! n! n!
Cn,n = (--) = ----------- = ------------ = ----- = 1
(n) n! (n-n)! n! 0! n!

(n)
Cn,0 = ---- =0
(0)

(n)
Cn,1 = ---- =n
(1)

18
Estadística aplicada a las ciencias sociales

Tema 8: DISTRIBUCIONES DE PROBABILIDAD


Los sucesos probabilísticos constituyen en sí mismos variables, ya que aparecen
bajo diferentes formas que al estar regidas por el azar son conocidas como variables
aleatorias, p.e. un dado es una variable de tipo cuantitativa con 6 (1-6) formas mutuamente
excluyentes entre sí; una moneda es una variable cualitativa con dos posibles formas (cara o
cruz).
Un experimento aleatorio viene definido por:
1. una variable
2. las diferentes formas que puede adoptar representadas por valores numéricos
3. las probabilidades asociadas a tales formas.
1. Media: µ = np
2. Varianza: σ 2 = npq
3. Desviación típica: σ = √npq
n = tamaño de cada una de las muestras de la distribución.
Error típico: q=1-p
El error típico mide la variación de las frecuencias muestrales de resultados
favorables alrededor de la media de la distribución muestral.
Existe una tabla especial que contiene las probabilidades asociadas a la prueba binomial
cuando p = q = 0,5. (ej. pág. 180 - 181).
Aproximación binomial a normal:
Cuando p = q = 0,5 y 'n' es suficientemente grande la distribución binomial se aproxima a
una distribución normal.

x-µ x - np
Z= ------- = -------
σ √npq

Existen tablas que nos ayudan a saber el % de valores que se encuentran en un área
(p.e. entre 0 y 1,75). Las tablas proporcionan el área entre 0 (la media) y un número positivo. Al
resultar la curva normal simétrica, el área entre 0 y -1,3 es igual al existente entre 0 y 1,3. Los
topes están en -3 y +3.
Al hacer cálculos para unidades Z, se resta 0,5 al valor 'x' cuando es superior a la media
o se suma si es inferior. Este factor corrige el error que resulta al aproximar una distribución
discreta binomial a las variables continuas de la distribución normal.
(x ± o,5) - np
Z= ------------------
√npq

1. DISTRIBUCIONES DE PROBABILIDAD DISCRETA


Distribución binomial
Es la que se aplica en aquellos experimentos aleatorios que cumplen las siguientes
condiciones:
1. El mismo número de experimentos se efectúa 'n' veces.
2. Cada ensayo tiene sólo 2 posibles resultados que denominamos "éxito" (p) y
"fracaso" (q); la suma = 1.
3. El resultado de cada ensayo es independiente de los demás que se realicen.
La suma de las probabilidades p + q = 1; p = 1 - q; q = p - 1.
Existen poblaciones que se pueden considerar que están formadas por tan sólo dos
categorías, p.e. hombre/mujer, rural/urbano, éxito/fracaso.
Por tanto, si pn es probabilidad de que un suceso ocurra y qn de que no suceda, entonces
la probabilidad de que el suceso se presente exactamente 'x' veces en 'n' ensayos, e.d, 'x'
éxitos y 'n-x' fallos viene dado por:
p(x) = Cnx * px * qn-1

n!
p(x) = ---------- * px * qn-1
x! (n-x)!
Ejemplos:

19
Estadística aplicada a las ciencias sociales

1. Qué probabilidad hay de que el Madrid gane 5 de 15 partidos ? (Siendo p = 0,6 q= 0,4)
15!
p(x=5) = ------------ * 0,65 * 0,410 = 2,4 %
5! (15-5)!
2. Qué probabilidad hay de que el Madrid gane al menos 11 ?
p(x ≥ 11) = p(x=11) + p(x=12) + p(x=13) + p(x=14) + p(x=15)
3. Qué probabilidad hay de que gane como máximo 4 ?
p(x ≤ 4) = p(x=0) + p(x=1) + p(x=2) + p(x=3) + p(x=4)
4. Qué probabilidad hay de que gane entre 8 y 11 ?
p(8 ≤ x ≤ 11) = p(x=8) + p(x=9) + p(x=10) + p(x=11)
5. Cuál es la probabilidad hay de que de 10 llamados a fila, al menos 2 sean
objetores ?
p(x ≥ 2) = 1 - [p(x=0) + p (x=1)]

2. DISTRIBUCIÓN DE PROBABILIDAD CONTINUA


Distribución normal
Dentro de las distribuciones de frecuencias hay finitas e infinitas; la distribución normal
es infinita y los extremos de su curva nunca tocan el eje X.
La curva es normal, pues es lo que normalmente sucede, dónde se encuentran la mayor
parte de los casos. Hay excepciones p.e. la distribución de la renta mundial.
Propiedades de la distribución normal:
1. el área bajo la curva = 1.
2. la curva es asintótica: se extiende indefinidamente en las dos direcciones sin
tocar nunca el eje de abscisas. Hay una parte insignificante que se nos escapa; no cubre el
100%.
3. la curva es simétrica, unimodal, mesocúrtica y la Χ , Me y Mo coinciden. El 50%
del área está a un lado y el 50% al otro. El punto de máxima ordenada es la Χ = 0.
4. Entre +3 y -3 alrededor de la Χ se encuentran la práctica totalidad de los casos
de la distribución normal.
5. Hablaremos de unidades Z cuando hablemos de la curva normal
estandarizada.
6. En la curva normal estandarizada:
Media µ =0
Desviac. típica σ =1
Varianza σ 2=1
Asimetría a3 = 0
Curtosis a4 = 0 ó 3
Por medio de las tablas de la curva normal podemos conocer con exactitud el área
(probabilidad) que existe bien por debajo o por encima de un cierto punto, o también, el área
comprendido dentro o fuera de un intervalo.
Nos permite hallar la probabilidad de obtener un cierto valor de dicha distribución tomado
al azar.

20
Estadística aplicada a las ciencias sociales

Tema 9: ASPECTOS GENERALES DEL MUESTREO EN LA


INVESTIGACIÓN SOCIOLÓGICA
La teoría del muestreo es un estudio de las relaciones existentes entre una
población y una muestra extraída de esa población. En la inferencia estadística el interés
estriba en estudiar una muestra y hacer inferencias acerca de la población de la cual se
tomó.
El universo general (p.e. ejecutivos de las grandes empresas españolas) es la
población abstracta y teórica a la que el investigador desea generalizar sus resultados,
mientras que el universo real (p.e. ejecutivos de las 100 mayores empresas españolas) es la
operacionalización concreta de ese universo general del que se va a obtener la muestra.
Muchas personas tienden a realizar afirmaciones generales muy amplias a partir del
conocimiento de casos muy particulares. Esto es lo que Smith llama "muestras en busca de
universos". Las muestras sesgadas se producen porque el investigador se deja llevar
inconscientemente por sus preferencias al elegir los casos.
1. TIPOS DE MUESTREO
El diseño de muestras debe combinar los criterios de máxima significación de los
resultados con el mínimo coste. Al ser la técnica de la encuesta un procedimiento caro,
resulta imprescindible diseñar muestras.

1.1. Muestreo aleatorio


Cada miembro de la población tiene la misma probabilidad de ser incluido en la
muestra, p.e. números en una urna que se eligen al azar. Siempre que sea posible hay que
preferir el muestreo aleatorio.
Ventajas del muestreo aleatorio:
1. se pueden realizar inferencias estadísticas;
2. es posible conocer el error;
3. se da la representatividad.
Muestreo aleatorio simple
Es el más sencillo. Se parte de un conjunto listado de elementos de la población, y
entonces se selecciona aleatoriamente 'n' elementos para formar la muestra.
Condiciones:
1. cada elemento en la población tiene idéntica probabilidad de ser incluido en la
muestra;
2. cada posible combinación de 'n' elementos tiene la misma probabilidad de constituir la
muestra.
Las tablas de números aleatorios son muy útiles. Si se toman los números que se van
seleccionando aunque alguno de ellos salga más de una vez, diremos que se trata de una
muestra con reemplazamiento;
M = Mn
Si una vez seleccionado un número se aparta es una muestra sin reemplazamiento. En
este segundo caso se da la primera condición, pero no la segunda.
(M) M!
---- = -----------
(n) (M-n)! n!

El sociólogo pocas veces recurre a las muestras aleatorias simples, no sólo por la
posibilidad de extraer el mismo caso más de una vez, sino porque la mayor parte de las veces
no dispone del listado ordenado de las unidades que componen el universo de trabajo.
Pero tiene gran interés estadístico por ser la técnica muestral básica de la estadística
inferncial.
2. ERRORES DE MUESTREO

Lo que se pretende al extraer una buena muestra es que el error de muestreo sea lo más
pequeño posible, para que así el estimador sea tanto más preciso.
para medias; E = |Χ -µ |
para proporciones; E = |p-P|

pq

21
Estadística aplicada a las ciencias sociales

Error de muestreo= √ ----


N
A partir de la estimación del error de muestreo se pueden determinar los intervalos de
confianza. Se denominan así por el hecho de que el valor que se trata de estimar se encuentra
dentro del citado intervalo con una "confianza", medida en términos de probabilidad
determinada por el valor que tiene Z. Es la probabilidad con la que podremos asegurar que el
valor que obtengamos no superará el error máximo admitido.
El intervalo de confianza será tanto más pequeño cuanto mayor sea el tamaño muestral.
Se utilizan los siguientes niveles de confianza:

Nc Z
99,73% ± 3
99% ± 2,58
95,45% ó 95,5% ± 2
95% ± 1,96

3. DETERMINACIÓN DEL TAMAÑO MUESTRAL


Tanto por la ley del cálculo de probabilidades que rige la teoría de las muestras como por
el propio sentido común, sabemos que cuanto mayor sea el número de elementos
considerados, más seguro será el resultado. Una selección de 50 personas en una gran ciudad
no será muy representativa, pero una de 50.000 puede ser muy costosa.
En general se puede afirmar que se ha de utilizar la muestra que mejor represente el
universo de trabajo con los medios materiales y económicos de que dispone el investigador.
Las más usuales suelen ser muestras de 1000 a 1500; rara vez son superiores a 10.000
o inferiores a 1000.
A partir del conocimiento del error absoluto prefijado, el margen de probabilidad deseado
y el valor de 'p' es posible determinar el tamaño 'n' de la muestra en una población de tamaño
'n' conocido.
Conviene aclarar que el número de casos 'n' a considerar en una muestra no
depende de las dimensiones N del universo, pues puede pasar que se necesite idéntica
muestra para una ciudad de 50.000 que para una nación de 30 Mio.
Existen unas tablas que nos ayudan a determinar la cuantía de las muestras para
poblaciones finitas.
* * * V E R F O R M U L A R I O * * *
4. OTROS TIPOS DE MUESTREO PROBABILÍSTICO
1) Muestreo por conglomerados o clusters
Cuando se debe realizar grandes encuestas con gran dispersión geográfica, se
reducen costes utilizando este tipo de muestreo. Puede suceder que una simple
extracción aleatoria produzca enormes gastos al encontrarse las muestras repartidas
por toda una geografía. Cuando es posible determinar los límites geográficos de los
conglomerados el muestreo se denomina por áreas.
2) Muestreo estratificado
Involucra la división de la población en subgrupos por estratos más
homogéneos, de los que se toman entonces muestras aleatorias simples. Ej. ver como
reacciona la población a la planificación familiar según religión o estatus
socioeconómico.
A cada miembro del estrato se le da un número de identificación y se muestrea
mediante la tabla de números aleatorios. Finalmente los miembros seleccionados de
cada subgrupo se combinan para tener una muestra.
La estratificación se basa en la idea de que un grupo homogéneo requiere una
muestra más pequeña que un grupo heterogéneo.
La muestra estratificada puede ser:
* proporcional - se sigue la proporción de los estratos del universo/población;
* no proporcional - no se sigue la proporción original de los estratos.
En el muestreo estratificado la reducción del tamaño se consigue mediante la
concentración de unidades homogéneas, reduciéndose por tanto la varianza.
Objetivos:
1. ofrecer estimaciones separadas para ciertas subpoblaciones;
2. agrupar unidades de muestreo homogéneas entre sí en estratos, con objeto
de mejorar la precisión de las estimaciones globales;

22
Estadística aplicada a las ciencias sociales

3. utilizar métodos diferentes de muestreo en los distintos estratos.


En las numerosas etapas del muestreo, el azar interviene constantemente, con lo que se
evita la introducción de sesgos.
5. TIPOS DE MUESTREO NO PROBABILÍSTICO
No todos los elementos de la población tienen la misma probabilidad de ser
incluidos en la muestra.
Tiene unos costes más bajos en la recolección de datos y evitan a menudo los
problemas de extraer muestras al azar.
Con el muestreo no probabilístico se puede llegar a obtener una muestra muy
representativa, pero no se podrá evaluar a partir de ella los márgenes de error. Conviene
evitarlos.
a) Muestreo por accidente
Se incluyen los elementos que son más convenientes para el investigador; ej.
se necesitan 5 personas para una entrevista y el investigador coge a 5 alumnos suyos.
Lo único que puede desearse es que la equivocación no sea excesiva.
b) Muestreo sistemático
Seleccionar cada 10 personas no es probabilístico, ya que las personas 10, 20,
30, etc. tienen un 1% de posibilidad de ser elegidos y las otras no.
c) Muestreo por cuotas
Es barato y muy utilizado por los analistas de mercado y de opinión pública. Se
especifican las características deseadas en los sujetos y se deja libertad al
entrevistador que los encuentre de acuerdo a lo requerido. Es rápido y barato.
d) Muestreo intencional o de juicio
Cuando se utilizan la lógica y el sentido común para seleccionar las muestras,
ej. si deseamos estudiar una revista que refleje las características del lector de nivel
cultural bajo elegimos 'Pronto'.
Los sociólogos que estudian medios rurales o instituciones concretas siguen de algún
modo un muestreo intencionado, ya que se basan en sus conocimientos subjetivos.

23
Estadística aplicada a las ciencias sociales

Tema 10: TÉCNICAS INFERENCIALES


Cuando buscamos información acerca de una población, pero sólo disponemos de datos
de una muestra, se necesitan algunos medios para poder sacar conclusiones acerca de esa
población. Los conceptos y técnicas que satisfacen esta necesidad constituyen la Inferencia
Estadística.

1. ESTIMACIÓN DE PARÁMETROS
Con la estimación de parámetros deseamos estimar el valor de ese parámetro, a
través de un estadístico calculado en la muestra. La inferencia en los distintos niveles de
medición se realizará a través de P y Χ .
Un estimador es un procedimiento expresado a manera de fórmula por medio del
cuál se obtiene un valor numérico denominado estimación.

1.1. Estimación intervalar

Consta de dos puntos definidores de un intervalo (límites de confianza), que según


nuestras estimaciones contienen el parámetro poblacional que nos interesa, e.d., podemos
estimar el parámetro µ ó P dentro de un intervalo a y b, en el que a y b se obtienen de
observaciones de la muestra y podemos afirmarlo a un nivel de confianza determinado.
El principal objetivo de la estadística inferencial consiste en precisar el valor
desconocido de los parámetros poblacionales a partir de los resultados obtenidos en
muestras aleatorias.
Gracias a la teoría del error muestral podemos resolver la discrepancia existente entre
valores muestrales y poblacionales. Para ello construimos intervalos dentro de los cuáles para
un nivel de confianza prefijado podemos asegurar que se encontrará el verdadero valor del
parámetro poblacional.
Estudiando el estadístico obtenido en la muestra y su error típico podemos
determinar por las propiedades de la curva normal a qué distancia máxima se encontrará
el verdadero valor; dicha distancia constituirá el intervalo dentro del cual podemos
asegurar que se encuentra el valor poblacional.

2. La distribución muestral
Una distribución muestral es una distribución probabilística teórica de estadísticos
pertenecientes a muestras, p.e. medias ó proporciones.
Se obtiene una distribución muestral cuando se toman todas las muestras aleatorias
simples (cada una de ellas con al menos un elemento diferente) de tamaño N de una misma
población, se calcula un estadístico por cada muestra (p.e. medias o proporciones) y se
distribuyen dichos estadísticos alrededor del parámetro que estiman. Ej.: de una nación se
coge una muestra de 2000 y se calcula la Χ de edad, si repetimos con todas las muestras
posibles de 2000, obtendremos una distribución muestral de medias de edad.

2.1. El teorema del límite central

Es muy importante en estadística. La suma de gran cantidad de variables aleatorias


independientes siempre tiene una distribución aproximadamente normal. La distribución de
dicha suma será tanto más parecida a la normal cuanto mayor sea el número de variables
aleatorias. El teorema central del límite expresa cuantitativamente la rapidez de esta
convergencia.
Lo que nos dice el teorema es que las medias de las muestras aleatorias simples
extraídas de una población que se distribuye normalmente, darán lugar a una distribución
muestral que también es normal, aunque N sea pequeño.

1.3. La Ley de los grandes números

Según esta ley la diferencia entre una población dada y una muestra decrece conforme
aumenta el tamaño muestral.

24
Estadística aplicada a las ciencias sociales

A partir de cierto tamaño muestral, el error muestral se hace tan pequeño que un
aumento del tamaño muestral no compensaría el incremento de los costos.
La importancia de esta ley es muy grande, ya que al ser la distribución muestral la que se
utiliza en las pruebas de significación, ello quiere decir que cuando N es suficientemente
grande no tenemos ya que preocuparnos de los supuestos referentes a la normalidad de la
población, pudiendo aplicar las propiedades de la curva normal, ya que la distribución muestral
tiende a aproximarse a la normalidad.

Gracias al teorema del límite central y la ley de los grandes números podemos
afirmar que la distribución de los estimadores en el muestreo será una distribución
normal.

3. TENDENCIA CENTRAL, VARIABILIDAD Y FORMA DE UNA


DISTRIBUCIÓN MUESTRAL
La tendencia central de una distribución muestral se denomina valor esperado de un
estadístico y se representa por E(Χ ).
Si el promedio o valor esperado de un estadístico es el parámetro que estima, entonces
se dice que el estadístico es un estimador no sesgado del parámetro. Cualquier diferencia que
se produzca entre un estadístico concreto y su parámetro es atribuible por ello más bien a un
error aleatorio.

4. DISTRIBUCIONES MUESTRALES DE MEDIAS


La medida de error muestral que indica la magnitud de las desviaciones de los
estadísticos se denomina error típico, para distinguirlo de otras desviaciones típicas.
Según la ley de los grandes números al aumentar la muestra disminuye el error
típico, e.d, que al aumentar N los estadísticos se agrupan con mayor proximidad
alrededor de sus respectivos parámetros.

PROPIEDADES:

1. La distribución muestral de medias se aproxima a la curva normal (por el


teorema del límite central y la ley de los grandes números). En la práctica pensaremos que n ≥
30 para servirnos de las medidas de la curva normal.
2. Al ser una distribución de frecuencias es posible calcular medidas de tendencia
central, variación, etc.
3. La Χ de una distribución muestral de medias es igual a la verdadera Χ de la
población.
4. La σ es menor que la σ de la población; esto se debe a que tomamos valores
medios, eliminando los valores extremos.

Podemos decir que entre

Χ ± 1σ Χ ≅ 68,26%
Χ ± 2σ Χ ≅ 95,45%
Χ ± 3σ Χ ≅ 99,73%

e.d., entre la Χ más o menos una desviación típica de esa distribución muestral de Χ se
encontrarán el 68,26% de las medias muestrales de la distribución muestral de medias.
Para trabajar bajo la curva normal hay que hablar de unidades Z, que se estandarizan
para la distribución muestral de medias:

x-Χ Χ -µ
Z= ------ = Z= --------
S σΧ

25
Estadística aplicada a las ciencias sociales

Χ = media muestral
µ = µ Χ = media de población o media de medias
σ Χ = desviación típica de la distribución muestral de medias; error típico de la
media.

4.1. ERROR TÍPICO DE LA Χ

El investigador rara vez escoge más de 1 ó 2 muestras, que espera poder generalizar a
la población, pues el procedimiento de completar una distribución muestral de medias sería tan
costoso como analizar a casi todos los miembros de la población.
No se tiene pues un conocimiento real de la Χ , pero sí un buen método para estimar la
desviación típica de la distribución muestral de medias sobre la base de datos recogidos en una
sola muestra.
Con la ayuda del error típico podemos encontrar el rango de valores de la Χ ,
dentro del cuál es probable que fluctúe nuestra verdadera Χ poblacional.
Cuanto más pequeño sea el error típico, más fiable es el estadístico. La cuantía del error
típico depende del tamaño de la muestra; al aumentar la muestra disminuye el error típico =>
las muestras grandes engendran estadísticos más fiables que las pequeñas.
A todo estadístico le corresponde una distribución muestral y un error típico.
La media de una muestra es una estimación insesgada de la media de la población, e.d.,
la Χ de la muestra puede ser mayor ó menor que la µ de la población. Si se extraen muchas
muestras y se promedian sus medias, el resultado tiende a la media µ de la población al
aumntar el tamano de la muestra.

* * * V E R F O R M U L A R I O P A R A E R R O R T Í P I C O
D E L A M E D I A * * *

4.2. INTERVALOS DE CONFIANZA

El intervalo de confianza se define como el valor de las puntuaciones directas


entre las cuáles afirmamos, a un nivel de confianza dado, que se encuentra el parámetro
que consideramos. El intervalo de confianza tiene un límite inferior y un límite superior,
que son los límites de confianza.
Se ha convenido utilizar como intervalo de confianza los de 95%, 95,45%, 99% y
99,73%, por medio de los cuáles se estima la media poblacional, sabiendo p.e. que hay 95
oportunidades entre 100 de estar en lo cierto y un 5 de equivocarse, e.d., el nivel de confianza
sería la parte de la distribución muestral que yo tomo para hacer la estimación.
Al realizar una estimación pienso que la media muestral a través de la cuál hago la
inferencia caerá en ese intervalo con un 95% de probabilidades, aunque sé que hay un 5% de
que quede fuera.
Cuanto más amplio sea el intervalo, tanto menos se acerca a dicho parámetro, e.d., al
aumentar el nivel de confianza se sacrifica también en grado de precisión al señalar la media
poblacional.

Estimaciones de la µ a partir de una sola muestra

Según la adaptación de la distribución muestral de la media a la curva normal, sabemos


que con un nivel de confianza de 99% y conociendo la Χ , la verdadera media de la población
no se apartará de Χ en más de ± 2,58 σ Χ .

(µ -Χ ) ≤ 2,58 σ Χ

Como formulación general de la estimación de parámetros tendremos:

Estimador ± factor de confiabilidad x error típico del estimador

Χ ± ZoΧ
P (Χ - Zσ Χ < µ < Χ + Zσ Χ ) = Nc ó Ns

26
Estadística aplicada a las ciencias sociales

Χ ± ZoΧ nos dará la distancia máxima entre Χ y µ . Z depende del nivel de confianza
dado.
Conociendo el error típico del estadístico en la distribución muestral, el intervalo será el
producto del Nc por dicho error.

5. DISTRIBUCIÓN T DE STUDENT
Cuando las muestras son pequeñas (n < 30) en la estimación de medias deberemos
utilizar la distribución t de Student, que depende del Ns y de los grados de libertad. El intervalo
viene dado por:
Χ ± tσ Χ
t=Z

La distribución t correspondiente se asemeja mucho a la distribución normal, y veremos


que se aplica una distribución t de la misma manera en la que se hace con una distribución
normal.

Características:

1. Hay una familia de distribución t (una distinta para cada valor de n).
2. Cada curva t es simétrica a los dos lados de 0.
3. µ = 0; σ 2 es algo superior a 1
4. el punto más alto de la curva viene dado por t = 0.
5. Debe calcularse la puntuación t para trabajar con la distribución t:

Χ -µ
t= --------
σΧ

S
σ Χ = -------
√n

6. El área bajo la curva es igual a 1.


7. Para la estimación intervalar la fórmula será:

Χ ± tσ Χ
P (Χ - tσ Χ < µ < Χ + tσ Χ ) = Nc ó Ns

tσ Χ = error absoluto; distancia máxima entre Χ y µ .

Grados de libertad

El número de grados de libertad de un estadístico es denominado generalmente por la


letra v. Se define como el número de observaciones independientes en la muestra (e.d. el
tamaño muestral) menos el nº de H parámetros de la población que deben estimarse a partir de
las observaciones de la muestra.

v = gl = N - H
v = gl = N-1 (para parámetros)

Tablas de distribución t de Student

Aparecen Ns para 1 ó 2 colas, llamadas pruebas unilaterales o bilaterales. Para


estimaciones de parámetros se utilizan pruebas bilaterales. A la izquierda se sitúan gl (df), que
son lo grados de libertad.

27
Estadística aplicada a las ciencias sociales

6. DISTRIBUCIONES MUESTRALES DE PROPORCIONES


La proporción es una frecuencia relativa:

n
P= ---
N

La suma de todas las proporciones es igual a 1; cada proporción es ≤ 1. El porcentaje es


la proporción * 100. P = población; p = muestras.
Estimaremos proporciones igual que acabamos de estimar las medias.
Todos los estadísticos, tanto las medias como las proporciones, tienen su propias
distribuciones muestrales; lo dicho para la distribución muestral de medias vale para la
distribución muestral de proporciones.
Muchas veces el investigador busca presentar una estimación de una proporción
poblacional con base en la proporción que obtiene en una muestra aleatoria, p.e. ¿cuál es la
proporción de los votos que irán a un partido?
La distribución muestral de proporción 'p' está calculada con base en muestras
aleatorias simples de tamaño 'n', sacadas de una población en la que la proporción
poblacional es 'P'. Está distribuida normalmente si 'n' es grande.
Si extraemos distintas muestras y calculamos su proporción podemos realizar una
distribución muestral de proporción.

PROPIEDADES:

1. la media de la distribución muestral de proporción es igual a la proporción poblacional

µ p = Pµ

2. La distribución muestral de proporción es aproximadamente normal si np ó nq > 5.


Si p = 0,50 la distribución es aproximadamente normal si n > 30. Pero si P está cerca
de 0 ó de 1 la distribución muestral de proporción tenderá a tener un extremo más
largo a la izquierda o a la derecha, y deberá aumentar para tener una aproximación a
la
curva normal. Al ser una distribución de frecuencias podemos calcular entonces
tendencia central, variación, etc.

3. Ps ± 1 σ p ≈ 68, 26%
Ps ± 2 σ p ≈ 95,45%
Ps ± 3 σ p ≈ 99,73%

Entre la proporción muestral Ps y ± 1 σ p, 2σ p y 3 σ p se encuentran respectivamente el


68,26%, 95,45% y 99,73% de proporción de esta distribución muestral de proporción.

5. Hay que estandarizar las unidades Z:

Ps - Pµ
Z= --------
σ p

Ps = proproción muestral; Pµ = proporción poblacional


σ p = desviación típica de la distribución muestral de proporción.

6.1. ERROR TÍPICO DE LA PROPORCIÓN

Es la desviación típica de esa distribución muestral que nos da la fiabilidad del


estadístico. Cuanto menor sea, mejor será la estimación.

28
Estadística aplicada a las ciencias sociales

* * * V E R F O R M U L A R I O P A R A E R R O R T Í P I C O
D E L A P R O P O R C I Ó N * * *

6.2. INTERVALOS DE CONFIANZA

Estimador ± factor de confiabilidad + error típico del estimador

P ± Zσ p

P(Ps - Zσ p < Pµ < Ps + Zσ p) = Nc ó Ns


P (p - Zσ p < P < p + Zσ p) = Nc ó NS

Deberán utilizarse en general muestras grandes para la estimación de proporciones,


pues sino da unos intervalos excesivamente amplios que poco pueden decirnos como
información.

29