Está en la página 1de 11

TEMA-6.

pdf

PsicoVP

Metodología de encuestas

4º Grado en Psicología

Facultad de Psicología
Universidad de Almería

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
METODOLOGÍA DE ENCUESTAS
TEMA 6. TRATAMIENTO DE DATOS EN METDOLOGÍA DE
ENCUESTAS

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1. LA MATRIZ DE DATOS.
Podemos distinguir:
• Los estudios exploratorios que utilizamos para introducirnos en el conocimiento de un fenómeno o llegar a
nuevos aspectos de este, con el objetivo de formular un problema o un tema de partida con mayor precisión o
con el fin de poder explicitar algunas hipótesis.
• Los estudios descriptivos que pretenden describir las características de una determinada población y establecer
asociaciones sobre relaciones entre esas características.
• Los estudios explicativos en donde se formulan y se verifican hipótesis causales que afirman que un cambio
en una determinada característica es uno de los factores que determinan el cambio de otra.
Insertar una población en una tabla es reducirla a términos manejables. La matriz de datos es el cruce de unidades
con variables:
• N filas para las unidades que se desea explorar
• M columnas para variables utilizadas para explorarlas

Reservados todos los derechos.


La recolección/producción de datos se sustenta en dos principios:
1) Principio de clasificación. Situado en el momento de la elaboración del cuestionario y según el cual cada sujeto
debe poder dar una y un sola respuesta para cada pregunta. Es decir, cada unidad debe tomar un solo valor en
cada variable.
2) Principio de integridad. Centrado en el proceso de interacción con el entrevistado, según el cual deberíamos
encontrar empíricamente un valor dentro de cada variable para todas las unidades. Solo en raras ocasiones las
no respuestas estarán distribuidas al azar y tratarlas como respuesta.
Toda investigación está determinada por el tamaño de la población y el tamaño del cuestionario. La relación
entre el mismo número de unidades y el número de variables define la estrategia de la investigación.
Dentro de este esquema de investigación tenemos dos conceptos, la investigación intensiva y la investigación
extensiva.
• Intensiva → estudio de caso ya que son muchas variables, una sola unidad
• Extensiva → pocas variables muchas unidades
Lo ideal en investigación social es la combinación de muchas unidades-muchas variables, o de al menos tantas
unidades y tantas variables como sea posible.
El tratamiento de datos comienza con la obtención de las distribuciones de las variables. Cada distribución de
una variable supone la distribución de las unidades entre los valores de esa variable, como la distribución de los valores
de la variable entre las unidades.
Las unidades de análisis constituyen la población objeto. Y luego están las variables que uno desea conocer, que
están vinculadas a las preguntas o estímulos para obtener una respuesta determinada.
En el lenguaje de las variables tenemos una estructura tripartita:
1) Variables.
2) Unidades de análisis.
3) Valores de las variables.
Y paralelamente, en el lenguaje de las encuestas sociológicas hablamos de:
1) Preguntas
2) Sujetos encuestados
3) Respuestas
El valor que toma un sujeto en una variable aparecerá en el cruce de ese sujeto, con esa variable, la matriz de datos
estricta será la que componen las respuestas. Las respuestas tomarán cada una de ellas los valores de la variable. Así
tenemos una fila para cada sujeto y una columna para cada variable.
• V = unidades de análisis → m
• S = unidades de sujetos → N
• R = valores de las variables (respuestas)

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6735760
Después de grabar los datos y depurarlos1 entramos en la fase de análisis.
Los estudios realizados con encuesta contiene una fase exploratoria que nos sirve para ver cómo funcionan las
variables y realizar las pertinentes agrupaciones en los valores de estas que hagan más visibles las posibles asociaciones
entre variables. El análisis es un momento posterior en el ámbito descriptivo, en el cual se elabora un plan de tabulación
y análisis que parte de nuestras hipótesis iniciales. Así, casi siempre el contenido del informe final suele seguir el orden
del cuestionario. Se pretende observar la variación conjunta de las variables más relevantes y para ello, con las variables
estructurales las consideramos explicativas para observar cómo influyen en el resto de las variables temáticas o
específicas. Tenemos, por tanto, dentro de análisis momentos explicativos.
El análisis de datos es la descripción de las distribuciones de valores y a la vez la explicación de esas
distribuciones en función de las otras variables.
En el plan de análisis nos centramos en las variables que pretendemos explicar (dependientes) para ver cómo está

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
se explican en todo o en parte por las distribuciones de otras variables (independiente).
2. DISTRIBUCIONES DE UNA VARIABLE.
Se trata de ver cómo se distribuyen las unidades de una población entre los valores de una variable. Lo que hacemos
es contar el número de casos (n) que tenemos en cada uno de los valores. Para cada valor este número es su frecuencia,
es decir, el número de veces que el valor se repite. Por ello, hablamos de distribuciones de frecuencias de una variable
a través de ella, vemos cómo se distribuye una variable en la población o cómo se distribuye una población en una
variable.
2.1.NÚMEROS ABSOLUTOS Y PORCENTAJES: RECUENTOS Y TASAS:
Esta contabilización o recuento se da en números absolutos (n). Con los valores de una variable en una población, es
necesario trabajar con las frecuencias relativas (f). Esto resulta de dividir el número de casos (n) entre el número total
de casos que se distribuyen la variable (N). Así obtenemos la proporción (p) del total de la población que adopta un

Reservados todos los derechos.


valor determinado dentro de una variable.
𝑛
𝑝=
𝑁
La proporción de un valor dentro de una variable oscilará entre el cero y el 1. Si multiplicamos por 100,
obtendremos un porcentaje (%). Una proporción, un porcentaje, es una tasa. Tasa es una medida relativa que
necesitamos para poder comprobar poblaciones de distinto tamaño.
Las tasas se elaboran a partir de los recuentos de casos. Una tasa es la fracción de un subconjunto en un conjunto
poblacional o en otro subconjunto.
2.2.ORDEN Y REAGRUPACIÓN DE VALORES:
Si la variable es cuantitativa o numérica, sus valores se presentaran en la tabla de forma ordenada y en
ocasiones reagrupadas en intervalos. Una variable de intervalo es también ordinal, pero es necesario para facilitar la
tarea analítica.
Las variables cualitativas o nominales también admiten la reagrupación de valores bajo criterios de proximidad
conceptual. Los límites de los intervalos cuantitativos establecen, con criterios conceptuales o empíricos que se
enmarcan en la realidad socio histórica sobre la que trabajamos.
Sobre los criterios cuantitativos se imponen criterios cualitativos que cambian de una sociedad a otra o que
distinguen determinados momentos históricos.
2.3.VARIABLES DE REGISTRO Y DE ANÁLISIS:
Las variables originales se obtienen de la grabación inmediata de las respuestas de un cuestionario (variables de
registro):
• Se emplean para registrar la información.
• Suelen presentarse con el máximo detalle.
• Son puntos de partida para la investigación.
Las variables de análisis son variables construidas desde la pertinencia empírica y/o teórica estrictamente sociológica.
2.4.COMPARACIONES:
Los datos nos sirven para comparar dos poblaciones del mismo nivel clasificatorio, con el objetivo de establecer
diferencias y similitudes.

1
Proceso de cruces entre variables para comprobar la consistencia interna de los dados.

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6735760
También podemos comparar un subconjunto de la población con la población total, con el fin de caracterizar la
especificidad de un determinado grupo o sector.
Cuando nos centramos en lo descriptivo, necesitamos conocer cómo se distribuyen los valores de una
determinada poblacion. Podemos comparar:
• Podemos comparar la población masculina y femenina
• Podemos comparar una misma población en dos momentos distintos. En este caso hablamos de panel en el
que se aplica el mismo cuestionario sobre dos muestras con características similares o sobre la misma muestra
en dos momentos distintos.
o Para hacer eso nos fijamos en un determinado atributo.
o También podemos observar cómo se distribuyen todos los barriles de una variable en cada uno de los grupos
o en cada uno de los momentos. Para eso necesitamos un valor que resuma el conjunto de la distribución de

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
valores (medidas de centralización).
• Comparar un solo valor de la variable para hacerlo objeto de comparación (binomializar o dicotomizar). La
variable se reducirá a dos valores, el que nos interesa y su complementario opuesto. Reducir este a su grado
cero es reducir las variables a su categorización meramente nominal.
2.5.COMPARACIONES CON PORCENTAJES:
Para comparar dos poblaciones nos fijamos en la proporción en que se presente en una determinada característica
de ellas. Para ver algo hemos de homogeneizar el tamaño de la muestra y el tamaño de la población. Luego
estandarizamos los datos, elaborando porcentajes.
Siempre será mejor recoger los dados con la mayor desagregación posible, ya que siempre podemos agregarlos
durante el análisis.
2.6.COMPARACIONES CON VALORES MEDIOS:

Reservados todos los derechos.


El valor medio es un valor que resume la distribución de un atributo o una característica numérica en una
población. A partir de estos valores podemos establecer comparaciones entre poblaciones.
Para poder establecer comparaciones con otros estudios se deben utilizar categorías comunes ya establecidas o
equiparables a las utilizadas.
2.7.SERIES TEMPORALES:
El tratamiento estadístico de los datos también permite observar cambios en una determinada población a través
del paso del tiempo. Así, podemos observar cómo evolucionan determinados subgrupos dentro de la población. Así, se
establece un series temporales.
Para establecer las, nos servimos de registros periódicos administrativos o de encuestas que se realizan
periódicamente.
La evolución de un valor es interesante a efectos administrativos para incrementar o disminuir recursos dirigidos
a una población que también puede provocar interés o alarma y generar la necesidad de indagación.
La función sería:
• Comparar las evoluciones de los valores de dos variables distintas y ver cómo la evolución temporal de 1 puede
explicar la evolución de la otra.
• Observar cómo varía la composición global de la población en términos relativos.
En las economías capitalistas se tienen muy en cuenta las variaciones interanuales de un determinado valor en
términos de porcentaje. Son datos que encontramos con mayor frecuencia en los medios de comunicación.
3. REPRESENTACIONES GRÁFICAS DE LOS DATOS.
Los gráficos facilitan el examen preliminar de los datos y también una percepción rápida de las tablas.
3.1.VARIABLES NOMINALES:
Nos encontramos con los siguientes gráficos.
• Diagrama de sectores circulares.
o Estos diagramas funcionan cuando tenemos 3 o cuatro valores a distribuir.
o La totalidad de la población se presenta en un círculo y cada valor será representado por un sector.
• Diagrama de barras.
o La línea horizontal, disponemos de los valores de la variable, separados entre sí.
o A cada valor le corresponderá una barra cuya altura será equivalente a su frecuencia.
• Diagrama de barras apiladas.
o Sirve para comparar la composición de dos poblaciones.

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6735760
o Se suele utilizar con los porcentajes o proporciones de los datos.
o Se utiliza cuando las poblaciones son de muy diverso tamaño.
• Diagrama de barras agrupadas.
o Sirve para comparar poblaciones en un diagrama de barras para cada población.
o Se utiliza si nos interesa destacar la distribución conjunta de los valores y ver cómo está cambiando se
mantiene.
o También para las diferencias valor a valor.
o Los casos han de presentarse en porcentaje son proporciones.
3.2.VARIABLES NUMÉRICAS:
Son aquellas en las que, entre dos valores, cualesquiera siempre podemos encontrar otro valor que suelen
presentar en histogramas.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
La representación más idónea para las variables numéricas discreta es la de diagrama de barras. Cuando una
variable discreta presenta muchos valores, podemos tratarla gráficamente como si fuese continua.
No es correcto representar las variables numéricas continuas a través de un diagrama de barras, ya que en este
perdemos el específico carácter de los datos. Las variables cuantitativas se han de ser siempre a través de histogramas
o de polígonos de frecuencias.
• Histogramas.
o Los valores han de agruparse en intervalos.
o Se sitúan de manera continua en el eje la risa.
o Si los intervalos son de la misma amplitud, la altura de cada intervalo puede considerarse equivalente al
número de casos que se dan en el intervalo.
o Es conveniente trabajar con intervalos de igual recorrido.
• Diagramas de líneas (o polígono de frecuencias/ gráfico lineal).

Reservados todos los derechos.


• Pirámide de población.
o Se utiliza para representar la distribución de una población según sus edades para cada sexo.
o Se utiliza mucho en demografía.
o Las frecuencias se marcan en horizontal, mientras que los grupos de edad se colocan en vertical.
o Es un recurso de gran potencia porque sintetiza muy bien la información.
3.3.VARIABLE ENTRE LOS GRUPOS GENERADOS POR OTRA VARIABLES:
También podemos representar cómo se distribuye una determinada variable a través de un valor estadístico. El
valor numérico de esta estadística varía en la representación el equivalente a la frecuencia.
3.4.SERIES TEMPORALES:
Las series temporales de un determinado valor se pueden presentar como un histograma. También es más
frecuente representar las series con gráficos lineales.
Cuando interese conocer la variación conjunta de todos los valores a lo largo del tiempo usaremos gráficos de
áreas. Aquí, es conveniente estandarizar la población para neutralizar el efecto de los tamaños de la población total.
Podemos trabajar con proporciones sobre el total o sobre un valor determinado
3.5.REPRESENTACIONES ENGAÑOSAS:
Tenemos que distinguir el uso de gráficos para el análisis y la presentación de los resultados:
• Análisis → El tratamiento de los datos exige rigor para captar una imagen no distorsionada de la realidad.
• Presentación de resultados →Se manipula la representaciones con el fin de que respondan a ciertas
expectativas e intereses.
Para evitar los errores de representación en este tipo de gráficos hay que fijar siempre el cero en el origen y
considerar la misma unidad de medida en todas las barras.
4. EXPLOTACIÓN ESTADÍSTICA DE UNA ENCUESTA.
Lo que hacemos, explotar estadísticamente una encuesta es conocer cómo se distribuye la población en todas las
variables a través de distribuciones marginales.
Para cada variable se realizará un recuento de frecuencias absolutas entre los distintos valores que la componen.
Esta frecuencia debe transformarse y frecuencias relativas. En caso de que la variable esté formada por un gran número
de valores, es conveniente reducir estos, agrupando valores a 4 o 5 categorías.
Obtendremos una serie de tablas, una variables en donde se registran los valores y sus frecuencias.
En el siguiente paso se trata de descubrir las variables que determinan una concreta distribución.

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6735760
• Observar cómo se comporta una variable los distintos grupos.
• Seleccionamos las variables que pretendemos explicar y realizamos los cruces que consideramos pertinentes.
5. DISTRIBUCIONES DE UNA VARIABLE EN DISTINTOS GRUPOS POBLACIONALES.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Se va a establecer diferencias entre grupos a raíz de cómo se distribuyen ellos una determinada características. Hay
que diferenciar entre variables de registro, que son las originales que se emplean para registrar la información que se
suelen presentar con el máximo detalle, y son puntos de partida para la investigación. Y las variables de análisis, que
son variables construida desde la pertinencia empírica estrictamente sociológica.
Cómo lo que queremos ver es cómo se distribuye un valor, podemos comparar los grupos entre sí y para eso
tendremos que estandarizar los totales de los grupos que nos van a servir de base (estado civil y edad).
Un solo dato por grupo nos permite comparar la distribución de un atributo en distintos grupos.
6. TABLAS BIVARIABLES.
Para hacer un análisis comparativo entre grupos poblacionales distintos, nos fijamos bien. Cómo se distribuía una
variable de cada uno de ellos.
Como esos grupos se originan en la clasificación generada por otra variable, lo que hacemos es comparar grupos Es
observa cómo se distribuye una variable en otra variable.
Veremos cómo se agrupa la población simultáneamente en dos variables, realizando un cruce de variables que

Reservados todos los derechos.


luego obtenemos una tabla bivariable también llamada de contingencia.
6.1.DISTRIBUCIONES MARGINALES:
Combinando las dos distribuciones a la distribución total:
• Distribución marginal de filas
• Distribución marginal de columnas.
Se habla de marginales cuando nos referimos a estas distribuciones. La distribución conjunta de las variables se observa
en las casillas centrales.
6.2.TAMAÑO DE UNA TABLA BIVARIABLE:
Una característica en una tabla de contingencia es su número de casillas o celdas que nos da su tamaño. Para
conocerlo se multiplican los números de las categorías de cada una de las variables en juegos.
En caso de tener dos variables, se multiplica el número de categorías de una variable por el número de categorías
de la otra. A la variable que colocamos en fila, las llamamos X y a la que colocamos el columna Y.
Para extraer la información más relevante de este cruce de variables tenemos que resumir la tabla original a una
tabla 2x2.
Se deben de tratar los datos con frecuencias relativas dependiendo de los grupos que queramos comparar. Podemos
utilizar porcentajes en sentido vertical o en sentido horizontal.
7. RELACIÓN ENTRE DOS VARIABLES.
La relación entre dos variables se establece bajo un esquema explicativo, la distribución de una variable es explicada
por la distribución de otra. Es decir, una variable, es determinada por otra.
Hablamos de variable independiente y dependiente al estudiar las relaciones entre 2 variables. El comportamiento
de la variable independiente explica la de dependiente.
Estos papeles se determinan contrastando que una de las variables es antecedente de la otra o presenta más
estabilidad de temporal o de mayor extensión o generalidad.
Esta atribución también depende del esquema teórico en que si tuviéramos la relación entre las variables.
La relación entre variables se fija en el concepto de función. Se dice que una variable es función de otra. La
relación de dependencia en un contexto empírico se establece aplicando implícitamente lo que se conoce como método
o diseño experimental.
Se trata de observar las variaciones que se producen dentro de cada categoría de la variable dependiente entre los
distintos valores de la independiente. Para eso construimos una tabla en la que colocamos a la variable independiente
en filas y para la que calculamos los porcentajes. Luego ser vamos, cómo varían en cada categoría de la variable
dependiente.
Las relaciones entre variables (estadística social) se establecieron originalmente entre variables numéricas (de
intervalo) de tipo continuo.
Cuando trabajamos aisladamente con dos variables, si nos centramos en el efecto de una de ellas sobre la otra está
incidiendo sobre (otras variables) el comportamiento de esta última.
8. VARIABLES DE CONTROL EN LAS RELACIONES ENTRE DOS VARIABLES.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6735760
Se conoce como una paradoja de Simpson, que es una asociación entre 2 variables que desaparece o cambia de
sentido cuando los datos son desagregados por grupos, es decir, cuando se controla el efecto de una tercera variable.
Este efecto se pone claramente de relieve cuando originalmente tenemos una tabla de 2x2 y pasamos a otra de
2x2x2.
Puede ocurrir que no se manifieste relación entre 2 variables hasta que no introducimos una variable de control.
Los esquemas que soportan la relación entre 3 variables pueden ser muy diversos. La variable de control afecta a
esta. Es decir, explica, la relación entre 2 variables si:
1) Se relaciona con la variable independiente o causal
2) Se relaciona con la variable dependiente o efecto
3) Cuando segmentamos la población según los grupos de la variable de control. Se observa que las relaciones
entre las variables originales son de menor intensidad, sin la injerencia de la tercera variable.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Se destaca que era un de saltera una determinada relación entre 2 variables fue la presencia de la tercera, la tercera
actúa como variable antecedente y aquellos otros que actúan como variable interviniente.
La interacción entre 3 variables se puede sintetizar en una tabla, pero la manera más clara es segmentar a la población
entre los valores de una de las variables y observando cómo se comportan las otras dos variables en cada una de las
categorías de la primera.
Y si es posible dualizar las variables en juego tanto mejor, ya que facilitan el análisis. La interacción entre múltiples
variables cuantitativas y la obtención de modelos complejos de esta interacción multivariable sido el objetivo de Path
Analysis
Si trabajamos con datos obtenidos a partir de una encuesta, lo previo es captar todas las posibles variables que
muestran una aparente asociación con aquella que nos interesa explicar y establecer modelos más complejos que integren
otra variable más que pueda afectar a una de las dos o las dos de manera conjunta.
9. INTRODUCCIÓN.

Reservados todos los derechos.


Para establecer comparaciones entre poblaciones, usamos medidas. Una característica que puede tomar distintos
valores en la población es una variable y según los valores de éstas, sean nominales o numéricos, adoptaremos distintos
procedimientos y estadísticos:
• Variables nominales → usaremos la proporción de uno de los valores en el conjunto de la población
• Variables numéricas → calcularemos la media de todos los valores.
• A través de tasa → la cual se establece entre dos valores distintos de una variable o entre valores de distintas
variables.
10. ESTADÍSTICOS DE RESUMEN EN VRIABLES NOMINALES: PROPORCIONES.
Cuando una variable dicotómica se trata de elegir uno de los dos valores (el que más interese), y ver su proporción
con el conjunto de la población. Como la proporción (p) de los dos valores ha de sumar 1, la proporción (q) del otro
valor es muy fácil de calcular.
En una variable dicotómica, la proporción de estos es complementaria. La misma información obtenemos con una
tasa de feminización que con una tasa de masculinización.
Si la variable nominal dicotómica cuenta con más de 2 valores Lo que hacemos es dicotomizar la variable. Nos
fijamos en el valor que más nos interese y los otros valores constituirá el valor restante.
Si por ejemplo, nos interesamos por el estado civil para destacar la proporción de solteros nos daría una tasa de
soltería, lo que hacemos es reducir el estado civil a solo dos categorías: solteros y no solteros.
11. ESTADÍSTICOS DE RESUMEN EN VARIABLES NUMÉRICAS “DE INTERVALO”.
Para comparar grupos entre sí, se hace necesario construir un valor ficticio que resuma en el conjunto de toda la
distribución (representación).
Para ello, necesitamos medidas de centralización, en variables que presenten un nivel de medición de intervalos
variables cuantitativas, es decir, valores numéricos como la edad, los ingresos familiares, salarios, etc.
11.1. LA MEDIA COMO MEDIDA DE CENTRALIZACIÓN DE LOS DATOS
En una variable cuantitativa, podemos obtener a partir de todos sus valores un valor medio. Así, se hace posible
comparar distintas poblaciones a través de la comparación de sus valores medios. La media aritmética2 es un indicador
muy utilizado para resumir la información.

2
Se obtiene sumando los valores de todas las unidades dividiendo el resultado entre el total de casos o unidades.

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6735760
Al reducir todos los valores de una distribución, suponiendo que todos los elementos de la población tienen el
mismo valor, perdemos información.
Para una tabla genérica:
• Una variable (X) que clasifica,
• La población de (N) unidades
• En (k) categorías cada una de ellas con un determinado peso (o frecuencia)
• (n) en la población
11.2. MEDIAS DE DATOS AGREGADOS:
Supongamos que tenemos una población de 80 personas y queremos conocer su medio. Y supongamos también que
tenemos estos datos agregados en grupos de edad. Se han agrupado las edades de 10 en 10 años.
Para realizar los cálculos para obtener la media necesitamos un valor que nos represente cada uno de los

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
intervalos. Este será el valor central de los intervalos, suponiendo que el conjunto de elementos contenidos en cada
intervalo tienen ese valor.
Con los datos agregados obtenemos un valor aproximado de la media real (perdemos información). Una media es
una medida representativa de toda la población. Por tanto, es un valor hipotético de la variable considerada y por lo
tanto se expresa siempre las unidades de esa variable (edad → años).
11.3. USO DE VALORES MEDIOS DE OTRAS VARIABLES PARA COMPARAR GRUPOS:
Para comparar grupos podemos servirnos con las diferencias de cada grupo, con el valor medio de la población
total. Estas diferencias nos marcan desigualdades entre los grupos. Y para ver estas desigualdades debemos calcular la
diferencia entre estos.
• Punto de vista institucional → interesa comparar países
• Punto de vista sociolaboral → diferencias de las estructuras salariales de algunos países a través de salarios

Reservados todos los derechos.


brutos medios
12. MEDIDAS DE DISPERSIÓN DE LOS DATOS EN VARIABLES NUMÉRICAS.
Para poder sustituir toda una distribución poblacional por su media, hemos de conocer en qué medida esta es
representativa del conjunto de la población. Esto depende de la dispersión de los datos en torno a ese valor central
medio:
• Datos muy agrupados → muestra muy representativa
• Datos muy dispersos → muestra poco representativa
Para conocer la centralidad, utilizamos medidas como la desviación media, la varianza o la desviación típica. Estos
son resúmenes de las desviaciones de todos los valores con relación a la media.
12.1. DESVIACIÓN MEDIA:
La desviación media (dm) es la media (aritmética) de las desviaciones de todos los valores en relación con la
media aritmética de la variable, es decir, la media de las distancias entre cada uno de los valores. Y el valor medio. Una
distancia siempre es un valor absoluto positivo.
Para conocer la representatividad de una media poblacional, a través de la desviación media necesitamos
comparar dos poblaciones y ver cuál de los dos valores medios de estas, representa mejor al conjunto de su población.
Y para eso tenemos que ver cómo se distribuyen los datos alrededor de la media. Podemos calcular para cada
población el valor medio de las desviaciones en relación con el valor medio de los casos.
La población que presente menor desviación será la mejor representada por la media, porque los datos estarán
más concentrados.
Esta desviación es la distancia que hay entre ese valor y el valor medio, la distancia entre dos valores es su
diferencia, expresada siempre en valor absoluto.
12.2. VARIANZA Y DESVIACIÓN TÍPICA:
La desviación típica o estándar por su función en la estadística diferencial es la más adecuada, que la
desviación media.
El valor medio del cuadrado de las desviaciones de todos los valores en relación a la media aritmética es la varianza
2
(S ), a la raíz cuadrada de la varianza le llamamos desviación típica (s). Para establecer la dispersión de los datos se
suele utilizar la desviación típica.
Siempre que se presente poblaciones a través de sus valores medios, será conveniente acompañar a cada valor medio
con la desviación típica de la distribución.

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6735760
Como las desviaciones depende del valor de la media, podemos estandarizar la medida de la dispersión con el fin
de facilitar las comparaciones. Como es lo más habitual, medio distintas, deberemos estandarizarlas a través de un
coeficiente de variación (CV).
• A través de este coeficiente le damos a las medias de cada población el valor 1 y así observamos en torno a este
valor.
13. LA MEDIDA DE LA DISPERSIÓN EN VARIABLES NOMINALES.
También hablamos de dispersión en variables de carácter nominal, esto solo es posible si dicotizamos la variable,
es decir, si invertimos la variable original en binomial.
Si la proporción de uno de los valores es una variable dicotómica o binomial es p, la del otro valor (q), será 1- p ya
que la suma de todas las proporciones ha de ser igual a 1.
Si una variable X con solo dos valores x1 y x2, el primero con frecuencia relativa (p) y el segundo con una q, podemos

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
considerar que la dispersión o la variabilidad de la variable nominal X será igual a “p * q”.
De esta manera, podemos observar que la máxima variabilidad o dispersión es cuando p = 0,5.
No existiría dispersión alguna cuando el peso de la población de 1 de los valores sea el 100%. es decir, cuando todos
los casos de la evaluación tomen un solo valor.
Tendremos la máxima dispersión cuando 1 de los valores de esta representa el 50%, es decir, cuando la poblacion
se divida al 50% entre los dos grupos que la constituyen.
Unas representaciones gráficas nos pueden ayudar a entender la máxima y también a la dispersión, que son las
diagramas de barras.
El producto p*q nos mide la dispersión de los datos de las variables dicotómicas nominales, del mismo modo que
la desviación típica nos mide en variables numéricas.
14. ESTRUCTURA DE LOS DATOS EN LA DISTRIBUCIÓN DE UNA VARIABLE.

Reservados todos los derechos.


En las variables numéricas existen las estructuras. Pero en una distribución como el rango los cuantiles, la mediana y el
rango intercuartílico. El rango o recorrido de una variable es la distancia entre el valor máximo y el mínimo de esta.
14.1. CUANTILES:
Los gentiles son unos valores que dividen a la población en partes iguales, estando los valores ordenados de menor a
mayor. Los más utilizados son los cuartiles, los quintiles, los deciles y los percentiles.
• Cuartiles → Dejando entre ellos el 25% de los casos.
o Podemos considerar a una variable como una variable discreta. Para esto deberíamos de calcular los
porcentajes acumulados para cada una de las variables.
o Podemos considerarla como una variable continua. Si consideramos, por ejemplo, la edad como variable
continua en nuestra distribución, sería un valor intermedio.
o La distancia entre los cuartiles contiguos darán información sobre la distribución de la población que las
separa del primer y el tercer cuartil, lo que llamamos recorrido o rango intercuartílico, que se puede
utilizar como medida de dispersión de los datos.
• Percentiles → Tendremos 99 valores, percentiles que dividen la población en 100 grupos con el mismo peso,
cada uno de ellos. Se utilizarán si tenemos una variable con muchísimos valores.
o Aparte de hablar de cuartiles, quintiles, deciles de valores, también nos referimos a cada uno de esos
grupos generado por los valores cuartiles que llamamos grupos cuantiles.
• Mediana → Es un valor que deja por debajo de él al 50% de la población con los valores más bajos. Y por
encima del 50% de valores más altos. Es decir, divide a la población en dos partes con igual número de casos.
14.2. DESIGUALDAD EN UNA DISTRIBUCIÓN:
Se usan para establecer medidas de desigualdad en una distribución, se tratan de medidas relativas que consideran la
distribución del conjunto de la población.
14.3. DESIGUALDAD EN UNA DISTRIBUCIÓN DE RENTA: CURVA DE LORENZ E ÍNDICE
DE GINI:
Los debates sobre la medición de la desigualdad se remontan entre el siglo XIX y principios del siglo XX. A
partir de entonces se desarrolla un instrumento estadístico para medirla, aquí tenemos la curva de Lorenz y el índice de
Gini.
La curva de Lorenz es igual a la de Gini, que nos puede servir para medir desigualdades. Teniendo en cuenta
la distribución de una variable a lo largo de sus valores cuantitativos. Pero es sobre todo usada para medir desigualdades
en la distribución de la renta.

Llévate 1 año de WUOLAH PRO con BBVA. ¿Cómo? ¡+Info aquí!


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6735760
Se parte de un gráfico en el que se representa de forma horizontal la población ordenada según su renta de menor
a mayor y en el eje vertical se representa la distribución de la renta.
En el histograma, se trabaja con variables continuas se dibuja una curva: la curva de Lorenz, que nos representa

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
la distribución real.
En el gráfico también aparece una línea diagonal del cuadrado, que representa lo que se llama la línea de
equidistribución. Si la curva de Lorenz:
• Está por debajo de la línea de distribución, eso indica que la riqueza está concentrada entre los más
ricos
• Si está por encima nos indica que la riqueza está concentrada entre los más pobres.
El índice de Gini estableció a partir de la curva de Lorenz un coeficiente indicador de la desigualdad, que
resumió la desigualdad en la distribución observada en un solo número, el coeficiente o índice de Gini.
Esta relación parte de una teoría distribución equitativa y la distribución empírica fijada por la curva de Lorenz.
• Si ya está próximo a 0, estaremos ante una población en la que la renta se distribuyen más equitativamente.
• Si una población R cuenta con un coeficiente de Gini que resulta menor que el otro de la población. La primera
población es más equitativa en la distribución que la segunda.
Mientras más grande sea el área que define la curva de Lorenz con la línea de equidistribución más grande será la

Reservados todos los derechos.


desigualdad en la población. Y mientras más se acerque la curva de Lorentz a la línea de equidistribución más
igualitaria.
El objetivo del tratamiento estadístico de datos es resumir en medidas claramente visibles, una totalidad de datos
inabarcable a primera vista, con el fin de facilitar las comparaciones entre grupos poblacionales.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6735760

También podría gustarte