Está en la página 1de 11

ÁNALISIS DESCRIPTIVO DE VARIABLES CUALITATIVAS

- La primera fase es la de tener una idea acerca de las características de cada


variable.
- Disponer de una matriz de datos sin tratar no nos sirve para poder extraer la
información contenida.

Deberemos organizar los datos y representarlos gráficamente

o Visión de conjunto:
- Facilita cálculos posteriores y las decisiones a tomar
- Comunicación y presentación de resultados
En general, tanto si una variable es cualitativa como si es cuantitativa se deberá prestar
atención tres características

▪ El centro
▪ La dispersión
▪ Forma de la distribución de los datos

1. TABLA DE FRECUENCIAS

Una tabla o distribución de frecuencias es una forma particular de ordenar los datos
basada en los valores concretos que adopta una variable categórica y el número de
veces que se repite cada valor.

El objetivo principal es organizar la información y resumirla.

Las frecuencias absolutas (ni) se refieren al número de sujetos que aparecen en cada
categoría.

Las frecuencias relativas (Pi) se calculan dividiendo el número de casos en cada categoría
respecto del total.

Las proporciones (%) son las frecuencias relativas multiplicadas por 100. Son las que
habitualmente se muestran junto a las frecuencias absolutas.

❖ TF: VARIABLE ORDINAL


En las variables ordinales las categorías pueden ordenarse y es posible calcular las
frecuencias acumuladas.
La frecuencia relativa acumulada (Pai) se obtiene dividiendo la FAA entre el número
total de casos.
La frecuencia absoluta acumulada (nai) recoge el número de veces que se repite un
valor más cualquier otro inferior a él.
La frecuencia relativa acumulada (%ai ) se obtiene dividiendo multiplicando por 100
la FRA.
La tabla de frecuencias ofrece información sobre 3 aspectos importantes
- ¿Qué valores toma la variable?
- ¿Qué valores son los más frecuentes?
- En las ordinales: ¿Cuántos sujetos alcanzan un determinado valor?

2. GRÁFICOS PARA VARIABLES CATEGÓRICAS

En el análisis descriptivo conviene hacer representaciones gráficas de las tablas de


frecuencias para hacerse una idea rápida de lo que está ocurriendo.

Los gráficos adecuados para representar variables cualitativas son los gráficos de barras
y los diagramas de sectores.

3. GRÁFICOS PARA VARIABLES CATEGÓRICAS

¡CUIDADO CON LA INFORMACIÓN GRÁFICA!

- No deben distorsionarse
- No debe cortarse el eje vertical porque pueden magnificarse diferencias
pequeñas.
- Prohibidos los gráficos tridimensionales
4. GRÁFICOS PROHIBIDOS

5. GRÁFICOS ENGAÑOSOS

6. ESTADÍSTICOS DE RESUMEN

Medidas de centro: no van a tener que ir acompañadas de algo

Medidas de dispersión: como varían datos de unos casos a otros (información de


variabilidad de datos)

- Rango de variable
- Rango de intercuartílico/intercuartil
- Desviación típica
- Coeficiente de variación

Medidas posición/cuantiles: dividir variable en partes iguales

Cuartiles: dependiendo de lo que se ve

Medidas de forma: información sobre forma que se distribuyen datos-distribución de


datos.

- Coeficiente asimétrico
- Coeficiente apuntamiento

7. CUARTILES

Cuartos o puntos de corte (4) y h ay 3 cuartiles :1,2,3

Ejemplo: sobrinos gemelos 1 chico y 1 chica y tenemos 4 bocadillos iguales. 4


bocadillos=cuartiles y se divide la variable en cuartos.

Q1- valor de variable que me dé por debajo de 25% de casos por encima de 75%

Q2/ mediana: variable que me dé al 50% por encima de otro 50%

Q3- valor de variable que me dé al 75% de casos

Percentil de orden k es el cuantil de orden k/100. Tiene el mismo significado que el


cuantil, pero se expresa en %.

El percentil 50 es el valor de la variable que deja a un lado y a otro el mismo número


de casos = MEDIANA.

8. MEDIDAS DE POSICIÓN DIAGRAMA DE CAJAS O BOX PLOT O TUKEY


Se construyen con estos 5 valores: Mínimo, Q1, Mediana, Q3, Máximo

Muy útiles para resumir la distribución


9. MEDIDAS DE CENTRALIDAD
- -moda
- -media
- -mediana

Son indicadores de hacia dónde tienen las observaciones tendencia a agruparse

o Media aritmética (la de siempre): es el resultado de sumar todos los valores y


dividirloentre el número de observaciones.

1. Se puede considerar el centro de gravedad de los datos.


2. Adecuada si los datos se distribuyen más o menos simétricamente.
3. Intervienen todos los datos en su cálculo. Muy afecta por los casos extremos.

(en inglés es MEAN) SE VA DETRÁS DE RARITOS, SI ESTA SÓLA NO SIRVE DE NADA. La


tengo que acompañar de medidas de dispersión.

Siempre tiene que ir acompañada de la desviación típica y viceversa.

o Mediana: es el valor de la variable que divide a las observaciones en dos grupos


con el mismo número de casos (50% cada una). Coincide con el percentil 50 y el
cuartil 2. Es necesario ordenar los datos para su cálculo. Cuando coincide la
media y la moda nos indica simetría.ES CONSERVADORA
o Moda: es el valor de la variable que más veces aparece repetido en la
distribución (con mayor frecuencia). Pueden existir distribuciones con más de
una moda (bimodales, multimodales, etc.).

ASIMETRIA: a la izquierda o negativa


SIMETRÍA: Igual
La media se mueve con respecto a la mediana.

la media es de 50 y la mediana es de 70: (hay asimetría a


la izquierda).

10. MEDIDAS DE DISPERSIÓN

Son medidas que proporcionan información de la variabilidad que presentan los casos
respecto a una variable concreta.

• Rango (o recorrido): la distancia (diferencia) entre las dos observaciones más


extremas (máximo y mínimo).
- Sólo implica a dos valores de la variable, el mayor y el menor.
- Es muy sensible a los casos extremos.

• Rango intercuartílico= la distancia (diferencia) entre el primer y tercer cuartil.


- Es de cálculo sencillo.
- Excluye 25% de los casos más grandes y el 25% de los casos más pequeños y por
tanto utiliza en su cálculo el 50% de las observaciones centrales.
- No es afectada por casos extremos.
- Sólo participan en su cálculo el valor del Cuartil 1 (P25) y el del Cuartil 2 (P75%).

• Varianza (S2 , σ2 ): es el promedio de las desviaciones, al cuadrado, de cada una


de las observaciones respecto de la media.
- No se suele utilizar como medida de resumen, pero participa en los test
estadísticos que se aplican en el caso de que la distribución se parezca a una
normal (pruebas paramétricas).
- Sensible a los valores extremos alejados de la media.
- Está en unidades “al cuadrado” por lo que su interpretación se complica.

• Desviación típica o estándar (S, σ): la raíz cuadrada de la varianza.


- Se encuentra en las mismas unidades que la variable y se interpreta más
fácilmente.
- SIEMPRE VA ACOMPAÑADA DE LA MEDIA Y ME INFORMA DE LA DISTANCIA DE
LOS DATOS Y LA MEDIA. No puedo comparar desviaciones, sólo con su media de
la misma desviación.
- No es una medida de dispersión adecuada cuando existan valores extremos.

EJEMPLO:

Se debe calcular la media aritmética, esto se realiza sumando todos los dígitos y luego
dividiéndolo por la cantidad.
Posteriormente, se resta cada dígito base con la media aritmética y se saca su
raíz cuadrada para posteriormente dividirlo entre 8, es decir, la cantidad de
dígitos.

• Coeficiente de variación: es un índice adimensional (sin unidades, en %)


querelaciona la dispersión y la media.
- Sirve para comparar el grado de variabilidad de dos variables procedentes de una
muestra diferente o que están medidas en unidades diferentes
11. MEDIDAS DE FORMA
Son indicadores de la asimetría y del apuntamiento de la distribución.

▪ Asimetría: Si la distribución es simétrica, la distribución es dividida por la media


en dos mitades iguales.

Cuando la distribución tiene una cola hacia la derecha presenta una asimetría
positiva; cuando la cola aparece a la izquierda la asimetría es negativa.
Cuando mas lejos esté del 0 indica que es más simétrico y si esta en -10 indica que es
asimétrico.

Existen diferentes formas para “cuantificar” la asimetría.


1) Basados en estadísticos de tendencia central (es el coeficiente de asimetría que
habitualmente proporcionan los programas de estadística)
2) Basados en las diferencias de los cuartiles respecto de la mediana.

no saber fórmula

▪ Curtosis: Se refiere a la altura de la distribución.


A= Mesocúrtica (como la normal) = 0
B= Platicúrtica (aplanada)
C=Leptocúrtica (apuntada)
El coeficiente de aplastamiento de Fisher (curtosis): es un índice que nos indica si la
distribución es más o menos apuntada que la distribución normal.
Si el coeficiente es = 0 la distribución es mesocúrtica; si es >0 la distribución es
leptocúrtica; y si el coeficiente es <0 la distribución es platicúrtica.

También podría gustarte