Está en la página 1de 20

Capítulo II

Exploración de datos: Una variable cualitativa

Andie Dongo

Departmento de Ciencias
Pontificia Universidad Católica del Perú

Enero de 2023

(PUCP) EST145 Enero de 2023 1 / 20


Variable Cualitativa

Toma como valores categorías que representan alguna clasificación


en la población. Si bien estas puedan representarse por números, no
se admiten operaciones aritméticas.
Las variables cualitativas se denominan:

Nominales: si no existe orden entre las categorías.

Ordinales: si existe orden entre las categorías.

(PUCP) EST145 Enero de 2023 2 / 20


Tabla o distribución de frecuencias

Si la variable es cualitativa, será de gran utilidad construir una tabla de


frecuencias. Ella está constituida por una lista de las k posibles
categorías de la variable acompañadas por el número de veces que
ocurre cada una de ellas. En adelante usaremos la siguiente notación:

nj : frecuencia o número de veces que ocurre la categoría.

pj : frecuencia relativa o proporción para la categoría j, calculada


como pj = nj /n, siendo n el número total de datos.

Es claro que se cumplen:


k
X k
X
nj = n, pj = 1
j=1 j=1

(PUCP) EST145 Enero de 2023 3 / 20


Ejemplo

Durante un mes se monitoreó el estado de la calidad del aire en una


ciudad, estos fueron los resultados:

Bueno Moderado Bueno Malo Moderado Malo


Malo Moderado Malo Malo Malo Moderado
Moderado Moderado Moderado Malo Muy Malo Malo
Moderado Moderado Malo Moderado Moderado Malo
Malo Moderado Moderado Bueno Moderado Malo

Obtenga su distribución de frecuencias.

(PUCP) EST145 Enero de 2023 4 / 20


Ejemplo

Es directo obtener la siguiente distribución de frecuencias:

j Categorías Frecuencia Frec. relativa Porcentaje


nj pj
1 Bueno 3 0.100 10.0
2 Moderado 14 0.467 46.7
3 Malo 12 0.400 40.0
4 Muy Malo 1 0.033 3.3
Total 30 1 100.0

(PUCP) EST145 Enero de 2023 5 / 20


Representación gráfica

La información contenida en la tabla de frecuencias puede ser


representada a través de gráficos como:

Gráfico de barras: a cada categoría se la representa por una ba-


rra cuya altura es proporcional a la frecuencia con que ocurre. En
este tipo de gráficos se suele dejar un espacio entre las barras
para indicar que se está presentando información de una variable
cualitativa.

Gráfico de sectores circulares: a cada categoría se la representa


por un sector del círculo con ´angulo proporcional a la frecuencia
con que ocurre.

(PUCP) EST145 Enero de 2023 6 / 20


Ejemplo: Gráfico de barras

(PUCP) EST145 Enero de 2023 7 / 20


Ejemplo: Gráfico de sectores circulares

(PUCP) EST145 Enero de 2023 8 / 20


Médicos: Hombres y mujeres
Población: Médicos
Variable X : Sexo del profesional (Hombre y Mujer)
Parámetro: Proporción de médicos mujeres y hombres en la po-
blación y está denotado por:
N N
!
1X 1X
p = (p1 , p2 ) = 1{Mujer} (Xi ), 1{Hombre} (Xi )
N N
i=1 i=1

donde N es el tamaño de la población, p1 es la proporción de mu-


jeres y 1(·) es la función indicador

1 , Xi = Mujer
1{Mujer} (Xi ) =
0 , Xi 6= Mujer

Además:
p1 + p2 = 1
(PUCP) EST145 Enero de 2023 9 / 20
Médicos: Hombres y mujeres

Sea X1 , . . . , Xn una muestra de la población

La frecuencia muestral de mujeres está dada por


n
1{Mujer} (Xi )
X

i=1

Estadístico: La proporción muestral de médicos mujeres está dada


por:
n n
!
1X 1X
p
b = (pb1 , p
b2 ) = 1{Mujer} (Xi ), 1{Hombre} (Xi )
n n
i=1 i=1

donde:
p
b1 + p
b2 = 1

(PUCP) EST145 Enero de 2023 10 / 20


Médicos: Hombres y mujeres

Base de datos
> l i b r a r y ( haven )
>
> # Datos de p r o f e s i o n a l e s encuestados
> s a l u d . p e r s o n a l <− read_sav ( " h t t p : / / p o r t a l . susalud . gob . pe /
wp− c o n t e n t / uploads / a r c h i v o / base−de−datos /
2015/CUESTIONARIO %2002 %20− %20CAPITULOS . sav " )
>
> # Solo medicos
> s a l u d . medicos <− s a l u d . p e r s o n a l [ s a l u d . personal$C2P1 = = 1 , ]
>
> a t t r ( s a l u d . medicos$C2P4 , " l a b e l " )
[ 1 ] "SEXO"
> a t t r ( s a l u d . medicos$C2P4 , " l a b e l s " )
Hombre Mujer
1 2

Por lo general, aun cuando la variable es cualitativa, estas se re-


presentan por un valor numérico en las bases de datos.

(PUCP) EST145 Enero de 2023 11 / 20


Médicos: Hombres y mujeres

Frecuencia
> t a b l e ( s a l u d . medicos$C2P4 )

1 2
1657 562

La frecuencia de médicos mujeres encuestas fue 562

Proporción muestral
> t a b l e ( s a l u d . medicos$C2P4 )

1 2
1657 562
> prop . t a b l e ( t a b l e ( s a l u d . medicos$C2P4 ) )

1 2
0.7467328 0.2532672

La proporción de médicos encuestados que son mujeres es 0.253

(PUCP) EST145 Enero de 2023 12 / 20


Médicos: Hombres y mujeres

Cuadro: Distribución de hombres y mujeres entre los médicos encuestados


Sexo Frecuencia Proporción
Hombre 1657 0.746
Mujer 562 0.254

La proporción de médicos mujeres fue 0.254 (n=562).

En la muestra, la gran mayoria de médicos era hombre (0.746 vs.


0.254)
Sea pbM y pM la proporción muestral (estadístico) y la proporción
poblacional (parámetro) de médicos mujeres.
¿Cuán cerca esta p
bM de pM ?

(PUCP) EST145 Enero de 2023 13 / 20


Médicos: Hombres y mujeres

1.0
0.8
0.6
Proporcion

0.4
0.2
0.0

Hombre Mujeres

Figura: Distribución de médicos hombres y mujeres en la muestra (n=2219)


(PUCP) EST145 Enero de 2023 14 / 20
Médicos: Estado civil

Deseamos entender el comportamiento de la variable estado civil

Los niveles a considerar son: Conviviente, casado, viudo, divorcia-


do, separado y soltero.

Sea N el tamaño de la población, el parámetro p es

N
1X
1{Conviviente} (Xi ), . . . , 1{Soltero} (Xi )

p = (p1 , . . . , p6 ) =
N
i=1
N N
!
1X 1X
= 1{Conviviente} (Xi ), . . . , 1{Soltero} (Xi )
N N
i=1 i=1

donde p2 es la proporción de personas en la población que son


casados y
p1 + p2 + . . . p6 = 1

(PUCP) EST145 Enero de 2023 15 / 20


Consideremos una muestra X1 , . . . , Xn de observaciones de esta
variable

El estadístico p
b es

n
1X
1{Conviviente} (Xi ), . . . , 1{Soltero} (Xi )

p
b = (p̂1 , . . . , p̂6 ) =
n
i=1
n n
!
1X 1X
= 1{Conviviente} (Xi ), . . . , 1{Soltero} (Xi )
n n
i=1 i=1

donde p̂2 es la proporción de encuestados que responden ser ca-


sados y
p
b1 + p
b2 + . . . p
b6 = 1

(PUCP) EST145 Enero de 2023 16 / 20


Médicos: Estado civil

Código de R
> a t t r ( s a l u d . medicos$C2P5 , " l a b e l s " )
Conviviente Casado / a Viudo / a D i v o r c i a d o / a
1 2 3 4
Separado / a Soltero / a
5 6
> t a b l e ( s a l u d . medicos$C2P5 )

1 2 3 4 5 6
146 1463 20 54 42 494
> prop . t a b l e ( t a b l e ( s a l u d . medicos$C2P5 ) )

1 2 3 4
0.065795403 0.659305994 0.009013069 0.024335286
5 6
0.018927445 0.222622803

La proporción de médicos casados es 0.66 (n=1463)

La proporción de médicos solteros es 0.22 (n=494)

(PUCP) EST145 Enero de 2023 17 / 20


Médico: Estado civil

1.0
0.8
0.6
Proporcion

0.4
0.2
0.0

Conviviente Casado Viudo Divorciado Separado Soltero

(PUCP) EST145 Enero de 2023 18 / 20


Médico: Estado civil

1.0
0.8

1463
0.6
Proporcion

0.4

494
0.2

146
20 54 42
0.0

Conviviente Casado Viudo Divorciado Separado Soltero

(PUCP) EST145 Enero de 2023 19 / 20


Médico: Estado civil

1.0

Conviviente
Casado
Viudo
0.8

1463 Divorciado
Separado
Soltero
0.6
Proporcion

0.4

494
0.2

146
20 54 42
0.0

(PUCP) EST145 Enero de 2023 20 / 20

También podría gustarte