Está en la página 1de 12

Organización y presentación de datos bivariados.

INTRODUCCIÓN

En un estudio de investigación, una vez que se han organizado y presentado los datos de cada una de las
variables definidas en la base de datos, el paso siguiente es tratar de organizar y presentar datos de dos
variables mediante tablas bidimensionales de distribución de frecuencias y gráficos, teniendo en cuenta
los objetivos del estudio, con la finalidad de descubrir alguna posible relación o asociación entre ambas
variables.

Tal es el caso de observar en un estudiante por ejemplo el número de horas de estudio y su rendimiento
académico, podemos obtener un conjunto de pares, que denotaremos por (X;Y) y llamaremos variable
estadística bidimensional.
Los datos Bidimensionales son los valores obtenidos al medir dos variables distintas en cada unidad de
análisis, ya sea en la población o en la muestra.

La variable estadística bidimensional (X;Y) puede presentar las siguientes situaciones, como podemos
observar en el siguiente diagrama:

Figura 1. Posibilidades de relacionar dos variables.

Los datos bidimensionales (x i, y j) i = 1,2,...,k y j = 1,2,...,r son los valores de dos variables distintas
(X, Y) obtenidos de cada unidad de análisis, ya sea en la población o en la muestra. Se les utiliza cuando
se trata de saber si dos variables están relacionadas.

Para analizar la relación existente entre dos variables, debe efectuarse un análisis de correlación
o de regresión.
Algunos ejemplos de variable estadística bidimensional (X;Y):

a) Dos variables Cualitativas:


Cualitativa nominal y Cualitativa nominal
Consumo de tabaco y género en estudiantes universitarios.
Cualitativa ordinal y Cualitativa ordinal
El nivel socioeconómico y el nivel educativo de los padres de los estudiantes de la facultad de
Psicología de la UNMSM.
b) Dos variables Cuantitativas:
Cuantitativa continua y variable cuantitativa continua
El ingreso y los gastos de las familias de Lima Metropolitana.
Cuantitativa discreta y cuantitativa discreta
Número de hijos y número de habitaciones en los hogares de un centro poblado XYZ.
Cuantitativa discreta y cuantitativa continua
Número de accidentes de aviación y kilómetros de recorrido por un piloto de una línea aérea
conocida.
Cuantitativa continua y cuantitativa discreta
Horas de estudio y el número de asignaturas matriculados de los estudiantes universitarios.
c) Una variable cualitativa y la otra variable cuantitativa:
Acceso al agua potable e ingresos.
Género y satisfacción del paciente respecto a la calidad de atención en un centro de salud.
Experiencia de un operario y longitud de avance de una obra determinada.

I. REPRESENTACIÓN DE TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS

Consideraremos dos tipos de Tablas de distribución de frecuencias bidimensionales:

1. Para datos categóricos, provenientes de variables estadísticas cualitativas que reciben el nombre de
Tabla de contingencia. Y,
2. Para datos numéricos, provenientes de variables estadísticas cuantitativas que reciben el nombre de
tabla de correlación.

Sea una población estudiada simultáneamente según dos variables estadísticas (X;Y) tal que los
distintos valores que toman X e Y son:
X: x1, x2, …, xi,…, xk
Y: y1,y1, …, yj,…, ye

Donde xi; yj son dos valores cualesquiera que al estudiarse simultáneamente forman un arreglo de
valores observados (x1;y1), (x2;y2), …, (xk;ye) de la variable estadística bidimensional (X;Y) con sus
respectivas frecuencias absolutas conjuntas fij. Una forma de disponer los resultados es conocida
como Tabla de distribución de frecuencias de doble entrada o tabla de contingencia o correlación, la
cual podemos representar como sigue:

Tabla 1. Representación de una Tabla de doble entrada (fij)

Valores de Valores de Y
Total(f i .)
X y1 y2 ..... yJ ..... ye
x1 f11 f1.
x2 f21
.
.
.
xi fi1 fij fie fi.
.
.
.
xk fk1
Total(f . j) f.1 f.2 f.j f.e 𝒌 𝒆

𝒏=∑ ∑ 𝒇𝒊𝒋
𝒊=𝟏 𝒋=𝟏

En este caso, si observamos la Tabla 1, f11 nos indica el número de veces que aparece x1
conjuntamente con y1; f21, nos indica la frecuencia conjunta de x2 con y1, etc.

Tabla 2 . Representación de una Tabla de doble entrada (hij)

Valores de Valores de Y
Total (h i .)
X y1 y2 ..... yJ ..... ye
x1 h11 h1.
x2 h21
.
.
.
xi hi1 hij hie hi.
.
.
.
xk hk1
Total(h. j) h.1 h.2 h .j h.e 1

2.1 Tipos de Distribución de frecuencias

Cuando se estudian de manera conjunta dos variables estadísticas de manera simultánea, surgen tres tipos
de distribuciones:

1. Distribuciones de frecuencias Conjuntas

Hay tres tipos de distribuciones conjuntas

a) La frecuencia Absoluta conjunta. La simbología según la Tabla 1 es fij, que viene determinada por
el número de veces que aparece el par ordenado (xi;yj), el fij se determina por conteo de las
observaciones.

b) La frecuencia Relativa Conjunta (proporciones). La simbología es hij, que viene calculada por el
cociente entre la frecuencia absoluta conjunta y el número total de observaciones.
𝐟𝐢𝐣 𝐟𝐢𝐣
𝐡𝐢𝐣 = ó 𝐡𝐢𝐣 = 𝐤
𝐧 ∑𝐢=𝟏 ∑𝐞𝐣=𝟏 𝐟𝐢𝐣

c) La frecuencia Porcentual Conjunta. La simbología es pij, que viene calculada por el producto de la
frecuencia relativa conjunta y 100.

𝐩𝐢𝐣 = 𝐡𝐢𝐣 ∗ 𝟏𝟎𝟎


2. Distribuciones de frecuencias Marginales

Si trabajamos de manera conjunta con dos variables estadísticas y queremos calcular las distribuciones de
frecuencias de cada una de las características de manera independiente, nos encontramos con las
distribuciones marginales.

Las distribuciones marginales obtenidas en la Tabla 1 de doble entrada se puede observar en la Tabla 2,
que representa la distribución marginal de la variable X y en la Tabla 3, representamos la distribución
marginal de la variable Y.

fi.: es la frecuencia absoluta marginal de X, representa el número de veces que aparece el valor xi de X,
sin tener en cuenta cual es el valor de la variable Y

𝐟𝐢. = ∑ 𝐟𝐢𝐣= 𝐟𝐢𝟏 + 𝐟𝐢𝟐 + ⋯ + 𝐟𝐢𝐞


𝐣=𝟏

Tabla 2 Tabla 3

Distribución de frecuencia
absoluta Marginal de X Distribución de frecuencia absoluta
X fi. Margnal de Y
x1 f1. Y f.j
x2 f2. y1 f.1
. . y2 f.2
. . . .
. . . .
xi fi. . .
. . yi fi.
. . . .
. . . .
xk fk. . .
ye fe.
Total n=∑𝑘𝑖 𝑓𝑖. 𝒆
Total
𝒏 = ∑ 𝒇.𝒋
𝒋=𝟏

f.j: es la frecuencia absoluta marginal de Y, representa el número de veces que aparece el valor yi de Y,
sin tener en cuenta cual es el valor de la variable X
𝐤

𝐟.𝐣 = ∑ 𝒇𝒊𝒋 = 𝒇𝟏𝒋 + 𝒇𝟐𝒋 + ⋯ 𝒇𝒌𝒋


𝐢=𝟏

hi.: es la frecuencia relativa marginal de X, se calcula de la siguiente manera:


𝒇𝒊.
𝒉𝒊. =
𝒏
h.j: es la frecuencia relativa marginal de Y, se calcula de la siguiente manera:
𝒇.𝒋
𝒉.𝒋 =
𝒏
pi.: es la frecuencia porcentual marginal de X, se calcula de la siguiente manera:

𝒑𝒊. = 𝒉𝒊. ∗ 𝟏𝟎𝟎

p.j: es la frecuencia porcentual marginal de Y, se calcula de la siguiente manera:

𝒑.𝒋 = 𝒉.𝒋 ∗ 𝟏𝟎𝟎

3. Distribuciones Condicionadas

Sea una población estudiada simultáneamente según dos variables estadísticas (X;Y), tal que la variable X
presenta k valores o modalidades y la variable Y e valores o modalidades mutuamente excluyentes, esto
es:
X: x1, x2, …, xi,…, xk
Y: y1, y1, …, yj,…, ye

Así de la Tabla 1 podemos extraer la Distribución de la variable Y dado X:

TABLA1
Valores de Valores de Y
Total
X y1 y2 ..... yJ ..... ye
x1 f11 f1.
x2 f21
.
.
.
xi fi1 fij fie fi.
.
.
.
xk fk1
Total f.1 f.2 f.j f.e 𝒌 𝒆

𝒏=∑ ∑ 𝒇𝒊𝒋
𝒊=𝟏 𝒋=𝟏

Así en la Tabla 4 podemos observar la distribución de frecuencias (absolutas, relativas y porcentuales)


de la variable Y condicionada a que la variable X tome el valor fijo xi:

Tabla 4.(TABLA DE PERFIL FILA O LÍNEA)


Valores de Y y1 y2 … yj … ye Totales

Frecuencia
absoluta de Y
condicionada fi1 fi2 … fij … fie fi.
a X=xi
f(Y/X=xi)

Frecuencia 𝑓𝑖1 𝑓𝑖2 𝑓𝑖𝑗 𝑓𝑖𝑒


… 1
relativa de Y 𝑓𝑖. 𝑓𝑖. 𝑓𝑖. 𝑓𝑖.
condicionada
a X=xi
h(Y/X=xi)

p(Y/X=xi) 𝑓𝑖1 𝑓𝑖2 𝑓𝑖𝑗 𝑓𝑖𝑒


*100 ∗ 100 … ∗ 100 ∗ 100 100
𝑓𝑖. 𝑓𝑖. 𝑓𝑖. 𝑓𝑖.

De igual modo de la Tabla 1 podemos extraer la Distribución de la variable X dado Y:

Tabla 1
Valores de Valores de Y
Total
X y1 y2 ..... yJ ..... ye
x1 f11 f1.
x2 f21
.
.
.
xi fi1 fij fie fi.
.
.
.
xk fk1
Total f.1 f.2 f.j f.e 𝒌 𝒆

𝒏=∑ ∑ 𝒇𝒊𝒋
𝒊=𝟏 𝒋=𝟏

Así en la Tabla 5 podemos observar la distribución de frecuencias (absolutas, relativas y porcentuales) la


variable X condicionada a que la variable Y tome el valor fijo y j:

Tabla 5 (TABLA PERFIL COLUMNA)


Valores de X x1 x2 … xi … xk Totales

Frecuencia absoluta de
X condicionada a f1j f2j … fij … fkj f.j
Y=yjf(x/y=yj)

Frecuencia relativa de X
𝑓1𝑗 𝑓2𝑗 𝑓𝑖𝑗 𝑓𝑘𝑗
condicionada a … 1
𝑓.𝑗 𝑓.𝑗 𝑓𝑗. 𝑓.𝑗
Y=yjh(x/y=yj)

Frecuencia porcentual
de X condicionada a 𝑓1𝑗 𝑓2𝑗 𝑓𝑖𝑗 𝑓𝑘𝑗
Y=yj ∗ 100 ∗ 100 … ∗ 100 *100 100
𝑓.𝑗 𝑓.𝑗 𝑓𝑗. 𝑓.𝑗

p(Y/X=xi)
II. Propiedades de las frecuencias

En la Tabla 1, se observa n la muestra total de observaciones pareadas de la variable estadística


bidimensional (X;Y), de las cuales se pueden deducir las siguientes propiedades:

1. La suma de las frecuencias absolutas conjuntas es igual al tamaño de la muestra de pares


observados, se expresa matemáticamente bajo el siguiente algoritmo:
𝒌 𝒆

∑ ∑ 𝒇𝒊𝒋 = 𝒏 = 𝒇𝟏𝟏 + 𝒇𝟏𝟐 + ⋯ + 𝒇𝒌𝒆


𝒊=𝟏 𝒋=𝟏
2. La suma de las frecuencias relativas conjuntas es igual a la unidad, podemos expresarlo de la
siguiente manera:
𝒌 𝒆 𝒌 𝒆 𝒌 𝒆
𝒇𝒊𝒋 𝟏 𝟏
∑ ∑ 𝒉𝒊𝒋 = ∑ ∑ = ∑ ∑ 𝒇𝒊𝒋 = ∗𝒏 =𝟏
𝒏 𝒏 𝒏
𝒊=𝟏 𝒋=𝟏 𝒊=𝟏 𝒋=𝟏 𝒊=𝟏 𝒋=𝟏

3. La suma de las frecuencias marginales por fila es igual al número de observaciones pares, así:
𝒌

∑ 𝒇𝒊. = 𝒇𝟏. + 𝒇𝟐. + ⋯ + 𝒇𝒌. = 𝒏


𝒊=𝟏
4. La suma de las frecuencias marginales por columna es igual al número de observaciones pares,
así:
𝒆

∑ 𝒇.𝒋 = 𝒇.𝟏 + 𝒇.𝟐 + ⋯ + 𝒇.𝒆 = 𝒏


𝒋=𝟏
5. La suma de las frecuencias absolutas conjuntas por los valores de X, es igual a la suma de las
frecuencias marginales por fila por los valores de X, se expresa de esta manera:
𝒌 𝒆 𝒌

∑ ∑ 𝒇𝒊𝒋 𝒙𝒊 = ∑ 𝒇𝒊. 𝒙𝒊
𝒊=𝟏 𝒋=𝟏 𝒊=𝟏
6. La suma de las frecuencias absolutas conjuntas por los valores de Y, es igual a la suma de las
frecuencias marginales por columna por los valores de Y, se expresa de esta manera:
𝒌 𝒆 𝒆

∑ ∑ 𝒇𝒊𝒋 𝒚𝒋 = ∑ 𝒇.𝒋 𝒚𝒋
𝒊=𝟏 𝒋=𝟏 𝒋=𝟏

Ejemplo 1:
Se tomó una muestra de 200 empleados del Ministerio de Agricultura en Lima, año 2006, con el objetivo de
averiguar el comportamiento y relación de las variables región de procedencia (X) y el grado de instrucción
(Y) y se obtuvo los siguientes resultados:
Xi Yi fi X : Región de procedencia

CO PRI 40 X: variable cualitativa o categórica, con 3


niveles
CO SEC 30
Costa : CO Sierra: SI Selva: SE
CO SUP 20
Y: grado de instrucción
SI PRI 35 Y: variable cualitativa o categórica, con 3
niveles
SI SEC 15
Primaria: PRI Secundaria: SEC Superior:
SI SUP 10 SUP

SE PRI 30

SE SEC 15

SE SUP 5

TOTAL 200

Tabla de frecuencias absolutas conjuntas y absolutas marginales


Clasificación de los empleados del Ministerio de Agricultura según región de procedencia (X) y grado de
instrucción (Y). Lima- 2000.

Xi / Yj PRI SEC SUP f. a. m. X: f i .

CO 40 30 20 90

SI 35 15 10 60

SE 30 15 5 50

f. a. m.Y: f . j 105 60 35 n = 200

Notaciones:

fij : frecuencia absoluta conjunta, i = 1, 2, 3 indica las filas de X (región de procedencia)

j = 1,2,3 indica las columnas de Y(grado de instrucción)

f i . : frecuencia absoluta marginal de X i , i = 1, 2, 3

i = 1 = CO f 1 . = 40+30+20 = 90

i = 2 = SI f 2 . = 35+15+10 = 60

i = 3 = SE f 3 . = 30+15+5 = 50

f.j : frecuencia absoluta marginal de Y j , j = 1, 2 ,3

j = 1 = PRI f . 1 = 40+35+30 = 105

j = 2 = SEC f . 2 = 30+15+15 = 60

j = 3 = SUP f . 3 = 20+10+15 = 35
DISTRIBUCIONES MARGINALES

A partir de la tabla bidimensional, podemos obtener las distribuciones marginales. En los márgenes derecho
e inferior de la tabla, se encuentran los totales de filas y columnas. Los totales de la derecha son las
frecuencias de la variable X, y los totales de la parte inferior son las frecuencias de la variable Y. Si se desea,
se puede obtener cada distribución por separado, obteniéndose así las distribuciones marginales.

Tablas 2 y 3: Tablas de distribuciones marginales de la “región de procedencia” y del “grado de instrucción”,


respectivamente

Tabla 2 Tabla 3

Xi fi. Yj f.j

CO 90 PRI 105

SI 60 SEC 60

SE 50 SUP 35

TOTAL 200 TOTAL 200

A partir de la frecuencia absoluta conjunta se puede obtener la frecuencia relativa conjunta hij que indica la
proporción de veces que se presenta, al mismo tiempo, la clase ci de X y la clase cj de Y: hij = fij / n

h i . : es la frecuencia relativa marginal de la categoría ci de X; h i . = f i . / n

h . j : es la frecuencia relativa marginal de la categoría cj de Y; h . j = f . j / n.

Tabla 4: Tabla de frecuencias relativas conjuntas (hij) y marginales ( h i . , h . j) en %

Xi / YJ PRI SEC SUP f. r. m.X: h i . %

CO 20.0 15.0 10.0 45

SI 17.5 7.5 5.0 30

SE 15.0 7.5 2.5 25

f. r. m.Y: h . j % 52.5 30.0 17.5 100

Todas las frecuencias de esta tabla han sido obtenidas dividiendo las frecuencias conjuntas y marginales
de la tabla 1 entre el número total de datos (n = 200)

h ij : frecuencia relativa conjunta

h 11 = f11 / n = 40 / 200 = 0.20


h 12 = f12 / n = 30 / 200 = 0.15,

h33 = f33 / n = 0.025

Frecuencias relativas marginales: h i . de X y h . j de Y

h 1 . = 20 + 15+ 10 = 45 = 90/200 h . 1 = 20+17.5+15 = 52.5 = 105/200

h 2 . = 17.5+7.5+5 = 30 = 60/200 h . 2 = 15+ 7.5+7.5 = 30 = 60/200

h 3 . = 15+7.5+2.5 = 25 = 50/200 h . 3 = 10+ 5 + 2.5 = 17.5 = 35/200

Las tablas 1 y 4 también reciben el nombre de Tablas de Contingencia.

DISTRIBUCIONES CONDICIONALES

Considerando las frecuencias relativas se puede obtener diferentes tipos de tablas, cuando se tome en
cuenta las proporciones respecto al total de datos, respecto al total de filas y respecto al total de columnas.
En cada caso, las interpretaciones de las frecuencias son diferentes.

Tabla 5: Tabla de frecuencias relativas condicionales de X i / Y= y j : h i j (en %)

Xi : Región de Xi / Y 1 = PRI Xi / Y 2 = SEC Xi / Y 3 = SUP


procedencia
h i j=1 h i j=2 h i j=3

CO 38.1 50 57.1

SI 33.3 25 28.6

SE 28.6 25 14.3

TOTAL 100.0 100 100.0

i = 1 CO / Y1 = PRI = h 1 j = 1 = 20 / 52.5 = 0.3809

i = 2 SI / Y1 = PRI = h 2 j = 1 = 17.5/52.5 = 0.3333

i = 3 SE / Y1 = PRI = h 3 j = 1 = 15/52.5 = 0.2857


Como puede observarse, esta tabla nos muestra tres distribuciones diferentes para X. Nos informa acerca
de la distribución de la “región de procedencia” de aquellos empleados que tienen solamente nivel de
instrucción primaria o secundaria o superior (se considera el total de cada columna como una submuestra)

Esta tabla se denomina Tabla de Perfiles Columna

Significado de las frecuencias de la 2ª columna: Del total de empleados del Ministerio de Agricultura que
tienen instrucción primaria, el 38.1% son de la costa, el 33.3% son de la sierra y el 28.6% proceden de la
selva.

Tabla 6: Tabla de frecuencias relativas condicionales de Y j / X = x i : h j i (en %)

Y j : Nivel de instrucción PRI SEC SUP TOTAL

Yj / X 1 = CO h j i=1 45.0 33 22.0 100

Yj / X 2 = SI h j i=2 58.3 25 16.7 100

Yj / X 3 = SE h j i=3 60.0 30 10.0 100

j = 1 PRI / X 1 = CO = h 1 i = 1 = 20/45 =0.45

j = 2 SEC / X 1 = CO = h 2 i = 1 = 15/45 =0.33

j = 3 SUP / X 1 = CO = h 3 i = 1 = 10/45 =0.22

Como puede observarse, esta tabla nos muestra tres distribuciones diferentes para Y. Nos informa acerca
de la distribución del “grado de instrucción” de aquellos empleados que proceden de la costa o sierra o selva
(se considera el total de cada fila como una submuestra)

También podría gustarte