Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIÓN
En un estudio de investigación, una vez que se han organizado y presentado los datos de cada una de las
variables definidas en la base de datos, el paso siguiente es tratar de organizar y presentar datos de dos
variables mediante tablas bidimensionales de distribución de frecuencias y gráficos, teniendo en cuenta
los objetivos del estudio, con la finalidad de descubrir alguna posible relación o asociación entre ambas
variables.
Tal es el caso de observar en un estudiante por ejemplo el número de horas de estudio y su rendimiento
académico, podemos obtener un conjunto de pares, que denotaremos por (X;Y) y llamaremos variable
estadística bidimensional.
Los datos Bidimensionales son los valores obtenidos al medir dos variables distintas en cada unidad de
análisis, ya sea en la población o en la muestra.
La variable estadística bidimensional (X;Y) puede presentar las siguientes situaciones, como podemos
observar en el siguiente diagrama:
Los datos bidimensionales (x i, y j) i = 1,2,...,k y j = 1,2,...,r son los valores de dos variables distintas
(X, Y) obtenidos de cada unidad de análisis, ya sea en la población o en la muestra. Se les utiliza cuando
se trata de saber si dos variables están relacionadas.
Para analizar la relación existente entre dos variables, debe efectuarse un análisis de correlación
o de regresión.
Algunos ejemplos de variable estadística bidimensional (X;Y):
1. Para datos categóricos, provenientes de variables estadísticas cualitativas que reciben el nombre de
Tabla de contingencia. Y,
2. Para datos numéricos, provenientes de variables estadísticas cuantitativas que reciben el nombre de
tabla de correlación.
Sea una población estudiada simultáneamente según dos variables estadísticas (X;Y) tal que los
distintos valores que toman X e Y son:
X: x1, x2, …, xi,…, xk
Y: y1,y1, …, yj,…, ye
Donde xi; yj son dos valores cualesquiera que al estudiarse simultáneamente forman un arreglo de
valores observados (x1;y1), (x2;y2), …, (xk;ye) de la variable estadística bidimensional (X;Y) con sus
respectivas frecuencias absolutas conjuntas fij. Una forma de disponer los resultados es conocida
como Tabla de distribución de frecuencias de doble entrada o tabla de contingencia o correlación, la
cual podemos representar como sigue:
Valores de Valores de Y
Total(f i .)
X y1 y2 ..... yJ ..... ye
x1 f11 f1.
x2 f21
.
.
.
xi fi1 fij fie fi.
.
.
.
xk fk1
Total(f . j) f.1 f.2 f.j f.e 𝒌 𝒆
𝒏=∑ ∑ 𝒇𝒊𝒋
𝒊=𝟏 𝒋=𝟏
En este caso, si observamos la Tabla 1, f11 nos indica el número de veces que aparece x1
conjuntamente con y1; f21, nos indica la frecuencia conjunta de x2 con y1, etc.
Valores de Valores de Y
Total (h i .)
X y1 y2 ..... yJ ..... ye
x1 h11 h1.
x2 h21
.
.
.
xi hi1 hij hie hi.
.
.
.
xk hk1
Total(h. j) h.1 h.2 h .j h.e 1
Cuando se estudian de manera conjunta dos variables estadísticas de manera simultánea, surgen tres tipos
de distribuciones:
a) La frecuencia Absoluta conjunta. La simbología según la Tabla 1 es fij, que viene determinada por
el número de veces que aparece el par ordenado (xi;yj), el fij se determina por conteo de las
observaciones.
b) La frecuencia Relativa Conjunta (proporciones). La simbología es hij, que viene calculada por el
cociente entre la frecuencia absoluta conjunta y el número total de observaciones.
𝐟𝐢𝐣 𝐟𝐢𝐣
𝐡𝐢𝐣 = ó 𝐡𝐢𝐣 = 𝐤
𝐧 ∑𝐢=𝟏 ∑𝐞𝐣=𝟏 𝐟𝐢𝐣
c) La frecuencia Porcentual Conjunta. La simbología es pij, que viene calculada por el producto de la
frecuencia relativa conjunta y 100.
Si trabajamos de manera conjunta con dos variables estadísticas y queremos calcular las distribuciones de
frecuencias de cada una de las características de manera independiente, nos encontramos con las
distribuciones marginales.
Las distribuciones marginales obtenidas en la Tabla 1 de doble entrada se puede observar en la Tabla 2,
que representa la distribución marginal de la variable X y en la Tabla 3, representamos la distribución
marginal de la variable Y.
fi.: es la frecuencia absoluta marginal de X, representa el número de veces que aparece el valor xi de X,
sin tener en cuenta cual es el valor de la variable Y
Tabla 2 Tabla 3
Distribución de frecuencia
absoluta Marginal de X Distribución de frecuencia absoluta
X fi. Margnal de Y
x1 f1. Y f.j
x2 f2. y1 f.1
. . y2 f.2
. . . .
. . . .
xi fi. . .
. . yi fi.
. . . .
. . . .
xk fk. . .
ye fe.
Total n=∑𝑘𝑖 𝑓𝑖. 𝒆
Total
𝒏 = ∑ 𝒇.𝒋
𝒋=𝟏
f.j: es la frecuencia absoluta marginal de Y, representa el número de veces que aparece el valor yi de Y,
sin tener en cuenta cual es el valor de la variable X
𝐤
3. Distribuciones Condicionadas
Sea una población estudiada simultáneamente según dos variables estadísticas (X;Y), tal que la variable X
presenta k valores o modalidades y la variable Y e valores o modalidades mutuamente excluyentes, esto
es:
X: x1, x2, …, xi,…, xk
Y: y1, y1, …, yj,…, ye
TABLA1
Valores de Valores de Y
Total
X y1 y2 ..... yJ ..... ye
x1 f11 f1.
x2 f21
.
.
.
xi fi1 fij fie fi.
.
.
.
xk fk1
Total f.1 f.2 f.j f.e 𝒌 𝒆
𝒏=∑ ∑ 𝒇𝒊𝒋
𝒊=𝟏 𝒋=𝟏
Frecuencia
absoluta de Y
condicionada fi1 fi2 … fij … fie fi.
a X=xi
f(Y/X=xi)
Tabla 1
Valores de Valores de Y
Total
X y1 y2 ..... yJ ..... ye
x1 f11 f1.
x2 f21
.
.
.
xi fi1 fij fie fi.
.
.
.
xk fk1
Total f.1 f.2 f.j f.e 𝒌 𝒆
𝒏=∑ ∑ 𝒇𝒊𝒋
𝒊=𝟏 𝒋=𝟏
Frecuencia absoluta de
X condicionada a f1j f2j … fij … fkj f.j
Y=yjf(x/y=yj)
Frecuencia relativa de X
𝑓1𝑗 𝑓2𝑗 𝑓𝑖𝑗 𝑓𝑘𝑗
condicionada a … 1
𝑓.𝑗 𝑓.𝑗 𝑓𝑗. 𝑓.𝑗
Y=yjh(x/y=yj)
Frecuencia porcentual
de X condicionada a 𝑓1𝑗 𝑓2𝑗 𝑓𝑖𝑗 𝑓𝑘𝑗
Y=yj ∗ 100 ∗ 100 … ∗ 100 *100 100
𝑓.𝑗 𝑓.𝑗 𝑓𝑗. 𝑓.𝑗
p(Y/X=xi)
II. Propiedades de las frecuencias
3. La suma de las frecuencias marginales por fila es igual al número de observaciones pares, así:
𝒌
∑ ∑ 𝒇𝒊𝒋 𝒙𝒊 = ∑ 𝒇𝒊. 𝒙𝒊
𝒊=𝟏 𝒋=𝟏 𝒊=𝟏
6. La suma de las frecuencias absolutas conjuntas por los valores de Y, es igual a la suma de las
frecuencias marginales por columna por los valores de Y, se expresa de esta manera:
𝒌 𝒆 𝒆
∑ ∑ 𝒇𝒊𝒋 𝒚𝒋 = ∑ 𝒇.𝒋 𝒚𝒋
𝒊=𝟏 𝒋=𝟏 𝒋=𝟏
Ejemplo 1:
Se tomó una muestra de 200 empleados del Ministerio de Agricultura en Lima, año 2006, con el objetivo de
averiguar el comportamiento y relación de las variables región de procedencia (X) y el grado de instrucción
(Y) y se obtuvo los siguientes resultados:
Xi Yi fi X : Región de procedencia
SE PRI 30
SE SEC 15
SE SUP 5
TOTAL 200
CO 40 30 20 90
SI 35 15 10 60
SE 30 15 5 50
Notaciones:
i = 1 = CO f 1 . = 40+30+20 = 90
i = 2 = SI f 2 . = 35+15+10 = 60
i = 3 = SE f 3 . = 30+15+5 = 50
j = 2 = SEC f . 2 = 30+15+15 = 60
j = 3 = SUP f . 3 = 20+10+15 = 35
DISTRIBUCIONES MARGINALES
A partir de la tabla bidimensional, podemos obtener las distribuciones marginales. En los márgenes derecho
e inferior de la tabla, se encuentran los totales de filas y columnas. Los totales de la derecha son las
frecuencias de la variable X, y los totales de la parte inferior son las frecuencias de la variable Y. Si se desea,
se puede obtener cada distribución por separado, obteniéndose así las distribuciones marginales.
Tabla 2 Tabla 3
Xi fi. Yj f.j
CO 90 PRI 105
SI 60 SEC 60
SE 50 SUP 35
A partir de la frecuencia absoluta conjunta se puede obtener la frecuencia relativa conjunta hij que indica la
proporción de veces que se presenta, al mismo tiempo, la clase ci de X y la clase cj de Y: hij = fij / n
Todas las frecuencias de esta tabla han sido obtenidas dividiendo las frecuencias conjuntas y marginales
de la tabla 1 entre el número total de datos (n = 200)
DISTRIBUCIONES CONDICIONALES
Considerando las frecuencias relativas se puede obtener diferentes tipos de tablas, cuando se tome en
cuenta las proporciones respecto al total de datos, respecto al total de filas y respecto al total de columnas.
En cada caso, las interpretaciones de las frecuencias son diferentes.
CO 38.1 50 57.1
SI 33.3 25 28.6
SE 28.6 25 14.3
Significado de las frecuencias de la 2ª columna: Del total de empleados del Ministerio de Agricultura que
tienen instrucción primaria, el 38.1% son de la costa, el 33.3% son de la sierra y el 28.6% proceden de la
selva.
Como puede observarse, esta tabla nos muestra tres distribuciones diferentes para Y. Nos informa acerca
de la distribución del “grado de instrucción” de aquellos empleados que proceden de la costa o sierra o selva
(se considera el total de cada fila como una submuestra)