Está en la página 1de 41

INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”

Fundado en 1929

Unidad II

Descripción de Conjuntos de Datos

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Objetivos Específicos de la Unidad

Al finalizar el estudio de la unidad, los


alumnos estarán en condiciones de:

A. Organizar un conjunto de datos que le permita tener una


visión e interpretación rápida de la información

B. Identificar técnicas de agrupación de datos para variables


discretas y continuas

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Índice de Contenidos de la Unidad

2. Descripción de Conjuntos de Datos

2.1. Reducción de datos unidimensionales


2.1.1. Distribución de frecuencias
2.1.2. Agrupación y tabulación de datos para variables
discretas y continuas
2.1.2.1. Tabulación por valor
2.1.2.2. Tabulación por intervalo
2.1.3. Agrupación y tabulación de atributos
2.1.4. Representación gráfica de distribuciones
unidimensionales

2.2. Reducción de datos bidimensionales

2.3. Resumen de la unidad

2.4. Actividad de autoevaluación

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

UNIDAD 2: DESCRIPCIÓN DE CONJUNTOS DE DATOS

2. Descripción de conjuntos de datos

2.1. Reducción de datos unidimensionales

2.1.1. Distribución de frecuencias: definiciones

L a tabla de frecuencias tiene como


finalidad presentar, en forma ordenada,
los valores que toman las diferentes
características, de tal forma, que el analista
pueda tener una visión en conjunto de los
datos de clasificación. En ella, se indica el
número de veces que se repite el atributo o
variable.

Definamos la simbología a utilizar en una tabla de


distribución

− N : tamaño de la población

− n : tamaño de la muestra

− xi: característica cuantitativa observada i en cada unidad


investigada

− ni : frecuencia absoluta. Número de veces que se repite cada


valor de la variable i

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

ni
− hi = : frecuencia relativa de la marca de clase i
n

j
− N j = ∑ ni : frecuencia absoluta acumulada descendente
i =1

hasta marca de clase j


j
− H j = ∑ hi : frecuencia relativa acumulada descendente
i =1

hasta marca de clase j

− m: número de intervalos en que se tabulan los datos o


número de valores diferentes que toma la variable

− yi: marca de clase para cada intervalo o los diferentes


valores que toma una variable

− yi' −1 : límite inferior del intervalo i

− yi' : límite superior del intervalo i

− ci = y 'i − y 'i −1 : amplitud del intervalo i

2.1.2. Agrupación y tabulación de datos para variables


discretas y continuas

2.1.2.1. Tabulación por valor

E ste tipo de tabulación agrupa la


muestra, según los distintos valores
que toma la variable. Para ello, es
necesario que las variables no tomen

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

muchos valores diferentes al interior de


la muestra.

Para explicar la tabulación por valor,


analizaremos el siguiente ejemplo.

Ejemplo 2.1

En una encuesta a 30 personas, se ha


medido el número de productos que tienen en el
sistema financiero (DICOM), dando como resultados
los siguientes valores:

3 2 3 4 2 0
1 4 4 0 5 3
4 1 3 2 4 2
0 3 1 3 4 4
1 2 1 3 2 3

Para realizar la tabulación de datos por


valor, primero, se deben identificar las marcas de
clase o los diferentes valores que toma la variable. En
este caso, existen 6 valores diferentes: 0, 1, 2, 3, 4 y 5
productos financieros. Una vez identificados los
valores, se deben contar las veces que se repite cada
uno en la muestra, esto se define como frecuencia
absoluta. Posteriormente, se debe calcular la

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

frecuencia relativa y los valores acumulados


absolutos y relativos.

De la muestra, se tiene que existen 6


marcas de clase (m) de un total de 30 valores (n).

Las marcas de clase (Nº de productos)


serán:

y1 = 0, y 2 = 1, y 3 = 2, y 4 = 3, y5 = 4, y 6 = 5

➻ La tabla de frecuencias será la


siguiente:

Nº ni Ni hi Hi
Productos
0 3 3 0,100 0,100
1 5 8 0,167 0,267
2 6 14 0,200 0,467
3 8 22 0,267 0,733
4 7 29 0,233 0,967
5 1 30 0,033 1,000
30 1,000

Se debe tener en cuenta que, en toda


tabulación de datos, la suma de las frecuencias
absolutas debe corresponder al total de la muestra,
n
esto es: ∑n i = n . Además, la frecuencia absoluta
i =1

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

acumulada para la última marca de clase, debe ser


igual al total de la muestra y la frecuencia relativa
acumulada, para la última marca de clase, debe ser
igual a 1,0001.

2.1.2.2. Tabulación por intervalos

L a tabulación de intervalos es
adecuada, cuando
observaciones toman muchos valores
las

al interior de la muestra, por lo que es


necesario agruparlos mediante
intervalos.

La elaboración de la tabla de frecuencias


la explicaremos mediante un ejemplo:

Ejemplo 2.2

Para analizar el perfil de los clientes de


un prestigioso banco de la capital, se ha realizado
una encuesta a 35 clientes, sobre sus ingresos
mensuales en miles de pesos (M$).

1
En algunos casos y, por problemas de aproximación de las frecuencias relativas, el total puede ser inferior o
superior al 1.000, pero con una pequeña diferencia.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

1.223 2.190 1.202 1.242 1.979


848 1.340 1.398 2.922 1.375
1.066 2.447 2.599 2.528 2.411
1.923 2.681 1.623 2.548 1.150
2.734 2.873 1.200 957 1.645
1.652 2.370 1.497 1.847 1.689
842 1.834 1.192 2.842 1.341

Para realizar una tabulación con el


mínimo de errores, es recomendable seguir los
siguientes pasos:

1) Determinar valor máximo y mínimo que toma la


variable: x min = 842 y x max = 2.922

2) Calcular el rango:

Xmax - Xmin = rango

2.922 − 842 = 2.080

3) Se debe determinar el número de intervalos o


marcas de clase (m) que se utilizará para agrupar
los datos. En este caso, se realizará el ejemplo para
6 y 8 marcas de clases, de manera de analizar las
diferencias que se producen, cuando se realiza una
aproximación de la amplitud y su tratamiento
respectivo.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

4) Cálculo de la amplitud con 6 marcas de clase:

x max − x min Rango 2.080


c= = = = 346,7
m m 6

5) Para mayor comodidad se debe aproximar la


amplitud al próximo valor entero mayor ( c = 347 ).
De esta forma, se obtiene un nuevo rango.

Rango'
347 = ⇒ Rango' = 2.082
6

6) El rango se incrementa en dos unidades, de 2.080


(rango inicial) pasa a 2.082 (rango nuevo), por
lo que se deben redistribuir las unidades de
diferencia.

7) Antes de realizar la redistribución de las unidades


de diferencia, a los valores mínimos y máximos, se
debe tener en cuenta que los valores de la muestra,
en su totalidad, deben estar incluidos en el rango.
En tal sentido, lo recomendable es distribuir en
forma equitativa, tanto para el valor mínimo como
para el máximo. En este caso, como la diferencia
son dos unidades, se distribuirán una al valor
mínimo y otra al valor máximo.

La metodología de distribución consiste


en restar las unidades distribuidas al valor mínimo
y sumar las unidades distribuidas al valor máximo,
lo que implica, tener nuevos valores extremos en la
distribución de datos, es decir:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

'
x min = x min − 1 = 842 − 1 = 841

'
x max = x max + 1 = 2.922 + 1 = 2.923

En este caso, la distribución es equitativa


a los valores extremos, porque la diferencia
corresponde a un número par. En caso de existir
una diferencia impar, por ejemplo 5, se debe tomar
la decisión si distribuir 2 unidades al valor mínimo
y 3 unidades al valor máximo o viceversa.

8) Elaboración de intervalos yi' −1 − yi' ; donde yi' −1


corresponde al límite inferior y yi' al límite
superior2

La forma de construir los intervalos es,


básicamente, tomar el nuevo valor mínimo (como
límite inferior del primer intervalo) y sumar la
amplitud, lo que dará como resultado, el límite
superior del primer intervalo. Para el segundo
intervalo, el límite inferior corresponderá al límite
superior del intervalo anterior, repitiendo el
ejercicio.

Si la amplitud es constante:

y 0' − y 1' = x máx


'
(− x mín
'
)
+ c = 841 − ( 841 + 347 ) = 841 − 1 . 188

2
En este caso, el símbolo - no indica una operación matemática de resta, sólo hace las veces de
guión gramatical.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

y1' − y 2' = 1.188 − (1.188 + 347) = 1.188 − 1.535

y 2' − y3' = 1.535 − 1.882

y 3' − y 4' = 1.882 − 2.229

y 4' − y 5' = 2.229 − 2.576

y5' − y 6' = 2.576 − 2.923

9) Tabulación de intervalos: debido a que el límite


superior de una clase, coincide con el límite
inferior de la clase siguiente, se debe decidir en qué
intervalo considerar dicho valor, para no
contabilizarlo dos veces en el cálculo de las
frecuencias. Existen dos criterios:

- Tabulación superior: se considera que los


valores límites, se incluyen en el intervalo
superior. En nuestro caso tendríamos:

[841-1.188]

(1.188-1.535]

(1.535-1.882]

(1.882-2.229]

(2.229-2.576]

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

(2.576-2.923]

Por lo tanto, el cálculo de las


frecuencias absolutas para el primer intervalo,
corresponderá a todos los valores entre 841
hasta 1.188, ambos valores incluidos, para el
segundo intervalo, desde el valor
inmediatamente superior a 1.188 hasta 1.535
incluido y, así, sucesivamente.

Ψ Nota: Conviene que el primer intervalo


sea completamente cerrado, pues en
algunos casos el rango es exacto y los
valores extremos deben quedar
incluidos en la tabulación.

- Tabulación inferior: en este caso, los valores


límites, se incluyen en el intervalo inferior. En
nuestro ejemplo quedaría:

[841-1.188)

[1.188-1.535)

[1.535-1.882)

[1.882-2.229)

[2.229-2.576)

[2.576-2.923]

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

En este caso, el cálculo de las


frecuencias absolutas, para el primer intervalo,
corresponderá a todos los valores entre 841
(justo el valor del límite inferior cerrado) hasta
1.188 excluido, esto es, el valor anterior al
límite superior abierto; para el segundo
intervalo desde 1.188, incluido, hasta 1.535
excluido y, así sucesivamente.

Ψ Nota: Conviene que el último intervalo


sea completamente cerrado, pues en
algún caso, el rango suele ser exacto y
los valores extremos deben quedar
incluidos en la tabulación.

10) Cálculo de las marcas de clase de cada


intervalo: en las tablas de frecuencias, en que se
han debido agrupar datos, se coloca una columna,
simbolizada por yi denominada marcas de clase
(corresponde a un valor de la variable estudiada,
en este caso, ingresos). Esta columna será el valor
representativo de cada intervalo y servirá para
facilitar el cálculo de algunas medidas de posición
y dispersión que se analizarán más adelante.

► El cálculo de estas marcas de clase se


puede obtener de dos maneras:

- Como promedio de los límites inferior y


superior de cada intervalo (esto se realiza

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

cuando la amplitud no es constante para cada


intervalo):

yi' −1 + y i'
yi =
2

En nuestro caso:

y1 = (841+1.188)2 = 1.014,5

y 2 = (1.188+1.535)2 = 1.361,5

y3 = (1.535+1.882)2 = 1.708,5

y 4 = (1.882+ 2.229 )2 = 2.055,5

y5 = (2.229+ 2.576 )2 = 2.402,5

y 6 = (2.576+ 2.923)2 = 2.749,5

Es importante destacar, que para el


cálculo de la marca de clase, no se considera la
tabulación, es decir, sólo se consideran los límites
superiores e inferiores de cada intervalo.

- Si la amplitud del intervalo es constante, basta


determinar la primera marca de clase y, luego, ir
sumando la amplitud.

y1 = (841+1.188)2 = 1.014,5

y 2 = 1.014,5 + 347 = 1.361,5

etc.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

11) Una vez desarrollados todos los pasos, se


construye la tabla de frecuencias.

Ingresos Intervalos ni Ni hi Hi

1.014,5 [841-1.188] 5 5 0,14 0,14

1.361,5 (1.188-1.535] 10 15 0,29 0,43

1.708,5 (1.535-1.882] 6 21 0,17 0,60

2.055,5 (1.882-2.229] 3 24 0,09 0,69

2.402,5 (2.229-2.576] 5 29 0,14 0,83

2.749,5 (2.576-2.923] 6 35 0,17 1,00

A continuación, desarrolle la siguiente


actividad de aprendizaje, para
autoverificar el nivel de logro que ha
obtenido, respecto de los contenidos
desarrollados

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje N° 5

1. En algunas sucursales bancarias del sector céntrico de Santiago, se


ha medido la cantidad de clientes que llegan a 60 cajas, en un
lapso de 5 minutos. Los resultados son:

10 1 3 10 6 3
3 1 9 2 7 8
4 5 6 10 5 4
6 3 4 4 7 1
2 4 1 10 4 6
8 10 9 6 4 10
5 10 4 5 9 10
7 4 5 10 7 2
7 5 4 3 1 6
5 5 1 5 2 1

Tabule los datos en una tabla de frecuencias,


utilizando como marcas de clase los diferentes valores que
toma la variable.

2. La siguiente muestra representa la cantidad de partes, cursados


por 30 municipalidades en la Región Metropolitana, durante los
días de pre-emergencia y alerta ambiental, del año 2001.

21 20 38 14 5 13
19 20 13 27 26 20
32 15 14 32 7 17
45 12 27 9 8 18
18 3 21 15 16 0

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Tabule los datos a partir de una agrupación por


intervalos considerando 5 marcas de clase. Utilice
tabulación inferior.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje

Pauta de Respuestas Correctas

Pregunta 1:

Observemos que los diferentes valores que toma la


variable son: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} que corresponderán a las marcas
de clase.

La tabla de distribución de frecuencias será:

Número Número de Frecuencia Frecuencia Frecuencia


de cajas a las absoluta relativa relativa
clientes que llegan yi acumulada acumulada
clientes
yi ni Ni hi Hi
1 7 7 0,117 0,117
2 4 11 0,067 0,184
3 5 16 0,083 0,267
4 10 26 0,167 0, 434
5 0 35 0,150 0,584
6 6 41 0,098 0,682
7 5 46 0,083 0,765
8 2 48 0,033 0,798
9 3 51 0,050 0,848
10 9 60 0,150 0,998 ≈ 1,000
Total 60 ≈ 1,000

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Pregunta 2:

Observamos que:

xmáx = 45 y xmín = 0

Así el Rango será: R = x máx − x mín ⇒ R = 45 - 0 = 45

Ahora calculamos la amplitud el intervalo con este


rango, teniendo en cuenta que se debe tabular en 5 clases.

45 − 0
c= =9
5

Como este es un valor entero, no es necesario calcular


un nuevo rango y la tabulación quedará de la siguiente forma:

y i' −1 − yi' yi ni Ni hi Hi
[0 − 9) 4,5 5 5 0,17 0,17
[9 − 18) 13,5 10 15 0,33 0,50
[18 − 27 ) 22,5 9 24 0,30 0,80
[27 − 36) 31,5 4 28 0,13 0,93
[36 − 45] 40,5 2 30 0,07 1,00
Total 30 1,00

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

2.1.3. Agrupación y tabulación de atributos

E s similar al concepto de tabulación


de variables, pero la diferencia es
que se ordenan atributos.

Ejemplo 2.3

En una empresa se ha realizado un catastro de los


empleados, según la profesión. Los resultados fueron: 15
ingenieros, 2 arquitectos, 5 abogados, 2 asistentes sociales, 5
contadores, 10 técnicos, 8 secretarias y 2 junior’s. Para
tabular los datos, se deben definir las marcas de clases, las
cuales, ya se encuentran determinadas por el valor del
atributo. Además, en la tabla de frecuencias, no importa el
orden que tengan los atributos.

Profesión ni hi (%)
Ingeniero 15 30.6%
Arquitecto 2 4.1%
Abogado 5 10.2%
Asistente Social 2 4.1%
Contador 5 10.2%
Técnicos 10 20.4%
Secretaria 8 16.3%
Junior 2 4.1%
Total 49 100.0%

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

En esta tabla, se han multiplicado las frecuencias


relativas por 100, quedando expresadas como frecuencia
porcentual. Por lo tanto, el total de empleados de la empresa,
asciende a 49 personas, predominando los ingenieros (30.6%)
y técnicos (20.4%).

2.1.4. Representación gráfica de distribuciones


unidimensionales

L os gráficos también son métodos


útiles para describir conjuntos de
datos. Un histograma coloca las clases
o atributos de una distribución de
frecuencias, en el eje horizontal y, las
frecuencias, en el eje vertical. Revela
detalles y patrones que no se pueden
distinguir fácilmente en los datos
originales.

Ejemplo 2.4

9
Nº ni hi 8
Productos 7

0 3 10.0% 6
5
1 5 16.7%
4
2 6 20.0%
3
3 8 26.7% 2
4 7 23.3% 1
5 1 3.3% 0
0 1 2 3 4 5
30 100.0%
N º d e Pr o d uct o s

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

16
Profesión ni hi

Fr e c u e n c ia A b s o lu ta ( n i)
14
Ingeniero 15 30.6%
12
Arquitecto 2 4.1%
10
Abogado 5 10.2%
8
Asistente Social 2 4.1%
Contador 5 10.2% 6
Técnicos 10 20.4% 4
Secretaria 8 16.3% 2

Junior 2 4.1% 0
Ingeniero Arquit ect o Abogado Asist ent e Cont ador Técnicos Secret aria Junior
Social
Total 49 100.0%
Profesión

La distribución de frecuencias será el gráfico que


en su eje horizontal incorpora la marca de clase o el atributo
y, en su eje vertical, la frecuencia absoluta o relativa
(dependiendo del gráfico).

2.2. Reducción de datos bidimensionales

L as tablas de frecuencias pueden


organizar datos de una sola
variable, a la vez. Si se desea examinar
o comparar dos variables, se utiliza
una tabla de contingencia o tabla de
doble entrada.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Ejemplo 2.5

Un estudiante de mercadeo hizo una encuesta entre 20


negocios locales, respecto a su preferencia por un producto nuevo.
Sus respuestas se registraron como un ‘1’, si les gustaba el producto,
un ‘2’ si le disgustaba el producto y un ‘3’ si no opinaban. Los
niveles de venta anuales para las tiendas, también, se registraron de
la siguiente forma:

1. Si las ventas fueron menores que US$ 50.000

2. Si las ventas fueron de US$ 50.000, pero menores de US$


100.000

3. Si las ventas fueron de US$ 100,000, pero menores de US$


200.000

4. Si fueron de US$ 200.000 o más

➠ Los resultados de la investigación


son los siguientes:

Opinión Ventas Opinión Ventas


1 4 3 1
1 4 2 1
3 3 3 2
1 4 3 4
3 1 1 4
3 1 1 4
3 1 1 4
1 2 3 4
2 3 2 4
1 4 3 1

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Construiremos una tabla de contingencia para estos


datos.

Preferencia por el Producto


Ventas (US$)
Le gusta Le disgusta No opina Total

Menor que 50.000 0 (0,000) 1 (0,333) 5 (0,555) 6 (0,300)

[50.000-100.000) 1 (0,125) 0 (0,000) 1 (0,111) 2 (0,100)

[100.000-200.000) 0 (0,000) 1 (0,333) 1 (0,111) 2 (0,100)

200.000 o más 7 (0,875) 1 (0,333) 2 (0,222) 10 (0,500)

Total 8 (0,400) 3 (0,150) 9 (0,450) 20 (1,000)

Al dividir la opinión en tres categorías y las ventas en


cuatro, se han creado 12 celdas en la tabla. En la primera columna
se puede ver que el número más grande de negocios, 7 o 87,5%, está
en la categoría de ventas de US$ 200.000 o más y les gusta el
producto. La mayor parte de los negocios, 9 negocios, no opina
(45%) A ningún negocio que tiene ventas inferiores US$ 50.000 y
entre US$ 100.000 y US$ 200.000 le gusta el producto.

Ejemplo 2.6

La siguiente tabla muestra una encuesta realizada a 20


clientes de una sucursal bancaria. Los atributos a medir fueron sexo
y profesión.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Sexo Profesión Sexo Profesión


Hombre Ingeniero Mujer Secretaria
Mujer Ingeniero Mujer Asistente
Mujer Secretaria Hombre Contador
Mujer Asistente Hombre Contador
Mujer Contador Hombre Contador
Hombre Contador Hombre Asistente
Mujer Contador Hombre Ingeniero
Hombre Asistente Mujer Asistente
Mujer Abogado Mujer Asistente
Mujer Abogado Hombre Ingeniero

Antes de tabular los datos se deben identificar las


diferentes categorías para cada atributo:

Sexo = {Hombre, Mujer}

profesión = {Ingeniero, Secretaria,Asistente, Contador , Abogado}

Se diseña la matriz de doble entrada, eligiendo el


atributo que ocupará el lugar de las filas o columnas:

Sexo Total
Hombre Mujer
Profesión
Ingeniero 3 1 4
Secretaria 0 2 2
Asistente 2 4 6
Contador 4 2 6
Abogado 0 2 2
Total 9 11 20

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Los totales, por filas y columnas, corresponden a las


frecuencias absolutas del atributo respectivo y se denominan,
también, frecuencias marginales, por ejemplo, la categoría
ingeniero tiene 4 personas del total de los encuestados. En cambio,
las frecuencias que aparecen al centro de la tabla, corresponden al
número de coincidencias, en la muestra, que tienen ambos atributos
en común. El número que aparece en el extremo inferior derecho,
corresponde al total de la muestra (20 personas) y es la suma de los
totales por columnas o filas3.

Ejemplo 2.7

Una Isapre ha realizado un muestreo al segmento joven


de sus clientes, identificando la edad y el número de cargas
familiares que cada uno tiene. El resultado se muestra en la siguiente
tabla:

Edad Nº Cargas Edad Nº Cargas


26 3 24 3
28 1 28 5
26 5 28 1
26 1 25 3
25 0 26 5
27 1 30 0
28 2 30 4
29 0 30 2
25 4 24 3
24 2 25 2

3
Siempre debe corresponder al tamaño de la muestra, ya que, de otra forma, significa que no se
contabilizaron elementos de la muestra.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Antes de tabular los datos, se deben identificar los


valores diferentes para cada variable:

Nº de Cargas = {0,1,2,3,4,5}

Edad = {24,25,26,27,28,29,30}

Se diseña la matriz de doble entrada, eligiendo la


variable que ocupará el lugar de las filas o columnas:

Nº Cargas Total
0 1 2 3 4 5
Edad
24 0 0 1 2 0 0 3
25 1 0 1 1 1 0 4
26 0 1 0 1 0 2 4
27 0 1 0 0 0 0 1
28 0 2 1 0 0 1 4
29 1 0 0 0 0 0 1
30 1 0 1 0 1 0 3
Total 3 4 4 4 2 3 20

De la tabla se desprende que:

Hay un total de 20 encuestados

3 personas tienen 5 cargas familiares y, sólo 3 personas, no


tienen cargas

Hay 3 personas encuestadas que tienen 24 años y, sólo 1, que


tiene 29 años

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

A continuación se le presentan una serie de


actividades de aprendizaje, con el propósito
que usted las resuelva, para que determine el
nivel de logro alcanzado en los contenidos
tratados en la unidad.

RECUERDE, consultar con su tutor cada


vez que se le presenten dudas o tenga
dificultades en la comprensión de los temas
tratados

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje N° 6

1. Se realiza un estudio en la comuna de Santiago a 130 personas de


clase media, para conocer en qué banco tienen cuenta corriente.
(se considera una cuenta corriente por persona) Los resultados son
los siguientes: Santandersantiago 14 personas; Estado 63; Chile
20; BCI 16; Boston 5 y Citybank 12 personas.

- Construir una tabla de distribución de frecuencias

- Concluya acerca de lo más relevante de ella

- Construya un gráfico de frecuencias absolutas.

2. De los siguientes datos prepare una tabla de contingencia para


evaluar a 44 empleados, respecto a su nivel de educación,
expresado en años y el nivel administrativo que poseen
actualmente. Divida la educación en tres grupos: el grupo 1 entre
los 10 y los 12 años de educación; el grupo 2 entre los 13 y los 15
años y, el grupo 3, para 16 años y más.

- ¿Qué patrones, si los hay, observa y a qué conclusiones


puede llegar?

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Nivel Años de Nivel Años de


Gerencial Educación Gerencial Educación
1 14 4 16
2 13 4 18
3 16 4 14
2 16 2 15
1 12 3 17
4 16 2 12
1 12 1 12
2 12 2 15
3 14 3 16
3 14 1 10
1 13 2 14
2 12 4 16
3 20 2 14
4 17 4 16
2 14 1 10
1 13 1 12
3 16 4 13
2 11 1 10
4 16 2 13
4 16 4 17
2 10 2 15
3 11 3 14

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Aprendizaje

Pauta de Respuestas Correctas

Pregunta 1:

- Por ser un atributo la tabla de distribución de frecuencias debe


contener los diferentes bancos, el número de personas que eligen
un determinado banco (frecuencia absoluta) y la frecuencia
relativa. Debemos recordar que cada frecuencia relativa, se
calcula dividiendo la respectiva frecuencia absoluta por el tamaño
ni
de la muestra, es decir hi = . El número de decimales
n
apropiados, debe ser tal, que permita leerla como frecuencia
porcentual. Teniendo en cuenta esto, la tabla quedaría como se
muestra a continuación:

Banco N° de personas
ni hi
Santandersantiago 14 0,108
Estado 63 0,485
Chile 20 0,154
BCI 16 0,123
Boston 5 0,038
Citybank 12 0,092
130 1,000

- Se observa que un alto porcentaje de las personas de clase media


prefieren el Banco Estado (48,5%) y, los bancos menos preferidos,
son el Boston y el Citybank con un 3,8% y 9,2%, respectivamente.

- La gráfica realizada con Excel será:

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Bancos preferidos por la clase media

70
60
Frecuencia absoluta

50
40
30
20
10
0
ile

Ci o n
I
go

do

nk
BC
Ch

st
tia

ta

ba
Bo
Es

ty
an
rs
de
an
nt
Sa

Bancos

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Pregunta 2:

La tabla de contingencia tendrá filas y columnas, en las


cuales se colocarán las variables, de acuerdo a las categorías
indicadas en los datos, formándose una matriz que debe ser
completada, con las respectivas frecuencias absolutas de aquellas
personas que cumplan ambas condiciones simultáneamente. Este
conteo debe realizarse minuciosamente, el cual, dará como resultado
la siguiente tabla:

Años de educación
10-12 13-15 16 y más Total
Nivel gerencial
1 7 3 0 10
2 5 8 1 14
3 1 3 5 9
4 0 2 9 11
Total 13 16 15 44

Se observa que mientras más años de educación tienen


las personas de esta muestra, mayor es el nivel gerencial.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

2.3. Resumen de la Unidad

Una distribución de frecuencias es una agrupación de


datos en categorías mutuamente excluyentes, que muestra el número
de observaciones en cada categoría.

La agrupación de datos se puede realizar para


variables discretas y continuas, considerando una o dos variables.

Los pasos para construir una distribución de


frecuencia son:

1. Ubicar los valores máximo y mínimo que toma la variable

2. Determinar el rango que se calcula como la diferencia entre el


valor máximo y mínimo de la muestra

3. Decidir en cuántas clases se desean agrupar los datos

4. Calcular la amplitud del intervalo, como la división entre el


rango y el número de clases en las cuales se ha decidido tabular
los datos.

5. Si el valor obtenido en el paso anterior no es entero o cómodo


para tabular se debe aproximar al entero mayor más próximo, lo
cual define un nuevo rango.

6. En caso que se haya calculado un nuevo rango, las unidades de


diferencia entre el rango antiguo y el nuevo, se deben redistribuir
equitativamente entre el valor máximo y mínimo de la variable,
originándose un nuevo valor máximo y un nuevo valor mínimo,
los cuales se utilizarán para construir los intervalos.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

7. Determinar los límites individuales de cada clase

8. Establecer tipo de tabulación (superior o inferior)

9. Contar el número de datos para cada intervalo o clase, esto se


denomina frecuencia absoluta.

10. Calcular las marcas de clase correspondientes a cada intervalo,


que corresponde al promedio entre el límite superior e inferior de
cada intervalo.

11. Completar la tabla con las frecuencias absolutas y relativas


acumuladas.

Una tabla de frecuencias se puede representar,


gráficamente, mediante un histograma, el cual, representa el número
de frecuencias en cada clase, en forma de rectángulos.

Cuando se trata de una distribución de dos variables,


la agrupación de datos, ya sea cualitativas o cuantitativas, se realiza
a través de las tablas de contingencia o tabla de doble entrada.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

2.4. Actividad de autoevaluación

1. Se ha realizado una encuesta a 26 clientes de un banco. Las


características medidas en la encuesta son: sexo y nivel de
ingresos (en miles de pesos). Los resultados se muestran a
continuación:

Sexo Ingresos
Hombre 2 227
Mujer 1 185
Mujer 1 134
Hombre 1954
Hombre 1 792
Hombre 1 060
Hombre 1 101
Mujer 1 227
Mujer 1 269
Hombre 1 611
Mujer 1 651
Hombre 1 339
Mujer 1 319
Mujer 1 399
Hombre 1 990
Hombre 1 461
Hombre 1 720
Mujer 1 146
Mujer 1 024
Hombre 1 823
Hombre 1 548
Hombre 1 344
Hombre 1 502
Mujer 1 212
Hombre 1 193
Hombre 1 436

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

A. Para el atributo realice una tabla de datos dibujando el


diagrama de frecuencias absolutas asociado.

B. Para la variable cuantitativa realice la tabulación de


datos por intervalos, considerando 4 marcas de clases.
Utilice tabulación superior.

C. Considerando los intervalos desarrollados en la parte A)


y B) construya la tabla de doble entrada asociada.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Actividad de Autoevaluación

Pauta de Respuestas Correctas

Pregunta 1

A) La tabla de distribución de frecuencias asociada al atributo sexo


será:

Sexo ni hi
Hombre 16 0,615
Mujer 10 0,385
Total 26 1,000

El diagrama de frecuencias absolutas, queda de la


siguiente forma:

Distribución de personas por sexo

18
16
Fracuencia Absoluta (ni)

14
12
10
8
6
4
2
0
Hombre Mujer

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

B) Para tabular la variable ingresos, comenzamos por determinar el


máximo y el mínimo valor:

xmáx = 2 227
xmín = 1 024

Ambos valores definen un rango R= xmáx - xmín, en


nuestro caso:

R= 2 227 - 1 024= 1 203

Como se debe tabular en 4 intervalos, la amplitud ‘c’


será:

Rango 1 203
c= = = 300,75
4 4

Aproximando este valor al entero superior más


próximo c ≈ 301 , tenemos un nuevo rango R’= 301*4= 1 204.

Este nuevo rango R’, tiene la siguiente diferencia


con R

R’ – R = 1 204 – 1 203= 1 unidad

Esta unidad de diferencia la podemos sumar al xmáx o


restar al xmín. En este caso, optaremos por sumarlo al xmáx , por lo
'
cual, el nuevo x máx = 2 227 + 1 = 2 228 , dejando sin alterar el xmín.

PROGRAMA DE FORMACIÓN A DISTANCIA


INSTITUTO DE ESTUDIOS BANCARIOS “GUILLERMO SUBERCASEAUX”
Fundado en 1929

Así, la tabulación queda como sigue:

y i' −1 - y i' yi ni hi Ni Hi
[1 024 - 1 325] 1 174,5 11 0,423 11 0,423
(1 325 - 1 626] 1 475,5 8 0,308 19 0,731
(1 626 - 1 927] 1 776,5 4 0,154 23 0,885
(1 927 - 2 228] 2 077,5 3 0,115 26 1,000
Total 26 1,000

C) La tabla de contingencia o de doble entrada será:

Sexo Hombre Mujer Frecuencia marginal


Ingresos de los ingresos
[1 024 - 1 325] 3 8 11
(1 325 - 1 626] 7 1 8
(1 626 - 1 927] 3 1 4
(1 927 - 2 228] 3 0 3
Frecuencia
marginal del 16 10 n = 26
atributo sexo

PROGRAMA DE FORMACIÓN A DISTANCIA

También podría gustarte