Está en la página 1de 27

Temas de Estadística y Probabilidades

VARIABLES

TABLAS DE FRECUENCIA

REPRESENTACIONES GRÁFICAS

Lic. Mónica Pascual Página 1


Temas de Estadística y Probabilidades

INTRODUCCIÓN
En la presente unidad expondremos el concepto básico de variable y los diferentes
tipos que pueden presentarse al recopilar los datos para una investigación.

Recopilada la información, la presentamos, en forma gráfica mediante el uso de


diagramas o gráficos, en valores absolutos o relativos y en forma tabular, confeccionando
tablas denominadas distribuciones de frecuencias.

OBJETIVOS ESPECÍFICOS
► Que el alumno posea un marco para reconocer el tipo de variables presente en el
estudio, y aprenda como presentar la información recopilada en forma gráfica y tabular.

Lic. Mónica Pascual Página 2


Temas de Estadística y Probabilidades

CONTENIDOS
Clasificación de las variables
 Categóricas
 Numéricas

Presentación de los datos


 Series simples
 Series de frecuencia
 Datos agrupados en intervalos de clase
 Frecuencias
 Tablas de contingencia

Representaciones gráficas
 Gráficas de pastel
 Gráficos de barras
 Histogramas
 Polígono de frecuencia
 Gráficos de línea
 Gráfico de Pareto

ESQUEMA DE CONTENIDOS

VARIABLES

NUMERICAS CATEGORICAS

Contínuas Discretas Ordinales Dicotómicas

Histograma Gráfico de
Nominales
barras

Gráficas de
pastel

Lic. Mónica Pascual Página 3


Temas de Estadística y Probabilidades

Todo análisis debe comenzar con el reconocimiento de las variables que


intervienen en el estudio. Según sea la clasificación de la variable, será en consecuencia la
forma en que se presenten los valores, los gráficos a realizar y el tipo de análisis a
ejecutar.

Pensemos en analizar el perfil de un grupo de trabajadores en una empresa.


Algunos de los datos que deberían relevarse son: edad, sexo, nivel de educación, cantidad
de miembros en el grupo familiar, lugar de nacimiento

Pensando en los valores que esas variables pueden adoptar, se podrán observar las
diferencias entre ellas.

La variable edad toma valores numéricos que pueden incluir decimales, por
ejemplo, 33,5 años (33 años y 6 meses). El sexo sólo puede adoptar dos categorías:
femenino y/o masculino. Nivel de educación puede tomar valores que van desde estudios
primarios, secundarios, terciarios, universitarios, de postgrado; esta es una variable que
no solo puede adoptar más de dos respuestas, sino que además, estas categorías siguen
un determinado orden (no se puede tener nivel de educación secundario sin antes tener
nivel primario completo). Cantidad de miembros en la familia sólo puede tomar valores
enteros, es decir, no admite valores con decimales; se pueden tener 1, 2 hijos o ninguno
(0 hijos), pero no se puede tener 1,5 hijos. En relación al lugar de nacimiento, podemos
mencionar muchas categorías o posibles respuestas que hacen referencia a un país, a una
ciudad o una zona, pero en este caso, no hay ninguna categoría que necesariamente
preceda a otra, por lo tanto, es una variable que no acepta un ordenamiento de sus
valores.

Lic. Mónica Pascual Página 4


Temas de Estadística y Probabilidades

La imagen siguiente muestra cómo se clasifican las variables en un estudio estadístico

Variables Cualitativas o Categóricas son aquellas que surgen de la observación de un


hecho y no se expresan mediante un número. Se pueden subclasificar en:

 Dicotómicas: cuando admiten solo dos categorías de


respuestas, por ejemplo: sexo, vive, etc...

Lic. Mónica Pascual Página 5


Temas de Estadística y Probabilidades

 Ordinales: aquellas que sugieren una


ordenación, por ejemplo la graduación militar, el
nivel de estudios, tamaño (pequeño, mediano,
grande), etc.

 Nominales o no ordinales:
aquellas que sólo admiten una
mera ordenación alfabética, pero
no establece orden por su
naturaleza, por ejemplo el color de
pelo, estado civil, etc.

Las variables CUANTITATIVAS se expresan mediante un número y las podemos


clasificar en:

 Cuantitativa discretas: son aquellas variables cuyos


resultados posibles surgen del hecho de contar, solo puede
tomar números enteros o valores aislados. (Por ejemplo, nº
de hermanos, goles convertidos, etc).

 Cuantitativas continuas: son aquellas


variables cuyos resultados posibles surgen del
hecho de medir, puede tomar todos los valores de
un intervalo. Por ejemplo la temperatura, el peso,
la edad, etc..

Lic. Mónica Pascual Página 6


Temas de Estadística y Probabilidades

1) Intente elaborar un breve resumen de lo explicitado anteriormente, planteando un


posible problema, la población donde recopilaría los datos, el método (censo o
muestra) y que variables analizaría, clasificando estas últimas.

2) Considerando los ejemplos propuestos en el módulo Conceptos, Población y


Muestra, identificar la variable bajo estudio, indicando a que tipo corresponde la
misma, en cada uno se los siguientes casos:

2-1) Luego de relevar en Mayo de 2.003 los Ingenios que van a producir alcohol
durante la zafra de este año, para asentar el número de trabajadores inscriptos
con aportes previsionales se encontró que varios de ellos debían regularizar su
situación.

Lic. Mónica Pascual Página 7


Temas de Estadística y Probabilidades

2-2) Se quiere verificar el nivel auditivo de los trabajadores de una empresa minera
radicada en Sur de Tucumán, en Agosto de 2.007

2-3) En una exposición de productos de seguridad el 22 de junio pasado, los


organizadores luego del recorrido por los distintos stands, consultaban a los
asistentes ¿Cuál de ellos había sido el preferido por los visitantes?

Lic. Mónica Pascual Página 8


Temas de Estadística y Probabilidades

Cuando se ha reunido un conjunto de datos, la mejor forma de examinarlos es


presentarlos en forma de resumen construyendo tablas y gráficos apropiados, según sea
el tipo de variables analizadas.

Estamos

aquí
Presentación de
la información

Tablas de frecuencia Gráficos

Frecuencias Frecuencias
Barras Pastel
absolutas relativas

Frecuencias Frecuencias Histogramas Paretto


acumuladas acumuladas
absolutas relativas

Líneas
Tablas de
contingencia

Lic. Mónica Pascual Página 9


Temas de Estadística y Probabilidades

Tablas de frecuencias

El primer paso es hacer el conteo de los datos y disponerlos en una tabla. Esa
disposición de los datos en forma tabular se llama “distribución de frecuencias”.

Una distribución de frecuencias es una tabla resumen en la que los datos se


agrupan o arreglan en clases o categorías ordenadas1, establecidas de modo conveniente.
En esta tabla, cada valor de la variable se asocia con la cantidad de veces que se observa
dicho valor.

Como muestra la imagen anterior, hay cuatro clases de frecuencias: absolutas,


relativas, acumuladas absolutas y acumuladas relativas.

Las frecuencias absolutas (fa) representan el número de veces que se repite


determinado valor de la variable. La suma de las frecuencias absolutas debe coincidir con
el tamaño de la población o de la muestra, según con que se haya trabajado

Consideremos el siguiente ejemplo correspondiente a una muestra de 100


personas a quienes se les consultó sobre su nivel de educación.

Nivel de educación fa La lectura que hacemos de esta tabla nos indica


Primario 5 que 5 personas tienen nivel de educación primario, 50
Secundario 50
Terciario 20 terminaron el secundario, 25 hicieron estudios terciarios
Universitario 25 y 25 son universitarios.
Total 100

Las frecuencias relativas (fr) representan la proporción de la población o muestra


𝒇𝒂⁄
con determinado valor de la variable. Puede calcularse: 𝒇𝒓 = 𝒏

La suma de las frecuencias relativas debe dar siempre el valor 1.

1
Cuando la variable es cualitativa nominal o dicotómica, los datos no se arreglan en clases ordenadas , pues
por definición, las categorías de este tipo de variables no se pueden ordenar

Lic. Mónica Pascual Página 10


Temas de Estadística y Probabilidades

Continuando con el ejemplo anterior, veamos el cálculo de las frecuencias


relativas:

Nivel de educación fa fr La frecuencia relativa relativa


Primario 5 0,05 correspondiente a la categoría Primario se
Secundario 50 0,50
Terciario 20 0,20 calcula: 5/100 = 0.05
Universitario 25 0,25 De forma similar se obtienen las demás
Total 100 1
frecuencias relativas.

Las Frecuencias acumuladas (Fa) representan que parte de la población o


muestra posee características menores o iguales a determinado valor de la variable. El
último valor de las Fa es igual al tamaño de la población o de la muestra.
Veamos el cálculo de las Frecuencias acumuladas en el ejemplo del nivel de
educación:
Nivel de educación fa Fa El primer valor de las Fa1 coincide con el
Primario 5 5
primer valor de las fa (en el ejemplo Fa1 = 5).
Secundario 50 55
Terciario 20 75 Para el cálculo de la segunda Fa2, se suma Fa1 +
Universitario 25 100 la segunda fa (Fa2=5+50=55). La Fa3 se calcula
Total 100
sumando Fa2 + la tercer frecuencia absoluta (Fa3
= 55+20 = 75). Y así sucesivamente hasta llegar a la última Fa cuyo valor debe ser 1.
En el ejemplo utilizado, la interpretación que de estas frecuencias podemos hacer
nos señala que 55 personas tienen nivel de educación primario y/o secundario, mientras
que llegan a 75 las personas que tienen nivel de educación que va desde el primario al
universitario.

Las Frecuencias relativas acumuladas (Fr) representan la proporción de la


población o muestra que posee características menores o iguales a determinado valor

de la variable. El último valor de las Fr es igual a 1. Se calculan: 𝐹𝑟 = 𝐹𝑎⁄𝑛 .


Utilicemos el ejemplo para visualizar su cálculo e interpretación:

Lic. Mónica Pascual Página 11


Temas de Estadística y Probabilidades

Nivel de educación fa Fa Fr La primer Frecuencia relativa


Primario 5 5 0,05 acumulada se calculó dividiendo Fa1 por
Secundario 50 55 0,55
Terciario 20 75 0,75 el total de la muestra (Fr1=5/100).
Universitario 25 100 1 Para la segunda Fr2 = 55/100 = 0.55
Total 100
Y así sucesivamente. Las Frecuencias
relativas acumuladas también pueden calcularse sumando las frecuencias relativas (fr)

Cuando la variable es cualitativa nominal o categórica no se calculan las


frecuencias acumuladas ni tampoco las frecuencias relativas acumuladas.

Tablas a doble entrada o tablas de contingencia

Una parte muy importante del análisis de los datos, es observar la manera en que
se relacionan o interactúan dos variables en forma conjunta. En este caso, las dos
variables pueden mostrarse en una tabla de doble entrada: las categorías de una variable
se muestran por fila y las de la otra por columna.

Veamos el siguiente ejemplo: Consideremos las ventas realizadas en pesos durante


15 días por un mayorista de artículos varios para computación en diferentes zonas de una
ciudad. Estas ventas, según la zona y el tipo de artículo vendido, han sido consignadas en
fichas dentro de una base de datos y se han volcado en la siguiente tabla de
contingencias:

VENTA MAYORISTA DE ARTICULOS PARA


COMPUTACIÓN (en pesos)
Zonas Papelería Accesorios Repuestos TOTAL

A: Residencial 550 361 309 1220

B: Comercial 1250 420 330 2000

C: Industrial 930 529 721 2180

TOTAL 2730 1310 1360 5400

Lic. Mónica Pascual Página 12


Temas de Estadística y Probabilidades

Hay diferente información que puede obtenerse a partir de esta tabla, según se
consideren los totales por fila, por columna o el total del cuadro.

Así, si se desea conocer como se distribuye la venta de los diferentes tipos de


artículos según las zonas, se tendrá que considerar el total de las filas para hacer los
cálculos correspondientes. A este análisis se lo conoce como el “perfil fila”. En el perfil fila,
cada valor de la tabla original se divide por el total de su fila.

En el ejemplo presentado puede analizarse cuál es el peso que tiene cada artículo
en las zonas.

VENTA MAYORISTA DE ARTICULOS PARA


COMPUTACIÓN (en pesos)

Zonas Papelería Accesorios Repuestos TOTAL

A: Residencial 45,08% 29,59% 25,33% 100,00%

B: Comercial 62,50% 21,00% 16,50% 100,00%

C: Industrial 42,66% 24,27% 33,07% 100,00%

Este análisis permite observar que en las tres zonas la papelería representa el
mayor peso de los artículos vendidos.

Si se consideran los totales por columna, esta parte del estudio es conocida como
el “perfil columna” y consiste en dividir cada valor de la tabla origina por el total de su
correspondiente columna. En el ejemplo se podrá analizar como se distribuyen las ventas
de cada tipo de artículo en las zonas.

VENTA MAYORISTA DE ARTICULOS PARA


COMPUTACIÓN (en pesos)

Zonas Papelería Accesorios Repuestos

A: Residencial 20,15% 27,56% 22,72%

B: Comercial 45,79% 32,06% 24,26%

C: Industrial 34,07% 40,38% 53,01%

TOTAL 100,00% 100,00% 100,00%

Lic. Mónica Pascual Página 13


Temas de Estadística y Probabilidades

Al analizar la tabla puede apreciarse que la papelería se vende más en la zona


comercial, mientras que los accesorios y repuestos tienen mejor venta en la zona
industrial.

La elección sobre cuál perfil elegir para el análisis, está siempre vinculado a las
variables en estudio y su distribución dentro de la tabla de contingencia. El investigador
debe tener el criterio de elegir cuál de los dos análisis es el adecuado para los objetivos de
su estudio.

¿Cómo construimos una tabla de frecuencia cuando la variable es continua


y/o la muestra es de tamaño grande?

Cuando los datos corresponden a variables numéricas continuas (es decir, que la
variable puede tomar infinitos valores en un determinado rango), o bien, la variable es
numérica discreta, pero el rango de la variable es muy amplio, los valores de la variable se
agrupan en intervalos de clase y se construye una tabla de frecuencias en intervalos; los
intervalos deben cumplir las siguientes propiedades:

a) Mutuamente excluyentes: un valor debe pertenecer a una sola clase.

b) Exhaustivos: el cuadro debe contener todos los valores de la variable.

Para construir los intervalos de clase hay que considerar en primer término cuál es
el rango (R) del conjunto de datos:

Rango (R) = máximo valor de la serie de datos – mínimo valor de la serie de datos

Luego se divide R por la cantidad de intervalos que se utilizarán; este cociente nos indicará
la amplitud (w) de cada intervalo. De manera que:

𝑹𝒂𝒏𝒈𝒐⁄
𝒘= 𝒄𝒂𝒏𝒕𝒊𝒅𝒂𝒅 𝒅𝒆 𝒊𝒏𝒕𝒆𝒓𝒗𝒂𝒍𝒐𝒔

Esta construcción de intervalos implica que cada uno de ellos tenga un valor
correspondiente al límite inferior y otro al límite superior. Para evitar que algún valor de la

Lic. Mónica Pascual Página 14


Temas de Estadística y Probabilidades

variable se cuente más de una vez, los intervalos deben ser cerrados en su extremo
inferior y abiertos en el superior, con excepción del último intervalo que debe ser cerrado
también en su extremo superior para asegurar que incluya al valor mayor de la variable.

Consideremos una muestra de 30 valores correspondientes a la temperatura de un


mes en primavera:

21,3 19,8 18,4 16,7 19,9 11,4 15,5 18,0 11,2 11,3
16,1 8,5 14,3 2,3 17,3 15,1 9,1 11,3 23,3 21,2
20,7 11,8 12,1 10,2 21,5 21,0 10,0 19,3 19,8 17,1

En esta serie de datos, el mayor valor que toma la variable es 23,30 y el menor es
2,3. Por lo tanto:
Rango (R) = = máximo valor de la serie de datos – mínimo valor de la serie de datos
Rango (R) = 23,30 – 2,3 = 21
Si consideramos construir 6 intervalos, la amplitud de cada uno de ellos será:

𝑅𝑎𝑛𝑔𝑜 21
𝑤= = = 3,5
𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 6

El primer intervalo de la tabla de frecuencias en intervalos, tendrá como límite


inferior al menor valor de la variable, que en este caso es 2.3. El límite superior se
encuentra sumando la amplitud al límite inferior: 2,3 + 3,5 = 5.80. Así sucesivamente se
calculan todos los límites superior e inferior de cada intervalo.

Una vez construidos todos los intervalos, se procede a contar cuantos valores de la
serie de datos caen dentro de cada uno de ellos. Observe que el límite superior de un
intervalo coincide con el límite inferior del siguiente intervalo. Pero esta coincidencia es
sólo visual, ya que como se ha explicado, los intervalos son cerrados en su extremo
inferior y abiertos en el superior; de ahí que se utilicen corchetes y paréntesis en cada
extremo respectivamente para indicar la característica señalada.

Lic. Mónica Pascual Página 15


Temas de Estadística y Probabilidades

De esta manera, si un valor coincide con uno de los extremos, se incluirá en el


intervalo que tenga el corchete. En el ejemplo que estamos estudiando, el valor 19.8 que
aparece dos veces en la serie de datos, se incluye en el último intervalo.

Temperaturas fa fr Fa Fr
[2,3 - 5,8) 1 0,033 1 0,033
[5,8 - 9,3) 2 0,067 3 0,100 . En esta tabla de frecuencias por
[9,3 - 12,8) 8 0,267 11 0,367 intervalos, se han incluido los cuatro grupos
[12,8 - 16,3) 4 0,133 15 0,500 de frecuencias estudiadas.
[16,3 - 19,8) 6 0,200 21 0,700
[19,8 - 23,3] 9 0,300 30 1,000
30

Muchas veces nos preguntamos cuántos intervalos es adecuado utilizar. Esta


cantidad depende del número de observaciones con el que se cuente. En general, la
distribución de frecuencias debe tener no menos de 5 intervalos de clase pero no más de
15. Si no hay suficientes clases, hay mucha concentración de datos y se obtendría poca
información. Si por el contrario, hay demasiados intervalos, la información se dispersa.
Sin embargo hay coincidencia entre distintos autores en que la solución óptima para
decidir cuántos intervalos utilizar es la que propone Sturges:

Cantidad de intervalos: 1 + 3,3 log n, siendo n el tamaño de la muestra

Lic. Mónica Pascual Página 16


Temas de Estadística y Probabilidades

Además de organizar y resumir los datos en tablas de frecuencia y contingencia,


otra manera muy eficaz de mostrar los datos obtenidos es representarlos gráficamente de
manera tal que puedan observarse claramente los diferentes aspectos que presentan.

Estamos

aquí
Presentación de
la información

Tablas de frecuencia Gráficos

Frecuencias Frecuencias
Barras Pastel
absolutas relativas

Frecuencias Frecuencias Histogramas Paretto


acumuladas acumuladas
absolutas relativas

Líneas
Tablas de
contingencia

Lic. Mónica Pascual Página 17


Temas de Estadística y Probabilidades

Representaciones gráficas para variables cualitativas o categóricas


Las variables cualitativas o categóricas se suelen representar a través de gráficas de
barras o diagramas de pastel.

Consideremos el siguiente ejemplo en el que los datos corresponden a la venta de


los 4 productos más importantes para una empresa:

fa (cantidad
Artículo de productos
vendidos) La variable categórica es “tipo de artículo” y los
A 975 posibles valores que adopta son A, B, C y D. Se puede
B 1115 realizar un gráfico de barras o un diagrama de pastel.
C 485
D 650
Total 3225

Artículo
D Artículo
20% A Las gráficas de pastel convierten las
Artículo 30% frecuencias absolutas y/o relativas en
C
15%
porcentajes. Los ángulos de los sectores
Artículo circulares se obtienen: 360º f ai /n
B
35%

En un gráfico de barras,
cada categoría se describe
mediante una barra cuya longitud
representa la frecuencia (cantidad
de veces) o porcentaje de
observaciones que caen en esa
categoría. Las barras pueden ser
horizontales o verticales, pero
deben tener todas el mismo ancho

Lic. Mónica Pascual Página 18


Temas de Estadística y Probabilidades

para no confundir al lector.

Supongamos ahora que la empresa que vende los artículos A, B, C y D, quiere


conocer como incide la venta de estos productos en 4 puntos de venta diferentes:

Local Local Local JB


Artículo
Centro Guemes Justo
A 105 320 550 Las cantidades vendidas en cada
B 190 250 675 local constituyen en si misma una
C 115 85 285 muestra diferente y cada una de ellas
D 50 175 425 tiene diferentes tamaños.
Total 460 830 1935

En esta situación, es decir, cuando las muestras tienen diferentes tamaños, la


representación gráfica debe realizarse con las frecuencias relativas (fr) o en porcentaje2
(%) para que las muestras sean comparables.

En el ejemplo en cuestión, primero calculamos las frecuencias relativas y las


convertimos en porcentajes:

Local Local Local JB


Artículo
Centro Guemes Justo
A 22,83% 38,55% 28,42%
B 41,30% 30,12% 34,88%
C 25,00% 10,24% 14,73%
D 10,87% 21,08% 21,96%
100% 100% 100%

Un detalle a tener en
cuenta en la elaboración de
estos gráficos, es el valor
máximo de la escala en el eje Y.
Es conveniente llegar al 100%
para visualizar correctamente
las proporciones reales.

2
El porcentaje se obtiene calculando las frecuencias relativas y multiplicando éstas por 100: fr x 100%

Lic. Mónica Pascual Página 19


Temas de Estadística y Probabilidades

Este gráfico permite identificar que producto tiene mayor incidencia en las ventas
de cada local.

Otra forma de mostrar gráficamente los datos de la tabla anterior es en un gráfico


de barras apiladas. Observe que esta representación gráfica corresponde a lo que en el
módulo “Frecuencias” hemos llamado el perfil columna ya que las frecuencias relativas
y/o los porcentajes se han calculado sobre los totales de cada local, es decir, sobre los
totales de las columnas.

En estos gráficos hay


que controlar que la suma de
las barras legue al 100%

En esta
representación gráfica se
puede observar que
productos se venden más y
cuales menos en cada local.

Otra forma de estudiar y graficar los datos de las ventas de los 4 artículos es a
través del perfil fila, tal como se explicó en el módulo “Frecuencias”. En este caso, se
consideran los totales por fila; en el ejemplo que hemos propuesto, este perfil implica
considerar las ventas totales de cada artículo y su incidencia en las ventas de cada local:

Local Local Local JB


Artículo
Centro Güemes Justo
A 10,77% 32,82% 56,41% 100%
B 17,04% 22,42% 60,54% 100%
C 23,71% 17,53% 58,76% 100%
D 7,69% 26,92% 65,38% 100%

Lic. Mónica Pascual Página 20


Temas de Estadística y Probabilidades

Este gráfico permite un


análisis diferente de los
mismos datos. Ahora se
puede ver que el local de
JB Justo es el que tiene
mayor incidencia en la
venta de los cuatro
artículos.

Representaciones gráficas para variables numéricas


Para representar gráficamente este tipo de variables, se pueden utilizar gráficos de
línea, histogramas y gráficos de dispersión entre otros.

En muchas ocasiones, particularmente en contabilidad, economía y finanzas nos


interesa estudiar un conjunto de datos recolectados regularmente, ya sea en forma diaria,
semanal, mensual o anual. En estos casos, se dice que se tiene una serie de tiempo y los
datos se grafican volcando en el eje X el período de tiempo analizado y los datos
obtenidos en el eje Y.

Como ejemplo, consideremos los ingresos y egresos mensuales obtenidos por la


empresa XXX durante el período 2002 – 2003:

2002 2003
Meses
Ingresos Egresos Ingresos Egresos
Enero 16450 13400 28500 24700
Febrero 10400 7550 22400 18200
Marzo 10800 7500 25700 21000
Abril 8200 5000 26400 21200
Mayo 7750 5200 19300 13900
Junio 9300 6300 17950 15800
Julio 11950 7550 32300 27400
Agosto 11350 8900 35400 30100
Septiembre 9580 8000 21200 18900
Octubre 15050 12000 22200 23500
Noviembre 13700 15500 31300 34200
Diciembre 22900 26000 51100 56000

Lic. Mónica Pascual Página 21


Temas de Estadística y Probabilidades

En el gráfico de línea puede visualizarse el comportamiento (crecimiento o


disminución) de los ingresos y egresos en el período de tiempo analizado.

Otro análisis factible de realizar, es comparar los ingresos y/o egresos en períodos
de tiempo diferentes, como se observa en el siguiente gráfico:

60000

50000 Ingresos año 2002


Ingresos año 2003
40000

30000

20000

10000

0
Ene Feb Mar Abr May Jun Jul Agos Set Oct Nov Dic

Cuando los datos están agrupados en una tabla de frecuencia con los datos
agrupados en intervalos de clase, la representación gráfica se hace a través de un
histograma.

Los histogramas son representaciones gráficas en forma de barras verticales,


aunque conceptualmente no se considera “de barras”; se diferencia de éstos en el hecho

Lic. Mónica Pascual Página 22


Temas de Estadística y Probabilidades

de que no existe separación entre las barras. Dada la definición de los intervalos de clase,
donde termina cada una de las barras está comenzando la siguiente.

Para hacer el histograma utilizaremos el ejemplo de las temperaturas agrupadas en


intervalos de clase del módulo Frecuencias:

Temperaturas fa fr Fa Fr
[2,3 - 5,8) 1 0,033 1 0,033
[5,8 - 9,3) 2 0,067 3 0,100
[9,3 - 12,8) 8 0,267 11 0,367
[12,8 - 16,3) 4 0,133 15 0,500
[16,3 - 19,8) 6 0,200 21 0,700
[19,8 - 23,3] 9 0,300 30 1,000
30

10

9
Polígono de
8
frecuencia
7

0
0 -2,3 [2,3 - 5,8) [5,8 - 9,3) [9,3 - 12,8) [12,8 - 16,3) [16,3 - 19,8) [19,8 - 23,3]

El histograma se completa con el “polígono de distribución de frecuencia”, que


permite visualizar la forma de la distribución graficada.

Los polígonos de frecuencia unen los puntos medios de clase, cerrando el gráfico
al principio y al final de la serie con la misma amplitud del primer o último intervalo
correspondiente.

Los histogramas pueden realizarse también con las frecuencias relativas.

Lic. Mónica Pascual Página 23


Temas de Estadística y Probabilidades

Otro tipo de gráfico que pueden realizarse con las variables numéricas es el
correspondiente a las frecuencias acumuladas. En este caso la representación gráfica es
una curva que recibe el nombre de “ojiva”.

Veamos en el ejemplo que hemos utilizado para realizar el histograma, como se


grafican las frecuencias acumuladas a través de una ojiva.

35

30 30

25

20 21

15 15

10 11

5
3
0 1
[2,3 - 5,8) [5,8 - 9,3) [9,3 - 12,8) [12,8 - 16,3) [16,3 - 19,8) [19,8 - 23,3]

Otros tipos de gráficos

Diagrama de Pareto: es un tipo especial de diagrama de barras verticales donde las


diferentes categorías de respuestas se grafican según un orden descendente de sus
respectivas frecuencias. Se combina con un polígono acumulado (en porcentajes).

El principio fundamental que subyace en esta técnica gráfica es la posibilidad de


separar los problemas “pocos vitales” de los “muchos triviales”, lo que permite dirigir la
atención a las respuestas importantes.

El gráfico de Pareto se usa ampliamente en el control estadístico de procesos y en


el control de calidad. Así, para reducir las pérdidas de una empresa es muy importante
determinar dónde y cómo se producen estos costos de no calidad. Con ese fin se busca la
distribución de la pérdida. Si se pueden identificar las pocas causas esenciales estaremos

Lic. Mónica Pascual Página 24


Temas de Estadística y Probabilidades

en condiciones de eliminar casi todas esas pérdidas dejando de lado las causas numerosas
y triviales.

Veamos con un ejemplo como construir un diagrama de Pareto: La siguiente


tabla indica las formas de accidente notificadas en la SRT durante el año 2009

Porcentaje
Formas de ocurrencia Frecuencia Porcentajes
Acumulado
A Pisadas, choques o golpes por objeto 202017 31,80% 31,80%
B Otras formas de accidentes 152334 24,00% 55,80%
C Caídas de personas 112554 17,70% 73,50%
D Esfuerzos excesivos 82164 12,90% 86,40%
E Sin datos 25201 4,00% 90,40%
F Atrapamiento por un objeto o entre objetos 22004 3,50% 93,80%
G Caída de objetos 21675 3,40% 97,20%
H Exposición al contacto con temperaturas extremas 8917 1,40% 98,60%
I Exposición al contacto con sustancias nocivas o radiaciones 7482 1,20% 99,80%
J Exposición al contacto con la corriente eléctrica 1218 0,20% 100,00%
Total 635.566 100,00%

100%
600000
90%

500000 80%
70%
400000
60%
50%
300000
40%
200000 30%
20%
100000
10%
0 0%
A B C D E F G H I J

Formas de ocurrencia Porcentaje acumulado

Lic. Mónica Pascual Página 25


Temas de Estadística y Probabilidades

Este gráfico permite observar las 3 categorías de formas de accidentes de mayor


frecuencia y que las mismas agrupan al 73,5% de los casos.

Puede observarse como disminuye el ángulo que forma la ojiva (polígono


acumulado) con el eje X a partir de la forma de ocurrencia de accidentes “D”, señalando
que el resto de las categorías son mucho menos frecuentes, y por lo tanto con una
incidencia mucho menor.

Diagrama de caja y bigote – Box plots: Esta es una representación gráfica que permite
visualizar fácilmente como se distribuyen los valores de una variable en estudio. Consta de
una caja y un par de “bigotes” tal como muestra la imagen:

X min Q1 mediana Q3 X máx

Rango intercuartil (RI)

Para su elaboración es necesario conocer algunos indicadores vinculados al


comportamiento de los datos: medidas de tendencia central y no central, existencia de
valores atípicos, etc. Por este motivo, la explicación sobre este tipo de diagramas se
realiza en el módulo “medidas de forma”.

Lic. Mónica Pascual Página 26


Temas de Estadística y Probabilidades

1) Se quiere desarrollar una investigación estadística para el estudio de las causas de


accidentes de trabajo en la Construcción del Noroeste Argentino
a) ¿Qué variables incluiría en el estudio y como las clasificaría?
b) ¿Cómo recopilaría la información?
c) ¿Cómo presentaría los datos?
d) ¿Qué tipos de gráficos utilizaría?

2) Ahora puede dar respuesta a las siguientes preguntas:


a) ¿Cuál es la última frecuencia relativa acumulada? ¿Por qué?
b) ¿Qué significado tiene cada uno de los valores de la frecuencia absoluta?
c) ¿Cómo se puede obtener el porcentaje de individuos que presentan cada uno
de los valores de la variable?

Lic. Mónica Pascual Página 27

También podría gustarte