Está en la página 1de 42

MSc. Ing.

Luis Herman Hinojosa Saavedra

CAPITULO 1

INTRODUCCION A LA ESTADISTICA DESCRIPTIVA

EL PROCESO ESTADÍSTICO
La estadística es una ciencia que estudia una serie de fenómenos no deterministas, a partir de la
recogida, análisis e interpretación de unos datos que tienen lugar dentro de una colectividad.
Un ejemplo nos ayuda a diferenciar entre fenómenos deterministas y no deterministas:
− Al pulsar el interruptor de la luz, si ésta estaba apagada, se encenderá; y al contrario, si la luz
está encendida y pulsamos el interruptor, la luz se apagará. Este fenómeno es determinista,
ya que antes de ejecutar la acción puedo prever el resultado de la misma, y, si no hay ningún
imprevisto (en el caso de la luz, que la bombilla esté encendida), obtendremos el resultado
esperado.
− Los fenómenos no deterministas son aquellos en los que no se puede predecir el resultado,
antes de su ejecución. Sería un fenómeno no determinista “la puntuación que se obtiene al
tirar un dado”; antes de realizar la tirada no sabemos los puntos que se obtendrán. Además
este fenómeno descrito se denomina aleatorio, ya que el resultado depende exclusivamente
del azar (si el dado no está trucado). También hay fenómenos no deterministas que no son
aleatorios, por ejemplo, la respuesta a la pregunta sobre el Estado Civil en una encuesta. El
encuestador no conoce previamente la respuesta que va a obtener, pero de ninguna manera
depende la respuesta del azar.

Tenemos por tanto:


Deterministas
Fenómenos
Aleatorios
No deterministas
No aleatorios
Otras acepciones de la palabra “estadística”:
• Colección de datos numéricos ordenados y clasificados según un determinado criterio; así
hablamos de estadísticas de producción, de cotizaciones bursátiles, demográficas, etc.

1
MSc. Ing. Luis Herman Hinojosa Saavedra

• Es una ciencia que, utilizando como instrumento a las matemáticas, estudia las leyes de
comportamiento de aquellos fenómenos que dependen del azar. Generalizando estas leyes y
basándose en ellas predice e infiere resultados.
• Significa la técnica o el método que se sigue para recoger, organizar, resumir, presentar,
analizar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales.
La importancia de la estadística no está reducida al ámbito de la matemática sino que se ha
convertido en una herramienta de trabajo fundamental para muchas otras ciencias y facilita
mediciones e inferencias de ámbito educativo y social: por ejemplo, costumbres relativas al
cuidado de la salud, niños que están escolarizados en diferentes tipos de centros, capacidades
(tests).
La Estadística es una ciencia positiva y sigue unas reglas y procesos determinados.
Resumiéndolo de una manera sencilla, enumeramos los pasos elementales a seguir en un estudio
estadístico.
Para llevar a cabo el proceso estadístico son necesarias varias fases, que se pueden resumir en
estas cuatro1:
1. El diseño o planteamiento, mediante el cual se fija el objetivo a conseguir, la población y
muestra que va a estudiarse, los caracteres que interesan y la presentación que se hará con los
datos recogidos; es preciso también determinar tanto costes como tiempo que se va a invertir.
Se respondería a las siguientes preguntas: ¿sobre quién se realiza el estudio? y ¿qué
característica o características vamos a analizar?
2. La recogida de datos, que puede ser directa, cuando es el propio individuo el que facilita los
datos, generalmente mediante un cuestionario o la observación directa; o puede ser indirecta,
cuando se recurre a un fichero, a un banco de datos, etc.
3. La obtención de resultados mediante el tratamiento de datos: son las operaciones, cuadros,
tablas, gráficos, previstos en el diseño, que hay que efectuar para obtener los resultados. Si la
cantidad de datos es grande, se usan técnicas informáticas. En este punto tratamos, por tanto
la cuantificación y análisis de los datos. Las técnicas que se utilizan para ello son tanto de
cálculo como gráficas.
4. La interpretación de resultados. Al final del proceso, se pueden tomar las soluciones
pertinentes a partir de la información obtenida. Dependiendo del estudio y de la temática, se
terminará definiendo predicciones o conclusiones sobre los fenómenos estudiados.
Analizamos estos pasos a la luz de un ejemplo:

2
MSc. Ing. Luis Herman Hinojosa Saavedra

Suponemos que nos preocupa el nivel de violencia infantil y juvenil; sus


índices han crecido enormemente en los últimos años y que formamos parte
de un equipo que pretende analizar la causas de dicha situación. Debemos ir
perfilando en primer término los diferentes factores: violencia familiar,
soledad de niños y adolescentes, situaciones de marginación, influencia de
programas televisivos con una gran carga de violencia, etc. Debemos definir
ahora nuestro centro de interés, formular nuestra hipótesis.

Nuestra hipótesis se centra en que el índice de violencia infantil ha crecido


debido al elevado número de horas que los niños ven la televisión. (Hemos
dejado de lado otros factores, pues es necesario completar el ejemplo).

Primero determinamos la población: el término “niños” es ambiguo y


amplio; necesitamos escoger los márgenes con los que vamos a trabajar: por
ejemplo, analizaremos a los niños entre 7 y 10 años; también necesitamos
hacer una concreción geográfica: niños españoles (o que viven en España)
de edades comprendidas entre 7 y 10 años.

Tras definir la población y dado que no podemos obtener datos de todos los
niños españoles de esas edades, pues convertiría nuestro trabajo en algo
inabarcable y costoso, buscamos la selección de una parte de la población.
Para que el resultado sea fidedigno, tendremos que respetar el reparto
proporcional de niños de la población y niños encuestados: es decir, si hay
300.000 niños de las características señaladas, no podemos recoger datos de
450, o solamente de alumnos de colegios públicos o solo de habitantes de
grandes poblaciones urbanas. En la muestra (definiremos más tarde este
concepto) tendrá que haber niños de diferentes niveles socioeconómicos, de
barrios acomodados y marginales, de colegios públicos, privados y
concertados, de ámbito rural y ámbito urbano; y todo, guardando la debida
proporción muestra-población. (No hemos querido hacer un elenco
exhaustivo de factores, simplemente ilustrar las necesidades que surgen al
seleccionar la muestra).

3
MSc. Ing. Luis Herman Hinojosa Saavedra

Recogeríamos los datos de los niños incluidos en la muestra. Pero es


necesario perfilar la pregunta, objeto de estudio: ¿cuántas horas ves la
televisión? Esta pregunta no está bien definida, pues es diferente el número
de horas entre semana que el fin de semana, en vacaciones o durante el
curso escolar, la franja horaria, etc. Para no alargar excesivamente el
ejemplo concretaremos el número de horas semanales que ven la
televisión los niños españoles entre 7 y 10 años, durante el curso escolar.
Este es por tanto nuestro objeto de estudio.

Recogemos los datos de 5.000 niños, cuidando la proporción con la


población real, lo ordenamos, los analizamos gráfica y matemáticamente y
ya hemos obtenido los resultados. Hemos llegado al punto 6 del proceso y
estamos en disposición de presentar nuestros resultados a los representantes
del MEC que nos lo han encargado. Ahora bien, aunque hemos obtenido
datos de 5.000 niños, no concluimos que “cinco mil niños españoles ven una
media de 6,7 h de televisión a la semana”, sino que lo expresaremos
diciendo que los niños españoles de edades comprendidas entre 7 y 10 años
ven la TV una media de 6,7h a la semana. Es decir, aunque nosotros hemos
recogido datos de una parte de la población, los resultados los extendemos a toda la
población.

GENERALIDADES.-

El campo de la estadística tiene que ver con la recopilación, presentación, análisis y uso
de datos para tomar decisiones y resolver problemas. Cualquier persona, tanto en su
carrera profesional como en la vida cotidiana recibe información en forma de datos a
través de periódicos, de la televisión y de otros medios. De manera específica, el
conocimiento de la estadística y la probabilidad puede constituirse en una herramienta,
poderosa para ayudar a los científicos e ingenieros a diseñar nuevos productos y
sistemas, a perfeccionar los existentes y a diseñar, desarrollar y mejorar los procesos
productivos.

4
MSc. Ing. Luis Herman Hinojosa Saavedra

¿Qué es la estadística?

Es una ciencia que estudia los métodos científicos, para


reunir, organizar, resumir y analizar datos; así como para
sacar conclusiones y tomar decisiones sobre la base de tales
análisis.

ESTADÍSTICA DESCRIPTIVA
ESTADISTICA
INFERENCIA ESTADÍSTICA

ESTADISTICA DESCRIPTIVA.- Es la ciencia que estudia a los métodos para


reunir, clasificar, presentar y describir a un conjunto de datos.

El término estadística tiene su raíz en la palabra Estado. Surge cuando se hace necesario

para sus intereses cuantificar conceptos. En la mayoría de los casos esta cuantificación

se hará en función de unos fines económicos o militares. El estado quiere conocer censo

de personas, de infraestructura, de recursos en general, para poder obtener conclusiones

de esta información.

Actualmente la estadística es una ciencia. No es ya una cuestión reservada al


estado. Podríamos decir que se encuentra en la totalidad del resto de ciencias. La razón
es clara: por una parte la estadística proporciona técnicas precisas para obtener
información, (recogida y descripción de datos) y por otra parte proporciona métodos
para el análisis de esta información.

5
MSc. Ing. Luis Herman Hinojosa Saavedra

De ahí el nombre de ESTADÍSTICA DESCRIPTIVA, ya que el objetivo será, a


partir de una muestra de datos (recogida según una técnica concreta), la descripción de
las características más importantes, entendiendo como características, aquellas
cantidades que nos proporcionen información sobre el tema de interés del cual hacemos
el estudio.

ESTADISTICA INFERENCIAL.- Es la ciencia que estudia los métodos que


permiten generalizar o tomar decisiones en base a la información particular o parcial
que presenta la Estadística Descriptiva; es decir, cuando se trata de inferir o predecir
conclusiones de un conjunto de datos.

La estadística inferencial comprende las técnicas con las que, con base únicamente en
una muestra sometida a observación, se toman decisiones sobre una población o proceso
estadísticos. Dado que estas decisiones se toman en condiciones de incertidumbre,
suponen el uso de conceptos de probabilidad. Mientras que a las características medidas
de una muestra se les llama estadísticas muestrales, a las características medidas de una
población estadística, o universo, se les llama parámetros de la población. El
procedimiento para la medición de las características de todos los miembros de una
población definida se llama censo. Cuando la inferencia estadística se usa en el control
de procesos, al muestreo, le interesa en particular el descubrimiento y control de las
fuentes de variación en la calidad de la producción.

Ejemplo. Para estimar el voltaje requerido para provocar fallas en un dispositivo


eléctrico, una muestra de estos dispositivos puede someterse a voltajes crecientes hasta
que falle cada uno de ellos. Con base en estos resultados muestrales puede estimarse la
probabilidad de falla a varios niveles de voltaje de los demás dispositivos de la
población muestreada.

6
MSc. Ing. Luis Herman Hinojosa Saavedra

ALGUNAS DEFINICIONES IMPORTANTES.-

POBLACIÓN.- La población es el conjunto de de todos


los elementos, que cumpliendo una condición, deseamos
estudiar.
Por ejemplo: los habitantes de una ciudad, los alumnos de
Muestra
un colegio, las gallinas de una granja, etc.
Población
MUESTRA.- Una muestra es cualquier subconjunto
representativo de la población (por ejemplo: 100 alumnos
del colegio, 1.000 habitantes de una ciudad, 300 gallinas
de una granja, etc).

- Individuo.- Es cada uno de los elementos de la población

La población es un agregado de unidades individuales, compuesto de personas o cosas


que se hallan en una situación determinada. Las unidades individuales se llaman
unidades elementales. Definir una población es determinar sus unidades elementales de
acuerdo con el interés que se tiene respecto a alguna característica de aquélla.

Tanto la definición de una población como la característica por observar de sus


unidades elementales dependen de la naturaleza del problema. Por ejemplo, si el
problema es "Camisas para personas adultas de El Salvador", se trata de determinar la
cantidad adecuada de producción de camisas de acuerdo con las diversas medidas. La
población son todas las personas adultas de El Salvador. La característica de interés son
las medidas del cuello de las personas adultas en dicho país.

Las poblaciones pueden ser infinitas o finitas. Una población infinita es la que contiene
un número infinito de unidades elementales; por ejemplo, el conjunto de piezas que se
obtienen en un proceso productivo; en el sentido de que se siguen produciendo
indefinidamente. Otro ejemplo son todos los posibles resultados al lanzar una moneda
sin cesar.

Una población es finita cuando tiene un número finito de unidades elementales. Por
ejemplo, los estudiantes de una determinada universidad; el número de escuelas que

7
MSc. Ing. Luis Herman Hinojosa Saavedra

existen en una determinada ciudad, el número de árboles de coco sembrados en una


determinada parcela, etcétera. El número de unidades elementales de una población se
denota con la letra N.

Una muestra es una parte de la población; por ejemplo, cuando se desea hacer un
estudio relativo al rendimiento académico de los alumnos de cierta universidad, y para
esto se toma sólo un grupo de estudiantes de la misma. Todos los estudiantes de ella son
la población y el grupo escogido constituye la muestra. Es importante hacer notar que
para hacer una investigación mediante el análisis de una muestra, ésta tiene que ser,
necesariamente, representativa. La representatividad de la muestra implica que cada
unidad de la población debe tener igual probabilidad de ser seleccionada. En estas
condiciones, se dice que la muestra es aleatoria. La obtención de una muestra
representativa es uno de los aspectos más importantes de la teoría estadística. Incluye
preguntas como, ¿qué tan grande debe ser la muestra?, ¿qué tipo de datos deben ser
recolectados?, ¿cómo se recogerán éstos? Estas preguntas serán contestadas más
adelante. (El número de unidades elementales de una muestra se denota con la letra n).

Parámetro: Son todas las medidas dirigidas a la población. Un parámetro es un valor


desconocido, y por lo tanto tiene que ser estimado. Los parámetros se utilizan para
representar una determinada característica de la población. Por ejemplo, la media
poblacional  es un parámetro que normalmente se utiliza para indicar el valor
promedio medio de una cantidad.

Dentro de una población, un parámetro es un valor fijo que no varía. Cada muestra
tomada de la población tiene su propio valor de cualquier estadística que se utilice para
estimar este parámetro. Por ejemplo, la media de los datos en una muestra es utilizada
para dar información sobre la media de la población total  de la cual esa muestra fue
tomada.

8
MSc. Ing. Luis Herman Hinojosa Saavedra

Estadístico: Son todas las medidas dirigidas a la muestra. Un estadístico es una


cantidad calculada de una muestra de datos. Se utiliza para dar información sobre
valores desconocidos correspondientes a la población. Por ejemplo, el promedio de los
datos en una muestra se utiliza para dar información sobre el promedio total de la
población de la cual esa muestra fue tomada.

Los datos discretos son datos contables y recolectados por conteo, por ejemplo, el
número de los artículos defectuosos producidos durante un día de producción.

Los datos continuos son recolectados por medición y expresados en una escala
continua. Por ejemplo, midiendo la altura de una persona.

Al tratar las variables cuantitativas, podemos encontrarnos a la hora de elaborar las


tablas con los siguientes casos:
1. La variable es discreta y hay un número no muy grande de valores diferentes: un
ejemplo es el del número de medios de transporte, donde solamente hay 4 valores
diferentes (0, 1, 2 y 3), aunque haya 50 datos.
2. La variable es continua, es decir, cabe la posibilidad de que haya “infinitos” valores
diferentes. (Pesos, calorías, etc.)
3. La variable es discreta, pero hay gran disparidad de valores diferentes. Por ejemplo,
si preguntara a los alumnos de una clase cuál es el número total de páginas que tiene
el libro (recreativo) que están leyendo en ese momento. Lo más probable es que no
hubiera dos respuestas iguales. En estos casos la variable se tratará como en el caso
2; es decir, aunque sea discreta su tratamiento se equipara al de las variables
continuas.
Las variables cuantitativas continuas o discretas del caso 3, pueden ofrecer problemas a
la hora de situar sus valores en una tabla, puesto que podíamos tener una gran
disparidad de valores; por ello se utilizan para este tipo de variables los intervalos de
clase, definidos como los intervalos parciales en que dividimos el campo de variación
de una variable estadística continua. Un intervalo queda definido por sus extremos -

9
MSc. Ing. Luis Herman Hinojosa Saavedra

inferior y superior- y por la pertenencia o no de dichos extremos al intervalo: intervalos


abiertos, cerrados, semiabiertos.
Ejemplos:
− Intervalo cerrado: [2,4 : incluye todos los valores comprendidos entre dos y cuatro y
también los extremos 2 y 4.
− Intervalo abierto: (2,4) : incluye todos los valores comprendidos entre dos y cuatro, pero no
los extremos 2 y 4, éstos no pertenecen al intervalo.
− Intervalo semiabierto: [2,4) : incluye todos los valores comprendidos entre dos y cuatro,
además el 2, pero no el 4.

Variables.- Son todas las cualidades de la población objeto de estudio.

Número de hijos
Número de hermanos
Núm. De materias
Variables Discretas aprobadas
(Son valores puntuales, exactos) Cantidad de autos
Cantidad de televisores

Variables Cuantitativas
(Son medibles; son numéricas)
Edad
Peso
Estatura
Variables Continuas Salarios
(Pueden estar dentro de un intérvalo) Tiempo
Dosis de medicamento
Variables

Marca de cerveza, gaseosas


Nombre de karaokes
Variables Nominales Carreras universitarias
(No tienen orden Lugar de nacimiento
Ni jerarquía)
Variables Cualitativas
(No son medibles; no son numéricas) Grado Militar
Días de la semana
Meses del año
Variables Ordinales Grado de aceptación
(Tienen orden Nivel académico
y jerarquía)

10
MSc. Ing. Luis Herman Hinojosa Saavedra

Ejercicio 1.1. Clasificación de algunas variables:

1. Preferencias políticas (MIR, UCS, MAS, PODEMOS) (Var. Cualitativa Nominal)


2. Marcas de cerveza. (Variable cualitativa nominal)
3. Velocidad en Km/h. (Variable cuantitativa continua)
4. El peso en Kg. (Variable cuantitativa continua)
5. Signo del zodiaco. (Variable cualitativa ordinal)
6. Nivel educativo (primario secundario, superior). (Variable cualitativa ordinal)
7. Tipo de enseñanza (privada o pública). (Variable cualitativa nominal)
8. Número de empleados de una empresa pequeña. (Variable cuantitativa discreta)
9. La clase social (baja, media o alta). (Variable cualitativa ordinal)
10. La presión de un neumático en Nw/cm2 (Var. Cuantitativa Continua)

La población puede ser según su tamaño de dos tipos:

Población finita: cuando el número de elementos que la forman es finito, por


ejemplo el número de alumnos de un centro de enseñanza, o grupo clase.

Población infinita: cuando el número de elementos que la forman es infinito, o


tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase
un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas
calidades que esta población podría considerarse infinita.

11
MSc. Ing. Luis Herman Hinojosa Saavedra

TABLA DE DISTRIBUCION DE FRECUENCIAS.-

Para poder analizar la forma como se distribuye la frecuencia con que aparecen los
diferentes valores correspondientes a las mediciones de las variables que se están
estudiando, es necesario organizar, resumir y simplificar los datos mediante un soporte
que posibilite su recuperación para el procesamiento estadístico. Esto se realiza
mediante Tablas Inteligibles, denominadas Distribuciones de Frecuencias, o también
Base de Datos.

La tabla de distribución de frecuencia es la representación estructurada, en forma de


tabla, de toda la información que se ha recogido sobre la variable que se estudia.

Variable Frecuencias absolutas Frecuencias relativas


(Valor) Simple Acumulada Simple Acumulada
x X x x X
X1 n1 n1 f1 = n1 / n f1
X2 n2 n1 + n2 f2 = n2 / n f1 + f2
... ... ... ... ...
Xn-1 nn-1 n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1
Xn nn n fn = nn / n f

A continuación veremos como proceder en la tabulación de las diferentes variables.

Regla de sturges

Para obtener la fórmula k = 1 + 3,32 log n , se deben hacer los siguientes supuestos:

1. El mínimo de datos que amerita clasificación en intervalos es 16.


2. El número de intervalos no debe ser inferior a (5).
3. Cada vez que se duplique la información se incrementa en uno (1) el número de
intervalos.
Así las cosas, se obtiene la siguiente correspondencia:

12
MSc. Ing. Luis Herman Hinojosa Saavedra

Se llega a la siguiente igualdad:


n= 2m –1
Tomando logaritmo a ambos lados de la ecuación

log(n) = log(2k −1 )
log(n) = (k − 1) log(2)
log(n)
1+ =k
log 2
log(n)
k = 1+
0,30103
k = 1 + (3,322) log(n)

El uso de esta formula puede dar resultados irrazonables cuando el número de


observaciones es muy grande o muy pequeño. Por esta razón la Regla de Sturges no es
un sustituto del buen juicio. También hay otros autores que toman como sugerencia
para hallar el número de clases log n o también Raiz de n ( k = n ), con “n” número
de datos.

13
MSc. Ing. Luis Herman Hinojosa Saavedra

VARIABLES CUANTITATIVAS CONTINUAS.-

Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que


será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo
de 30 alumnos les preguntamos el dinero que tienen en ese momento ahorrado, nos
encontramos con los siguientes datos:

450 1152 250 300 175 80 25 2680 605 785 1595 2300 5000 1200 100
5 180 200 675 500 375 1500 205 985 185 125 315 425 560 1100

Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 euros, por lo
que sí queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para
decidir la amplitud de los intervalos, necesitaremos decidir cuántos intervalos queremos.
Normalmente se suele trabajar con no más de 10 ó 12 intervalos.

Amplitud =4998/10 = 499,8 por lo que tomaremos intervalos de amplitud 500

Debemos tener en cuenta las siguientes consideraciones:

-Tomar pocos intervalos implica que la "pérdida de información" sea mayor.


-Los intervalos serán siempre cerrados por la izquierda y abiertos por la derecha [ Li-1 ,
Li )

Procuraremos que en la decisión de intervalos los valores observados no coincidan con


los valores de los extremos del intervalo y si esto ocurre que no sea en más de un 5%
del total de observaciones.

Con estas recomendaciones tendremos la siguiente tabla:

[ Li-1 , Li ) Frecuencia
[ 0,500) 16
[ 500, 1000) 6
[ 1000,1500) 3
[ 1500, 2000) 2
[ 2000, 2500) 1
[ 2500, 3000) 1
[ 3000, 3500) 0
[ 3500, 4000) 0
[ 4000, 4500) 0

14
MSc. Ing. Luis Herman Hinojosa Saavedra

[ 4500, 5000) 0
[ 5000,5500) 1

A continuación desarrollamos un ejercicio paso a paso:

Ej: Con los siguientes datos elaborar una tabla de distribución de frecuencias.

35 42 31 20 80 71
56 52 53 43 61 58
29 36 41 48 54 60 n=30
72 66 64 60 56 52
43 44 61 32 27 34

1er. Paso.-
Se calcula el Rango, que es igual a la diferencia entre el valor máximo y el mínimo del
conjunto de datos.

R = VMax − VMin = 80 − 20 = 60

2do. Paso.-
Se calcula la cantidad de clases, intervalos o filas que tendrá la tabla de distribución de
frecuencias. Para ello se utiliza la Regla de Sturges.

K = 1+ 3,32. log n
Donde n = Tamaño de la muestra
K = 1 + 3,32. log 30
K = 5,797  6

3er. Paso.-
Se encuentra el Ancho de Clases (AC)

R AC = Ancho de clases
AC = R = Rango
K
K = Cantidad de clases o intervalos

60
AC = Lo que indica que cada intervalo tendrá
10 un ancho de 6 unidades

AC = 6

15
MSc. Ing. Luis Herman Hinojosa Saavedra

TIPOS DE FRECUENCIAS.-

- Frecuencia absoluta.- (fi) Es la cantidad de valores u observaciones que están


contenidos en cada clase.

Li - Ls fi
20 – 30 3 Li = Límite inferior de clase
30 – 40 5 Ls = Límite superior de clase
40 – 50 6 fi = Frecuencia absoluta
50 – 60 9
60 – 70 4
70 – 80 3

- Frecuencia Acumulada “Menor que” fa(-) Es la cantidad de valores u


observaciones que se van acumulando a medida que avanzamos en las clases de la
primera a la última clase.

Li - Ls fi fa(-)
20 – 30 3 3
30 – 40 5 8
SUMAR

40 – 50 6 14
50 – 60 9 23
60 – 70 4 27
70 – 80 3 30

- Frecuencia Acumulada “Mayor que” fa(+) Es la cantidad de valores u


observaciones que se van acumulando a medida que avanzamos en las clases de la
última a la primera clase.

Li - Ls fi fa(+)
20 – 30 3 30
30 – 40 5 27
SUMAR

40 – 50 6 22
50 – 60 9 16
60 – 70 4 7
70 – 80 3 3

A estas tres frecuencias las llamamos frecuencias Numéricas

16
MSc. Ing. Luis Herman Hinojosa Saavedra

- Frecuencia Relativa.-(hi)

La frecuencia absoluta, es una medida que está influida por el tamaño de la muestra, al
aumentar el tamaño de la muestra aumentará también el tamaño de la frecuencia
absoluta. Esto hace que no sea una medida útil para poder comparar. Para esto es
necesario introducir el concepto de frecuencia relativa, que es el cociente entre la
frecuencia absoluta y el tamaño de la muestra. La denotaremos por hi

Es la fracción de valores u observaciones que está concentrada en cada clase.

Li - Ls hi
fi hi = Frecuencia Relativa
20 – 30 0,100 hi = fi = Frecuencia absoluta
30 – 40 0,167 n n = Número total de observaciones
40 – 50 0,200
50 – 60 0,300
60 – 70 0,133
70 – 80 0,100

La sumatoria de todas las frecuencias


relativas es igual a 1 h i =1

- Frecuencia Relativa Acumulada “Menor que” Hi (-) Es el acumulo de


fracciones de los valores u observaciones que se van acumulando a medida que
avanzamos en las clases de la primera a la última clase.

Li - Ls hi Hi (-)
20 – 30 0,100 0,100
30 – 40 0,167 0,267
SUMAR

40 – 50 0,200 0,467
50 – 60 0,300 0,767
60 – 70 0,133 0,900
70 – 80 0,100 1,000

17
MSc. Ing. Luis Herman Hinojosa Saavedra

- Frecuencia Relativa Acumulada “Mayor que” Hi(+) Es el acúmulo de


fracciones de los valores u observaciones que se van acumulando a medida que
avanzamos en las clases de la última a la primer clase.
Li - Ls hi Hi (+)
20 – 30 0,100 1,000
30 – 40 0,167 0,900

SUMAR
40 – 50 0,200 0,733
50 – 60 0,300 0,533
60 – 70 0,133 0,233
70 – 80 0,100 0,100

A estas tres frecuencias las llamamos Frecuencias Fraccionales

- Frecuencia Porcentual.- hi % Es el porcentaje de valores u observaciones que se


encuentra concentrado en cada clase.

Li - Ls hi %
20 – 30 10,0 hi % = hi x 100 hi %= Frecuencia Porcentual
hi = Frecuencia Relativa
30 – 40 16,7
40 – 50 20.0
50 – 60 30,0
60 – 70 13,3
70 – 80 10,0

La sumatoria de todas las frecuencias


porcentuales es igual a 100 %
 h % = 100 %
i

- Frecuencia Porcentual Acumulada “Menor que”Hi (-) Es el acúmulo de


porcentajes de los valores u observaciones que se van acumulando a medida que
avanzamos en las clases de la primera a la última clase.

Li - Ls hi % Hi %(-)
20 – 30 10,0 10,0
30 – 40 16,7 26,7
SUMAR

40 – 50 20.0 46,7
50 – 60 30,0 76,7
60 – 70 13,3 90.0
70 – 80 10,0 100,0

18
MSc. Ing. Luis Herman Hinojosa Saavedra

- Frecuencia Porcentual Acumulada “Mayor que” Hi(+) Es el acumulo de


porcentajes de los valores u observaciones que se van acumulando a medida que
avanzamos en las clases de la última a la primer clase.

Li - Ls hi % Hi % (+)
20 – 30 10,0 100,0
30 – 40 16,7 90,0

SUMAR
40 – 50 20.0 73,3
50 – 60 30,0 53,3
60 – 70 13,3 23,3
70 – 80 10,0 10,0

A estas tres frecuencias las llamamos Frecuencias Porcentuales

Elaborando la tabla completa:

Frec. Porcentual Acumulada “ Mayor que”


Frec. Porcentual Acumulada “ Menor
Frec. Relativa Acumulada “ Menor

Frec. Relativa Acumulada “ Mayor


Frec. Acumulada “ Menor que”

Frec. Acumulada “ Mayor

Frecuencias Porcentuales
Frecuencias Absolutas

Frecuencias Relativas
que”

que”

que”

que”

Li - Ls fi fa(-) fa(+) hi Hi (-) Hi (+) hi % Hi %(-) Hi % (+)


20 – 30 3 3 30 0,100 0,100 1,000 10,0 10,0 100,0
30 – 40 5 8 27 0,167 0,267 0,900 16,7 26,7 90,0
40 – 50 6 14 22 0,200 0,467 0,733 20.0 46,7 73,3
50 – 60 9 23 16 0,300 0,767 0,533 30,0 76,7 53,3
60 – 70 4 27 7 0,133 0,900 0,233 13,3 90.0 23,3
70 – 80 3 30 3 0,100 1,000 0,100 10,0 100,0 10,0

Frecuencias Frecuencias Frecuencias


Numéricas Fraccionales Porcentuales

19
MSc. Ing. Luis Herman Hinojosa Saavedra

MARCA DE CLASE.- Llamado también “Punto Medio de Clase”, es el valor que se


encuentra exactamente en el centro de cada clase. Se lo obtiene sumando los límites de
cada clase divididos entre 2.

Li + Ls
MC =
2

Li - Ls fi MC
20 – 30 3 25
30 – 40 5 35
40 – 50 6 45
50 – 60 9 55
60 – 70 4 65
70 – 80 3 75

GRAFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS.-

a) HISTOGRAMA ABSOLUTO.- Para la elaboración de un histograma absoluto


podemos relacionar:
Límites de clase vs. Frecuencia Absoluta

Límites de clase vs. Frecuencia Relativa

Límites de clase vs. Frecuencia Porcentual

fi
9
8
7
6
5
4
3
2
1
Límites
20 30 40 50 60 70 80

20
MSc. Ing. Luis Herman Hinojosa Saavedra

b) HISTOGRAMA ACUMULADO “MENOR QUE”.- Para la elaboración de un


histograma acumulado “menor que” podemos relacionar:

Límites de clase vs. Frecuencia Acumulada

Límites de clase vs. Frecuencia Relativa Acumulada “Menor que”

Límites de clase vs. Frecuencia Porcentual Acumulada “Menor que”

Fa (-)

30
27
24
21
18
15
12
9
6
3
Límites
20 30 40 50 60 70 80

c) HISTOGRAMA ACUMULADO “MAYOR QUE”.- Para la elaboración de un


histograma acumulado “menor que” podemos relacionar:

Límites de clase vs. Frecuencia Acumulada

Límites de clase vs. Frecuencia Relativa Acumulada “Mayor que”

Límites de clase vs. Frecuencia Porcentual Acumulada “Mayor que”

21
MSc. Ing. Luis Herman Hinojosa Saavedra

Fa (+)

30
27
24
21
18
15
12
9
6
3
Límites
20 30 40 50 60 70 80

d) OJIVA “MENOR QUE”.- Para la elaboración de una Ojiva “menor que”


podemos relacionar:

Marca de Clase (MC) vs. Frecuencia Acumulada “Menor que”

Marca de Clase (MC) vs. Frecuencia Relativa Acumulada “Menor que”

Marca de Clase (MC) vs. Frecuencia Porcentual Acumulada “Menor que”

Fa (-)

30
27
24
21
18
15
12
9
6
3
MC
25 35 45 55 65 75

22
MSc. Ing. Luis Herman Hinojosa Saavedra

e) OJIVA “MAYOR QUE”.- Para la elaboración de una Ojiva “mayor que”


podemos relacionar:

Marca de Clase (MC) vs. Frecuencia Acumulada “Mayor que”

Marca de Clase (MC) vs. Frecuencia Relativa Acumulada “Mayor que”

Marca de Clase (MC) vs. Frecuencia Porcentual Acumulada “Mayor que”

Fa (+)

30
27
24
21
18
15
12
9
6
3
MC
25 35 45 55 65 75

f) POLIGONO DE FRECUENCIA.- Para la elaboración de un polígono de


frecuencia podemos relacionar:
Marca de Clase (MC) vs. Frecuencia Absoluta

Marca de Clase (MC) vs. Frecuencia Relativa

Marca de Clase (MC) vs. Frecuencia Porcentual

fi

9
8
7
6
5
4
3
2
1
MC
25 35 45 55 65 75
23
MSc. Ing. Luis Herman Hinojosa Saavedra

EJERCICIO 1.1.

Los siguientes datos corresponden a los ingresos en dólares de un grupo de 50 personas.


Elaborar la tabla de distribución de frecuencias.

250 55 210 250 300 240 300 250 300 300


100 100 210 250 250 390 150 250 200 250
180 200 200 400 200 400 150 350 400 250
220 250 90 400 180 300 350 250 500 240
250 250 100 395 80 250 400 200 400 340

Calcular Rango: R = MAX − MIN


R = 500 − 55 = 445
Calcular Número de clases: K = 1+ 3.33 log .n
K = 1 + 3.33 log 50 = 6.5  7
R 445
Calcular Ancho de Clase: AC = = = 63.57  64
K 7

Li - Ls MC fi fa (-) fa (+) hi Hi (-) Hi (+) hi % Hi % (-) Hi % (+)


55 - 119 87 6 6 50 0.120 0.120 1.000 12.0 12.0 100.0
119 - 183 151 4 10 44 0.080 0.200 0.880 8.0 20.0 88.0
183 - 247 215 10 20 40 0.200 0.400 0.800 20.0 40.0 80.0
247 - 311 279 18 38 30 0.360 0.760 0.600 36.0 76.0 60.0
311 - 375 343 3 41 11 0.060 0.820 0.240 6.0 82.0 24.0
375 - 439 407 8 49 9 0.160 0.980 0.180 16.0 98.0 18.0
439 - 503 471 1 50 1 0.020 1.000 0.020 2.0 100.0 2.0

24
MSc. Ing. Luis Herman Hinojosa Saavedra

EJERCICIO 1.2

Completarla siguiente tabla de distribución de frecuencias:

Li Ls MC fi fa(-) fa(+) hi Hi (-) Hi (+) hi% Hi % (-) Hi % (+)

4
5 10
42 10
54 0,28
0,70
30
0,10

Solución.-

Li Ls MC fi fa(-) fa(+) hi Hi (-) Hi (+) hi% Hi % (-) Hi % (+)

26 34 30 1 4 100
34 42 38 5 0,10 10
42 50 46 -8 10
50 54 58 54 0,28 28
58 66 62 +8 0,70 70
66 74 70 0,30 30
74 82 76 0,10 1 10 100

42 Lim 54 Lim

54 – 42 = 12 La ultima celda de la Hi (-) La ultima celda de la Hi %(-)


(Este valor representa una clase y media) siempre es 1. siempre es 100

2 La ultima celda de la Hi La ultima celda de la Hi %(-)


12 x = 8 ( Ancho de clase) (+) siempre es 1. siempre es 100
3

42 50 54 58
+8 +8

AC = 8

25
MSc. Ing. Luis Herman Hinojosa Saavedra

Li Ls MC fi fa(-) fa(+) hi Hi (-) Hi (+) hi% Hi % (-) Hi % (+)

26 34 30 50 1 4 4 100
34 42 38 5 0,10 10
+
42 50 46 10 15
50 58 54 0,28 28
58 66 62 0,70 70
66 74 70 0,30 90 30
74 82 76 5 50 0,10 1 10 100
50
(1)
(2)
50 1,00 5 10 %
f7 0,10 n 100 %
f7 = 5
n = 50
(Numero total de
obs.)

Li Ls MC fi fa(-) fa(+) hi Hi (-) Hi (+) hi% Hi % (-) Hi % (+)

26 34 30 2 50 0,04 1 4 4 100
34 42 38 5 0,10 6 10
42 50 46 10 15 0,30 30
50 58 54 14 0,28 28 58
58 66 62 0,70 70
66 74 70 45 0,30 90 30
74 82 76 5 50 5 0,10 1 0,10 10 100 10
50

50 100% 50 100% 50 1,00


f1 4% f4 28% 15 H3(-)
f1 = 8 f1 = 14 f2 = 30

26
MSc. Ing. Luis Herman Hinojosa Saavedra

Li Ls MC fi fa(-) fa(+) hi Hi (-) Hi (+) hi% Hi % (-) Hi % (+)

26 34 30 2 2 50 0,04 0,04 1 4 4 100


34 42 38 3 5 0,06 0,10 6 10
42 50 46 10 15 0,20 0,30 20 30
50 58 54 14 29 0,28 0,58 28 58
58 66 62 6 35 0,12 0,70 12 70
66 74 70 10 45 0,20 0,90 0,30 20 90 30
74 82 76 5 50 5 0,10 1 0,10 10 100 10
50
(1)
50 1,00 50 1,00 Si h3 = 0,20 h3% = 20
f5 0,12 f6 0,20 (2)
Si h5 = 0,12 h3% = 12
f5 = 6 f5 = 10 (3)
Si h5 = 0,20 h5% = 20

Li Ls MC fi fa(-) fa(+) hi Hi (-) Hi (+) hi% Hi % (-) Hi % (+)

26 34 30 2 2 50 0,04 0,04 1 4 4 100


34 42 38 3 5 48 0,06 0,10 0,96 6 10 96
42 50 46 10 15 45 0,20 0,30 0,90 20 30 90
50 58 54 14 29 35 0,28 0,58 0,70 28 58 70
58 66 62 6 35 21 0,12 0,70 0,42 12 70 42
66 74 70 10 45 15 0,20 0,90 0,30 20 90 30
74 82 76 5 50 5 0,10 1 0,10 10 100 10
50

SOLUCION FINAL.-

Li Ls MC fi fa(-) fa(+) hi Hi (-) Hi (+) hi% Hi % (-) Hi % (+)

26 34 30 2 2 50 0,04 0,04 1 4 4 100


34 42 38 3 5 48 0,06 0,10 0,96 6 10 96
42 50 46 10 15 45 0,20 0,30 0,90 20 30 90
50 58 54 14 29 35 0,28 0,58 0,70 28 58 70
58 66 62 6 35 21 0,12 0,70 0,42 12 70 42
66 74 70 10 45 15 0,20 0,90 0,30 20 90 30
74 82 76 5 50 5 0,10 1 0,10 10 100 10

27
MSc. Ing. Luis Herman Hinojosa Saavedra

VARIABLES CUANTITATIVAS DISCRETAS.-

Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por


lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el número
de personas activas que hay en 50 familias obtenemos la siguiente tabla:

Personas Activas en 50 familias


2 1 2 2 1 2 4 2 1 1

2 3 2 1 1 1 3 4 2 2

2 2 1 2 1 1 1 3 2 2

3 2 3 1 2 4 2 1 4 1

1 3 4 3 2 2 2 1 3 3

Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que
precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:

Personas Activas Número de Familias

1 16

2 20

3 9

4 5

Total 50

Una vez calculada las frecuencias absolutas, se procede a encontrar las demás
frecuencias de la misma manera que para datos cuantitativos continuos.

EJEMPLO.-
Ej: Se realiza una encuesta a 20 estudiantes de la Universidad sobre la cantidad de
hermanos que tiene, obteniéndose los siguientes resultados

1 3 0 1 1
2 3 4 5 1
3 1 1 2 3
3 2 2 2 1

Introducimos los datos a una tabla de distribución de frecuencias:

28
MSc. Ing. Luis Herman Hinojosa Saavedra

Cantidad
fi fa(-) fa(+) hi Hi (-) Hi (+) hi % Hi %(-) Hi % (+)
hermanos

0 1 1 20 0,05 0,05 1,00 5,0 5 100


1 7 8 19 0,35 0,40 0,95 35,0 40 95
2 5 13 12 0,25 0,65 0,60 25,0 65 60
3 5 18 7 0,25 0,90 0,35 25,0 90 35
4 1 19 2 0,05 0,95 0,10 5,0 95 10
5 1 19 1 1,00 0,05 5,0 100 5
0,05
20 1,00 100 %

¿Cuántas personas ¿Qué fracción de ¿Qué porcentaje de ¿Qué porcentaje de


tienen menos de 3 personas tienen 2 personas menos de 4 personas tienen 2 o
hermanos? o 4 hermanos? hermanos? más hermanos?
Resp.- 13 personas Resp.- 0,30 Resp.- 90 % Resp.- 60 %
personas

GRAFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS.-

a) Diagrama de Frecuencias Absolutas.-

Para la elaboración del diagrama de frecuencias relacionamos:

Yi vs. f i (Valores de la variable vs. Frecuencia absoluta


Yi vs. hi (Valores de la variable vs. Frecuencia relativa
fi

7
6
5
4
3
2
1
Cant.
hermanos
0 1 2 3 4

29
MSc. Ing. Luis Herman Hinojosa Saavedra

b) Diagrama de Frecuencias Acumuladas.-

Para la elaboración del diagrama de frecuencias relacionamos:

Yi vs. fi (Valores de la variable vs. Frecuencia acumulada


Yi vs. hi (Valores de la variable vs. Frecuencia relativa acumulada

fa(-)

20

16

12

Cant.
hermanos
0 1 2 3 4 5

VARIABLES CUALITATIVAS.-

Ej: Se realiza una encuesta a 25 personas fumadoras sobre la marca de cigarrillos que
fuman, obteniendo los siguientes resultados:

Marca de
fi fa(-) fa(+) hi Hi (-) Hi (+) hi % Hi %(-) Hi % (+)
Cigarrillos

CAMEL 7 7 25 0,28 0,28 1,00 28,0 28,0 100,0


LM 3 10 18 0,12 0,40 0,72 12,0 40,0 72,0
MARLBORO 8 18 15 0,32 0,72 0,60 32,0 72,0 60,0
DERBY 22 7 0,16 0,88 0,28 16,0 88,0 28,0
4
EXTRA 25 3 0,12 1,00 0,12 12,0 100,0 12,0
3

25 1,00 100 %

¿Cuantas personas ¿Cuantas personas ¿Qué fracción de ¿Qué porcentaje de ¿Qué porcentaje de
fuman CAMEL o fuman DERBY o personas fuman personas fuman personas fuman
MARLBORO? EXTRA? CAMEL o LM? CAMEL o EXTRA? MARLBORO,
Resp.- 10 personas Resp.- 7 personas Resp.- 0,40 Resp.- 40 % DERBY O EXTRA?
Resp.- 40 %

30
MSc. Ing. Luis Herman Hinojosa Saavedra

EJERCICIOS VARIABLE CUALITATIVA

Se les preguntó a 50 personas la opinión sobre la película: Terror en el aire”,


obteniéndose las siguientes respuestas.

RESPUESTA fi

MUY BUENA 2
BUENA 34

REGULAR 10
MALA 3
MUY MALA 1

Elaborar una tabla de distribución de frecuencia.

SOLUCIÓN.-
fi fa(-) fa(+) hi Hi(-) H(+) hi% Hi(-) Hi(+)

MUY BUENA 2 2 50 0,04 0,04 1,00 4 4 100


BUENA 34 36 48 0,68 0,72 0,96 68 72 96

REGULAR 10 46 14 0,2 0,92 0,28 20 92 28


MALA 3 49 4 0,06 0,98 0,08 6 98 8
MUY MALA 1 50 1 0,02 1,00 0,02 2 100 2

GRAFICOS.-

Para las variables cualitativas podemos crear los siguientes gráficos:

a) TORTA O PASTEL.- b) DIAGRAMA DE BARRAS

40
MUY MALA 34
35
2%
MUY
MALA 30
BUENA
6% 25
4%
20
REGULAR
20% 15
10
10
BUENA 5 2 3
1
68%
0
MUY BUENA REGULAR MALA MUY
BUENA MALA

31
MSc. Ing. Luis Herman Hinojosa Saavedra

DIAG RAMA DE S ECTO RES

Un d i agram a d e sect ores se puede ut i l i zar par a t odo t i po de


vari abl es , per o se usa f r ecuent ement e par a l as vari ab l es
cu al i t at i vas .

Los d at os se r epr esent an en un cí rcu l o, de m odo que el án gu l o de


cada sect or es p rop orci on al a l a f recu en ci a ab sol u t a
cor r espondi ent e.

E l di agr am a cir cul ar se const r uye con la ayuda de un t r anspor t ador


de ángul os.

Ejemplo

En una clase de 30 alumnos, 12 juegan a baloncesto, 3 practican la natación, 9


juegan al fútbol y el resto no practica ningún deporte.

Al u m n os Án gu l o

Bal on cest o 12 14 4°

Nat aci ón 3 36 °

F ú t b ol 9 10 8°

S i n d ep ort e 6 72 °

Tot al 30 36 0°

32
MSc. Ing. Luis Herman Hinojosa Saavedra

GRÁFICOS DE TECNICAS MIXTAS: El pictograma es útil para difusión masiva


por ser muy comprensible; aunque carece, en absoluto, de precisión. (No es usado,
habitualmente, en presentaciones científicas). Lo que se busca con este gráfico es la
rápida interpretación; para lo que se usan dibujos (esquemáticos, artísticos o
humorísticos) en los que cada unidad dibujada representa un número de observaciones.
Así, por ejemplo: si se quiere representar “camas hospitalarias por provincia” y una
provincia tiene dos mil camas, se pueden dibujar veinte elementos (un dibujo simple
que represente una cama) dándole el valor de cien camas a cada elemento del dibujo.
Como puede deducirse, es ésta una forma de presentación donde la precisión es muy
escasa. (Si se deseara graficar dos mil catorce camas, por ejemplo, habría que recurrir a
un elemento más para incluir las catorce unidades excedentes de dos mil; el que sería
incompleto y, obviamente, muy impreciso).

Son gráficos con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es
proporcional a las frecuencias que representan.
Tomemos el Padrón Municipal de Habitantes a 1 de Enero de 2005, podemos hacer una
representación gráfica de los habitantes de cada una de las 8 provincias de Andalucía.
Una imagen alusiva será la figura de una persona, cuyo tamaño estará relacionado con
el número de habitantes de cada provincia.
El pictograma correspondiente es el que sigue:

El cartograma es un gráfico que utiliza un mapa, un plano o un croquis para referir


frecuencias de fenómenos acaecidos por áreas geográficas. Las frecuencias se
representan por colores o diferentes tramados del dibujo; o adhiriéndole chinches,
alfileres, imanes que expresen determinado número de casos por elemento agregado; o,
simplemente, inscribiendo el número de casos en área. Tiene la particularidad de que,
sobre el dibujo base, es posible la actualización permanente de los datos; lo que lo
convierte en un medio útil en vigilancia epidemiológica. (Los gráficos lineales
comparten esta utilidad).

33
MSc. Ing. Luis Herman Hinojosa Saavedra

Los gráficos tridimensionales tienen las características de los gráficos de


barra; pero le agregan una tercera dimensión (en profundidad). De esta manera es
posible representar hasta tres variables: una por cada grupo de barras, otra por
cada barra dentro de cada grupo y otra por cada plano en profundidad. Su lectura
e interpretación es más compleja que los anteriores.

Un gráfico de mucha utilidad para la comparación de diferentes series de


datos cuantitativos es el gráfico de caja (“box-plot”, en inglés). Para su
construcción, SE traza una escala (la de los valores de referencia) sobre una línea
vertical que es creciente de abajo hacia arriba; y a su derecha, la/s caja/s. Cada
una de ellas representa una serie. La caja es un cuadrilátero que tiene por altura la
extensión que va del cuartil 1 al cuartil 3 de la serie (ver Medidas de Resumen); es
decir, comprende al 50 % de las observaciones. El ancho no tiene más significado
que el determinado por la estética del dibujo. Dentro de la caja, una línea
transversal marcará la ubicación de la mediana. Hacia arriba y hacia debajo de la
caja salen líneas verticales (llamadas “bigotes”) que tendrán, como máximo, una
longitud igual al largo de la caja; hasta abarcar el 95 % de las observaciones; es
decir, corresponde a la amplitud dada por dos desvíos estándar (ver Medidas de
Resumen). Terminan en los llamados “cercados interiores”. Si no hay
observaciones que lleguen a esos extremos, el bigote podrá ser más corto y,
también, podrán ser diferentes el superior al inferior. Si la serie Con puntos o
estrellitas se marcan observaciones distantes; las que están por fuera de los
bigotes. Como puede verse, este gráfico permite tomar conocimiento de las
características de una serie: su simetría, su apuntamiento (curtosis), la ubicación
de la mediana, del intervalo intercuartílico y de eventuales valores extremos; así
como, comparar varias series en un mismo gráfico. La Figura 1 muestra una serie
asimétrica, con su cola más larga hacia los valores más altos de la serie y sin que
se observen “periféricos” (observaciones que están más allá de los cercados
interiores. Aquí se ha dibujado una serie y de manera horizontal; pero, lo habitual
(se reitera) es graficar la caja verticalmente y, por otro lado, puede compararse
varias series en la misma presentación.

1 2 3 4 5 6 7 8 9
(años de edad)
Figura 1: Gráfico de caja en una distribución “muy sesgada” (sesgo positivo).

34
MSc. Ing. Luis Herman Hinojosa Saavedra

Es importante considerar que, en la actualidad, los programas informáticos


realizan gráficos de todo tipo. Con solo introducir datos y seleccionar el tipo de
dibujo el programa efectuará una presentación que, por otra parte, supera
estéticamente lo que pueda hacerse manualmente. Sin embargo, esto no invalida
el conocimiento básico de graficación que debiera disponerse a la hora de
“graficar” con la computadora; puesto que la indicación de qué gráfico utilizar en
cada caso, así como ciertos efectos del diseño, son posible sólo si el operador
conoce la necesidad de su introducción. Un programa es capaz de mostrar un
dibujo totalmente inadecuado al fenómeno estudiado o que no exprese lo que se
desea si no se han sabido dar lar órdenes pertinentes.

Para finalizar este punto es menester reiterar que las formas de


presentación tabular y gráfica persiguen la finalidad de mejorar la comprensión de
los datos presentados y solo debe recurrirse a ellas cuando la complejidad de la
información lo haga recomendable.Un informe pletórico de tablas y dibujos no
aseguran la calidad de la presentación y, mucho menos, la validez de la
información que se está brindando.

Cómo Construir un BoxPlot

Un BoxPlot es una exhibición gráfica que tiene muchas características. Incluye la


presencia de posibles outliers. Ilustra los rangos de los datos. Muestra una medida de
dispersión tal como el cuartíl superior, cuartíl inferior y los rangos intercuartiles (RIC)
de un conjunto de datos, así como también a la mediana como medida central ubicación,
el cual es útil para comparar grupos de datos. También indica acerca de la simetría o de
la oblicuidad de la distribución. La razón principal del renombre de boxplots es porque
ofrecen mucha información de una manera compacta.

Pasos para Construir un Boxplot:

1. Líneas horizontales son obtenidas de las observaciones mas pequeñas (A), en el


cuartíl mas bajo, y otro para el cuartíl mas alto (D), de observaciones mas largas (E).
Las líneas verticales que producen la caja, se unen con las líneas horizontales en los
puntos B y D.

35
MSc. Ing. Luis Herman Hinojosa Saavedra

EJERCICIO RESUELTO.-

La distribución de una variable tiene por polígono acumulativo de frecuencias el


siguiente gráfico:

Hi (-)

1,0

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1
Límites
5 7 12 15

Si el número total de observaciones es 50:


1. Elaborar una tabla estadística con los siguientes elementos: Intervalos, Marcas
de clase, frecuencia absoluta, las frecuencia acumuladas, frecuencias relativas y
frecuencias relativas acumuladas
2. ¿Cuántas observaciones tuvieron un valor inferior a 10, y cuantas fueron
superior a 11?

36
MSc. Ing. Luis Herman Hinojosa Saavedra

Solución.-

Li - LS fi hi HI(-)
0–5 0,2 0,2
5–7 0,3 0,5
7 – 12 0,3 0,8
12 – 15 0,2 1,0
n = 50

fi Li - LS fi hi HI(-)
Siendo: hi =
n 0–5 10 0,2 0,2
5–7 15 0,3 0,5
Entonces: fi = hi .n 7 – 12 15 0,3 0,8
Reemplazamos para encontrar 12 – 15 10 0,2 1,0
las frecuencias absolutas:
n = 50
f1 = 0,2 x50 = 10
f 2 = 0,3x50 = 15
f 3 = 0,3x50 = 15
f 4 = 0,2 x50 = 10

Completando la tabla de distribución de frecuentas:

Li - LS fi fa(-) fa(+) hi HI(-) Hi(+)


0–5 10 10 50 0,2 0,2 1,0
5–7 15 25 40 0,3 0,5 0,8
7 – 12 15 49 25 0,3 0,8 0,5
12 – 15 10 50 10 0,2 1,0 0,2
n = 50 1,0

37
MSc. Ing. Luis Herman Hinojosa Saavedra

¿Cuántas observaciones tuvieron un valor inferior a 10?

7 a 12 15 5 15 3 x15
x= =9
7 a 10 x 3 x 5

10 + 15 + 9 = 34 observaciones

¿Cuántas observaciones tuvieron un valor superior a 11?

5 15 4 x15
7 a 12 15 x= = 12
4 x 5
7 a 11 x

10 + 15 + 12 = 37 observaciones inferiores a 11

50 – 37= 13 observaciones superiores a 11

38
MSc. Ing. Luis Herman Hinojosa Saavedra

EJERCICIOS PROPUESTOS CAPITULO 1.-

Problema 1.1

Los siguientes datos corresponden a la duración, en años, de los componentes de una


vacuna

2.0 3.0 0.3 3.3 1.3 0.5


0.7 6.0 5.8 6.6 0.2 2.3
1.5 4.0 5.8 1.9 4.8 0.7
4.5 0.9 1.5 0.7 2.8 5.3
1.3 6.2 5.7 6.3 1.5 0.4

a) Construye una tabla de distribución de frecuencias usando 5 intervalos de clase


b) Dibuja su histograma y su polígono de frecuencias
c) ¿ Qué porcentaje de los componentes tienen una vida entre 1.45 y 2.75? . Use la
tabla de distribución de frecuencias
d) ¿ Qué porcentaje de los componentes tienen una vida menor a 5.3 años?. Use la
tabla de distribución de frecuencias

Problema 1.2.
Los siguientes datos representan el periodo de vida, en segundos, de 50 mosquitos que
están sujetos a un nuevo insecticida en un experimento controlado de laboratorio

18 20 10 8 25 14 13 19 18 24
12 17 8 9 12 14 7 9 15 22
14 18 17 14 16 31 8 7 15 12
13 8 18 7 10 5 28 17 14 15
10 12 15 19 6 8 13 14 18 21

a) Construye una tabla completa de distribución de frecuencias para este conjunto de


datos, usando 6
Intervalos de clase
b) Dibuja un gráfico de torta para las frecuencias relativas
c) Construir un Boxplot

39
MSc. Ing. Luis Herman Hinojosa Saavedra

Problema 1.3.
Los contenidos de nicotina, en miligramos, de 40 cigarrillos marca CANCER se
registraron de la siguiente manera

1.02 1.93 2.31 1.78 2.28


1.76 1.47 1.94 0.97 1.28
2.14 2.36 1.87 0.67 1.29
2.54 3.11 2.15 1.36 2.14
1.54 1.78 0.78 1.54 1.35
1.47 2.15 1.57 2.16 2.78
1.35 2.17 1.27 1.36 1.47
2.14 0.98 1.37 2.15 1.06

Encuentra para este conjunto de datos:


a) Una tabulación de frecuencias en intervalos cerrados de amplitud 0,41
b) Interpreta los valores de f2, h3 y H4
c) Grafica la frecuencia absoluta y la absoluta acumulada
d) ¿ Que porcentaje de los cigarrillos tiene a los más 1,54 miligramos de nicotina?

Problema 1.4.-

A continuación mostramos la cantidad de años que un grupo de 50 operarias trabajan


en la Hilandería Santa Cruz.

4 6 5 6 4 6 5 5 6 5
5 5 8 8 8 6 9 6 5 7
7 9 3 2 7 4 5 7 7 3
6 7 7 7 8 3 6 6 7 6
4 6 8 5 6 6 7 5 7 4

Ordenar la información y responder:

a) ¿Qué porcentaje de las obreras tiene experiencia inferior o igual a 6 años?


b) ¿Qué porcentaje tiene experiencia entre 5 y 7 años (incluyendo los extremos)?

40
MSc. Ing. Luis Herman Hinojosa Saavedra

Problema 1.5.-
Al comenzar el curso se pasó una encuesta a los alumnos del primer curso,
preguntándoles, entre otras cosas, por el número de hermanos que tenía,
obteniéndose los siguientes resultados:

3 1 3 2 4 4
3 3 4 4 3 3
2 3 3 2 3 3
8 2 2 2 2 3
2 3 4 3 4 3
3 2 3 4 3 5

Elaborar una tabla de distribución de frecuencias, con todas las frecuencias conocidas.

Problema 1.6.-

. La siguiente tabla de frecuencia corresponde a la estatura medida a 70 estudiantes


escogidos al azar.

Limites Cantidad
1,40 – 1,49 2
1,50 – 1,59 21
1,60 – 1,69 56
1,70 – 1,79 67
1,80 – 1,89 13
1,90 – 2,00 1

a) Completar la tabla con las otras frecuencias


b) ¿Qué porcentaje de estudiantes están sus estaturas entre 1,50 y 1,59?
c) ¿Qué porcentaje de estudiantes están sus estaturas entre 1,60 y 1,89?
d) ¿Qué porcentaje de estudiantes tienen una estatura menor de 1,70?
Interpreta el valor de:
1) La tercera frecuencia absoluta
2) La segunda frecuencia relativa
3) La cuarta frecuencia absoluta acumulada
4) La tercera frecuencia relativa acumulada
5) La segunda frecuencia absoluta porcentual
6) La cuarta frecuencia acumulada porcentual

41
MSc. Ing. Luis Herman Hinojosa Saavedra

Problema 1.7.-

6. La siguiente tabla de frecuencias que se da a continuación es incompleta y le


falta algunas frecuencias, reconstrúyala.

X1 f hi fa(-) Hi(-)
0 2
1 5
2 9
3 14 0,70
4
5 0,20

42

También podría gustarte