Está en la página 1de 71

UNIDADES TECNOLÓGICAS DE SANTANDER

APUNTES DOCENTES

ASIGNATURA: ESTADÍSTICA

PROFESOR: GERMÁN ERNESTO RINCÓN REY

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página1


UNIDADES TECNOLÓGICAS DE SANTANDER

UNIDAD 1: ARREGLO Y PRESENTACIÓN DE DATOS


ASPECTOS GENERALES DE LA ESTADÍSTICA
LOS FENÓMENOS
Un fenómeno es cualquier manifestación de las actividades humanas o de la naturaleza que puede ser
percibido por los sentidos o la razón. Algunos ejemplos de fenómenos son los siguientes:
 El crecimiento de una planta
 El comportamiento del clima
 Las ventas por periodo de una empresa
 Las personas, por día, que son afectadas por una enfermedad
 Los accidentes de tránsito en diferentes lugares de una ciudad
 La variación mensual del costo de vida
Palabras sinónimas de fenómeno son: suceso, hecho o acontecimiento

LOS FENÓMENOS PRODUCEN INFORMACIÓN


Por muchos motivos los seres humanos desean poseer información sobre el comportamiento de diversos
fenómenos y para ello realizan registros sobre el estado de estos fenómenos en diferentes momentos o
espacios.

Estos registros o mediciones generan diversos volúmenes de datos y para que estos datos se conviertan en
información se deben procesar de diferentes maneras. Una de las formas como se pueden tratar los datos
para extraer la información que ellos contienen es utilizando las técnicas estadísticas

DEFINICIÓN DE ESTADÍSTICA
Es una ciencia que estudia cómo debe emplearse información para facilitar la toma de decisiones en
situaciones prácticas que se manifiestan bajo incertidumbre

IMPORTANCIA DE LA ESTADÍSTICA
La actividad más importantes para las personas que trabajan en las organizaciones empresariales es la
toma de decisiones. Dado el enorme aumento de la disponibilidad de datos (gracias a los sistemas de
información), y dada la complejidad creciente de las operaciones empresariales, los procesos de decisión se
ven sometidos a presiones extraordinarias.

Una de las técnicas más valiosa que ayudan en los procesos de toma de decisiones es la Estadística. Por lo
que es indispensable que los hombres y mujeres que dirigen organizaciones o que de alguna manera
participan en la toma de decisiones estén familiarizados con las técnicas estadísticas para poder determinar
cuando se puede examinar un problema existente mediante la aplicación del análisis estadístico.

DIVISIÓN DE LA ESTADÍSTICA
La Estadística se divide en dos grandes ramas:
 La Estadística Descriptiva
 La Inferencia Estadística

ESTADÍSTICA DESCRIPTIVA
Son los conocimientos y métodos que tratan de la recolección, organización y presentación numérica y
gráfica de los datos.

Los análisis que se hacen con las herramientas de la estadística descriptiva selimitan, únicamente, al
conjunto de datos que se recolectaron

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página2


UNIDADES TECNOLÓGICAS DE SANTANDER

INFERENCIA ESTADÍSTICA
Son los conocimientos y métodos que permiten:

 Sacar conclusiones sobre el comportamiento total de un fenómeno basándose únicamente en la


información recolectada sobre una parte de ese mismo fenómeno. Estas conclusiones se obtienen bajo
incertidumbre.

 Estimar el comportamiento futuro de un fenómeno

FASES DE UNA INVESTIGACIÓN ESTADÍSTICA


1. Planeamiento
 Fin de la investigación
 Definir la población
 Unidad de investigación
 Naturaleza o clase de los datos
 Fuentes de la información
 Procedimiento para recolectar los datos
 Diseño de instrumentos
 Presupuesto
2. Recolección de los datos
3. Crítica y codificación
4. Tabulación, gráficas y medidas
5. Análisis e interpretación

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página3


UNIDADES TECNOLÓGICAS DE SANTANDER

CONCEPTOS BÁSICOS
DATO
En términos generales un dato es un registro o anotación que se hace del estado de un fenómeno en un
momento determinado

ELEMENTO
En general, un elemento es una parte indivisible de un todo o un componente indivisible o básico de un
cuerpo. Pero, en estadística se llama elemento a las entidades que tienen una o varias características cuyo
estado nos interesa registrar. El registro del estado de estas características es lo que constituye los datos.
Estos elementos pueden ser individuos, objetos o sucesos.

Los individuos pueden ser personas o seres vivos animales o vegetales. Los sucesos pueden ser, por
ejemplo, los accidentes de tránsito, los encuentros deportivos, los recorridos que realiza un vehículo o los
días del año

Personas

Individuos
Otros seres
vivos

Elementos Cosas Objetos tangibles


(Lo que observamos)

Sucesos Entidades
intangibles

Ejemplos de sucesos:
 Accidentes
 Eventos sociales o deportivos
 Los días, los meses, los años
 Los viajes
 Los recorridos de un vehículo
 Las entrevistas

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página4


UNIDADES TECNOLÓGICAS DE SANTANDER

EJEMPLOS DE ELEMENTOS
 En una investigación sobre el comportamiento de los los salarios de trabajadores los elementos son los
trabajadores (personas), y la característica que se observa a cada elemento es el valor de su salario.
 En una investigación sobre comportamiento de las ventas de una comercializadora los elementos
podrían ser las facturas (un objeto), y la característica observada es el valor de cada factura.
 También, En una investigación sobre comportamiento de las ventas de una comercializadora los
elementos podrían ser los meses (un suceso), y la característica observada el valor de las ventas de
cada mes
 En una investigación sobre los accidentes de tránsito los elementos son los accidentes (un suceso), y la
característica observada podría ser el número de personas lesionadas por accidente observado

Los fenómenos se producen cuando el estado de las características observadas varía, usualmente, de un
elemento a otro

POBLACIÓN
 Todos los elementos que presentan una característica común
 Es el conjunto de todos los elementos que hacen parte de una situación que se está estudiando y sobre la
cual se intenta sacar conclusiones

Las poblaciones se deben definir con toda claridad de tal manera que no exista confusión sobre si un
determinado elemento pertenece o no a la población

COMO SE DEFINE UNA POBLACIÓN


Las poblaciones se deben definir con toda claridad de tal manera que no exista confusión sobre si un
determinado elemento pertenece o no a la población. Para facilitar esta definición, en muchos casos, las
palabras que la componen se pueden ordenar de acuerdo a la siguiente sintaxis:

TODOS(AS) + DESCRIPCIÓN DEL ELEMENTO + CONDICIÓN RESTRICTIVA

Significa que una definición de población debe empezar por la palabra “Todos” o “Todas” seguida de una
descripción del elemento que se está observando mas una restricción al alcance de la palabra Todos(as)

Ejemplo: En un estudio del nivel salarial de los operarios del sector de confecciones de la ciudad, una
definición de población podría ser la siguiente:

Todos los operarios del sector de confecciones de la ciudad

TAMAÑO DE UNA POBLACIÓN


Es el número total de elementos que componen una población. El tamaño de una población se suele
representar por la letra N

EJEMPLO:
Para indicar que una población tiene 670 elementos se indica así: N = 670

CLASES DE POBLACIONES
Las poblaciones se dividen en dos clases:
 Poblaciones finitas
 Poblaciones infinitas
Poblaciones Finitas
Son las poblaciones a las cuales se les pueden determinar fácilmente el número de elementos que las
componen, es decir, su tamaño

EJEMPLO:
Situación o fenómeno: La edad de los estudiantes de las UTS
Población: Todos los estudiantes de las UTS

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página5


UNIDADES TECNOLÓGICAS DE SANTANDER

Tipo de población: Finita, porque fácilmente se pueden contabilizar sus elementos acudiendo a la oficina de
la institución que registra estos datos

Poblaciones infinitas
 Son las poblaciones que físicamente es imposible numerarlas o determinar su tamaño
 Son las poblaciones que aunque se puede determinar su tamaño, no es conveniente hacerlo por razones
económicas o de tiempo

EJEMPLO:
Situación: Accidentes por día en un cruce de calles de la ciudad
Población: Todas los días mientras exista este cruce
Tipo de población: Infinita. Es imposible determinar cuantos elementos tiene esta población

EJEMPLO:
Situación: Número promedio de hijos por pareja de un barrio de la ciudad
Población: todas las parejas que habitan en el barrio
Tipo de población: Infinita. Es muy costoso o demanda mucho tiempo determinar su tamaño

CARACTERÍSTICAS OBSERVABLES EN UNA POBLACIÓN


A los elementos de una población se les observan sus características o la intensidad con que se presenta
una magnitud.

De acuerdo con su comportamiento las características que se observan en los elementos de una población
se pueden clasificar en constantes o variables

CARACTERÍSTICAS CONSTANTES
Una característica es constante cuando el valor que presenta esta característica no varía de un elemento a
otro o varía muy poco; por ejemplo, la estatura de una persona adulta observada en los últimos 20 meses o
la profesión de un graduado universitario.

CARACTERÍSTICAS VARIABLES
 Es una característica que cambia frecuentemente de valor cuando se observa en algunos o en todos los
elementos de la población.
 Es un símbolo que puede tomar diversos valores dentro de un conjunto determinado de valores que
reciben el nombre de dominio de la variable.(Significado matemático)

La estadística solamente estudia las características variables Estas características variables, comúnmente
denominadas variables, pueden ser de dos clases:
 Variables cualitativas o categóricas
 Variables cuantitativas

Variables cualitativas o categóricas: Son las que describen el estado de la característica únicamente
mediante palabras. Se refieren a atributos, cualidades, actitudes o preferencias de los elementos que se
están estudiando

EJEMPLOS:
 Las profesiones u ocupaciones de un grupo de personas: Abogado, maestro, panadero, ingeniero, etc.
 El estado civil de un grupo de personas: Soltero, casado, unión libre, etc.
 El sabor de las naranjas de una cosecha: dulce, insípido, ácido
 El color favorito de un grupo de individuos: Blanco, rojo, verde, etc.
 Pasatiempos de un grupo de estudiantes: Deportes, lectura, reuniones sociales, labores manuales, etc.
 La calidad de un producto: Bueno, regular o defectuoso

Como se puede observar, en los ejemplos, cada una de estas variables se expresa a través de dos o más
modalidades o categorías: soltero, casado, unión libre; bueno, regular, defectuoso.

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página6


UNIDADES TECNOLÓGICAS DE SANTANDER

Los datos que se registran cuando las variables son cualitativas o categóricascorresponden a la cantidad o
proporción de elementos que caen dentro de cada categoría que toma la variable, por ejemplo: el número de
abogados o de maestros, el número de individuos que prefieren el color blanco, laproporción de productos
defectuosos.

Las variables categóricas se pueden a su vez subdividir en variables nominales y variables ordinales.

Variables Nominales: Son las que no tienen una forma particular de organizar sus categorías. Por ejemplo,
no existe una forma común de ordenar los colores o el estado civil de las personas.

Variables ordinales: Cuando existe una forma común de organizar las categorías que toma la variable. Por
ejemplo: las modalidades como se puede expresar la calidad de un producto se pueden ordenar como
bueno, regular, defectuoso o al contrario, en defectuoso, regular, bueno. Las categorías con las que se
califica el servicio que presta una EPS se pueden ordenar como pésimo, malo, regular, bueno o excelente.

Variables cuantitativas: Son las que se describen por medio de números, por ejemplo, la edad de los
empleados de una empresa, las personas que visitan por día un museo, los saldos de las cuentas por
cobrar de una empresa, el peso de los paquetes que moviliza una empresa transportadora, el número de
vehículos que vende un concesionario, etc.
Las variables cuantitativas se pueden clasificar, también, en discretas o continuas:

Variables cuantitativas discretas: Son las que únicamente pueden tomar valores enteros tales como el
número de vehículos que vende un concesionario o el número de personas que asisten a una sala de cine

Variables cuantitativas continuas: Son las que se refieren a mediciones de magnitudes físicas o a
características apreciables en unidades monetarias y admiten valores fraccionarios o decimales tales como
el peso de los paquetes que moviliza una transportadora, los saldos de las cuentas de ahorro de una entidad
financiera o el tiempo que dura el recorrido de un bus urbano.

Variables cuantitativas categóricas: Cuando se quiere facilitar el manejo de los datos o aumentar la
comprensión de un fenómeno, las variable cuantitativas se pueden convertir en categóricas, como cuando
las personas que miden menos de 1.50 metros se clasifican como de estatura pequeña, las personas que
miden entre 1.50 metros y menos de 1.70 se clasifican como de estatura mediana y las personas que miden
1.70 metros o más se clasifican como de estatura alta.

CENSO
Es cuando se observa y registra el estado de una característica examinado a todos los elementos de una
población

Los censos rara vez se realizan debido al tiempo que demandan y a la cantidad de recursos que necesitan
por lo que se recurre a tomar datos del estado de la variable en algunos de los elementos de la población

MUESTRA
Es cuando se observa y registra el estado de una característica variable examinado a una parte de los
elementos que pertenecen a una población

Las muestras deben ser representativas y para esto se requiere que las características de la población estén
representadas en la muestra, en la misma proporción en que están incluidas en la población.

TAMAÑO DE LA MUESTRA
Es el número de elementos que componen la muestra. Se suele indicar con la letra n

EJEMPLO:
Para indicar que una muestra 350 elementos se indica así: n = 350

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página7


UNIDADES TECNOLÓGICAS DE SANTANDER

PARÁMETRO
Es el resultado de una medida o cálculo que se hace utilizando los datos relacionados con el valor que toma
una característica variable cuando se observan todos los elementos de una población, es decir, cuando se
hace un censo. Por ejemplo, la edad promedio de los niños que cursan primer grado, este año, en todas las
escuelas oficiales de la ciudad. El parámetro siempre es un valor constante.

ESTADÍSTICO
Es el resultado de una medida o cálculo que se hace utilizando los datos relacionados con el valor que toma
una característica variable cuando se observan algunos de los elementos de una población, o sea, una
muestra. Por ejemplo, la edad promedio de los niños de primer grado de algunas escuelas oficiales de la
ciudad escogidas al azar. El estadístico es un valor que varía de muestra en muestra

TIPOS DE ESTUDIOS ESTADÍSTICOS


Los estudios estadísticos pueden ser experimentales y de observación

En los estudios estadísticos experimentales el investigador controla o manipula una o varias variables con
el fin de determinar su comportamiento en determinadas condiciones

En los estudios estadísticos de observación el investigador registra el estado de la característica variable


que le interesa sin ejercer ninguna influencia sobre ella. El estudio estadístico de observación mas común es
la encuesta.

UNIDAD DE OBSERVACIÓN O DE INVESTIGACIÓN


Se llama Unidad de Observación o de Investigación a alguno de los siguientes conceptos:
 Al nombre genérico, que se le da a los elementos cuya característica se está registrando
 A la entidad que se investiga o de la que se recolectan los datos
 Al soporte de donde se extraen los datos

ESTADÍSTICAS
Es cualquier conjunto ordenado de datos como por ejemplo las estadísticas de un torneo de fútbol, las
estadísticas de ventas de una empresa o las estadísticas de accidentes

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página8


UNIDADES TECNOLÓGICAS DE SANTANDER

ARREGLO DE DATOS DE VARIABLE CONTINUA


INTRODUCCIÓN
Para visualizar las características de una situación representada por un conjunto de datos o establecer el
patrón de comportamiento de esta situación, los datos se deben organizar de alguna manera. La Estadística
propone una metodología que consiste en agrupar los datos recolectados en conjuntos de categorías o
clases estadísticas y con este conjunto construir una tabla que se llama Distribución de Frecuencias

CONCEPTO DE CLASE O CATEGORÍA


En general, una clase o categoría es un conjunto de elementos que tienen una o varias características en
común, por ejemplo, las personas que compiten en algún deporte pertenecen a la clase de los deportistas,
las personas mayores de 60 años pertenecen a la clase de la tercera edad

CLASE ESTADÍSTICA O CATEGORÍA ESTADÍSTICA


En estadística se llama clase, únicamente, a un conjunto de datos que están dentro de un intervalo
determinado de valores. Por ejemplo, para datos correspondientes a ingresos de personas podemos crear
una clase de las personas que tienen ingresos entre $500.000 y $800.000. Toda clase estadística tiene, por
lo tanto, un límite inferior ( $500.000 ), y un límite superior ( $800.000 )

AMPLITUD DE CLASE
Es la distancia o diferencia que hay entre los límites de una clase. En el ejemplo anterior la amplitud de la
clase de ingresos es de $300.000. Es decir, que para calcular la amplitud de clase se resta del límite
superior de la clase el límite inferior.

Para expresar estas ideas en símbolos, llamamos A a la amplitud de la clase, LS al límite superior de la clase
y LI al límite inferior de la clase, expresando aritméticamente la amplitud de la clase así:

A = LS – LI

Para el ejemplo: A = LS - LI = $800.000 - $500.000 = $300.000

Entonces, para visualizar las características de un conjunto de datos, la Estadística propone que se agrupen
estos datos en intervalos de valores o “clases”

CARACTERÍSTICAS DE LOS CONJUNTOS DE CLASES ESTADÍSTICAS


Un conjunto de clases o categorías es considerado como un conjunto de clases estadístico sí todas las
clases, del conjunto, tienen, simultáneamente, las siguientes tres características:
 Amplitud constante
 Mutuamente excluyentes
 Exhaustivas

Amplitud constante se refiere a que la amplitud de todas las clases de un conjunto de clases en que se
agrupa un determinado grupo de datos debe ser la misma para todo el conjunto.

Conjunto de clases mutuamente excluyentes se refiere a que cualquier dato, de un grupo de datos en
estudio, debe corresponder únicamente a una sola clase

Conjunto de clases exhaustivas cuando el conjunto de clases puede contener a todos los datos de una
muestra.

NÚMERO DE CLASES
Una de las primeras inquietudes que surge cuando se van a agrupar un conjunto de datos en clases
estadísticas es en cuantas clases es conveniente o adecuado agrupar estos datos. Hay varios criterios para
resolver este problema:
 El número de clases es determinado por una circunstancia deseable u obligante

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página9


UNIDADES TECNOLÓGICAS DE SANTANDER

 Determinar el número de clases de clases orientándose por una norma empírica de la estadística
 Determinar el número de clases utilizando la expresión empírica: No.C = 2 K
 Determinar el número de clases utilizando la expresión empírica: No.C = 1 + 3,3 log( n )
 Otros criterios

El primer caso se presenta, por ejemplo, cuando el estudio actual se va a comparar con un estudio anterior o
un estudio realizado por otro investigador. Entonces, para facilitar las comparaciones entre los dos estudios,
es deseable que los datos del estudio actual se agrupen con el mismo número de clases del estudio anterior

La norma empírica de la estadística indica que el número de clases en que se deben agrupar cualquier
conjunto de datos debe ser como mínimo 5 ó 6 clases y como máximo alrededor de 20 clases

En la expresión No.C = 2K, No.C es abreviatura de número de clases y K indica las clases en que, según
esta expresión, se deben agrupar los datos.

Por ejemplo, para un estudio contiene 155 datos esta expresión funciona así:

Sí K = 6 clases, entonces, No.C = 26 = 64 como 64 < 155 el número de clases igual a 6 no es conveniente
Sí K = 7 clases, entonces, No.C = 27 = 128 como 128< 155 el número de clases igual a 7 no es conveniente
Sí K = 8 clases, entonces, No.C = 28 = 256 como 256> 155 el número de clases igual a 8, según este
procedimiento, es al más adecuado para agrupar los 155 datos del estudio.

En la expresión No.C = 1 + 3,3 log( n ), No,C es también, abreviatura de número de clases, log se refiere
a logaritmo con base 10 y n es la cantidad de datos que se desean agrupar

Por ejemplo, para el estudio de 155 datos se tiene: No.C = 1 + 3,3 log(155) = 8,23, quiere decir que el
número conveniente de clases, para agrupar estos 155 datos es de 8 clases

Otros criterios pueden ser, por ejemplo, números de clases que hacen que los límites de las clases sean
muy fáciles de establecer o que las clases automáticamente queden mutuamente excluyentes.

EJEMPLO PRÁCTICO
La siguiente tabla se refiere a los galones de gasolina corriente que tanquearon la semana pasada, en un
autoservicio, una muestra de vehículos escogidos al azar

3,8 1,7 2,8 2,0 2,5 1,8 2,9 3,6 2,2 3,0
2,8 4,7 3,3 6,9 5,0 2,6 4,0 2,7 4,1 3,4
4,8 5,3 4,9 3,0 3,9 2,0 5,6 2,3 4,5 2,9
6,1 3,0 1,9 6,4 2,6 2,0 2,0 2,6 3,1

Este ejemplo es útil para fines de aprendizaje, porque en situaciones reales, se suelen manejar volúmenes
de datos muy superiores al del presente ejemplo

MÉTODO ESTADÍSTICO
Como se dijo al comienzo de este tema, para describir una situación representada por un conjunto de datos, como el
anterior, la estadística propone agrupar los datos en un conjunto de clases o categorías y con este conjunto construir una
tabla que se llama Tabla de Frecuencias o Distribución de Frecuencias. Para realizar este proceso se deben resolver, en
primera instancia, las siguientes preguntas:
 ¿En cuántas clases o categorías es más conveniente o se desea agrupar las datos recolectados?
 ¿Cuál es el tipo de variable relacionada con la situación o fenómeno en estudio?
 ¿Cómo se construyen estas clases o categorías?
 ¿Cómo se construye una Distribución de Frecuencias?

Para resolver estas preguntas se propone el siguiente procedimiento:

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página10


UNIDADES TECNOLÓGICAS DE SANTANDER

PROCEDIMIENTO PARA PRINCIPIANTES


1. Para establecer el número de clases:
 Por conveniencia
 Norma empírica
 Fórmulas exponencial o logarítmica
2. Tipo de variable relacionada con la situación en estudio
 (Revisar el tema en el módulo CONCEPTOS BÁSICOS)
3. Construcción de las clases o categorías
Existen muchas formas para realizar este paso. A continuación se propone una de ellas:
 Determinar los valores máximo y mínimo del conjunto de datos: Xmax y Xmin
 Calcular el Rango, R = Xmax – Xmin
 Calcular la amplitud de las clases A = R/ No.C
 Modificar la amplitud teniendo en cuenta los decimales de los datos ( Amod )
 Ajustar el rango ( Rmod ), para que coincida con la nueva amplitud modificada
 Ajustar Xmin o Xmax o ambos para que coincidan con el rango modificado
 Fijar el limite inferior de la primera clase
 Construir los límites de las clases
 Verificar que las clases cumplan con las tres características de las clases estadísticas
4. Construcción de la Distribución de frecuencias
 Establecer el número de observaciones dentro de cada clase ( FA ) ( tabla de conteo )
 Calcular la frecuencia relativa ( FR )
 Ajustar la frecuencia relativa para que la suma de igual a 1
 Calcular la frecuencia relativa acumulada ( FRA)

DESARROLLO DEL EJEMPLO


1. Determinar el número de clases
El número de clases se puede determinar de acuerdo a los siguientes criterios.
 Por conveniencia: Cuando exista alguna circunstancia que haga conveniente o deseable un
determinado número de clases

 Norma empírica: Se puede escoger cualquier número de clases entre 6 y 20 dependiendo del
criterio o preferencia personal del analista y se hacen varios tanteos hasta encontrar un número de
clases satisfactorio

 Aplicando las fórmulas exponencial o logarítmica

Aplicando la fórmula No.C = 2k


5
Para K = 5 entonces 2 = 32 < 39 quiere decir que 5 no es un número conveniente de clases
Para K = 6 entonces 26 = 64 > 39 quiere decir que 6 es el número conveniente de clases

Aplicando la fórmula No.C = 1 + 3,3log(n) = 1 + 3,3log (39) = 6,25 quiere decir que el número de clases
conveniente es de 6

2. Tipo de variable: En este caso es una variable continua


3. Construcción de las clases o categorías: Los pasos se presentan encuentran en la siguiente tabla y son
específicos para variable continua

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página11


UNIDADES TECNOLÓGICAS DE SANTANDER

TABLA No.1

ARREGLO DE DATOS CONTINUOS EN 6 CLASES

Xmax = 6,9 A = 0,86667 X´min = 1,5


Xmin = 1,7 Amod = 0,9
R = 5,2 Rmod = 5,4
No.C = 6 Rmod-R = 0,2

X´min se refiere al límite inferior de la primera clase

4. Construcción de la Distribución de Frecuencias: El resultado de este proceso se presenta en la tabla


No.2:

TABLA No.2 TABLA No.3


DISTRIBUCIÓN DE FRECUENCIAS
Menor
No. CLASES FA FAA FR FRA Que FRA
1 1,5 2,4 9 9 0,23 0,23 1,5 0
2 2,4 3,3 14 23 0,36 0,59 2,4 0,23
3 3,3 4,2 6 29 0,15 0,74 3,3 0,59
4 4,2 5,1 5 34 0,13 0,87 4,2 0,74
5 5,1 6,0 2 36 0,05 0,92 5,1 0,87
6 6,0 6,9 3 39 0,08 1,00 6,0 0,92
39 1,00 6,9 1,00
La tabla No.2 recibe el nombre de DISTRIBUCIÓN DE FRECUENCIAS o TABLA DE FRECUENCIAS y los
detalles de su construcción serán explicados por el docente en la exposición que haga sobre este tema y el
significado de las columnas FA, FR y FRA se expone a continuación

LA TIPOS DE FRECUENCIAS
Los tipos de frecuencias que se presentan en la tabla No.2 son los siguientes:

 Frecuencia Absoluta FA: Es la cantidad de datos de la muestra que corresponden a cada clase. Se
obtiene por conteo
 Frecuencia Absoluta Acumulada FAA: Se obtiene, para cada clase, sumando la frecuencia absoluta
de la clase, FA, con la frecuencia absoluta de la clase anterior

 Frecuencia Relativa FR: Se calcula, para cada clase, dividiendo la frecuencia absoluta de la clase, FA,
entre el total de datos de la muestra. Es práctico que los valores de la frecuencia relativa se tomen con
dos decimales y su suma se ajuste para que dé exactamente uno

 Frecuencia Relativa Acumulada FRA: Se calcula, para cualquier clase, sumando la frecuencia relativa
de la clase, FR, con la frecuencia relativa de la clase anterior

LECTURA DE LA DISTRIBUCIÓN DE FRECUENCIAS


Esta tabla permite describir la situación histórica de la venta de gasolina en esta estación de servicio, por
ejemplo, la mayoría de los vehículos de la muestra, un 36%, tanquearon entre 2,4 y 3,3 galones de
gasolina, el 5% de los vehículos de la muestra tanquearon entre 5,1 y 6,0 galones de gasolina y fue la clase
con menor frecuencia de tanqueo. Solamente tres vehículos de la muestra tanquearon más de 6,0 galones.

LA TABLA MENOR QUE


Es una tabla auxiliar que se construye a partir de las distribuciones de frecuencias acumuladas, FAA y FRA,
con el fin de facilitar la descripción de la situación utilizando estas frecuencias. Esta tabla se encuentra al

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página12


UNIDADES TECNOLÓGICAS DE SANTANDER

lado de la tabla de distribución de frecuencias y se utilizó, en este caso, la columna de frecuencia relativa
acumulada.
Observando esta tabla se puede ver que el 59% de los vehículos de la muestra tanquearon menos de 3,3
galones de gasolina o que el 13% de los vehículos de la muestra tanquearon mas de 5,1 galones

REPRESENTACIÓN GRÁFICA DE LA SITUACIÓN EN ESTUDIO


La Estadística Descriptiva utiliza tres tipos de gráficos para representar cualquier situación o fenómeno en
estudio:
 El histograma
 El polígono de frecuencias
 La ojiva

Estos gráficos permiten visualizar de manera fácil y rápida los resultados que se presentan en la distribución
de frecuencias

EL HISTOGRAMA
Es un gráfico de frecuencia absoluta, FA o la frecuencia relativa, FR, donde las clases se representan
mediante rectángulos. El siguiente histograma se refiere al ejemplo práctico y se utilizó la frecuencia relativa

HISTOGRAMA
0,40 0,36
0,35
FRECUENCIA RELATIVA

0,30
0,25 0,23

0,20
0,15
0,15 0,13

0,10 0,08
0,05
0,05
0,00
1.5 2.4 3.3 4.2 5.1 6.0 6.9

GALONES

EL POLÍGONO DE FRECUENCIAS
Se hace a partir del histograma uniendo las marcas de clase proyectadas sobre el lado superior de los
rectángulos y agregando, para cerrar la figura, dos clases adicionales, una, por encima del límite superior de
la clase más alta y la otra, por debajo del límite inferior de la clase más baja

Para construir el polígono de frecuencias necesitamos introducir el concepto de Marca de Clase

MARCA DE CLASE
Es el punto medio de una clase. Se calcula sumando los límites de cada clase y dividiendo este total por 2.
El símbolo que usualmente se utiliza para representar la marca de clase es Xi

La expresión matemática de la marca de clase es:

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página13


UNIDADES TECNOLÓGICAS DE SANTANDER

𝐿𝑆 + 𝐿𝐼
Xi =
2
Donde LS es el límite superior de la clase y LI es el límite inferior de la clase. Por ejemplo, para construir la
marca de clase de la primera clase se procede así:

1,5 + 2,4
Xi = = 1,95
2

Las marcas de clase se utilizan, también, cuando se requiere representar todos los valores de una clase por
un solo número. Por ejemplo, 1,95 galones representa todos los valores de la muestra que se encuentran
entre 1,5 galones y 2,4 galones

Se puede construir, entonces, con las marcas de clase, una tabla auxiliar de cálculos que permita elaborar
fácilmente el polígono de frecuencias, como se presenta a continuación:
TABLA AUXILIAR DE CÁLCULOS
Marca de
No. CLASES clase FR
0 0,6 1,5 1,05 0,00
1 1,5 2,4 1,95 0,23
2 2,4 3,3 2,85 0,36
3 3,3 4,2 3,75 0,15
4 4,2 5,1 4,65 0,13
5 5,1 6,0 5,55 0,05
6 6,0 6,9 6,45 0,08
7 6,9 7,8 7,35 0,00
Obsérvese que la tabla tiene ahora 8 clases porque se han agregado dos clases, la número cero y la número
7. A estas clases se les llama clases falsas porque no hay observaciones para ellas; su finalidad es
presentar el polígono de frecuencias como una figura cerrada
POLÍGONO DE FRECUENCIAS
0,40 0,36
0,35
FRECUENCIA RELATIVA

0,30
0,23
0,25

0,20
0,15
0,13
0,15
0,08
0,10
0,05
0,05
0,00 0,00
0,00
1,05 1,95 2,85 3,75 4,65 5,55 6,45 7,35
GALONES

Tanto el histograma como el polígono de frecuencias permiten visualizar algunas de las características de la
situación o fenómeno que se está estudiando, tales como:

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página14


UNIDADES TECNOLÓGICAS DE SANTANDER

 El rango de los datos


 Alrededor de qué valores tienden a agruparse los datos
 Valores de la muestra que se presentan con más o menos frecuencia
 A qué lado de la gráfica parecen agruparse más los datos

Los demás detalles de la construcción del polígono de frecuencias serán explicados por el docente en la
exposición que haga sobre este tema

COMO INTERPRETAR UN HISTOGRAMA O UN POLÍGONO DE FRECUENCIAS


Los histogramas y los polígonos de frecuencias facilitan a las personas que tienen que tomar decisiones
sobre una determinada situación una visión rápida del comportamiento y características de la situación que
se estudia. Algunas de las preguntas que se pueden responder observando estas gráficas son:
 ¿Cuál es el rango de los datos?
 ¿En qué clases se concentran el mayor número de datos?
 ¿Cuál clase contiene menos datos?
 ¿Qué valores de la muestra se presentan con más o menos frecuencia?
 ¿A qué lado de la gráfica parecen concentrarse más los datos?
 ¿Se presentan huecos o clases vacías?
 ¿Se presentan valores aislados de los demás?
 ¿La gráfica presenta subidas o bajadas bruscas o suaves?
 ¿Cuántos picos tiene la gráfica?
 ¿Es simétrica la gráfica?

LA OJIVA
La ojiva es un gráfico de frecuencias acumuladas que describe que cuantas unidades o qué porcentaje de
unidades se encuentran por encima o por debajo de un determinado valor de la variable.

Este gráfico se construye a partir de la tabla MENOR QUE, utilizando la frecuencia absoluta acumulada, FAA
o la frecuencia relativa acumulada, FRA. En el gráfico que se presenta a continuación se utilizó la frecuencia
relativa acumulada.

OJIVA
1,2
FRECUENCIA RELATIVA ACUMULADA

1,00
1 0,92
0,87

0,8 0,74

0,59
0,6

0,4
0,23
0,2
0
0
1,5 2,4 3,3 4,2 5,1 6,0 6,9
GALONES

Los detalles sobre la construcción de estos gráficos serán explicados por el docente en la exposición que
haga sobre este tema

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página15


UNIDADES TECNOLÓGICAS DE SANTANDER

LA INTERPOLACIÓN
En general, la interpolación, es un método de cálculo para establecer el valor de la ordenada de un valor de
la variable que se encuentra “dentro” de otros valores ya calculados en una tabla. En el caso de la
Estadística Descriptiva, se utiliza para calcular valores de la frecuencia absoluta acumulada, FAA o de la
frecuencia relativa acumulada, FRA, correspondientes a valores de la variable que no se encuentran en la
tabla MENOR QUE, pero que están dentro de los valores mínimo y máximo recolectados en el estudio.

Por ejemplo, si se quiere saber qué porcentaje de los vehículos tanquearon mas de 4,8 galones de gasolina,
al buscar este valor en la tabla MENOR QUE se detecta que aunque no está tabulado, se encuentra entre
los valores de la variable 4,2 y 5,1 galones. Con esta información se pueden disponer los datos existentes y
los buscados de la siguiente manera:

X0 =4,2 Y0 = 0,74
X1 = 4,8 Y1= ?
X2 = 5,1 Y2 = 0,87
La expresión matemática que permite realizar el cálculo de interpolación es la siguiente:

(𝑋1 −𝑋0 )
Y´1= Y0 + (Y2 - Y0)
(𝑋2 −𝑋0 )

Reemplazando los símbolos por los valores se tiene:

( 4,8 −4,2 )
Y´1= 0,74 + ( 0,87 - 0,74 ) = 0,827 ≈ 0,83
( 5,1 − 4,2 )

Esto quiere decir que el 83% de los vehículos de la muestra tanquearon menos de 4,8 galones, pero, como
se quiere saber es que porcentaje tanqueómas de 4,8 galones, se debe restar el resultado anterior de 1

1 - 0,83 = 0,17 = 17% = porcentaje de vehículos de la muestra que tanquearon mas de 4,8 galones

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página16


UNIDADES TECNOLÓGICAS DE SANTANDER

ARREGLO DE DATOS DE VARIABLE DISCRETA

PROCEDIMIENTO PARA PRINCIPIANTES


1. Para establecer el número de clases:
 Por conveniencia
 Norma empírica
 Fórmulas exponencial o logarítmica
2. Tipo de variable relacionada con la situación en estudio
 (Revisar el tema en el módulo CONCEPTOS BÁSICOS)
3. Construcción de las clases o categorías
Este procedimiento es específico para variable discreta como se muestra a continuación:
 Determinar los valores máximo y mínimo del conjunto de datos: Xmax y Xmin
 Calcular el Rango, R = Xmax – Xmin
 Calcular la amplitud de las clases A = R/ No.C
 Modificar la amplitud eliminando la parte decimal del número calculado en el paso anterior ( Amod )
 Utilizar Xmin como el límite inferior de la primera clase
 Construir los límites de las clases
Al construir las clases con este procedimiento automáticamente quedan con las tres condiciones de las
clases estadísticas, es decir, de amplitudes constantes, mutuamente excluyentes y exhaustivas.
4. Construcción de la Distribución de frecuencias
 Establecer el número de observaciones dentro de cada clase ( FA ) ( tabla de conteo )
 Calcular la frecuencia relativa ( FR )
 Ajustar la frecuencia relativa para que la suma de igual a 1
 Calcular la frecuencia relativa acumulada ( FRA)

EJEMPLO PRÁCTICO
Una muestra de 41 días del número de transacciones que se realizan por día un cajero automático se
presenta en la siguiente tabla:

73 68 76 71 60 41 91 67 85
83 56 79 62 64 87 66 74
87 91 78 49 91 72 63 68
47 81 54 90 77 63 52 75
80 84 36 67 51 45 61 57

DESARROLLO DEL EJEMPLO


1. Establecer el número de clases
 Por conveniencia: No existe, en este caso, ninguna circunstancia que haga conveniente o deseable
un determinado número de clases

 Norma empírica: Se puede escoger cualquier número de clases entre 5 y 20 dependiendo del
criterio o preferencia personal del analista y se hacen varios tanteos hasta encontrar un número de
clases satisfactorio

 Aplicando las fórmulas exponencial o logarítmica: Utilizando la expresión logarítmica se tiene:

No.C = 1 + 3,3 log (41) = 6,3 que indica que un número conveniente de clases para esta cantidad de datos
es de 6 clases.

2. Tipo de variable: En este caso es una variable discreta


3. Construcción de las clases o categorías: Los pasos se presentan encuentran en la siguiente tabla y son
específicos para variable discreta

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página17


UNIDADES TECNOLÓGICAS DE SANTANDER

Xmax = 91
Xmin = 36
R = 55
No.C = 6
A = 9,16667
Amod = 9

En el cálculo anterior se puede observar que para construir la amplitud modificada, se borra toda la parte
decimal de la amplitud, A, calculada

Cuando la amplitud modificada es un número impar, las marcas de clase, que se utilizan para representar a
las clases, son valores fraccionarios, como ocurre en este ejemplo; esta situación es incómoda porque no
refleja la realidad en los casos de variable discreta, por lo que se prefiere agrupar los datos en clases que
sean de amplitud par, como se presenta a continuación, para el mismo ejemplo, donde la amplitud se cambió
de 9 transacciones por día a 8 transacciones por día, esto hace que el número de clases pase de 6 a 7

Amod = 8

4. Construcción de la Distribución de Frecuencias: El resultado de este proceso se presenta en la tabla


No.4:
TABLA No.4 TABLA No.5
Menor
No. CLASES FA FR FRA Que FRA
1 36 44 2 0,05 0,05 36 0
2 45 53 5 0,12 0,17 45 0,05
3 54 62 6 0,14 0,31 54 0,17
4 63 71 9 0,22 0,53 63 0,31
5 72 80 9 0,22 0,75 72 0,53
6 81 89 6 0,15 0,90 81 0,75
7 90 98 4 0,10 1,00 90 0,90
41 1,00 99 1,00

Se observa, también, que el límite inferior de cada clase es igual al límite inferior de la clase anterior más
uno. También se puede ver que el límite superior de la última clase, (98), no coincide con el Xmax, (91), de
los datos y el límite inferior de la primera clase es el Xmin (36), de los datos.

Las clases construidas de esta manera se llaman CLASES CERRADAS, porque en cada clase se
contabilizan todos los datos incluidos entre los dos límites de la clase. Sin embargo, estas clases, como se
puede observar, son de amplitudes constantes, mutuamente excluyentes y exhaustivas.

También se observa que la tabla MENOR QUE, se construye de manera un poco distinta a como se hizo
para el caso de variable continua, nótese que el último valor de la columna Menor Que, no es igual al límite
superior de la última clase, sino a ése valor más uno .

REPRESENTACIÓN GRÁFICA

HISTOGRAMA
Para el caso de variable discreta el histograma, recibe también el nombre de DIAGRAMA DE FRECUENCIAS y
en él las clases se encuentran separadas, como se ve en el siguiente gráfico:

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página18


UNIDADES TECNOLÓGICAS DE SANTANDER

DIAGRAMA DE FRECUENCIAS
0,25
0,22 0,22

0,2
Frecuencia Relativa

0,15
0,15 0,14
0,12
0,1
0,1

0,05
0,05

0
36 44 45 53 54 62 63 71 72 80 81 89 90 98
Número de transacciones

Con frecuencia, en lugar de identificar cada clase con sus límites de clase, es más práctico utilizar la marca
de clase, como se muestra en este gráfico, a continuación

Diagrama de Frecuencias
0,25
0,22 0,22

0,20
Frecuencia relativa

0,15
0,15 0,14
0,12
0,10
0,10
0,05
0,05

0,00
40 49 58 67 76 85 94
Número de transacciones

Ahora es mucho más fácil leer el diagrama de frecuencias, por ejemplo, en el 14% de los días de la muestra
se realizaron 58 transacciones, el número de transacciones por día menos frecuente, en la muestra, fue de
40 transacciones por día

POLÍGONO DE FRECUENCIAS
Se construye de la misma manera, a partir del diagrama de frecuencias y las marcas de clase, como se hizo
en el caso de variable continua. Nótese que en esta gráfica se presenta una distorsión debido a que las
clases no son adyacentes

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página19


UNIDADES TECNOLÓGICAS DE SANTANDER

Polígono de Frecuencias

0,25 0,22 0,22

0,2
Frecuencia Relativa

0,15
0,14
0,15 0,12
0,10
0,1
0,05
0,05
0 0,00
0
31 40 49 58 67 76 85 94 103
Número de Transacciones

OJIVA
Cuando la variable es discreta, como en este caso, la ojiva se construye de forma diferente, porque la
variable sólo toma valores enteros, aunque, aquí también, este gráfico se construye a partir de la tabla
MENOR QUE

OJIVA

1,2
Frecuencia Relativa Acumulada

1,00
1 0,9

0,8 0,75

0,6 0,53

0,4 0,31
0,17
0,2
0,05
0
36 45 54 63 72 81 90 99

Número de transacciones

Los detalles sobre la construcción de este gráfico serán explicados por el docente en la exposición que haga
sobre este tema

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página20


UNIDADES TECNOLÓGICAS DE SANTANDER

ARREGLO DE DATOS PARA VARIABLE DISCRETA EN CLASES DE AMPLITUD


CERO

Cuando el intervalo de valores que toma la variable es reducido y la variable es discreta, es más práctico
agrupar los datos en clases de amplitud cero, como se muestra en el siguiente caso. Aquí X simboliza los
valores que toma la variable que son al mismo tiempo las clases estadísticas. Estas clases cumplen con las
tres características de una clase estadística: son de amplitud constante, son mutuamente excluyentes y son
exhaustivas

EJEMPLO
Se tomó una muestra de 60 facturas registrando el número de errores por factura. Los resultados se
presentan en la siguiente tabla:

1 0 1 2 0 0 1 0 0 1
2 1 1 1 0 1 4 0 0 0
0 3 0 0 1 0 1 2 2 0
4 1 1 0 0 0 1 0 0 1
2 2 0 3 3 1 0 2 2 0
0 0 3 1 2 2 0 1 1 1

MENOR
X FA FR FAA FRA QUE FRA
0 25 0,42 25 0,42 0 0
1 19 0,31 44 0,73 1 0,42
2 10 0,17 54 0,90 2 0,73
3 4 0,07 58 0,97 3 0,90
4 2 0,03 60 1,00 4 0,97
60 1,00 5 1,00
Diagrama de Frecuencias
30
25
25
No. de facturas

19
20

15
10
10
4
5 2
0
0 1 2 3 4
No. de errores

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página21


UNIDADES TECNOLÓGICAS DE SANTANDER

ARREGLO DE DATOS CUALITATIVOS


Cuando la variable es cualitativa, el arreglo y presentación de datos estadístico es limitado. Sólo se pueden
construir distribuciones de frecuencias con las frecuencias absolutas y relativas y diagramas de frecuencias.
Adicionalmente, se utilizan en estos casos otros tipos de gráficos como se presenta en el siguiente ejemplo:

EJEMPLO
Se interrogó a una muestra de clientes de una cafetería sobre el tipo de bebida gaseosa que prefieren
obteniéndose los siguientes resultados:

Cocacola Quatro Pepsicola Cocacola Postobón Link Postobón


Postobón Pepsicola Seven Up Pepsicola Cocacola Cocacola Quatro
Quatro Link Cocacola Postobón Pepsicola Sprite Pepsicola
Sprite Cocacola Postobón Cocacola Postobón Cocacola Postobón
Cocacola Quatro Pepsicola Link Cocacola Postobón Sprite

No. CLASES FA FR
1 Cocacola 10 0,29
2 Link 3 0,09
3 Pepsicola 6 0,17
4 Postobón 8 0,23
5 Quatro 4 0,11
6 Seven Up 1 0,03
7 Sprite 3 0,08
35 1,00
Diagrama de Frecuencias
0,35
0,29
0,3
Frecuencia Relativa

0,25 0,23

0,2 0,17
0,15
0,11
0,09 0,08
0,1
0,05 0,03

0
Cocacola Link Pepsicola Postobón Quatro Seven Up Sprite
Tipo de bebida

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página22


UNIDADES TECNOLÓGICAS DE SANTANDER

Diagrama Circular

Seven Up
3%
Sprite
8%
Quatro Cocacola
11% 29%

Postobón
Link
23%
9%
Pepsicola
17%

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página23


UNIDADES TECNOLÓGICAS DE SANTANDER

UNIDAD 2: MEDIDAS DE TENDENCIA CENTRAL, DE POSICIÓN Y DE


DISPERSIÓN
MEDIDAS DE TENDENCIA CENTRAL

1. FORMAS ESTADÍSTICAS DE DESCRIBIR UN FENÓMENO


Anteriormente se vio que los fenómenos o hechos se pueden describir con tablas y gráficos pero, también se
pueden describir con números

2. CONCEPTO DE MEDIDA EN ESTADÍSTICA


En estadística se llama medida a un cálculo u operación que se realiza sobre un conjunto de datos para
extraer alguna información

EJEMPLOS
 Calcular la estatura promedio de un grupo de personas
 Hallar la diferencia entre el mayor y el menor valor de un conjunto de datos
 Establecer el valor que más se repite dentro de un conjunto de datos

3. PARÁMETROS Y ESTADÍSTICOS
En la unidad anterior se vio que los cálculos o medidas que se realizan con los datos referidos a una
situación pueden clasificarse de dos maneras:
Parámetros: Cuando el cálculo se realiza con todos los datos de la población. Los parámetros son valores
constantes
Estadísticos: Cuando el cálculo se realiza con una parte de los datos de la población, es decir, una
muestra. Los estadísticos son variables

4. CLASES DE MEDIDAS EN ESTADÍSTICA


En estadística existen tres clases de medidas:
 Las medidas de tendencia central
 Las medidas de tendencia no central o de posición
 Las medidas de dispersión

5. LAS MEDIDAS DE TENDENCIA CENTRAL


Son tres valores, con cada uno de los cuales, se pretende describir, parcialmente, el comportamiento de una
muestra o de una población.

Las medidas tendencia central, reciben este nombre porque al representar el resultado de un cálculo en un
gráfico de una distribución de frecuencias (histograma o polígono de frecuencias), el valor calculado siempre
se sitúa hacia el centro de la gráfica.

6. LAS MEDIDAS DE DISPERSIÓN


Las medidas de dispersión son cálculos o valores que indican que tan concentrados están los datos
alrededor de un valor especial que se toma como referencia

7. MEDIDAS PARA POBLACIONES Y MEDIDAS PARA MUESTRAS


Las medidas de tendencia central y de dispersión pueden clasificarse como Parámetros o Estadísticos,
según sea que los datos utilizados correspondan a una población o a una muestra.

Los cálculos de las medidas de tendencia central y de dispersión para poblaciones, en algunos casos, son
diferentes de los cálculos de las medidas de tendencia central y de dispersión para muestras, por lo que se
utilizan, en estos casos, símbolos diferentes para cada tipo de medida.

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página24


UNIDADES TECNOLÓGICAS DE SANTANDER

8. CLASES DE MEDIDAS DE TENDENCIA CENTRAL


Existen tres clases de medidas de tendencia central:
 La media aritmética o promedio
 La mediana
 La moda

9. LA MEDIA ARITMÉTICA
Existen dos tipos de media aritmética: la Media Aritmética Simple y la Media Aritmética Ponderada. A la
media aritmética simple se le llama usualmente La Media y la forma de calcularla depende de sí los datos
están o no agrupados en clases.

9.1 MEDIA ARITMÉTICA PARADATOS NO AGRUPADOS


La media aritmética, para datos no agrupados, se calcula sumando los valores registrados de la variable en
estudio y dividiendo entre el total de estos valores registrados. La expresión matemática de este cálculo
tiene dos presentaciones: una sí los datos registrados corresponden a una población y otra sí los datos
corresponden a una muestra, tal como se indica a continuación.

µ=
 Xi Para Poblaciones ̅=
𝑿
 Xi Para Muestras
N n
El significado de los símbolos es el siguiente:
µ Es la letra del alfabeto griego “mu”, simboliza la media aritmética calculada para una población
̅ Se lee equis trazo o equis barra, simboliza la media aritmética calculada para una muestra
𝑿
N Es el número de valores que toma la variable, en estudio, en la población
n Es el número de valores que toma la variable, en estudio, en la muestra
𝑿𝒊 Es cada uno de los valores que toma la variable en la muestra o en la población

EJEMPLO
Las comisiones que un vendedor ha recibido en los 6 primeros meses del año se presentan en la siguiente
tabla:

Ingresos La expresión para calcular la media aritmética indica


que se deben sumar todos los valores que toma la
MES (Miles de $ ) variable y dividir por el número de datos
Enero 800
Febrero 950 800+950+920+1000+830+900
𝑥̅ =
Marzo 920 6
Abril 1000
Mayo 830
𝑥̅ = $900 miles
Junio 900 Como esta forma de cálculos es poco práctica se
Calcular la media aritmética e suman, mejor, los datos en columna como se muestra a
interpretar el significado continuación

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página25


UNIDADES TECNOLÓGICAS DE SANTANDER

SOLUCIÒN:

Ingresos
MES (Miles de $ ) ∑ 𝑥𝑖 = 5400
Enero 800
∑ 𝑥𝑖 5400
Febrero 950 𝑥̅ = = = $900 𝑚𝑖𝑙𝑒𝑠
𝑛 6
Marzo 920
Abril 1000 Interpretación: La media aritmética es el mismo
Mayo 830 promedio y es como sí en cada uno de los 6 meses el
comisionista hubiera ganado $900.000
Junio 900
Suma 5400

9.2 MEDIA ARITMÉTICA PARA DATOS AGRUPADOS


La media aritmética se calcula sumando los productos de las marcas de clase por sus respectivas
frecuencias absolutas y dividiendo esta suma por el número total de datos registrados

µ=
 XiFAi Para Poblaciones ̅=
𝑿
 XiFAi Para Muestras
N n
el significado de los símbolos es el siguiente:
µ Es la letra del alfabeto griego “mu”, simboliza la media aritmética calculada para una población
̅ Se lee equis trazo o equis barra, simboliza la media aritmética calculada para una muestra
𝑿
N Es el tamaño de la población
n Es el tamaño de la muestra
𝑋𝑖 Es la marca de clase de cada una de las clases en que se han agrupado los datos
𝐹𝐴𝑖 Es la frecuencia absoluta de cada una de las clases en que se han agrupado los datos

EJEMPLO
Una muestra del valor de las facturas, en miles de pesos, que se cancelan con tarjetas de crédito en una
cadena de almacenes de modas se presenta en la siguiente tabla:

Como se debe calcular la marca de clase de cada clase y


Ventas No. de multiplicar cada uno de esto valores por su respectiva
frecuencia absoluta, estas operaciones es más práctico
(Miles de $) Facturas realizarlas en forma tabular, como se muestra a
30 36 25 continuación:
36 42 38
42 48 49 Ventas No. de
(Miles de $) Facturas Xi XiFAi
48 54 51
30 36 25 33 825
54 60 32
36 42 38 39 1.482
60 66 29
42 48 49 45 2.205
224
Calcular la media aritmética e 48 54 51 51 2.601
interpretar el significado 54 60 32 57 1.824
60 66 29 63 1.827
224 10.764

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página26


UNIDADES TECNOLÓGICAS DE SANTANDER

SOLUCIÒN:
El total de la cuarta columna es ∑ 𝑥𝑖 𝐹𝐴𝑖 = 10.764 y el total de datos, n, es 224, por lo que la media aritmética
buscada es:

10.764
𝑥̅ = = $48.054 miles
224

Interpretación: El valor de promedio de cada factura pagada con tarjeta de crédito es de $48.054 miles, que
es como si cada factura fuera de este valor

9.3 SIGNIFICADO DE LA MEDIA ARITMÉTICA


La media aritmética o promedio calculada para un conjunto de datos significa que al remplazar el valor
promedio por cada uno de los datos se obtiene el mismo resultado general

10. MEDIA ARITMÉTICA PONDERADA


Existen situaciones en las cuales los datos registrados sobre una situación traen in formación adicional que
indica que estos valores no tienen la misma importancia relativa, como se presenta en el siguiente caso:

EJEMPLO
Las notas obtenidas por un estudiante en 3 quices de un corte y las notas finales, del semestre, extraídas del
polígrafo correspondiente, se presentan en la siguiente tabla:

PRUEBA NOTA NOTA


Quiz No.1 3.5 ASIGNATURA FINAL CRÉDITOS
Quiz No.2 4.1 A 4.9 2
Quiz No.3 2.4 B 3.1 4
Promedio 3.3 C 3.0 3

En el caso de los quices no existe ninguna información que permita pensar que estas tres notas tienen
diferente nivel de importancia, por lo que su promedio se puede calcular utilizando la fórmula de la media
para datos no agrupados, lo que no ocurre para el caso del polígrafo donde, por ejemplo, la nota de la
asignatura B vale el doble que la nota de la asignatura A; en casos como este, para calcular el promedio, se
utiliza una variante de la media aritmética que recibe el nombre de Media Aritmética Ponderada o Promedio
Ponderado, cuya expresión matemática es la siguiente:
∑ Xi Wi
p = Media aritmética ponderada
∑ Wi

p Es el símbolo de la media ponderada


xi Representa los valores que toma la variable. En el ejemplo, las notas (4.9, 3.1 y 3.0)
𝑊𝑖 Representa el valor relativo de cada uno de los datos, llamados Factores de Ponderación. En el
ejemplo, los créditos de cada una de las asignaturas (2, 4 y 3)

Aplicando la fórmula al ejemplo se tiene:

NOTA
FINAL CRÉDITOS ∑ Xi Wi = 31.2
ASIGNATURA Xi Wi XiW i
A 4,9 2 9,8 ∑ Wi = 9
B 3,1 4 12,4
C 3.0 3 9.0 𝑋̅P = 3.47
Suma 9 31,2

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página27


UNIDADES TECNOLÓGICAS DE SANTANDER

Sí para este caso del polígrafo el promedio se calculara como media aritmética simple, ignorando la
información de los créditos, este cálculo daría 3.7 que es diferente del promedio ponderado que da un valor
de 3.47

11. PROPIEDADES DE LA MEDIA ARITMÉTICA


 El cálculo de la media aritmética tiene en cuenta todos los valores de la variable en estudio registrados
 A todas las variables cuantitativas se les puede calcular la media aritmética
 Un conjunto de datos sólo tiene una media
 La media permite hacer comparaciones entre poblaciones o muestras
 La media se puede trabajar matemáticamente
 La media es afectada por los valores extremos
 No se puede calcular la media en distribuciones de frecuencias que tienen clase de extremo abierto

12. LA MEDIA GEOMÉTRICA


En muchas situaciones los datos se presentan en valores relativos tales como porcentajes o proporciones.
En tales casos el procedimiento de cálculo de la media, que se ha estado utilizando hasta ahora, puede
apartarse de los resultados reales sí la variabilidad de los datos es alta.

12.1 CÁLCULO DE LA MEDIA GEOMÉTRICA


Existe, entonces, una expresión matemática especial para calcular promedios en los casos en que los datos
provengan de tasas de interés, porcentajes o números índices, entre otros. A este expresión matemática se
le llama la media geométrica y se suele representar por la letra G

G = n ( FC1)( FC 2)( FC 3)......... ...( FCn )

G Es el símbolo de la media geométrica

FC1, FC2…..FCn se llaman Factores de Crecimiento

El índice de la raíz depende del número de factores de crecimiento. Sí los factores de crecimiento son 2, la
raíz es cuadrada, sí los factores de crecimiento son 6 la raíz es sexta y así sucesivamente.

Los factores de crecimiento, FCi, se determinan con la siguiente expresión:

𝑉𝑎𝑙𝑜𝑟𝑒𝑛𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒
FC = 1 +
100

Como el valor en porcentaje se llama comúnmente Tasa, la expresión, más apropiada, para el Factor de
Crecimiento es:

𝑇𝑎𝑠𝑎
FC = 1 +
100

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página28


UNIDADES TECNOLÓGICAS DE SANTANDER

EJEMPLO
La rentabilidad de un título valor ha estado variando en las últimas semanas como se presenta en la
siguiente tabla:

Para aplicar la fórmula, las tasas de


Renta- rentabilidad se deben convertir a factores de
crecimiento
Semana bilidad
Renta-
1 3%
Semana bilidad FC
2 1%
1 3% 1,03
3 -2%
2 1% 1,01
4 0,7%
3 -2% 0,98
5 1,5%
4 0,7% 1,007
6 1%
¿A qué tasa promedio semanal ha estado 5 1,5% 1,015
variando la rentabilidad de este título? 6 1% 1,01

Con los factores de crecimiento, de la tercera columna, se calcula G


6
G= √(1.03)(1.01)(0.98)(1.007)(1.015)(1.01)

G = 1.008557 (Factor de crecimiento promedio)

Como las unidades de este cálculo son Factores de Crecimiento, para convertir este resultado en tasa, se
despeja ésta de la última fórmula

𝑇𝑎𝑠𝑎
FC = 1 + ====>Tasa = ( FC – 1 )x100
100

Por lo tanto:
Tasa promedio = (1.00856 – 1 ) x 100 = 0.856% ≅ 0.9%

Respuesta: El título ha estado aumentado a una tasa promedio del 0.9% semanal

Cuando los datos se presentan en valores absolutos, pero, se debe calcular un porcentaje promedio, los
factores de crecimiento se determinan como se indica en el siguiente ejemplo:

EJEMPLO
Las ventas anuales de una empresa, en millones de pesos, se presentan en la tabla No.1. ¿A qué tasa
promedio anual están variando las ventas de esta empresa?
TABLA No.1 Obsérvese que se pide la tasa promedio de
Ventas crecimiento, que es un valor relativo y no la
(Millone venta promedio anual, que es un valor
AÑO s) absoluto.
Para convertir las ventas, que son valores
2001 68 absolutos, en factores de crecimiento, se
2002 75 divide el valor de un periodo cualquiera entre
2003 32 el valor del periodo inmediatamente anterior.
2004 59 Por ejemplo, el factor de crecimiento del año
2005 73 2004 se consigue dividiendo 59 entre 32
2006 92 Los demás cálculos se muestran en la tabla
No.2
2007 108
TABLA No.2 Obsérvese que no se puede calcular el factor de crecimiento

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página29


UNIDADES TECNOLÓGICAS DE SANTANDER

Ventas del año 2001 porque no se conocen las ventas del año 2000.
(Millone
AÑO s) FC Con los datos de la tercera columna, FC, se calcula G
2001 68
G = 6√(1.1029)(0.4267)(1.8438)(1.2373)(1.2603)(1.1739)
2002 75 1,1029
2003 32 0,4267 G = 1.08017 (Factor de Crecimiento promedio)
2004 59 1,8438
Tasa Promedio = (1.08017 – 1) x 100 = 8.017%
2005 73 1,2373
2006 92 1,2603 Respuesta: Las ventas están creciendo a una tasa promedio
2007 108 1,1739 del 8% anual

También se puede calcular la media geométrica para el caso de valores que varían en función del tiempo y
sólo se conocen los valores iníciales y finales del periodo, como se puede ver en el siguiente ejemplo:

EJEMPLO
Una persona invirtió $25 millones a 3 años, recibiendo al final de este periodo la suma de $33,306 millones
¿A qué tasa promedio mensual creció esta inversión?

La expresión de la media geométrica para casos como este es la siguiente:


valor final
G= n
valor inicial

Donde n es el número de periodos de tiempo durante el intervalo de la inversión

Para el caso del ejemplo la expresión se aplica así:

36 33.306
G= √ = 1.00800 (Factor de Crecimiento promedio)
25

Como la tasa que se pide es mensual el número de periodos es 36, por lo tanto, el índice de la raíz es 36

Para calcular la tasa promedio se aplica la expresión:

Tasa = ( FC – 1 )x100

Tasa promedio = (1.008 – 1) x 100

Tasa promedio = 0.8%


Es decir, la inversión está creciendo, en promedio al 0.8% mensual.

12.2 PROPIEDADES DE LA MEDIA GEOMÉTRICA


La media geométrica siempre es menor o igual a la media aritmética, es decir: G ≤ 𝑋̅

12.3 USOS DE LA MEDIA GEOMÉTRICA


La media geométrica se utiliza para calcular promedios de cantidades expresadas en porcentajes o en
proporciones

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página30


UNIDADES TECNOLÓGICAS DE SANTANDER

13. LA MEDIANA
La mediana es el valor que ocupa la posición central de un conjunto de datos cuando estos están ordenados
de menor a mayor.

Para aclarar este concepto veamos el siguiente ejemplo:

EJEMPLO
La siguiente tabla presenta las notas obtenidas por una muestra de estudiantes en un examen

ESTUDIANTE NOTA ESTUDIANTE NOTA


R. Martínez 4.3 L. Rueda 2.9
P. Ardila 1.7 J. Zárate 4.0
M. Castellanos 3.8 G. Torres 1.2
A. Manjarrés 4.8 Z. Benítez 4.7
O. León 3.5

Ordenando estos datos de menor a mayor donde el menor está en el extremo izquierdo y el mayor en el
extremo derecho de la fila se tiene:

1.2 1.7 2.9 3.5 3.8 4.0 4.3 4.7 4.8

El número que ocupa la posición central es 3.8 porque por debajo de él hay 4 datos y por encima otros 4, por
lo tanto, 3.8 es el valor mediano

13.1 INTERPRETACIÓN DE LA MEDIANA


El docente que tomó la muestra podría describir el comportamiento de los estudiantes en la prueba diciendo
que la mitad de las notas de la muestra se encuentran por debajo de 3.8 o por encima de 3.8

Alternativamente, el docente podría haber utilizado el promedio o media aritmética para describir el
comportamiento de los estudiantes en la muestra, como se vio anteriormente, pero, la mediana, entonces, es
otra manera de describir una situación que es diferente de la media aritmética

13.2 SÍMBOLO DE LA MEDIANA


El símbolo utilizado, en estas notas, para representar la mediana es:
𝑋̃una equis con una onda en la parte superior que se lee equis mediana

El cálculo de la mediana para el caso de las notas se expresa así:


𝑥̃ = 3.8
13.3 CÁLCULO DE LA MEDIANA PARA DATOS NO AGRUPADOS
Número impar de datos
Cuando en número de datos que componen la muestra es impar, como en el ejemplo de las notas, la
mediana se puede calcular por simple inspección como se hizo anteriormente. Pero, para situaciones que
representen un mayor número de datos existe una expresión matemática que es la siguiente.

𝑥̃ = Xn+1
2
Esta expresión indica que el valor mediano ocupa la posición (n + 1)/2 cuando los datos están ordenados en
orden ascendente

Para aplicar esta expresión es preciso ordenar, entonces, los datos en orden ascendente e indicar la
posición u orden de cada dato como se muestra a continuación:

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página31


UNIDADES TECNOLÓGICAS DE SANTANDER

X1 X2 X3 X4 X5 X6 X7 X8 X9
1.2 1.7 2.9 3.5 3.8 4.0 4.3 4.7 4.8

Los Xi indican la posición de cada dato, por ejemplo, X7 indica que 4.3 ocupa la séptima posición cuando
los datos están ordenados de forma ascendente

Como el número de datos es 9, entonces (n+1)/2 es igual a 5, esto quiere decir que el valor mediano es el
valor que ocupa la quinta posición cuando los datos están ordenados de menor a mayor
𝑥̃ = X5 = 3.8

tal como se había establecido anteriormente por simple inspección

Número par de datos


Cuando el número de datos sin agrupar es par, la expresión para calcular la mediana es la siguiente.

X n / 2  X n / 21
𝑥̃ =
2
Esto quiere decir que el valor mediano es el resultado de promediar los valores que ocupan las posiciones
X n / 2 y X n / 2 1

Para explicar esta expresión veamos el siguiente ejemplo:

EJEMPLO
Una muestra de las estaturas, en metros, de 10 estudiantes de una clase se presentan en la siguiente tabla:

ESTUDIANTE ESTATURA ESTUDIANTE ESTATURA


M. Rodríguez 1.75 G. López 1.69
L. Sánchez 1.68 H. Núñez 1.57
D. Rojas 1.81 T. García 1.77
J. Acevedo 1.65 R. Orduz 1.62
F. Díaz 1.73 P. Pinzón 1.71
Al ordenar estos datos de forma ascendente e indicar la posición de cada uno de ellos se llega a la siguiente
tabla:

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
1.57 1.62 1.65 1.68 1.69 1.71 1.73 1.75 1.77 1.81

Como se puede observar, en esta ocasión, no existe un valor único que se localice en el centro del conjunto
de datos ordenado, los valores X5 y X6 ocupan el centro de este conjunto y la mediana se localiza en el
punto medio entre estos dos datos , por lo que para establecer su valor se promedian 1.69 y 1.71 así:

X5  X6 1.69  1.71
𝑥̃ = = = 1.70
2 2

Este valor se interpreta como que la mitad de los estudiantes de esta muestra miden menos de 1.70 metros

se deja al lector de estas notas, que como ejercicio, verifique que la expresión de la mediana para número
par de datos produce el mismo resultado anterior

13.4 CÁLCULO MEDIANA PARA DATOS AGRUPADOS


Recordemos que cuando se habla de datos agrupados nos referimos a datos agrupados en clases

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página32


UNIDADES TECNOLÓGICAS DE SANTANDER

Se presentan dos casos para el cálculo de la mediana

Primer Caso
La frecuencia absoluta acumulada, FAA, hasta alguna de las clases, de la distribución de frecuencias,
coincide con la cantidad total de datos dividida entre 2, es decir, ( n / 2), como se puede ver en el siguiente
ejemplo:

EJEMPLO
Los ingresos en una semana, en millones de pesos, de una muestra de tabernas se presenta en la siguiente
tabla:

clase Ingresos No. De


No. (Millones de $) tabernas FAA
1 1,6 1,9 6 6
2 1,9 2,2 11 17
3 2,2 2,5 18 35
4 2,5 2,8 25 60
5 2,8 3,1 29 89
6 3,1 3,4 20 109
7 3,4 3,7 11 120
Suma 120

Como se puede observar el número de datos de la muestra n es 120, por lo tanto, n/2 es 60 y este valor
coincide con la frecuencia absoluta acumulada, FAA, hasta la cuarta clase. En este caso la mediana es igual
al límite superior de la cuarta clase, es decir:

𝑥̃ = Límite superior de la clase = $2.8 millones

Este valor se puede interpretar diciendo que la venta mínima de la mitad de las tabernas de la muestra fue
de $2.8 millones
Segundo caso
El cálculo del total de datos de la muestra dividido entre 2, n/2, no coincide con el valor de la frecuencia
absoluta acumulada, FAA, de ninguna de las clases

Para calcular la mediana en este caso se utiliza la siguiente fórmula de interpolación:

 n / 2  FAA i 1 
𝑥̃ = 𝐿𝐼𝑖 + A  
 FAi 

𝑳𝑰𝒊 es el límite inferior de la clase que contiene la mediana


A es la amplitud de las clases
𝒏⁄𝟐es la cantidad total de datos de la muestra dividida entre 2
𝑭𝑨𝑨𝒊−𝟏 es la frecuencia absoluta acumulada hasta la clase anterior a la clase que contiene la mediana
𝑭𝑨𝒊 es la frecuencia absoluta de la clase que contiene la mediana

Para saber cuál es la clase que contiene la mediana se compara n/2, el tamaño de la muestra dividido entre
2, con las frecuencias absolutas acumuladas, FAA, de la distribución de frecuencias. La mediana se
encuentra en la clase cuya frecuencia absoluta acumulada, FAA, sea inmediatamente superior a n/2. A esta
clase, en términos de la expresión anterior, se le llama la clase i, y la clase anterior a esta se le llama la clase
i-1

Para aclarar estos conceptos revisemos el siguiente ejemplo:

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página33


UNIDADES TECNOLÓGICAS DE SANTANDER

EJEMPLO
Los saldos de los depósitos al finalizar un mes en las cuentas de ahorro de un número de cuentahabientes,
de los bancos locales, escogidos al azar, se presentan en la siguiente tabla:

SALDO
Clase MENSUAL No. De
No. (Miles de $) depósitos FAA
1 0 300 25 25
2 300 600 36 61
3 600 900 51 112 clase i - 1
4 900 1.200 42 154 clase i
5 1.200 1.500 37 191
6 1.500 1.800 30 221
7 1.800 2.100 22 243
8 2.100 2.400 19 262
9 Mas de 2.400 17 279

El número total de datos de la muestra es 279 depósitos, por lo tanto, n/2 es $139.5 miles. El valor, de la
frecuencia absoluta acumulada, FAA; inmediatamente superior a éste es $154 miles, es decir, que la clase
en la que se encuentra la mediana es la cuarta clase que va de $900 a $1.200 miles. Esta es entonces la
clase i. La clase anterior a ésta es la tercera clase y su frecuencia absoluta acumulada hasta aquí es $112
miles.

Reemplazando estos datos en la expresión de la mediana se obtiene lo siguiente:

139 .5  112 
𝑥̃ = 900 + 300
  = $1.096 miles
 42 

esto quiere decir que la mitad de los clientes de la muestra tenían un saldo, al final del mes observado,
inferior a $1.096.000

14. MEDIDAS DE TENDENCIA NO CENTRAL O DE POSICIÓN

14.1 LOS CUARTILES


Los cuartiles son tres valores que se determinan o calculan a partir de un conjunto de datos, con la
particularidad de que dividen el conjunto de datos en cuatro partes iguales cuando este conjunto está
ordenado en forma ascendente. Estos valores son:

Primer cuartil o Q1: Es el valor por debajo del cual se encuentran la cuarta parte de los datos o 25% de los
datos cuando están ordenados de menor a mayor

Segundo cuartil o Q2: Es el valor por debajo del cual se encuentran la mitad de los datos o 50% de los
datos cuando están ordenados de menor a mayor, es decir, es la misma mediana

Tercer cuartil o Q3: Es el valor por debajo del cual se encuentran las tres cuartas partes de los datos o 75%
de los datos cuando están ordenados de menor a mayor

Precisemos estas ideas con el siguiente ejemplo:

EJEMPLO
El número de clientes que atendieron en un día once vendedores de un centro comercial escogidos al azar
se presenta en la siguiente tabla

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página34


UNIDADES TECNOLÓGICAS DE SANTANDER

Número de clientes atendidos por vendedor


15 5 20 10 23 8 3 13 18 28 32

Este conjunto de datos ordenando de menor a mayor se muestra en la siguiente tabla:

Número de clientes atendidos por vendedor


3 5 8 10 13 15 18 20 23 28 32

Q1 Q2 Q3
Como se puede observar los números 8, 15 y 23 dividen el conjunto en cuatro partes iguales. Estos valores
reciben, respectivamente, los nombres de Primer Cuartil, Segundo Cuartil y Tercer Cuartil

14.1.1 CUARTILES PARA DATOS NO AGRUPADOS


Revise el material “CUARTILES Y PERCENTILES PARA DATOS NO AGRUPADOS”, de estos mismos
apuntes

14.1.2 CUARTILES PARA DATOS AGRUPADOS

Primer caso:
La frecuencia absoluta acumulada hasta alguna de las clases coincide con el valor de la operación
Qi x n
Donde:
100

Qi es el valor del cuartil que se pretende calcular, es decir: 25, 50 o 75


n es el tamaño de la muestra

En este caso el cuartil buscado es igual al límite superior de la clase

EJEMPLO:
Las utilidades por acción del portafolio de inversiones de una empresa se presenta en la siguiente tabla:

UTILIDAD POR No. DE Cálculo del primer cuartil:


ACCIÓN ACCIONES FAA 𝑄𝑖𝑥𝑛 25 x 1100
1300 1400 100 100 = = 275
100 100
1400 1500 175 275
Como 275 es la FAA hasta la segunda clase,
1500 1600 230 505
entonces, el primer cuartil es igual al límite
1600 1700 190 695 superior de esa clase, es decir:
1700 1800 150 845 Q1 = 1.500
1800 1900 130 975
Una interpretación: El 25% de las acciones, de
1900 2000 125 1100 este portafolio, dan una utilidad inferior a
1100 $1.500

Segundo caso:
La frecuencia absoluta acumulada, FAA, hasta cualquiera de las clases no coincide con el valor de la
operación Qixn/100

En este caso, el cálculo del cuartil se hace de manera parecida al segundo caso del cálculo de la mediana.
La expresión que se utiliza es la siguiente:

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página35


UNIDADES TECNOLÓGICAS DE SANTANDER

 Qxn / 100  FAA i 1 


𝑄𝑖 = 𝐿𝑙𝑖 + A  
 FAi 

𝑸𝑖 Es el cuartil que se quiere calcular.


𝑳𝒍𝒊 Es el límite inferior de la clase que contiene el cuartil
A es la amplitud de las clases
𝑸 𝒙 𝒏⁄𝟏𝟎𝟎 Es el producto del valor del cuartil que se quiere calcular por el tamaño n de la muestra dividido
entre 100. Q toma el valor de 25, 50, ó 75, según que el cuartil que se pretenda calcular sea Q1, Q2 o Q3,
respectivamente Esta operación se utiliza para localizar la clase donde se encuentra el cuartil.
𝑭𝑨𝑨𝒊−𝟏 Es la frecuencia absoluta acumulada hasta la clase anterior a la clase que contiene el cuartil
𝑭𝑨𝒊 Es la frecuencia absoluta de la clase que contiene el cuartil

EJEMPLO
Utilizando el mismo ejemplo del primer caso

UTILIDAD POR No. DE Cálculo del tercer cuartil:


ACCIÓN ACCIONES FAA 𝑄𝑖𝑥𝑛 75 𝑥 1100
1300 1400 100 100 = = 825
100 100
1400 1500 175 275
El tercer cuartil se encuentra en la clase cuya
1500 1600 230 505
FAA es inmediatamente superior a 825. A esta
1600 1700 190 695 Clase i-1 clase se le llama clase i .Reemplazando en la
1700 1800 150 845 Clase i fórmula se tiene:
1800 1900 130 975
825 − 695
1900 2000 125 1100 Q3 = 1700 +100 [ ]
150
1100
Q3 = $1787

Interpretación: El 75% de las acciones tienen una utilidad inferior a $1787

14.2 LOS PERCENTILES


Los percentiles son valores que dividen un conjunto de datos en 100 partes iguales, cuando este conjunto
está ordenado de menor a mayor

Un percentil, por lo tanto, es un valor por debajo del cual se encuentra un determinado porcentaje de los
datos. Por ejemplo:

P30 = 200 que se lee: “Percentil 30 igual a 200”, quiere decir que por debajo del valor 200, del conjunto
ordenado de datos, se encuentran el 30% de los datos.

14.2.1 PERCENTILES PARA DATOS NO AGRUPADOS


Revise el material “CUARTILES Y PERCENTILES PARA DATOS NO AGRUPADOS”, en estos mismos
apuntes

14.2.2 PERCENTILES PARA DATOS AGRUPADOS

Primer caso:
Pxn
La frecuencia absoluta acumulada hasta alguna de las clases coincide con el valor de la operación: 100
Donde:
P es el percentil que se quiere calcular
n es el tamaño de la muestra.

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página36


UNIDADES TECNOLÓGICAS DE SANTANDER

Sí el percentil que se quiere calcular es igual al límite superior de la clase cuya frecuencia absoluta
𝑃𝑥𝑛
acumulada, FAA, coincide con el valor de la operación 100 , entonces, el valor del percentil buscado es
igual al límite superior de la clase

EJEMPLO
La siguiente tabla se refiere a una muestra, al azar, del tiempo que duraron las llamadas telefónicas
realizadas por el personal de oficina de una empresa

Duración llamadas No. de Cálculo el percentil 20: P20


en minutos Llamadas FAA 𝑃𝑥𝑛 20 𝑥 230
0,0 2,0 46 46 = = 46
100 100
2,0 4,0 67 113
Como 46 es la FAA hasta la primera clase,
4,0 6,0 44 157
entonces, el percentil 20 es igual al límite
6,0 8,0 31 188 superior de esa clase, es decir:
8,0 10,0 25 213 P20 = 2.0
Mas de 10,0 17 230
Interpretación: el 20% de las llamadas, de la
230
muestra, duraron menos de 2.0 minutos

Segundo caso:
La frecuencia absoluta acumulada, FAA, hasta cualquiera de las clases no coincide con el valor de la
𝑃𝑥𝑛
operación
100

En este caso, el cálculo del percentil se hace de manera parecida al segundo caso del cálculo de la
mediana. La expresión que se utiliza es la siguiente:

 Pxn / 100  FAA i 1 


Pi = 𝐿𝐼𝒊 + A  
 FAi 

𝑳𝑰𝒊 es el límite inferior de la clase que contiene la mediana


A es la amplitud de las clases
𝑷𝒙𝒏⁄𝟏𝟎𝟎es la operación que se hace para saber en qué clase se encuentra el percentil
𝑭𝑨𝑨𝒊−𝟏 es la frecuencia absoluta acumulada hasta la clase anterior a la clase que contiene el percentil
𝑭𝑨𝒊 es la frecuencia absoluta de la clase que contiene el percentil

Para saber cuál es la clase que contiene el percentil se compara la operación 𝑃𝑥𝑛⁄100 con las frecuencias
absolutas acumuladas, FAA, de la distribución de frecuencias. El percentil se encuentra en la clase cuya
frecuencia absoluta acumulada, FAA, sea inmediatamente superior al valor de esta operación. A esta clase,
en términos de la expresión anterior, se le llama la clase i, y la clase anterior a esta se le llama la clase i-1

Para aclarar estos procedimientos utilizamos el ejemplo de las llamadas telefónicas

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página37


UNIDADES TECNOLÓGICAS DE SANTANDER

EJEMPLO
Duración llamadas No. de
Cálculo del Percentil 70, P70:
en minutos Llamadas FAA
0,0 2,0 46 46 𝑃𝑥𝑛 70 𝑥 230
= = 161
2,0 4,0 67 113 100 100
4,0 6,0 44 157 Clase i - 1
El percentil buscado se encuentra en la
6,0 8,0 31 188 Clase i clase cuya FAA es inmediatamente
8,0 10,0 25 213 superior a 161. A esta clase se le llama
clase i. Reemplazando en la fórmula se
Mas de 10,0 17 230
tiene:
230
161 − 157
Interpretación: El 70% de las llamadas, de la P70 = 6.0 +2.0 [ ]
31
muestra, fue inferior a 6.26 minutos
P70 = 6.26 minutos
EJEMPLO
Para el mismo ejemplo de la duración de las llamadas ¿Cuál fue la duración mínima del 40% de las
llamadas?

El valor que se pide es menor que el 40% de las llamadas, por lo tanto, este valor es superior al 60% de las
llamadas de la muestra, lo que quiere decir que se requiere calcular el percentil 60

15. PROPIEDADES DE LA MEDIANA, CUARTILES Y PERCENTILES


 A la mediana, cuartiles y percentiles no los afectan los valores extremos
 La mediana, cuartiles y percentiles se pueden calcular en distribuciones de frecuencias que tengan
clases de extremo abierto
 Los cálculos de la mediana, cuartiles y percentiles son más complejos que los de las demás medidas de
tendencia central
 La mediana, cuartiles y percentiles no se pueden operar matemáticamente
 Para calcular la mediana, cuartiles y percentiles los datos deben estar ordenados

16. LA MODA
La moda, de un conjunto de datos, es el valor que más se repite dentro de ese conjunto.

16.1 SÍMBOLO DE LA MODA


El símbolo que se va a utilizar, en esta notas, para representar la moda es:
̂ que se lee equis moda
𝑿

16.2 MODA PARA DATOS NO AGRUPADOS


Cuando los datos no están agrupados la moda se establece a simple vista.

EJEMPLO
Una muestra de las edades de la última promoción de graduados se presenta en la siguiente tabla:

25 21 19 23 22 A simple vista, el valor que más se repite es 22


años por lo que éste es el valor modal, es
27 21 23 22 18 decir:
20 22 21 19 21 𝑥̂ = 22 años
26 28 22 25 24 Interpretación: la edad más común en la
muestra de egresados es 22 años
22 20 19 31 22
24 30 28 22 26 Observación: En este caso hay un solo valor
modal

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página38


UNIDADES TECNOLÓGICAS DE SANTANDER

EJEMPLO
Los puntajes alcanzados, en una escala de 100 puntos, en las pruebas de ingreso, por los aspirantes a
trabajar en una empresa se presentan en la siguiente tabla:

A simple vista se puede establecer que los


71 68 70 55 57 puntajes que más se repiten son el 57 y el 68,
con una frecuencia de 4 puntajes, por lo que el
36 51 57 68 40 conjunto de datos tiene 2 modas, es decir:
57 85 50 49 68 𝑥̂1 = 57 puntos
68 39 45 57 25 𝑥̂2 = 68 puntos
Cuando un conjunto de datos tiene más de
una moda, como en este caso, se llama
conjunto de dato Polimodal

Interpretación: Cuando un conjunto de datos tiene más de una moda, esta medida de tendencia central no
es útil para describir el comportamiento de los datos

EJEMPLO
El tiempo, en horas, que gastan los buses de una empresa de transportes en realizar el viaje entre dos
ciudades determinadas, en una muestra de recorridos escogidos al azar, se presenta en la siguiente tabla:

6,8 5,5 6,1 6,4 6,2


A simple vista se puede establecer que
5,7 6,3 5,6 5,1 6,9 ninguno de los datos se repite por lo que este
7,0 7,4 6,6 6,0 5,4 conjunto de datos no tiene moda. Por lo tanto,
6,5 6,7 5,8 5,9 7,5 no se puede utilizar la moda para describir el
comportamiento de los datos de esta muestra

16.3 MODA PARA DATOS AGRUPADOS


Primer caso: Datos de variable discreta agrupados en clases de amplitud igual a cero
En este caso la moda corresponde al valor de la variable que tiene la frecuencia más alta
EJEMPLO
Una muestra del número de motocicletas que vende por semana un distribuidor se presenta en la siguiente
tabla:

No. de No. de
La más alta frecuencia corresponde a 19
Motos Semanas semanas y el valor de la variable para esta
0 1 frecuencia es de 4 motos por semana, por lo
1 3 que la moda es 4, es decir:
2 5 𝑥̂ = 4 motocicletas por semana
3 12
4 19 Interpretación: El volumen de venta más
frecuente es de 4 motos por semana
5 16
6 10
más de 6 4

Segundo caso: Datos de variable cualitativa


Aquí, también, la moda corresponde al valor de la variable que tiene la más alta frecuencia

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página39


UNIDADES TECNOLÓGICAS DE SANTANDER

EJEMPLO
Se preguntó a una muestra de profesionales, escogidos al azar, por la marca de celular que utilizan y el
resultado se presenta en la siguiente tabla:

Marca de No. de La más alta frecuencia corresponde a la marca


Nokia, por lo tanto, esta es la moda, es decir:
Celular Profesionales
Sony 18
𝑥̂ = Nokia
Motorola 32
L. G. 15 Interpretación: La marca de celular que con
Nokia 47 más frecuencia utilizan los profesionales, de la
muestra, es Nokia
Samsung 30
iPhone 10 Como se puede observar se puede calcular la
Otras marcas 5 moda para datos de variable cualitativa

Tercer caso: Datos de variable discreta o continua agrupados en clases de amplitud mayor que cero
Se aplica la fórmula como se muestra en el siguiente ejemplo

EJEMPLO
Utilizando un radar de carretera los agentes de tránsito tomaron una muestra de la velocidad, en kilómetros
por hora, a la que se desplazan los vehículos al pasar por un puente. Los resultados están en la siguiente
tabla:

Clase Velocidad No. de


No. (Kmts / hora) Vehículos
1 Hasta 40 7
2 40 50 36 En este caso, la moda se encuentra en la
clase que tiene la más alta frecuencia. Esta
3 50 60 44 clase es la No.4 que corresponde al intervalo
4 60 70 61 de 60 a 70 kilómetros por hora. Para saber en
5 70 80 55 qué punto de este clase se encuentra la moda
se aplica la siguiente expresión:
6 80 90 19
7 Mas de 90 14 𝑑1
[
𝑥̂ = LI + A ]
𝑑1 + 𝑑2
LI es el límite inferior de la clase que contiene la moda
A es la amplitud de las clases
𝒅𝟏 es la diferencia entre la frecuencia absoluta de la clase que contiene la moda y la frecuencia absoluta de
la clase anterior a la clase que contiene la moda
𝒅𝟐 es la diferencia entre la frecuencia absoluta de la clase que contiene la moda y la frecuencia absoluta de
la clase posterior a la clase que contiene la moda

Aplicando la fórmula al ejemplo se tiene:

𝑑1 = 61 – 44 = 17 17
𝑥̂ = 60 + 10 [17+6] = 67.39 Kmts / hora
𝑑2 = 61 – 55 = 6
Interpretación: Lo más común es que los
vehículos de la muestra se desplacen por el
puente a 67.39 Kmts / hora

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página40


UNIDADES TECNOLÓGICAS DE SANTANDER

16.4 PROPIEDADES DE LA MODA


 La moda se puede calcular en situaciones de variables cualitativitas y cuantitativas
 A la moda no la afectan los valores extremos
 La moda se puede calcular en distribuciones de frecuencias que tengan clases de extremo abierto
 Existen conjuntos de datos que no tienen moda o que tienen más de una moda
 La moda no se puede operar matemáticamente

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página41


UNIDADES TECNOLÓGICAS DE SANTANDER

CASOS ESPECIALES DE LA MEDIANA


DISTRIBUCIONES DE FRECUENCIAS DE VARIABLE DISCRETA CON AMPLITUD IGUAL A CERO
Para calcular la mediana, cuando se tienen distribuciones de frecuencia con amplitud igual a cero y datos
correspondientes a variable discreta se tiene dos casos

PRIMER CASO
La frecuencia acumulada hasta cualquiera de las clases es diferente de n/2
Este caso se presenta cuando ninguno de los valores de la columna de frecuencias relativas acumuladas o
FAA coincide con el tamaño de la muestra dividida entre 2, es decir, n/2

EJEMPLO
La siguiente tabla se refiere a una muestra del número de computadores que vendieron en un mes 112
tiendas de tecnología del país escogidos al azar

No. De unidades No. De


vendidas tiendas
0 1
1 12
2 18
3 23
4 21
5 19
6 18
112
La distribución de frecuencias acumuladas de este ejemplo se presenta en la siguiente tabla, donde se
encuentra que n/2 es igual a 112/2 = 56
No. De unidades No. De
vendidas tiendas FAA
0 1 1
1 12 13
2 18 31
3 23 54
4 21 75
5 19 94
6 18 112
112

Como se observa ningún valor de FAA coincide con n/2


en este caso la mediana se encuentra en la clase cuya FAA sea más próxima por arriba a n/2. Este valor es
75, entonces, la mediana se encuentra en la clase 4 (LI=4 y LS=4),. Por lo tanto la mediana es 4, es decir:

𝑥̃ = 4

SEGUNDO CASO
Algún valor de la frecuencia absoluta acumulada coincide con n/2
Este caso se da cuando en la distribución de frecuencias de la frecuencia absoluta acumulada, FAA, algún
valor de esta columna, es igual al tamaño de la muestra dividido por 2, es decir, n/2

EJEMPLO
Se tomó una muestra del número de estufas eléctricas que vendieron en el año una muestra de
distribuidores escogidos al azar

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página42


UNIDADES TECNOLÓGICAS DE SANTANDER

No. De unidades No. De


vendidas distribuid.
10 12
11 18
12 17
13 22
14 15
15 10
94

n/2 es igual a 94/2 = 47

No. De unidades No. De


vendidas distrbiud. FAA
10 12 12
11 18 30
12 17 47
13 22 69
14 15 84
15 10 94
94
Como se puede ver un valor de la columna FAA coincide con n/2. En este caso la mediana se encuentra
entre las clases 12 y 13 y para calcularla se promedian estos dos valores.

𝑥̃ = (12 +13)/2 = 12.5

Este resultado se puede interpretar de dos maneras así:


 La mitad de los distribuidores de la muestra vendieron 12 o menos unidades

 La mitad de los distribuidores de la muestra vendieron 13 o más unidades

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página43


UNIDADES TECNOLÓGICAS DE SANTANDER

CUARTILES Y PERCENTILES PARA DATOS NO AGRUPADOS


CUARTILES
Los cuartiles son tres valores que se calculan a partir de un conjunto de datos dividiendo este conjunto en 4
partes iguales cuando está ordenado de menor a mayor valor. Los cuartiles son:

Primer cuartil o Q1: Es el valor por debajo del cual se encuentran la cuarta parte de los datos o 25% de los
datos cuando están ordenados de menor a mayor

Segundo cuartil o Q2: Es el valor por debajo del cual se encuentran la mitad de los datos o 50% de los
datos cuando están ordenados de menor a mayor, es decir, es la misma mediana

Tercer cuartil o Q3: Es el valor por debajo del cual se encuentran las tres cuartas partes de los datos o 75%
de los datos cuando están ordenados de menor a mayor

CUARTILES PARA DATOS NO AGRUPADOS


Cuando los datos no están agrupados la posición de cualquier cuartil, cuando los datos están ordenados de
menor a mayor, se calcula con la siguiente expresión:

𝑥𝑄𝑖 = X(n+1)Qi/100
𝑥𝑄𝑖 es la posición que ocupa el cuartil cuando los datos están ordenados de menor a mayor
Qi corresponde a Q1, Q2, o Q3 y toman los valores 25, 50 y 75 respectivamente

EJEMPLO No. 1
El número de clientes que atendieron en un día once vendedores de un centro comercial escogidos al azar
se presenta en la siguiente tabla:

Número de clientes atendidos


15 5 20 10 23 8 3 13 18 28 32

la tabla de datos ordenados de menor a mayor se presenta en la siguiente tabla donde X1, X2, X3, etc,
representan la posición que ocupan los datos:

Número de clientes atendidos


X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
3 5 8 10 13 15 18 20 23 28 32

Q1 Q2 Q3

Por simple inspección se puede establecer que los números 8, 15 y 23 dividen el conjunto de datos en 4
partes iguales, donde:
 El primer cuartil ocupa la tercera posición, es decir, 𝑥𝑄1 = X3 = 8
 El segundo cuartil ocupa la sexta posición, es decir, 𝑥𝑄2 = X6 = 15
 El tercer cuartil ocupa la novena posición, es decir, 𝑥𝑄3 = X9 = 23

No siempre es fácil establecer los cuartiles por simple inspección por lo que se debe aplicar la fórmula para
calcular cada uno de los cuartiles.

Cálculo del primer cuartil


𝑥𝑄1 = X (11+1)25/100 = X(12)25/100 = X300/100 = X3 = 8

INTERPRETACIÓN:
 La cuarta parte de los vendedores, de la muestra, atendieron menos de 8 clientes

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página44


UNIDADES TECNOLÓGICAS DE SANTANDER

 La tres cuartas parte de los vendedores, de la muestra, atendieron más de 8 clientes


 El número máximo de clientes que atendió la cuarta parte de los vendedores fue de 8
 El número mínimo de clientes que atendieron las tres cuartas partes de los vendedores, de la muestra,
fue de 8

Cálculo del segundo cuartil


𝑥𝑄2 = X(11+1)50/100 = X(12)50/100 = X600/100 = X6 = 15

Cálculo del tercer cuartil


𝑥𝑄3 = X(11+1)75/100 = X(12)75/100 = X900/100 = X9 = 23

EJEMPLO No. 2
Los ingresos en miles de pesos, en un día, de una muestra de taxis escogidos al azar se presentan en la
siguiente tabla:

INGRESOS POR TAXI EN UN DÍA


(miles de pesos)
13 4 16 6 18 20 9 30 11 28 23 25

Al ordenar los datos de menor a mayor la tabla queda así:

INGRESOS POR TAXI EN UN DÍA


(miles de pesos)
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
4 6 9 11 13 16 18 20 23 25 28 30

Q1 Q2 Q3
En este caso ningún cuartil coincide exactamente con alguno de los valores de la tabla de datos ordenada

Cálculo del primer cuartil


𝑥𝑄1 = X(12+1)25/100 = X(13)25/100 = X325/100 = X3.25

X3.25 quiere decir que el primer cuartil se encuentra entre el tercero y cuarto valor en orden ascendente. Esto
quiere decir que es un valor superior a X3 pero inferior a X4. Para calcular el cuartil se interpola el excedente
de X3, es decir, 0.25 por la distancia que hay entre X3 y X4 así:

𝑥𝑄1 = X3.25 = X3 + 0.25( X4 – X3 )

Por lo tanto: Q1 = 9+0.25(11 – 9 ) = 9+0.25( 2 ) = 9+0.5 = 9.5

Cálculo del segundo cuartil

𝑥𝑄2 = X(12+1)50/100 = X(13)50/100 = X650/100 = X6.5

𝑥𝑄2 = X6.5 = X6 + 0.5( X7 – X6 )

Por lo tanto Q2 = 16+ 0.5(18-16) = 16+0.5(2) = 16+1 = 17

Observe que el segundo cuartil es la misma mediana

Cálculo del tercer cuartil


𝑥𝑄3 = X(12+1)75/100 = X(13)75/100 = X 975/100 = X9.75

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página45


UNIDADES TECNOLÓGICAS DE SANTANDER

𝑥𝑄3 = X9.75 = X9 + 0.75( X10 – X9 )

Por lo tanto: Q3 = 23+0.75(25-23) = 23+075(2) = 23+1.5 = 24.5

PERCENTILES
Los percentiles son valores que dividen un conjunto de datos en 100 partes iguales, cuando este conjunto
está ordenado de menor a mayor

El percentil de un número, es un valor de un conjunto de datos por debajo del cual se encuentra la fracción o
porcentaje de los datos correspondientes a ése número. Por ejemplo:

P30 = 78.3 (se lee: percentil de 30 igual a 78.3). Indica que por debajo de 78.3 se encuentran el 30% de los
datos

Los cuartiles son casos especiales de los percentiles. Por ejemplo, el primer cuartil, Q1, equivale a P 25,
porque por debajo de Q1 se encuentran el 25% de los datos

PERCENTILES PARA DATOS NO AGRUPADOS


Para calcular los percentiles para datos no agrupados se utiliza la siguiente expresión:

XP = X(n+1)P/100

XP es la posición que ocupa el percentil dentro del conjunto de datos ordenados de menor a mayor
n es el tamaño de la muestra
P es el valor percentil

El cálculo de los percentiles sigue la misma mecánica que el cálculo de los cuartiles como se puede ver en
los siguientes ejemplos

EJEMPLO 3
Para el caso del ejemplo 1 calcule el percentil 35, es decir, P35 e interprete el resultado
XP35 = X (11+1)35/100 = X(12)35/100 = X420/100 = X4.2

X4.2= X4 + 0.2( X5 – X4 )

Por lo tanto: P35 = 11 + 0.2( 13 – 11 ) = 11 + 0.2(2) = 11.4

INTERPRETACIÓN:
 El 35 % de los vendedores atendieron 10 o menos clientes
 El 65% de los vendedores atendieron 11 o mas clientes
 El máximo número de clientes atendidos por el 35% de los vendedores fue de 10
 El mínimo número de cliente que atendieron el 65% de los vendedores fue de 11

EJEMPLO 4
Para el caso del ejemplo 2 calcule P78 e interprete el resultado

X P78 = X(12+1)78/100 = X(13)78/100 = X1014/100 = X10.14

X10.14= X10 + 0.14( X11 – X10 )

Por lo tanto: P78 = 25 + 0.14( 28 – 25 ) = 25 + 0.14(3) = 25.42

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página46


UNIDADES TECNOLÓGICAS DE SANTANDER

INTERPRETACIÓN
 El 78% de los taxis de la muestra tuvieron ingresos por debajo de $25.42 miles
 El 22% de los taxis de la muestra tuvieron ingresos superiores a $25.42 miles
 El ingreso máximo del 78% de los taxis de la muestra fue de $25.42 miles
 El ingreso mínimo del 22% de los taxis de la muestra fue de $25.42 miles

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página47


UNIDADES TECNOLÓGICAS DE SANTANDER

MEDIDAS DE DISPERSIÓN
Se había dicho anteriormente que el objetivo de las medias de tendencia central es describir (parcialmente),
el comportamiento de un conjunto de datos que pertenezcan a una muestra o a una población. Sin embargo,
esta capacidad descriptiva de las medidas de tendencia central es parcial porque es necesario
complementarla con otra característica de las muestras y poblaciones que es la dispersión.

Para introducir el concepto de dispersión se presenta el siguiente caso:

EJEMPLO
Las ventas mensuales, en millones de pesos, de dos empresas se presentan en las siguientes tablas:
CREACIONES ARMANY
DISEÑOS GALAXIA
VENTAS
VENTAS
MENSUALES No. De
MENSUALES No. De
(MILLONES) MESES
(MILLONES) MESES
6 10 14
10 14 11
10 14 13
14 18 32
14 18 16
18 22 19
18 22 11
22 26 12
22 26 10
26 30 7
26 30 10
30 34 5
30 34 7
86
34 38 5
86

Al calcular la venta promedio mensual


de estas dos muestras se encuentra que
es igual para ambas con un valor de
35 $19,395 millones, por lo que se podría
30 pensar que ambas empresas tienen un
comportamiento similar en cuanto a las
25 ventas. Sin embargo, si se comparan
sus polígonos de frecuencias como se
Meses

20
hace en el gráfico de la izquierda, se
15 puede ver que sus ventas siguen
ARMANY
patrones de comportamiento muy
10 GALAXIA diferentes.
5
La diferencia se encuentra, entonces, en
0
que las dos muestras tienen diferente
4 8 12 16 20 24 28 32 36 40 “dispersión” de sus datos alrededor de
Millones de pesos la media.

Los ventas de Diseños Galaxia son


menos dispersas que las ventas de
Creaciones Armany

CONCEPTO DE DISPERSIÓN
Se llama DISPERSIÓN al grado de variabilidad o de dispersión de un conjunto de datos alrededor de algún
valor que se toma como referencia. Usualmente se toma como referencia alguna de las medidas de
tendencia central.

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página48


UNIDADES TECNOLÓGICAS DE SANTANDER

DISPERSIÓN Y VARIABILIDAD
La variabilidad hace referencia a qué tan diferentes son entre sí los datos de una muestra o una población.
La dispersión y la variabilidad son conceptos sinónimos como se puede ver en los siguientes ejemplos:

NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES


1 2 3 4 5 6 7 8 9 10
3,8 3,8 3,8 3,8 3,8 3,8 3,8 3,8 3,8 3,8

En este caso todas las notas son iguales, por lo tanto, no hay ninguna variabilidad y ninguna dispersión

NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES


1 2 3 4 5 6 7 8 9 10
3,8 3,8 3,8 3,8 3,8 3,8 4,7 3,8 3,8 3,8

Ahora hay una nota diferente a las demás, por lo tanto, existe una pequeña variabilidad entre los datos y una
pequeña dispersión con respecto a la primera muestra

NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES


1 2 3 4 5 6 7 8 9 10
3,0 3,5 3,8 2,5 3,8 3,7 4,7 3,8 3,9 1,9

En esta última muestra, hay un aumento notorio en la variabilidad entre los datos y en la dispersión con
respecto a la muestra anterior

Es preciso resaltar, que la dispersión es un concepto relativo, siempre se evalúa comparando una muestra o
población con algún valor de referencia o con otra muestra o población

IMPORTANCIA DE LA DISPERSIÓN
Para que una medida de tendencia central sea representativa de los datos que la originaron se requiere que
su valor sea similar a los datos de esa muestra o población que pretende describir, como se puede ver en el
siguiente ejemplo:

MUESTRA DE BAJA DISPERSIÓN MUESTRA DE ALTA DISPERSIÓN


NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
3,2 3,5 3,8 3,5 3,8 3,7 3,6 3,8 3,9 3,5 0,1 3,5 0,7 5,0 1,0 4,7 4,9 3,8 3,9 0,9
𝑥̅ = 3,6 𝑥̅ = 2,9

Como se puede observar, en la muestra de baja dispersión, el valor del promedio es similar o está cerca de
los valores de la muestra, en cambio, en la muestra de alta dispersión, ninguno de los valores de la muestra
es parecido al valor de la media. Por lo tanto, el promedio de la primera muestra es verdaderamente
representativo de los datos de esta muestra y el de la segunda muestra no lo es.

El concepto de dispersión, entonces, es importante porque entre mayor sea la dispersión de un conjunto de
datos, menor es la fuerza representativa que tiene la medida de tendencia central calculada con esos datos

CLASES DE MEDIDAS DE DISPERSIÓN


Las medidas de dispersión que se van a estudiar en estos apuntes son las siguientes:
 El Rango
 El Rango Intercuartílico
 La Desviación Media

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página49


UNIDADES TECNOLÓGICAS DE SANTANDER

 La Varianza
 La desviación Estándar

EL RANGO
Es la diferencia o distancia entre el mayor valor, de un conjunto de datos y el valor menor. Este concepto ya
se había mencionado para agrupar los datos en clases estadísticas, por lo tanto se utilizará para enunciarlo
el mismo símbolo, es decir la letra R, es decir,

R = Xmax - Xmin
EJEMPLO
Calcular el rango de los siguientes conjuntos de datos
NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
3,2 3,5 3,8 3,5 3,8 3,7 3,6 3,8 3,9 3,5 0,1 3,5 0,7 5,0 1,0 4,7 4,9 3,8 3,9 0,9

R = 3,9 - 3,2 = 0,7 R = 5,0 - 0,1 = 4,9

La dispersión de la muestra de la izquierda, medida por el rango, es menor que la dispersión de la muestra
de la derecha

El cálculo anterior se realizó con muestras de datos que no están agrupados. Cuando los datos ya están
agrupados en clases el rango se establece restando del valor del límite superior de la clase mas alta el valor
del límite inferior de la clase mas baja. En símbolos:

R = LS clase más alta - LI clase más baja


EJEMPLO
Una muestra de las facturas que se cancelan con tarjetas de crédito en una cadena de almacenes de modas
se presenta en la siguiente tabla
Ventas No. de
(Miles de $) Facturas
R = LS clase más alta - LI clase más baja
30 36 25
36 42 38 R = 66 - 30 = $36 miles
42 48 49
Como no se tiene el rango de otro conjunto de datos o un valor de
48 54 51 referencia, para comparar, entonces, no se puede decir sí este
54 60 32 conjunto de datos es o no disperso
60 66 29
224

CARACTERÍSTICAS DEL RANGO


 Es fácil de entender y de calcular
 Da una idea rápida de la dispersión
 En el cálculo únicamente se tienen en cuenta los valores máximo y mínimo
 Varía mucho de una muestra a otra
 No se puede calcular con distribuciones de frecuencia que tienen clases de extremo abierto

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página50


UNIDADES TECNOLÓGICAS DE SANTANDER

EL RANGO INTERCUARTÍLICO
Una de las desventajas del rango es que solamente se tienen en cuenta, para su cálculo, los valores
máximo y mínimo, por lo que no indica como están distribuidos internamente los datos. Esta desventaja se
puede corregir con el rango intercuartílico

Para simbolizar el rango intercuartílico se utiliza, en estas notas, RQ y se calcula restando la diferencia entre
el primero y el tercer cuartil, es decir:

RQ = Q3 - Q1
Este rango muestra la dispersión de la porción más central de los datos que abarca el 50% del total

EJEMPLO
Las distancias en kilómetros, recorrida en un día por dos muestras de vehículos se presentan en la siguiente
tabla
MUESTRA A MUESTRA B
Distancia No. De Distancia No. De
(Kilómetros) Vehículos (Kilómetros) Vehículos

25 35 3 25 35 3
35 45 7 35 45 7
45 55 12 45 55 11
55 65 15 55 65 19
65 75 10 65 75 7
75 85 6 75 85 6
53 53
R = Xmax - Xmin = 60 Kmts R = Xmax - Xmin = 60 Kmts

Q1 = 47,7 Kmts Q3 = 67,75 Kmts Q1 = 48,0 Kmts Q3 = 64,9 Kmts

RQ = 20,05Kmts RQ = 16,9 Kmts

Como se ve, aunque las dos muestras tienen el mismo rango, R, el rango intercuartílico es diferente, lo que
indica que la muestra B es menos dispersa que la muestra A

LA DESVIACIÓN MEDIA
Es la diferencia promedio, en valor absoluto, de los datos de la muestra o población con respecto a su propia
media. La forma de la expresión de cálculo varía dependiendo de que se trate de datos no agrupados o
datos agrupados

El símbolo que se utiliza en estos apuntes para la desviación media son las iniciales DM

Desviación media para datos no agrupados


Dónde:
̅|
∑|𝒙𝒊 − 𝒙 DM: Símbolo de la desviación media
DM = 𝑥𝑖 : Cada uno de los datos de la muestra
𝒏
𝑥̅ : La media aritmética de la muestra
n: El número de datos
La razón por la cual se extrae el valor absoluto es porque los números tienen una propiedad que consiste en
que la suma de las diferencias de un conjunto de números con respecto a su media siempre da igual a cero

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página51


UNIDADES TECNOLÓGICAS DE SANTANDER

EJEMPLO
Una muestra, al azar, del tiempo, en minutos, que duran las llamadas que se hacen desde un teléfono, se
presenta en la siguiente tabla
3 14 24 9 7 12
Hallar la desviación media de esta muestra
𝑥̅ = 11,5

𝑥𝑖 𝑥𝑖 𝑥̅ |𝑥𝑖 𝑥̅ |
3 -8,5 8,5
14 2,5 2,5
24 12,5 12,5
9 -2,5 2,5
7 -4,5 4,5
12 0,5 0,5
31
31
DM = = 5,2 minutos
6
Interpretación: En promedio, la diferencia de cada llamada con respecto a la media es de 5,2 minutos

Desviación media para datos agrupados


Dónde:
DM : símbolo de la desviación media
∑|𝑋𝑖 −𝑋̅|𝐹𝐴𝑖 𝑥𝑖 : La marca de clase de la clase i
DM =
𝑛 𝑥̅ : La media aritmética de la muestra
𝐹𝐴𝑖 : La frecuencia absoluta de la clase i
n: El número de datos
EJEMPLO
La siguiente tabla es una muestra, en miles de pesos, del valor del arriendo mensual de vivienda del estrato
tres.
Datos Tabla de Cálculo
Valor arriendo No. De Valor arriendo

(miles de pesos) viviendas (miles de pesos) 𝐹𝐴𝑖 𝑥𝑖 𝑥𝑖 𝑥̅ |𝑥𝑖 𝑥̅ | |𝑥𝑖 𝑥̅ |𝐹𝐴𝑖


200 220 12 200 220 12 210 -61,920 61,92 743,04
220 240 15 220 240 15 230 -41,920 41,92 628,8
240 260 23 240 260 23 250 -21,920 21,92 504,16
260 280 22 260 280 22 270 -1,920 1,92 42,24
280 300 20 280 300 20 290 18,080 18,08 361,6
300 320 18 300 320 18 310 38,080 38,08 685,44
320 340 15 320 340 15 330 58,080 58,08 871,2
125 125 3836,48

3836,48
𝑥̅ = $271,92 miles DM = = $30,7 miles
125
En promedio, los arriendos de la muestra, se diferencian de la media en $30,7 miles

La desviación media tiene en cuenta, para su cálculo, todos los datos de la muestra y es fácil de interpretar.
Pero, la operación del valor absoluto para soslayar la propiedad anteriormente mencionada de los de los

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página52


UNIDADES TECNOLÓGICAS DE SANTANDER

números, da una descripción incompleta de la situación. Obsérvese que no se sabe sí la diferencia de $30,7
miles, del ejemplo anterior, es por encima o por debajo de la media.

Parta evitar este inconveniente existe otra medida de dispersión que aprovecha otra propiedad de los
números que consiste en que todo número elevado al cuadrado tiene signo positivo. Esta medida de
dispersión es la varianza.

LA VARIANZA
La Varianza, al igual que la desviación media utiliza, para medir la dispersión, las desviaciones de los datos
con respecto a la media, pero, en este caso, estas desviaciones se elevan al cuadrado. Por lo tanto, se
puede decir que la varianza es el promedio de las desviaciones, de los datos, con respecto a la media
elevadas al cuadrado.

Para el cálculo de la varianza, lo mismo que para las medidas de dispersión estudiadas anteriormente, se
debe tener en cuenta sí los datos están o no agrupados, pero, adicionalmente, el cálculo de la varianza es
ligeramente diferente según se trate con poblaciones o muestras, por lo que se utilizan símbolos diferentes
para indicar cada una de estas dos situaciones

VARIANZA POBLACIONAL
Es la varianza que se calcula utilizando todos los datos de una población
Símbolo:𝜎2
Varianza poblacional para datos no agrupados

∑(𝑥𝑖 − µ)2 Dónde :


2
𝜎 = 𝑥𝑖 = Cada dato de la población
𝑁
µ = La media de la población
N = El tamaño de la población
EJEMPLO
Los siguientes datos corresponden a los puntajes obtenidos por los aspirantes a un cargo en una empresa
Tabla de cálculo
PUNTAJES
60 81 77 72 91 90 𝑥𝑖 𝑥𝑖 (𝑥𝑖 )2 681,5
60 -18,5 342,25 𝜎 2= 6
µ = 78,5 puntos 81 2,5 6,25
77 -1,5 2,25
72 -6,5 42,25 𝜎 2= 113,58 puntos al
91 12,5 156,25 cuadrado
90 11,5 132,25
681,5

Varianza poblacional para datos agrupados


𝑥𝑖 = Es la marca de clase de c/u de las clases en que se agrupa la
∑(𝑥𝑖 − µ)2 𝐹𝐴𝑖 población
𝜎 2= µ = La media de la población
𝑁
𝐹𝐴𝑖 = Es la frecuencia absoluta de cada clase
N = El tamaño de la población

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página53


UNIDADES TECNOLÓGICAS DE SANTANDER

EJEMPLO
En un programa sobre riesgo cardiovascular, se registró el peso en kilogramos de todos los empleados de
una empresa
Datos Tabla de cálculo
Peso en No. de Peso en
Kilogramos 𝐹𝐴𝑖 𝑥𝑖 𝑥𝑖− (𝑥𝑖 )2 (𝑥𝑖 )2 𝐹𝐴𝑖
Kilogramos Empleados
39 49 5 44 -30,2 912,04 4560,20
39 49 5
49 59 11 54 -20,2 408,04 4488,44
49 59 11
59 69 50 64 -10,2 104,04 5202,00
59 69 50
69 79 31 74 -0,2 0,04 1,24
69 79 31
79 89 27 84 9,8 96,04 2593,08
79 89 27
89 99 18 94 19,8 392,04 7056,72
89 99 18
99 109 9 104 29,8 888,04 7992,36
99 109 9
151 31894,04
151 31894,04
µ = 74,2 kilogramos 𝜎 2= = 211,22 Kilogramos al cuadrado
151

Nótese que si la población es infinita no se puede calcular la varianza poblacional porque el valor de N sería
infinito.

VARIANZA MUESTRAL
Es la varianza que se calcula sobre los datos de una muestra. El cálculo con respecto a la varianza
poblacional difiere en que, el divisor de la expresión ya no es N, el tamaño de la población, ahora es (n – 1),
que es el tamaño de la muestra, n, menos una unidad.

Símbolo: 𝑠2
Varianza muestral para datos no agrupados
Dónde:
2
2 = ∑(𝑥𝑖 − 𝑥̅ ) 𝑥𝑖 : Es cada uno de los datos de la muestra
𝑠 𝑛− 1 𝑥̅ : Es la media de la muestra
n : Es el tamaño de la muestra
2
La razón por la cual se divide entre n - 1 es porque, de esta manera, s , es un “estimador insesgado” de la
varianza de la población de la cual se extrajo la muestra. El concepto de estimador insesgado se estudia en
el curso de Estadística Inferencial.

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página54


UNIDADES TECNOLÓGICAS DE SANTANDER

EJEMPLO
Los saldos de las cuentas de ahorro, de empleados, de una muestra de las cuentas de ahorro de una
cooperativa, escogidas al azar, se presentan en la siguiente tabla:

Tabla de cálculo
SALDOS DE LAS CUENTAS EN MILES DE
𝑥𝑖 𝑥𝑖 𝑥̅ (𝑥𝑖 𝑥̅ )2 143.435,5
PESOS 𝑠2=
157 62 234 532 200 90 157 -55,5 3080,25 (6 − 1)
62 -150,5 22650,25

𝑥̅ = $212,5 miles 234 21,5 462,25


𝑠 2 = 28.687,10 miles de
532 319,5 102080,25
pesos al cuadrado
200 -12,5 156,25
90 -122,5 15006,25
143.435,50
Varianza muestral para datos agrupados
Dónde:
2 𝐹𝐴
∑ (𝑥𝑖 − 𝑥̅ ) 𝑖 𝑥𝑖 : Es la marca de clase de c/u de las clases en que se agrupa la muestra
𝑠2 =
(𝑛 − 1) 𝑥̅ : Es la media aritmética de la muestra
𝐹𝐴𝑖 :Es la frecuencia absoluta de cada clase
n : Es el tamaño de la muestra

EJEMPLO
Una muestra del tiempo, en horas, que demora el almacén de materiales de una fábrica en surtir los pedidos
que recibe:

Datos Tabla de cálculo


Tiempo No. de Tiempo

(Horas) pedidos (Horas) 𝐹𝐴𝑖 𝑥𝑖 𝑥𝑖 𝑥̅ (𝑥 𝑖 𝑥̅ )2 (𝑥𝑖 𝑥̅ )2 𝐹𝐴𝑖


0 2 10 0 2 10 1 -5,3 28,09 280,90
2 4 16 2 4 16 3 -3,3 10,89 174,24
4 6 33 4 6 33 5 -1,3 1,69 55,77
6 8 45 6 8 45 7 0,7 0,49 22,05
8 10 26 8 10 26 9 2,7 7,29 189,54
10 12 10 10 12 10 11 4,7 22,09 220,90
140 140 943,40

943,40
𝑥̅ = 6,3 horas 𝑠2 = = 6,8 horas al cuadrado
(140 − 1)

Como se puede observar, en los ejemplos anteriores, todas las unidades de la desviación estándar están
elevadas al cuadrado por lo que es difícil interpretar el significado del valor de la varianza; esta en una de las
razones por las cuales, para medir la dispersión, se prefiere otra medida que es la Desviación Estándar

LA DESVIACIÓN ESTÁNDAR
Conocida también como Desviación Típica, la desviación estándar es la raíz cuadrada de la varianza. Los
símbolos que se utilizan son σ, para cálculo de la dispersión en poblaciones y s, para el cálculo de la
dispersión en muestras

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página55


UNIDADES TECNOLÓGICAS DE SANTANDER

DESVIACIÓN ESTÁNDAR PARA POBLACIONES

Datos no agrupados Datos agrupados

∑(𝑥𝑖 −µ)2 ∑(𝑥𝑖 − µ )2 𝐹𝐴𝑖


σ = √𝜎 2 = √ σ = √𝜎 2 = √
𝑁 𝑁

DESVIACIÓN ESTÁNDAR PARA MUESTRAS

Datos no agrupados Datos agrupados

∑(𝑥𝑖 − 𝑥̅ )2 ∑(𝑥𝑖 − 𝑥̅ )2𝐹𝐴𝑖


s=√𝑠 2 = √ s=√𝑠 2 = √
(𝑛 − 1) (𝑛 − 1)

Las tablas de cálculo para la desviación estándar son idénticas a las que se utilizan para la varianza, con un
cálculo adicional: extraer la raíz cuadrada de la varianza

EJEMPLO
En un ejemplo anterior se vio que los puntajes de los aspirantes a un cargo, en una empresa fueron:

PUNTAJES y se calculó que:


60 81 77 72 91 90 𝜎 2 = 113,58 puntos al cuadrado
Por lo tanto,
σ = √𝜎 2 = √113,58 = 10,7 puntos

EJEMPLO
En otro caso se estableció que el tiempo, en horas, que demora el almacén de materiales de una fábrica en
surtir los pedidos que recibe

Tiempo No. de
Y se calculó que:

(Horas) pedidos
𝑠2 = 6,8 horas al cuadrado
0 2 10
2 4 16 Por lo tanto:
4 6 33
6 8 45 s= √𝑠 2 = √6,8 = 2,6 horas
8 10 26
10 12 10
140

Aunque es indispensable que se conozca, a ciencia cierta, como se obtienen la cifras de los cálculos de la
media aritmética y la desviación estándar, en la práctica, la tecnología disponible permite que estas
operaciones se hagan de forma más rápida y segura utilizando las funciones estadísticas de las calculadoras
científicas o de las hojas electrónicas de los programas de computador, por lo que se debe consultar, por lo
menos, en los manuales de las calculadoras, los detalles de la forma como se ejecutan estas funciones.

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página56


UNIDADES TECNOLÓGICAS DE SANTANDER

EL COEFICIENTE DE VARIACIÓN
Para introducir el concepto del coeficiente de variación se analiza la siguiente situación:

En la sección de materiales livianos del almacén de materiales de una fábrica se tomó una muestra del peso
de elementos de esa sección escogidos al azar, lo mismo se hizo en la sección de materiales pesados, de la
misma bodega y para ambas muestras se calculó su peso promedio y la desviación estándar. Los resultados
son los que se presentan a continuación:

SECCIÓN DE MATERIALES LIVIANOS SECCIÓN DE MATERIALES PESADOS

𝑥̅ = 4 Kilos 𝑥̅ = 50 Kilos
S = 2 Kilos S = 2 kilos

La primera impresión que se obtiene de una observación desprevenida de estos resultados es que las dos
muestras tienen la misma dispersión porque sus desviaciones estándar son iguales. Sin embargo, si se
examina con más atención, se puede ver que en el caso de la sección de materiales livianos, la desviación
estándar equivale a la mitad del peso promedio de los materiales de la muestra. En cambio, en la sección de
materiales pesados la desviación estándar equivale únicamente a 1/25 del peso promedio de los paquetes.
Por lo que comparadas las dos desviaciones estándar con la magnitud de su respectivo promedio, es mucho
más alta la dispersión de la sección de materiales livianos.

De este análisis se concluye que la desviación estándar en casos como el del ejemplo, no permite comparar
la dispersión de dos muestras y se puede agregar que esta dificultad se presenta cuando las medias de las
muestras que se están comparando son muy diferentes entre sí.

Para resolver este inconveniente, la estadística dispone de un indicador para medir la dispersión. Este
indicador es el Coeficiente de Variación y se calcula con la siguiente expresión:

COEFICIENTE DE VARIACIÓN PARA POBLACIONES COEFICIENTE DE VARIACIÓN DE MUESTRAS

SÍMBOLO : CV SÍMBOLO : CV
𝜎 𝑠
CV = CV =
µ 𝑥̅
El coeficiente de variación es un número sin dimensiones por lo que se puede expresar en fracciones
decimales o en porcentaje

EJEMPLO
Se tomaron muestras de las ventas diarias, en miles de pesos, de dos vendedores de una empresa. ¿Cuál
de las dos muestras es más dispersa?

VENTAS DEL VENDEDOR A VENTAS DEL VENDEDOR B


500 450 390 600 290 400 440 80 25 23 57 90 10

𝑥̅ = $438,6 miles 𝑥̅ = $47,5 miles

S = $96,5 miles S = $33,1 miles

CV = 0,22 CV = 0,70

Como se puede notar, la desviación estándar del vendedor A es mayor que la desviación estándar del

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página57


UNIDADES TECNOLÓGICAS DE SANTANDER

vendedor B; sin embargo, las ventas de la muestra del vendedor A son menos dispersas que las ventas de la
muestra del vendedor B, porque el coeficiente de variación de las ventas del vendedor A es menor que el
coeficiente de variación de las ventas del vendedor B

EJEMPLO
Una muestra de las ventas por día de un almacén de ropa de moda y un gran distribuidor textil se presentan
en la siguientes tablas. ¿Cuál de los dos promedios de ventas por día es más confiable?

JEANS AND BREECHES DISTRIMODA


VENTAS POR DÍA VENTAS POR DÍA
(Millones de pesos) (Millones de pesos)
Ventas No. de Ventas No. de

por día días por día días


0,9 1,1 3 9,2 10,3 12
1,1 1,3 9 10,3 11,4 16
1,3 1,5 16 11,4 12,5 25
1,5 1,7 23 12,5 13,6 19
1,7 1,9 29 13,6 14,7 10
1,9 2,1 20 14,7 15,8 9
2,1 2,3 11 91
111
Solamente se necesita establecer la marca de clase de ambas tablas y el resto de los cálculos se realizan
directamente aplicando las funciones estadísticas de las calculadoras científicas

JEANS AND BREECHES DISTRIMODA


VENTAS POR DÍA VENTAS POR DÍA
(Millones de pesos) (Millones de pesos)
Ventas No. de Ventas No. de

por día días Xi por día días Xi


0,9 1,1 3 1,0 9,2 10,3 12 9,75
1,1 1,3 9 1,2 10,3 11,4 16 10,85
1,3 1,5 16 1,4 11,4 12,5 25 11,95
1,5 1,7 23 1,6 12,5 13,6 19 13,05
1,7 1,9 29 1,8 13,6 14,7 10 14,15
1,9 2,1 20 2,0 14,7 15,8 9 15,25
2,1 2,3 11 2,2 91
111

𝑋̅ = 1,706306306 CV = 0,17868609 𝑋̅ = 12,26428571 CV = 0,13255294


S = 0,30489321 S = 1,62566714
Respuesta: Es más confiable el promedio diario de Distrimoda porque tiene el menor coeficiente de variación

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página58


UNIDADES TECNOLÓGICAS DE SANTANDER

DESIGUALDAD DE CHEBYSHEV
Es una regularidad que se presenta en todas las distribuciones de frecuencias y consiste en que, sin
importar la forma de la distribución de frecuencias, la porción mínima de datos que se encuentra en un
intervalo comprendido entre K desviaciones estándar por debajo y por encima de la media aritmética es:

1
1 -
𝐾2
Donde K es cualquier número mayor que 1

Los límites de este intervalo se encuentran, por lo tanto, por debajo y por encima de la media aritmética. Al
límite que está por debajo de la media se le llama límite inferior o LI y al límite que está por encima se le
llama límite superior o LS. Las expresiones para estos límites son:

LI =𝑥̅ -Ks
LS = 𝑥̅ + Ks
Donde s es la desviación estándar de la distribución de frecuencias

EJEMPLO
Una muestra del tiempo que tienen que esperar los afiliados a una EPS para que los atiendan en el servicio
de urgencias de una clínica dio una media aritmética de 32 minutos, con una desviación estándar de 8,3
minutos. ¿Entre qué intervalo de tiempo tuvieron que esperar como mínimo el 80% de los afiliados de la
muestra?

Esa porción mínima es precisamente 1 – 1/K2, por lo tanto:

1
0,80 = 1 -
𝐾2
Despejando K de la anterior ecuación se encuentra que K = 2,24
Entonces, los límites del intervalo que se pregunta son:
LI =𝑥̅ -Ks = 32 - 2,24(8,3) = 13,4 minutos
LS = 𝑥̅ + Ks= 32 + 2,24(8,3) = 50,6 minutos

La respuesta es que, por lo menos, el 80% de los afiliados a la EPS, de la muestra, tuvieron que esperar
entre 13,4 minutos y 50,6 minutos para ser atendidos en el servicio de urgencias

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página59


UNIDADES TECNOLÓGICAS DE SANTANDER

UNIDAD 3: REGRESIÓN Y CORRELACIÓN


REGRESIÓN
1. INTRODUCCIÓN
En muchas circunstancias de las actividades administrativas o cotidianas se encuentra que el
comportamiento de dos o más hechos o situaciones parece estar relacionado de alguna manera, como por
ejemplo en los siguientes casos:
 El número de vehículos que circulan por las vías de una ciudad y los índices de contaminación de la
misma
 La tasa de desempleo y las ventas del comercio
 Las ventas de licor y el número de accidentes de tránsito
 Las horas de tutorías y el número de estudiantes que reprueban los parciales
 El número de apartamentos construidos en un determinado periodo y las ventas de muebles
 El número de personas que se movilizan en bus y las ventas de motos y el estado del clima

Existe una técnica para establecer matemáticamente la relación que puede existir entre situaciones como
las señaladas anteriormente. Estas situaciones reciben el nombre de variables

2. CONCEPTO DE REGRESIÓN
Es un método de cálculo para establecer la relación matemática que existe entre dos o más situaciones o
variables, que la observación o el sentido común indican que tienen comportamientos que están
relacionados

3. IMPORTANCIA DE LA REGRESIÓN
Este método aplicado al análisis estadístico permite predecir matemáticamente el comportamiento de una
variable a partir del comportamiento conocido de otra u otras variables. Esta relación entre las variables se
establece a través de una ecuación que se llama Ecuación de Regresión

4. VARIABLES DEPENDIENTES E INDEPENDIENTES


Al establecer la relación entre dos variables se encuentra que el comportamiento de una variable depende
del comportamiento de otra u otras variables o que la manifestación de una variable ocurre primero que la
manifestación de otra u otras variables. A la variable que ocurre primero o que determina el comportamiento
de otra se le llama Variable Independiente y se suele representar por la letra X y a la otra variable se le
llama Variable Dependiente y se suele representar por la letra Y

EJEMPLOS:
 Tasa de desempleo y ventas del comercio: La variable independiente o variable x es la tasa de
desempleo y la variable dependiente o variable y es las ventas del comercio

 Accidentes de tránsito y ventas de licor: La variable independiente es las ventas de licor y la variable
dependiente los accidentes de tránsito

 El número de personas que se movilizan en bus puede depender de las ventas de motocicletas y del
estado del clima, por lo que el número de personas que utilizan el servicio de bus es la variable
dependiente y las otras dos son las variables independientes

5. GRÁFICO DE DISPERSIÓN
Es la representación gráfica, en el plano cartesiano, en forma simultánea, de los valores que toman la
variable independiente (x) y la variable dependiente (y)

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página60


UNIDADES TECNOLÓGICAS DE SANTANDER

EJEMPLO
Se tomaron datos sobre el kilometraje recorrido por un vehículo y el consumo de gasolina, en galones, como
se presenta en la siguiente tabla:

Kilómetros Galones
X Y
30 5,95
50 8,55
10 2,35
40 9,25
60 13,85
20 6,75

La representación gráfica de los valores de esta tabla en el plano cartesiano, recibe el nombre de Gráfico de
Dispersión como se muestra a continuación:

Gráfico de dispersión
16
Galones consumidos

14
12
10
8
6
4
2
0
0 10 20 30 40 50 60 70
Kilómetros recorridos

6. TIPOS DE RELACIÓN ENTRE DOS O MÁS VARIABLES


La relación entre dos o más variables que como dijimos anteriormente matemáticamente recibe el nombre
de regresión se puede clasificar de dos formas:

 Atendiendo a la cantidad de variables que se relacionan se clasifica en Regresión Univariada o


Regresión Multivariada

 Atendiendo a la representación gráfica de la ecuación de regresión se clasifica en Regresión Lineal o


Regresión Curvilínea

Esta clasificación se puede visualizar en la siguiente gráfica:

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página61


UNIDADES TECNOLÓGICAS DE SANTANDER

TIPOS DE REGRESIÓN
6.1 Regresión Univariada
Se presenta cuando sólo interviene una variable independiente

6.2 Regresión Multivariada


Se presenta cuando interviene más de una variable independiente

6.3 Regresión lineal


Se presenta cuando la representación gráfica de la ecuación de regresión es una línea recta.

6.4 Regresión Curvilínea


Se presenta cuando la representación gráfica de la ecuación de regresión es una curva

Tanto la regresión lineal como la curvilínea tienen dos formas de manifestarse: en forma directa o en forma
inversa

7. Regresión Lineal Directa


Ocurre cuando al aumentar el valor de la variable independiente aumenta, proporcionalmente, el valor de la
variable dependiente. Por lo tanto, una recta parece describir de manera apropiada la relación entre estas
variables, como se puede ver en el siguiente gráfico

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página62


UNIDADES TECNOLÓGICAS DE SANTANDER

10
X Y 9
8 5 8
13 4 7
6 3

Variable Y
6
24 9 5
18 7 4

20 5 3
2
1
0
0 5 10 15 20 25 30
Variable X

10
9
8
7
6 La curva de regresión
variable Y

5 (una recta), que mejor


describe la relación
4 entre estas dos
3 variables, se presenta
en la gráfica de la
2
izquierda
1
0
0 5 10 15 20 25 30
Variable X

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página63


UNIDADES TECNOLÓGICAS DE SANTANDER

8. Regresión Lineal Inversa


Ocurre cuando al aumentar el valor de la variable independiente disminuye el valor de la variable
dependiente en una proporción similar

X Y 30
19 9
25
3 24
16 11 Variable Y
20

24 6 15
8 14
10

0
0 5 10 15 20 25 30

Variable X

La curva de regresión (una recta), que mejor describe la relación entre estas dos variables, se presenta
en la siguiente gráfica:

30

25

20
variable Y

15

10

0
0 5 10 15 20 25 30
Variable X

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página64


UNIDADES TECNOLÓGICAS DE SANTANDER

9. Regresión Curvilínea Directa


Ocurre cuando al aumentar de valor la variable independiente, la variable dependiente aumenta mas que
proporcionalmente

X Y 25

16 12 20
18 21
15
8 6

Variable Y
12 7 10

17 17 5
10 8
0
0 5 10 15 20

Variable X

La curva de regresión, que mejor describe la relación entre estas dos variables, se presenta en la siguiente
gráfica

25

20
Variable y

15

10

0
0 5 10 15 20
Variable X

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página65


UNIDADES TECNOLÓGICAS DE SANTANDER

10.Regresión Curvilínea Inversa


Ocurre cuando al aumentar de valor la variable independiente, la variable dependiente disminuye de valor en
forma más que proporcional

X Y
14 2 20
18
5 9 16
10 7 14
2 18 12
Variable Y 10
20 2 8
6
4
2
0
0 5 10 15 20 25

Variable X

La curva de regresión, que mejor describe la relación entre estas dos variables, se presenta en la siguiente
gráfica:
20
18
16
14
Variable Y

12
10
8
6
4
2
0
0 5 10 15 20 25
Variable X

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página66


UNIDADES TECNOLÓGICAS DE SANTANDER

11.Ninguna relación
Ocurre cuando la relación entre la variable dependiente e independiente no se puede describir con ningún
tipo de curva

X Y
12
13 8
2 5 10

15 4
8
5 3 Variable Y
4 10 6
7 7
4

0
0 2 4 6 8 10 12 14 16

Variable X

12.LA REGRESIÓN LINEAL


Cuando los puntos del gráfico de dispersión se pueden relacionar con una recta que pase lo mas cerca
posible de todos ellos, a esta recta se le llama Recta de Mínimos Cuadrados, porque la suma de las
distancias al cuadrado, de los puntos del gráfico a esta recta es mínima

Esta recta tiene por ecuación Y = A + B X, donde A es el punto donde la recta corta al eje Y, y B es la
pendiente de la recta. El proceso para determinar el valor de los parámetros A y B es complejo, pero, el
estudiante interesado lo puede consultar en cualquier texto de estadística. En el curso, se determinarán
utilizando las funciones de las calculadoras científicas.

13.EJEMPLO
Se comparó el tiempo total que realmente dura encendido, de forma intermitente, un celular, con la duración
de su batería, obteniendo los valores que se presentan en la siguiente tabla:

celular duración
encendido batería
(segundos) (horas)
360 3,2
270 3,5
480 1,9
120 3,9
440 2,3
230 3,2
160 5,0

Como el tiempo de duración de la batería depende del tiempo total, que de forma intermitente dura
encendido el celular, la variable dependiente es el tiempo de duración de la batería y la variable
independiente el tiempo en segundos que dura encendido el celular, como se presenta a continuación

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página67


UNIDADES TECNOLÓGICAS DE SANTANDER

X Y
celular duración
encendido batería
(segundos) (horas)
360 3,2
270 3,5
480 1,9
120 3,9
440 2,3
230 3,2
160 5,0

El gráfico de dispersión de estos datos es el siguiente:

4,5
4,0
Dración de la batería en horas

3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
0 100 200 300 400 500 600
Duración del celular encendido en segundos

Trazando una recta que pase lo más cerca posible de todos los puntos, el gráfico queda así:

4,5
4,0
Duración de la batería en

3,5
3,0
2,5
2,0
horas

1,5
1,0
0,5
0,0
0 100 200 300 400 500 600
Duración del celular encendido en segundos

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página68


UNIDADES TECNOLÓGICAS DE SANTANDER

Entre más tiempo dure el celular encendido menos tiempo durará la batería por lo que la relación entre las
dos variables en inversa y la pendiente de la recta es, por lo tanto negativa. Adicionalmente, se observa que
la relación entre las dos variables es de tipo lineal, donde los parámetros de la recta de regresión son:

A = 4,7764201
B = -0,0055024

Y la ecuación de regresión que relaciona las dos variables es:

Y = 4,7764201 - 0,0055024X

Para un tiempo de encendido total intermitente del celular de 500 segundos, la duración que se puede
esperar de la batería es:

Y = 4,7744201 - 0,0055024(500)

Y = 2 horas

LA CORRELACIÓN
El interés del analista no está solamente en establecer la forma como se relacionan dos variables, sino,
también, en medir que tan fuerte es el grado de esta relación.

La regresión univariada es un caso extraño, lo común es que en comportamiento total de una variable
dependiente sea el resultado de la interacción de varias variables dependientes, como se muestra en las
siguientes gráficas:

VOLUMEN DE TRÁFICO

CLIMA
COSTO DE
REPARACIÓN
DE VÍAS TOPOGRAFÍA DEL TERRENO

CALIDAD DE LOS MATERIALES USADOS

KILOMETRAJE RECORRIDO

MODELO

MARCA
CONSUMO DE
COMBUSTIBLE ESTADO MECÁNICO
DE UN
VEHÍCULO ESTILO DE CONDUCCIÓN

TOPOGRAFÍA DE LA VÍA

EDAD DEL VEHÍCULO

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página69


UNIDADES TECNOLÓGICAS DE SANTANDER

Como es lógico pensar, la influencia que tiene cada una de estas variables independientes en el
comportamiento total de la variable dependiente no es igual para todas las variables independientes. Habrá
algunas variables independientes que determinan, en buena medida, el comportamiento de la variable
independiente y, también, habrá algunas variables independientes cuya influencia en el costo de reparación
de vías o en el consumo de combustible, para estos ejemplos, es muy reducida.

Para cualquier observador que analice estas situaciones, es de capital importancia determinar cuáles son las
variables que ejercen un efecto notable en el comportamiento de otra, es decir, establecer la fuerza o
intensidad con la que una variable independiente y otra dependiente están relacionadas. A esta fuerza o
intensidad se le llama Correlación

1. EL COEFICIENTE DE CORRELACIÓN
Es una medida del grado en que una variable independiente influye en una variable dependiente

Este grado de la relación entre dos variables se mide con un indicador que recibe el nombre de coeficiente
de correlación.

El coeficiente de correlación es un número adimensional que se representa por la letra r y toma valores entre
-1 y +1. El significado de estos valores que toma r es el siguiente:

 Sí r = -1 ó r = +1 la correlación entre las variables es perfecta, es decir, la fuerza de la relación entre la


variable independiente y la variable dependiente, es la máxima posible. Esto quiere decir, que el
comportamiento de la variable dependiente depende completamente del comportamiento de la variable
dependiente
 Sí r> 0, es decir, es positiva, la relación entre las variables es directa
 Sí r < 0, es decir, es negativa, la relación entre las variables es inversa
 Sí 0,9 ≤ r < 1 ó -1 < r ≤ - 0,9 la correlación entre las variables se considera óptima
 Sí r = 0 no existe correlación entre las variables

Como el coeficiente de correlación es un número adimensional se puede expresar también en porcentaje. Se


suele preferir valores de coeficientes de correlación superiores al 90%

2. Relación entre el coeficiente de correlación y la pendiente de la recta de regresión


 Sí la relación entre las variables dependiente e independiente es directa el coeficiente de correlación r y
la pendiente de la recta de regresión son ambos de signo positivo
 Sí la relación entre las variables dependiente e independiente es inversa el coeficiente de correlación r y
la pendiente de la recta de regresión son ambos de signo negativo

3. EJEMPLO
Para el mismo caso de la duración de la batería del celular, el valor del coeficiente de regresión es:
r = -94%
Que significa que la correlación entre las dos variables es inversa y óptima

4. EL COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación es el cuadrado del coeficiente de correlación y explica el porcentaje de
cambio de la variable dependiente que se puede explicar por el cambio de la variable independiente. Por
ejemplo, un coeficiente de determinación de 64% entre los litros de licor vendidos los fines de semana y el
número de accidentes de tránsito, en esos días, significa que el 64% de los accidentes de tránsito de los
fines de semana se pueden explicar por las ventas de licor

Para el mismo caso que estamos estudiando de la duración de la batería del celular, el coeficiente de
determinación es:
r2 = 88%
Que significa que el 88% de las variaciones en la duración de la batería del celular se deben a las

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página70


UNIDADES TECNOLÓGICAS DE SANTANDER

variaciones en el tiempo total que demora el celular prendido de forma intermitente

BIBLIOGRAFÍA
 LEVIN y RUBIN Estadística para Administradores. Séptima edición. Editorial THOMSON
 MARTÍNEZ B, Ciro. Estadística y Muestreo. Décimo segunda edición. Editorial ECOE
 LIND, MARCHAL Y OTRO. Estadística Aplicada a los Negocios y la Economía Décimo Tercera Edición.
Editorial McGraw Hill
 ANDERSON, SWEENEY Y OTRO. Estadística para Administración y Economía. Séptima edición.
Editorial THOMSON

DEPARTAMENTO DE CIENCIAS BÁSICAS VERSIÓN 9 FECHA: 2013 Página71

También podría gustarte