Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Para Poblaciones
=
n
Xi
Para Muestras
El significado de los smbolos es el siguiente:
Es la letra del alfabeto griego mu, simboliza la media aritmtica calculada para una poblacin
Se lee equis trazo o equis barra, simboliza la media aritmtica calculada para una muestra
N Es el nmero de valores que toma la variable, en estudio, en la poblacin
n Es el nmero de valores que toma la variable, en estudio, en la muestra
= 5400
=
=
5400
6
= $900
Interpretacin: La media aritmtica es el mismo
promedio y es como s en cada uno de los 6 meses el
comisionista hubiera ganado $900.000
9.2 MEDIA ARITMTICA PARA DATOS AGRUPADOS
La media aritmtica se calcula sumando los productos de las marcas de clase por sus respectivas
frecuencias absolutas y dividiendo esta suma por el nmero total de datos registrados
=
N
XiFAi
Para Poblaciones
=
n
XiFAi
Para Muestras
el significado de los smbolos es el siguiente:
Es la letra del alfabeto griego mu, simboliza la media aritmtica calculada para una poblacin
Se lee equis trazo o equis barra, simboliza la media aritmtica calculada para una muestra
N Es el tamao de la poblacin
n Es el tamao de la muestra
Es la marca de clase de cada una de las clases en que se han agrupado los datos
Es la frecuencia absoluta de cada una de las clases en que se han agrupado los datos
EJEMPLO
Una muestra del valor de las facturas, en miles de pesos, que se cancelan con tarjetas de crdito en una
cadena de almacenes de modas se presenta en la siguiente tabla:
Ventas No. de
(Miles de $) Facturas
30 36 25
36 42 38
42 48 49
48 54 51
54 60 32
60 66 29
224
Calcular la media aritmtica e
interpretar el significado
Como se debe calcular la marca de clase de cada clase y
multiplicar cada uno de esto valores por su respectiva
frecuencia absoluta, estas operaciones es ms prctico
realizarlas en forma tabular, como se muestra a
continuacin:
Ventas No. de
(Miles de $) Facturas X
i
X
i
FA
i
30 36 25 33 825
36 42 38 39 1.482
42 48 49 45 2.205
48 54 51 51 2.601
54 60 32 57 1.824
60 66 29 63 1.827
224
10.764
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina27
SOLUCIN:
El total de la cuarta columna es
Representa el valor relativo de cada uno de los datos, llamados Factores de Ponderacin. En el
ejemplo, los crditos de cada una de las asignaturas (2, 4 y 3)
Aplicando la frmula al ejemplo se tiene:
NOTA
FINAL CRDITOS
ASIGNATURA Xi Wi X
i
W
i
A 4,9 2 9,8
B 3,1 4 12,4
C 3.0 3 9.0
Suma 9 31,2
X
i
W
i
= 31.2
W
i
= 9
P
= 3.47
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina28
S para este caso del polgrafo el promedio se calculara como media aritmtica simple, ignorando la
informacin de los crditos, este clculo dara 3.7 que es diferente del promedio ponderado que da un valor
de 3.47
11. PROPIEDADES DE LA MEDIA ARITMTICA
El clculo de la media aritmtica tiene en cuenta todos los valores de la variable en estudio registrados
A todas las variables cuantitativas se les puede calcular la media aritmtica
Un conjunto de datos slo tiene una media
La media permite hacer comparaciones entre poblaciones o muestras
La media se puede trabajar matemticamente
La media es afectada por los valores extremos
No se puede calcular la media en distribuciones de frecuencias que tienen clase de extremo abierto
12. LA MEDIA GEOMTRICA
En muchas situaciones los datos se presentan en valores relativos tales como porcentajes o proporciones.
En tales casos el procedimiento de clculo de la media, que se ha estado utilizando hasta ahora, puede
apartarse de los resultados reales s la variabilidad de los datos es alta.
12.1 CLCULO DE LA MEDIA GEOMTRICA
Existe, entonces, una expresin matemtica especial para calcular promedios en los casos en que los datos
provengan de tasas de inters, porcentajes o nmeros ndices, entre otros. A este expresin matemtica se
le llama la media geomtrica y se suele representar por la letra G
G = ) ...( )......... 3 )( 2 )( 1 ( FCn FC FC FC n
G Es el smbolo de la media geomtrica
FC1, FC2..FCn se llaman Factores de Crecimiento
El ndice de la raz depende del nmero de factores de crecimiento. S los factores de crecimiento son 2, la
raz es cuadrada, s los factores de crecimiento son 6 la raz es sexta y as sucesivamente.
Los factores de crecimiento, FCi, se determinan con la siguiente expresin:
FC = 1 +
100
Como el valor en porcentaje se llama comnmente Tasa, la expresin, ms apropiada, para el Factor de
Crecimiento es:
FC = 1 +
100
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina29
EJEMPLO
La rentabilidad de un ttulo valor ha estado variando en las ltimas semanas como se presenta en la
siguiente tabla:
Renta-
Semana bilidad
1 3%
2 1%
3 -2%
4 0,7%
5 1,5%
6 1%
A qu tasa promedio semanal ha estado
variando la rentabilidad de este ttulo?
Para aplicar la frmula, las tasas de
rentabilidad se deben convertir a factores de
crecimiento
Renta-
Semana bilidad FC
1 3% 1,03
2 1% 1,01
3 -2% 0,98
4 0,7% 1,007
5 1,5% 1,015
6 1% 1,01
Con los factores de crecimiento, de la tercera columna, se calcula G
G = (1.03)(1.01)(0.98)(1.007)(1.015)(1.01)
6
G = 1.008557 (Factor de crecimiento promedio)
Como las unidades de este clculo son Factores de Crecimiento, para convertir este resultado en tasa, se
despeja sta de la ltima frmula
FC = 1 +
100
====>Tasa = ( FC 1 )x100
Por lo tanto:
Tasa promedio = (1.00856 1 ) x 100 = 0.856% 0.9%
Respuesta: El ttulo ha estado aumentado a una tasa promedio del 0.9% semanal
Cuando los datos se presentan en valores absolutos, pero, se debe calcular un porcentaje promedio, los
factores de crecimiento se determinan como se indica en el siguiente ejemplo:
EJEMPLO
Las ventas anuales de una empresa, en millones de pesos, se presentan en la tabla No.1. A qu tasa
promedio anual estn variando las ventas de esta empresa?
TABLA No.2 Obsrvese que no se puede calcular el factor de crecimiento
TABLA No.1
Ventas
AO
(Millone
s)
2001 68
2002 75
2003 32
2004 59
2005 73
2006 92
2007 108
Obsrvese que se pide la tasa promedio de
crecimiento, que es un valor relativo y no la
venta promedio anual, que es un valor
absoluto.
Para convertir las ventas, que son valores
absolutos, en factores de crecimiento, se
divide el valor de un periodo cualquiera entre
el valor del periodo inmediatamente anterior.
Por ejemplo, el factor de crecimiento del ao
2004 se consigue dividiendo 59 entre 32
Los dems clculos se muestran en la tabla
No.2
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina30
Ventas
AO
(Millone
s) FC
2001 68
2002 75 1,1029
2003 32 0,4267
2004 59 1,8438
2005 73 1,2373
2006 92 1,2603
2007 108 1,1739
del ao 2001 porque no se conocen las ventas del ao 2000.
Con los datos de la tercera columna, FC, se calcula G
G = (1.1029)(0.4267)(1.8438)(1.2373)(1.2603)(1.1739)
6
G = 1.08017 (Factor de Crecimiento promedio)
Tasa Promedio = (1.08017 1) x 100 = 8.017%
Respuesta: Las ventas estn creciendo a una tasa promedio
del 8% anual
Tambin se puede calcular la media geomtrica para el caso de valores que varan en funcin del tiempo y
slo se conocen los valores inciales y finales del periodo, como se puede ver en el siguiente ejemplo:
EJEMPLO
Una persona invirti $25 millones a 3 aos, recibiendo al final de este periodo la suma de $33,306 millones
A qu tasa promedio mensual creci esta inversin?
La expresin de la media geomtrica para casos como este es la siguiente:
G =
inicial valor
final valor
n
Donde n es el nmero de periodos de tiempo durante el intervalo de la inversin
Para el caso del ejemplo la expresin se aplica as:
G =
33.306
25
36
= 1.00800 (Factor de Crecimiento promedio)
Como la tasa que se pide es mensual el nmero de periodos es 36, por lo tanto, el ndice de la raz es 36
Para calcular la tasa promedio se aplica la expresin:
Tasa = ( FC 1 )x100
Tasa promedio = (1.008 1) x 100
Tasa promedio = 0.8%
Es decir, la inversin est creciendo, en promedio al 0.8% mensual.
12.2 PROPIEDADES DE LA MEDIA GEOMTRICA
La media geomtrica siempre es menor o igual a la media aritmtica, es decir: G
12.3 USOS DE LA MEDIA GEOMTRICA
La media geomtrica se utiliza para calcular promedios de cantidades expresadas en porcentajes o en
proporciones
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina31
13. LA MEDIANA
La mediana es el valor que ocupa la posicin central de un conjunto de datos cuando estos estn ordenados
de menor a mayor.
Para aclarar este concepto veamos el siguiente ejemplo:
EJEMPLO
La siguiente tabla presenta las notas obtenidas por una muestra de estudiantes en un examen
ESTUDIANTE
NOTA
ESTUDIANTE
NOTA
R. Martnez 4.3 L. Rueda 2.9
P. Ardila 1.7 J. Zrate 4.0
M. Castellanos 3.8 G. Torres 1.2
A. Manjarrs 4.8 Z. Bentez 4.7
O. Len 3.5
Ordenando estos datos de menor a mayor donde el menor est en el extremo izquierdo y el mayor en el
extremo derecho de la fila se tiene:
1.2 1.7 2.9 3.5 3.8 4.0 4.3 4.7 4.8
El nmero que ocupa la posicin central es 3.8 porque por debajo de l hay 4 datos y por encima otros 4, por
lo tanto, 3.8 es el valor mediano
13.1 INTERPRETACIN DE LA MEDIANA
El docente que tom la muestra podra describir el comportamiento de los estudiantes en la prueba diciendo
que la mitad de las notas de la muestra se encuentran por debajo de 3.8 o por encima de 3.8
Alternativamente, el docente podra haber utilizado el promedio o media aritmtica para describir el
comportamiento de los estudiantes en la muestra, como se vio anteriormente, pero, la mediana, entonces, es
otra manera de describir una situacin que es diferente de la media aritmtica
13.2 SMBOLO DE LA MEDIANA
El smbolo utilizado, en estas notas, para representar la mediana es:
una equis con una onda en la parte superior que se lee equis mediana
El clculo de la mediana para el caso de las notas se expresa as:
= 3.8
13.3 CLCULO DE LA MEDIANA PARA DATOS NO AGRUPADOS
Nmero impar de datos
Cuando en nmero de datos que componen la muestra es impar, como en el ejemplo de las notas, la
mediana se puede calcular por simple inspeccin como se hizo anteriormente. Pero, para situaciones que
representen un mayor nmero de datos existe una expresin matemtica que es la siguiente.
= Xn+1
2
Esta expresin indica que el valor mediano ocupa la posicin (n + 1)/2 cuando los datos estn ordenados en
orden ascendente
Para aplicar esta expresin es preciso ordenar, entonces, los datos en orden ascendente e indicar la
posicin u orden de cada dato como se muestra a continuacin:
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina32
X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
1.2 1.7 2.9 3.5 3.8 4.0 4.3 4.7 4.8
Los Xi indican la posicin de cada dato, por ejemplo, X
7
indica que 4.3 ocupa la sptima posicin cuando
los datos estn ordenados de forma ascendente
Como el nmero de datos es 9, entonces (n+1)/2 es igual a 5, esto quiere decir que el valor mediano es el
valor que ocupa la quinta posicin cuando los datos estn ordenados de menor a mayor
= X
5
= 3.8
tal como se haba establecido anteriormente por simple inspeccin
Nmero par de datos
Cuando el nmero de datos sin agrupar es par, la expresin para calcular la mediana es la siguiente.
=
2
1 2 / 2 / +
+
n n
X X
Esto quiere decir que el valor mediano es el resultado de promediar los valores que ocupan las posiciones
2 / n
X y
1 2 / + n
X
Para explicar esta expresin veamos el siguiente ejemplo:
EJEMPLO
Una muestra de las estaturas, en metros, de 10 estudiantes de una clase se presentan en la siguiente tabla:
ESTUDIANTE
ESTATURA
ESTUDIANTE
ESTATURA
M. Rodrguez 1.75 G. Lpez 1.69
L. Snchez 1.68 H. Nez 1.57
D. Rojas 1.81 T. Garca 1.77
J. Acevedo 1.65 R. Orduz 1.62
F. Daz 1.73 P. Pinzn 1.71
Al ordenar estos datos de forma ascendente e indicar la posicin de cada uno de ellos se llega a la siguiente
tabla:
X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8
X
9
X
10
1.57 1.62 1.65 1.68 1.69 1.71 1.73 1.75 1.77 1.81
Como se puede observar, en esta ocasin, no existe un valor nico que se localice en el centro del conjunto
de datos ordenado, los valores X
5
y X
6
ocupan el centro de este conjunto y la mediana se localiza en el
punto medio entre estos dos datos , por lo que para establecer su valor se promedian 1.69 y 1.71 as:
=
2
6 5
X X +
=
2
71 . 1 69 . 1 +
= 1.70
Este valor se interpreta como que la mitad de los estudiantes de esta muestra miden menos de 1.70 metros
se deja al lector de estas notas, que como ejercicio, verifique que la expresin de la mediana para nmero
par de datos produce el mismo resultado anterior
13.4 CLCULO MEDIANA PARA DATOS AGRUPADOS
Recordemos que cuando se habla de datos agrupados nos referimos a datos agrupados en clases
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina33
Se presentan dos casos para el clculo de la mediana
Primer Caso
La frecuencia absoluta acumulada, FAA, hasta alguna de las clases, de la distribucin de frecuencias,
coincide con la cantidad total de datos dividida entre 2, es decir, ( n / 2), como se puede ver en el siguiente
ejemplo:
EJEMPLO
Los ingresos en una semana, en millones de pesos, de una muestra de tabernas se presenta en la siguiente
tabla:
clase Ingresos No. De
No. (Millones de $) tabernas FAA
1 1,6 1,9 6 6
2 1,9 2,2 11 17
3 2,2 2,5 18 35
4 2,5 2,8 25 60
5 2,8 3,1 29 89
6 3,1 3,4 20 109
7 3,4 3,7 11 120
Suma 120
Como se puede observar el nmero de datos de la muestra n es 120, por lo tanto, n/2 es 60 y este valor
coincide con la frecuencia absoluta acumulada, FAA, hasta la cuarta clase. En este caso la mediana es igual
al lmite superior de la cuarta clase, es decir:
= Lmite superior de la clase = $2.8 millones
Este valor se puede interpretar diciendo que la venta mnima de la mitad de las tabernas de la muestra fue
de $2.8 millones
Segundo caso
El clculo del total de datos de la muestra dividido entre 2, n/2, no coincide con el valor de la frecuencia
absoluta acumulada, FAA, de ninguna de las clases
Para calcular la mediana en este caso se utiliza la siguiente frmula de interpolacin:
=
+ A
(
i
i
FA
FAA n
1
2 /
es la frecuencia absoluta acumulada hasta la clase anterior a la clase que contiene la mediana
42
112 5 . 139
= $1.096 miles
esto quiere decir que la mitad de los clientes de la muestra tenan un saldo, al final del mes observado,
inferior a $1.096.000
14. MEDIDAS DE TENDENCIA NO CENTRAL O DE POSICIN
14.1 LOS CUARTILES
Los cuartiles son tres valores que se determinan o calculan a partir de un conjunto de datos, con la
particularidad de que dividen el conjunto de datos en cuatro partes iguales cuando este conjunto est
ordenado en forma ascendente. Estos valores son:
Primer cuartil o Q1: Es el valor por debajo del cual se encuentran la cuarta parte de los datos o 25% de los
datos cuando estn ordenados de menor a mayor
Segundo cuartil o Q2: Es el valor por debajo del cual se encuentran la mitad de los datos o 50% de los
datos cuando estn ordenados de menor a mayor, es decir, es la misma mediana
Tercer cuartil o Q3: Es el valor por debajo del cual se encuentran las tres cuartas partes de los datos o 75%
de los datos cuando estn ordenados de menor a mayor
Precisemos estas ideas con el siguiente ejemplo:
EJEMPLO
El nmero de clientes que atendieron en un da once vendedores de un centro comercial escogidos al azar
se presenta en la siguiente tabla
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina35
Nmero de clientes atendidos por vendedor
15 5 20 10 23 8 3 13 18 28 32
Este conjunto de datos ordenando de menor a mayor se muestra en la siguiente tabla:
Nmero de clientes atendidos por vendedor
3 5 8 10 13 15 18 20 23 28 32
Q1 Q2 Q3
Como se puede observar los nmeros 8, 15 y 23 dividen el conjunto en cuatro partes iguales. Estos valores
reciben, respectivamente, los nombres de Primer Cuartil, Segundo Cuartil y Tercer Cuartil
14.1.1 CUARTILES PARA DATOS NO AGRUPADOS
Revise el material CUARTILES Y PERCENTILES PARA DATOS NO AGRUPADOS, de estos mismos
apuntes
14.1.2 CUARTILES PARA DATOS AGRUPADOS
Primer caso:
La frecuencia absoluta acumulada hasta alguna de las clases coincide con el valor de la operacin
Qi x n
100
Donde:
Q
i
es el valor del cuartil que se pretende calcular, es decir: 25, 50 o 75
n es el tamao de la muestra
En este caso el cuartil buscado es igual al lmite superior de la clase
EJEMPLO:
Las utilidades por accin del portafolio de inversiones de una empresa se presenta en la siguiente tabla:
UTILIDAD POR No. DE
ACCIN ACCIONES FAA
1300 1400 100 100
1400 1500 175 275
1500 1600 230 505
1600 1700 190 695
1700 1800 150 845
1800 1900 130 975
1900 2000 125 1100
1100
Clculo del primer cuartil:
100
=
25 x 1100
100
= 275
Como 275 es la FAA hasta la segunda clase,
entonces, el primer cuartil es igual al lmite
superior de esa clase, es decir:
Q
1
= 1.500
Una interpretacin: El 25% de las acciones, de
este portafolio, dan una utilidad inferior a
$1.500
Segundo caso:
La frecuencia absoluta acumulada, FAA, hasta cualquiera de las clases no coincide con el valor de la
operacin Qixn/100
En este caso, el clculo del cuartil se hace de manera parecida al segundo caso del clculo de la mediana.
La expresin que se utiliza es la siguiente:
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina36
+ A
(
i
i
FA
FAA Qxn
1
100 /
Es la frecuencia absoluta acumulada hasta la clase anterior a la clase que contiene el cuartil
100
=
75 1100
100
= 825
El tercer cuartil se encuentra en la clase cuya
FAA es inmediatamente superior a 825. A esta
clase se le llama clase i .Reemplazando en la
frmula se tiene:
Q
3
= 1700 +100 [
825 695
150
]
Q
3 =
$1787
Interpretacin: El 75% de las acciones tienen una utilidad inferior a $1787
14.2 LOS PERCENTILES
Los percentiles son valores que dividen un conjunto de datos en 100 partes iguales, cuando este conjunto
est ordenado de menor a mayor
Un percentil, por lo tanto, es un valor por debajo del cual se encuentra un determinado porcentaje de los
datos. Por ejemplo:
P
30
= 200 que se lee: Percentil 30 igual a 200, quiere decir que por debajo del valor 200, del conjunto
ordenado de datos, se encuentran el 30% de los datos.
14.2.1 PERCENTILES PARA DATOS NO AGRUPADOS
Revise el material CUARTILES Y PERCENTILES PARA DATOS NO AGRUPADOS, en estos mismos
apuntes
14.2.2 PERCENTILES PARA DATOS AGRUPADOS
Primer caso:
La frecuencia absoluta acumulada hasta alguna de las clases coincide con el valor de la operacin:
P x n
100
Donde:
P es el percentil que se quiere calcular
n es el tamao de la muestra.
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina37
S el percentil que se quiere calcular es igual al lmite superior de la clase cuya frecuencia absoluta
acumulada, FAA, coincide con el valor de la operacin
100
, entonces, el valor del percentil buscado es
igual al lmite superior de la clase
EJEMPLO
La siguiente tabla se refiere a una muestra, al azar, del tiempo que duraron las llamadas telefnicas
realizadas por el personal de oficina de una empresa
Duracin llamadas No. de
en minutos Llamadas FAA
0,0 2,0 46 46
2,0 4,0 67 113
4,0 6,0 44 157
6,0 8,0 31 188
8,0 10,0 25 213
Mas de 10,0 17 230
230
Clculo el percentil 20: P
20
100
=
20 230
100
= 46
Como 46 es la FAA hasta la primera clase,
entonces, el percentil 20 es igual al lmite
superior de esa clase, es decir:
P
20
= 2.0
Interpretacin: el 20% de las llamadas, de la
muestra, duraron menos de 2.0 minutos
Segundo caso:
La frecuencia absoluta acumulada, FAA, hasta cualquiera de las clases no coincide con el valor de la
operacin
100
En este caso, el clculo del percentil se hace de manera parecida al segundo caso del clculo de la
mediana. La expresin que se utiliza es la siguiente:
Pi =
+ A
(
i
i
FA
FAA Pxn
1
100 /
es la frecuencia absoluta acumulada hasta la clase anterior a la clase que contiene el percentil
100
=
70 230
100
= 161
El percentil buscado se encuentra en la
clase cuya FAA es inmediatamente
superior a 161. A esta clase se le llama
clase i. Reemplazando en la frmula se
tiene:
P
70
= 6.0 +2.0 [
161 157
31
]
P
70
= 6.26 minutos
EJEMPLO
Para el mismo ejemplo de la duracin de las llamadas Cul fue la duracin mnima del 40% de las
llamadas?
El valor que se pide es menor que el 40% de las llamadas, por lo tanto, este valor es superior al 60% de las
llamadas de la muestra, lo que quiere decir que se requiere calcular el percentil 60
15. PROPIEDADES DE LA MEDIANA, CUARTILES Y PERCENTILES
A la mediana, cuartiles y percentiles no los afectan los valores extremos
La mediana, cuartiles y percentiles se pueden calcular en distribuciones de frecuencias que tengan
clases de extremo abierto
Los clculos de la mediana, cuartiles y percentiles son ms complejos que los de las dems medidas de
tendencia central
La mediana, cuartiles y percentiles no se pueden operar matemticamente
Para calcular la mediana, cuartiles y percentiles los datos deben estar ordenados
16. LA MODA
La moda, de un conjunto de datos, es el valor que ms se repite dentro de ese conjunto.
16.1 SMBOLO DE LA MODA
El smbolo que se va a utilizar, en esta notas, para representar la moda es:
1
= 57 puntos
2
= 68 puntos
Cuando un conjunto de datos tiene ms de
una moda, como en este caso, se llama
conjunto de dato Polimodal
Interpretacin: Cuando un conjunto de datos tiene ms de una moda, esta medida de tendencia central no
es til para describir el comportamiento de los datos
EJEMPLO
El tiempo, en horas, que gastan los buses de una empresa de transportes en realizar el viaje entre dos
ciudades determinadas, en una muestra de recorridos escogidos al azar, se presenta en la siguiente tabla:
6,8 5,5 6,1 6,4 6,2
5,7 6,3 5,6 5,1 6,9
7,0 7,4 6,6 6,0 5,4
6,5 6,7 5,8 5,9 7,5
A simple vista se puede establecer que
ninguno de los datos se repite por lo que este
conjunto de datos no tiene moda. Por lo tanto,
no se puede utilizar la moda para describir el
comportamiento de los datos de esta muestra
16.3 MODA PARA DATOS AGRUPADOS
Primer caso: Datos de variable discreta agrupados en clases de amplitud igual a cero
En este caso la moda corresponde al valor de la variable que tiene la frecuencia ms alta
EJEMPLO
Una muestra del nmero de motocicletas que vende por semana un distribuidor se presenta en la siguiente
tabla:
No. de No. de
Motos Semanas
0 1
1 3
2 5
3 12
4 19
5 16
6 10
ms de 6 4
La ms alta frecuencia corresponde a 19
semanas y el valor de la variable para esta
frecuencia es de 4 motos por semana, por lo
que la moda es 4, es decir:
= 4 motocicletas por semana
Interpretacin: El volumen de venta ms
frecuente es de 4 motos por semana
Segundo caso: Datos de variable cualitativa
Aqu, tambin, la moda corresponde al valor de la variable que tiene la ms alta frecuencia
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina40
EJEMPLO
Se pregunt a una muestra de profesionales, escogidos al azar, por la marca de celular que utilizan y el
resultado se presenta en la siguiente tabla:
Marca de No. de
Celular Profesionales
Sony 18
Motorola 32
L. G. 15
Nokia 47
Samsung 30
iPhone 10
Otras marcas 5
La ms alta frecuencia corresponde a la marca
Nokia, por lo tanto, esta es la moda, es decir:
= Nokia
Interpretacin: La marca de celular que con
ms frecuencia utilizan los profesionales, de la
muestra, es Nokia
Como se puede observar se puede calcular la
moda para datos de variable cualitativa
Tercer caso: Datos de variable discreta o continua agrupados en clases de amplitud mayor que cero
Se aplica la frmula como se muestra en el siguiente ejemplo
EJEMPLO
Utilizando un radar de carretera los agentes de trnsito tomaron una muestra de la velocidad, en kilmetros
por hora, a la que se desplazan los vehculos al pasar por un puente. Los resultados estn en la siguiente
tabla:
Clase Velocidad No. de
No. (Kmts / hora) Vehculos
1 Hasta 40 7
2 40 50 36
3 50 60 44
4 60 70 61
5 70 80 55
6 80 90 19
7 Mas de 90 14
En este caso, la moda se encuentra en la
clase que tiene la ms alta frecuencia. Esta
clase es la No.4 que corresponde al intervalo
de 60 a 70 kilmetros por hora. Para saber en
qu punto de este clase se encuentra la moda
se aplica la siguiente expresin:
= LI + A[
1
+
2
]
LI es el lmite inferior de la clase que contiene la moda
A es la amplitud de las clases
es la diferencia entre la frecuencia absoluta de la clase que contiene la moda y la frecuencia absoluta de
la clase anterior a la clase que contiene la moda
es la diferencia entre la frecuencia absoluta de la clase que contiene la moda y la frecuencia absoluta de
la clase posterior a la clase que contiene la moda
Aplicando la frmula al ejemplo se tiene:
1
= 61 44 = 17
2
= 61 55 = 6
Interpretacin: Lo ms comn es que los
vehculos de la muestra se desplacen por el
puente a 67.39 Kmts / hora
= 60 + 10[
17
17+6
] = 67.39 Kmts / hora
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina41
16.4 PROPIEDADES DE LA MODA
La moda se puede calcular en situaciones de variables cualitativitas y cuantitativas
A la moda no la afectan los valores extremos
La moda se puede calcular en distribuciones de frecuencias que tengan clases de extremo abierto
Existen conjuntos de datos que no tienen moda o que tienen ms de una moda
La moda no se puede operar matemticamente
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina42
CASOS ESPECIALES DE LA MEDIANA
DISTRIBUCIONES DE FRECUENCIAS DE VARIABLE DISCRETA CON AMPLITUD IGUAL A CERO
Para calcular la mediana, cuando se tienen distribuciones de frecuencia con amplitud igual a cero y datos
correspondientes a variable discreta se tiene dos casos
PRIMER CASO
La frecuencia acumulada hasta cualquiera de las clases es diferente de n/2
Este caso se presenta cuando ninguno de los valores de la columna de frecuencias relativas acumuladas o
FAA coincide con el tamao de la muestra dividida entre 2, es decir, n/2
EJEMPLO
La siguiente tabla se refiere a una muestra del nmero de computadores que vendieron en un mes 112
tiendas de tecnologa del pas escogidos al azar
No. De unidades No. De
vendidas tiendas
0 1
1 12
2 18
3 23
4 21
5 19
6 18
112
La distribucin de frecuencias acumuladas de este ejemplo se presenta en la siguiente tabla, donde se
encuentra que n/2 es igual a 112/2 = 56
No. De unidades No. De
vendidas tiendas FAA
0 1 1
1 12 13
2 18 31
3 23 54
4 21 75
5 19 94
6 18 112
112
Como se observa ningn valor de FAA coincide con n/2
en este caso la mediana se encuentra en la clase cuya FAA sea ms prxima por arriba a n/2. Este valor es
75, entonces, la mediana se encuentra en la clase 4 (LI=4 y LS=4),. Por lo tanto la mediana es 4, es decir:
= 4
SEGUNDO CASO
Algn valor de la frecuencia absoluta acumulada coincide con n/2
Este caso se da cuando en la distribucin de frecuencias de la frecuencia absoluta acumulada, FAA, algn
valor de esta columna, es igual al tamao de la muestra dividido por 2, es decir, n/2
EJEMPLO
Se tom una muestra del nmero de estufas elctricas que vendieron en el ao una muestra de
distribuidores escogidos al azar
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina43
No. De unidades No. De
vendidas distribuid.
10 12
11 18
12 17
13 22
14 15
15 10
94
n/2 es igual a 94/2 = 47
No. De unidades No. De
vendidas distrbiud. FAA
10 12 12
11 18 30
12 17 47
13 22 69
14 15 84
15 10 94
94
Como se puede ver un valor de la columna FAA coincide con n/2. En este caso la mediana se encuentra
entre las clases 12 y 13 y para calcularla se promedian estos dos valores.
= (12 +13)/2 = 12.5
Este resultado se puede interpretar de dos maneras as:
La mitad de los distribuidores de la muestra vendieron 12 o menos unidades
La mitad de los distribuidores de la muestra vendieron 13 o ms unidades
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina44
MEDIDAS DE DISPERSIN
Se haba dicho anteriormente que el objetivo de las medias de tendencia central es describir (parcialmente),
el comportamiento de un conjunto de datos que pertenezcan a una muestra o a una poblacin. Sin embargo,
esta capacidad descriptiva de las medidas de tendencia central es parcial porque es necesario
complementarla con otra caracterstica de las muestras y poblaciones que es la dispersin.
Para introducir el concepto de dispersin se presenta el siguiente caso:
EJEMPLO
Las ventas mensuales, en millones de pesos, de dos empresas se presentan en las siguientes tablas:
DISEOS GALAXIA
VENTAS
MENSUALES No. De
(MILLONES) MESES
10 14 11
14 18 32
18 22 19
22 26 12
26 30 7
30 34 5
86
CREACIONES ARMANY
VENTAS
MENSUALES No. De
(MILLONES) MESES
6 10 14
10 14 13
14 18 16
18 22 11
22 26 10
26 30 10
30 34 7
34 38 5
86
Al calcular la venta promedio mensual
de estas dos muestras se encuentra que
es igual para ambas con un valor de
$19,395 millones, por lo que se podra
pensar que ambas empresas tienen un
comportamiento similar en cuanto a las
ventas. Sin embargo, si se comparan
sus polgonos de frecuencias como se
hace en el grfico de la izquierda, se
puede ver que sus ventas siguen
patrones de comportamiento muy
diferentes.
La diferencia se encuentra, entonces, en
que las dos muestras tienen diferente
dispersin de sus datos alrededor de
la media.
Los ventas de Diseos Galaxia son
menos dispersas que las ventas de
Creaciones Armany
CONCEPTO DE DISPERSIN
Se llama DISPERSIN al grado de variabilidad o de dispersin de un conjunto de datos alrededor de algn
valor que se toma como referencia. Usualmente se toma como referencia alguna de las medidas de
tendencia central.
0
5
10
15
20
25
30
35
4 8 12 16 20 24 28 32 36 40
M
e
s
e
s
Millones de pesos
ARMANY
GALAXIA
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina45
DISPERSIN Y VARIABILIDAD
La variabilidad hace referencia a qu tan diferentes son entre s los datos de una muestra o una poblacin.
La dispersin y la variabilidad son conceptos sinnimos como se puede ver en los siguientes ejemplos:
NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
1 2 3 4 5 6 7 8 9 10
3,8 3,8 3,8 3,8 3,8 3,8 3,8 3,8 3,8 3,8
En este caso todas las notas son iguales, por lo tanto, no hay ninguna variabilidad y ninguna dispersin
NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
1 2 3 4 5 6 7 8 9 10
3,8 3,8 3,8 3,8 3,8 3,8 4,7 3,8 3,8 3,8
Ahora hay una nota diferente a las dems, por lo tanto, existe una pequea variabilidad entre los datos y una
pequea dispersin con respecto a la primera muestra
NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
1 2 3 4 5 6 7 8 9 10
3,0 3,5 3,8 2,5 3,8 3,7 4,7 3,8 3,9 1,9
En esta ltima muestra, hay un aumento notorio en la variabilidad entre los datos y en la dispersin con
respecto a la muestra anterior
Es preciso resaltar, que la dispersin es un concepto relativo, siempre se evala comparando una muestra o
poblacin con algn valor de referencia o con otra muestra o poblacin
IMPORTANCIA DE LA DISPERSIN
Para que una medida de tendencia central sea representativa de los datos que la originaron se requiere que
su valor sea similar a los datos de esa muestra o poblacin que pretende describir, como se puede ver en el
siguiente ejemplo:
MUESTRA DE BAJA DISPERSIN
NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
1 2 3 4 5 6 7 8 9 10
3,2 3,5 3,8 3,5 3,8 3,7 3,6 3,8 3,9 3,5
= 3,6
MUESTRA DE ALTA DISPERSIN
NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
1 2 3 4 5 6 7 8 9 10
0,1 3,5 0,7 5,0 1,0 4,7 4,9 3,8 3,9 0,9
= 2,9
Como se puede observar, en la muestra de baja dispersin, el valor del promedio es similar o est cerca de
los valores de la muestra, en cambio, en la muestra de alta dispersin, ninguno de los valores de la muestra
es parecido al valor de la media. Por lo tanto, el promedio de la primera muestra es verdaderamente
representativo de los datos de esta muestra y el de la segunda muestra no lo es.
El concepto de dispersin, entonces, es importante porque entre mayor sea la dispersin de un conjunto de
datos, menor es la fuerza representativa que tiene la medida de tendencia central calculada con esos datos
CLASES DE MEDIDAS DE DISPERSIN
Las medidas de dispersin que se van a estudiar en estos apuntes son las siguientes:
El Rango
El Rango Intercuartlico
La Desviacin Media
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina46
La Varianza
La desviacin Estndar
EL RANGO
Es la diferencia o distancia entre el mayor valor, de un conjunto de datos y el valor menor. Este concepto ya
se haba mencionado para agrupar los datos en clases estadsticas, por lo tanto se utilizar para enunciarlo
el mismo smbolo, es decir la letra R, es decir,
R = X
max
- X
min
EJEMPLO
Calcular el rango de los siguientes conjuntos de datos
NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
1 2 3 4 5 6 7 8 9 10
3,2 3,5 3,8 3,5 3,8 3,7 3,6 3,8 3,9 3,5
R = 3,9 - 3,2 = 0,7
NOTAS DE UNA MUESTRA DE 10 ESTUDIANTES
1 2 3 4 5 6 7 8 9 10
0,1 3,5 0,7 5,0 1,0 4,7 4,9 3,8 3,9 0,9
R = 5,0 - 0,1 = 4,9
La dispersin de la muestra de la izquierda, medida por el rango, es menor que la dispersin de la muestra
de la derecha
El clculo anterior se realiz con muestras de datos que no estn agrupados. Cuando los datos ya estn
agrupados en clases el rango se establece restando del valor del lmite superior de la clase mas alta el valor
del lmite inferior de la clase mas baja. En smbolos:
R = LS
clase ms alta
- LI
clase ms baja
EJEMPLO
Una muestra de las facturas que se cancelan con tarjetas de crdito en una cadena de almacenes de modas
se presenta en la siguiente tabla
Ventas No. de
(Miles de $) Facturas
30 36 25
36 42 38
42 48 49
48 54 51
54 60 32
60 66 29
224
R = LS
clase ms alta
- LI
clase ms baja
R = 66 - 30 = $36 miles
Como no se tiene el rango de otro conjunto de datos o un valor de
referencia, para comparar, entonces, no se puede decir s este
conjunto de datos es o no disperso
CARACTERSTICAS DEL RANGO
Es fcil de entender y de calcular
Da una idea rpida de la dispersin
En el clculo nicamente se tienen en cuenta los valores mximo y mnimo
Vara mucho de una muestra a otra
No se puede calcular con distribuciones de frecuencia que tienen clases de extremo abierto
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina47
EL RANGO INTERCUARTLICO
Una de las desventajas del rango es que solamente se tienen en cuenta, para su clculo, los valores
mximo y mnimo, por lo que no indica como estn distribuidos internamente los datos. Esta desventaja se
puede corregir con el rango intercuartlico
Para simbolizar el rango intercuartlico se utiliza, en estas notas, R
Q
y se calcula restando la diferencia entre
el primero y el tercer cuartil, es decir:
R
Q
= Q
3
- Q
1
Este rango muestra la dispersin de la porcin ms central de los datos que abarca el 50% del total
EJEMPLO
Las distancias en kilmetros, recorrida en un da por dos muestras de vehculos se presentan en la siguiente
tabla
MUESTRA A
Distancia No. De
(Kilmetros) Vehculos
25 35 3
35 45 7
45 55 12
55 65 15
65 75 10
75 85 6
53
R = X
max
- X
min
= 60 Kmts
Q
1
= 47,7 Kmts Q
3
= 67,75 Kmts
R
Q
= 20,05Kmts
MUESTRA B
Distancia No. De
(Kilmetros) Vehculos
25 35 3
35 45 7
45 55 11
55 65 19
65 75 7
75 85 6
53
R = X
max
- X
min
= 60 Kmts
Q
1
= 48,0 Kmts Q
3
= 64,9 Kmts
R
Q
= 16,9 Kmts
Como se ve, aunque las dos muestras tienen el mismo rango, R, el rango intercuartlico es diferente, lo que
indica que la muestra B es menos dispersa que la muestra A
LA DESVIACIN MEDIA
Es la diferencia promedio, en valor absoluto, de los datos de la muestra o poblacin con respecto a su propia
media. La forma de la expresin de clculo vara dependiendo de que se trate de datos no agrupados o
datos agrupados
El smbolo que se utiliza en estos apuntes para la desviacin media son las iniciales DM
Desviacin media para datos no agrupados
DM =
|
Dnde:
DM: Smbolo de la desviacin media
Dnde:
DM : smbolo de la desviacin media
| |
200 220 12
210 -61,920 61,92 743,04
220 240 15
230 -41,920 41,92 628,8
240 260 23
250 -21,920 21,92 504,16
260 280 22
270 -1,920 1,92 42,24
280 300 20
290 18,080 18,08 361,6
300 320 18
310 38,080 38,08 685,44
320 340 15
330 58,080 58,08 871,2
125
3836,48
DM =
3836,48
125
= $30,7 miles
En promedio, los arriendos de la muestra, se diferencian de la media en $30,7 miles
La desviacin media tiene en cuenta, para su clculo, todos los datos de la muestra y es fcil de interpretar.
Pero, la operacin del valor absoluto para soslayar la propiedad anteriormente mencionada de los de los
|
3 -8,5 8,5
14 2,5 2,5
24 12,5 12,5
9 -2,5 2,5
7 -4,5 4,5
12 0,5 0,5
31
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina49
nmeros, da una descripcin incompleta de la situacin. Obsrvese que no se sabe s la diferencia de $30,7
miles, del ejemplo anterior, es por encima o por debajo de la media.
Parta evitar este inconveniente existe otra medida de dispersin que aprovecha otra propiedad de los
nmeros que consiste en que todo nmero elevado al cuadrado tiene signo positivo. Esta medida de
dispersin es la varianza.
LA VARIANZA
La Varianza, al igual que la desviacin media utiliza, para medir la dispersin, las desviaciones de los datos
con respecto a la media, pero, en este caso, estas desviaciones se elevan al cuadrado. Por lo tanto, se
puede decir que la varianza es el promedio de las desviaciones, de los datos, con respecto a la media
elevadas al cuadrado.
Para el clculo de la varianza, lo mismo que para las medidas de dispersin estudiadas anteriormente, se
debe tener en cuenta s los datos estn o no agrupados, pero, adicionalmente, el clculo de la varianza es
ligeramente diferente segn se trate con poblaciones o muestras, por lo que se utilizan smbolos diferentes
para indicar cada una de estas dos situaciones
VARIANZA POBLACIONAL
Es la varianza que se calcula utilizando todos los datos de una poblacin
Smbolo:
2
Varianza poblacional para datos no agrupados
2
=
(
)
2
Dnde :
)
2
60 -18,5 342,25
81 2,5 6,25
77 -1,5 2,25
72 -6,5 42,25
91 12,5 156,25
90 11,5 132,25
681,5
2
=
681,5
6
2
= 113,58 puntos al
cuadrado
Varianza poblacional para datos agrupados
2
=
(
)
2
)
2
(
)
2
39 49 5 44 -30,2 912,04 4560,20
49 59 11 54 -20,2 408,04 4488,44
59 69 50 64 -10,2 104,04 5202,00
69 79 31 74 -0,2 0,04 1,24
79 89 27 84 9,8 96,04 2593,08
89 99 18 94 19,8 392,04 7056,72
99 109 9 104 29,8 888,04 7992,36
151
31894,04
2
=
31894,04
151
= 211,22 Kilogramos al cuadrado
Ntese que si la poblacin es infinita no se puede calcular la varianza poblacional porque el valor de N sera
infinito.
VARIANZA MUESTRAL
Es la varianza que se calcula sobre los datos de una muestra. El clculo con respecto a la varianza
poblacional difiere en que, el divisor de la expresin ya no es N, el tamao de la poblacin, ahora es (n 1),
que es el tamao de la muestra, n, menos una unidad.
Smbolo:
2
Varianza muestral para datos no agrupados
2
=
(
)
2
1
Dnde:
)
2
157 -55,5 3080,25
62 -150,5 22650,25
234 21,5 462,25
532 319,5 102080,25
200 -12,5 156,25
90 -122,5 15006,25
143.435,50
2
=
143.435,5
(6 1)
2
= 28.687,10 miles de
pesos al cuadrado
Varianza muestral para datos agrupados
2
=
(
)
2
( 1)
Dnde:
)
2
(
)
2
0 2 10 1 -5,3 28,09 280,90
2 4 16 3 -3,3 10,89 174,24
4 6 33 5 -1,3 1,69 55,77
6 8 45 7 0,7 0,49 22,05
8 10 26 9 2,7 7,29 189,54
10 12 10 11 4,7 22,09 220,90
140
943,40
2
=
943,40
(140 1)
= 6,8 horas al cuadrado
Como se puede observar, en los ejemplos anteriores, todas las unidades de la desviacin estndar estn
elevadas al cuadrado por lo que es difcil interpretar el significado del valor de la varianza; esta en una de las
razones por las cuales, para medir la dispersin, se prefiere otra medida que es la Desviacin Estndar
LA DESVIACIN ESTNDAR
Conocida tambin como Desviacin Tpica, la desviacin estndar es la raz cuadrada de la varianza. Los
smbolos que se utilizan son , para clculo de la dispersin en poblaciones y s, para el clculo de la
dispersin en muestras
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina52
DESVIACIN ESTNDAR PARA POBLACIONES
Datos no agrupados
=
2
=
(
)
2
Datos agrupados
=
2
=
(
)
2
DESVIACIN ESTNDAR PARA MUESTRAS
Datos no agrupados
s=
2
=
(
)
2
( 1)
Datos agrupados
s=
2
=
(
)
2
( 1)
Las tablas de clculo para la desviacin estndar son idnticas a las que se utilizan para la varianza, con un
clculo adicional: extraer la raz cuadrada de la varianza
EJEMPLO
En un ejemplo anterior se vio que los puntajes de los aspirantes a un cargo, en una empresa fueron:
PUNTAJES
60 81 77 72 91 90
y se calcul que:
2
= 113,58 puntos al cuadrado
Por lo tanto,
=
2
= 113,58 = 10,7 puntos
EJEMPLO
En otro caso se estableci que el tiempo, en horas, que demora el almacn de materiales de una fbrica en
surtir los pedidos que recibe
Tiempo No. de
(Horas) pedidos
0 2 10
2 4 16
4 6 33
6 8 45
8 10 26
10 12 10
140
Y se calcul que:
2
= 6,8 horas al cuadrado
Por lo tanto:
s=
2
=
COEFICIENTE DE VARIACIN DE MUESTRAS
SMBOLO : CV
CV =
El coeficiente de variacin es un nmero sin dimensiones por lo que se puede expresar en fracciones
decimales o en porcentaje
EJEMPLO
Se tomaron muestras de las ventas diarias, en miles de pesos, de dos vendedores de una empresa. Cul
de las dos muestras es ms dispersa?
VENTAS DEL VENDEDOR A
500 450 390 600 290 400 440
= $438,6 miles
S = $96,5 miles
CV = 0,22
VENTAS DEL VENDEDOR B
80 25 23 57 90 10
= $47,5 miles
S = $33,1 miles
CV = 0,70
Como se puede notar, la desviacin estndar del vendedor A es mayor que la desviacin estndar del
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina54
vendedor B; sin embargo, las ventas de la muestra del vendedor A son menos dispersas que las ventas de la
muestra del vendedor B, porque el coeficiente de variacin de las ventas del vendedor A es menor que el
coeficiente de variacin de las ventas del vendedor B
EJEMPLO
Una muestra de las ventas por da de un almacn de ropa de moda y un gran distribuidor textil se presentan
en la siguientes tablas. Cul de los dos promedios de ventas por da es ms confiable?
JEANS AND BREECHES
VENTAS POR DA
(Millones de pesos)
Ventas No. de
por da das
0,9 1,1 3
1,1 1,3 9
1,3 1,5 16
1,5 1,7 23
1,7 1,9 29
1,9 2,1 20
2,1 2,3 11
111
DISTRIMODA
VENTAS POR DA
(Millones de pesos)
Ventas No. de
por da das
9,2 10,3 12
10,3 11,4 16
11,4 12,5 25
12,5 13,6 19
13,6 14,7 10
14,7 15,8 9
91
Solamente se necesita establecer la marca de clase de ambas tablas y el resto de los clculos se realizan
directamente aplicando las funciones estadsticas de las calculadoras cientficas
JEANS AND BREECHES
VENTAS POR DA
(Millones de pesos)
Ventas No. de
por da das
X
i
0,9 1,1 3 1,0
1,1 1,3 9 1,2
1,3 1,5 16 1,4
1,5 1,7 23 1,6
1,7 1,9 29 1,8
1,9 2,1 20 2,0
2,1 2,3 11 2,2
111
= 1,706306306 CV = 0,17868609
S = 0,30489321
DISTRIMODA
VENTAS POR DA
(Millones de pesos)
Ventas No. de
por da das
X
i
9,2 10,3 12 9,75
10,3 11,4 16 10,85
11,4 12,5 25 11,95
12,5 13,6 19 13,05
13,6 14,7 10 14,15
14,7 15,8 9 15,25
91
= 12,26428571 CV = 0,13255294
S = 1,62566714
Respuesta: Es ms confiable el promedio diario de Distrimoda porque tiene el menor coeficiente de variacin
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina55
DESIGUALDAD DE CHEBYSHEV
Es una regularidad que se presenta en todas las distribuciones de frecuencias y consiste en que, sin
importar la forma de la distribucin de frecuencias, la porcin mnima de datos que se encuentra en un
intervalo comprendido entre K desviaciones estndar por debajo y por encima de la media aritmtica es:
1 -
1
2
Donde K es cualquier nmero mayor que 1
Los lmites de este intervalo se encuentran, por lo tanto, por debajo y por encima de la media aritmtica. Al
lmite que est por debajo de la media se le llama lmite inferior o LI y al lmite que est por encima se le
llama lmite superior o LS. Las expresiones para estos lmites son:
LI = -Ks
LS = + Ks
Donde s es la desviacin estndar de la distribucin de frecuencias
EJEMPLO
Una muestra del tiempo que tienen que esperar los afiliados a una EPS para que los atiendan en el servicio
de urgencias de una clnica dio una media aritmtica de 32 minutos, con una desviacin estndar de 8,3
minutos. Entre qu intervalo de tiempo tuvieron que esperar como mnimo el 80% de los afiliados de la
muestra?
Esa porcin mnima es precisamente 1 1/K
2
, por lo tanto:
0,80 = 1 -
1
2
Despejando K de la anterior ecuacin se encuentra que K = 2,24
Entonces, los lmites del intervalo que se pregunta son:
LI = -Ks = 32 - 2,24(8,3) = 13,4 minutos
LS = + Ks= 32 + 2,24(8,3) = 50,6 minutos
La respuesta es que, por lo menos, el 80% de los afiliados a la EPS, de la muestra, tuvieron que esperar
entre 13,4 minutos y 50,6 minutos para ser atendidos en el servicio de urgencias
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina56
UNIDAD 3: REGRESIN Y CORRELACIN
REGRESIN
1. INTRODUCCIN
En muchas circunstancias de las actividades administrativas o cotidianas se encuentra que el
comportamiento de dos o ms hechos o situaciones parece estar relacionado de alguna manera, como por
ejemplo en los siguientes casos:
El nmero de vehculos que circulan por las vas de una ciudad y los ndices de contaminacin de la
misma
La tasa de desempleo y las ventas del comercio
Las ventas de licor y el nmero de accidentes de trnsito
Las horas de tutoras y el nmero de estudiantes que reprueban los parciales
El nmero de apartamentos construidos en un determinado periodo y las ventas de muebles
El nmero de personas que se movilizan en bus y las ventas de motos y el estado del clima
Existe una tcnica para establecer matemticamente la relacin que puede existir entre situaciones como
las sealadas anteriormente. Estas situaciones reciben el nombre de variables
2. CONCEPTO DE REGRESIN
Es un mtodo de clculo para establecer la relacin matemtica que existe entre dos o ms situaciones o
variables, que la observacin o el sentido comn indican que tienen comportamientos que estn
relacionados
3. IMPORTANCIA DE LA REGRESIN
Este mtodo aplicado al anlisis estadstico permite predecir matemticamente el comportamiento de una
variable a partir del comportamiento conocido de otra u otras variables. Esta relacin entre las variables se
establece a travs de una ecuacin que se llama Ecuacin de Regresin
4. VARIABLES DEPENDIENTES E INDEPENDIENTES
Al establecer la relacin entre dos variables se encuentra que el comportamiento de una variable depende
del comportamiento de otra u otras variables o que la manifestacin de una variable ocurre primero que la
manifestacin de otra u otras variables. A la variable que ocurre primero o que determina el comportamiento
de otra se le llama Variable Independiente y se suele representar por la letra X y a la otra variable se le
llama Variable Dependiente y se suele representar por la letra Y
EJEMPLOS:
Tasa de desempleo y ventas del comercio: La variable independiente o variable x es la tasa de
desempleo y la variable dependiente o variable y es las ventas del comercio
Accidentes de trnsito y ventas de licor: La variable independiente es las ventas de licor y la variable
dependiente los accidentes de trnsito
El nmero de personas que se movilizan en bus puede depender de las ventas de motocicletas y del
estado del clima, por lo que el nmero de personas que utilizan el servicio de bus es la variable
dependiente y las otras dos son las variables independientes
5. GRFICO DE DISPERSIN
Es la representacin grfica, en el plano cartesiano, en forma simultnea, de los valores que toman la
variable independiente (x) y la variable dependiente (y)
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina57
EJEMPLO
Se tomaron datos sobre el kilometraje recorrido por un vehculo y el consumo de gasolina, en galones, como
se presenta en la siguiente tabla:
Kilmetros Galones
X Y
30 5,95
50 8,55
10 2,35
40 9,25
60 13,85
20 6,75
La representacin grfica de los valores de esta tabla en el plano cartesiano, recibe el nombre de Grfico de
Dispersin como se muestra a continuacin:
6. TIPOS DE RELACIN ENTRE DOS O MS VARIABLES
La relacin entre dos o ms variables que como dijimos anteriormente matemticamente recibe el nombre
de regresin se puede clasificar de dos formas:
Atendiendo a la cantidad de variables que se relacionan se clasifica en Regresin Univariada o
Regresin Multivariada
Atendiendo a la representacin grfica de la ecuacin de regresin se clasifica en Regresin Lineal o
Regresin Curvilnea
Esta clasificacin se puede visualizar en la siguiente grfica:
0
2
4
6
8
10
12
14
16
0 10 20 30 40 50 60 70
G
a
l
o
n
e
s
c
o
n
s
u
m
i
d
o
s
Kilmetros recorridos
Grfico de dispersin
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina58
TIPOS DE REGRESIN
6.1 Regresin Univariada
Se presenta cuando slo interviene una variable independiente
6.2 Regresin Multivariada
Se presenta cuando interviene ms de una variable independiente
6.3 Regresin lineal
Se presenta cuando la representacin grfica de la ecuacin de regresin es una lnea recta.
6.4 Regresin Curvilnea
Se presenta cuando la representacin grfica de la ecuacin de regresin es una curva
Tanto la regresin lineal como la curvilnea tienen dos formas de manifestarse: en forma directa o en forma
inversa
7. Regresin Lineal Directa
Ocurre cuando al aumentar el valor de la variable independiente aumenta, proporcionalmente, el valor de la
variable dependiente. Por lo tanto, una recta parece describir de manera apropiada la relacin entre estas
variables, como se puede ver en el siguiente grfico
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina59
X Y
8 5
13 4
6 3
24 9
18 7
20 5
La curva de regresin
(una recta), que mejor
describe la relacin
entre estas dos
variables, se presenta
en la grfica de la
izquierda
0
1
2
3
4
5
6
7
8
9
10
0 5 10 15 20 25 30
Variable X
V
a
r
i
a
b
l
e
Y
0
1
2
3
4
5
6
7
8
9
10
0 5 10 15 20 25 30
v
a
r
i
a
b
l
e
Y
Variable X
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina60
8. Regresin Lineal Inversa
Ocurre cuando al aumentar el valor de la variable independiente disminuye el valor de la variable
dependiente en una proporcin similar
La curva de regresin (una recta), que mejor describe la relacin entre estas dos variables, se presenta
en la siguiente grfica:
0
5
10
15
20
25
30
0 5 10 15 20 25 30
V
a
r
i
a
b
l
e
Y
Variable X
0
5
10
15
20
25
30
0 5 10 15 20 25 30
v
a
r
i
a
b
l
e
Y
Variable X
X Y
19 9
3 24
16 11
24 6
8 14
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina61
9. Regresin Curvilnea Directa
Ocurre cuando al aumentar de valor la variable independiente, la variable dependiente aumenta mas que
proporcionalmente
X Y
16 12
18 21
8 6
12 7
17 17
10 8
La curva de regresin, que mejor describe la relacin entre estas dos variables, se presenta en la siguiente
grfica
0
5
10
15
20
25
0 5 10 15 20
V
a
r
i
a
b
l
e
y
Variable X
0
5
10
15
20
25
0 5 10 15 20
V
a
r
i
a
b
l
e
Y
Variable X
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina62
10. Regresin Curvilnea Inversa
Ocurre cuando al aumentar de valor la variable independiente, la variable dependiente disminuye de valor en
forma ms que proporcional
X Y
14 2
5 9
10 7
2 18
20 2
La curva de regresin, que mejor describe la relacin entre estas dos variables, se presenta en la siguiente
grfica:
0
2
4
6
8
10
12
14
16
18
20
0 5 10 15 20 25
V
a
r
i
a
b
l
e
Y
Variable X
0
2
4
6
8
10
12
14
16
18
20
0 5 10 15 20 25
V
a
r
i
a
b
l
e
Y
Variable X
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina63
11. Ninguna relacin
Ocurre cuando la relacin entre la variable dependiente e independiente no se puede describir con ningn
tipo de curva
X Y
13 8
2 5
15 4
5 3
4 10
7 7
12. LA REGRESIN LINEAL
Cuando los puntos del grfico de dispersin se pueden relacionar con una recta que pase lo mas cerca
posible de todos ellos, a esta recta se le llama Recta de Mnimos Cuadrados, porque la suma de las
distancias al cuadrado, de los puntos del grfico a esta recta es mnima
Esta recta tiene por ecuacin Y = A + B X, donde A es el punto donde la recta corta al eje Y, y B es la
pendiente de la recta. El proceso para determinar el valor de los parmetros A y B es complejo, pero, el
estudiante interesado lo puede consultar en cualquier texto de estadstica. En el curso, se determinarn
utilizando las funciones de las calculadoras cientficas.
13. EJEMPLO
Se compar el tiempo total que realmente dura encendido, de forma intermitente, un celular, con la duracin
de su batera, obteniendo los valores que se presentan en la siguiente tabla:
celular duracin
encendido batera
(segundos) (horas)
360 3,2
270 3,5
480 1,9
120 3,9
440 2,3
230 3,2
160 4,1
Como el tiempo de duracin de la batera depende del tiempo total, que de forma intermitente dura
encendido el celular, la variable dependiente es el tiempo de duracin de la batera y la variable
independiente el tiempo en segundos que dura encendido el celular, como se presenta a continuacin
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16
V
a
r
i
a
b
l
e
Y
Variable X
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina64
X Y
celular duracin
encendido batera
(segundos) (horas)
360 3,2
270 3,5
480 1,9
120 3,9
440 2,3
230 3,2
160 5,0
El grfico de dispersin de estos datos es el siguiente:
Trazando una recta que pase lo ms cerca posible de todos los puntos, el grfico queda as:
Entre ms tiempo dure el celular encendido menos tiempo durar la batera por lo que la relacin entre las
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
0 100 200 300 400 500 600
D
r
a
c
i
n
d
e
l
a
b
a
t
e
r
a
e
n
h
o
r
a
s
Duracin del celular encendido en segundos
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
0 100 200 300 400 500 600 D
u
r
a
c
i
n
d
e
l
a
b
a
t
e
r
a
e
n
h
o
r
a
s
Duracin del celular encendido en segundos
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina65
dos variables en inversa y la pendiente de la recta es, por lo tanto negativa. Adicionalmente, se observa que
la relacin entre las dos variables es de tipo lineal, donde los parmetros de la recta de regresin son:
A = 4,7764201
B = -0,0055024
Y la ecuacin de regresin que relaciona las dos variables es:
Y = 4,7764201 - 0,0055024X
Para un tiempo de encendido total intermitente del celular de 500 segundos, la duracin que se puede
esperar de la batera es:
Y = 4,7744201 - 0,0055024(500)
Y = 2 horas
LA CORRELACIN
El inters del analista no est solamente en establecer la forma como se relacionan dos variables, sino,
tambin, en medir que tan fuerte es el grado de esta relacin.
La regresin univariada es un caso extrao, lo comn es que en comportamiento total de una variable
dependiente sea el resultado de la interaccin de varias variables dependientes, como se muestra en las
siguientes grficas:
Como es lgico pensar, la influencia que tiene cada una de estas variables independientes en el
comportamiento total de la variable dependiente no es igual para todas las variables independientes. Habr
algunas variables independientes que determinan, en buena medida, el comportamiento de la variable
COSTO DE
REPARACIN
DE VAS
VOLUMEN DE TRFICO
CLIMA
TOPOGRAFA DEL TERRENO
CALIDAD DE LOS MATERIALES USADOS
CONSUMO DE
COMBUSTIBLE
DE UN
VEHCULO
KILOMETRAJE RECORRIDO
TIPO DE VEHCULO
MARCA
ESTADO MECNICO
ESTILO DE CONDUCCIN
TOPOGRAFA DE LA VA
EDAD DEL VEHCULO
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina66
independiente y, tambin, habr algunas variables independientes cuya influencia en el costo de reparacin
de vas o en el consumo de combustible, para estos ejemplos, es muy reducida.
Para cualquier observador que analice estas situaciones, es de capital importancia determinar cules son las
variables que ejercen un efecto notable en el comportamiento de otra, es decir, establecer la fuerza o
intensidad con la que una variable independiente y otra dependiente estn relacionadas. A esta fuerza o
intensidad se le llama Correlacin
1. EL COEFICIENTE DE CORRELACIN
Es una medida del grado en que una variable independiente influye en una variable dependiente
Este grado de la relacin entre dos variables se mide con un indicador que recibe el nombre de coeficiente
de correlacin.
El coeficiente de correlacin es un nmero adimensional que se representa por la letra r y toma valores entre
-1 y +1. El significado de estos valores que toma r es el siguiente:
S r = -1 r = +1 la correlacin entre las variables es perfecta, es decir, la fuerza de la relacin entre la
variable independiente y la variable dependiente, es la mxima posible. Esto quiere decir, que el
comportamiento de la variable dependiente depende completamente del comportamiento de la variable
dependiente
S r> 0, es decir, es positiva, la relacin entre las variables es directa
S r < 0, es decir, es negativa, la relacin entre las variables es inversa
S 0,9 r < 1 -1 < r - 0,9 la correlacin entre las variables se considera ptima
S r = 0 no existe correlacin entre las variables
Como el coeficiente de correlacin es un nmero adimensional se puede expresar tambin en porcentaje. Se
suele preferir valores de coeficientes de correlacin superiores al 90%
2. Relacin entre el coeficiente de correlacin y la pendiente de la recta de regresin
S la relacin entre las variables dependiente e independiente es directa el coeficiente de correlacin r y
la pendiente de la recta de regresin son ambos de signo positivo
S la relacin entre las variables dependiente e independiente es inversa el coeficiente de correlacin r y
la pendiente de la recta de regresin son ambos de signo negativo
3. EJEMPLO
Para el mismo caso de la duracin de la batera del celular, el valor del coeficiente de regresin es:
r = -94%
Que significa que la correlacin entre las dos variables es inversa y ptima
4. EL COEFICIENTE DE DETERMINACIN
El coeficiente de determinacin es el cuadrado del coeficiente de correlacin y explica el porcentaje de
cambio de la variable dependiente que se puede explicar por el cambio de la variable independiente. Por
ejemplo, un coeficiente de determinacin de 64% entre los litros de licor vendidos los fines de semana y el
nmero de accidentes de trnsito, en esos das, significa que el 64% de los accidentes de trnsito de los
fines de semana se pueden explicar por las ventas de licor
Para el mismo caso que estamos estudiando de la duracin de la batera del celular, el coeficiente de
determinacin es:
r
2
= 88%
Que significa que el 88% de las variaciones en la duracin de la batera del celular se deben a las
variaciones en el tiempo total que demora el celular prendido de forma intermitente
UNIDADES TECNOLGICAS DE SANTANDER
DEPARTAMENTO DE CIENCIAS BSICAS VERSIN 10 FECHA: 2014 Pgina67
BIBLIOGRAFA
LEVIN y RUBIN Estadstica para Administradores. Sptima edicin. Editorial THOMSON
MARTNEZ B, Ciro. Estadstica y Muestreo. Dcimo Tercera edicin. Editorial ECOE
LIND, MARCHAL Y OTRO. Estadstica Aplicada a los Negocios y la Economa Dcimo Quinta edicin.
Editorial McGraw Hill
ANDERSON, SWEENEY Y OTRO. Estadstica para Administracin y Economa. 11 edicin. Editorial
CENGAGE LEARNING