Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MODULO ESTADISTICA DESCRIPTIVA 19 Mayo 2014 PDF
MODULO ESTADISTICA DESCRIPTIVA 19 Mayo 2014 PDF
Docente:
Especialista en Estadística
UNIVERSIDAD DE NARIÑO
PASTO, 2014
CONTENIDO
ESTADISTICA DESCRIPTIVA.
DEFINICION DE ESTADISTICA
La estadística es una ciencia que estudia los métodos, normas, reglas, leyes para la recolección,
organización y análisis de datos, para sacar conclusiones válidas y tomar decisiones acertadas.
VARIABLES ESTADISTICAS.
Una variable estadística es una característica la cual al ser observada en diferentes individuos nos
genera resultados distintos.
Las variables CUANTITATIVAS son aquellas que las podemos medir mediante un número.
Las variables cuantitativas continúas son aquellas, que pueden tomar cualquier valor entre dos
valores, o más fácilmente, aquellas que admiten decimales, por ejemplo, El salario de una
persona, las utilidades diarias de un negocio, la puntuaciones en un examen, el cociente
intelectual, etc.
Las variables cuantitativas discretas son aquellas que admiten, únicamente valores enteros, por
ejemplo, el número de personas que habita en una casa, el número de estudiante en un curso de
economía, la cantidad de familias que tienen acceso directo a internet, la cantidad de
microempresa en una región, etc.
Las variables CUALITATIVAS son aquellas que representan, una propiedad, un atributo.
Las variables cualitativas ordinales son aquellas que además de representar una propiedad, las
podemos ordenar. Es decir podemos determinar cuál va de primero, segundo, tercero,…., como
por ejemplo: El nivel educativo de una persona, ( sin estudio, primarios, secundarios, tecnólogo,
pregrado o universitarios, especialista, master, Doctor, PD). Otra variable ordinal, puede ser la
apreciación de cierta marca de computadores por un usuario: mala, regular, buena, excelente. El
premio que adquiere un deportista en los olímpicos: Bronce, plata, oro.
SUMATORIA Y PRODUCTORIA (opcional)
SUMATORIA( ).
En las fórmulas que utilizamos para obtener varios resultados en estadística usamos las letras
griegas. El símbolo, , el cual se lee “sumatoria” se utiliza para simplificar una suma de términos.
Esta letra griega “sigma “ se acompaña con un valor inicial de la variable y un límite superior
hasta donde toma el valor la variable, este valor va cambiando de uno en uno. El símbolo, ,
significa que los términos que se obtienen al remplazar el valor de la variable se suman del
primero hasta el último, en el caso de que la suma termine.
En algunos casos el límite superior de la sumatoria es infinito, , y se obtiene una serie, así:
∑
Ejercicio.
) ∑
) ∑
) ∑
Solución.
) ∑
) ∑
) ∑
PRODUCTORIA ( ).
El símbolo , , el cual se lee “productoria”, se utiliza para simplificar un producto de términos. Esta
letra griega “pi” se acompaña con un valor inicial de la variable y un límite superior hasta donde
toma el valor la variable, este valor va cambiando de uno en uno. El símbolo, , significa que los
términos que se obtienen al remplazar el valor de la variable se multiplican del primero hasta el
último.
Ejercicio.
) ∏
) ∏
Solución.
) ∏
) ∏
SEGUNDA UNIDAD
DISTRIBUCIONES DE FRECUENCIAS
Si tenemos una variable cuantitativa discreta o una variable cualitativa, la podemos resumir en
una tabla que recibe el nombre de distribuciones de frecuencias. Para ellos revisemos las
siguientes definiciones:
Frecuencias absolutas.
Las frecuencias absolutas es el número de veces que se repite un dato. Las simbolizaremos con la
letra “efe” minúscula:
+ + + …… + ∑
Observe que hemos tomado un subíndice , debido a que los valores que toma la variable, por lo
general son menores que el número de datos ( )
Para determinar las frecuencias absolutas se utiliza el conteo o recuento. Se escriben los valores
ordenados de la variable sin repetirlos. Luego se hace una marca frente a cada valor tantas veces
el dato se encuentre en la lista de datos, se recomienda hacer grupos de cinco marcas. Para
explicarlo más claramente, consideremos los siguientes datos los cuales podrían corresponder al
número de hijos de 17 familia observadas: 2, 5, 4, 0, 2, 0, 2, 4, 2, 0, 5, 2,4,2, 0, 2, 2
0 IIII = 4
2 IIII III =8
4 III =3
5 II =2
Las frecuencias absolutas acumuladas se obtienen mediante sumas sucesivas de las frecuencias
absolutas. Las simbolizaremos con la letra “EFE” MAYUSCULA:
…………………………………
Frecuencias relativas.
Las frecuencias relativas se calculan dividiendo cada frecuencia absoluta ( ), entre el número de
datos ( ). Generalmente se las expresa en porcentaje para su fácil interpretación. Se denotan y
definen así:
∑ 1 = 100%.
Las frecuencias relativas acumuladas se calculan dividiendo cada frecuencia absoluta acumulada
( ), entre el número de datos ( ). Generalmente se las expresa en porcentaje para su fácil
interpretación. Se denotan y definen así:
Otra forma de calcular las frecuencias relativas acumuladas es mediante las sumas sucesivas de las
frecuencias relativas.
…………………………………
1 100%
Con cada valor calculado procedemos a construir la distribución de frecuencias, la cual es una
tabla que contiene: la variable de estudio, las frecuencias absolutas, las frecuencias relativas, las
frecuencias absolutas acumuladas y frecuencias relativas acumuladas. La forma general de una
distribución de frecuencias es la siguiente.
. . . . .
. . . . .
TOTAL 1=100%
donde,
: Variable de estudio
: Frecuencias absolutas.
: Frecuencias absolutas acumuladas.
: Frecuencias relativas.
: Frecuencias relativas acumuladas.
Ejemplo:
Las pesquera más grande del Puerto de Tumaco, tiene en su nómina a 40 empleados. Por leyes del
gobierno toda empresa debe dar un subsidio de educación a cada hijo de los trabajadores. El
gerente para hacer ajustes en el presupuesto de la empresa determina el número de hijos de los
trabajadores que estén estudiando y obtiene los siguientes resultados:
2, 3, 1, 0, 3, 2, 0, 1, 3, 2, 3, 4, 3, 1, 1, 2, 3, 2, 4, 1, 0, 0, 1, 2, 3, 2, 1, 0, 3, 4, 2, 3, 3, 3, 4, 2, 1, 1, 0, 2
Solución:
La variable es el número de hijos de los empleados de la pesquera los cuales estén actualmente
estudiando, esta variable es cuantitativa discreta y toma valores de 0, 1, 2, 3, 4.
# de hijos Conteo
0 IIII I =6
1 IIII IIII =9
2 IIII IIII = 10
3 IIII IIII I = 11
4 IIII =4
# de
# de hijos empleados
0 6 6 15% 15%
1 9 15 22,5% 37,5%
2 10 25 25% 62,5%
3 11 36 27,5% 90%
4 4 40 10% 100%
TOTAL 40 100%
25 empleados de la pesquera, equivalentes al 62,5% del total, tienen 2 o menos de dos hijos
estudiando.
Distribuciones de frecuencias para una variable cuantitativa continua.
Si tenemos una variable cuantitativa continua, generalmente los datos repetidos van hacer muy
pocos, y al calcular sus frecuencias absolutas estas, tomarán valores de 1 o 2, en su gran mayoría.
En estos casos para analizar este tipo de variables se recomienda agruparla en intervalos, clases o
categorías. Por ejemplo, al clasificar a los habitantes de una región por su edad, podríamos hacer
grupos de bebes (edades hasta el año y medio), de niños (edades hasta los 10 o 12 años), de
adolescentes (edades hasta los 18 o 21 años), jóvenes (edades hasta los 25 o 30 años), adultos
(edades hasta los 50 años), mayores (edades hasta los 60 años), tercera edad (edades después de
los 60).
Para construir una distribución de frecuencias para este tipo de variables, consideremos las
siguientes definiciones:
Rango o recorrido. Es la diferencia entre el valor máximo de los datos y el valor mínimo.
Número de intervalos, clase o categorías: A pesar de ser un criterio del investigador el de elegir
con cuántos intervalos va a trabajar, la regla de Sturges, propuesta por Herbert Sturges, sugiere
una fórmula para determinar cuántos intervalos, clases o categorías se debe utilizar.
Nota: Los intervalos que se forman se consideran semi-abiertos por derecha, es decir tienen la
forma: [ ), este intervalo contiene todos los valores comprendidos entre y , incluyendo a
y excluyendo a . Algunos autores definen de manera diferente los intervalos, por ejemplo, al
considerarlo cerrado, es decir de la forma, [a,b] al siguiente intervalo se debe iniciar por lo menos
1 milésima más grande que b.
Amplitud del intervalo. ( ). Es la distancia que hay entre el límite superior y el límite inferior de
cada intervalo. No necesariamente todos los intervalos deben tener la misma amplitud. Se
aconseja usar la siguiente fórmula
El límite inferior ( ), del primer intervalo es el valor mínimo de los datos, y el límite superior
del primer intervalo ( ), se obtiene sumando al valor mínimo la amplitud. Este límite superior
será el límite inferior del segundo intervalo, de aquí en adelante el proceso se repite hasta formar
el último intervalo.
Supongamos que deseamos trabajar con 5 intervalos de amplitud 4 y que el valor mínimo de los
datos es de 23. Los intervalos se forman así:
Conteo o recuento:
Construidos los intervalos empezamos a ubicar cada dato en uno de ellos, haciendo una marca
frente al intervalo que lo contenga. Se recomienda hacer grupos de cinco marcas.
Para explicarlo más claramente, consideremos los intervalos anteriores y los siguientes datos: 25,
40, 33, 31, 41, 28, 36, 42, ….
El conteo o recuento comenzaría así: (por facilidad utilizamos una línea como marca)
[23 , 27) I
[27 , 31) I
[31 , 35) II
[35 , 39) I
Marcas de clase: Son los puntos medios de cada intervalo y se calculan promediando el límite
inferior y el límite superior de cada intervalo.
Determinados los anteriores valores procedemos a construir la distribución de frecuencias, la cual
es una tabla que contiene: la variable, las marcas de clase, las frecuencias absolutas, relativas,
absolutas acumuladas y relativas acumuladas.
. . . . . . .
. . . . . . .
=
TOTAL 1=100%
donde,
Ejemplo.
La más grande pesquera del Puerto de Tumaco, tiene en su nómina a 40 empleados. Por leyes del
gobierno toda empresa debe dar un subsidio de educación a cada hijo de los trabajadores, como
se mencionó y analizó en el problema anterior. Suponga ahora que la empresa crea un programa
nutricional para sus empleados. La variable más importante es el peso de los trabajadores
(medidos en kilogramos). Los especialistas en nutrición recogieron los siguientes datos
60, 70, 78, 80, 66, 59, 86, 88, 97, 68, 46, 61, 76, 45, 77, 70, 62, 73, 64, 72, 102, 74, 75, 82, 89, 66,
52, 90, 84, 57, 76, 87, 62, 73, 93, 69, 55, 75, 94, 54.
La variable de interés es el peso de los empleados, la cual es una variable cuantitativa continua,
por lo tanto calculemos:
Rango.
En la serie de datos podemos observar que el peso mínimo es 45 Kg. y el peso máximo es de 102
Kg., entonces
= 102 – 45 57
Número de intervalos.
( ) ( ) 6,286799…
8,142857… 8,2
Los intervalos y el conteo o recuento se indican en la siguiente tabla. Recuerde que el límite
inferior del primer intervalo es 45 y su límite superior se obtiene sumándole la amplitud de 8,2.
Una manera de observar rápidamente el conteo es ordenando los datos, así.
45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73, 74, 75, 75, 76, 76, 77,
78, 80, 82, 84, 86, 87, 88, 89, 90, 93, 94, 97, 102.
Peso (Kg)
Conteo
45 53,2 III =3
53,2 61,4 IIII I =6
61,4 69,6 IIII II =7
69,6 77,8 IIII IIII I = 11
77,8 86 IIII =4
86 94,2 IIII II =7
94,2 102,4 II =2
Con las definiciones y fórmulas correspondientes construimos la siguiente distribución de
frecuencias
El análisis de los resultados en la tabla se hace tal como se indican para el tercer renglón, así:
7 de los empleados de la pesquera, equivalentes al 17,5% tienen pesos entre los 61,4 Kg. y 69,6
Kg. Podríamos decir que el peso promedio de estos siete trabajadores es aproximadamente de
65,5 Kg.
16 de los empleados de la pesquera, equivalentes al 40% tienen pesos entre los 45 Kg. y 69,6 Kg.
30 30
25 25
20 20
p o rce n ta je
porcentaje
15 15
10 10
5 5
0 0
45 55 65 75 85 95 105 45 55 65 75 85 95 105
peso peso
TERCERA UNIDAD
MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE POSICION
Las medidas de tendencia central son valores que en una serie ordenada de datos “tienden” a
ubicarse en el centro. También, se las conoce con el nombre de promedios. Entre ellas tenemos:
Es el cociente entre la suma de los datos y el número de datos( ). Una ventaja de este promedio
es que considera la información de todos los datos, y una desventaja es que es muy sensible a
valores extremos.
∑
, para datos NO agrupados
∑( )
, para datos agrupados.
Nota: De ahora en adelante los datos NO agrupados serán aquellos que se vienen dados en una
lista de datos. Los datos Agrupados son los que vienen dados en una distribución de frecuencias.
Ejemplo.
Un clientes de un local que vende accesorios para computador: una USB en 20.000 pesos, un
mouse en 12.000 pesos, un protector de pantalla 9.000 pesos y un teclado en 17.000 pesos. El
precio promedio de los cuatro productos es de 14.500. Se calcula así:
14.500
Ejemplo.
El dueño del local del ejemplo anterior registró la cantidad de los productos de las ventas del día
de hoy. En la siguiente tabla se resume los precios de cada artículo y las cantidades vendidas de
cada producto.
Cuál es precio promedio de los productos que se vendieron en dicho local el día de hoy?
Solución:
Se observa que la variable de interés es el precio de los productos, por tanto, el precio promedio
se calcula así:
∑( )
14.000
∑( )
14.000
Se la utiliza cuando los datos tienen diferente importancia. Se denota y define así:
∑( )
∑
; donde las son las importancias de cada dato.
Ejemplo.
La alcaldía de Pasto tiene una vacante para el cargo de director del área contable. Como requisitos
se exige: entrevista, examen de conocimientos y puntaje de la hoja de vida. Además, se conoce
que la entrevista se ponderará con un 10%, el examen de conocimientos con un 70% y la hoja de
vida con un 20%. El mínimo aprobatorio es de 60 puntos en una escala de 0 a 100 puntos, el
aspirante que obtenga el más alto puntaje será el seleccionado, si se presentaron Roberto, Luis,
José, Ana y Rosa y obtuvieron los puntajes que se muestran en la siguiente tabla. ¿Quién fue el
seleccionado?.
Solución:
Como cada prueba tiene diferente importancia “ponderación o peso”, no podemos aplicar la
media aritmética o promedio aritmético para calcular el puntaje de cada aspirante. Aquí debemos
utilizar la media aritmética ponderada .
Para calcular el puntaje promedio ponderado que obtuvo Roberto debemos calcularlo así:
∑( )
∑
70 puntos.
En la tabla se muestran los puntajes promedios ponderados ( ), para los demás aspirantes.
Observemos que calculado la media aritmética ( ), Rosa sería la seleccionada con un puntaje de
75,3 puntos, cometiendo el error de darle una ponderación de 33,3% a la entrevista y a las otras
dos pruebas; cambiando así las reglas de selección.
Media Geométrica.
Se la utiliza cuando los datos crecen en progresión geométrica, es decir, los datos aumentan
rápidamente.
Los productos dentro de la raíz suelen ser muy grandes, una forma de trabajar con valores
pequeños es utilizando los logaritmos en base 10, así:
∑
. /, para datos NO agrupados
∑( )
. /, para datos agrupados
Ejemplo:
Solución:
√( ) √( ) √ 120,95
Usando logaritmos en base 10 se calcularía así:
∑
. / . /
. / . / ( )
Mediana
La mediana de una serie de datos ordenados es el valor que se encuentra en el centro de los datos.
Otra forma es, un valor mayor al 50% de los datos y es menor que el otro 50%. La mediana se la
utiliza cuando existe un valor extremo o dato atípico, en inglés “outlier”.
Si el número de datos es par, el valor de la mediana se encuentra promediando los dos valores
centrales.
Ejemplo:
En internet publican los precios de cinco planes turísticos: 35, 37, 29, 31, 60 dólares. Calcular la
mediana.
Solución:
La interpretación de la mediana es: El 50% de los planes turísticos cuestan menos de 35 dólares y
el otro 50% cuesta igual o más de 35 dólares.
Ejemplo:
Los pesos de los instrumentos de seis científicos que inspeccionaron al Volcán Galeras son: 4530,
4510, 6000, 4700, 4600, 4490 gramos. Calcular y analizar la mediana.
Solución:
La serie de datos ordenados es: 4490, 4510, 4530, 4600, 4700, 6000.
Ejemplo:
80 familias viajaron al puerto de Tumaco por una semana. El organizador y guía pregunto ¿cuántas
personas por familia están de acuerdo que la dieta para esa semana sea a base de mariscos?. Los
resultados se resumen en la siguiente tabla.
0 10
1 24
2 30
3 12
7 4
: Número de familias.
Antes de calcular la mediana complementemos la tabla con las frecuencias absolutas acumuladas,
como se observa en la siguiente tabla.
0 10 10
1 24 34
2 30 64
3 12 76
7 4 80
80
La interpretación es: En el 50% de las familias, ninguna, una o máximo 2 personas si desean la
dieta a base de mariscos; y en el otro 50% de las familias, 2 o más de dos personas prefieren la
dieta a base de mariscos.
. /
+[ ]
Solución:
El lugar de la mediana es
5
12
12
7 5 2
. / . / ( )
+[ ] 5 +[ ] +0 1 5,17 5,2 sm.
Es decir, la mediana es 5,2 salarios mínimos. Lo cual significa que el 50% de las personas
invertirían anualmente en tecnología 5,2 salarios mínimos, y el otro 50% de las personas
invertirían más de 5,2 salarios mínimos anualmente en tecnología.
La moda o modo.
La moda o modo se define como el dato de mayor frecuencia o el dato que más se repite. Si una
serie de datos tiene una moda se dice que es unimodal, si tiene dos modas se dice que es bimodal
y si tiene más de dos modas se dice que es multimodal.
Ejemplo.
Ejemplo.
Una aerolínea está planeando descuentos para los hijos de sus clientes. Se realizó un estudio a un
grupo de 40 clientes, en el cual la variable de interés fue el número de hijos por cliente. Se obtuvo
la siguiente información
Solución.
La moda es , ya que es el número de hijos que se repite con mayor frecuencia, en este
caso se presenta en 15 clientes.
Moda en datos agrupados (Variable cuantitativa continua)
Para determinar el lugar de la moda en datos agrupados (Variable cuantitativa continua), basta
con observar la mayor frecuencia absoluta. El intervalo correspondiente se llama clase modal.
+. /
Ejemplo.
Una empresa de turismo tiene en su nómina 60 empleados, clasificados por edad, como lo indica
la siguiente tabla.
Edad # de empleados
20 25 5
25 30 12
30 35 18
35 40 15
40 45 10
Calcular y analizar la moda.
Solución:
30
18 – 12 = 6
18 – 15 = 3
35-30 = 5
Remplazando en la fórmula de la moda tenemos:
+. / +. / +. / 33,3 años.
Lo cual indica que la edad que más se repite entre los empleados de la empresa de turismo es de
33,3 años.
Nota: Se debe aclarar que en la construcción de datos agrupados con intervalos se pierde
información, esto implica que si tuviéramos la lista de datos posiblemente la edad que más se
repite podría ser otro valor, puesto que si los 18 empleados de la clase modal todos tienen edades
diferentes y los 5 empleados del primer intervalo tiene la misma edad, entonces la moda
cambiaría.
Ya hemos realizado una exploración de los datos, analizando los valores centrales, ahora nos
interesa analizar los datos en cualquier posición de una serie ordenada, para ello estudiaremos las
medidas de posición.
Entre las medidas de posición tenemos: Los cuartiles, los deciles y los percentiles.
Cuartiles ( )
Son tres valores ( 1, 2, 3) que dividen al rango o recorrido en cuatro partes iguales, cada una de
ellas equivalente al 25%.
( )
donde,
Como las fórmulas son muy similares a las de la mediana se procede y analiza de manera
equivalente.
Deciles ( )
Son nueve valores ( 1, 2, 3, 4, 5, 6, 7, 8, 9.) que dividen al rango o recorrido en diez partes
iguales, cada una de ellas equivalente al 10%.
( )
. /
+[ ]
Percentiles
Son noventa y nueve valores ( 1, 2, 3, … , 99) que dividen al rango o recorrido en cien partes
iguales, cada una de ellas equivalente al 1%.
( )
. /
+[ ]
donde,
Como las fórmulas son muy similares a la mediana, los cuartiles y los deciles, se procede y analiza
de manera equivalente.
Ejemplo:
Se realizó un estudio en el cual se preguntaba de las utilidades mensuales que tenían 45 empresas
catalogadas como las más grandes del país. Por convenio con las empresas no se debe publicar sus
nombres ni mucho menos directamente el valor informado, por lo tanto se construyó una
distribución de frecuencias con intervalos. Los resultados se muestran en la siguiente tabla.
Utilidad mensual
(millones de pesos) # de empresas
2 5 4 4
5 8 10 14
8 11 15 29
11 14 13 42
14 17 3 45
45
Calcular y analizar .
Solución.
( ) ( )
34,5. Esto indica que el se encuentra entre el dato
de lugar 34 y el dato de lugar 35. Además, la frecuencia absoluta acumulada inmediatamente
mayor a 34,5 es 42, correspondiente al cuarto intervalo.
Utilidad mensual
(millones de pesos) # de empresas
2 5 4 4
5 8 10 14
8 11 15 29
11 14 13 42
14 17 3 45
45
Por lo tanto
11
29
13
14 – 11 3
. / . /
+[ ] +[ ] *3 12,096154
Esto significa que el 75% de las empresas más grandes del país, tienen utilidades mensuales
inferiores a 12´096.154 pesos y el 25% de las empresas más grandes del país tienen utilidades
mensuales superiores a 12´096.154.
Cálculo del decil 4. (Equivalente al 40% de los datos).
( ) ( )
18,4. Esto indica que el se encuentra entre el dato
de lugar 18 y el dato de lugar 19. Además, la frecuencia absoluta acumulada inmediatamente
mayor a 18,4 es 29, correspondiente al tercer intervalo.
Utilidad mensual
(millones de pesos) # de empresas
2 5 4 4
5 8 10 14
8 11 15 29
11 14 13 42
14 17 3 45
45
Por lo tanto
8
14
15
11 – 8 3
. / . /
+[ ] +[ ] *3 8,8
Esto significa que el 40% de las empresas más grandes del país, tienen utilidades mensuales
inferiores a 8´800.000 pesos y el 60% de las empresas tienen utilidades mensuales superiores a
8´800.000.
( ) ( )
13,34. Esto indica que el se encuentra entre el
dato de lugar 13 y el dato de lugar 14. Además, la frecuencia absoluta acumulada inmediatamente
mayor a 13,34 es 14, correspondiente al segundo intervalo.
Utilidad mensual
(millones de pesos) # de empresas
2 5 4 4
5 8 10 14
8 11 15 29
11 14 13 42
14 17 3 45
45
Por lo tanto
5
4
10
8–5 3
. / . /
+[ ] +[ ] *3 7,715
Esto significa que el 29% de las empresas más grandes del país, tienen utilidades mensuales
inferiores a 7´715.000 pesos y el 71% de las empresas tienen utilidades superiores a 7´715.000.
RANGO PERCENTIL ( )
En el ejemplo anterior nos podríamos preguntar ¿Qué porcentaje de las empresas tienen
utilidades inferior a 10´500.000 pesos mensuales?.
Estas preguntas se resuelven calculando el rango percentil , mediante la siguiente fórmula, que
se obtiene al despejar de la fórmula de los percentiles.
0. / 1
: Percentil , este valor se ubica en los intervalos y me determina la clase rango percentil
: Límite inferior de la clase rango percentil.
: Frecuencia absoluta acumulada anterior a la clase rango percentil.
: Frecuencia absoluta de la clase rango percentil.
: Amplitud de la clase rango percentil. (Diferencia entre el límite superior y límite inferior
de la clase rango percentil)
Ejemplo:
Resolvamos la pregunta: ¿Qué porcentaje de las empresas más grandes del país tienen utilidades
inferior a 10´500.000 pesos mensuales?.
Solución.
Según la información del problema los 10´500.000 pesos, equivalentes a 10,5 millones de pesos,
corresponde a 10,5; el cual se encuentra en el tercer renglón de la tabla.
Utilidad mensual
(millones de pesos) # de empresas
2 5 4 4
5 8 10 14
8 11 15 29
11 14 13 42
14 17 3 45
45
De donde se tiene que:
10,5
8
14
15
11 – 8 = 3
0. / 1 0. / 1 0. / 1
, - 58,9%
Es decir, que el 58,9% de las empresas más grandes del país tienen unas utilidades inferiores a
10´500.000 pesos mensuales y el 41,1% de las empresas tienen utilidades superiores a 10´500.000
pesos mensuales.
CUARTA UNIDAD
Las medias de dispersión, variación o desviación que estudiaremos serán: El rango o recorrido, la
desviación media, la varianza, la desviación estándar y el coeficiente de variación.
El rango o recorrido
Si el rango es muy grande y tenemos muy pocos datos, se puede decir, que los datos tienen
mucha variabilidad. Pero si el rango es pequeño y tenemos muchos datos, estos tienen poca
variabilidad o son homogéneos.
Aunque esta medida es muy fácil de calcular su interpretación es muy subjetiva, además,
únicamente utiliza los valores extremos y no considera los otros datos.
Estas no son medidas de dispersión, pero se las utiliza para las calcular la desviación media y la
varianza las cuales las estudiaremos a continuación.
Las desviaciones respecto a la media es la diferencia entre cada dato y la media aritmética de los
datos, se pueden simbolizar como: ( ), indican que tan distante se encuentra cada dato con
respecto a la media aritmética. Si la diferencia es negativa el dato se encuentra a la izquierda de la
media y si es positiva el dato se encuentra a la derecha de la media, si es cero el dato es igual a la
media.
Una propiedad de las desviaciones respecto a la media es que la suma de todas ellas es igual a
cero, es decir,
Solución:
∑
4,4
6 6 – 4,4 = +1,6
4 4 – 4,4 = - 0,4
3 3 – 4,4 = - 1,4
7 7 – 4,4 = +2,6
2 2 – 4,4 = - 2,4
TOTAL ∑( ) 0
Desviación media
∑| | | | | | | | | |
, para datos NO agrupados.
∑,| | - | | | | | | | |
, para datos agrupados.
Ejemplo:
Solución:
∑
4,4
En la siguiente tabla se calculan las desviaciones respecto a la media, sus valores absolutos y los
totales.
| |
6 6 – 4,4 = +1,6 1,6
4 4 – 4,4 = - 0,4 0,4
3 3 – 4,4 = - 1,4 1,4
7 7 – 4,4 = +2,6 2,6
2 2 – 4,4 = - 2,4 2,4
∑( ) 0 ∑| | = 8,4
∑| |
De la tabla se obtiene que: 1,68.
∑| | | | | | | | | | | | | | | | | | | |
1,68.
Este valor indica que la distancia promedio a cada uno de los datos con respecto a la media
aritmética es de 1,68 unidades. Es decir, que en promedio, los datos se separan de la media en
1,68 unidades. Además, podríamos asegurar que en distribuciones normales (estas distribuciones
se estudiarán en las unidades de probabilidad), que la mayoría de los datos se encuentran entre
VARIANZA
Se podría definir la varianza como un promedio de los cuadrados de las desviaciones respecto a la
media, o como el cociente entre la suma de los cuadrados de las desviaciones respecto a la media
y el número de datos. Las unidades de la variable de estudio quedan elevadas al cuadrado y
carecen de significado real, por tanto, la varianza no tiene interpretación. La varianza es el medio
para calcular la desviación estándar.
Varianza corregida
∑( ) ( ) ( ) ( ) ( )
, para datos NO agrupados.
∑[( ) ] ( ) ( ) ( ) ( )
, para datos agrupados.
La varianza corregida es la más utilizada para calcular la varianza de una muestra. Se divide entre
, porque se está estimando un parámetro que es la media poblacional.
Varianza SIN corregir
∑( ) ( ) ( ) ( ) ( )
̂ , para datos NO agrupados
∑[( ) ] ( ) ( ) ( ) ( )
̂ , para datos agrupados
La desviación estándar o desviación típica es la raíz cuadrada positiva de la varianza. Las unidades
de la desviación estándar son las mismas de la variable de estudio, y por este hecho tiene
interpretación. Nos indica cuánto pueden alejarse los datos respecto a la media aritmética, dicho
de otra manera, la desviación estándar es una medida del grado de dispersión de los datos con
respecto al valor promedio. Esta medida es más estable que el rango o recorrido y toma en
consideración el valor de cada dato.
∑( )
√ √ √ , para datos NO agrupados
∑,( ) -
√ √ √ , para datos agrupados
∑( )
̂ √̂ √ √ , para datos NO agrupados.
∑,( ) -
̂ √̂ √ √ , para datos agrupados.
COEFICIENTE DE VARIACION
El Coeficiente de variación mide la dispersión en términos de porcentaje, señala qué tan grande es
la magnitud de la desviación estándar respecto al promedio del conjunto de datos que se examina.
Si el es menor o igual al 20% se dice que el promedio es representativo, o que los datos son
homogéneos
Interpretación
Menos del 11% Muy homogéneos
11% al 16% Homogéneos
16% al 26% Heterogéneos
Más del 26% Muy heterogéneos
Ejemplo.
De los siguientes datos calcular la media, la desviación media, la varianza, la desviación estándar y
el coeficiente de variación.
Solución.
∑
177,4
∑| | | | | | | | | |
| | | | | | | | | |
= 8,48
Este valor indica que la distancia promedio a cada uno de los datos con respecto a la media
aritmética es de 8,48. Es decir, que en promedio, los datos se separan de la media en 8,48
unidades.
∑( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
128,8
∑( )
√ √ √ √ 11,35
Nos indica que los datos pueden alejarse de la media aritmética 11,35 unidades o que los datos se
encuentran desviados con respecto del promedio en 11,35 unidades.
0,063979.. 6,4%
Este valor es menor que el 20%, concluimos que los datos son homogéneos. Según la tabla de
análisis del , el 6,4% es menor de 11% y se concluye que los datos son muy homogéneos.
Ejemplo.
Un campesino del municipio del Encano, Nariño (Lugar donde se encuentra uno de los sitios más
turísticos de Nariño, La Laguna de la Cocha o Lago Guamuez), tiene en uno de sus criaderos
truchas arco iris, a las cuales las alimenta con un producto extraído de vísceras de las mismas
truchas sacrificadas, dicho alimento es rico en proteínas.
Para el control de peso y tamaño ha instalado una tecnología única en el Departamento de Nariño,
en el cual con un software especial obtiene automáticamente el peso y tamaño de cada una de
ellas. El anterior fin de semana, tomo mediciones sobre el peso (en gramos) de las truchas de este
criadero y obtuvo los siguientes resultados.
Peso(gr.) # truchas
175 185 9
185 195 30
195 205 57
205 215 103
215 225 26
225 235 15
235 240 10
TOTAL 250
Solución:
Para empezar hacer los cálculos necesitamos determinar las marcas de clase ( ) . Luego
realizando las operaciones indicadas y las sumatorias que aparecen en las fórmulas obtenemos la
siguiente tabla.
Peso(gr.) # truchas
( ) ( )
175 185 9 180 1.620 -27,68 766,1824 6.895,6416
185 195 30 190 5.700 -17,68 312,5824 9.377,472
195 205 57 200 11.400 -7,68 58,9824 3.361,9968
205 215 103 210 21.630 2,32 5,3824 554,3872
215 225 26 220 5.720 12,32 151,7824 3.946,3424
225 235 15 230 3.450 22,32 498,1824 7.472,736
235 245 10 240 2.400 32,32 1.044,5824 10.445,824
TOTAL 250 51.920 42.054,4
Nota: Esta tabla se construye fácilmente en la hoja electrónica, usando las operaciones como
fórmulas de Excel.
∑
207,68
Esto significa que el peso promedio de las 250 truchas que hay en el criadero es de 207,68 gramos.
Calculemos la Varianza (corregida)
∑( )
168,89
Este valor no tiene análisis porque las unidades de este valor son gramos al cuadrado.
∑( )
√ √ √ √ 12,9957… 13
Nos indica que los pesos de las truchas pueden alejarse del peso promedio 13 gramos, o que los
pesos de las truchas se encuentran desviados con respecto del peso promedio en 13 gramos.
0,0626 6,26%
Este valor es menor que el 20%, concluimos que los pesos de las truchas arco iris del criadero son
homogéneos, es decir, los pesos de las 250 truchas del criadero tienen poca variabilidad. Según la
tabla de análisis del , el 6,26% es menor de 11% y se concluye que los pesos de las truchas son
muy homogéneos.
COEFICIENTE DE SIMETRIA ( ).
∑( ̅)
La interpretación del coeficiente de simetría se hace de la siguiente manera:
∑( ̅)
GRAFICOS ESTADISTICOS
Una manera de representar la información es mediante los gráficos estadísticos. Estos ayudan de
manera rápida a revisar la descripción de los datos.
Hay otros gráficos que se utilizan según la disciplina, tales como los cartogramas que se utilizan en
las ciencias sociales, la curva de Lorenz que explica el Coeficiente de Gini, el cual lo utilizan los
economistas. EXCEL, STATGRAPHICS y SPSS, en la galería de gráficos presenta una gran variedad
de gráficos e incluso en 3D. Otros paquetes estadísticos presentan gráficos especiales como las
caras de Chernoff y estrellas utilizados para análisis de datos multivariados.
Cada tipo de gráfico está destinado para una labor específica. Con la práctica y de acuerdo a tus
necesidades determinarás cual utilizar según tus datos.
Es un gráfico que utiliza rectángulos horizontales o verticales llamados barras. El ancho de cada
barra es arbitrario, pero se debe tener en cuenta que ninguna de ellas se debe cruzarse o
“solaparse” con otra. El alto de cada barra depende de las frecuencias de los datos. Generalmente
los valores de las variables se ubican en el eje X, y las frecuencias en el eje Y (gráfico vertical).
Cuando se van a analizar dos o más variables el gráfico recibe el nombre de gráfico de barras en
componentes, también se pueden comparar la misma variable en dos periodos distintos con este
tipo de gráficas.
Ejemplo:
Se registró en el primer semestre del año 2011, la cantidad de USB que se vendieron en un local
donde se comercializa accesorios para PC, estos registros se realizaron en cada uno de los meses.
La información se observa en la siguiente tabla.
Solución.
El gráfico de barras verticales es el siguiente. (Si queremos las barras horizontales, ubicamos los
meses en el eje Y, y la cantidad de USB vendidas en el eje X).
Se registró en el primer semestre de los años 2011 y 2012, la cantidad de USB que se vendieron
en el mismo local del ejemplo anterior, estos registros se realizaron en cada uno de los meses. La
información se presenta en la siguiente tabla.
Solución.
El gráfico de barras en componentes es el siguiente. Observa que si tenemos dos variables en cada
valor del eje X, se grafican dos barras. Si se tienen tres componentes se deberán graficar tres
barras, etc.
100
90
80
70
60
50
40
30
20
10
0
El gráfico o diagrama de líneas o trazos.
Es un gráfico que para trazarlo se ubican puntos en el plano cartesiano y luego se los une
mediante segmentos de recta, llamados trazos.
100
80
60
40
20
0
enero febrero marzo abril mayo junio
Para determinar dicho porcentaje hacemos corresponder el total al 100% y mediante regla de tres
simple directa determinamos el porcentaje que equivale cada parte.
100%
?
De forma similar haciendo corresponde el total a 360º del círculo y aplicando regla de tres simple
directa determinamos cuántos grados le corresponde a cada parte.
360º
?
Ejemplo.
Estamentos Cantidad
Estudiantes 800
Administrativos 100
Docente 340
Servicios Generales 80
TOTAL 1320
Solución.
Calculando los porcentajes y los grados para cada estamento, y poder trazar el gráfico sin usar
herramientas informáticas tenemos los siguientes resultados.
Grados
Estamentos Cantidad Porcentajes Grados Acumulados
Estudiantes 800 60,6% 218 218
Administrativos 100 7,6% 27 245
Docente 340 25,8% 93 338
Servicios Generales 80 6,1% 22 360
TOTAL 1320 100% 360
El diagrama circular es el siguiente, presentado en tres dimensiones
8% Servicios
Generales
Los Pictogramas.
Es una manera de representar la información, mediante objetos o figuras. A cada figura completa
se le asigna un valor al inicio del gráfico. Esta debe explicarse por sí sola.
El siguiente gráfico es un pictograma que representa la cantidad de turistas que visitaron la Laguna
de la Cocha (Lago Gaumez, Nariño) los primeros cuatro meses del año.
= 5.000 turistas
Este gráfico se utiliza para analizar variabilidad de los datos y simetría, además me determina
datos atípicos “outlier”.
NOTA. Para comprender los términos usados en este gráfico, remitirse a la sesión de medidas de
posición.
En una serie ordenada de datos o en datos agrupados podemos calcular los tres cuartiles los
cuales dividen al rango en cuatro partes iguales. Se aclara que el segundo cuartil es igual a la
mediana. Calculados estos valores construimos una caja entre el cuartil 1 ( ) y el cuartil 3 ( ),
con un ancho arbitrario, en medio de la caja se ubica el segundo cuartil ( ) o mediana. Luego se
encuentran dos valores y de la siguiente forma:
( )
( )
En el medio del ancho de la caja se traza una segmento de recta hasta llegar a y otro segmento
de recta al otro lado de la caja hasta llegar a . Estos segmentos de recta reciben el nombre de
bigotes.
Ejemplo.
45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73, 74, 75, 75, 76, 76, 77.
Solución:
( )
, el cual representa la posición del cuartil
Entonces tenemos
( ) ( )
7, el séptimo dato es el cuartil 1, 59
( ) ( )
14, el dato de lugar 14 es el cuartil 1, 66
( ) ( )
21, el dato de lugar 21 es el cuartil 1, 73
Nota: Si los lugares de los cuartiles no son exactos, se promedian los dos valores o más
correctamente se interpolan para encontrar el valor del cuartil. Por ejemplo si el lugar del cuartil 1
fuera 7,25 indicaría que este cuartil se encuentra entre el dato de lugar siete y el dato de lugar 8,
lo cual indica que el cuartil 1, se calcularía promediando así: (59+60)/2 = 59,5. Pero si
interpolamos se calcularía así: 59+0,25*(60-59) = 59,25. Podemos observar que el último resultado
es el más correcto.
( ) 59 – 1,5*(73 – 59) = 38
( ) 73 + 1,5*(73-59) = 94
Como los bigotes sobrepasan al valor mínimo (45) y al valor máximo (77) de los datos, los bigotes
toman estos valores: 45 y 77. Esto significa que no existen valores atípicos.
45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73, 74, 75, 75, 76, 76, 77
Observe que los datos no se encuentran a una distancia real, por tanto la gráfica se distorsiona.
45 55 65 75 85
45 55 65 75 85
peso_kg
peso_kg
El Histograma.
Es un diagrama de barra. Se lo utiliza para representar la información de una distribución de
frecuencias con intervalos, clases o categorías.
Para graficarlo se ubican en el eje X, los intervalos, los cuales corresponden al ancho de cada barra,
en el eje Y, ubicamos las frecuencias absolutas o las frecuencias relativas.
Para el ejemplo de los dos gráficos anteriores revisemos la siguiente información, y observemos el
gráfico, en los cuales se han ubicado las frecuencias relativas en el eje Y. (Si se trabaja con las
frecuencias absolutas se obtiene un gráfico equivalente).
Peso(kg.) # empleados
45 53,2 3 8%
53,2 61,4 6 15%
61,4 69,6 7 18%
69,6 77,8 11 28%
77,8 86 4 10%
86 94,2 7 18%
94,2 102,4 2 5%
TOTAL 40 100%
Histograma
Poígono de Frecuencias para PESO
30
30
25
25
20
p o rce n ta je
20
p o rce n ta je
15
15
10
10
5 5
0 0
45 55 65 75 85 95 105 45 55 65 75 85 95 105
peso peso
Para graficarlo se marcan puntos en el plano cartesiano, ubicando en el eje X, los límites
superiores de cada intervalo ( ), en el eje Y, ubicamos las frecuencias absolutas acumuladas
( ), o las frecuencias relativas acumuladas ( ) , luego unimos los puntos con segmentos de
recta.
Tracemos la ojiva o polígono de frecuencias absolutas acumuladas ( ), para la siguiente
distribución de frecuencias.
45 53,2. 3 3
53,2 61,4. 6 9
61,4 69,6. 7 16
69,6 77,8. 11 27
77,8 86. 4 31
86 94,2. 7 38
94,2 102,4. 2 40
Ojiva
50
40 40
38
31
30
27
20
16
10 9
3
0
0
45 53,2. 61,4. 69,6. 77,8. 86. 94,2. 102,4.
SEXTA UNIDAD
PROBABILIDAD
La probabilidad comienza cuando los matemáticos Fermat y Pascal, analizan los juegos de azar en
sentido matemático. Por tal razón muchos de los ejemplos que presentaré se referirán a dados,
monedas, cartas y se alternará con ejemplos de aplicación a otras situaciones.
Por lo tanto, por el (p.f.c), las tres monedas pueden caer de:
Por lo tanto, por el (p.f.c), los dos dados pueden caer de:
Para verificar este resultado, supongamos que en el primer dado se obtiene el uno, entonces el
otro dado puede caer de las seis formas diferentes, pero si el primer dado se fija en dos, tres,
cuatro cinco o seis, el otro dado puede cambiar en las seis formas, obteniéndose las 36 maneras
diferentes. Veámoslo de la siguiente manera:
( )( )( )( )( )( )
( )( )( )( )( )( )
( )( )( )( )( )( )
( )( )( )( )( )( )
( )( )( )( )( )( )
( )( )( )( )( )( )
Ejercicios
1.) Cuántos números mayores que cien y menores que mil se pueden formar con los dígitos:
3, 5, 6, 8
a.) Con repetición de dígitos?
b.) Sin repetición de dígitos?
2.) Repetir el numeral anterior con los dígitos 0, 3, 6, 8.
3.) Cuantos números telefónicos se pueden formar con el indicativo 733, 723 y 730 en la
actualidad en la ciudad de Pasto?.
4.) De cuántas maneras diferentes pueden salir las balotas del baloto. (el baloto consta de 45
balotas numeradas del 01 hasta 45, todas del mismo tamaño y peso. Cuando juega el
baloto salen aleatoriamente 6 de ellas).
5.) Cuantos números de lotería de cuatro dígitos y dos en la serie es posible formar?.
TIPOS DE AGRUPACIONES (opcional)
Las Combinaciones ( )
LAS COMBINACIONES ( )
. /
( )
Llamaremos VARIACIONES a las diferentes agrupaciones que podemos formar tomando de los
elementos dados, de tal manera que cada agrupación sea diferente en por lo menos un elemento,
O EN EL ORDEN DE UBICACIÓN (“si importa el orden”).
( )
VARIACIONES CON ELEMENTOS IDÉNTICOS. . /
Si en una variación, de los elementos dados tenemos una cantidad: que son idénticos, que
son idénticos, son idénticos, etc., el número de variaciones que podemos formar , se simbolizan
y calculan así:
Ejemplo 1.
Solución:
obtenemos otra junta directiva, a pesar de ser las mismas personas, pero con diferentes cargos,
por lo tanto se trata de una VARIACION. (“si importa el orden”).
( ) ( )
que corresponde a la cantidad de juntas directivas diferentes que es posible formar con los 10
profesionales.
Ejemplo 2.
Solución.
Como el problema no específico la cantidad de cada tipo de profesionales que debe contener
cada comité, entonces de los 15 profesionales se deben escoger 5 de ellos para conformar cada
comité y NO importa el orden como se los seleccione, por lo tanto es una combinación, donde
, entonces
( )
( ) ( )
Ejemplo 3.
Cuantos números mayores que 100 y menores que mil se pueden formar con los dígitos: 3, 5, 6, 8,
si repetición de dígitos en un mismo número?.
Solución:
Los números mayores de cien y menores de mil tienen tres dígitos. Si formamos un número, por
ejemplo el 356 y cambiamos el orden del tres y cinco obtenemos el 536, muy diferente al anterior,
es decir, importa el orden, entonces es una variación con , por lo tanto
( ) ( )
No 13 14 15 16 17 18 19 20 21 22 23 24
# 635 638 653 658 683 685 835 836 853 856 863 865
DEFINICIONES DE PROBABILIDAD
( )
Observación:
Como nos podemos dar cuenta la fórmula es muy simple y sencilla de aplicar, pero cuando nos
presentan situaciones complejas donde se deban calcular y entonces se complica, porque
antes de aplicarla se deben usar las técnicas de contar.
( )
Esta definición, es la que hace posible que cuando se realice en forma infinita un experimento, la
probabilidad se aproxima a la probabilidad teórica o clásica.
Notas:
Este problema no tiene mucha dificultad y usted podría decir la respuesta de inmediato.
Realicemos el procedimiento.
Por lo tanto,
( )
Este resultado se podría explicar considerando que si usted es el que apuesta que va a salir un
múltiplo de 3 cuando se lanza un dado, solamente tendría el chance de ganar en
aproximadamente 33 veces de 100 lanzamientos.
Lo anterior se cumple en teoría, porque si para comprobarlo usted lanza cien veces un dado y hace
anotación de los resultado que obtiene y luego cuenta los múltiplos de 3, la cantidad que obtendrá
no será muy cercana a 33. Puesto que el 33% se alcanza cuando el experimento se hace en forma
infinita.
¿Cuál es la probabilidad de obtener una suma de cinco puntos en el lanzamiento de un par de
dados?
Este problema tiene más dificultad que el punto anterior y usted podría también decir la
respuesta de inmediato.
Realicemos el procedimiento.
( )( )( )( )( )( )
( )( )( )( )( )( )
( )( )( )( )( )( )
( )( )( )( )( )( )
( )( )( )( )( )( )
( )( )( )( )( )( )
entonces = 36. # de casos posibles. Pero recuerde que aplicando el principio fundamental del
conteo se determinó que las formas posibles de caer dos dados se calculan así: 6x6=36.
Evento o suceso : “obtener una suma de 5 puntos” ={(1,4), (2,3), (3,2), (4,1)}, entonces = 4, #
de casos favorables.
Por lo tanto,
( )
¿Un caja contiene 7 camisas y 5 pantalones, si se seleccionan aleatoriamente una prenda, cuál es
la probabilidad de que la prenda seleccionada sea un pantalón?.
Por lo tanto,
( )
Ejercicios.