Está en la página 1de 64

ESTADISTICA DESCRIPTIVA

Docente:

LEONEL DELGADO ERASO

Especialista en Estadística

UNIVERSIDAD DE NARIÑO

DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA

PASTO, 2014
CONTENIDO

ESTADISTICA DESCRIPTIVA.

 Conceptos generales sobre estadística


 Distribuciones de frecuencias.
 Medidas de tendencia central.
 Medidas de dispersión.
 Gráficos Estadísticos
 Probabilidad.
PRIMERA UNIDAD
CONCEPTOS GENERALES

DEFINICION DE ESTADISTICA

La estadística es una ciencia que estudia los métodos, normas, reglas, leyes para la recolección,
organización y análisis de datos, para sacar conclusiones válidas y tomar decisiones acertadas.

POBLACION: Es el conjunto universal, el conjunto de referencia, el cual está conformado por


todos los elementos que tienen la característica de estudio. Una población puede ser finita, (de
tamaño N) o infinita.

MUESTRA: Es un subconjunto de la población. Es una parte de la población, la cual debe cumplir


con dos requisitos fundamentales: ser aleatoria y representativa. La primera hace referencia a
que sus elementos deben seleccionarse al azar, y la segunda hace referencia al tamaño de la
muestra.

DATO: Es la medida de la observación.

VARIABLES ESTADISTICAS.

Una variable estadística es una característica la cual al ser observada en diferentes individuos nos
genera resultados distintos.

Las variables estadísticas pueden clasificarse en: CUANTITATIVAS y CUALITATIVAS.

Las variables CUANTITATIVAS se clasifican en: Continúas y Discretas.

Las variables CUALITATIVAS se clasifican en: Nominales y Ordinales.

Las variables CUANTITATIVAS son aquellas que las podemos medir mediante un número.

Las variables cuantitativas continúas son aquellas, que pueden tomar cualquier valor entre dos
valores, o más fácilmente, aquellas que admiten decimales, por ejemplo, El salario de una
persona, las utilidades diarias de un negocio, la puntuaciones en un examen, el cociente
intelectual, etc.
Las variables cuantitativas discretas son aquellas que admiten, únicamente valores enteros, por
ejemplo, el número de personas que habita en una casa, el número de estudiante en un curso de
economía, la cantidad de familias que tienen acceso directo a internet, la cantidad de
microempresa en una región, etc.

Las variables CUALITATIVAS son aquellas que representan, una propiedad, un atributo.

Las variables cualitativas nominales presentan modalidades no numéricas y no se las puede


ordenar, como por ejemplos: el color del cabello de una persona, el color de automóvil que
prefiere una mujer, el estado civil de una persona, etc,.

Las variables cualitativas ordinales son aquellas que además de representar una propiedad, las
podemos ordenar. Es decir podemos determinar cuál va de primero, segundo, tercero,…., como
por ejemplo: El nivel educativo de una persona, ( sin estudio, primarios, secundarios, tecnólogo,
pregrado o universitarios, especialista, master, Doctor, PD). Otra variable ordinal, puede ser la
apreciación de cierta marca de computadores por un usuario: mala, regular, buena, excelente. El
premio que adquiere un deportista en los olímpicos: Bronce, plata, oro.
SUMATORIA Y PRODUCTORIA (opcional)

SUMATORIA( ).

En las fórmulas que utilizamos para obtener varios resultados en estadística usamos las letras
griegas. El símbolo, , el cual se lee “sumatoria” se utiliza para simplificar una suma de términos.
Esta letra griega “sigma “ se acompaña con un valor inicial de la variable y un límite superior
hasta donde toma el valor la variable, este valor va cambiando de uno en uno. El símbolo, ,
significa que los términos que se obtienen al remplazar el valor de la variable se suman del
primero hasta el último, en el caso de que la suma termine.

En general la sumatoria, se simboliza y define, así:

En algunos casos el límite superior de la sumatoria es infinito, , y se obtiene una serie, así:


Ejercicio.

Desarrollar y simplificar las siguientes sumatorias:

) ∑

) ∑

) ∑

Solución.

) ∑

) ∑

) ∑
PRODUCTORIA ( ).

El símbolo , , el cual se lee “productoria”, se utiliza para simplificar un producto de términos. Esta
letra griega “pi” se acompaña con un valor inicial de la variable y un límite superior hasta donde
toma el valor la variable, este valor va cambiando de uno en uno. El símbolo, , significa que los
términos que se obtienen al remplazar el valor de la variable se multiplican del primero hasta el
último.

En general la productoria, se simboliza y define, así:

Ejercicio.

Desarrollar y simplificar las siguientes productorias:

) ∏

) ∏

Solución.

) ∏

) ∏
SEGUNDA UNIDAD

DISTRIBUCIONES DE FRECUENCIAS

Distribuciones de frecuencias para variable cuantitativa discreta y variables cualitativas

Si tenemos una variable cuantitativa discreta o una variable cualitativa, la podemos resumir en
una tabla que recibe el nombre de distribuciones de frecuencias. Para ellos revisemos las
siguientes definiciones:

Frecuencias absolutas.

Las frecuencias absolutas es el número de veces que se repite un dato. Las simbolizaremos con la
letra “efe” minúscula:

La suma de las frecuencias absolutas es igual al número de datos ( ).

+ + + …… + ∑

Observe que hemos tomado un subíndice , debido a que los valores que toma la variable, por lo
general son menores que el número de datos ( )

Para determinar las frecuencias absolutas se utiliza el conteo o recuento. Se escriben los valores
ordenados de la variable sin repetirlos. Luego se hace una marca frente a cada valor tantas veces
el dato se encuentre en la lista de datos, se recomienda hacer grupos de cinco marcas. Para
explicarlo más claramente, consideremos los siguientes datos los cuales podrían corresponder al
número de hijos de 17 familia observadas: 2, 5, 4, 0, 2, 0, 2, 4, 2, 0, 5, 2,4,2, 0, 2, 2

El conteo o recuento se realizaría así:

0 IIII = 4

2 IIII III =8

4 III =3

5 II =2

Por lo tanto, las frecuencias absolutas son 4, 8, 3, 2, respectivamente.


Las Frecuencias Absolutas Acumuladas

Las frecuencias absolutas acumuladas se obtienen mediante sumas sucesivas de las frecuencias
absolutas. Las simbolizaremos con la letra “EFE” MAYUSCULA:

…………………………………

Observe que la última frecuencia absoluta acumulada es igual al número de datos.

Frecuencias relativas.

Las frecuencias relativas se calculan dividiendo cada frecuencia absoluta ( ), entre el número de
datos ( ). Generalmente se las expresa en porcentaje para su fácil interpretación. Se denotan y
definen así:

La suma de las frecuencias relativas es igual a 1 o al 100%.

∑ 1 = 100%.

Las Frecuencias Relativas Acumuladas.

Las frecuencias relativas acumuladas se calculan dividiendo cada frecuencia absoluta acumulada
( ), entre el número de datos ( ). Generalmente se las expresa en porcentaje para su fácil
interpretación. Se denotan y definen así:
Otra forma de calcular las frecuencias relativas acumuladas es mediante las sumas sucesivas de las
frecuencias relativas.

…………………………………

1 100%

Observe que la última frecuencia relativa es el 100% o uno.

Con cada valor calculado procedemos a construir la distribución de frecuencias, la cual es una
tabla que contiene: la variable de estudio, las frecuencias absolutas, las frecuencias relativas, las
frecuencias absolutas acumuladas y frecuencias relativas acumuladas. La forma general de una
distribución de frecuencias es la siguiente.

. . . . .
. . . . .

TOTAL 1=100%

donde,

: Variable de estudio
: Frecuencias absolutas.
: Frecuencias absolutas acumuladas.
: Frecuencias relativas.
: Frecuencias relativas acumuladas.
Ejemplo:

Las pesquera más grande del Puerto de Tumaco, tiene en su nómina a 40 empleados. Por leyes del
gobierno toda empresa debe dar un subsidio de educación a cada hijo de los trabajadores. El
gerente para hacer ajustes en el presupuesto de la empresa determina el número de hijos de los
trabajadores que estén estudiando y obtiene los siguientes resultados:

2, 3, 1, 0, 3, 2, 0, 1, 3, 2, 3, 4, 3, 1, 1, 2, 3, 2, 4, 1, 0, 0, 1, 2, 3, 2, 1, 0, 3, 4, 2, 3, 3, 3, 4, 2, 1, 1, 0, 2

Construir una distribución de frecuencias.

Solución:

La variable es el número de hijos de los empleados de la pesquera los cuales estén actualmente
estudiando, esta variable es cuantitativa discreta y toma valores de 0, 1, 2, 3, 4.

El conteo se indica a continuación.

# de hijos Conteo
0 IIII I =6
1 IIII IIII =9
2 IIII IIII = 10
3 IIII IIII I = 11
4 IIII =4

Aplicando las definiciones y las fórmulas respectivas se obtiene la siguiente distribución de


frecuencias.

# de
# de hijos empleados
0 6 6 15% 15%
1 9 15 22,5% 37,5%
2 10 25 25% 62,5%
3 11 36 27,5% 90%
4 4 40 10% 100%
TOTAL 40 100%

Analizando los resultados del tercer renglón tenemos que:

10 empleados de la pesquera, equivalentes al 25% del total, tienen 2 hijos estudiando.

25 empleados de la pesquera, equivalentes al 62,5% del total, tienen 2 o menos de dos hijos
estudiando.
Distribuciones de frecuencias para una variable cuantitativa continua.

Si tenemos una variable cuantitativa continua, generalmente los datos repetidos van hacer muy
pocos, y al calcular sus frecuencias absolutas estas, tomarán valores de 1 o 2, en su gran mayoría.
En estos casos para analizar este tipo de variables se recomienda agruparla en intervalos, clases o
categorías. Por ejemplo, al clasificar a los habitantes de una región por su edad, podríamos hacer
grupos de bebes (edades hasta el año y medio), de niños (edades hasta los 10 o 12 años), de
adolescentes (edades hasta los 18 o 21 años), jóvenes (edades hasta los 25 o 30 años), adultos
(edades hasta los 50 años), mayores (edades hasta los 60 años), tercera edad (edades después de
los 60).

Para construir una distribución de frecuencias para este tipo de variables, consideremos las
siguientes definiciones:

Rango o recorrido. Es la diferencia entre el valor máximo de los datos y el valor mínimo.

Número de intervalos, clase o categorías: A pesar de ser un criterio del investigador el de elegir
con cuántos intervalos va a trabajar, la regla de Sturges, propuesta por Herbert Sturges, sugiere
una fórmula para determinar cuántos intervalos, clases o categorías se debe utilizar.

( ), (La aproximación se la hace sin decimales y por exceso)

Nota: Los intervalos que se forman se consideran semi-abiertos por derecha, es decir tienen la
forma: [ ), este intervalo contiene todos los valores comprendidos entre y , incluyendo a
y excluyendo a . Algunos autores definen de manera diferente los intervalos, por ejemplo, al
considerarlo cerrado, es decir de la forma, [a,b] al siguiente intervalo se debe iniciar por lo menos
1 milésima más grande que b.

Amplitud del intervalo. ( ). Es la distancia que hay entre el límite superior y el límite inferior de
cada intervalo. No necesariamente todos los intervalos deben tener la misma amplitud. Se
aconseja usar la siguiente fórmula

, (La aproximación se la hace por exceso. Se puede usar


decimales).

Construcción de los intervalos

El límite inferior ( ), del primer intervalo es el valor mínimo de los datos, y el límite superior
del primer intervalo ( ), se obtiene sumando al valor mínimo la amplitud. Este límite superior
será el límite inferior del segundo intervalo, de aquí en adelante el proceso se repite hasta formar
el último intervalo.
Supongamos que deseamos trabajar con 5 intervalos de amplitud 4 y que el valor mínimo de los
datos es de 23. Los intervalos se forman así:

Primer intervalo [23 , 23+ 4) = [23 , 27)

Segundo intervalo [27 , 27+ 4) = [27 , 31)

Tercer intervalo [31 , 31+ 4) = [31 , 35)

Cuarto intervalo [35 , 35+ 4) = [35 , 39)

Quinto intervalo [39 , 39+ 4) = [39 , 43)

Conteo o recuento:

Construidos los intervalos empezamos a ubicar cada dato en uno de ellos, haciendo una marca
frente al intervalo que lo contenga. Se recomienda hacer grupos de cinco marcas.

Para explicarlo más claramente, consideremos los intervalos anteriores y los siguientes datos: 25,
40, 33, 31, 41, 28, 36, 42, ….

El conteo o recuento comenzaría así: (por facilidad utilizamos una línea como marca)

[23 , 27) I

[27 , 31) I

[31 , 35) II

[35 , 39) I

[39 , 43) III

 Observemos que el dato 31 se ubicó en el tercer intervalo y NO en el segundo, debido a


que el segundo intervalo contiene los datos mayores o iguales a 27 y menores que 31. Esto
debido a que los intervalos son de la forma [a,b).

Marcas de clase: Son los puntos medios de cada intervalo y se calculan promediando el límite
inferior y el límite superior de cada intervalo.
Determinados los anteriores valores procedemos a construir la distribución de frecuencias, la cual
es una tabla que contiene: la variable, las marcas de clase, las frecuencias absolutas, relativas,
absolutas acumuladas y relativas acumuladas.

. . . . . . .
. . . . . . .
=

TOTAL 1=100%

donde,

: Límite inferior de cada intervalo


: Límite superior de cada intervalo.
: Marca de clase o punto medio de cada intervalo.
: Frecuencias absolutas.
: Frecuencias absolutas acumuladas.
: Frecuencias relativas.
: Frecuencias relativas acumuladas.

Nota: Si la variable es cuantitativa discreta y toma muchos valores, también la podríamos


organizar utilizando intervalos.

Ejemplo.

La más grande pesquera del Puerto de Tumaco, tiene en su nómina a 40 empleados. Por leyes del
gobierno toda empresa debe dar un subsidio de educación a cada hijo de los trabajadores, como
se mencionó y analizó en el problema anterior. Suponga ahora que la empresa crea un programa
nutricional para sus empleados. La variable más importante es el peso de los trabajadores
(medidos en kilogramos). Los especialistas en nutrición recogieron los siguientes datos

60, 70, 78, 80, 66, 59, 86, 88, 97, 68, 46, 61, 76, 45, 77, 70, 62, 73, 64, 72, 102, 74, 75, 82, 89, 66,
52, 90, 84, 57, 76, 87, 62, 73, 93, 69, 55, 75, 94, 54.

Construir una distribución de frecuencias.


Solución:

La variable de interés es el peso de los empleados, la cual es una variable cuantitativa continua,
por lo tanto calculemos:

Rango.

En la serie de datos podemos observar que el peso mínimo es 45 Kg. y el peso máximo es de 102
Kg., entonces

= 102 – 45 57

Número de intervalos.

Aplicando la regla de Sturges, tenemos

( ) ( ) 6,286799…

La amplitud de cada intervalo es

8,142857… 8,2

Los intervalos y el conteo o recuento se indican en la siguiente tabla. Recuerde que el límite
inferior del primer intervalo es 45 y su límite superior se obtiene sumándole la amplitud de 8,2.
Una manera de observar rápidamente el conteo es ordenando los datos, así.

45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73, 74, 75, 75, 76, 76, 77,
78, 80, 82, 84, 86, 87, 88, 89, 90, 93, 94, 97, 102.

Peso (Kg)
Conteo
45 53,2 III =3
53,2 61,4 IIII I =6
61,4 69,6 IIII II =7
69,6 77,8 IIII IIII I = 11
77,8 86 IIII =4
86 94,2 IIII II =7
94,2 102,4 II =2
Con las definiciones y fórmulas correspondientes construimos la siguiente distribución de
frecuencias

Peso(kg.) Marcas de clase # empleados

45 53,2 49,1 3 3 7,5% 7,5%


53,2 61,4 57,3 6 9 15% 22,5%
61,4 69,6 65,5 7 16 17,5% 40%
69,6 77,8 73,7 11 27 27,5% 67,5%
77,8 86 81,9 4 31 10% 77,5%
86 94,2 90,1 7 38 17,5% 95%
94,2 102,4 98,3 2 40 5% 100%
TOTAL 40 100%

El análisis de los resultados en la tabla se hace tal como se indican para el tercer renglón, así:

7 de los empleados de la pesquera, equivalentes al 17,5% tienen pesos entre los 61,4 Kg. y 69,6
Kg. Podríamos decir que el peso promedio de estos siete trabajadores es aproximadamente de
65,5 Kg.

16 de los empleados de la pesquera, equivalentes al 40% tienen pesos entre los 45 Kg. y 69,6 Kg.

Estos resultados los podríamos observar gráficamente en un HISTOGRAMA, o en un POLIGONO DE


FRECUENCIAS, los cuales se definen en la sesión de Gráficos Estadísticos.

Histograma Poígono de Frecuencias para PESO

30 30

25 25

20 20
p o rce n ta je
porcentaje

15 15

10 10

5 5

0 0
45 55 65 75 85 95 105 45 55 65 75 85 95 105
peso peso
TERCERA UNIDAD
MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE POSICION

MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central son valores que en una serie ordenada de datos “tienden” a
ubicarse en el centro. También, se las conoce con el nombre de promedios. Entre ellas tenemos:

La media aritmética o promedio aritmético.


La media aritmética ponderada.
La media geométrica.
La mediana.
La moda.

Media Aritmética o Promedio Aritmético.

Es el cociente entre la suma de los datos y el número de datos( ). Una ventaja de este promedio
es que considera la información de todos los datos, y una desventaja es que es muy sensible a
valores extremos.


, para datos NO agrupados

∑( )
, para datos agrupados.

Nota: De ahora en adelante los datos NO agrupados serán aquellos que se vienen dados en una
lista de datos. Los datos Agrupados son los que vienen dados en una distribución de frecuencias.

Ejemplo.

Un clientes de un local que vende accesorios para computador: una USB en 20.000 pesos, un
mouse en 12.000 pesos, un protector de pantalla 9.000 pesos y un teclado en 17.000 pesos. El
precio promedio de los cuatro productos es de 14.500. Se calcula así:

14.500
Ejemplo.

El dueño del local del ejemplo anterior registró la cantidad de los productos de las ventas del día
de hoy. En la siguiente tabla se resume los precios de cada artículo y las cantidades vendidas de
cada producto.

Producto Precio Cantidad


USB 20.000 4
Mouse 12.000 12
Protector de pantalla 9.000 9
Teclado 17.000 15

Cuál es precio promedio de los productos que se vendieron en dicho local el día de hoy?

Solución:

Se observa que la variable de interés es el precio de los productos, por tanto, el precio promedio
se calcula así:

∑( )

14.000

Otra forma de calcularla es desarrollando las operaciones en una tabla, así:

Producto Precio Cantidad

USB 20.000 4 80.000


Mouse 12.000 12 144.000
Protector de pantalla 9.000 9 81.000
Teclado 17.000 15 255.000
TOTAL = 40 560.000

∑( )
14.000

Media aritmética ponderada

Se la utiliza cuando los datos tienen diferente importancia. Se denota y define así:

∑( )

; donde las son las importancias de cada dato.
Ejemplo.

La alcaldía de Pasto tiene una vacante para el cargo de director del área contable. Como requisitos
se exige: entrevista, examen de conocimientos y puntaje de la hoja de vida. Además, se conoce
que la entrevista se ponderará con un 10%, el examen de conocimientos con un 70% y la hoja de
vida con un 20%. El mínimo aprobatorio es de 60 puntos en una escala de 0 a 100 puntos, el
aspirante que obtenga el más alto puntaje será el seleccionado, si se presentaron Roberto, Luis,
José, Ana y Rosa y obtuvieron los puntajes que se muestran en la siguiente tabla. ¿Quién fue el
seleccionado?.

Aspirante Conocimientos Hoja de vida Entrevista


Roberto 68 72 80
Luis 75 64 78
José 67 71 78
Ana 72 69 73
Rosa 73 65 88

Solución:

Como cada prueba tiene diferente importancia “ponderación o peso”, no podemos aplicar la
media aritmética o promedio aritmético para calcular el puntaje de cada aspirante. Aquí debemos
utilizar la media aritmética ponderada .

Para calcular el puntaje promedio ponderado que obtuvo Roberto debemos calcularlo así:

∑( )

70 puntos.

En la tabla se muestran los puntajes promedios ponderados ( ), para los demás aspirantes.

Nombre Conocimientos Hoja de vida Entrevista


aspirante (70%) (20%) (10%)
Roberto 68 72 80 70 73,3
Luis 75 64 78 73,1 72,3
José 67 71 78 68,9 72
Ana 72 69 73 71,5 71,3
Rosa 73 65 88 72,9 75,3
Incorrecto
Correcto
Por lo tanto, Luis es el seleccionado para el cargo director del área contable en la alcaldía de Pasto,
con un puntaje promedio de 73,1 puntos.

Observemos que calculado la media aritmética ( ), Rosa sería la seleccionada con un puntaje de
75,3 puntos, cometiendo el error de darle una ponderación de 33,3% a la entrevista y a las otras
dos pruebas; cambiando así las reglas de selección.

Media Geométrica.

Se la utiliza cuando los datos crecen en progresión geométrica, es decir, los datos aumentan
rápidamente.

Las fórmulas de cálculo son las siguientes:

√( ) √∏( ), para datos NO agrupados

√( ) √∏( ) , para datos agrupados

Los productos dentro de la raíz suelen ser muy grandes, una forma de trabajar con valores
pequeños es utilizando los logaritmos en base 10, así:


. /, para datos NO agrupados

∑( )
. /, para datos agrupados

Ejemplo:

Calcular la media geométrica de los siguientes datos: 2, 56, 198, 9.650,

Solución:

√( ) √( ) √ 120,95
Usando logaritmos en base 10 se calcularía así:


. / . /
. / . / ( )

Mediana

La mediana de una serie de datos ordenados es el valor que se encuentra en el centro de los datos.
Otra forma es, un valor mayor al 50% de los datos y es menor que el otro 50%. La mediana se la
utiliza cuando existe un valor extremo o dato atípico, en inglés “outlier”.

El lugar donde se encuentra la mediana se obtiene así:

Mediana para datos No agrupados:

Si el número de datos es impar, la mediana es el valor que se encuentra en el centro de la serie


ordenada.

Si el número de datos es par, el valor de la mediana se encuentra promediando los dos valores
centrales.

Ejemplo:

En internet publican los precios de cinco planes turísticos: 35, 37, 29, 31, 60 dólares. Calcular la
mediana.

Solución:

La serie de datos ordenados es: 29, 31, 35, 37, 60.

El lugar de la mediana es 3. Esto indica que el tercer dato es la mediana. Es


decir, la mediana es 35.

La interpretación de la mediana es: El 50% de los planes turísticos cuestan menos de 35 dólares y
el otro 50% cuesta igual o más de 35 dólares.
Ejemplo:

Los pesos de los instrumentos de seis científicos que inspeccionaron al Volcán Galeras son: 4530,
4510, 6000, 4700, 4600, 4490 gramos. Calcular y analizar la mediana.

Solución:

La serie de datos ordenados es: 4490, 4510, 4530, 4600, 4700, 6000.

El lugar de la mediana es 3,5. Esto indica que la mediana se encuentra entre


el tercer dato y el cuarto. Es decir, la mediana es 4565. Esto significa que el
50% de los instrumentos vulcanológicos pesa menos de 4565 gramos y el otro 50% pesa más de
4565 gramos.

Mediana para datos agrupados:(variable cuantitativa discreta)

Se calcula el lugar de la mediana, y haciendo lectura en las frecuencias absolutas acumuladas ,


se selecciona la inmediatamente mayor o igual al lugar de la mediana y se determina donde se
encuentra la mediana. Haciendo lectura en la columna de la variable y la fila donde se encuentra la
mediana se encuentra el valor de la mediana.

Ejemplo:

80 familias viajaron al puerto de Tumaco por una semana. El organizador y guía pregunto ¿cuántas
personas por familia están de acuerdo que la dieta para esa semana sea a base de mariscos?. Los
resultados se resumen en la siguiente tabla.

0 10
1 24
2 30
3 12
7 4

donde, : Número de personas que respondieron afirmativamente

: Número de familias.

Calcular y analizar la mediana.


Solución:

Antes de calcular la mediana complementemos la tabla con las frecuencias absolutas acumuladas,
como se observa en la siguiente tabla.

0 10 10
1 24 34
2 30 64
3 12 76
7 4 80
80

Para determinar el lugar de la mediana aplicamos la fórmula:

, lo cual indica que la mediana se encuentra entre el dato de


lugar 40 y el dato de lugar 41.

El valor de las frecuencias absoluta acumuladas ( ), inmediatamente mayor a 40,5 es 64 (ver


tabla anterior), el cual se encuentra en el tercer renglón. Por tanto el dato que ocupa el lugar 40 es
2 y el dato que ocupa el dato de lugar 41 es 2, promediando los dos valores se obtiene que la
mediana es 2.

La interpretación es: En el 50% de las familias, ninguna, una o máximo 2 personas si desean la
dieta a base de mariscos; y en el otro 50% de las familias, 2 o más de dos personas prefieren la
dieta a base de mariscos.

Mediana para datos agrupados:(variable cuantitativa continua)

La mediana en datos agrupados con intervalos se calcula así:

Se calcula el lugar de la mediana, y haciendo lectura en las frecuencias absolutas acumuladas se


selecciona la inmediatamente mayor o igual al lugar de la mediana y se determina la clase o
intervalo donde se encuentra la mediana (llamada clase mediana). Luego se aplica la siguiente
fórmula.

. /
+[ ]

: Límite inferior de la clase mediana (intervalo donde se encuentra la mediana).


: Frecuencia absoluta acumulada anterior a la clase mediana.
: Frecuencia absoluta de la clase mediana.
: Amplitud de la clase mediana. (Diferencia entre el límite superior y límite inferior de
cada intervalo)
Ejemplo:

A un grupo de personas seleccionadas aleatoriamente se les preguntó ¿cuántos salarios mínimos


invertirían en tecnología en el año?. La información se resume en la siguiente tabla.

Salarios mínimos que


se invertirían en tecnología Número de personas
1-3 5
3-5 7
5-7 12
7-9 2
Calcular y analizar la mediana.

Solución:

Complementado la tabla, con las frecuencias absolutas acumuladas tenemos

Salarios mínimos que


se invertirían en tecnología Número de personas
1-3 5 5
3-5 7 12
5-7 12 24
7-9 2 26
26

El lugar de la mediana es

13,5. Este valor indica que la mediana se encuentra entre la


persona de lugar 13 y la persona de lugar 14. El valor de la frecuencia absoluta acumulada
inmediatamente mayor o igual a 13,5 es 24. Por lo tanto la mediana se encuentra en el intervalo
ubicado en el tercer renglón, el cual corresponde a la clase mediana y se obtiene que

5
12
12
7 5 2

Remplazando en la fórmula se obtiene

. / . / ( )
+[ ] 5 +[ ] +0 1 5,17 5,2 sm.
Es decir, la mediana es 5,2 salarios mínimos. Lo cual significa que el 50% de las personas
invertirían anualmente en tecnología 5,2 salarios mínimos, y el otro 50% de las personas
invertirían más de 5,2 salarios mínimos anualmente en tecnología.

La moda o modo.

La moda o modo se define como el dato de mayor frecuencia o el dato que más se repite. Si una
serie de datos tiene una moda se dice que es unimodal, si tiene dos modas se dice que es bimodal
y si tiene más de dos modas se dice que es multimodal.

Ejemplo.

La moda de los datos: 3, 6, 2, 2, 5, 6, 2, 7, 2, 4, 5, 2, 2 es , el cual es el dato de mayor


frecuencia.

Ejemplo.

Una aerolínea está planeando descuentos para los hijos de sus clientes. Se realizó un estudio a un
grupo de 40 clientes, en el cual la variable de interés fue el número de hijos por cliente. Se obtuvo
la siguiente información

Número de hijos número de clientes


0 5
1 10
2 15
3 8
4 2
Calcular la moda

Solución.

La moda es , ya que es el número de hijos que se repite con mayor frecuencia, en este
caso se presenta en 15 clientes.
Moda en datos agrupados (Variable cuantitativa continua)

Para determinar el lugar de la moda en datos agrupados (Variable cuantitativa continua), basta
con observar la mayor frecuencia absoluta. El intervalo correspondiente se llama clase modal.

La moda se calcula de la siguiente manera:

+. /

: Límite inferior de la clase modal (intervalo donde se encuentra la moda).


: Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta anterior.
: Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta siguiente.
: Amplitud de la clase modal. (Diferencia entre el límite superior y límite inferior de la
clase modal)

Ejemplo.

Una empresa de turismo tiene en su nómina 60 empleados, clasificados por edad, como lo indica
la siguiente tabla.

Edad # de empleados

20 25 5
25 30 12
30 35 18
35 40 15
40 45 10
Calcular y analizar la moda.

Solución:

La mayor frecuencia es 18 y corresponde al tercer renglón. Este intervalo recibe el nombre de


clase modal, en el cual se tiene que:

30
18 – 12 = 6
18 – 15 = 3
35-30 = 5
Remplazando en la fórmula de la moda tenemos:

+. / +. / +. / 33,3 años.

Lo cual indica que la edad que más se repite entre los empleados de la empresa de turismo es de
33,3 años.

Nota: Se debe aclarar que en la construcción de datos agrupados con intervalos se pierde
información, esto implica que si tuviéramos la lista de datos posiblemente la edad que más se
repite podría ser otro valor, puesto que si los 18 empleados de la clase modal todos tienen edades
diferentes y los 5 empleados del primer intervalo tiene la misma edad, entonces la moda
cambiaría.

LAS MEDIDAS DE POSICION

Ya hemos realizado una exploración de los datos, analizando los valores centrales, ahora nos
interesa analizar los datos en cualquier posición de una serie ordenada, para ello estudiaremos las
medidas de posición.

Entre las medidas de posición tenemos: Los cuartiles, los deciles y los percentiles.

Cuartiles ( )

Son tres valores ( 1, 2, 3) que dividen al rango o recorrido en cuatro partes iguales, cada una de
ellas equivalente al 25%.

El lugar de cada cuartil se calcula con la siguiente fórmula.

( )

El cuartil se calcula así:


. /
+[ ]

donde,

: Límite inferior de la clase cuartil (Intervalo donde se encuentra el cuartil ).


: Frecuencia absoluta acumulada anterior a la clase cuartil
: Frecuencia absoluta de la clase cuartil
: Amplitud de la clase cuartil (Diferencia entre el límite superior y límite inferior de cada
intervalo)

Como las fórmulas son muy similares a las de la mediana se procede y analiza de manera
equivalente.

Deciles ( )

Son nueve valores ( 1, 2, 3, 4, 5, 6, 7, 8, 9.) que dividen al rango o recorrido en diez partes
iguales, cada una de ellas equivalente al 10%.

El lugar de cada decil se calcula con la siguiente fórmula.

( )

El decil se calcula asi:

. /
+[ ]

: Límite inferior de la clase decil (Intervalo donde se encuentra el decil ).


: Frecuencia absoluta acumulada anterior a la clase decil
: Frecuencia absoluta de la clase decil
: Amplitud de la clase decil (Diferencia entre el límite superior y límite inferior de cada
intervalo)
Como las fórmulas son muy similares a la mediana y los curtiles, se procede y analiza de manera
equivalente.

Percentiles

Son noventa y nueve valores ( 1, 2, 3, … , 99) que dividen al rango o recorrido en cien partes
iguales, cada una de ellas equivalente al 1%.

El lugar de cada percentil se calcula con la siguiente fórmula:

( )

El percentil se calcula así:

. /
+[ ]

donde,

: Límite inferior de la clase percentil (Intervalo donde se encuentra el percentil ).


: Frecuencia absoluta acumulada anterior a la clase percentil
: Frecuencia absoluta de la clase percentil
: Amplitud de la clase percentil (Diferencia entre el límite superior y límite inferior de
cada intervalo)

Como las fórmulas son muy similares a la mediana, los cuartiles y los deciles, se procede y analiza
de manera equivalente.

Ejemplo:

Se realizó un estudio en el cual se preguntaba de las utilidades mensuales que tenían 45 empresas
catalogadas como las más grandes del país. Por convenio con las empresas no se debe publicar sus
nombres ni mucho menos directamente el valor informado, por lo tanto se construyó una
distribución de frecuencias con intervalos. Los resultados se muestran en la siguiente tabla.

Utilidad mensual
(millones de pesos) # de empresas

2 5 4 4
5 8 10 14
8 11 15 29
11 14 13 42
14 17 3 45
45
Calcular y analizar .

Solución.

Cálculo del cuartil 3. (Equivalente al 75% de los datos).

Lugar del cuartil

( ) ( )
34,5. Esto indica que el se encuentra entre el dato
de lugar 34 y el dato de lugar 35. Además, la frecuencia absoluta acumulada inmediatamente
mayor a 34,5 es 42, correspondiente al cuarto intervalo.

Utilidad mensual
(millones de pesos) # de empresas

2 5 4 4
5 8 10 14
8 11 15 29
11 14 13 42
14 17 3 45
45

Por lo tanto

11
29
13
14 – 11 3

Remplazando en la fórmula tenemos,

. / . /
+[ ] +[ ] *3 12,096154

Esto significa que el 75% de las empresas más grandes del país, tienen utilidades mensuales
inferiores a 12´096.154 pesos y el 25% de las empresas más grandes del país tienen utilidades
mensuales superiores a 12´096.154.
Cálculo del decil 4. (Equivalente al 40% de los datos).

Lugar del decil

( ) ( )
18,4. Esto indica que el se encuentra entre el dato
de lugar 18 y el dato de lugar 19. Además, la frecuencia absoluta acumulada inmediatamente
mayor a 18,4 es 29, correspondiente al tercer intervalo.

Utilidad mensual
(millones de pesos) # de empresas

2 5 4 4
5 8 10 14
8 11 15 29
11 14 13 42
14 17 3 45
45
Por lo tanto

8
14
15
11 – 8 3

Remplazando en la fórmula tenemos,

. / . /
+[ ] +[ ] *3 8,8

Esto significa que el 40% de las empresas más grandes del país, tienen utilidades mensuales
inferiores a 8´800.000 pesos y el 60% de las empresas tienen utilidades mensuales superiores a
8´800.000.

Cálculo del percentil 29. (Equivalente al 29% de los datos).

Lugar del percentil 29

( ) ( )
13,34. Esto indica que el se encuentra entre el
dato de lugar 13 y el dato de lugar 14. Además, la frecuencia absoluta acumulada inmediatamente
mayor a 13,34 es 14, correspondiente al segundo intervalo.
Utilidad mensual
(millones de pesos) # de empresas

2 5 4 4
5 8 10 14
8 11 15 29
11 14 13 42
14 17 3 45
45

Por lo tanto

5
4
10
8–5 3

Remplazando en la fórmula tenemos,

. / . /
+[ ] +[ ] *3 7,715

Esto significa que el 29% de las empresas más grandes del país, tienen utilidades mensuales
inferiores a 7´715.000 pesos y el 71% de las empresas tienen utilidades superiores a 7´715.000.

RANGO PERCENTIL ( )

En el ejemplo anterior nos podríamos preguntar ¿Qué porcentaje de las empresas tienen
utilidades inferior a 10´500.000 pesos mensuales?.

Estas preguntas se resuelven calculando el rango percentil , mediante la siguiente fórmula, que
se obtiene al despejar de la fórmula de los percentiles.

0. / 1

: Percentil , este valor se ubica en los intervalos y me determina la clase rango percentil
: Límite inferior de la clase rango percentil.
: Frecuencia absoluta acumulada anterior a la clase rango percentil.
: Frecuencia absoluta de la clase rango percentil.
: Amplitud de la clase rango percentil. (Diferencia entre el límite superior y límite inferior
de la clase rango percentil)
Ejemplo:

Resolvamos la pregunta: ¿Qué porcentaje de las empresas más grandes del país tienen utilidades
inferior a 10´500.000 pesos mensuales?.

Solución.

Según la información del problema los 10´500.000 pesos, equivalentes a 10,5 millones de pesos,
corresponde a 10,5; el cual se encuentra en el tercer renglón de la tabla.

Utilidad mensual
(millones de pesos) # de empresas

2 5 4 4
5 8 10 14
8 11 15 29
11 14 13 42
14 17 3 45
45
De donde se tiene que:

10,5
8
14
15
11 – 8 = 3

Remplazando en la fórmula del rango percentil se tiene

0. / 1 0. / 1 0. / 1
, - 58,9%

Es decir, que el 58,9% de las empresas más grandes del país tienen unas utilidades inferiores a
10´500.000 pesos mensuales y el 41,1% de las empresas tienen utilidades superiores a 10´500.000
pesos mensuales.
CUARTA UNIDAD

LAS MEDIDAS DE DISPERSION, VARIACION o DESVIACION


Las medidas de tendencia central, NO indican que característica tienen los datos en cuanto a si son
parecidos, (homogéneos o tienen poca variabilidad) o si son muy distintos (heterogéneos o tienen
variabilidad considerable). Las medidas de dispersión son las que me indican que tanta variabilidad
tienen los datos.

Las medias de dispersión, variación o desviación que estudiaremos serán: El rango o recorrido, la
desviación media, la varianza, la desviación estándar y el coeficiente de variación.

El rango o recorrido

Es la diferencia entre el valor máximo de los datos y el valor mínimo.

Si el rango es muy grande y tenemos muy pocos datos, se puede decir, que los datos tienen
mucha variabilidad. Pero si el rango es pequeño y tenemos muchos datos, estos tienen poca
variabilidad o son homogéneos.

Aunque esta medida es muy fácil de calcular su interpretación es muy subjetiva, además,
únicamente utiliza los valores extremos y no considera los otros datos.

Desviaciones con respecto a la media.

Estas no son medidas de dispersión, pero se las utiliza para las calcular la desviación media y la
varianza las cuales las estudiaremos a continuación.

Las desviaciones respecto a la media es la diferencia entre cada dato y la media aritmética de los
datos, se pueden simbolizar como: ( ), indican que tan distante se encuentra cada dato con
respecto a la media aritmética. Si la diferencia es negativa el dato se encuentra a la izquierda de la
media y si es positiva el dato se encuentra a la derecha de la media, si es cero el dato es igual a la
media.

Una propiedad de las desviaciones respecto a la media es que la suma de todas ellas es igual a
cero, es decir,

∑( ) 0, para datos NO agrupados

∑,( ) - 0, para datos agrupados


Ejemplo:

Calcular las desviaciones respecto a la media de los siguientes datos: 6, 4, 3, 7, 2.

Solución:

La media aritmética de los cinco datos es,


4,4

En la siguiente tabla se calculan las desviaciones respecto a la media y se comprueba la propiedad.

6 6 – 4,4 = +1,6
4 4 – 4,4 = - 0,4
3 3 – 4,4 = - 1,4
7 7 – 4,4 = +2,6
2 2 – 4,4 = - 2,4
TOTAL ∑( ) 0

Desviación media

La desviación media es el promedio de los valores absolutos de las desviaciones respecto a la


media aritmética. Dicho de otra manera, es el cociente entre la suma de los valores absolutos de
las desviaciones respecto a la media y el número de datos. Las fórmulas correspondientes son:

∑| | | | | | | | | |
, para datos NO agrupados.

∑,| | - | | | | | | | |
, para datos agrupados.

Ejemplo:

Calcular la desviación media de los siguientes datos: 6, 4, 3, 7, 2.

Solución:

La media aritmética de los cinco datos es,


4,4

En la siguiente tabla se calculan las desviaciones respecto a la media, sus valores absolutos y los
totales.
| |
6 6 – 4,4 = +1,6 1,6
4 4 – 4,4 = - 0,4 0,4
3 3 – 4,4 = - 1,4 1,4
7 7 – 4,4 = +2,6 2,6
2 2 – 4,4 = - 2,4 2,4
∑( ) 0 ∑| | = 8,4

∑| |
De la tabla se obtiene que: 1,68.

Otra manera de calcularla es

∑| | | | | | | | | | | | | | | | | | | |

1,68.

Este valor indica que la distancia promedio a cada uno de los datos con respecto a la media
aritmética es de 1,68 unidades. Es decir, que en promedio, los datos se separan de la media en
1,68 unidades. Además, podríamos asegurar que en distribuciones normales (estas distribuciones
se estudiarán en las unidades de probabilidad), que la mayoría de los datos se encuentran entre

VARIANZA

Se podría definir la varianza como un promedio de los cuadrados de las desviaciones respecto a la
media, o como el cociente entre la suma de los cuadrados de las desviaciones respecto a la media
y el número de datos. Las unidades de la variable de estudio quedan elevadas al cuadrado y
carecen de significado real, por tanto, la varianza no tiene interpretación. La varianza es el medio
para calcular la desviación estándar.

Las fórmulas respectivas para el cálculo de la varianza son:

Varianza corregida

∑( ) ( ) ( ) ( ) ( )
, para datos NO agrupados.

∑[( ) ] ( ) ( ) ( ) ( )
, para datos agrupados.

La varianza corregida es la más utilizada para calcular la varianza de una muestra. Se divide entre
, porque se está estimando un parámetro que es la media poblacional.
Varianza SIN corregir

∑( ) ( ) ( ) ( ) ( )
̂ , para datos NO agrupados

∑[( ) ] ( ) ( ) ( ) ( )
̂ , para datos agrupados

DESVIACION ESTANDAR o TÍPICA

La desviación estándar o desviación típica es la raíz cuadrada positiva de la varianza. Las unidades
de la desviación estándar son las mismas de la variable de estudio, y por este hecho tiene
interpretación. Nos indica cuánto pueden alejarse los datos respecto a la media aritmética, dicho
de otra manera, la desviación estándar es una medida del grado de dispersión de los datos con
respecto al valor promedio. Esta medida es más estable que el rango o recorrido y toma en
consideración el valor de cada dato.

Desviación estándar corregida

∑( )
√ √ √ , para datos NO agrupados

∑,( ) -
√ √ √ , para datos agrupados

Desviación estándar SIN corregir

∑( )
̂ √̂ √ √ , para datos NO agrupados.

∑,( ) -
̂ √̂ √ √ , para datos agrupados.

COEFICIENTE DE VARIACION

El coeficiente de variación es una medida de dispersión y se define como el cociente entre la


desviación estándar y la media aritmética. Este carece de unidades y por tanto se puede expresar
en porcentaje. Su fórmula de cálculo es:
El indica que tan dispersos se encuentran los datos con respecto a la media aritmética. Este es
más preciso que la desviación estándar.

El Coeficiente de variación mide la dispersión en términos de porcentaje, señala qué tan grande es
la magnitud de la desviación estándar respecto al promedio del conjunto de datos que se examina.

Si el es menor o igual al 20% se dice que el promedio es representativo, o que los datos son
homogéneos

Si el es mayor al 20%, el promedio NO es representativo, o que los datos NO son homogéneos

Otra interpretación muy similar a la anterior se muestra en la siguiente tabla

Interpretación
Menos del 11% Muy homogéneos
11% al 16% Homogéneos
16% al 26% Heterogéneos
Más del 26% Muy heterogéneos

Ejemplo.

De los siguientes datos calcular la media, la desviación media, la varianza, la desviación estándar y
el coeficiente de variación.

168, 170, 196, 180, 173.

Solución.

Calculemos la media aritmética


177,4

Calculemos la desviación media

∑| | | | | | | | | |

| | | | | | | | | |
= 8,48
Este valor indica que la distancia promedio a cada uno de los datos con respecto a la media
aritmética es de 8,48. Es decir, que en promedio, los datos se separan de la media en 8,48
unidades.

Calculemos la Varianza (corregida)

∑( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( )

128,8

Este valor no tiene análisis, es el proceso para calcular la desviación estándar.

Calculemos la desviación estándar (corregida)

∑( )
√ √ √ √ 11,35

Nos indica que los datos pueden alejarse de la media aritmética 11,35 unidades o que los datos se
encuentran desviados con respecto del promedio en 11,35 unidades.

Calculemos el coeficiente de variación.

0,063979.. 6,4%

Este valor es menor que el 20%, concluimos que los datos son homogéneos. Según la tabla de
análisis del , el 6,4% es menor de 11% y se concluye que los datos son muy homogéneos.

Ejemplo.

Un campesino del municipio del Encano, Nariño (Lugar donde se encuentra uno de los sitios más
turísticos de Nariño, La Laguna de la Cocha o Lago Guamuez), tiene en uno de sus criaderos
truchas arco iris, a las cuales las alimenta con un producto extraído de vísceras de las mismas
truchas sacrificadas, dicho alimento es rico en proteínas.

Para el control de peso y tamaño ha instalado una tecnología única en el Departamento de Nariño,
en el cual con un software especial obtiene automáticamente el peso y tamaño de cada una de
ellas. El anterior fin de semana, tomo mediciones sobre el peso (en gramos) de las truchas de este
criadero y obtuvo los siguientes resultados.
Peso(gr.) # truchas

175 185 9
185 195 30
195 205 57
205 215 103
215 225 26
225 235 15
235 240 10
TOTAL 250

Calcular y analizar el peso promedio de las truchas, la varianza, la desviación estándar y el


coeficiente de variación.

Solución:

Para empezar hacer los cálculos necesitamos determinar las marcas de clase ( ) . Luego
realizando las operaciones indicadas y las sumatorias que aparecen en las fórmulas obtenemos la
siguiente tabla.

Peso(gr.) # truchas
( ) ( )
175 185 9 180 1.620 -27,68 766,1824 6.895,6416
185 195 30 190 5.700 -17,68 312,5824 9.377,472
195 205 57 200 11.400 -7,68 58,9824 3.361,9968
205 215 103 210 21.630 2,32 5,3824 554,3872
215 225 26 220 5.720 12,32 151,7824 3.946,3424
225 235 15 230 3.450 22,32 498,1824 7.472,736
235 245 10 240 2.400 32,32 1.044,5824 10.445,824
TOTAL 250 51.920 42.054,4

Nota: Esta tabla se construye fácilmente en la hoja electrónica, usando las operaciones como
fórmulas de Excel.

Calculemos la media aritmética


207,68

Esto significa que el peso promedio de las 250 truchas que hay en el criadero es de 207,68 gramos.
Calculemos la Varianza (corregida)

∑( )
168,89

Este valor no tiene análisis porque las unidades de este valor son gramos al cuadrado.

Calculemos la desviación estándar (corregida)

∑( )
√ √ √ √ 12,9957… 13

Nos indica que los pesos de las truchas pueden alejarse del peso promedio 13 gramos, o que los
pesos de las truchas se encuentran desviados con respecto del peso promedio en 13 gramos.

Nota: Si el peso de las truchas se distribuyen normalmente (consultar distribución normal) se


puede afirmar que aproximadamente un 68,26% de las truchas tiene pesos entre 207,68 – 13 y
207.68 + 13, es decir, hay un gran porcentaje de truchas cuyos pesos se encuentran entre 194,68
gramos y 220,68 gramos.

Calculemos el coeficiente de variación.

0,0626 6,26%

Este valor es menor que el 20%, concluimos que los pesos de las truchas arco iris del criadero son
homogéneos, es decir, los pesos de las 250 truchas del criadero tienen poca variabilidad. Según la
tabla de análisis del , el 6,26% es menor de 11% y se concluye que los pesos de las truchas son
muy homogéneos.

COEFICIENTE DE SIMETRIA Y CURTOSIS (opcional)

COEFICIENTE DE SIMETRIA ( ).

Es el cociente entre el tercer momento central ( ) y el cubo de la desviación estándar.

El tercer momento central se define y calcula, así:

∑( ̅)
La interpretación del coeficiente de simetría se hace de la siguiente manera:

Si , la distribución es simétrica. Otra manera de llegar a la misma conclusión es observando


que la media aritmética, la mediana y la moda coincidan, ( ̅ ). Gráficamente se
tendría:

Si , la distribución es asimétrica a la izquierda o de sesgo negativo. Otra manera de llegar a


la misma conclusión es observando que la media aritmética es menor que la mediana y menor la
moda, (̅ ). Gráficamente se tendría:

Si , la distribución es asimétrica a la derecha o de sesgo positivo. Otra manera de llegar a la


misma conclusión es observando que la moda es menor que la mediana y menor media
aritmética, ( ̅). Gráficamente se tendría:
COEFICIENTE DE CURTOSIS O APUNTAMIENTO ( ).

Es el cociente entre el cuarto momento central ( ) y la desviación estándar elevada a la cuatro.

El cuarto momento central se define y calcula, así:

∑( ̅)

La interpretación del coeficiente de curtosis o apuntamiento se hace de la siguiente manera:

Si , la distribución es normal o mesocúrtica.

Si , la distribución es achatada o platicúrtica.

Si , la distribución es apuntada o leptocúrtica.


QUINTA UNIDAD

GRAFICOS ESTADISTICOS

Una manera de representar la información es mediante los gráficos estadísticos. Estos ayudan de
manera rápida a revisar la descripción de los datos.

Los gráficos más comunes son:

El gráfico o diagrama de barras (horizontales, verticales o en componentes)


El gráfico o diagrama de líneas o trazos.
El gráfico o diagrama de sectores, circular, de torta o de pastel.
Los Pictogramas.
El diagrama de Cajas y Bigotes.
El Histograma.
El polígono de frecuencias
Las ojivas o polígono de frecuencias acumuladas.

Hay otros gráficos que se utilizan según la disciplina, tales como los cartogramas que se utilizan en
las ciencias sociales, la curva de Lorenz que explica el Coeficiente de Gini, el cual lo utilizan los
economistas. EXCEL, STATGRAPHICS y SPSS, en la galería de gráficos presenta una gran variedad
de gráficos e incluso en 3D. Otros paquetes estadísticos presentan gráficos especiales como las
caras de Chernoff y estrellas utilizados para análisis de datos multivariados.

Cada tipo de gráfico está destinado para una labor específica. Con la práctica y de acuerdo a tus
necesidades determinarás cual utilizar según tus datos.

El gráfico o diagrama de barras (horizontales, verticales o en componentes)

Es un gráfico que utiliza rectángulos horizontales o verticales llamados barras. El ancho de cada
barra es arbitrario, pero se debe tener en cuenta que ninguna de ellas se debe cruzarse o
“solaparse” con otra. El alto de cada barra depende de las frecuencias de los datos. Generalmente
los valores de las variables se ubican en el eje X, y las frecuencias en el eje Y (gráfico vertical).
Cuando se van a analizar dos o más variables el gráfico recibe el nombre de gráfico de barras en
componentes, también se pueden comparar la misma variable en dos periodos distintos con este
tipo de gráficas.
Ejemplo:

Se registró en el primer semestre del año 2011, la cantidad de USB que se vendieron en un local
donde se comercializa accesorios para PC, estos registros se realizaron en cada uno de los meses.
La información se observa en la siguiente tabla.

Mes Cantidad de USB vendidas(miles)


enero 25
febrero 12
marzo 38
abril 94
mayo 12
junio 28

Construir un diagrama de barras.

Solución.

El gráfico de barras verticales es el siguiente. (Si queremos las barras horizontales, ubicamos los
meses en el eje Y, y la cantidad de USB vendidas en el eje X).

Cantidad de USB vendidas


94
100
80
60 38
25 28
40 12 12
20
0
Ejemplo:

Se registró en el primer semestre de los años 2011 y 2012, la cantidad de USB que se vendieron
en el mismo local del ejemplo anterior, estos registros se realizaron en cada uno de los meses. La
información se presenta en la siguiente tabla.

Mes Cantidad de USB vendidas 2011 Cantidad de USB vendidas 2012


enero 25 75
febrero 12 64
marzo 38 50
abril 94 84
mayo 12 20
junio 28 52

Construir un diagrama de barras en componentes

Solución.

El gráfico de barras en componentes es el siguiente. Observa que si tenemos dos variables en cada
valor del eje X, se grafican dos barras. Si se tienen tres componentes se deberán graficar tres
barras, etc.

100
90
80
70
60
50
40
30
20
10
0
El gráfico o diagrama de líneas o trazos.

Es un gráfico que para trazarlo se ubican puntos en el plano cartesiano y luego se los une
mediante segmentos de recta, llamados trazos.

Ejemplos. Veamos la información de los dos ejemplos anteriores en un diagrama de líneas.

Cantidad de USB vendidas 2011


100
80
60
40
20
0
enero febrero marzo abril mayo junio

100

80

60

40

20

0
enero febrero marzo abril mayo junio

El gráfico o diagrama de sectores, circular, de torta o de pastel.

Se utiliza cuando la unidad se puede subdividir. La información la podemos representar en un


círculo en el cual se muestra la proporción o porcentaje equivalente a cada parte.

Para determinar dicho porcentaje hacemos corresponder el total al 100% y mediante regla de tres
simple directa determinamos el porcentaje que equivale cada parte.

100%
?
De forma similar haciendo corresponde el total a 360º del círculo y aplicando regla de tres simple
directa determinamos cuántos grados le corresponde a cada parte.

360º
?

Ejemplo.

La facultad de Economía de una universidad está compuesta por: estudiantes, docente,


administrativos y servicios generales. Si las cantidades de personas en cada estamento son las que
aparecen en la siguiente tabla, representemos esta información mediante un diagrama circular.

Estamentos Cantidad
Estudiantes 800
Administrativos 100
Docente 340
Servicios Generales 80
TOTAL 1320

Solución.

Calculando los porcentajes y los grados para cada estamento, y poder trazar el gráfico sin usar
herramientas informáticas tenemos los siguientes resultados.

Grados
Estamentos Cantidad Porcentajes Grados Acumulados
Estudiantes 800 60,6% 218 218
Administrativos 100 7,6% 27 245
Docente 340 25,8% 93 338
Servicios Generales 80 6,1% 22 360
TOTAL 1320 100% 360
El diagrama circular es el siguiente, presentado en tres dimensiones

Personal Fac. Economía


Estudiantes
6%
Administrativos
26%
61% Docente

8% Servicios
Generales

Los Pictogramas.

Es una manera de representar la información, mediante objetos o figuras. A cada figura completa
se le asigna un valor al inicio del gráfico. Esta debe explicarse por sí sola.

El siguiente gráfico es un pictograma que representa la cantidad de turistas que visitaron la Laguna
de la Cocha (Lago Gaumez, Nariño) los primeros cuatro meses del año.

= 5.000 turistas

Enero: …………………………..……....15.000 turistas

Febrero: ……………………………………………..10.000 turistas

Marzo: ……..25.000 turistas

Abril: …………………………………………………………..…5.000 turistas

Si se necesitará graficar 13.000 turistas en el mes de febrero se graficaría 2 figuras de un turista


completas y una parte de otra.
El diagrama de Cajas y Bigotes.

Este gráfico se utiliza para analizar variabilidad de los datos y simetría, además me determina
datos atípicos “outlier”.

NOTA. Para comprender los términos usados en este gráfico, remitirse a la sesión de medidas de
posición.

En una serie ordenada de datos o en datos agrupados podemos calcular los tres cuartiles los
cuales dividen al rango en cuatro partes iguales. Se aclara que el segundo cuartil es igual a la
mediana. Calculados estos valores construimos una caja entre el cuartil 1 ( ) y el cuartil 3 ( ),
con un ancho arbitrario, en medio de la caja se ubica el segundo cuartil ( ) o mediana. Luego se
encuentran dos valores y de la siguiente forma:

( )
( )

En el medio del ancho de la caja se traza una segmento de recta hasta llegar a y otro segmento
de recta al otro lado de la caja hasta llegar a . Estos segmentos de recta reciben el nombre de
bigotes.

Ejemplo.

Construir un diagrama de cajas y bigote para representar los siguientes datos:

45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73, 74, 75, 75, 76, 76, 77.

Solución:

El lugar de un cuartil viene dado por:

( )
, el cual representa la posición del cuartil

Entonces tenemos

( ) ( )
7, el séptimo dato es el cuartil 1, 59

( ) ( )
14, el dato de lugar 14 es el cuartil 1, 66

( ) ( )
21, el dato de lugar 21 es el cuartil 1, 73

Nota: Si los lugares de los cuartiles no son exactos, se promedian los dos valores o más
correctamente se interpolan para encontrar el valor del cuartil. Por ejemplo si el lugar del cuartil 1
fuera 7,25 indicaría que este cuartil se encuentra entre el dato de lugar siete y el dato de lugar 8,
lo cual indica que el cuartil 1, se calcularía promediando así: (59+60)/2 = 59,5. Pero si
interpolamos se calcularía así: 59+0,25*(60-59) = 59,25. Podemos observar que el último resultado
es el más correcto.

Ahora calculemos los bigotes,

( ) 59 – 1,5*(73 – 59) = 38
( ) 73 + 1,5*(73-59) = 94

Como los bigotes sobrepasan al valor mínimo (45) y al valor máximo (77) de los datos, los bigotes
toman estos valores: 45 y 77. Esto significa que no existen valores atípicos.

El gráfico aproximado es el siguiente

45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73, 74, 75, 75, 76, 76, 77

Observe que los datos no se encuentran a una distancia real, por tanto la gráfica se distorsiona.

Los gráficos a escala se observan así:

Gráfico de Caja y Bigotes


Gráfico de Caja y Bigotes
Intervalos de confianza del 95% para la mediana: [61,1104, 70,8896]

45 55 65 75 85
45 55 65 75 85
peso_kg
peso_kg

El Histograma.
Es un diagrama de barra. Se lo utiliza para representar la información de una distribución de
frecuencias con intervalos, clases o categorías.

Para graficarlo se ubican en el eje X, los intervalos, los cuales corresponden al ancho de cada barra,
en el eje Y, ubicamos las frecuencias absolutas o las frecuencias relativas.

El polígono de frecuencias (absolutas o relativas).

Es un diagrama de líneas. Se lo utiliza para representar la información de una distribución de


frecuencias con intervalos, clases o categorías.
Para graficarlo se ubican en el eje X las marcas de clase, en el eje Y ubicamos las frecuencias
absolutas o las frecuencias relativas, luego unimos los puntos con segmentos de recta.

Para el ejemplo de los dos gráficos anteriores revisemos la siguiente información, y observemos el
gráfico, en los cuales se han ubicado las frecuencias relativas en el eje Y. (Si se trabaja con las
frecuencias absolutas se obtiene un gráfico equivalente).

Peso(kg.) # empleados

45 53,2 3 8%
53,2 61,4 6 15%
61,4 69,6 7 18%
69,6 77,8 11 28%
77,8 86 4 10%
86 94,2 7 18%
94,2 102,4 2 5%
TOTAL 40 100%

Histograma
Poígono de Frecuencias para PESO
30
30
25
25
20
p o rce n ta je

20
p o rce n ta je

15
15
10
10

5 5

0 0
45 55 65 75 85 95 105 45 55 65 75 85 95 105
peso peso

Las ojivas o polígono de frecuencias acumuladas (absolutas o relativas).

Es un diagrama de líneas o trazos. Se lo utiliza para representar la información de una distribución


de frecuencias con intervalos, clases o categorías utilizando las frecuencias absolutas acumuladas
o las frecuencias relativas acumuladas.

Para graficarlo se marcan puntos en el plano cartesiano, ubicando en el eje X, los límites
superiores de cada intervalo ( ), en el eje Y, ubicamos las frecuencias absolutas acumuladas
( ), o las frecuencias relativas acumuladas ( ) , luego unimos los puntos con segmentos de
recta.
Tracemos la ojiva o polígono de frecuencias absolutas acumuladas ( ), para la siguiente
distribución de frecuencias.

45 53,2. 3 3
53,2 61,4. 6 9
61,4 69,6. 7 16
69,6 77,8. 11 27
77,8 86. 4 31
86 94,2. 7 38
94,2 102,4. 2 40

Ojiva
50

40 40
38
31
30
27
20
16
10 9
3
0
0
45 53,2. 61,4. 69,6. 77,8. 86. 94,2. 102,4.
SEXTA UNIDAD

PROBABILIDAD

La probabilidad comienza cuando los matemáticos Fermat y Pascal, analizan los juegos de azar en
sentido matemático. Por tal razón muchos de los ejemplos que presentaré se referirán a dados,
monedas, cartas y se alternará con ejemplos de aplicación a otras situaciones.

PRINCIPIO FUNDAMENTAL DEL CONTEO (p.f.c)

Si un evento o suceso puede ocurrir de maneras diferentes, un evento o suceso puede


ocurrir de maneras diferentes, un evento o suceso puede ocurrir de maneras
diferentes, y así sucesivamente, un evento o suceso puede ocurrir de maneras diferentes,
entonces, todos los eventos en conjunto pueden ocurrir de

De cuántas maneras diferentes pueden caer tres monedas?.

Definamos los eventos de la siguiente manera:

, este evento o suceso puede ocurrir de dos, , maneras


diferentes: * +

, este evento o suceso puede ocurrir de dos, , maneras


diferentes: * +

, este evento o suceso puede ocurrir de dos, , maneras


diferentes: * +

Por lo tanto, por el (p.f.c), las tres monedas pueden caer de:

Nota: Si se lanzan 10 monedas, estas pueden caer de maneras diferentes.


De cuántas manera diferentes pueden caer dos dados?.

Definamos los eventos de la siguiente manera:

, este evento o suceso puede ocurrir de seis, , maneras


diferentes: * +

, este evento o suceso puede ocurrir de seis, , maneras


diferentes: * +

Por lo tanto, por el (p.f.c), los dos dados pueden caer de:

Para verificar este resultado, supongamos que en el primer dado se obtiene el uno, entonces el
otro dado puede caer de las seis formas diferentes, pero si el primer dado se fija en dos, tres,
cuatro cinco o seis, el otro dado puede cambiar en las seis formas, obteniéndose las 36 maneras
diferentes. Veámoslo de la siguiente manera:

Los posibles resultados de lanzar dos dados serian:

( )( )( )( )( )( )

( )( )( )( )( )( )

( )( )( )( )( )( )

( )( )( )( )( )( )

( )( )( )( )( )( )

( )( )( )( )( )( )

De cuántas manera diferentes pueden caer un dado y una moneda?.


Definamos los eventos de la siguiente manera:

, este evento o suceso puede ocurrir de seis, , maneras


diferentes: * +

, este evento o suceso puede ocurrir de dos, , maneras


diferentes: * +

Por lo tanto, por el (p.f.c), el dado y la moneda pueden caer de:

Cuántas placas de automóvil es posible formar en Colombia?. (Observación: Cada placa de


automóvil tiene tres letras y tres números y admite repetición de letras y números. Las letras ch,
rr, ll, ñ, no se consideran, es decir, solamente se cuenta con 26 letra del alfabeto y los 10 dígitos
del 0 al 9)

Definamos los eventos de la siguiente manera:

, este evento o suceso puede ocurrir


de 26, maneras diferentes.

, este evento o suceso puede ocurrir


de 26, maneras diferentes.

, este evento o suceso puede ocurrir de


26, maneras diferentes.

, este evento o suceso puede ocurrir de


10, maneras diferentes.

, este evento o suceso puede ocurrir de


10, maneras diferentes.

, este evento o suceso puede ocurrir de


10, maneras diferentes.
Por lo tanto, por el (p.f.c), el número total de placas que se pueden formar es de:

Ejercicios

1.) Cuántos números mayores que cien y menores que mil se pueden formar con los dígitos:
3, 5, 6, 8
a.) Con repetición de dígitos?
b.) Sin repetición de dígitos?
2.) Repetir el numeral anterior con los dígitos 0, 3, 6, 8.
3.) Cuantos números telefónicos se pueden formar con el indicativo 733, 723 y 730 en la
actualidad en la ciudad de Pasto?.
4.) De cuántas maneras diferentes pueden salir las balotas del baloto. (el baloto consta de 45
balotas numeradas del 01 hasta 45, todas del mismo tamaño y peso. Cuando juega el
baloto salen aleatoriamente 6 de ellas).
5.) Cuantos números de lotería de cuatro dígitos y dos en la serie es posible formar?.
TIPOS DE AGRUPACIONES (opcional)

Entre los tipos de agrupaciones tenemos:

Las Combinaciones ( )

Las Variaciones o Permutaciones ( )

Las variaciones con elementos idénticos. . /

LAS COMBINACIONES ( )

Llamaremos COMBINACIONES a las diferentes agrupaciones que podemos formar tomando de


los elementos dados, de tal manera que cada agrupación sea diferente en por lo menos un
elemento, SIN IMPORTAR EL ORDEN DE UBICACIÓN.

El total de combinaciones que podemos formar con elementos tomadolos de en , se


simboliza y calcula así:

. /
( )

donde, ( ) ( ) , se llama Número Factorial.

LAS VARIACIONES o PERMUTACIONES ( )

Llamaremos VARIACIONES a las diferentes agrupaciones que podemos formar tomando de los
elementos dados, de tal manera que cada agrupación sea diferente en por lo menos un elemento,
O EN EL ORDEN DE UBICACIÓN (“si importa el orden”).

El total de variaciones que podemos formar con elementos tomadolos de en , se simboliza y


calcula así:

( )
VARIACIONES CON ELEMENTOS IDÉNTICOS. . /

Si en una variación, de los elementos dados tenemos una cantidad: que son idénticos, que
son idénticos, son idénticos, etc., el número de variaciones que podemos formar , se simbolizan
y calculan así:

Ejemplo 1.

De un grupo de 10 profesionales que conforman una cooperativa quieren nombran la junta


directiva compuesta por: Presidente, Tesorero y fiscal. De cuántas maneras diferentes se puede
nombrar la junta directiva?.

Solución:

Supongamos que los nombres de los profesionales son:

Una de las posibles juntas directiva podría estar formada por:

Pero si cambiamos de cargo a las personas de la siguiente manera:

obtenemos otra junta directiva, a pesar de ser las mismas personas, pero con diferentes cargos,
por lo tanto se trata de una VARIACION. (“si importa el orden”).

Por lo tanto, si obtenemos:

( ) ( )

que corresponde a la cantidad de juntas directivas diferentes que es posible formar con los 10
profesionales.
Ejemplo 2.

Cuántos comités de investigación podemos formar con 8 ingenieros y 7 economistas, si cada


comité debe tener 5 profesionales?.

Solución.

Como el problema no específico la cantidad de cada tipo de profesionales que debe contener
cada comité, entonces de los 15 profesionales se deben escoger 5 de ellos para conformar cada
comité y NO importa el orden como se los seleccione, por lo tanto es una combinación, donde
, entonces

( )
( ) ( )

es la cantidad de comités de investigación que se pueden formar con los 15 profesionales.

Ejemplo 3.

Cuantos números mayores que 100 y menores que mil se pueden formar con los dígitos: 3, 5, 6, 8,
si repetición de dígitos en un mismo número?.

Solución:

Los números mayores de cien y menores de mil tienen tres dígitos. Si formamos un número, por
ejemplo el 356 y cambiamos el orden del tres y cinco obtenemos el 536, muy diferente al anterior,
es decir, importa el orden, entonces es una variación con , por lo tanto

( ) ( )

es la cantidad de números que podemos formar.

Para verificar este resultado hagamos un listado de ellos:


No 1 2 3 4 5 6 7 8 9 10 11 12
# 356 358 365 368 385 386 536 538 563 568 583 586

No 13 14 15 16 17 18 19 20 21 22 23 24
# 635 638 653 658 683 685 835 836 853 856 863 865

DEFINICIONES DE PROBABILIDAD

Antes de definir probabilidad definimos los siguientes conceptos.

ESPACIO MUESTRAL ( ), Es el conjunto de referencia o conjunto universal, compuesto por todos


los casos posibles que puede ocurrir un experimento. El número de elementos del espacio
muestral lo simbolizaremos con la letra .

SECESO o EVENTO ( ), Es un subconjunto del espacio muestral. El número de elementos del


suceso o evento “ ” lo simbolizaremos con la letra y representan el número de casos
favorables.

DEFINICION CLASICA DE PROBABILIDAD.

También llamada definición teórica de probabilidad. La probabilidad de que ocurra un suceso o


evento “ “ es el cociente entre el número de casos favorables ( ) y el número de casos pasibles
( ). Esto se simboliza así:

( )

Observación:
Como nos podemos dar cuenta la fórmula es muy simple y sencilla de aplicar, pero cuando nos
presentan situaciones complejas donde se deban calcular y entonces se complica, porque
antes de aplicarla se deben usar las técnicas de contar.

DEFINICION FRECUENCIAL DE PROBABILIDAD.

También llamada definición experimental. La probabilidad de que ocurra un suceso o evento “ “


es el cociente entre el número de veces que se repite un resultado ( ) y el número de veces que se
realiza el experimento ( ). Esto se simboliza así:

( )
Esta definición, es la que hace posible que cuando se realice en forma infinita un experimento, la
probabilidad se aproxima a la probabilidad teórica o clásica.

Notas:

 Si ( ) . La probabilidad de obtener un número 8 en el


lanzamiento de un dado es cero, es decir, obtener 8 es suceso imposible.
 Si ( ) . La probabilidad de obtener un número menor que 7
en el lanzamiento de un dado es siempre seguro, con probabilidad de 100% = 1.
 La probabilidad de que ocurra cualquier evento, siempre va estar entre cero y uno (lo que
es equivalente entre 0% y 100%).

¿Cuál es la probabilidad de obtener un número múltiplo de 3 en el lanzamiento de un dado?

Este problema no tiene mucha dificultad y usted podría decir la respuesta de inmediato.

Realicemos el procedimiento.

Experimento: Lanzar un dado

Espacio muestral: = {1,2,3,4,5,6,}, entonces = 6, # de casos posibles.

Evento o suceso : “obtener múltiplos de 3” ={3,6}, entonces = 2, # de casos favorables.

Por lo tanto,

( )

Este resultado se podría explicar considerando que si usted es el que apuesta que va a salir un
múltiplo de 3 cuando se lanza un dado, solamente tendría el chance de ganar en
aproximadamente 33 veces de 100 lanzamientos.

Lo anterior se cumple en teoría, porque si para comprobarlo usted lanza cien veces un dado y hace
anotación de los resultado que obtiene y luego cuenta los múltiplos de 3, la cantidad que obtendrá
no será muy cercana a 33. Puesto que el 33% se alcanza cuando el experimento se hace en forma
infinita.
¿Cuál es la probabilidad de obtener una suma de cinco puntos en el lanzamiento de un par de
dados?

Este problema tiene más dificultad que el punto anterior y usted podría también decir la
respuesta de inmediato.

Realicemos el procedimiento.

Experimento: Lanzar un par de dados

Espacio muestral: es:

( )( )( )( )( )( )

( )( )( )( )( )( )

( )( )( )( )( )( )

( )( )( )( )( )( )

( )( )( )( )( )( )

( )( )( )( )( )( )

entonces = 36. # de casos posibles. Pero recuerde que aplicando el principio fundamental del
conteo se determinó que las formas posibles de caer dos dados se calculan así: 6x6=36.

Evento o suceso : “obtener una suma de 5 puntos” ={(1,4), (2,3), (3,2), (4,1)}, entonces = 4, #
de casos favorables.

Por lo tanto,

( )
¿Un caja contiene 7 camisas y 5 pantalones, si se seleccionan aleatoriamente una prenda, cuál es
la probabilidad de que la prenda seleccionada sea un pantalón?.

Experimento: Seleccionar una prenda de vestir

Espacio muestral: = {7 camisas, 5 pantalones}, entonces = 12, # de casos posibles.

Evento o suceso : “seleccionar un pantalón” ={5 pantalones}, entonces = 5, # de casos


favorables.

Por lo tanto,

( )

Ejercicios.

1.) Cuál es la probabilidad de ganarse el baloto, comprando una combinación?.


2.) De una lotería de cuatro dígitos en el número y dos dígitos en la serie usted compra un
número, ¿cuál es la probabilidad de ganársela?.
3.) De una baraja de 52 cartas (diamantes, corazones, picas, tréboles) se extrae una carta en
forma aleatoria, ¿cuál es la probabilidad de que la carta extraída sea un as o un 7?.
4.) Cuatro jugadores lanzan un par de dados y observan la suma de puntos. El primero
apuesta a que el resultado será una suma de 8 puntos, el segundo una suma de 4 puntos,
el tercero una suma de 7 puntos y el cuarto una suma de 11 puntos. ¿Cuál es la
probabilidad de ganar de cada uno de ellos y quién tiene mayor probabilidad de ganar?.

También podría gustarte