Está en la página 1de 64

ESTADISTICA DESCRIPTIVA

Docente:

LEONEL DELGADO ERASO

Especialista en Estadística

UNIVERSIDAD DE NARIÑO

DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA

PASTO, 2014

CONTENIDO

ESTADISTICA DESCRIPTIVA.

Conceptos generales sobre estadística

Distribuciones de frecuencias.

Medidas de tendencia central.

Medidas de dispersión.

Gráficos Estadísticos

Probabilidad.

PRIMERA UNIDAD

CONCEPTOS GENERALES

DEFINICION DE ESTADISTICA

La estadística es una ciencia que estudia los métodos, normas, reglas, leyes para la recolección, organización y análisis de datos, para sacar conclusiones válidas y tomar decisiones acertadas.

POBLACION: Es el conjunto universal, el conjunto de referencia, el cual está conformado por todos los elementos que tienen la característica de estudio. Una población puede ser finita, (de tamaño N) o infinita.

MUESTRA: Es un subconjunto de la población. Es una parte de la población, la cual debe cumplir con dos requisitos fundamentales: ser aleatoria y representativa. La primera hace referencia a que sus elementos deben seleccionarse al azar, y la segunda hace referencia al tamaño de la muestra.

DATO: Es la medida de la observación.

VARIABLES ESTADISTICAS.

Una variable estadística es una característica la cual al ser observada en diferentes individuos nos genera resultados distintos.

Las variables estadísticas pueden clasificarse en: CUANTITAVAS y CUALITATIVAS.

Las variables CUANTITATIVAS se clasifican en: Continúas y Discretas.

Las variables CUALITATIVAS se clasifican en: Nominales y Ordinales.

Las variables CUANTITATIVAS son aquellas que las podemos medir mediante un número.

Las variables cuantitativas continúas son aquellas, que pueden tomar cualquier valor entre dos valores, o más fácilmente, aquellas que admiten decimales, por ejemplo, El salario de una persona, las utilidades diarias de un negocio, la puntuaciones en un examen, el cociente intelectual, etc.

Las variables cuantitativas discretas son aquellas que admiten, únicamente valores enteros, por ejemplo, el número de personas que habita en una casa, el número de estudiante en un curso de economía, la cantidad de familias que tienen acceso directo a internet, la cantidad de microempresa en una región, etc.

Las variables CUALITATIVAS son aquellas que representan, una propiedad, un atributo.

Las variables cualitativas nominales presentan modalidades no numéricas y no se las puede ordenar, como por ejemplos: el color del cabello de una persona, el color de automóvil que prefiere una mujer, el estado civil de una persona, etc,.

Las variables cualitativas ordinales son aquellas que además de representar una propiedad, las podemos ordenar. Es decir podemos determinar cuál va de primero, segundo, tercero,…., como por ejemplo: El nivel educativo de una persona, ( sin estudio, primarios, secundarios, tecnólogo, pregrado o universitarios, especialista, master, Doctor, PD). Otra variable ordinal, puede ser la apreciación de cierta marca de computadores por un usuario: mala, regular, buena, excelente. El premio que adquiere un deportista en los olímpicos: Bronce, plata, oro.

SUMATORIA Y PRODUCTORIA (opcional)

SUMATORIA(

).

En las fórmulas que utilizamos para obtener varios resultados en estadística usamos las letras

griegas. El símbolo,

Esta letra griega “sigma “ se acompaña con un valor inicial de la variable y un límite superior

hasta donde toma el valor la variable, este valor va cambiando de uno en uno. El símbolo, significa que los términos que se obtienen al remplazar el valor de la variable se suman del primero hasta el último, en el caso de que la suma termine.

, el cual se lee “sumatoria” se utiliza para simplificar una suma de términos.

,

se utiliza para simplificar una suma de términos. , En general la sumatoria, se simboliza y

En general la sumatoria, se simboliza y define, así:

En algunos casos el límite superior de la sumatoria es infinito,

, y se obtiene una serie, así:

Ejercicio.

Desarrollar y simplificar las siguientes sumatorias:

Solución.

)

)

)

 

)

)

 

)

PRODUCTORIA (

).

El símbolo

letra griega “pi” se acompaña con un valor inicial de la variable y un límite superior hasta donde

toma el valor la variable, este valor va cambiando de uno en uno. El símbolo,

términos que se obtienen al remplazar el valor de la variable se multiplican del primero hasta el último.

, , el cual se lee “productoria”, se utiliza para simplificar un producto de términos. Esta

, significa que los

En general la productoria, se simboliza y define, así:

Ejercicio.

Desarrollar y simplificar las siguientes productorias:

)

Solución.

)

)

)

SEGUNDA UNIDAD

DISTRIBUCIONES DE FRECUENCIAS

Distribuciones de frecuencias para variable cuantitativa discreta y variables cualitativas

Si tenemos una variable cuantitativa discreta o una variable cualitativa, la podemos resumir en una tabla que recibe el nombre de distribuciones de frecuencias. Para ellos revisemos las siguientes definiciones:

Frecuencias absolutas.

Las frecuencias absolutas es el número de veces que se repite un dato. Las simbolizaremos con la letra “efe” minúscula:

La suma de las frecuencias absolutas es igual al número de datos (

+

+

+ …… +

).

Observe que hemos tomado un subíndice

general son menores que el número de datos (

, debido a que los valores que toma la variable, por lo

)

Para determinar las frecuencias absolutas se utiliza el conteo o recuento. Se escriben los valores ordenados de la variable sin repetirlos. Luego se hace una marca frente a cada valor tantas veces el dato se encuentre en la lista de datos, se recomienda hacer grupos de cinco marcas. Para explicarlo más claramente, consideremos los siguientes datos los cuales podrían corresponder al número de hijos de 17 familia observadas: 2, 5, 4, 0, 2, 0, 2, 4, 2, 0, 5, 2,4,2, 0, 2, 2

El conteo o recuento se realizaría así:

0

2

4

5

IIII

IIII

III

II

III

=

4

= 8

= 3

= 2

Por lo tanto, las frecuencias absolutas son 4, 8, 3, 2, respectivamente.

Las Frecuencias Absolutas Acumuladas

Las frecuencias absolutas acumuladas se obtienen mediante sumas sucesivas de las frecuencias absolutas. Las simbolizaremos con la letra “EFE” MAYUSCULA:

…………………………………

Observe que la última frecuencia absoluta acumulada es igual al número de datos.

Frecuencias relativas.

Las frecuencias relativas se calculan dividiendo cada frecuencia absoluta (

datos (

definen así:

), entre el número de

). Generalmente se las expresa en porcentaje para su fácil interpretación. Se denotan y

La suma de las frecuencias relativas es igual a 1 o al 100%.

1 = 100%.

Las Frecuencias Relativas Acumuladas.

Las frecuencias relativas acumuladas se calculan dividiendo cada frecuencia absoluta acumulada

( ), entre el número de datos (

interpretación. Se denotan y definen así:

). Generalmente se las expresa en porcentaje para su fácil

Otra forma de calcular las frecuencias relativas acumuladas es mediante las sumas sucesivas de las frecuencias relativas.

…………………………………

1

100%

Observe que la última frecuencia relativa es el 100% o uno.

Con cada valor calculado procedemos a construir la distribución de frecuencias, la cual es una tabla que contiene: la variable de estudio, las frecuencias absolutas, las frecuencias relativas, las frecuencias absolutas acumuladas y frecuencias relativas acumuladas. La forma general de una distribución de frecuencias es la siguiente.

.

.

.

.

.

.

.

.

.

.

TOTAL

   

1=100%

 

donde,

: Variable de estudio

: Frecuencias absolutas.

: Frecuencias absolutas acumuladas.

: Frecuencias relativas. : Frecuencias relativas acumuladas.

Ejemplo:

Las pesquera más grande del Puerto de Tumaco, tiene en su nómina a 40 empleados. Por leyes del gobierno toda empresa debe dar un subsidio de educación a cada hijo de los trabajadores. El gerente para hacer ajustes en el presupuesto de la empresa determina el número de hijos de los trabajadores que estén estudiando y obtiene los siguientes resultados:

2, 3, 1, 0, 3, 2, 0, 1, 3, 2, 3, 4, 3, 1, 1, 2, 3, 2, 4, 1, 0, 0, 1, 2, 3, 2, 1, 0, 3, 4, 2, 3, 3, 3, 4, 2, 1, 1, 0, 2

Construir una distribución de frecuencias.

Solución:

La variable es el número de hijos de los empleados de la pesquera los cuales estén actualmente estudiando, esta variable es cuantitativa discreta y toma valores de 0, 1, 2, 3, 4.

El conteo se indica a continuación.

#

de hijos

Conteo

 

0 = 6

IIII

I

 

1 IIII IIII

   

= 9

 

2 IIII IIII

   

= 10

 

3 IIII

 

IIII

I

= 11

 

4 IIII

 

= 4

Aplicando las definiciones y las fórmulas respectivas se obtiene la siguiente distribución de frecuencias.

 

# de

     

# de hijos

empleados

0

6

6

15%

15%

1

9

15

22,5%

37,5%

2

10

25

25%

62,5%

3

11

36

27,5%

90%

4

4

40

10%

100%

TOTAL

40

 

100%

 

Analizando los resultados del tercer renglón tenemos que:

10

empleados de la pesquera, equivalentes al 25% del total, tienen 2 hijos estudiando.

25

empleados de la pesquera, equivalentes al 62,5% del total, tienen 2 o menos de dos hijos

estudiando.

Distribuciones de frecuencias para una variable cuantitativa continua.

Si tenemos una variable cuantitativa continua, generalmente los datos repetidos van hacer muy pocos, y al calcular sus frecuencias absolutas estas, tomarán valores de 1 o 2, en su gran mayoría. En estos casos para analizar este tipo de variables se recomienda agruparla en intervalos, clases o categorías. Por ejemplo, al clasificar a los habitantes de una región por su edad, podríamos hacer grupos de bebes (edades hasta el año y medio), de niños (edades hasta los 10 o 12 años), de adolescentes (edades hasta los 18 o 21 años), jóvenes (edades hasta los 25 o 30 años), adultos (edades hasta los 50 años), mayores (edades hasta los 60 años), tercera edad (edades después de los 60).

Para construir una distribución de frecuencias para este tipo de variables, consideremos las siguientes definiciones:

Rango o recorrido. Es la diferencia entre el valor máximo de los datos y el valor mínimo.

=

Número de intervalos, clase o categorías: A pesar de ser un criterio del investigador el de elegir con cuántos intervalos va a trabajar, la regla de Sturges, propuesta por Herbert Sturges, sugiere una fórmula para determinar cuántos intervalos, clases o categorías se debe utilizar.

( ), (La aproximación se la hace sin decimales

y por exceso)

Nota: Los intervalos que se forman se consideran semi-abiertos por derecha, es decir tienen la

forma: [

), este intervalo contiene todos los valores comprendidos entre

y

, incluyendo a

y excluyendo a

. Algunos autores definen de manera diferente los intervalos, por ejemplo, al

considerarlo cerrado, es decir de la forma, [a,b] al siguiente intervalo se debe iniciar por lo menos

1 milésima más grande que b.

Amplitud del intervalo. ( ). Es la distancia que hay entre el límite superior y el límite inferior de cada intervalo. No necesariamente todos los intervalos deben tener la misma amplitud. Se aconseja usar la siguiente fórmula

decimales).

Construcción de los intervalos

, (La aproximación se la hace por exceso. Se puede usar

El límite inferior ( del primer intervalo (

será el límite inferior del segundo intervalo, de aquí en adelante el proceso se repite hasta formar el último intervalo.

), del primer intervalo es el valor mínimo de los datos, y el límite superior ), se obtiene sumando al valor mínimo la amplitud. Este límite superior

Supongamos que deseamos trabajar con 5 intervalos de amplitud 4 y que el valor mínimo de los datos es de 23. Los intervalos se forman así:

Primer intervalo

[23 , 23+ 4) = [23 , 27)

Segundo intervalo

[27 , 27+ 4) = [27 , 31)

Tercer intervalo

[31 , 31+ 4) = [31 , 35)

Cuarto intervalo

[35 , 35+ 4) = [35 , 39)

Quinto intervalo

[39 , 39+ 4) = [39 , 43)

Conteo o recuento:

Construidos los intervalos empezamos a ubicar cada dato en uno de ellos, haciendo una marca frente al intervalo que lo contenga. Se recomienda hacer grupos de cinco marcas.

Para explicarlo más claramente, consideremos los intervalos anteriores y los siguientes datos: 25, 40, 33, 31, 41, 28, 36, 42, ….

El conteo o recuento comenzaría así: (por facilidad utilizamos una línea como marca)

[23 , 27)

I

[27 , 31)

I

[31 , 35)

II

[35 , 39)

I

[39 , 43)

III

Observemos que el dato 31 se ubicó en el tercer intervalo y NO en el segundo, debido a que el segundo intervalo contiene los datos mayores o iguales a 27 y menores que 31. Esto debido a que los intervalos son de la forma [a,b).

Marcas de clase: Son los puntos medios de cada intervalo y se calculan promediando el límite inferior y el límite superior de cada intervalo.

Determinados los anteriores valores procedemos a construir la distribución de frecuencias, la cual es una tabla que contiene: la variable, las marcas de clase, las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas.

. . . . . . . . . . . . . . =
.
.
.
.
.
.
.
.
.
.
.
.
.
.
=
TOTAL
1=100%

donde,

 

:

Límite inferior de cada intervalo

:

Límite superior de cada intervalo.

:

Marca de clase o punto medio de cada intervalo.

:

Frecuencias absolutas.

:

Frecuencias absolutas acumuladas.

:

Frecuencias relativas.

:

Frecuencias relativas acumuladas.

Nota: Si la variable es cuantitativa discreta y toma muchos valores, también la podríamos organizar utilizando intervalos.

Ejemplo.

La más grande pesquera del Puerto de Tumaco, tiene en su nómina a 40 empleados. Por leyes del gobierno toda empresa debe dar un subsidio de educación a cada hijo de los trabajadores, como se mencionó y analizó en el problema anterior. Suponga ahora que la empresa crea un programa nutricional para sus empleados. La variable más importante es el peso de los trabajadores (medidos en kilogramos). Los especialistas en nutrición recogieron los siguientes datos

60, 70, 78, 80, 66, 59, 86, 88, 97, 68, 46, 61, 76, 45, 77, 70, 62, 73, 64, 72, 102, 74, 75, 82, 89, 66, 52, 90, 84, 57, 76, 87, 62, 73, 93, 69, 55, 75, 94, 54.

Construir una distribución de frecuencias.

Solución:

La variable de interés es el peso de los empleados, la cual es una variable cuantitativa continua, por lo tanto calculemos:

Rango.

En la serie de datos podemos observar que el peso mínimo es 45 Kg. y el peso máximo es de 102 Kg., entonces

=

Número de intervalos.

102 45

57

Aplicando la regla de Sturges, tenemos

(

)

La amplitud de cada intervalo es

(

)

6,286799…

8,142857…

8,2

Los intervalos y el conteo o recuento se indican en la siguiente tabla. Recuerde que el límite inferior del primer intervalo es 45 y su límite superior se obtiene sumándole la amplitud de 8,2. Una manera de observar rápidamente el conteo es ordenando los datos, así.

45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73, 74, 75, 75, 76, 76, 77, 78, 80, 82, 84, 86, 87, 88, 89, 90, 93, 94, 97, 102.

Peso (Kg)

 
   

Conteo

 

45

53,2

III

= 3

53,2

61,4

IIII

I

= 6

61,4

69,6

IIII

II

= 7

69,6

77,8

IIII IIII

I

= 11

77,8

86

IIII

= 4

86

94,2

IIII

II

= 7

94,2

102,4

II

= 2

Con las definiciones y fórmulas correspondientes construimos la siguiente distribución de frecuencias

Peso(kg.)

Marcas de clase

# empleados

     

45

53,2

49,1

3

3

7,5%

7,5%

53,2

61,4

57,3

6

9

15%

22,5%

61,4

69,6

65,5

7

16

17,5%

40%

69,6

77,8

73,7

11

27

27,5%

67,5%

77,8

86

81,9

4

31

10%

77,5%

86

94,2

90,1

7

38

17,5%

95%

94,2

102,4

98,3

2

40

5%

100%

TOTAL

 

40

TOTAL   40   100%  
 

100%

100%
 

El análisis de los resultados en la tabla se hace tal como se indican para el tercer renglón, así:

7 de los empleados de la pesquera, equivalentes al 17,5% tienen pesos entre los 61,4 Kg. y 69,6 Kg. Podríamos decir que el peso promedio de estos siete trabajadores es aproximadamente de 65,5 Kg.

16 de los empleados de la pesquera, equivalentes al 40% tienen pesos entre los 45 Kg. y 69,6 Kg.

Estos resultados los podríamos observar gráficamente en un HISTOGRAMA, o en un POLIGONO DE FRECUENCIAS, los cuales se definen en la sesión de Gráficos Estadísticos.

Histograma

30 25 20 15 10 5 0 porcentaje
30
25
20
15
10
5
0
porcentaje

Poígono de Frecuencias para PESO

30 25 20 15 10 5 0 porcentaje
30
25
20
15
10
5
0
porcentaje

45

55

65

75

85

95

105

45

55

65

75

85

95

105

 

peso

peso

TERCERA UNIDAD

MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE POSICION

MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central son valores que en una serie ordenada de datos “tienden” a ubicarse en el centro. También, se las conoce con el nombre de promedios. Entre ellas tenemos:

La media aritmética o promedio aritmético. La media aritmética ponderada. La media geométrica. La mediana. La moda.

Media Aritmética o Promedio Aritmético.

Es el cociente entre la suma de los datos y el número de datos(

es que considera la información de todos los datos, y una desventaja es que es muy sensible a valores extremos.

). Una ventaja de este promedio

,

para datos NO agrupados

(

)

,

para datos agrupados.

Nota: De ahora en adelante los datos NO agrupados serán aquellos que se vienen dados en una lista de datos. Los datos Agrupados son los que vienen dados en una distribución de frecuencias.

Ejemplo.

Un clientes de un local que vende accesorios para computador: una USB en 20.000 pesos, un mouse en 12.000 pesos, un protector de pantalla 9.000 pesos y un teclado en 17.000 pesos. El precio promedio de los cuatro productos es de 14.500. Se calcula así:

14.500

Ejemplo.

El dueño del local del ejemplo anterior registró la cantidad de los productos de las ventas del día de hoy. En la siguiente tabla se resume los precios de cada artículo y las cantidades vendidas de cada producto.

Producto

Precio

Cantidad

USB

20.000

4

Mouse

12.000

12

Protector de pantalla

9.000

9

Teclado

17.000

15

Cuál es precio promedio de los productos que se vendieron en dicho local el día de hoy?

Solución:

Se observa que la variable de interés es el precio de los productos, por tanto, el precio promedio se calcula así:

∑(

)

14.000

Otra forma de calcularla es desarrollando las operaciones en una tabla, así:

Producto

Precio

Cantidad

 

USB

20.000

4

80.000

Mouse

12.000

12

144.000

Protector de pantalla

9.000

9

81.000

Teclado

17.000

15

255.000

TOTAL

 

= 40

560.000

(

)

14.000

Media aritmética ponderada

Se la utiliza cuando los datos tienen diferente importancia. Se denota y define así:

∑(

)

; donde las

son las importancias de cada dato.

Ejemplo.

La alcaldía de Pasto tiene una vacante para el cargo de director del área contable. Como requisitos se exige: entrevista, examen de conocimientos y puntaje de la hoja de vida. Además, se conoce que la entrevista se ponderará con un 10%, el examen de conocimientos con un 70% y la hoja de vida con un 20%. El mínimo aprobatorio es de 60 puntos en una escala de 0 a 100 puntos, el aspirante que obtenga el más alto puntaje será el seleccionado, si se presentaron Roberto, Luis, José, Ana y Rosa y obtuvieron los puntajes que se muestran en la siguiente tabla. ¿Quién fue el seleccionado?.

Aspirante

Conocimientos

Hoja de vida

Entrevista

Roberto

68

72

80

Luis

75

64

78

José

67

71

78

Ana

72

69

73

Rosa

73

65

88

Solución:

Como cada prueba tiene diferente importancia “ponderación o peso”, no podemos aplicar la media aritmética o promedio aritmético para calcular el puntaje de cada aspirante. Aquí debemos

utilizar la media aritmética ponderada

.

Para calcular el puntaje promedio ponderado que obtuvo Roberto debemos calcularlo así:

∑(

)

70 puntos.

En la tabla se muestran los puntajes promedios ponderados (

), para los demás aspirantes.

Nombre

Conocimientos

Hoja de vida

Entrevista

   

aspirante

(70%)

(20%)

(10%)

Roberto

68

72

80

70

73,3

Luis

75

64

78

73,1

72,3

José

67

71

78

68,9

72

Ana

72

69

73

71,5

71,3

Rosa

73

65

88

72,9

75,3

Correcto Incorrecto
Correcto
Incorrecto

Por lo tanto, Luis es el seleccionado para el cargo director del área contable en la alcaldía de Pasto, con un puntaje promedio de 73,1 puntos.

Observemos que calculado la media aritmética (

75,3 puntos, cometiendo el error de darle una ponderación de 33,3% a la entrevista y a las otras

dos pruebas; cambiando así las reglas de selección.

), Rosa sería la seleccionada con un puntaje de

Media Geométrica.

Se la utiliza cuando los datos crecen en progresión geométrica, es decir, los datos aumentan rápidamente.

Las fórmulas de cálculo son las siguientes:

(

)

(

) ,

para datos NO agrupados

√(

 

)

√∏(

)

,

para datos agrupados

Los productos dentro de la raíz suelen ser muy grandes, una forma de trabajar con valores pequeños es utilizando los logaritmos en base 10, así:

Ejemplo:

.

/,

. (

) /,

para datos NO agrupados

para datos agrupados

Calcular la media geométrica de los siguientes datos: 2, 56, 198, 9.650,

Solución:

(

)

√(

)

120,95

Usando logaritmos en base 10 se calcularía así:

.

Mediana

.

/

/

.

.

/

/

(

)

La mediana de una serie de datos ordenados es el valor que se encuentra en el centro de los datos. Otra forma es, un valor mayor al 50% de los datos y es menor que el otro 50%. La mediana se la utiliza cuando existe un valor extremo o dato atípico, en inglés “outlier”.

El lugar donde se encuentra la mediana se obtiene así:

Mediana para datos No agrupados:

Si el número de datos es impar, la mediana es el valor que se encuentra en el centro de la serie ordenada.

Si el número de datos es par, el valor de la mediana se encuentra promediando los dos valores centrales.

Ejemplo:

En internet publican los precios de cinco planes turísticos: 35, 37, 29, 31, 60 dólares. Calcular la mediana.

Solución:

La serie de datos ordenados es: 29, 31, 35, 37, 60.

El lugar de la mediana es

decir, la mediana es 35.

3. Esto indica que el tercer dato es la mediana. Es

La interpretación de la mediana es: El 50% de los planes turísticos cuestan menos de 35 dólares y el otro 50% cuesta igual o más de 35 dólares.

Ejemplo:

Los pesos de los instrumentos de seis científicos que inspeccionaron al Volcán Galeras son: 4530, 4510, 6000, 4700, 4600, 4490 gramos. Calcular y analizar la mediana.

Solución:

La serie de datos ordenados es: 4490, 4510, 4530, 4600, 4700, 6000.

El lugar de la mediana es

el tercer dato y el cuarto. Es decir, la mediana es

50% de los instrumentos vulcanológicos pesa menos de 4565 gramos y el otro 50% pesa más de 4565 gramos.

3,5. Esto indica que la mediana se encuentra entre

4565. Esto significa que el

Mediana para datos agrupados:(variable cuantitativa discreta)

Se calcula el lugar de la mediana, y haciendo lectura en las frecuencias absolutas acumuladas se selecciona la inmediatamente mayor o igual al lugar de la mediana y se determina donde se encuentra la mediana. Haciendo lectura en la columna de la variable y la fila donde se encuentra la mediana se encuentra el valor de la mediana.

,

Ejemplo:

80 familias viajaron al puerto de Tumaco por una semana. El organizador y guía pregunto ¿cuántas personas por familia están de acuerdo que la dieta para esa semana sea a base de mariscos?. Los resultados se resumen en la siguiente tabla.

0

10

1

24

2

30

3

12

7

4

donde,

: Número de personas que respondieron afirmativamente

: Número de familias.

Calcular y analizar la mediana.

Solución:

Antes de calcular la mediana complementemos la tabla con las frecuencias absolutas acumuladas, como se observa en la siguiente tabla.

0

10

10

1

24

34

2

30

64

3

12

76

7

4

80

 

80

 

Para determinar el lugar de la mediana aplicamos la fórmula:

lugar 40 y el dato de lugar 41.

, lo cual indica que la mediana se encuentra entre el dato de

El valor de las frecuencias absoluta acumuladas ( ), inmediatamente mayor a 40,5 es 64 (ver tabla anterior), el cual se encuentra en el tercer renglón. Por tanto el dato que ocupa el lugar 40 es 2 y el dato que ocupa el dato de lugar 41 es 2, promediando los dos valores se obtiene que la mediana es 2.

La interpretación es: En el 50% de las familias, ninguna, una o máximo 2 personas si desean la dieta a base de mariscos; y en el otro 50% de las familias, 2 o más de dos personas prefieren la dieta a base de mariscos.

Mediana para datos agrupados:(variable cuantitativa continua)

La mediana en datos agrupados con intervalos se calcula así:

Se calcula el lugar de la mediana, y haciendo lectura en las frecuencias absolutas acumuladas se selecciona la inmediatamente mayor o igual al lugar de la mediana y se determina la clase o intervalo donde se encuentra la mediana (llamada clase mediana). Luego se aplica la siguiente fórmula.

+ [ . / ]
+ [ .
/ ]

: Límite inferior de la clase mediana (intervalo donde se encuentra la mediana).

: Frecuencia absoluta acumulada anterior a la clase mediana.

: Frecuencia absoluta de la clase mediana.

: Amplitud de la clase mediana. (Diferencia entre el límite superior y límite inferior de cada intervalo)

Ejemplo:

A un grupo de personas seleccionadas aleatoriamente se les preguntó ¿cuántos salarios mínimos invertirían en tecnología en el año?. La información se resume en la siguiente tabla.

Salarios mínimos que se invertirían en tecnología

Número de personas

1-3

5

3-5

7

5-7

12

7-9

2

Calcular y analizar la mediana.

Solución:

Complementado la tabla, con las frecuencias absolutas acumuladas tenemos

Salarios mínimos que se invertirían en tecnología

Número de personas

 

1-3

5

5

3-5

7

12

5-7

12

24

7-9

2

26

 

26

 

El lugar de la mediana es

13,5. Este valor indica que la mediana se encuentra entre la

persona de lugar 13 y la persona de lugar 14. El valor de la frecuencia absoluta acumulada inmediatamente mayor o igual a 13,5 es 24. Por lo tanto la mediana se encuentra en el intervalo ubicado en el tercer renglón, el cual corresponde a la clase mediana y se obtiene que

5

12

12

7

5

2

Remplazando en la fórmula se obtiene

5obtiene que 5 12 12 7 5 2 Remplazando en la fórmula se obtiene + [

+ [ . / ]
+ [ .
/ ]

+ 0 (

) 1

5,17

5,2 sm.

Es decir, la mediana es 5,2 salarios mínimos. Lo cual significa que el 50% de las personas invertirían anualmente en tecnología 5,2 salarios mínimos, y el otro 50% de las personas invertirían más de 5,2 salarios mínimos anualmente en tecnología.

La moda o modo.

La moda o modo se define como el dato de mayor frecuencia o el dato que más se repite. Si una serie de datos tiene una moda se dice que es unimodal, si tiene dos modas se dice que es bimodal y si tiene más de dos modas se dice que es multimodal.

Ejemplo.

La moda de los datos:

frecuencia.

Ejemplo.

3, 6, 2, 2, 5, 6, 2, 7, 2, 4, 5, 2, 2

es

, el cual es el dato de mayor

Una aerolínea está planeando descuentos para los hijos de sus clientes. Se realizó un estudio a un grupo de 40 clientes, en el cual la variable de interés fue el número de hijos por cliente. Se obtuvo la siguiente información

Número de hijos

número de clientes

0

5

1

10

2

15

3

8

4

2

Calcular la moda

Solución.

La moda es

, ya que es el número de hijos que se repite con mayor frecuencia, en este

caso se presenta en 15 clientes.

Moda en datos agrupados (Variable cuantitativa continua)

Para determinar el lugar de la moda en datos agrupados (Variable cuantitativa continua), basta con observar la mayor frecuencia absoluta. El intervalo correspondiente se llama clase modal.

La moda se calcula de la siguiente manera:

+ .

/

: Límite inferior de la clase modal (intervalo donde se encuentra la moda).

: Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta anterior.

: Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta siguiente. : Amplitud de la clase modal. (Diferencia entre el límite superior y límite inferior de la clase modal)

Ejemplo.

Una empresa de turismo tiene en su nómina 60 empleados, clasificados por edad, como lo indica la siguiente tabla.

Edad

# de empleados

20

25

5

25

30

12

30

35

18

35

40

15

40

45

10

Calcular y analizar la moda.

Solución:

La mayor frecuencia es 18 y corresponde al tercer renglón. Este intervalo recibe el nombre de clase modal, en el cual se tiene que:

30

18 12 = 6 18 15 = 3 35-30 = 5

Remplazando en la fórmula de la moda tenemos:

+ .

/

+ .

/

+ .

/

33,3 años.

Lo cual indica que la edad que más se repite entre los empleados de la empresa de turismo es de 33,3 años.

Nota: Se debe aclarar que en la construcción de datos agrupados con intervalos se pierde información, esto implica que si tuviéramos la lista de datos posiblemente la edad que más se repite podría ser otro valor, puesto que si los 18 empleados de la clase modal todos tienen edades diferentes y los 5 empleados del primer intervalo tiene la misma edad, entonces la moda cambiaría.

LAS MEDIDAS DE POSICION

Ya hemos realizado una exploración de los datos, analizando los valores centrales, ahora nos interesa analizar los datos en cualquier posición de una serie ordenada, para ello estudiaremos las medidas de posición.

Entre las medidas de posición tenemos: Los cuartiles, los deciles y los percentiles.

Cuartiles

(

)

Son tres valores (

ellas equivalente al 25%.

1, 2, 3) que dividen al rango o recorrido en cuatro partes iguales, cada una de

al rango o recorrido en cuatro partes iguales, cada una de El lugar de cada cuartil

El lugar de cada cuartil se calcula con la siguiente fórmula.

(

)

El cuartil se calcula así:

donde,

+ [ . / ]
+ [ .
/ ]

: Límite inferior de la clase cuartil

(Intervalo donde se encuentra el cuartil

).

: Frecuencia absoluta acumulada anterior a la clase cuartil

:

Frecuencia absoluta de la clase cuartil

:

Amplitud de la clase cuartil

(Diferencia entre el límite superior y límite inferior de cada

intervalo)

Como las fórmulas son muy similares a las de la mediana se procede y analiza de manera equivalente.

Deciles

(

)

Son nueve valores (

iguales, cada una de ellas equivalente al 10%.

1, 2, 3, 4, 5, 6, 7, 8, 9.) que dividen al rango o recorrido en diez partes

6, 7, 8, 9.) que dividen al rango o recorrido en diez partes El lugar de

El lugar de cada decil se calcula con la siguiente fórmula.

 

(

)

El decil

se calcula asi:

 
 

+ [ .

/ ]

+ [ . / ]

:

Límite inferior de la clase decil

(Intervalo donde se encuentra el decil

).

:

Frecuencia absoluta acumulada anterior a la clase decil

:

Frecuencia absoluta de la clase decil

 

:

Amplitud de la clase decil

(Diferencia entre el límite superior y límite inferior de cada

intervalo)

Como las fórmulas son muy similares a la mediana y los curtiles, se procede y analiza de manera equivalente.

Percentiles

Son noventa y nueve valores (

iguales, cada una de ellas equivalente al 1%.

1, 2, 3, … , 99) que dividen al rango o recorrido en cien partes

El lugar de cada percentil se calcula con la siguiente fórmula:

 

(

)

El percentil

se calcula así:

 

+ [ .

/ ]

+ [ . / ]

donde,

 

:

Límite inferior de la clase percentil

(Intervalo donde se encuentra el percentil

).

:

Frecuencia absoluta acumulada anterior a la clase percentil

:

Frecuencia absoluta de la clase percentil

 

: Amplitud de la clase percentil cada intervalo)

(Diferencia entre el límite superior y límite inferior de

Como las fórmulas son muy similares a la mediana, los cuartiles y los deciles, se procede y analiza de manera equivalente.

Ejemplo:

Se realizó un estudio en el cual se preguntaba de las utilidades mensuales que tenían 45 empresas catalogadas como las más grandes del país. Por convenio con las empresas no se debe publicar sus nombres ni mucho menos directamente el valor informado, por lo tanto se construyó una distribución de frecuencias con intervalos. Los resultados se muestran en la siguiente tabla.

Utilidad mensual (millones de pesos)

# de empresas

 

2

5

4

4

5

8

10

14

8

11

15

29

11

14

13

42

14

17

3

45

 

45

 

Calcular y analizar

.

Solución.

Cálculo del cuartil 3. (Equivalente al 75% de los datos).

Lugar del cuartil

( )

(

)

34,5. Esto indica que el

se encuentra entre el dato

de lugar 34 y el dato de lugar 35. Además, la frecuencia absoluta acumulada inmediatamente mayor a 34,5 es 42, correspondiente al cuarto intervalo.

 

Utilidad mensual (millones de pesos)

 

# de empresas

 

2

5

   

4

4

5

8

   

10

14

8

11

   

15

29

11

14

   

13

42

14

17

   

3

45

     

45

 

Por lo tanto

11

29

13

14 11

3

Remplazando en la fórmula tenemos,

+ [ .

/ ]

Remplazando en la fórmula tenemos, + [ . / ]

+ [ .

/ ] *3

+ [ . / ] *3

12,096154

Esto significa que el 75% de las empresas más grandes del país, tienen utilidades mensuales inferiores a 12´096.154 pesos y el 25% de las empresas más grandes del país tienen utilidades mensuales superiores a 12´096.154.

Cálculo del decil 4. (Equivalente al 40% de los datos).

Lugar del decil

( )

(

)

18,4. Esto indica que el

se encuentra entre el dato

de lugar 18 y el dato de lugar 19. Además, la frecuencia absoluta acumulada inmediatamente mayor a 18,4 es 29, correspondiente al tercer intervalo.

 

Utilidad mensual (millones de pesos)

# de empresas

 

2

5

 

4

4

5

8

 

10

14

8

11

 

15

29

11

14

 

13

42

14

17

 

3

45

   

45

 

Por lo tanto

8

14

15

11 8

3

Remplazando en la fórmula tenemos,

+ [ .

/ ]

Remplazando en la fórmula tenemos, + [ . / ] + [ . / ] *3

+ [ .

/ ] *3

Remplazando en la fórmula tenemos, + [ . / ] + [ . / ] *3

8,8

Esto significa que el 40% de las empresas más grandes del país, tienen utilidades mensuales inferiores a 8´800.000 pesos y el 60% de las empresas tienen utilidades mensuales superiores a

8´800.000.

Cálculo del percentil 29. (Equivalente al 29% de los datos).

Lugar del percentil 29

( )

(

)

13,34. Esto indica que el

se encuentra entre el

dato de lugar 13 y el dato de lugar 14. Además, la frecuencia absoluta acumulada inmediatamente mayor a 13,34 es 14, correspondiente al segundo intervalo.

 

Utilidad mensual (millones de pesos)

 

# de empresas

 

2

5

 

4

4

5

8

 

10

14

8

11

 

15

29

11

14

 

13

42

14

17

 

3

45

   

45

 

Por lo tanto

5

4

10

8 5

3

Remplazando en la fórmula tenemos,

+ [ .

/ ]

Remplazando en la fórmula tenemos, + [ . / ]

+ [ .

/ ] *3

+ [ . / ] *3

7,715

Esto significa que el 29% de las empresas más grandes del país, tienen utilidades mensuales inferiores a 7´715.000 pesos y el 71% de las empresas tienen utilidades superiores a 7´715.000.

RANGO PERCENTIL (

)

En el ejemplo anterior nos podríamos preguntar ¿Qué porcentaje de las empresas tienen utilidades inferior a 10´500.000 pesos mensuales?.

Estas preguntas se resuelven calculando el rango percentil

se obtiene al despejar

de la fórmula de los percentiles.

, mediante la siguiente fórmula, que

0.

/

1

:

Percentil

, este valor se ubica en los intervalos y me determina la clase rango percentil

: Límite inferior de la clase rango percentil.

: Frecuencia absoluta acumulada anterior a la clase rango percentil.

: Frecuencia absoluta de la clase rango percentil.

: Amplitud de la clase rango percentil. (Diferencia entre el límite superior y límite inferior de la clase rango percentil)

Ejemplo:

Resolvamos la pregunta: ¿Qué porcentaje de las empresas más grandes del país tienen utilidades inferior a 10´500.000 pesos mensuales?.

Solución.

Según la información del problema los 10´500.000 pesos, equivalentes a 10,5 millones de pesos,

corresponde a

10,5; el cual se encuentra en el tercer renglón de la tabla.

Utilidad mensual (millones de pesos)

# de empresas

 

2

5

4

4

5

8

10

14

8

11

15

29

11

14

13

42

14

17

3

45

 

45

 

De donde se tiene que:

10,5

8

14

15

11 8 = 3

Remplazando en la fórmula del rango percentil se tiene

 

0.

/

1

0.

/

1

0.

/

1

,

-

58,9%

Es decir, que el 58,9% de las empresas más grandes del país tienen unas utilidades inferiores a 10´500.000 pesos mensuales y el 41,1% de las empresas tienen utilidades superiores a 10´500.000 pesos mensuales.

CUARTA UNIDAD

LAS MEDIDAS DE DISPERSION, VARIACION o DESVIACION

Las medidas de tendencia central, NO indican que característica tienen los datos en cuanto a si son parecidos, (homogéneos o tienen poca variabilidad) o si son muy distintos (heterogéneos o tienen variabilidad considerable). Las medidas de dispersión son las que me indican que tanta variabilidad tienen los datos.

Las medias de dispersión, variación o desviación que estudiaremos serán: El rango o recorrido, la desviación media, la varianza, la desviación estándar y el coeficiente de variación.

El rango o recorrido

Es la diferencia entre el valor máximo de los datos y el valor mínimo.

Si el rango es muy grande y tenemos muy pocos datos, se puede decir, que los datos tienen mucha variabilidad. Pero si el rango es pequeño y tenemos muchos datos, estos tienen poca variabilidad o son homogéneos.

Aunque esta medida es muy fácil de calcular su interpretación es muy subjetiva, además, únicamente utiliza los valores extremos y no considera los otros datos.

Desviaciones con respecto a la media.

Estas no son medidas de dispersión, pero se las utiliza para las calcular la desviación media y la varianza las cuales las estudiaremos a continuación.

Las desviaciones respecto a la media es la diferencia entre cada dato y la media aritmética de los

datos, se pueden simbolizar como: (

respecto a la media aritmética. Si la diferencia es negativa el dato se encuentra a la izquierda de la

media y si es positiva el dato se encuentra a la derecha de la media, si es cero el dato es igual a la media.

), indican que tan distante se encuentra cada dato con

Una propiedad de las desviaciones respecto a la media es que la suma de todas ellas es igual a cero, es decir,

∑(

)

0,

para datos NO agrupados

∑,(

)

-

0,

para datos agrupados

Ejemplo:

Calcular las desviaciones respecto a la media de los siguientes datos: 6, 4, 3, 7, 2.

Solución:

La media aritmética de los cinco datos es,

4,4

En la siguiente tabla se calculan las desviaciones respecto a la media y se comprueba la propiedad.

6

6

4,4 = +1,6

4

4

4,4 = - 0,4

3

3

4,4 = - 1,4

7

7

4,4 = +2,6

2

2

4,4 = - 2,4

TOTAL

∑(

)

0

Desviación media

La desviación media es el promedio de los valores absolutos de las desviaciones respecto a la media aritmética. Dicho de otra manera, es el cociente entre la suma de los valores absolutos de las desviaciones respecto a la media y el número de datos. Las fórmulas correspondientes son:

|

|

|

|

|

|

|

|

|

|

 

,

,|

|

-

|

|

|

|

|

|

|

|

para datos NO agrupados.

,

para datos agrupados.

Ejemplo:

Calcular la desviación media de los siguientes datos: 6, 4, 3, 7, 2.

Solución:

La media aritmética de los cinco datos es,

4,4

En la siguiente tabla se calculan las desviaciones respecto a la media, sus valores absolutos y los totales.

|

     

|

|

6

 

6

4,4 = +1,6

 

1,6

 

4

 

4

4,4 = - 0,4

 

0,4

 

3

 

3

4,4 = - 1,4

 

1,4

 

7

 

7

4,4 = +2,6

 

2,6

 

2

 

2

4,4 = - 2,4

 

2,4

 
   

∑(

)

0

∑|

| = 8,4

 
 

|

|

 
 

1,68.

|

|

|

|

|

|

|

|

|

|

De la tabla se obtiene que:

Otra manera de calcularla es

∑|

|

|

|

|

|

|

|

|

1,68.

Este valor indica que la distancia promedio a cada uno de los datos con respecto a la media aritmética es de 1,68 unidades. Es decir, que en promedio, los datos se separan de la media en 1,68 unidades. Además, podríamos asegurar que en distribuciones normales (estas distribuciones se estudiarán en las unidades de probabilidad), que la mayoría de los datos se encuentran entre

VARIANZA

Se podría definir la varianza como un promedio de los cuadrados de las desviaciones respecto a la media, o como el cociente entre la suma de los cuadrados de las desviaciones respecto a la media y el número de datos. Las unidades de la variable de estudio quedan elevadas al cuadrado y carecen de significado real, por tanto, la varianza no tiene interpretación. La varianza es el medio para calcular la desviación estándar.

Las fórmulas respectivas para el cálculo de la varianza son:

Varianza corregida

(

)

(

)

(

)

(

)

(

)

 

,

[(

)

]

(

)

(

)

(

)

(

)

,

para datos NO agrupados.

para datos agrupados.

La varianza corregida es la más utilizada para calcular la varianza de una muestra. Se divide entre , porque se está estimando un parámetro que es la media poblacional.

Varianza SIN corregir

̂

̂

(

)

(

)

(

)

(

)

(

)

 

,

[(

)

]

(

)

(

)

(

)

(

)

DESVIACION ESTANDAR o TÍPICA

,

para datos NO agrupados

para datos agrupados

La desviación estándar o desviación típica es la raíz cuadrada positiva de la varianza. Las unidades de la desviación estándar son las mismas de la variable de estudio, y por este hecho tiene interpretación. Nos indica cuánto pueden alejarse los datos respecto a la media aritmética, dicho de otra manera, la desviación estándar es una medida del grado de dispersión de los datos con respecto al valor promedio. Esta medida es más estable que el rango o recorrido y toma en consideración el valor de cada dato.

Desviación estándar corregida

√ ∑( )
√ ∑(
)

,

para datos NO agrupados

para datos agrupados√ √ √ √ √ ∑( ) , para datos NO agrupados Desviación estándar SIN corregir

Desviación estándar SIN corregir

̂ √̂

̂ √̂

√ ∑( ) , para datos NO agrupados. √ ∑,( ) - , para datos
√ ∑(
)
,
para datos NO agrupados.
√ ∑,(
)
- , para datos agrupados.

COEFICIENTE DE VARIACION

El coeficiente de variación es una medida de dispersión y se define como el cociente entre la desviación estándar y la media aritmética. Este carece de unidades y por tanto se puede expresar en porcentaje. Su fórmula de cálculo es:

El más preciso que la desviación estándar. indica que tan dispersos se encuentran los datos

El

más preciso que la desviación estándar.

indica que tan dispersos se encuentran los datos con respecto a la media aritmética. Este es

El Coeficiente de variación mide la dispersión en términos de porcentaje, señala qué tan grande es la magnitud de la desviación estándar respecto al promedio del conjunto de datos que se examina.

Si el

homogéneos

es menor o igual al 20% se dice que el promedio es representativo, o que los datos son

Si el

es mayor al 20%, el promedio NO es representativo, o que los datos NO son homogéneos

Otra interpretación muy similar a la anterior se muestra en la siguiente tabla

 

Interpretación

Menos del 11%

Muy homogéneos

11%

al 16%

Homogéneos

16% al 26%

Heterogéneos

Más del 26%

Muy heterogéneos

Ejemplo.

De los siguientes datos calcular la media, la desviación media, la varianza, la desviación estándar y el coeficiente de variación.

168, 170, 196, 180, 173.

Solución.

Calculemos la media aritmética

Calculemos la desviación media

∑|

|

|

|

|

|

|

|

|

|

|

|

|

|

|

|

|

|

|

|

177,4

= 8,48

Este valor indica que la distancia promedio a cada uno de los datos con respecto a la media aritmética es de 8,48. Es decir, que en promedio, los datos se separan de la media en 8,48 unidades.

Calculemos la Varianza (corregida)

 

∑(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

 

128,8

 

Este valor no tiene análisis, es el proceso para calcular la desviación estándar.

Calculemos la desviación estándar (corregida)

√ ∑( )
√ ∑(
)

11,35

Nos indica que los datos pueden alejarse de la media aritmética 11,35 unidades o que los datos se encuentran desviados con respecto del promedio en 11,35 unidades.

Calculemos el coeficiente de variación.

en 11,35 unidades. Calculemos el coeficiente de variación. 0,063979 6,4% Este valor es menor que el

0,063979

6,4%

Este valor es menor que el 20%, concluimos que los datos son homogéneos. Según la tabla de

análisis del

, el 6,4% es menor de 11% y se concluye que los datos son muy homogéneos.

Ejemplo.

Un campesino del municipio del Encano, Nariño (Lugar donde se encuentra uno de los sitios más turísticos de Nariño, La Laguna de la Cocha o Lago Guamuez), tiene en uno de sus criaderos truchas arco iris, a las cuales las alimenta con un producto extraído de vísceras de las mismas truchas sacrificadas, dicho alimento es rico en proteínas.

Para el control de peso y tamaño ha instalado una tecnología única en el Departamento de Nariño, en el cual con un software especial obtiene automáticamente el peso y tamaño de cada una de ellas. El anterior fin de semana, tomo mediciones sobre el peso (en gramos) de las truchas de este criadero y obtuvo los siguientes resultados.

Peso(gr.)

# truchas

175

185

9

185

195

30

195

205

57

205

215

103

215

225

26

225

235

15

235

240

10

TOTAL

250

Calcular y analizar el peso promedio de las truchas, la varianza, la desviación estándar y el coeficiente de variación.

Solución:

Para empezar hacer los cálculos necesitamos determinar las marcas de clase (

realizando las operaciones indicadas y las sumatorias que aparecen en las fórmulas obtenemos la

siguiente tabla.

) . Luego

Peso(gr.)

# truchas

         
   

(

)

(

)

175

185

9

180

1.620

-27,68

766,1824

6.895,6416

185

195

30

190

5.700

-17,68

312,5824

9.377,472

195

205

57

200

11.400

-7,68

58,9824

3.361,9968

205

215

103

210

21.630

2,32

5,3824

554,3872

215

225

26

220

5.720

12,32

151,7824

3.946,3424

225

235

15

230

3.450

22,32

498,1824

7.472,736

235

245

10

240

2.400

32,32

1.044,5824

10.445,824

TOTAL

250

 

51.920

   

42.054,4

Nota: Esta tabla se construye fácilmente en la hoja electrónica, usando las operaciones como fórmulas de Excel.

Calculemos la media aritmética

207,68

Esto significa que el peso promedio de las 250 truchas que hay en el criadero es de 207,68 gramos.

Calculemos la Varianza (corregida)

(

)

168,89

Este valor no tiene análisis porque las unidades de este valor son gramos al cuadrado.

Calculemos la desviación estándar (corregida)

√ ∑( )
√ ∑(
)

12,9957…

13

Nos indica que los pesos de las truchas pueden alejarse del peso promedio 13 gramos, o que los pesos de las truchas se encuentran desviados con respecto del peso promedio en 13 gramos.

Nota: Si el peso de las truchas se distribuyen normalmente (consultar distribución normal) se puede afirmar que aproximadamente un 68,26% de las truchas tiene pesos entre 207,68 13 y 207.68 + 13, es decir, hay un gran porcentaje de truchas cuyos pesos se encuentran entre 194,68 gramos y 220,68 gramos.

Calculemos el coeficiente de variación.

y 220,68 gramos. Calculemos el coeficiente de variación. 0,0626 6,26% Este valor es menor que el

0,0626

6,26%

Este valor es menor que el 20%, concluimos que los pesos de las truchas arco iris del criadero son homogéneos, es decir, los pesos de las 250 truchas del criadero tienen poca variabilidad. Según la

tabla de análisis del muy homogéneos.

, el 6,26% es menor de 11% y se concluye que los pesos de las truchas son

COEFICIENTE DE SIMETRIA Y CURTOSIS (opcional)

COEFICIENTE DE SIMETRIA (

).

Es el cociente entre el tercer momento central (

) y el cubo de la desviación estándar.

El tercer momento central se define y calcula, así:

∑(

̅)

La interpretación del coeficiente de simetría se hace de la siguiente manera:

Si

que la media aritmética, la mediana y la moda coincidan, (̅

tendría:

, la distribución es simétrica. Otra manera de llegar a la misma conclusión es observando

). Gráficamente se

a la misma conclusión es observando ). Gráficamente se Si la misma conclusión es observando que

Si

la misma conclusión es observando que la media aritmética es menor que la mediana y menor la

moda, (̅

, la distribución es asimétrica a la izquierda o de sesgo negativo. Otra manera de llegar a

). Gráficamente se tendría:

Otra manera de llegar a ). Gráficamente se tendría: Si misma conclusión es observando que la

Si

misma conclusión es observando que la moda es menor que la mediana y menor media

aritmética, (

, la distribución es asimétrica a la derecha o de sesgo positivo. Otra manera de llegar a la

̅). Gráficamente se tendría:

distribución es asimétrica a la derecha o de sesgo positivo. Otra manera de llegar a la

COEFICIENTE DE CURTOSIS O APUNTAMIENTO (

).

Es el cociente entre el cuarto momento central (

) y la desviación estándar elevada a la cuatro.

El cuarto momento central se define y calcula, así:

∑(

̅)

La interpretación del coeficiente de curtosis o apuntamiento se hace de la siguiente manera:

Si

, la distribución es normal o mesocúrtica.

Si

, la distribución es achatada o platicúrtica.

Si

, la distribución es apuntada o leptocúrtica.

Si , la distribución es achatada o platicúrtica. Si , la distribución es apuntada o leptocúrtica.

QUINTA UNIDAD

GRAFICOS ESTADISTICOS

Una manera de representar la información es mediante los gráficos estadísticos. Estos ayudan de manera rápida a revisar la descripción de los datos.

Los gráficos más comunes son:

El gráfico o diagrama de barras (horizontales, verticales o en componentes) El gráfico o diagrama de líneas o trazos. El gráfico o diagrama de sectores, circular, de torta o de pastel. Los Pictogramas. El diagrama de Cajas y Bigotes. El Histograma. El polígono de frecuencias Las ojivas o polígono de frecuencias acumuladas.

Hay otros gráficos que se utilizan según la disciplina, tales como los cartogramas que se utilizan en las ciencias sociales, la curva de Lorenz que explica el Coeficiente de Gini, el cual lo utilizan los economistas. EXCEL, STATGRAPHICS y SPSS, en la galería de gráficos presenta una gran variedad de gráficos e incluso en 3D. Otros paquetes estadísticos presentan gráficos especiales como las caras de Chernoff y estrellas utilizados para análisis de datos multivariados.

Cada tipo de gráfico está destinado para una labor específica. Con la práctica y de acuerdo a tus necesidades determinarás cual utilizar según tus datos.

El gráfico o diagrama de barras (horizontales, verticales o en componentes)

Es un gráfico que utiliza rectángulos horizontales o verticales llamados barras. El ancho de cada barra es arbitrario, pero se debe tener en cuenta que ninguna de ellas se debe cruzarse o “solaparse” con otra. El alto de cada barra depende de las frecuencias de los datos. Generalmente los valores de las variables se ubican en el eje X, y las frecuencias en el eje Y (gráfico vertical). Cuando se van a analizar dos o más variables el gráfico recibe el nombre de gráfico de barras en componentes, también se pueden comparar la misma variable en dos periodos distintos con este tipo de gráficas.

Ejemplo:

Se registró en el primer semestre del año 2011, la cantidad de USB que se vendieron en un local donde se comercializa accesorios para PC, estos registros se realizaron en cada uno de los meses. La información se observa en la siguiente tabla.

Mes

Cantidad de USB vendidas(miles)

enero

25

febrero

12

marzo

38

abril

94

mayo

12

junio

28

Construir un diagrama de barras.

Solución.

El gráfico de barras verticales es el siguiente. (Si queremos las barras horizontales, ubicamos los meses en el eje Y, y la cantidad de USB vendidas en el eje X).

Cantidad de USB vendidas

100

80

60

40

20

0

94 38 25 28 12 12
94
38
25
28
12
12

Ejemplo:

Se registró en el primer semestre de los años 2011 y 2012, la cantidad de USB que se vendieron en el mismo local del ejemplo anterior, estos registros se realizaron en cada uno de los meses. La información se presenta en la siguiente tabla.

Mes

Cantidad de USB vendidas 2011

Cantidad de USB vendidas 2012

enero

25

75

febrero

12

64

marzo

38

50

abril

94

84

mayo

12

20

junio

28

52

Construir un diagrama de barras en componentes

Solución.

El gráfico de barras en componentes es el siguiente. Observa que si tenemos dos variables en cada valor del eje X, se grafican dos barras. Si se tienen tres componentes se deberán graficar tres barras, etc.

100 90 80 70 60 50 40 30 20 10 0
100
90
80
70
60
50
40
30
20
10
0

El gráfico o diagrama de líneas o trazos.

Es un gráfico que para trazarlo se ubican puntos en el plano cartesiano y luego se los une mediante segmentos de recta, llamados trazos.

Ejemplos. Veamos la información de los dos ejemplos anteriores en un diagrama de líneas.

Cantidad de USB vendidas 2011

100

80

60

40

20

0

enero febrero marzo abril mayo junio
enero
febrero
marzo
abril
mayo
junio

100

80

60

40

20

0

enero febrero marzo abril mayo junio
enero
febrero
marzo
abril
mayo
junio