Está en la página 1de 39

ANALISIS DESCRIPTIVO DE DATOS

El contenido de este TEMA tiene como objetivo,


entre otros, ilustrar el potencial estadístico del
análisis descriptivo de datos. Se muestran solo
algunas estrategias para lograr entender el
comportamiento probabilístico de datos vitales de
un proceso.

Prof. William A. Molina LL.


1
Medidas de Tendencia Central

• La Media Aritmética.

• La Mediana.

• La Semi suma de los extremos.

• La Moda.

2
La Media Aritmética

• Con n = Número de elementos en la muestra. Tamaño


muestral.

• =Cada uno de los elementos que conforman la


muestra n.

3
Ejemplo:
Supongamos que se tiene una muestra, de tamaño 10, de los pesos de cierto
producto comercial.

El peso neto marcado en estos productos es de 5,0 kg.

Los 10 productos muestreados arrojaron los siguientes datos:


4,8 5,1 4,95 5,0 4,95 5,2 4,85 4,95 5,0 5,10
Se tiene entonces

Observa que para calcular la media no se requiere ningún ordenamiento de la


información. Toda la información de la muestra es relevante.

4
La Mediana
Previamente los datos deben ser ordenados.

4,8 4,85 4,95 4,95 4,95 5,0 5,0 5,1 5,1 5,20

Si n es par la mediana se calcula

Si agregamos un dato más la muestra n es de tamaño 11, por ejemplo 5,15 y


colocándolo en su orden, entonces
Si n es impar la mediana se calcula

Solo se toma una parte de la muestra.

5
La Moda
Volviendo a los datos originales, preferiblemente ordenados.

4,8 4,85 4,95 4,95 4,95 5,0 5,0 5,1 5,1 5,20

La moda se corresponde con el dato que posee la mayor frecuencia.

Solo se toma una parte de la muestra.

6
La Semi Suma de los extremos
Tomando los datos originales previamente ordenados, se
tiene:

4,8 4,85 4,95 4,95 4,95 5,0 5,0 5,1 5,1 5,20

Solo se toma una parte de la muestra.

7
Medidas de Dispersión

El recorrido o rango.

La varianza.

La desviación típica o estándar.

El coeficiente de variación.

8
El recorrido o rango

Dados los datos del ejemplo

4,8 4,85 4,95 4,95 4,95 5,0 5,0 5,1 5,1


5,20

Solo se toma una parte de la muestra.

9
La varianza y la desviación típica
Para el cálculo de la varianza se utiliza la siguiente fórmula:

Donde n representa el tamaño de la muestra, los son los diversos valores de la


variable X, el peso, en la muestra y es la media aritmética de los pesos.
Para los datos del ejemplo: 4,8 4,85 4,95 4,95 4,95 5,0 5,0 5,1 5,1
5,20

=0,1197

Se toman todos los datos de la muestra.

10
El Coeficiente de variación
Se calcula utilizando la fórmula:

Para los datos del ejemplo

11
TRABAJO PRÁCTICO

ANÁLISIS ESTADÍSTICO DESCRIPTIVO SOBRE UN


CONJUNTO DE DATOS

12
• Para desarrollar el trabajo práctico asignado, debes
replicar los pasos aquí descritos sobre un conjunto de
datos, reales, que deberás recolectar en tú campo de
interés, basados en experiencias desarrolladas por
grupos de investigación.

• Puedes tomar datos de cualquier fuente bibliográfica,


que cumplan con los requerimientos exigidos en esta
unidad.

13
• Dada la información que pretendes analizar descriptivamente,
deberás primero depurarla. De esta manera obtendrás “la
Información Depurada”, es decir los datos que en realidad te
permitirán describir el verdadero comportamiento de tu
variable relevante. Contar con los datos típicos, te garantizará
alta confiabilidad tanto en el análisis estadístico descriptivo así
como del inferencial.

14
Datos Agrupados
Ejemplo de Aplicación:
El Departamento de Producción y La Administración de una empresa fabricante de óxido
de azufre, materia prima básica en la industria farmacéutica y otras, decide evaluar el
comportamiento de su producción, en toneladas por día, para tomar decisiones referentes
a la adquisición de nueva maquinaria, especialización de operadores, formación de la
mano de obra, oferta y demanda, entre otras necesidades.

Se requiere «fotografiar» el comportamiento de la producción diaria del producto, para


ello el departamento de administración decide tomar una muestra de 80 días continuos de
producción y estimar algunas medidas de tendencia central y de dispersión a fin de contar
con valores referenciales que le permitan identificar el comportamiento de la producción y
responder a las exigencias de sus clientes.

15
Datos Agrupados

Los siguientes datos corresponden a 80 mediciones de la emisión


diaria (toneladas) de óxido de azufre de una planta industrial:

16
Depuración de la Información

La información antes de ser analizada deberá ser documentada siguiendo un


instructivo facilitado por el docente. La redacción, distribución, herramientas
computacionales, presentación de resultados, estilo y conclusiones es libre. Lo
obligatorio es aplicar los análisis descriptivos desarrollados en este material.

17
Depuración de la Información

Una técnica efectiva, entre otras, para depurar la información se basa en restar y sumar dos
veces la desviación típica de la media aritmética de la variable en cuestión. Matemáticamente es
lo siguiente:
Se estima el valor promedio o esperanza de la variable X de interés, basado en los datos de una
muestra representativa de tamaño n, aplicando la fórmula
 Se estima la desviación estándar o típica de la variable X de interés, que resulta de aplicar la raíz
cuadrada a la varianza, sobre una muestra aleatoria y representativa de tamaño n, aplicando la
fórmula . Tanto la media como la desviación se pueden obtener de manera sencilla y rápida en
cualquier calculadora de bolsillo o mediante algún software de aplicación como el Excel o
Estadístico. Si se trata de datos agrupados en clases, las fórmulas de la media y la varianza son
las utilizadas en la diapositiva 21 y 25, respectivamente, de este material.

18
Depuración de la Información
Se obtiene el intervalo y se eliminan todos los datos que queden por fuera del mismo; con los
datos seleccionados dentro del intervalo, se vuelve a estimar y S y se obtiene nuevamente el
intervalo donde se aplica la misma eliminación de los datos que queden por fuera del mismo.
Esta operación se repite tantas veces como sea posible hasta que todos los datos queden
dentro del intervalo estimado. Dicha información final está lista para los análisis estadísticos
pertinentes, toda vez que ella está formada por datos típicos del proceso. Te recomiendo que
hagas un análisis reflexivo sobre la información eliminada y determines las posibles causas,
factores, que motivaron tales datos alejados de su media y que posiblemente tenderían a
inflar la desviación típica o estándar.
Con esos datos depurados comienza tú trabajo práctico, el cual consiste en replicar los
análisis desarrollados en la «Guía práctica Estadística Aplicada a la Administración.»

19
Depuración de la Información

resultan los primeros estimadores de la información inicial.

• El primer intervalo será . Serán eliminados los datos que estén fuera del intervalo: 6.2 y
31.8 son los primeros eliminados.

• .

• .

• .

• En este último intervalo no resultó eliminado ningún dato, todos están contenidos y por
lo tanto la información está depurada y lista para ser analizada.

20
Información Depurada
15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2

22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7

26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7

19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0

18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5

14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1

8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8

25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5

21
Datos Agrupados

Datos Agrupados en clases: consiste en crear una arquitectura de un grupo masivo


de datos, arreglados en una tabla de distribución de frecuencias, que permita la
fácil comprensión de los mismos y visualizar su comportamiento.

¿Cómo organizar datos en intervalos de clases?


1. Obtener el rango de datos.
2. Determinar el número de intervalos.
3. Calcular la longitud de los intervalos.
4. Construir la tabla de distribución de frecuencias.
5. Estimar los estadísticos descriptivos de interés.
6. Elaborar gráficas descriptivas: histograma, polígono de frecuencias u otras.
7. Concluir respecto a los resultados obtenidos.

22
Datos Agrupados
¿Por qué organizar los datos en una tabla de distribución de
frecuencias?

Representa un resumen de la información cuya exposición resulta ordenada,


refrescante a la vista de todos, más fácil para observar tendencias, facilita los
cálculos de los estadísticos descriptivos, mejora la percepción que se tiene sobre
la tendencia de los datos y por consiguiente del comportamiento del proceso o
fenómeno en estudio.

23
Datos Agrupados

Tomando como referencia los datos adjuntos, emisión diaria de


óxido de azufre:
Rango:
Número de intervalos: regla de Sturges.

Longitud de los intervalos:


Tabla de distribución de frecuencias:

24
Información Depurada
Tabla 1. DISTRIBUCIÓN DE FRECUENCIAS PARA EL OXIDO DE AZUFRE (SO)
INTERVALO MARCA FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA REL.
DE CLASE (Xi) ABS. REL. (%) ACUMULADA ACUMULADA (%)
(fi) (fri) (Fi) (Fri)

8.5 - 11.5 10 7 9.3 7 9.3


11.5 - 14.5 13 9 12.0 16 21.3
14.5 - 17.5 16 11 14.7 27 36.0
17.5 - 20.5 19 20 26.7 47 62.7
20.5 - 23.5 22 12 16.0 59 78.7
23.5 - 26.5 25 11 14.7 70 93.3
26.5 - 29.5 28 5 6.7 75 100
    75 100    

25
Datos Agrupados
Se estimarán los estadísticos descriptivos con base a la tabla 1 de distribución de
frecuencia, aquí mostrada.
  
LA MEDIA.
 

26
Datos Agrupados

LA MEDIANA.
 Ubicación o posición, ¿en cuál intervalo se encuentra?: . El intervalo que contiene la
mediana, será aquel cuya frecuencia acumulada (Fi) sea la inmediata superior o igual a su
posición.
De acuerdo a este criterio, la mediana está ubicada dentro del intervalo de clase .
 
Luego,  

Donde es el límite inferior real del intervalo o clase que contiene a la mediana; es la frecuencia

acumulada anterior al intervalo que contiene a la mediana; corresponde a la frecuencia simple o

absoluta del intervalo que contiene a la mediana y es la longitud de clase.

27
Datos Agrupados

LA MODA.
 Ubicación o posición, ¿en cuál intervalo se encuentra?: al observar la columna de
frecuencias simples (fi), el intervalo que contiene la moda, será aquel con mayor frecuencia.
De acuerdo a este criterio, la moda está ubicada dentro de los intervalos de clases . Esto
sugiere que la distribución de la producción de óxido de azufre es unimodal.
 
 
 
Donde Li es el límite inferior real del intervalo o clase que contiene a la moda; d 1 es la

diferencia, absoluta, de la clase modal y la premodal; d2 es la diferencia, absoluta, de la clase


modal y la postmodal y c es la longitud de clase.

28
Datos Agrupados
LA SEMISUMA DE LOS EXTREMOS.
  

Observa que una vez estimadas la media, mediana, moda y semisuma de los extremos los
valores son aproximadamente iguales a 19.0. Esto es un indicador de simetría alrededor de
la media de los datos, lo que resulta favorable al momento de interpretar el
comportamiento del proceso o fenómeno.

29
Datos Agrupados
LA VARIANZA.
 

 
 
Siendo los y las marcas de clase y sus respectivas frecuencias simples y la media
aritmética.
 
LA DESVIACIÓN TÍPICA O ESTANDAR. 
 
 

EL COEFICIENTE DE VARIACIÓN.
 
%

30
Datos Agrupados

Tabla 2. ESTADÍSTICOS DESCRIPTIVOS DATOS NO AGRUPADOS Y AGRUPADOS.

DATOS VARIABLE MEDIA MEDIANA DESVIACIÓN C.V. (%) MÍNIMO MÁXIMO

No agrupados OXIDO 19.0 19.1 4.99 26.23 9.0 28.6


TON/DIA

Agrupados en clases. OXIDO 19.0 19.1 5.10 26.84 9.0 28.6


TON/DIA

31
• Gráfico 1
Histograma. Distribución Porcentual de Óxido de Azufre (ton/día).
30.0

26.7

25.0

20.0

16.0
14.7 14.7
15.0
12.0

10.0 9.3

6.7

5.0

0.0
8.5 a 11.5 11.5 a 14.5 14.5 a 17.5 17.5 a 20.5 20.5 a 23.5 23.5 a 26.5 26.5 a 29.5

32
• Gráfico 2
Histograma. Distribución Porcentual de Óxido de Azufre (ton/día).
0.0 5.0 10.0 15.0 20.0 25.0 30.0

8.5 a 11.5 9.3

11.5 a 14.5 12.0

14.5 a 17.5 14.7

17.5 a 20.5 26.7

20.5 a 23.5 16.0

23.5 a 26.5 14.7

26.5 a 29.5 6.7

33
• Gráfico 3
Gráfico de Barras. Distribución Porcentual de Óxido de Azufre (ton/día).
30.0

26.7

25.0

20.0

16.0
15.0 14.7 14.7

12.0

10.0 9.3

6.7

5.0

0.0
A B C D E F G 34
• Gráfico 4

30.0
Polígono. Distribución Porcentual de Óxido de Azufre (ton/día).
26.7
25.0

20.0

16.0
15.0 14.7 14.7

12.0

10.0
9.3

6.7
5.0

0.0
8.5 a 11.5 1 1 . 5 a 1 4. 5 1 4 . 5 a 1 7. 5 17.5 a 20.5 2 0 . 5 a 2 3. 5 2 3 . 5 a 2 6. 5 2 6 . 5 a 2 9 .35
5
• Gráfico 5
Torta. Distribución Porcentual de Óxido de Azufre (ton/día).

26.5 a 29.5; 6.7 8.5 a 11.5; 9.3

23.5 a 26.5; 14.7 11.5 a 14.5; 12.0

20.5 a 23.5; 16.0 14.5 a 17.5; 14.7

17.5 a 20.5; 26.7


36
Conclusiones Respecto a la metodología.
Algunas conclusiones, entre otras, son: Las estimaciones de tendencia central, la media,
mediana y moda resultaron muy parecidos, lo que permite inferir que la distribución
probabilística de la producción de óxido de azufre por día es normal con media 19.0 y varianza
5.12. De la tabla 2 puede concluirse que los estadísticos descriptivos estimados por ambos
métodos son muy similares, una vez depurados los datos; lo que hace presumir que la
organización de la información en una tabla de distribución de frecuencias con intervalos de
clases, no solo se traduce en una mejor presentación de la información sino que la esencia de la
misma se conserva muy a pesar que en este diseño los 75 datos están representados por apenas
siete marcas de clases con su respectiva frecuencia. El gráfico 1 indica una alta proporción de
datos alrededor de la media, lo que es muy importante ya que facilita la predicción en la
producción diaria del producto y te permitirá proyectar los resultados con fines de planificación
de la mano de obra, inversión económica, predicción y otras ventajas que produce el conocer
más a fondo el comportamiento de tus variables de interés. 37
Conclusiones Respecto a la Información.
• La media de la producción de óxido de azufre es de 19 ton por día.
• La mediana resultó en 19.1 ton por día, lo que indica que en el 50% de la producción es inferior a 19.1
toneladas por día y el resto resulta igual o mayor a este valor.
• La desviación estándar es de 5.10 ton/día, lo que resulta un tanto alta tomando en cuenta que las
menores producciones se ubican en el intervalo de 8.5 a 11.5 ton.
• El coeficiente de variación confirma que existe una moderada a alta variabilidad en la producción
diaria de óxido de azufre ya que el mismo resultó en 26.84%.
• Conviene que el departamento de producción revise detalladamente todos los factores que puedan
incidir sobre la alta variabilidad, dado que el rango de datos está entre 9.0 y 28.6 toneladas, valores
muy extremos. Es necesario revisar la maquinaria, los materiales, las mediciones, los métodos, la
mano de obra y el medio ambiente laboral a fin de minimizar las variaciones por causas comunes e
inclusive variaciones por causas especiales.

38
Prof. William A. Molina LL. 39

También podría gustarte