Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Módulo de Estadística
Conceptos Básicos
1
Objetivos:
2
Estudio de la variación
El Área de Recursos Humanos debe encargar una nueva partida de uniformes para el personal de
planta. Para determinar qué cantidad de uniformes necesita pedir de cada talle, se realiza un
relevamiento sobre las características físicas del personal. Uno de los datos que se analiza es la
altura. Registremos la altura de cada uno de los participantes de este curso, y veamos qué
conclusiones podemos extraer del relevamiento:
Conclusiones:
3
La Estadística Descriptiva es la parte de la estadística que proporciona las herramientas
necesarias para evaluar y cuantificar la variabilidad de un proceso.
Supongamos que participamos de una prueba piloto previa a la producción en serie de un nuevo
producto.
Después de finalizar la prueba hemos relevado una gran cantidad de datos “en bruto”, que en ese
estado no son de utilidad. Para poder extraer la “información” contenida en los datos es necesario
realizar el procesamiento adecuado de los mismos.
100
6531
50000
2473
432
124
732
15
Procesamiento estadístico
DATOS INFORMACIÓN
CONOCIMIENTO
Población y muestras
4
Tipos de datos
Cuantitativos, cuando el dato surge de un conteo o una medición que da como resultado un
valor numérico. A estos datos los llamaremos variables numéricas. Las variables pueden ser
discretas (si toman únicamente valores numerables, como cuando se realiza un conteo) o
continuas (si pueden tomar infinitos valores dentro del rango para el cual están definidas, como
cuando se realiza una medición).
5
Gráfica circular de Tipo defecto
Categoría
Bollo negativo
Bollo positivo
Componente mal soldado
Deformación
Dimensional
Falla de laminado
Falta de componentes
Falta de material
Falta operación
Fisura
Marca de scrap
Puntinatura
Retrabajo defectuoso
Soldadura defectuosa
40
30
Conteo
20
10
0
l s l
o vo do ió n na do te ri a ió n ra p
ur
a so sa
tiv is ti a c io a n e ac su sc
ra
at uo uo
g a ld a s in n e a t r Fi n c t ct
ne po so rm en m
po m e de nt
i
fe fe
lo llo al efo im e
la
m d e op c a Pu de de
l m D d o t a ar
Bo Bo e D
la c lta Fa
l jo ra
ent al de Fa
M
aba adu
n F a t r ld
lt
po Fa Re So
m
Co
Tipo defecto
Sin embargo, como la variable expresa “causas de problemas”, lo más conveniente es elaborar un
diagrama de Pareto
6
Interprete los diagramas obtenidos:
Hay situaciones donde interesa ponderar la frecuencia de ocurrencia de cada categoría por algún
factor, como podría ser en este caso el costo de los defectos.
Por ejemplo, si analizamos la cantidad de retrabajos para cada tipo de componente para el
período enero-julio de 2022, se obtiene el siguiente diagrama.
7
Si hacemos el mismo análisis por horas de retrabajo se obtiene lo siguiente.
8
b) Procesamiento de variables numéricas
El gráfico que se emplea para representar la distribución de frecuencias de una variable discreta es
el diagrama de barras.
20
Porcentaje
15
10
0
0 1 2 3 4 5 6
Cantidad de fisuras
Porcentaje en todos los datos.
9
Procesamos ahora la variable “Horas de retrabajo”. El gráfico que se usa para representar la
distribución de frecuencias de una variable continua es el histograma.
Histograma de Horas
70
60
50
Frecuencia
40
30
20
10
0
0 45 90 1 35 1 80 225
Horas
0 35 70 1 05 1 40 1 75 21 0
Horas
10
Cálculo de medidas analíticas
Una forma más objetiva de analizar el comportamiento de los datos, es calculando cantidades
estadísticas representativas, como rangos, promedios, etc., que resumen las principales
propiedades de una variable, o de su distribución de frecuencias.
0,40
Varones Mujeres
0,30
0,20
0,10
0,00
5,00 7,50 10,00 12,50 15,00
Tiempo
¿En qué se parecen las dos distribuciones?: ambas tienen dispersión y forma similares. ¿En
qué se diferencian? En la ubicación de las dos distribuciones en el eje de las X. Es evidente que
el personal femenino ha recibido en general más horas de capacitación que el masculino. Para
cuantificar esta propiedad se utilizan las medidas de posición (o de tendencia central, porque
dan una idea alrededor de qué valores centrales tienden a distribuirse los datos).
0,40
Varones
0,30
0,20
Mujeres
0,10
0,00
5,00 7,50 10,00 12,50 15,00
Tiempo
11
Es evidente en este caso que la diferencia fundamental está en la dispersión de los datos, los datos
del personal masculino son más homogéneos.
Finalmente, la comparación del tiempo de capacitación por género en el área de Servicios produjo
las siguientes distribuciones:
Varones
Mujeres
0,61
0,46
0,31
0,15
0,00
0,00 1,53 3,05 4,57 6,10
Tiempo
a) Medidas de posición
La media aritmética se puede interpretar gráficamente, ya que indica la abscisa del centro de
gravedad de la distribución de frecuencias.
Datos
Media
12
Media truncada: Es el promedio de la variable, excluyendo el 5 % de los valores menores y el 5
% de los mayores de la serie ordenada.
Mediana: Es el valor central de la serie, es decir que un 50 % de los datos quedan por debajo de
ese valor, y el otro 50 % por encima. Se lo ubica en la posición (n+1) de los datos ordenados.
Con los cuartiles se puede elaborar el diagrama de caja de los datos. Para construirlo, se grafica
un rectángulo (caja) cuyos extremos son el primer cuartil (Q1) y el tercer cuartil (Q3)
respectivamente, que tiene a la mediana (Q2) representada dentro de la caja, y cuyo largo se
denomina rango intercuartil (RI).
Este rectángulo muestra dónde está ubicado el 50% central de los datos. Además de la caja se
prolongan extensiones (brazos), que representan el otro 50% de los datos: el brazo inferior
muestra la cuarta parte de los datos con valores más bajos y el superior la cuarta parte de los
datos con valores más altos.
La información visual que proporciona este tipo de gráfico no es una prueba formal sobre las
propiedades de la variable y acerca de la presencia de datos atípicos, sino más bien una
herramienta de diagnóstico.
El 1º cuartil Q1
La mediana (2º cuartil) Me
El 3º cuartil Q3
Rango Intercuartil RI = (Q3 - Q1)
El valor mínimo Mín. (dentro de 1,5 veces RI)
El valor máximo Máx. (dentro de 1,5 veces RI)
Dato
atípico
Q1 Me Q3
1,5*RI RI 1,5*RI
13
Para el caso de la “Horas de retrabajo”, el diagrama de caja es el siguiente:
200
1 50
Horas
1 00
50
Para que los resultados del análisis estadístico sean representativos, y las conclusiones que se
obtienen sean correctas, es fundamental trabajar con series homogéneas, es decir que entre los
datos no haya valores atípicos (outliers).
Una buena práctica es analizar estos valores en particular para ver si hubo algún error de
medición o de trancripción de datos, o si se produjeron como resultado de alguna causa especial
que afectó al proceso. En esos casos lo más conveniente es remover estos valores de la serie, ya
que son datos no representativos, y distorsionan los resultados del análisis estadístico.
b) Medidas de dispersión
R = xmax - xmin
Rango intercuartil: Es la diferencia entre el cuartil 3 y el cuartil 1.
RQ = Q3 - Q1
14
Varianza: Es el promedio de los desvíos cuadráticos con respecto a la media.
S
Cv = *100
x
Desigualdad de Chebyshev
Este teorema plantea que, cualquiera sea la distribución de una variable, al menos unas ¾ partes
de la misma (75 %) estarán entre ± 2 desvíos de la media, y al menos 8/9 partes de la
distribución (aproximadamente el 90 %) estarán entre ± 3 desvíos de la media. El teorema nos
ayuda a comprender mejor el significado físico del desvío estándar como medida de dispersión, y
nos brinda otro criterio práctico para identificar valores extraños dentro de una serie de datos.
c) Medidas de forma
Coeficiente de asimetría:
15
Dibuje aproximadamente una distribución con asimetría positiva, otra con asimetría negativa, y
finalmente una con asimetría nula. Indique a qué tipo de fenómeno o variable podría responder
cada uno de estos comportamientos.
Coeficiente de Kurtosis:
Para tener un idea del significado de este coeficiente, el Ck para una variable con Distribución
Normal (campana de Gauss) vale 3. Si el Ck es mayor que 3, la distribución es más “empuntada”
que una normal, y si es menor que 3 es más “achatada”.
Veamos ahora el resúmen de medidas analíticas para las variables “Cantidad de fisuras” y “Horas
de retrabajo”:
Cantidad de fisuras
Estadísticos descriptivos: Cantidad de fisuras
Estadísticas
Variable N Media MediaRec Desv.Est. Varianza CoefVar Q1 Mediana Q3
Cantidad de fisuras 50 2,300 2,250 1,568 2,459 68,18 1,000 2,000 3,250
Variable IQR Asimetría Curtosis
Cantidad de fisuras 2,250 0,37 -0,66
16
Horas de retrabajo
Media
Mediana
20 30 40 50
Estratificación de datos
Una posibilidad que brindan las herramientas estadísticas es separar los datos en distintos
subgrupos, de acuerdo a algún criterio de interés, para comparar el comportamiento de
los diferentes grupos o poblaciones obtenidos.
Por ejemplo, tenemos datos de entregas a diferentes clientes durante el año 2021, y nos
interesa comparar los resultados.
17
Se elaboraron diagramas de puntos para cada cliente:
400000
300000
Datos
200000
1 00000
400000
300000
Datos
200000
1 00000
18
Se dibujaron diagramas de densidad de puntos:
Ent_Fiat
Ent_Renault
Ent_GM
0 70000 1 40000 21 0000 280000 350000 420000
Datos
Finalmente se calcularon las principales medidas analíticas con los datos de cada cliente:
Estadísticas
MediaRe Desv.Est CoefVa Median
Variable N Media c . Varianza r Q1 a Q3
Ent_Fiat 4 28794 289800 91217 832056847 31,68 21420 289038 36621
3 3 8 0 7
Ent_Renaul 4 85746 85981 24976 623821327 29,13 68523 91740 10364
t 3 3
Ent_GM 4 11165 112623 58990 347979093 52,83 64209 125232 16460
3 8 6 3
Variable IQR Asimetría Curtosis
Ent_Fiat 152017 -0,26 -0,51
Ent_Renault 35120 -0,21 -0,84
Ent_GM 100394 -0,33 -1,10
Compare las tres distribuciones, y elabore una opinión sobre los resultados obtenidos.
19
Probabilidades
La probabilidad es un número que mide la chance de ocurrencia de un suceso que depende del
azar. Una de las principales propiedades de la probabilidad es la siguiente:
0 p(A) 1
Es decir que la probabilidad es un número que está entre cero y uno. Un suceso con
probabilidad igual a cero se dice que es un suceso imposible (que no puede ocurrir, por ejemplo
que al tirar un dado salga un 7), mientras que una probabilidad igual a uno indica un suceso
cierto (que ocurre si o si, por ejemplo que al tirar un dado salga un número entre 1 y 6).
Una alternativa en ese sentido es usar el método de asignación clásica (también llamado de
asignación “a priori”, ya que la probabilidad se puede determinar de antemano sin necesidad de
hacer ningún experimento), que se calcula del siguiente modo:
Este criterio se puede emplear para calcular probabilidades con los juegos de azar, que se
caracterizan por tener un número finito de resultados posibles, todos igualmente probables.
Sin embargo, tampoco es el método usual de calcular probabilidades en casos reales, en donde
tenemos que utilizar el método de asignación frecuencial, que se plantea del siguiente modo:
número de casos favorables al suceso A
p(A) límite
número de intentos realizados (n)
n
20
Variables aleatorias y distribuciones de probabilidades
Una variable aleatoria es en realidad una función que asigna un valor numérico a cada uno de
los resultados de un experimento aleatorio.
Los valores que toma esta variable (que se suele denominar “población” de la v.a.) son los
siguientes: 1, 2, 3, 4, 5, 6.
Por convención, las variables aleatorias se simbolizan con letras mayúsculas, y cada uno de los
valores que puede tomar con minúsculas:
- Discretas, cuando toman valores numerables. Ejemplos: nº que sale al tirar un dado, cantidad
de defectos de una pieza, nº de errores en un proceso, nº de fallas del sistema.
- Continuas, cuando pueden tomar cualquier valor dentro del rango de valores para el cual
está definida la variable. Ejemplos: diámetro de una pieza, rugosidad, temperatura de un
fluído, tiempo que demanda una cierta operación, gastos en papelería, monto de facturación.
Para el ejemplo del lanzamiento del dado, la distribución de probabilidades es la siguiente (las
probabilidades se pueden calcular en este caso por el método clásico):
x p(x)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
21
p(x)
0.15
0.10
0.05
0.00
1 2 3 4 5 6
x
De manera similar a lo que vimos en Estadística Descriptiva, una v.a. puede ser caracterizada
mediante cantidades estadísticas que resuman sus principales propiedades: posición, dispersión
y forma de la distribución.
a) Valor Esperado
E(x) x i p(x i )
para v.a. discreta
E(x) x f(x) dx
para v.a. continua
b) Varianza
22
Modelos
0,3
p(x)
0,2
0,1
0,0
0 1 2 3 4 5 6
X
Sin embargo en la práctica resulta inviable poder reunir los miles y miles de datos necesarios
como para calcular la distribución de probabilidades específica de una variable en particular.
23
función matemática). Un modelo de probabilidad es una función que representa el
comportamiento teórico o esperado de una variable aleatoria.
Existe una amplia gama de modelos específicos, cuya elección depende principalmente de los
siguientes factores:
1- Definir con claridad el problema en estudio, e identificar una variable aleatoria asociada
con el problema.
2- Seleccionar el modelo de probabilidad apropiado para representar el comportamiento de esa
variable.
3- Ajustar el modelo (determinar el valor de sus parámetros) para el fenómeno particular que
estamos analizando.
4- Comprobar la validez del modelo, y continuar el estudio o volver al paso 2.
Como se puede ver, el punto clave de todo este análisis se encuentra en la etapa 2:
identificación del modelo apropiado. En la literatura especializada existe una amplia variedad
de modelos que permiten estudiar diferentes categorías de fenómenos aleatorios.
En este módulo vamos a revisar los modelos más usados en la práctica, y para cada uno de ellos
vamos a analizar los siguientes aspectos:
Modelo Normal
Este es uno de los modelos más usados en la práctica, ya que muchas de las variables que
encontramos en la realidad tienen esta distribución de probabilidades, y además porque
establece un punto de contacto entre varias de las distribuciones estudiadas tanto para
variables discretas como continuas.
24
La función de densidad de probabilidad del modelo Normal es la siguiente:
x
2
1
f ( x) e - < x < +
2
Los parámetros de este modelo son y 2, que coinciden con las principales propiedades de
la variable: el valor esperado y la varianza.
Estos parámetros tienen una interpretación gráfica. La media es la abscisa del centro de
gravedad de la distribución. Los puntos de inflexión de la curva se encuentran hacia ambos
lados a una distancia igual a 1 desvío () de la media.
Por lo tanto, si cambia la media cambia la ubicación de la distribución, mientras que si cambia
el desvío (o la varianza) se modifica la dispersión de los datos en torno a la media.
La notación generalmente usada para especificar que una variable tiene distribución Normal
con parámetros y 2 es la siguiente:
X N( , 2)
Otra de las características gráficas de este modelo son las áreas encerradas bajo la curva:
Esto justifica el uso del modelo Normal para representar el comportamiento de variables no
negativas (como peso, altura, etc.), ya que si >3 la cola de la distribución que cae en zona
de valores negativos es prácticamente nula. También se puede aplicar este criterio para
detectar la existencia de valores atípicos en una serie de datos.
Como regla general, este modelo se aplica para representar variables que tienen las siguientes
características:
- Son variables dimensionales, que surgen como resultado de la medición sobre alguna
escala continua: kg., cm., $, T°, etc.
25
- Son variables que surgen como resultado de la superposición de muchos efectos que
actúan de manera aleatoria, como el caso que mencionamos de los errores de medición
que son provocados por la suma de varios factores difíciles de cuantificar
individualmente, o una característica dimensional de una pieza que varía como resultado
de la acción de las 6 M.
DISTRIBUCION NORMAL
Función de Densidad de Probabilidad:
x
2
1
f ( x) e
2
Aplicaciones
Variables aleatorias originadas en mediciones sobre escalas
continuas, que surgen como resultado de la superposición de
muchos pequeños factores de variación, que dan como resultado
una distribución de probabilidades simétrica.
x
Z
Se demuestra que la variable transformada tiene distribución Normal con media cero y
varianza uno, por lo que se la denomina “Normal Estandar”. Todos los libros de Estadística
incluyen una Tabla para calcular probabilidades acumuladas para la variable Z.
26
c) La probabilidad de que los gastos estén entre 450 y 550 pesos.
Modelo Exponencial
=
2 = 2
= = 60
27
Gráficamente, la forma de esta función es la siguiente:
0,02
0,01
0
0 40 80 120 160 200
F( t ) P(T t ) 1 e t /
De esta manera, para conocer la probabilidad de que entre dos pedidos consecutivos del
servicio de mantenimiento pasen (por ejemplo) menos de 30 minutos, se puede hacer el
siguiente cálculo:
El modelo exponencial se utiliza en general para describir tiempos de espera, por ejemplo
tiempo que tarda un cliente en ser atendido, tiempo que demora un camión hasta ser
descargado, tiempo que pasa entre el arribo de dos buques a un puerto, etc.
Aplicaciones
Variables aleatorias continuas del tipo “tiempo entre” dos eventos
de Poisson, o vida útil de una componente.
28
Modelo de Weibull
Una variable continua cuya distribución es asimétrica puede ser modelada mediante la
distribución de Weibull, que tiene la siguiente función de densidad de probabilidad:
x 1e ( x / )
f (x) x > 0, > 0, > 0
Modelo de Weibull
ML Estimates - Complete Data
Probability Density Function Weibull Probability
0,9
Shape 1,9737
99
0,8 95
90
Scale 0,9928
80
70
0,7 60
50 MTTF 0,88
40
30
0,6 20 Failure 1000
10
0,5 Censor 0
Percent
0,4
1
0,3 Goodness of Fit
0,2
AD* 0,178
0,1
0,0
4
Probability
3
0,5
Rate
0,0 0
0 1 2 3 0 1 2 3
De acuerdo a los valores que toman los parámetros de la Weibull, se puede representar desde
una distribución Exponencial (para =1), pasando por una distribución con forma de campana
con asimetría positiva (para 1<<2), aproximadamente una Normal, hasta una distribución con
asimetría negativa.
29