Está en la página 1de 66

UTN Santa Fe | TSM | Gestión de calidad y metrología

Estadística y herramientas de análisis

2.1. FUNDAMENTOS DE
ESTADÍSTICA
UTN Santa Fe | TSM | Gestión de calidad y metrología

Para debatir
Antes de empezar…
• Se producen 25 lotes de
500 resistencias de carbono
de 100 Ω ± 5%...
UTN Santa Fe | TSM | Gestión de calidad y metrología

Para debatir

• ¿Cómo harías para saber si


Antes de empezar…

cumplen las
especificaciones? Si hay
diferentes opciones… qué
ventajas/desventajas tiene
cada una?
• ¿En qué valor de
resistencia se agrupan los
resistores? ¿Cuál es el
máximo… y el mínimo?
UTN Santa Fe | TSM | Gestión de calidad y metrología

Tipos de estadística

Descriptiva Inferencial

• Recolecta, presenta y • Comprende los métodos


caracteriza un conjunto y procedimientos que
de datos con el fin de por medio de la
describir inducción determina
apropiadamente las propiedades de una
diversas características población estadística, a
de ese conjunto. partir de una muestra.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Población, muestra e individuo

Población Inferencia

Muestra
Universo total
de elementos
Subconjunto
de referencia
sobre el que se
realizan las
representativo
de individuos
Individuo
observaciones de una
población sobre Elemento básico que contiene información sobre el fenómeno
el que se realiza que se estudia, sobre el cual se realizan las mediciones o
el estudio determinaciones de los parámetros
UTN Santa Fe | TSM | Gestión de calidad y metrología

Población, muestra e individuo


• Generalmente la población es finita (p.e. total de
productos fabricados). A veces puede ser infinita o
potencialmente infinita (p.e. resultados de
mediciones en condiciones de repetibilidad).
• La muestra siempre es finita. Puede ser acotada por
muestreo aleatorio (p.e. toma al azar de productos
en un lote), temporal (p.e. todos los certificados
emitidos en una semana), etc.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Tipos de datos

Continuas: Susceptibles
de ser divididas
infinitamente.
Variables: Características
medibles.
Discretas: Pueden tomar
solamente ciertos
Tipos de datos
valores, existen saltos
Atributos: Características entre valores.
que pueden tomar
solamente dos valores
(p.e. SI-NO).
UTN Santa Fe | TSM | Gestión de calidad y metrología

Tipos de datos: ejemplos


• Variables continuas: resultados de mediciones físicas
(temperatura, masa, presión, etc).
• Variables discretas: conteos, resultados de
mediciones con resolución limitada, resultados de
clasificaciones por niveles, etc.
• Atributos: resultados de ensayos cualitativos,
evaluación de variables continuas o discretas con
calibres P/NP, etc.
UTN Santa Fe | TSM | Gestión de calidad y metrología

ESTIMADORES ESTADÍSTICOS
BÁSICOS
UTN Santa Fe | TSM | Gestión de calidad y metrología

Estimadores básicos
Agrupamiento de
datos (medidas de
tendencia central)

Distribución de datos
(distribuciones y
medidas de forma)

Variación entre datos


(medidas de dispersión)
UTN Santa Fe | TSM | Gestión de calidad y metrología

Medidas de tendencia central


• Estas medidas sirven para describir la ubicación
central de los datos, ó donde tienden a agruparse.
• Se utilizan tres tipos de medidas:
– Media
– Mediana
– Moda
UTN Santa Fe | TSM | Gestión de calidad y metrología

Medidas de tendencia central


• Media de n datos individuales:
n

X i
X i1

n
• Media de n datos agrupados en h frecuencias:
h

f  Xi fi
f1  Xf1  f2  Xf 2  ...  fh  X fh
X i1

n f1  f2  ...  fh
UTN Santa Fe | TSM | Gestión de calidad y metrología

Medidas de tendencia central


• Media ponderada, calculada a partir de n promedios,
cada uno de los cuales se obtuvo en base a wi
diferentes cantidades de mediciones:
n

w X i i
X i1
n

w
i1
i
UTN Santa Fe | TSM | Gestión de calidad y metrología

Media ponderada: ejemplo


• En un proceso de llenado de paquetes de 1 kg se toman
muestras de cada lote producido, en cantidad
proporcional al tamaño de cada uno. Los resultados de la
última semana son los siguientes; calcular el promedio
semanal:
– L (6 m) = 1,002 kg;
– M (5 m) = 1,001 kg;
– X (8 m) = 0,999 kg;
– J (6 m) = 1,001 kg;
– V (4 m) = 0,998 kg.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Media ponderada: ejemplo


• Utilizando la media ponderada, resulta:
n

w X i i
X i1
n

w
i1
i

6  1,002  5  1,001  8  0,999  6  1,001  4  0,998


X
65864
X  1,000
UTN Santa Fe | TSM | Gestión de calidad y metrología

Medidas de tendencia central


• Moda Mo: es el valor que aparece con la mayor
frecuencia (que más se repite) en una serie de datos.
• Puede haber una, ninguna ó varias modas.
• En datos individuales sin agrupar, se obtiene
simplemente por conteo.
• En datos agrupados, la moda corresponde al punto
medio de la celda con frecuencia más alta.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Medidas de tendencia central


• Mediana Md: es el valor que divide a una serie de
datos ordenados por la mitad.
• Para un número impar de datos, la mediana es el
dato del centro, p.e.:
3, 4, 5, 6, 8, 8, 10
• Para un número par, es el promedio de los dos datos
centrales, p.e.:
3, 4, 5, 6, 8, 8, 10, 11 → Md = 7
UTN Santa Fe | TSM | Gestión de calidad y metrología

Medidas de dispersión
• Sirven para analizar cómo se dispersan los datos
alrededor del punto central, es decir cuán juntos
están entre sí.
• Las medidas más utilizadas son:
– Rango
– Desvío estándar
– Varianza (desvío estándar al cuadrado)
UTN Santa Fe | TSM | Gestión de calidad y metrología

Medidas de dispersión
• El rango es una medida rápida de la dispersión total,
y se obtiene como la diferencia de los valores
extremos. Se utiliza sólo con un número de datos
reducido (menor de 10).
• El desvío estándar es mas preciso, y se utiliza cuando
el número de datos es mayor.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Medidas de dispersión
• Desvío estándar de n datos individuales:
n

 i
(X  X)2

S i1
n 1

– Si bien el desvío estándar se puede calcular también


para datos agrupados utilizando la distribución de
frecuencia, se obtienen datos más precisos al trabajar
con los valores individuales.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Medidas en población y muestras


• Generalmente no es posible trabajar con datos de la
totalidad de la producción, por lo que se escoge una
muestra que resulte representativa.
• Por lo tanto, las medidas de tendencia central y
dispersión calculadas a partir de la muestra, pueden
diferir de las reales de la población total.
• Asimismo, diferentes muestras darán diferentes
valores, aunque los mismos deberían ser
consistentes.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Medidas en población y muestras


• Los valores calculados a partir de muestras, son
estimadores de los valores de la población:
– El promedio X de la muestra, se aproxima a la media
poblacional (esperanza) µ.
– El desvío estándar S de la muestra, se aproxima al
desvío estándar poblacional σ.
• Cuanto mayor es la muestra, mejor la estimación de
estos parámetros.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Estadísticas en Excel
• Las planillas de cálculo permiten hacer los cálculos
estadísticos de forma mucho más simple.
• Los cálculos básicos están disponibles por defecto.
• Cálculos más avanzados se pueden realizar
habilitando un complemento.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Estadísticas en Excel
• Estadísticos básicos:
– Media: PROMEDIO(RANGO)
– Mediana: MEDIANA(RANGO)
– Moda: MODA.UNO(RANGO)/MODA.VARIOS(RANGO)
– Desv. est.: DESVEST(RANGO)≡DESVEST.M(RANGO) ó
DESVEST.P(RANGO)
UTN Santa Fe | TSM | Gestión de calidad y metrología
1. Entrar en
Archivo > Opciones

2. Seleccionar
Complementos

3. Clic en Ir…
UTN Santa Fe | TSM | Gestión de calidad y metrología

4. Clic en Aceptar

4. Habilitar
Herramientas para
análisis
UTN Santa Fe | TSM | Gestión de calidad y metrología
UTN Santa Fe | TSM | Gestión de calidad y metrología
UTN Santa Fe | TSM | Gestión de calidad y metrología

Repaso y discusión
Para resumir y fijar…

• Relación entre población,


muestra e individuo. ¿Por
qué se necesitan muestras?
• ¿Cuáles son las 3
características principales
para describir un grupo de
datos? ¿Cuáles son los
estimadores para eso?
UTN Santa Fe | TSM | Gestión de calidad y metrología

DISTRIBUCIONES DE PROBABILIDAD
Y DE FRECUENCIAS
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de probabilidad
• La distribución de probabilidad de una variable
aleatoria es una función que asigna a cada suceso
definido sobre la variable aleatoria la probabilidad de
que dicho suceso ocurra. La función puede ser:
– Función de densidad de probabilidad (para variables
continuas).
– Función de probabilidad (para variables discretas).
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de probabilidad

Función de densidad de Función de probabilidad


probabilidad (continuas) (discretas)
• Caracteriza el • Asocia a cada punto de
comportamiento de una su espacio muestral X la
población, especificando probabilidad de que ésta
la probabilidad relativa lo asuma.
de que una variable
aleatoria continua tome
un valor cercano a X.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de probabilidad

Ejemplo variable continua Ejemplo variable discreta


UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de probabilidad
• El área total bajo las curvas (o la suma de los valores
individuales para variables discretas) indica 100% de
probabilidad. El área comprendida entre dos valores,
representa la probabilidad de que un individuo al
azar esté incluido en dicho rango.
• Las distribuciones se caracterizan por su esperanza
matemática µ y por su desvío estándar σ.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de probabilidad
• Dos de las más comunes son:

Distribución normal Distribución uniforme


Los valores cercanos a la Todos los valores tienen la
media son los más misma probabilidad.
probables.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribución normal
• Numerosos fenómenos físicos, naturales, sociales y
psicológicos siguen la distribución normal (o
gaussiana).
• La distribución normal también es importante por su
relación con la estimación por mínimos cuadrados, y
porque la combinación de variables de diferentes
distribuciones converge a la normal (de acuerdo al
teorema del límite central).
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribución normal

• La curva se determina con una función que tiene


como variables µ y σ.
k %
1 68,3
1,96 95,0
2 95,5
2,57 99,0
3 99,7

mayor
menor 
-2 -  + +2
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribución normal
• La distribución de los promedios de una serie de n
mediciones tiene una campana más estrecha que la
distribución de los valores individuales.
• Se utiliza el desvío estándar de la media.


x 
n
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribución normal

• En una curva normal estandarizada, µn = 0 y σn =


1. Hay tablas que indican la proporción del área
total bajo la curva desde -∞ hasta un valor
determinado de X.

X
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribución normal

• Como generalmente µ <> 0 y σ <> 1, hay que


utilizar un valor normal estandarizado para entrar
en la tabla:
Xi  μ
Z
σ
– Los valores µ y σ son los de la población.
– El valor Xi es el punto hasta el cual se desea calcular la
probabilidad.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribución normal

• Para calcular la probabilidad entre dos puntos, se


restan las probabilidades de los extremos:
P(X1,X2) = P(-∞,X2) - P(-∞,X1)

X1 X2
UTN Santa Fe | TSM | Gestión de calidad y metrología

Ejemplo: Distribución normal


• Durante un mes se han registrado los días empleados
para completar un ensayo de cierto tipo. Se ha
obtenido un promedio de 8,7 días, con un desvío
estándar de 0,9 días.
– Si se ofrecen tiempos de entrega de resultados de 10
días, ¿qué tasa de incumplimiento se puede esperar?
– ¿Cuál es el tiempo mínimo que se puede
comprometer, si se desea tener un incumplimiento
menor de 1 en 200 ensayos?
UTN Santa Fe | TSM | Gestión de calidad y metrología

Ejemplo: Distribución normal


• Se calcula el valor normalizado:
X  10  8,7
Z   1,44
 0,9
• Se busca el valor en la tabla, obteniendo 0,9251 (lo
que significa 92,51%).
• Como se pide la tasa de no cumplimiento, sería:
1 – 0,9251 = 0,0749 = 7,49 %
UTN Santa Fe | TSM | Gestión de calidad y metrología

Ejemplo: Distribución normal

Valor a
buscar: 1,44
UTN Santa Fe | TSM | Gestión de calidad y metrología

Ejemplo: Distribución normal


• Para el tiempo mínimo, se desea un incumplimiento
menor a 1 en 200, es decir 0,5%. Por lo tanto, el
cumplimiento debe ser ≥ 99,5% = 0,995.
• Se busca ese valor en la tabla, obteniendo 2,58.
X  X  8,7
Z   2,58  X  0,9  2,58  8,7  11,02
 0,9
• Finalmente, el menor tiempo a comprometer es de
11 días.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Ejemplo: Distribución normal

Valor a
buscar: 0,995
UTN Santa Fe | TSM | Gestión de calidad y metrología

Estadísticas en Excel
• Probabilidad distribución normal:
– DISTR.NORM.N(X;μ;σ;ACUMULADO?)
• Acumulado debe ser VERDADERO para que calcule la
probabilidad acumulada hasta el valor dado de X.
• Probabilidad distribución normal estándar (es decir
μ=0 y σ=1):
– DISTR.NORM.N(Z;ACUMULADO?)
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribución T de Student
• Se utiliza cuando una variable con distribución normal se
evalúa a partir de pocas mediciones. Su forma es similar a la
normal, y tiende a ésta cuando n tiende a infinito. Por
ejemplo, si n = 6:

-2.65  +2.65
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribución T de Student
n-1 (vef) 68.27% 90% 95% 95.45% 99% 99.73%
1 1.84 6.31 12.7 14.0 63.7 236
2 1.32 2.92 4.30 4.53 9.92 19.2
3 1.20 2.35 3.18 3.31 5.84 9.22
4 1.14 2.13 2.78 2.87 4.60 6.62
5 1.11 2.02 2.57 2.65 4.03 5.51
6 1.09 1.94 2.45 2.52 3.71 4.90
7 1.08 1.89 2.36 2.43 3.50 4.53
8 1.07 1.86 2.31 2.37 3.36 4.28
9 1.06 1.83 2.26 2.32 3.25 4.09
10 1.05 1.81 2.23 2.28 3.17 3.96
11 1.05 1.80 2.20 2.25 3.11 2.85
12 1.04 1.78 2.18 2.23 3.05 3.76
13 1.04 1.77 2.16 2.21 3.01 3.69
14 1.04 1.76 2.14 2.20 2.98 3.64
15 1.03 1.75 2.13 2.18 2.95 3.59
16 1.03 1.75 2.12 2.17 2.92 3.54
17 1.03 1.74 2.11 2.16 2.90 3.51
18 1.03 1.73 2.10 2.15 2.88 3.48
19 1.03 1.73 2.09 2.14 2.86 3.45
20 1.03 1.72 2.09 2.13 2.85 3.42
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribución uniforme
• En varios fenómenos, los valores son igualmente
posibles entre dos valores extremos a y b (y la
probabilidad de ocurrencia es 0 fuera de dicho
intervalo).
• La distribución uniforme (a veces llamada
rectangular) puede utilizarse para variables continuas
o discretas.
• Se define solamente por dos parámetros: el valor
máximo y el mínimo.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribución uniforme
r

a -  + b

• El desvío estándar se calcula: b  a  r


2 3 2 3

• Y la media: 0,5 (a + b)
UTN Santa Fe | TSM | Gestión de calidad y metrología

Actividad 2.1
Entre toda la clase
• Para el ejemplo de los
resistores (25 lotes x500 u):
– Realizar un muestreo de 5 u
por lote. Usar los valores para
estimar la media y desvío
poblacionales.
– Comparar estos valores
estimados con los reales de la
población. Debatir.
– Asumiendo distribución
normal, verificar cumplimiento
de las especificaciones. Debatir
los resultados.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Para debatir
Antes de continuar…

• ¿Cómo harías para saber


qué distribución de
frecuencia siguen los
resistores del primer
ejemplo?
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
• Para poder trabajar con un número grande de datos
es conveniente agruparlos de acuerdo a su
distribución de frecuencia, es decir, la cantidad de
ocurrencias de cada valor ó grupo de valores.
• Los datos “crudos” pueden obtenerse en forma
desordenada, ó pre-ordenada (si se conoce con
anterioridad los valores posibles a obtener).
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
• Pasos a seguir:
– Si son muchos datos, hacer una primera tabulación
con valores individuales.
– Determinar el rango de valores y la cantidad de
valores individuales.
– Determinar la cantidad e intervalo de celdas.
– Calcular los límites de las celdas y sus puntos medios.
– Ordenar los datos en las celdas.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
• Paso 1: Tabular los datos
Valor Cuenta Valor Cuenta Valor Cuenta
2.531 I 2.546 IIII 2.561 IIII
2.532 II 2.547 III 2.562 II
2.533 I 2.548 2.563 I
2.534 II 2.549 II 2.564 III
2.535 2.550 IIII 2.565 II
2.536 II 2.551 IIII III 2.566 I
2.537 II 2.552 IIII I 2.567 II
2.538 III 2.553 III 2.568 II
2.539 I 2.554 II 2.569 III
2.540 2.555 I 2.570 III
2.541 2.556 IIII 2.571 II
2.542 III 2.557 I 2.572 II
2.543 III 2.558 III 2.573
2.544 II 2.559 IIII 2.574 II
2.545 IIII 2.560 IIII 2.575 II
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
• Paso 2: Calcular rango y valores únicos
– Rango R = XS – XI
– La cantidad de valores individuales se determina
incrementando en 1 el último dígito del rango, por
ejemplo:
R = 1,2 13 valores
R = 0,008 9 valores
R = 0,25 26 valores
R = 0,10 11 valores
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
• Paso 3: Elegir celdas
– La cantidad de celdas h (entre 5 y 20) se elige según la
cantidad de valores únicos calculados en el paso anterior.
– El número de valores por celda debe ser un entero impar,
tal que:
cant. valores indiv.
h
cant. valores por celda
– Finalmente, el intervalo i se obtiene multiplicando el
número de valores por celda, por el menor dígito del
rango.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
• Paso 4: Límites y puntos medios
– El límite inferior de la primera celda es el valor más
bajo (XI). Los límites inferiores de las celdas
subsiguientes se obtienen sumando sucesivamente a
este valor, el intervalo de celda i.
– El límite superior de una celda es un dígito menos que
el límite superior de la celda siguiente.
– El punto medio es simplemente el valor que queda
junto entre el límite superior y el inferior.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
• Paso 5: Ordenar los datos
Límites Punto intermedio Frecuencia
2.531 - 2.535 2.533 6
2.536 - 2.540 2.538 8
2.541 - 2.545 2.543 12
2.546 - 2.550 2.548 13
2.551 - 2.555 2.553 20
2.556 - 2.560 2.558 19
2.561 - 2.565 2.563 13
2.566 - 2.570 2.568 11
2.571 - 2.575 2.573 8
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
25

20

15

10

0
2.533 2.538 2.543 2.548 2.553 2.558 2.563 2.568 2.573
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
• La frecuencia relativa (unitaria ó porcentual) se
obtiene dividiendo la frecuencia por la sumatoria de
frecuencias individuales. Permite comparar
fácilmente los valores entre sí.
• La frecuencia acumulativa es la suma de las
frecuencias de todas las celdas anteriores a una
celda determinada. Permite obtener en forma rápida
la cantidad de valores acumulados. También se
puede expresar en forma relativa.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Distribuciones de frecuencias
Límites Punto Frecuencia Frecuencia Frecuencia
intermedio relativa acum. Relat.
2.531 - 2.535 2.533 6 0.05 0.05
2.536 - 2.540 2.538 8 0.07 0.13
2.541 - 2.545 2.543 12 0.11 0.24
2.546 - 2.550 2.548 13 0.12 0.35
2.551 - 2.555 2.553 20 0.18 0.54
2.556 - 2.560 2.558 19 0.17 0.71
2.561 - 2.565 2.563 13 0.12 0.83
2.566 - 2.570 2.568 11 0.10 0.93
2.571 - 2.575 2.573 8 0.07 1.00
UTN Santa Fe | TSM | Gestión de calidad y metrología

Actividad 2.2
Entre toda la clase

• Para el ejemplo de los


resistores (25 lotes x500 u),
con el muestreo ya
realizado:
– Acomodar los datos en una
distribución de frecuencias.
– Realizar un histograma y
analizarlo. Debatir.
UTN Santa Fe | TSM | Gestión de calidad y metrología

Repaso y discusión
Para resumir y fijar…
• ¿Qué es una distribución
de probabilidad? ¿Para qué
sirven? ¿Cuáles son las más
comunes?
• ¿Cómo se obtienen las
probabilidades en cada una
de ellas?
• ¿Qué es una distribución
de frecuencias? ¿Para qué
sirve?