Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fundamentos de
Probabilidad y Estadística
Measure
1
Objetivos
Al final de este módulo, usted deberá ser capaz de:
Entender los fundamentos de probabilidad y estadística
Entender el conceptos de distribuciones de probabilidad
Describir los conceptos de la distribución normal
Determinar si los datos son normales
2
Estadística en el mundo moderno
Estadística es la ciencia que permite la obtención, organización,
análisis, interpretación y representación de datos
Los métodos estadísticos son fundamentales para la resolución
de problemas
Sin las herramientas estadísticas, las acciones correctivas
identificadas pueden caer en un rango comprendido entre
resolución por pura suerte, … hasta efectos desastrosos!
El concepto fundamental detrás de todos los métodos
estadísticos es el concepto de variación, que dice que no existen
dos entidades que sean perfectamente idénticas
Estadística
3
Definición de probabilidad
La probabilidad de un cierto evento puede variar entre
0 Imposibilidad de ocurrencia y
1 Certeza
Una definición de probabilidad se basa en el concepto de
frecuencia: Si un cierto evento A puede ocurrir c veces de un total
de n casos posibles, la probabilidad de ocurrencia de dicho
evento será:
c Cantidad de casos favorables
P ( A)
n Cantidad de casos posibles
Ejemplo: La probabilidad de obtener un 6 al arrojar un dado es,
4
Teoremas básicos de probabilidades
Si P(A) es la probabilidad de ocurrencia de un evento A
1 – P(A) será la probabilidad de que el evento A no ocurra,
dado que la probabilidad de que ocurra o no ocurra
comprende todas las opciones posibles
Tenemos certeza (probabilidad = 1) de que el evento ocurrirá
o no ocurrirá
P ( A) P ( A ) P ( A) [1 P ( A)] 1
Ejemplo: La probabilidad de obtener un 6 o de no obtener un 6 al
arrojar un dado es
P (6) P ( 6 ) P (6) [ P (5) P ( 4) P (3) P ( 2) P (1)]
1 1 1 1 1 1
6 6 6 6 6 6
1 5
1
6 6
5
Presentación de la información
Lo primero que hacemos cuando realizamos mediciones es
registrarlas en forma tabular, sin embargo, una serie de números
en una tabla son muy difíciles de interpretar
Para visualizar la información usamos diversos métodos gráficos
Como regla general, SIEMPRE, antes de embarcarse en cualquier
análisis estadística se debe comenzar por representar la
información en forma gráfica
6
Gráficos
Los gráficos ayudan a entender la naturaleza de la variación
Los gráficos hacen que la naturaleza de los datos sea más
accesibles a la mente humana
Los gráficos ayudan a ilustrar el contexto de los datos
Los gráficos deberían ser la principal herramienta de
presentación de datos para el análisis
Si no puede mostrarlo gráficamente, posiblemente no tiene una
buena explicación
7
Histograma
Observación
2.81
2.78
1.13
2.34
3.43
2.54
4.53
3.58
3.12
2.15
3.68
1.94
2.85 Histogram of Observacion
3.40 7
4.28
6
3.85
2.95 5
2.72
Frequency
4
4.08
1.78 3
3.18 2
4.00
4.09 Comenzamos a ver el 1
8
Dotplot
Observación
2.81
2.78
1.13
2.34
3.43
2.54
4.53
3.58
3.12
2.15
3.68
1.94
2.85 Dotplot of Observacion
3.40
4.28
3.85
2.95
2.72
4.08
1.78 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
3.18 Observacion
4.00
4.09
2.89
3.42
9
Boxplot
Observación
2.81
2.78
1.13
2.34
3.43
2.54
4.53
3.58
3.12
2.15
3.68
1.94
2.85 Boxplot of Observacion
3.40 5
4.28
3.85 Q3 P75 Max
4
2.95
2.72
Observacion
4.08 Mediana
3
1.78 Q2 P50
3.18
4.00 2
4.09 Q1 P25
2.89 Min
3.42 1
10
Indicadores cuantitativos
La información puede ser resumida usando medidas de:
Tendencia central para ver adonde se agrupan la mayoría de los
datos
– Media
– Mediana
Dispersión para ver como se distribuyen los datos
– Rango
– Varianza
– Desviación estándar
11
Parámetros de la población
Versus estadísticas de la muestra
Estadísticas Parámetros de
de la muestra la población
X = Media de la Muestra m = Media de Población
12
Medidas de tendencia central
La medida más común de tendencia central es la Media Aritmética o
Promedio de las observaciones
Refleja la contribución de todas las observaciones
Muy sensible a valores extremos
X
X ¿Por qué será que en
general usamos el
n
Donde: X = Promedio de la muestra
promedio en los
X = Observación individual proyectos de mejora?
n = Tamaño de la muestra
S = Sumatoria
13
Medidas de tendencia central
Como jefe de Departamento de Comunicaciones de la universidad, se le
ha pedido hacer un estudio de los salarios iniciales de los graduados de
la escuela
14
Medidas de dispersión
La medida más común de dispersión es la Desviación Estándar
s
( X X ) 2
n 1
El cuadrado de la desviación estándar se conoce como Varianza
s2
( X X ) 2
n 1
Otro indicador de dispersión muy usado, es el Rango, definido
como la diferencia entre la mayor y la menor lectura en la
muestra
16
Distribuciones de probabilidad
Las distribuciones pueden ser de dos tipos:
Continuas: Cuando los datos son continuos o, en otras palabras,
puede haber un número infinito de valores en un dado
intervalo de observación dependiendo sólo de la
discriminación del sistema de medición
La distribución continua más conocida es
probablemente la distribución Normal mas existen
otras como las distribuciones t de Student, Weibull,
Exponencial y muchas otras
Discretas: Cuando los datos son discretos, categóricos o
atributos, generalmente el resultado de una
clasificación o inspección
Las distribuciones discretas más comunes son la
Binomial, Poisson e Hipergeométrica
17
Las distribuciones normales
La distribución “Normal” tiene ciertas propiedades
Estas propiedades son muy útiles para entender las
características de los procesos de donde se obtienen los datos
La mayoría de los fenómenos naturales siguen o pueden ser
representados por una distribución normal
En la distribución normal, la media, la mediana y la moda son
todas iguales (medidas de tendencia central)
18
La función de distribución normal
Muchos fenómenos físicos, naturales, así como procesos
industriales y transaccionales siguen una distribución normal
Una distribución normal puede considerarse como la
contribución combinada de un número muy grande de pequeñas
causas de variación (normal)
La función de distribución normal responde a la fórmula:
( X m )2
1
y e 2s 2
s 2p
19
La distribución normal
Propiedad 1
Cualquier distribución normal queda totalmente caracterizada
conociendo:
Media
Desviación estándar
Distribución 1
Distribución 2
Distribución 3
20
La distribución normal
Propiedad 2
El área abajo de las secciones de la curva pueden ser utilizadas para
estimar la probabilidad acumulada para que cierto evento ocurra
El área bajo la curva
representa la probabilidad
68.26% acumulada de obtener un
Probabilidad de ocurrencia
20%
99.73%
10%
0%
-4 -3 -2 -1 0 1 2 3 4
Distancia a la media en unidades de desviaciones estándar
21
Reglas empíricas para desvío estándar
Las reglas previas de la probabilidad acumulada aplican en
muchos casos, aunque los datos no estén perfectamente
distribuidos según una distribución normal
Compare los valores para una distribución teóricamente
(perfecta) a una distribución empírica (mundo-real)
Número de
Desv. Est. Normal Teórica Normal Empírica
+/- 1s
68% 60-75%
+/- 2s
95% 90-98%
+/- 3s
99.7% 99-100%
22
Predicciones usando la distribución normal
Se pueden hacer predicciones conociendo sólo dos estadísticas
y una tabla (o Minitab, …)
Estas estadísticas son las dos estimativas de los parámetros de
la población:
La media de la muestra X m̂
La desviación estándar de la muestra s ŝ
Para esto, calculamos la variable reducida
( X mˆ )
Z
sˆ
Y determinamos, por ejemplo, la probabilidad de que cualquier
parámetro de la población esté dentro de un determinado
intervalo, a partir de las estadísticas de la muestra
23
Predicciones usando la distribución normal
Observación
Calculando las estadísticas de los datos mostrados
2.81 resulta:
2.78
X 3.10
1.13
2.34
3.43
2.54 s 0.838
4.53
3.58
3.12 Suponiendo que para este proceso toda observación
2.15
3.68 X > 4.50 fuese un defecto, calculando el valor Z para
1.94
2.85 X = 4.50, podríamos determinar la probabilidad de
3.40
4.28 encontrar un ítem defectuoso, usando como base la
3.85
2.95
2.72
información que nos provee la muestra
4.08
1.78 4.50 3.10
3.18 Z Minitab puede hacer los cálculos
4.00 0.838 utilizando directamente los
4.09
valores originales de media y
2.89 1.67064 desviación estándar
3.42
24
Predicciones usando la distribución normal
Usamos Minitab para determinar la probabilidad de encontrar un
artículo sin defecto (área debajo de la curva entre – y Z = 1.6719)
La probabilidad de encontrar un ítem no conforme será el
complemento a 1, o sea el área a la derecha de la curva para todo
Z > 1.6719, aproximadamente 5%
mˆ 3.10 Cumulative Distribution Function
sˆ 0.838
Normal with mean = 0 and standard
deviation = 1
X 4.50 x P( X <= x )
1.67064 0.952604
x P(X > x)
1.67064 1 – 0.952604 ≈ 0.05
25
Distribución normal
4 formas de verificar si los datos son normales
1) Histograma
¿La curva tiene forma de campana?
2) Gráfica de normalidad
¿Los datos siguen una línea recta?
3) El p-Value de la prueba de normalidad
Es el p-Value > 0.05?
4) Resumen gráfica
26
Gráfica de normalidad
Observación
2.81
2.78
1.13
2.34
3.43
2.54
4.53
3.58
3.12
2.15
3.68
1.94
2.85 Probability Plot of Observacion
3.40 Normal - 95% CI
99
4.28 Mean 3.101
StDev 0.8378
3.85 95 N 25
AD 0.166
90
2.95 P-Value 0.930
80
2.72 70
Percent
4.08 60
50
1.78 40
30
3.18 20
5
4.09
2.89
normales? 1
0 1 2 3 4 5 6
3.42 Observacion
27
¿Pero los datos son normales?
Para determinar si las observaciones provienen de una población
que sigue una cierta distribución de probabilidad, se utilizan las
gráficas de probabilidad (en este caso, una gráfica de
“normalidad”)
Continuando con los mismos datos, graficamos en Minitab y
observamos que los puntos rojos, representando las
observaciones, caen aproximadamente sobre la línea central,
dentro de la faja formada por las dos líneas exteriores, el intervalo
de confianza
El p-Value = 0.930 nos indica que existe una probabilidad de 93%
de equivocarnos si decimos que los datos no provienen de una
distribución normal
Cuanto más de cerca los puntos siguen a la línea recta central, mejor el ajuste de
la distribución teórica de probabilidad a los datos de la muestra
Cuidado, no todos los procesos son normales mas, no ser normal no significa que
existe un problema, sólo que hace falta considerar otros tipos de distribuciones
28
Graphical summary
Observación
2.81
2.78
1.13
2.34
3.43
2.54
4.53
3.58
3.12
2.15
3.68
1.94
Summary for Observacion
2.85 A nderson-Darling N ormality Test
3.40 A -S quared
P -V alue
0.17
0.930
4.28 M ean 3.1008
S tDev 0.8378
3.85 V ariance
S kew ness
0.7020
-0.394821
2.95 Kurtosis
N
-0.114419
25
2.72 M inimum
1st Q uartile
1.1300
2.6300
4.08 M edian
3rd Q uartile
3.1200
3.7650
1 2 3 4 M aximum 4.5300
1.78 95% C onfidence Interv al for M ean
29
Ejemplo:
Prueba de normalidad
Abra el proyecto de Minitab TR Blue Belt.MPJ, hoja Distributions
Time Bob
Normal
99
Mean 24.85
StDev 0.8700
95 N 30
AD 0.561
90
P-Value 0.135
80
Percent 70
60
50
¿Los datos son 40
30
normales? 20
10
1
23 24 25 26 27
Time_Bob
30
Ejercicio:
Prueba de normalidad
Propósito: Adquirir práctica en el uso de Minitab para obtener
algunas estadísticas básicas
Grupo: Trabajo individual
Ejercicio:
Abra la hoja Freight Cost en el proyecto de Minitab
TR BLUE BELT.MPJ
Genere un histograma y un gráfico de cajas (boxplot)
Calcule la media, mediana, rango, desviación estándar
y varianza
Haga un análisis “Graphical summary”
Determine si los datos son normales
Reporte: Discusión de clase
Tiempo: 15 min
31
Resumen
Recuerde
¡Siempre grafique los datos!
32