Está en la página 1de 70

Curso de Probabilidad y Estadstica

Tema: (7) Estadstica Descriptiva


Dr. Jos Antonio Camarena Ibarrola
camarena@umich.mx
Facultad de Ingeniera Elctrica
El campo de la Estadstica
Recopilacin,
Presentacin,
Anlisis y
Uso de Informacin para resolver
problemas, tomar decisiones, hacer
estimaciones y disear productos y
procedimientos

La variabilidad
La Estadstica sirve para presentar,
describir y entender la variabilidad
Un proceso produce un resultado, al
repetirse un proceso, los resultados
cambian a pesar de que el proceso se
reprodujo aparentemente en las
mismas circunstancias.

Poblacin
Coleccin de mediciones de un universo
respecto al cual queremos obtener
conclusiones o tomar decisiones.
Ej. Conjunto de valores de consumo de
energa (KWH) facturados en el primer
bimestre de 2008
Tipos de datos
Datos numricos (continuos o discretos)
Datos categricos (Ej. Sexo, marca, ..)
Datos identificadores de unidades
Muestreo de datos
Poblacin
Muestra
Muestreo aleatorio
Nota: Si la muestra es igual a la poblacin, al muestreo le llamamos censo
Estadstica
Descriptiva. Organizacin, resumen y
presentacin de datos
Inferencial. Llegar a una conclusin
acerca de la poblacin, el proceso o el
modelo de asignacin de las variables
Presentacin grfica de la
informacin
Diagrama de puntos
Grficas de dispersin
Diagramas de tallos y hojas
Histogramas
Diagramas de cajas con bigotes
Grficas de Pareto
Series de tiempo
Diagrama de puntos
16.0 16.5 17.0 17.5 18.0 18.5
* * ** * * * * * * + + + + + + + + + +
* = Mortero modificado
+ = Mortero sin modificar
Ejemplo: Datos de resistencia a la tensin de muestras de
mortero Portland (Kg/cm2) con polmero agregado:
16.85 16.40 17.21 16.35 16.52
17.04 16.96 17.15 16.59 16.57
mortero Portland sin modificar:
17.50 17.63 18.25 18.00 17.86
17.75 18.22 17.90 17.96 18.15
Graficas de dispersin
Grfica de dispersin
Grafica de dispersin 3D
Grfica de burbujas
Ejemplo: Resistencia a la tensin de 80
muestras de aleacin Aluminio-Litio
105 221 183 186 121 181 180 143 97 154 153 174 120 168
167 141 245 228 174 199 181 158 176 110 163 131 154 115
160 208 158 133 207 180 190 193 194 133 156 123 134 178
76 167 184 135 229 146 218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158 160 175 149 87 160 237
150 135 196 201 200 176 150 170 118 149
Diagrama de tallos y hojas
Tallo Hoja Frecuencia
7 6 1
8 7 1
9 7 1
10 5 1 2
11 5 8 0 3
12 1 0 3 3
13 4 1 3 5 3 5 6
14 2 9 5 8 3 1 6 9 8
15 4 7 1 3 4 0 8 8 6 8 0 8 12
16 3 0 7 3 0 5 0 8 7 9 10
17 8 5 4 4 1 6 2 1 0 6 10
18 0 3 6 1 4 1 0 7
19 9 6 0 9 3 4 6
20 7 1 0 8 4
21 8 1
22 1 8 9 3
23 7 1
24 5 1
Tallos y Hojas ordenado
Tallo Hoja Frecuencia
7 6 1
8 7 1
9 7 1
10 1 5 2
11 0 5 8 3
12 0 1 3 3
13 1 3 3 4 5 5 6
14 1 2 3 5 8 6 9 9 8
15 0 0 1 3 4 4 6 7 8 8 8 8 12
16 0 0 0 3 3 5 7 7 8 9 10
17 0 1 1 2 4 4 5 6 6 8 10
18 0 0 1 1 3 4 6 7
19 0 3 4 6 9 9 6
20 0 1 7 8 4
21 8 1
22 1 8 9 3
23 7 1
24 5 1
Los datos ordenados
76 87 97 101 105 110 115 118 120 121
123 131 133 133 134 135 135 141 142 143
145 146 148 149 149 150 150 151 153 154
154 156 157 158 158 158 158 160 160 160
163 163 165 167 167 168 169 170 171 171
172 174 174 175 176 176 178 180 180 181
181 183 184 186 190 193 194 196 199 199
200 201 207 208 218 221 228 229 237 245

Son 80 datos, como es un numero par, la mediana ser el promedio de los
que ocupan los lugares 40 y 41, o sea (160+163)/2=161.5
El primer cuartil es el valor en (0.25)*80+0.5=20.5, es decir, el promedio de
los valores en los puestos 20 y 21, o sea (143+145)/2=144
El tercer cuartil es el promedio de los valores en los puestos 60 y 61, es
decir, (181+181)/2=181
El rango intercuartil
RIC=Q3-Q1
Es una medida de dispersin de datos
En el ejemplo anterior: RIC=181-144=37
Tabla de Frecuencias

Clase Frecuencia Frec. Relativa Frec. Rel. Acum.
70 a 90 2 0.0250 0.0250
90 a 110 3 0.0375 0.0625
110 a 130 6 0.0750 0.1375
130 a 150 14 0.1750 0.3125
150 a 170 22 0.2750 0.5875
170 a 190 17 0.2125 0.8000
190 a 210 10 0.1250 0.9250
210 a 230 4 0.0500 0.9750
230 a 250 2 0.0250 1.0000
Histograma
0
5
10
15
20
25
70 90 110 130 150 170 190 210 230 250
Cajas con bigotes
Presenta al mismo tiempo una medida de dispersin, de
tendencia central y de valores extremos
Se debe determinar la mediana, el primero y el tercer cuartil y
los valores mximo y mnimo
Rango Intercuartlico RIC=Q3-Q1
Las grficas de Caja son tiles
para hacer comparaciones
Supongamos que
un corredor entrena
para una
determinada carrera
y se toman los
tiempos que
necesita para
recorrer los 100m,
durante 10 das
consecutivos (cada
da se toman varios
tiempos y se
calculan mediana,
cuartiles, valores
mnimo y mximo)
El desplazamiento
de las grficas de
caja hacia la
izquierda indica que
el entrenamiento ha
dado resultado, ya
que se tardan
menos segundos en
recorrer la misma
distancia, siendo la
diferencia entre el
mximo y el mnimo
menor, como as
tambin la
diferencia
intercuartlica
Ejemplo
En un diario presentan el siguiente grfico de caja y bigotes. La
variable en estudio es calificacin en un examen de ingreso
Teniendo en cuenta esta grfica indique en forma aproximada:
a)Qu calificacin obtuvo el estudiante con menor nota?
b)Qu calificacin obtuvo el estudiante con mayor nota?
c)Cul es el primer cuartil?
d)Cul es el tercer cuartil?
e)Cul es la mediana?
Ejercicio
En un aeropuerto se registran los vuelos que arriban en una semana determinada
y los datos se vuelcan en la siguiente tabla:
Ordene en forma creciente y calcule mediana y cuartiles.
Cuntos vuelos hay el da que hay menos vuelos?
Cuntos vuelos hay el da que hay ms vuelos?
Represente mediante un diagrama de caja y bigotes.
Da Lunes Martes Mircoles Jueves Viernes Sbado Domingo
Vuelos 25 37 45 50 32 40 30
Diagrama de Pareto
Se ordenan la frecuencias en orden descendente
La escala horizontal no es necesariamente numrica
La lnea indica los porcentajes acumulados
tiles en anlisis de datos de defectos en procesos
de produccin
Muy usada en los programas de mejoramiento de
calidad pues permite a los ingenieros concentrarse en
los problemas realmente importantes
Ejemplo, Proceso de fabricacin
de un puerta de automvil
Tipo de
Defecto
Cant
Mancha 21
Rayn 35
Defecto en
manija
17
Floja 29
Abollada 3
Defecto en vidrio 5
TOTAL 110
Tipo de Defecto Cant
Rayn 35
Floja 29
Mancha 21
Defecto en manija 17
Otros 8
TOTAL 110
%
32
26
19
16
7
100
Diagrama de Pareto
Serie de tiempo
0
50
100
150
200
250
300
5
1
0
1
5
2
0
2
5
3
0
3
5
4
0
4
5
5
0
5
5
6
0
6
5
7
0
7
5
8
0
Resist a la tensin
Descripcin numrica de los
datos
Media
Varianza
Moda
Mediana
Sesgo
Curtosis
Covarianza
Factor de correlacin
La media

=
=
+ + +
=
n
i
i
n
x
n n
x x x
x
1
2 1
1 ...
La media muestral
La media de la poblacin

=
=
N
i
i
x
N
1
1

La media geomtrica
n
n
n
n
i
i
x x x x Mg ...
2 1
1
= =
[
=
La varianza
2
1
2
1
2 2
1
) (
1
x x
n
x x
n
s
n
i
i
n
i
i n
|
.
|

\
|
= =

= =
La varianza muestral
La varianza de la poblacin

=
=
N
i
i
x
N
1
2 2
) (
1
o
Varianzas muestrales, Covarianza
muestral y correlacin muestral
2
1
2
1
2 2
1
) (
1
x x
n
x x
n
s
n
i
i
n
i
i x
|
.
|

\
|
= =

= =
2
1
2
1
2 2
1
) (
1
y y
n
y y
n
s
n
i
i
n
i
i y
|
.
|

\
|
= =

= =
y x y x
n
y y x x
n
s
n
i
i i
n
i
i i xy
|
.
|

\
|
= =

= = 1 1
1
) )( (
1
y x
xy
xy
S S
S
r =
La cuasi-varianza muestral
(
(

|
.
|

\
|

= =
=

2
1 1
2
1
2
2
1
1
1
1
1
) (
n
i
i
n
i
i
n
i
i
n
x
n
x
n n
x x
s
Esta medida de dispersin tiene la propiedad de insesgadez
La moda
El valor de mayor frecuencia
Si hay dos, la distribucin es bi-modal
El rango dinmico
La diferencia entre el mximo y el
mnimo de los valores de la poblacin
Sesgo y Curtosis
3
1
3
) (
) 2 )( 1 ( s
x x
n n
n
sesgo
n
i
i
=


=
4
1
4
) (
) 3 )( 2 )( 1 (
) 1 (
s
x x
n n n
n n
curtosis
n
i
i
=


+
=
Regresin lineal
Es una tcnica estadstica para investigar la relacin
entre dos o mas variables
Se utiliza para realizar predicciones de una variable
(respuesta) en trminos de otras (regresivas)
El trmino regresin fue acuado por el frances
Francis Galton quien lo us en sus estudios de la
herencia
La regresin simple o bivariada consiste de hacer
predicciones de una variable en trminos de otra
solamente
En la regresin mltiple, la prediccin se hace
tomando en cuenta a varias variables
Regresin lineal simple
Asumimos que la relacin entre la variable
respuesta y la variable regresiva es una lnea
recta
Cada observacin cumple
La suma de los cuadrados de los errores es

x x y E
1 0
] | [ | | + =
c | | + + =
i i
x y
1 0

= =
=
n
i
n
i
i i
x y
1 1
2
1 0
2
) ( | | c
Regresin lineal simple
Para minimizar el error derivamos e
igualamos a cero respecto a

De la misma manera derivando respecto a

Simplificando estas dos ecs:
0
|
0 ) ( 2
1 0
1
=

=
i
n
i
i
x y | |
1
|
0 ) ( 2
1 0
1
=

=
i i
n
i
i
x x y | |

= =
= +
n
i
i
n
i
i
y x n
1 1
1 0
| |

= = =
= +
n
i
i i
n
i
i
n
i
i
x y x x
1 1
2
1
1
0
| |
Regresin lineal simple
Reconociendo que

La ecuacin
Se convierte en
Esto lo reemplazamos en

Para obtener

= =
= +
n
i
i
n
i
i
y x n
1 1
1 0
| |

=
=
n
i
i
x
n
x
1
1
x y
1 0
| | =

= = =
= +
n
i
i i
n
i
i
n
i
i
x y x x
1 1
2
1
1
0
| |

= = =
= +
n
i
i i
n
i
i
n
i
i
x y x x x y
1 1
2
1
1
1
) ( | |

=
=
n
i
i
y
n
y
1
1
Regresin lineal simple
De la ecuacin

Despejamos



Para obtener

= = =
= +
n
i
i i
n
i
i
n
i
i
x y x x x y
1 1
2
1
1
1
) ( | |

= = = =
=
(

+ +
n
i
i i
n
i
i
n
i
i
n
i
i
x y x x x x y
1 1
2
1
1
1
|
1
|


= =
= =
+

=
n
i
i
n
i
i
n
i
i
n
i
i i
x x x
x y x y
1
2
1
1 1
1
|
Regresin lineal simple
Es lo mismo que


= =
= =
+

=
n
i
i
n
i
i
n
i
i
n
i
i i
x x x
x y x y
1
2
1
1 1
1
|
xx
xy
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
S
S
x x
x x y
x
n
x
x y
n
x y
=

=
(



=
=
= =
= = =
2
1
1
2
1 1
2
1 1 1
1
) (
) (
1
1
|
Ejemplo
Un Ingeniero est investigando el efecto de
la temperatura sobre el rendimiento de un
producto, sus experimentos arrojan los
siguientes resultados

Temp 100 110 120 130 140 150 160 170 180 190
Rend 45 51 54 61 66 70 74 78 85 89
La grfica de dispersin
Esta grfica nos indica una fuerte suposicin de que
la relacin entre las dos variables puede ser lineal
Haciendo los clculos

=
=
10
1
673
i
i
y

=
=
10
1
1450
i
i
x
10 = n

=
=
10
1
2
500 , 218
i
i
x

=
=
10
1
2
225 , 47
i
i
y

=
=
10
1
570 , 101
i
i i
y x
145 = x
3 . 67 = y

= =
= = |
.
|

\
|
=
10
1
2
2
10
1
2
250 , 8
10
) 1450 (
500 , 218
10
1
i i
i i xx
x x S

= = =
= = =
10
1
10
1
10
1
985 , 3
10
) 673 )( 1450 (
570 , 101
10
1
i i
i
i
i i i xy
y x y x S
Finalmente
483 . 0
8250
3985
1
= = =
xx
xy
S
S
|
739 . 2 ) 145 )( 483 . 0 ( 3 . 67
1 0
= = = x y | |
x x y 483 . 0 739 . 2
1 0
+ = + = | |
48
Perspectiva histrica de la teora de la fiabilidad
Estudios para poder evaluar la mortalidad derivada de las
epidemias.
Compaas de seguros, para determinar los riesgos de sus plizas
de seguro de vida.
Tablas de vida: La primera tabla de vida data de 1693 y es
debida a Edmund Halley
Orgenes:
se utilizaban los mtodos actuariales tanto para estimar la
supervivencia de pacientes sometidos a distintos tratamientos
como para estudiar la fiabilidad de equipamientos, en particular de
los ferrocarriles.
Siglo XX:
En 1939 Waloddi Weibulll, cuando era profesor del Royal Institute
of Technology en Suiza, propuso una distribucin para describir la
duracin de materiales, que ms tarde llevara su nombre.
En 1951 Epstein y Sobel empezaron a trabajar con la distribucin
exponencial como modelo probabilstico para estudiar el tiempo de vida
de dispositivos
49
Fiabilidad y Mantenimiento
Desde el punto de vista de la ingeniera, la fiabilidad es la
probabilidad de que un aparato, dispositivo o persona desarrolle
una determinada funcin bajo condiciones fijadas durante un
periodo de tiempo determinado.
La confiabilidad de un elemento puede ser caracterizada a travs
de distintos modelos de probabilidades.
Podemos describir varias distribuciones de fallas comunes y ver
qu podemos aprender de ellas para gestionar los recursos de
mantenimiento. Convirtiendo el conocimiento ganado de ellas en
acciones PROACTIVAS de Mantenimiento y aplicarlas en el Diseo.

50
Herramientas de Fiabilidad
Se estudia mediante el anlisis estadstico de datos de
supervivencia.
ISO define fiabilidad como la probabilidad de que un
componente o sistema, desarrolle durante un periodo de
tiempo dado, la tarea que tiene encomendada sin fallos, y en
las condiciones establecidas.
Estudiar Duraciones de Procesos que es comn en muchas ciencias:
Duracin de un componente (Fiabilidad)
Supervivencia de un paciente a un tratamiento (Medicina)
Duracin del desempleo (Economa)
Edad de las personas (Demografa y sociologa)
51
Veamos, a partir de un histograma podemos desarrollar las cuatro
funciones de importancia para la caracterizacin de la fiabilidad.
0
1
2
3
4
5
6
7
8
9
ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE
Meses
F
a
l
l
o
s
Serie1
Serie2
MES
fallas
ENERO
2
FEBRERO
5
MARZO
7
ABRIL
8
MAYO
7
JUNIO
6
JULIO
5
AGOSTO
4
SEPTIEMBRE
3
OCTUBRE
1
TOTAL
48
52
En estudios de mantenimiento necesitamos pasar del anterior histograma a funciones
continuas, debido que la variable tiempo de fallo es continua. Esta funciones nos dan una
idea clara de la distribucin de fallos. Empezamos por la f(t) pdf que indica la densidad
probable de fallas en cada intervalo t.
Serie1
0
1
2
3
4
5
6
7
8
9
ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE
Meses
f(t)
Pudiendo llamar a t1 y t2, - y respectivamente
2
1
( ) ( ) ( )
t
t
f t f t d t =
}
53
F(t) CDF Cumulative Density Function:
aqu de - a Tiempo t, seria la probabilidad de que la falla ocurra
antes del tiempo t.
0
1
2
3
4
5
6
7
8
9
ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE
Meses
f(t)
el rea bajo la curva - transcurrido t (Funcin Reparticin ) cdf=14/48
Intervalo - a t, la acumulacin de fallas
Tiempo t
( ) ( )
t
F t f t dt =

}
54
R(t) Reliability (confiabilidad)
Esta es la probabilidad de xito o sea que no ocurra la falla antes de t.
Representando por el rea bajo la curva desde t hasta infinito.
R(t)= 1- F(t)
0
1
2
3
4
5
6
7
8
9
ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE
Meses
f(t)
( ) ( ) R t f t dt
t

=
}
Tiempo t
(


=
1 2 1
2 1
2 1
1
) (
) ( ) (
) , (
t t t R
t R t R
t t TF
La tasa de falla del intervalo t1 a t2 se define como
Es la probabilidad de que ocurra una falla en el intervalo
de t1 a t2 dado que no ha habido falla al tiempo t1
la funcin de Riesgo, o tasa de mortalidad h(t) es
) (
) ( '
) (
1 ) ( ) (
lim
1
) (
) ( ) (
lim ) (
0 0
t R
t R
t R t
t R t t R
t t R
t t R t R
t h
t t

=
A
A +
=
A
A +
=
A A
) ( 1
) (
) (
) (
) (
t F
t f
t R
t f
t h

= =
Y como R(t)=1-F(t), entonces
R(t)=-F(t)=-f(t), de ah
Es muy comn asumir que las fallas tienen una distribucin exponencial, entonces:

= = =

t
t
e
e
t R
t f
t h
) (
) (
) (
Y entonces se dice que la tasa de falla es constante, la constante

56
(t)

constante

Hiptesis exponencial

desarrollo

Madurez (fallos aleatorios)
Inicio utilizacin

obsolescencia

desclasificacin

1

2

3

Edad t



DOMINIO ELECTRONICO
Funcin de Riesgo tpica
57
(t)

Curva debida a los
fallos precoces

rodaje

Madurez

obsolescencia

desclasificacin

1

2

3

Edad t

Puesta en servicio

Influencia del desgaste
sobre (t)


DOMINIO MECANICO


( ) ( )
( )
( ) 1 ( )
f t f t
h t
R t F t
| | | |
= =
| |

\ . \ .
Funcin de Riesgo tpica
58
Cuando la tasa de fallo del elemento responde a la curva de la baera es
conveniente realizar un ensayo acelerado del mismo (en condiciones de stress)
para que supere la zona de mortalidad infantil o fallas infantiles.
determinar cuando comienza la vida til del producto y ofrecer a los clientes una
garanta de funcionamiento durante ese periodo de funcionamiento problemtico.
Una vez superado el periodo crtico, la empresa est razonablemente segura de que el
producto tiene una posibilidad de fallos reducida
59
La distribucin de fallas de diferentes tipos de maquinaria no son las
mismas. Aun varan en una misma maquina durante su operacin. Sus
formas pueden ser estudiadas a partir de las funciones pdf, cdf y tasa de
falla de los datos reales de mantenimiento o de ensayos de fiabilidad. Estos
dan forma a determinadas expresiones matemticas conocidas como
distribuciones obteniendo:
Dist. Exponencial
Dist. Normal
Dist. Lognormal
Dist. Weibull
60
f (t) = exp (-t), t > 0
F(t) = 1 - exp(-t), t > 0
R(t) = exp (-t ), t > 0
EL MODELO EXPONENCIAL
pdf
cdf
R(t)

= h(t)
61
f
(x)

|=1
x)

|=2
x)

|=5
x)

|=3,6

|=2,
5x)

f (t)

t

|=0,
5x)

t

(t)

2

1

0,
5

|=4

3

2
1,5

0,5t

1

































EL MODELO DE WEIBULL
( )
1
( )
t
t
f t e
| |

q
|
q q

| || |
=
| |
\ .\ .
| parmetro de forma | > 0;
q parmetro de escala q > 0;
parmetro de posicin - < < +
( )
( ) 1
t
F t e
|

=
62
Las caractersticas de la distribucin de Weibull
63
Las caractersticas de la distribucin de Weibull
64
f(t)

t

2 < 0

2 = 0

2 > 0
















- El parmetro de posicin (en unidad de tiempo)
Se llama tambin parmetro de diferenciacin o de
localizacin.
Significado: indica la fecha de inicio de los fallos.

-- si > 0, hay supervivencia total entre t = 0 y t = ;
-- si = 0, los fallos empiezan en el origen del tiempo;
-- si < 0, los fallos han empezado antes del origen del
tiempo.
Las caractersticas de la distribucin de Weibull
65
Ejemplo
Obtencin de la fiabilidad de neumticos a travs del
Anlisis de la degradacin
Siete marcas de neumticos fueron controlados en su desgaste cada
5.000 millas, midiendo la profundidad de cada uno. La tabla que
contiene las mediciones desde su inicio hasta las 30.000 millas
Degradacin Critica y= 2 mm
f (t) = exp (-t), t > 0
F(t) = 1 - exp(-t), t > 0
R(t) = exp(-t ), t > 0
66
Ejemplo
67
Ejemplo
68
Ejemplo
69
Ejemplo
Diagrama de Ishikawa
El diagrama de Ishikawa conocido tambin como causa-efecto, es una forma de
organizar y representar las diferentes teoras propuestas sobre las causas de un
problema. Nos permite, por tanto, lograr un conocimiento comn de un problema
complejo, sin ser nunca sustitutivo de los datos.