Está en la página 1de 66

Estadística Descriptiva

El campo de la Estadística
 Recopilación,
 Presentación,
 Análisis y
 Uso de Información para resolver
problemas, tomar decisiones, hacer
estimaciones y diseñar productos y
procedimientos
La variabilidad
 La Estadística sirve para presentar,
describir y entender la variabilidad
 Un proceso produce un resultado, al
repetirse un proceso, los resultados
cambian a pesar de que el proceso se
reprodujo aparentemente en las
mismas circunstancias.
Población
 Colección de mediciones de un universo
respecto al cual queremos obtener
conclusiones o tomar decisiones.
 Ej. Conjunto de valores de consumo de
energía (KWH) facturados en el primer
bimestre de 2008
Tipos de datos
 Datos numéricos (continuos o discretos)
 Datos categóricos (Ej. Sexo, marca, ..)
 Datos identificadores de unidades
Muestreo de datos

Muestreo aleatorio
Muestra Población

Nota: Si la muestra es igual a la población, al muestreo le llamamos censo


Estadística
 Descriptiva. Organización, resumen y
presentación de datos
 Inferencial. Llegar a una conclusión
acerca de la población, el proceso o el
modelo de asignación de las variables
Presentación gráfica de la
información
 Diagrama de puntos
 Gráficas de dispersión
 Diagramas de tallos y hojas
 Histogramas
 Diagramas de cajas con bigotes
 Gráficas de Pareto
 Series de tiempo
Diagrama de puntos
Ejemplo: Datos de resistencia a la tensión de muestras de
mortero Portland (Kg/cm2) con polímero agregado:
16.85 16.40 17.21 16.35 16.52
17.04 16.96 17.15 16.59 16.57
mortero Portland sin modificar:
17.50 17.63 18.25 18.00 17.86
17.75 18.22 17.90 17.96 18.15

* * ** * * ** * * + + + + + ++ + + +

16.0 16.5 17.0 17.5 18.0 18.5

* = Mortero modificado
+ = Mortero sin modificar
Graficas de dispersión
Gráfica de dispersión
Grafica de dispersión 3D
Gráfica de burbujas
Ejemplo: Resistencia a la tensión de 80
muestras de aleación Aluminio-Litio

105 221 183 186 121 181 180 143 97 154 153 174 120 168
167 141 245 228 174 199 181 158 176 110 163 131 154 115
160 208 158 133 207 180 190 193 194 133 156 123 134 178
76 167 184 135 229 146 218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158 160 175 149 87 160 237
150 135 196 201 200 176 150 170 118 149
Diagrama de tallos y hojas
Tallo Hoja Frecuencia
7 6 1
8 7 1
9 7 1
10 5 1 2
11 5 8 0 3
12 1 0 3 3
13 4 1 3 5 3 5 6
14 2 9 5 8 3 1 6 9 8
15 4 7 1 3 4 0 8 8 6 8 0 8 12
16 3 0 7 3 0 5 0 8 7 9 10
17 8 5 4 4 1 6 2 1 0 6 10
18 0 3 6 1 4 1 0 7
19 9 6 0 9 3 4 6
20 7 1 0 8 4
21 8 1
22 1 8 9 3
23 7 1
24 5 1
Tallos y Hojas ordenado
Tallo Hoja Frecuencia
7 6 1
8 7 1
9 7 1
10 1 5 2
11 0 5 8 3
12 0 1 3 3
13 1 3 3 4 5 5 6
14 1 2 3 5 8 6 9 9 8
15 0 0 1 3 4 4 6 7 8 8 8 8 12
16 0 0 0 3 3 5 7 7 8 9 10
17 0 1 1 2 4 4 5 6 6 8 10
18 0 0 1 1 3 4 6 7
19 0 3 4 6 9 9 6
20 0 1 7 8 4
21 8 1
22 1 8 9 3
23 7 1
24 5 1
Los datos ordenados
76 87 97 101 105 110 115 118 120 121
123 131 133 133 134 135 135 141 142 143
145 146 148 149 149 150 150 151 153 154
154 156 157 158 158 158 158 160 160 160
163 163 165 167 167 168 169 170 171 171
172 174 174 175 176 176 178 180 180 181
181 183 184 186 190 193 194 196 199 199
200 201 207 208 218 221 228 229 237 245

Son 80 datos, como es un numero par, la mediana será el promedio de los


que ocupan los lugares 40 y 41, o sea (160+163)/2=161.5
El primer cuartil es el valor en (0.25)*80+0.5=20.5, es decir, el promedio de
los valores en los puestos 20 y 21, o sea (143+145)/2=144
El tercer cuartil es el promedio de los valores en los puestos 60 y 61, es
decir, (181+181)/2=181
El rango intercuartil
 RIC=Q3-Q1
 Es una medida de dispersión de datos
 En el ejemplo anterior: RIC=181-144=37
Tabla de Frecuencias

Clase Frecuencia Frec. Relativa Frec. Rel. Acum.


70 a 90 2 0.0250 0.0250
90 a 110 3 0.0375 0.0625
110 a 130 6 0.0750 0.1375
130 a 150 14 0.1750 0.3125
150 a 170 22 0.2750 0.5875
170 a 190 17 0.2125 0.8000
190 a 210 10 0.1250 0.9250
210 a 230 4 0.0500 0.9750
230 a 250 2 0.0250 1.0000
Histograma

25

20

15

10

0
70 90 110 130 150 170 190 210 230 250
Cajas con bigotes
 Presenta al mismo tiempo una medida de dispersión, de
tendencia central y de valores extremos
 Se debe determinar la mediana, el primero y el tercer cuartil y
los valores máximo y mínimo
 Rango Intercuartílico RIC=Q3-Q1
Las gráficas de Caja son útiles
para hacer comparaciones
Supongamos que El desplazamiento
un corredor entrena de las gráficas de
para una caja hacia la
determinada carrera izquierda indica que
y se toman los el entrenamiento ha
tiempos que dado resultado, ya
necesita para que se tardan
recorrer los 100m, menos segundos en
durante 10 días recorrer la misma
consecutivos (cada distancia, siendo la
día se toman varios diferencia entre el
tiempos y se máximo y el mínimo
calculan mediana, menor, como así
cuartiles, valores también la
mínimo y máximo) diferencia
intercuartílica
Ejemplo
En un diario presentan el siguiente gráfico de caja y bigotes. La
variable en estudio es “calificación en un examen de ingreso”

Teniendo en cuenta esta gráfica indique en forma aproximada:


a)¿Qué calificación obtuvo el estudiante con menor nota?
b)¿Qué calificación obtuvo el estudiante con mayor nota?
c)¿Cuál es el primer cuartil?
d)¿Cuál es el tercer cuartil?
e)¿Cuál es la mediana?
Ejercicio
En un aeropuerto se registran los vuelos que arriban en una semana determinada
y los datos se vuelcan en la siguiente tabla:

Día Lunes Martes Miércoles Jueves Viernes Sábado Domingo

Vuelos 25 37 45 50 32 40 30

Ordene en forma creciente y calcule mediana y cuartiles.


¿Cuántos vuelos hay el día que hay menos vuelos?
¿Cuántos vuelos hay el día que hay más vuelos?
Represente mediante un diagrama de caja y bigotes.
Diagrama de Pareto
 Se ordenan la frecuencias en orden descendente
 La escala horizontal no es necesariamente numérica
 La línea indica los porcentajes acumulados
 Útiles en análisis de datos de defectos en procesos
de producción
 Muy usada en los programas de mejoramiento de
calidad pues permite a los ingenieros concentrarse en
los problemas realmente importantes
Ejemplo, Proceso de fabricación
de un puerta de automóvil
Tipo de Cant
Defecto
Tipo de Defecto Cant %
Mancha 21
Rayón 35 32
Rayón 35 Floja 29 26
Defecto en 17 Mancha 21 19
manija Defecto en manija 17 16
Floja 29 Otros 8 7
Abollada 3 TOTAL 110 100

Defecto en vidrio 5

TOTAL 110
Diagrama de Pareto
Serie de tiempo
300
Resist a la tensión
250

200

150

100

50

0
10

15

20

25

30

35

40

45

50

55

60

65

70

75

80
5
Descripción numérica de los
datos
 Media
 Varianza
 Moda
 Mediana
 Sesgo
 Curtosis
 Covarianza
 Factor de correlación
La media
La media muestral

x1 + x2 +... + xn 1 n
x= = å xi
n n i=1
La media de la población

N
1

N
x
i 1
i
La media geométrica

n
Mg  n x
i 1
i  n x1 x2 ...xn
La varianza
La varianza muestral

1æ ö
n n n 2

sxx = å(xi - x ) = å x - çå xi ÷
2 2
i
i=1 i=1 n è i=1 ø
La varianza de la población

N
1
 
2

N
 i
( x
i 1
  ) 2
Varianzas muestrales, Covarianza
muestral y correlación muestral
n æ n ö
sx = sxx = å(xi - x ) = çå xi ÷ - nx
2 2 2 2

i=1 è i=1 ø
n æ n ö
sy2 = syy = å(yi - y)2 = çå yi2 ÷ - ny 2
i=1 è i=1 ø
n æn ö
sxy = å(xi - x )(yi - y) = çå xi yi ÷ - nxy
i=1 è i=1 ø
S xy
rxy 
SxS y
La varianza muestral no-sesgada
n

sxx
å i
(x - x ) 2
én æ n ö

å xi - çå xi ÷ ú
1 ê 1
s =
2
= i=1
= 2

n -1 n -1 n -1 êë i=1 n è i=1 ø úû

Los datos de la muestra están mas cerca de la media de la muestra que de la


media de la poblaciòn, para compensar esto la varianza se multiplica por
n/(n-1)

Las n desviaciones suman cero, por lo tanto la n-ésima desviaciòn se puede


obtener a partir de las n-1 restantes (n-1 “grados de libertad”)
La moda
 El valor de mayor frecuencia
 Si hay dos, la distribución es bi-modal
El rango dinámico
 La diferencia entre el máximo y el
mínimo de los valores de la población
Sesgo y Curtosis
n

n  i
( x  x ) 3

sesgo  i 1
(n  1)( n  2) s 3

n(n  1)  i
( x  x ) 4

curtosis  i 1
(n  1)( n  2)( n  3) s4
Regresión lineal

 Es una técnica estadística para investigar la relación


entre dos o mas variables
 Se utiliza para realizar predicciones de una variable
(respuesta) en términos de otras (regresivas)
 El término “regresión” fue acuñado por el frances
Francis Galton quien lo usó en sus estudios de la
herencia
 La regresión simple o bivariada consiste de hacer
predicciones de una variable en términos de otra
solamente
 En la regresión múltiple, la predicción se hace
tomando en cuenta a varias variables
Regresión lineal simple
 Asumimos que la relación entre la variable
respuesta y la variable regresiva es una línea
recta E[ y | x]   0  1 x
 Cada observación cumple yi  0  1 xi  
 La suma de los cuadrados de los errores es
n n

  i 0 1i
 
i 1
( 2
y   
i 1
 x ) 2
Regresión lineal simple
 Para minimizar el error derivamos e
igualamos a ncero respecto a  0
 2 ( yi  0  1 xi )  0
i 1
 De la misman manera derivando respecto a 1
 2 ( yi  0  1 xi ) xi  0
i 1
 Simplificando estas dos ecs:
n n
n 0  1  xi   yi
i 1 i 1
n n n
 0  xi  1  x   yi xi
2
i
i 1 i 1 i 1
Regresión lineal simple

1 n 1 n
 Reconociendo que x   xi y   yi
n i 1 n i 1
n n

 La ecuación n 0  1  xi   yi
i 1 i 1
 Se convierte en  0  y  1 x
Esto lo reemplazamos en 
n n n

0 
x 
i 1
i x2 
1 
i 1
i yx
i 1
i i

Para obtener
n n n

( y  1 x ) xi  1  x   yi xi
2
i
i 1 i 1 i 1
Regresión lineal simple
n n n
 De la ecuación ( y  1 x ) xi  1  xi2   yi xi
i 1 i 1 i 1

 Despejamos 1 n
 n n
2
n
y  xi  1  x  xi   xi    yi xi
i 1  i 1 i 1  i 1

n n

 Para obtener  y x  y x
i i i
1  i 1
n
i 1
n
 x  xi   xi2
i 1 i 1
Regresión lineal simple
n n
Es lo mismo que
å yi xi - y å xi 

b1 = i=1
n
i=1
n
-x å xi + å xi2
i=1 i=1

n n n n

å yi xi - n å yi å xi å(yi - y )(xi - x ) S
1
b1 = i=1 i=1 i=1
= i=1
n
= xy

é ù Sxx
2

å i
n n

å xi - n êå xi ú -
2 1 (x x ) 2

i=1 ë i=1 û i=1


Ejemplo
 Un Ingeniero está investigando el efecto de
la temperatura sobre el rendimiento de un
producto, sus experimentos arrojan los
siguientes resultados
Temp 100 110 120 130 140 150 160 170 180 190
Rend 45 51 54 61 66 70 74 78 85 89
La gráfica de dispersión
 Esta gráfica nos indica una fuerte suposición de que
la relación entre las dos variables puede ser lineal
Haciendo los cálculos
10 10

n  10 x i  1450 y
i 1
i  673
i 1

x  145 y  67.3
10 10 10

x
i 1
2
i  218,500 y
i 1
2
i  47,225 x y
i 1
i i  101,570
2
10
1   10
(1450) 2
S xx   xi2    xi   218,500   8,250
i 1 10  i 1  10
10
1 10 10 (1450)(673)
S xy   xi yi   xi  yi  101,570   3,985
i 1 10 i 1 i 1 10
Finalmente
S xy 3985
1    0.483
S xx 8250

b0 = y - b1x = 67.3-(0.483)(145) = -2.739


y   0  1 x  2.739  0.483x
Perspectiva histórica de la teoría de la fiabilidad

• Estudios para poder evaluar la mortalidad derivada de las


epidemias.

Orígenes: • Compañías de seguros, para determinar los riesgos de sus pólizas


de seguro de vida.
• Tablas de vida: La primera tabla de vida data de 1693 y es
debida a Edmund Halley

se utilizaban los métodos actuariales tanto para estimar la


supervivencia de pacientes sometidos a distintos tratamientos
Siglo XX: como para estudiar la fiabilidad de equipamientos, en particular de
los ferrocarriles.
En 1939 Waloddi Weibulll, cuando era profesor del Royal Institute
of Technology en Suiza, propuso una distribución para describir la
duración de materiales, que más tarde llevaría su nombre.

En 1951 Epstein y Sobel empezaron a trabajar con la distribución


exponencial como modelo probabilístico para estudiar el tiempo de vida
de dispositivos
Fiabilidad y Mantenimiento
Desde el punto de vista de la ingeniería, la fiabilidad es la
probabilidad de que un aparato, dispositivo o persona desarrolle
una determinada función bajo condiciones fijadas durante un
periodo de tiempo determinado.
• La confiabilidad de un elemento puede ser caracterizada a través
de distintos modelos de probabilidades.
• Podemos describir varias distribuciones de fallas comunes y ver
qué podemos aprender de ellas para gestionar los recursos de
mantenimiento. Convirtiendo el conocimiento ganado de ellas en
acciones PROACTIVAS de Mantenimiento y aplicarlas en el Diseño.
Diagrama de Ishikawa
El diagrama de Ishikawa conocido también como causa-efecto, es una forma de
organizar y representar las diferentes teorías propuestas sobre las causas de un
problema. Nos permite, por tanto, lograr un conocimiento común de un problema
complejo, sin ser nunca sustitutivo de los datos.
Herramientas de Fiabilidad

Se estudia mediante el análisis estadístico de datos de


supervivencia.

ISO define fiabilidad como la probabilidad de que un


componente o sistema, desarrolle durante un periodo de
tiempo dado, la tarea que tiene encomendada sin fallos, y en
las condiciones establecidas.

Estudiar Duraciones de Procesos que es común en muchas ciencias:


• Duración de un componente (Fiabilidad)
• Supervivencia de un paciente a un tratamiento (Medicina)
• Duración del desempleo (Economía)
• Edad de las personas (Demografía y sociología)
Veamos, a partir de un histograma podemos desarrollar las cuatro
funciones de importancia para la caracterización de la fiabilidad.

MES fallas 7

ENERO 2
FEBRERO 5 6

MARZO 7
ABRIL 8 5
Fallos

MAYO 7 Serie1
Serie2
JUNIO 6 4
JULIO 5
AGOSTO 4 3
SEPTIEMBRE 3
OCTUBRE 1
2
TOTAL 48
1

0
ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE
Meses
En estudios de mantenimiento necesitamos pasar del anterior histograma a funciones
continuas, debido que la variable tiempo de fallo es continua. Esta funciones nos dan una
idea clara de la distribución de fallos. Empezamos por la f(t) ó pdf que indica la densidad
probable de fallas en cada intervalo t.

t2
f (t )   f (t )d (t )
8

7 t1

f(t)

Serie1
3

0
ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE
Meses

Pudiendo llamar a t1 y t2, -∞ y ∞ respectivamente


F(t) ó CDF Cumulative Density Function:
aquí de -∞ a Tiempo t, seria la probabilidad de que la falla ocurra
antes del tiempo t.

t
F (t )   f (t )dt el área bajo la curva - transcurrido t (Función Repartición ) cdf=14/48

9

f(t)

0
ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE
Meses

Intervalo -∞ a t, la acumulación de fallas


Tiempo t
R(t) Reliability (confiabilidad)
Esta es la probabilidad de éxito o sea que no ocurra la falla antes de t.
Representando por el área bajo la curva desde t hasta infinito.
R(t)= 1- F(t)


9 R(t )   f (t )dt
t
8

f(t)

0
ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE
Meses

Tiempo t
La tasa de falla del intervalo t1 a t2 se define como
 R(t )  R(t2 )   1 
TF (t1 , t2 )   1 t  t 
 R (t1 )  2 1 

Es la probabilidad de que ocurra una falla en el intervalo


de t1 a t2 dado que no ha habido falla al tiempo t1
la función de Riesgo, o tasa de mortalidad h(t) es

R(t )  R(t  t ) 1 R(t  t )  R(t ) 1  R' (t )


h(t )  lim   lim 
t 0 R(t ) t t 0 t R(t ) R(t )
Y como R(t)=1-F(t), entonces f (t ) f (t )
R’(t)=-F’(t)=-f(t), de ahí h(t )  
R(t ) 1  F (t )
Es muy común asumir que las fallas tienen una distribución exponencial, entonces:

f (t ) e t
h(t )   t  
R(t ) e

Y entonces se dice que la tasa de falla es constante, la constante λ


Función de Riesgo típica

(t)
DOMINIO ELECTRONICO

desclasificación
Hipótesis exponencial
 constante

1 2 3
Edad t
desarrollo obsolescencia
Madurez (fallos aleatorios)
Inicio utilización
Función de Riesgo típica

DOMINIO MECANICO

(t)
Influencia del desgaste
Curva debida a los sobre  (t)
fallos precoces

desclasificación

Madurez

1 2 3
Edad t
Puesta en servicio rodaje obsolescencia

 f (t )   f (t ) 
h(t )    
 R (t )  1  F (t ) 
Cuando la tasa de fallo del elemento responde a la curva de la bañera es
conveniente realizar un ensayo acelerado del mismo (en condiciones de stress)
para que supere la zona de mortalidad infantil o fallas infantiles.

– determinar cuando comienza la vida útil del producto y ofrecer a los clientes una
garantía de funcionamiento durante ese periodo de funcionamiento problemático.
– Una vez superado el periodo crítico, la empresa está razonablemente segura de que el
producto tiene una posibilidad de fallos reducida
La distribución de fallas de diferentes tipos de maquinaria no son las
mismas. Aun varían en una misma maquina durante su operación. Sus
formas pueden ser estudiadas a partir de las funciones pdf, cdf y tasa de
falla de los datos reales de mantenimiento o de ensayos de fiabilidad. Estos
dan forma a determinadas expresiones matemáticas conocidas como
distribuciones obteniendo:

•Dist. Exponencial
•Dist. Normal
•Dist. Lognormal
•Dist. Weibull
EL MODELO EXPONENCIAL

pdf f (t) =  exp (-t), t0

cdf F(t) = 1 - exp(-t), t  0

R(t) R(t) = exp (-t ), t0  = h(t)


EL MODELO DE WEIBULL
f (t) =5
x)

e t  
=0,  1 
   t   
5x)
=3,6 f (t )    
=1

   
f
x) =2,
(x)
5x)  parámetro de forma  > 0;
=2
x)  parámetro de escala  > 0;
 parámetro de posición -  <  < +
t

 

(t) t 
=4 F (t )  1  e 
3

2
2
1
1,5
0,
5 1
0,5t
t
Las características de la distribución de Weibull
Las características de la distribución de Weibull
Las características de la distribución de Weibull

f(t) - El parámetro de posición  (en unidad de tiempo)


Se llama también parámetro de diferenciación o de
localización.
Significado:  indica la fecha de inicio de los fallos.

-- si  > 0, hay supervivencia total entre t = 0 y t = ;


-- si  = 0, los fallos empiezan en el origen del tiempo;

2 < 0 t -- si  < 0, los fallos han empezado antes del origen del
2 = 0 2 > 0
tiempo.
Ejemplo
Obtención de la fiabilidad de neumáticos a través del
Análisis de la degradación

Siete marcas de neumáticos fueron controlados en su desgaste cada


5.000 millas, midiendo la profundidad de cada uno. La tabla que
contiene las mediciones desde su inicio hasta las 30.000 millas

f (t) =  exp (-t), t0

F(t) = 1 - exp(-t), t  0

R(t) = exp(-t ), t0

Degradación Critica y= 2 mm

También podría gustarte