Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Y
ESTADSTICA
Ingeniera
Marzo 2013
ESTADSTICA DESCRIPTIVA
Introduccin
Qu es la Estadstica: La estadstica es una ciencia que tiene como finalidad
facilitar la solucin de problemas en los cuales es necesario conocer algunas
caractersticas sobre el comportamiento de algn suceso o evento.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 2
Estadstica
Inferencial
Cecilia Larran R.
Estadstica Descriptiva
Pgina 3
CONCEPTOS FUNDAMENTALES
Poblacin: Conjunto de elementos a los que se les estudia una caracterstica
Tamao poblacin: N
-
de
estudio,
unidades
de
obseservacin,
unidades
experimentales).
A las medidas de resmenes muestrales como la media de la muestra
x , desviacin estndar de la muestra s, se les denomina
estadsticos.
De una poblacin existen muchas muestras posibles, pero slo observamos una!
Nota: A la hora de decidir sobre la forma de recoger la informacin de la muestra se utilizan
distintos criterios, originando distintos tipos de muestreos. (Anexo 2)
Cecilia Larran R.
Estadstica Descriptiva
Pgina 4
Variable: una variable es una caracterstica observable que vara entre los
diferentes individuos de una poblacin. La informacin que disponemos de cada
individuo es resumida en variables.
En la poblacin de alumnos de Ingeniera de una universidad, es variable:
- El gnero: {Femenino, Masculino}
- Nivel de Educ. del padre: {Bsica, Media Superior} var. cualitativa ordinal
- La altura (en cm.): {162 , 156, 170 ...}
- Edad (aos):
.
.
.
Sexo
(X1)
Edad
(X2)
Especialidad
(X3)
01
21
IND
02
22
INF
03
31
OC
.
.
.
.
.
.
.
.
Cecilia Larran R.
Estadstica Descriptiva
observacin 1
Pgina 5
Cecilia Larran R.
Estadstica Descriptiva
Pgina 6
Clasificacin de variables
Para realizar un anlisis de datos, es indispensable saber cmo es la variable
que consideramos, pues ello determina el tipo de mtodo estadstico que se
debe utilizar. Las variables se clasifican como:
Segn su naturaleza
Cualitativas o atributos
No
toman
(modalidades)
valores
y
Cuantitativas
numricos
describen
sentido
hacer
operaciones
Ejemplos: Estatura
Nmero de errores
Discretas
Dicotmicas
Toman uno de
dos valores.
Ejem.: Sexo
Continuas
Corresponden en general a
Entre
que
valores intermedios
ocurre
un
suceso.
dos
valores,
infinito numerable.
Ejem.: Nmero de cargas
familiares.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 7
E
ESSC
CA
ALLA
ASS D
DE
EM
ME
ED
DIIC
CII
N
N
Ejemplos
SEXO:
nicamente permiten
establecer relaciones de
igualdad/desigualdad
entre los objetos que se
estn midiendo.
Masculino
Femenino
(1)
(2)
PROFESIN:
Ingeniero
Profesor
Mdico
NO INDICA ORDEN O
JERARQUA
(1)
(2)
(3)
RAZN
INTERVALAR
ORDINAL
N
NO
OM
MIIN
NA
ALL
Cecilia Larran R.
Estadstica Descriptiva
Pgina 8
E
ESSC
CA
ALLA
ASS D
DE
EM
ME
ED
DIIC
CII
N
N
Ejemplo
NIVEL EDUCACIONAL:
Univ. con doctorado
Univ. con Magister
Superior
Media
Bsica
(5)
(4)
(3)
(2)
(1)
RAZN
INTERVALAR
O
OR
RD
DIIN
NA
ALL
NOMINAL
Cecilia Larran R.
Estadstica Descriptiva
Pgina 9
E
ESSC
CA
ALLA
ASS D
DE
EM
ME
ED
DIIC
CII
N
N
RAZN
IIN
NTTE
ER
RV
VA
ALLA
AR
R
ORDINAL
NOMINAL
Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala
permite establecer relaciones de igualdad /desigualdad y de orden entre los objetos
que se miden. Los intervalos entre los nmeros de la escala son iguales, por lo
tanto se puede realizar las operaciones suma y resta. Este tipo de escala carece de
un cero absoluto, por lo que no estn permitidas ni la multiplicacin ni la divisin
entre los nmeros de la escala. Una escala de intervalo es, por ejemplo, la utilizada
para medir la temperatura. Como los intervalos de la escala son iguales, se puede
afirmar que la diferencia de temperatura que existe entre 25 y 28 grados es la
misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de la
escala es arbitrario -no existe ausencia de temperatura- no se puede afirmar,
Cecilia Larran R.
Estadstica Descriptiva
Pgina 10
E
ESSC
CA
ALLA
ASS D
DE
EM
ME
ED
DIIC
CII
N
N
R
RA
AZZ
N
N
INTERVALAR
ORDINAL
NOMINAL
Es la escala que permite el nivel ms alto de medicin.
Adems de las operaciones que permiten las escalas
anteriores, en una escala de razn existe el cero (0)
emprico, por lo cual se puede efectuar cualquier operacin
aritmtica con los nmeros de la escala. El tiempo de
reaccin, por ejemplo es una variable medida en escala
de razn. No slo se puede afirmar que la diferencia entre
3 y 6 segundos es la misma que entre 6 y 9 segundos
(afirmacin vlida tambin en la escala de intervalos), sino,
adems, que 6 s es el doble de 3 s Afirmacin que es
posible establecer gracias a que en la escala de tiempo de
reaccin existe el cero absoluto: cero significa ausencia de
tiempo de reaccin.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 11
VI
Independiente
VD
Dependiente
Introduce o manipula el
investigador
Interviniente
Es la que puede mediar en la
relacin entre VI y VD y que
puede influir en los resultados
Ejercicios I
Ejercicio I-1
Determine en cada caso, si se trata o no de una variable.
-
Cecilia Larran R.
Estadstica Descriptiva
Pgina 12
Ejercicio I-2
Se quiere analizar el nmero de horas de estudio semanal que dedican los alumnos
postgrado del rea Ingeniera de esta Universidad. Para ello se selecciona a 35 alumnos
que estn participando en postgrado.
Indique cual es la:
Poblacin:
Variable:
Muestra:
Ejercicio I-3
El coeficiente intelectual (CI) promedio en la poblacin adulta chilena es 100 puntos. Un
investigador educacional est interesado en probar que las personas adultas que hablan
ms de un idioma tienen un CI superior a la media poblacional.
En una muestra de 250 personas que hablan ms de un idioma se obtuvo un
promedio (CI medio) de 102.
Complete:
Clasificacin de la variable
Variable de inters (nombre)
X
Naturaleza
Promedio
poblacional
Recorrido
Medicin
Promedio
muestral
Ejercicio I-4
Qu situaciones se representan estadsticamente con una variable discreta y cules con una
variable continua?
a.
b.
c.
d.
e.
f.
g.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 13
Ejercicio I-5
En el departamento de personal de una empresa con 10.000 trabajadores se quiere estimar los
gastos familiares en salud de sus empleados para determinar la posibilidad de proporcionarles un
plan de seguro mdico.
233.852
158.916
54.910
329.460
134.368
111.758
274.550
204.136
115.634
Indique:
Poblacin: _______________________ Tamao N =
Unidad de observacin:
Variable: X =
Muestra: _________________________ Tamao: n =
n
Interprete
xi =
Calcule
i =1
x
i =1
2
i
FMS
Cecilia Larran R.
Estadstica Descriptiva
Pgina 14
Defecto
Producto
Defecto
Producto
Defecto
Producto
Defecto
Producto
Defecto
Rayado
31
Manchado
61
Manchado
91
Manchado
121
Manchado
Abollado
32
Rayado
62
Astillado
92
Doblado
122
Manchado
Astillado
33
Rayado
63
Rayado
93
Manchado
123
Rayado
Astillado
34
Manchado
64
Astillado
94
Manchado
124
Manchado
Otros
35
Manchado
65
Astillado
95
Astillado
125
Abollado
Manchado
36
Doblado
66
Manchado
96
Rayado
126
Astillado
Rayado
37
Manchado
67
Rayado
97
Manchado
127
Manchado
Astillado
38
Manchado
68
Rayado
98
Abollado
128
Manchado
Doblado
39
Manchado
69
Manchado
99
Manchado
129
Astillado
10
Rayado
40
Rayado
70
Manchado
100
Manchado
130
Doblado
11
Rayado
41
Astillado
71
Manchado
101
Doblado
131
Abollado
12
Manchado
42
Rayado
72
Manchado
102
Astillado
132
Manchado
13
Manchado
43
Otros
73
Manchado
103
Astillado
133
Rayado
14
Otros
44
Astillado
74
Otros
104
Rayado
134
Doblado
15
Abollado
45
Rayado
75
Rayado
105
Manchado
135
Astillado
16
Manchado
46
Rayado
76
Manchado
106
Astillado
136
Manchado
17
Rayado
47
Rayado
77
Manchado
107
Rayado
137
Rayado
18
Manchado
48
Doblado
78
Rayado
108
Manchado
138
Rayado
19
Otros
49
Manchado
79
Astillado
109
Manchado
139
Astillado
20
Rayado
50
Manchado
80
Rayado
110
Abollado
140
Manchado
21
Doblado
51
Manchado
81
Astillado
111
Manchado
141
Rayado
22
Doblado
52
Rayado
82
Manchado
112
Abollado
142
Rayado
23
Rayado
53
Otros
83
Manchado
113
Rayado
143
Rayado
24
Manchado
54
Rayado
84
Doblado
114
Manchado
144
Rayado
25
Manchado
55
Doblado
85
Manchado
115
Manchado
145
Manchado
26
Rayado
56
Manchado
86
Astillado
116
Astillado
146
Rayado
27
Abollado
57
Rayado
87
Manchado
117
Rayado
147
Manchado
28
Manchado
58
Rayado
88
Manchado
118
Rayado
148
Rayado
29
Rayado
59
Doblado
89
Manchado
119
Manchado
149
Rayado
30
Rayado
60
Rayado
90
Astillado
120
Astillado
150
Astillado
Identifique
Unidad de estudio: ______________
Variable de Inters: ___________________ y clasifquela segn:
Naturaleza:____________ T Recorrido:___________ N Medicin:_________
Cecilia Larran R.
Estadstica Descriptiva
Pgina 15
Reporte
eporte de la inspeccin final de
defectos de 150 productos para la
lnea de armado A12.
Rayado
Manchado
Abollado
Astillado
Astillado
Manchado
Astillado
Rayado
Doblado
Manchado
Manchado
Manchado
Rayado
Astillado
Manchado
Manchado
Frecuencia
Porcentaje
5,3
Astillado
23
15,3
Doblado
12
8,0
Manchado
56
37,3
Otros
Astillado
Astillado
Abollado
Otros
4,0
Manchado
Manchado
Rayado
Astillado
Rayado
45
30,0
Rayado
Rayado
Manchado
Manchado
Total
150
100,0
Astillado
Rayado
Abollado
Manchado
Doblado
Manchado
Manchado
Astillado
Rayado
Manchado
Manchado
Doblado
Rayado
Manchado
Doblado
Abollado
60
56
50
Manchado
Manchado
Astillado
Manchado
Manchado
Manchado
Astillado
Rayado
Otros
Otros
Rayado
Doblado
Abollado
Rayado
Manchado
Astillado
Manchado
Manchado
Astillado
Manchado
45
Frecuencia
40
30
23
20
Rayado
Manchado
Rayado
Rayado
Manchado
Rayado
Manchado
Rayado
12
10
8
Otros
Astillado
Manchado
Astillado
0
Rayado
Rayado
Abollado
Manchado
Abollado
Astillado
Doblado
Manchado
Rayado
Otro
Doblado
Astillado
Manchado
Rayado
Doblado
Manchado
Abollado
Rayado
Rayado
Manchado
Rayado
Rayado
Manchado
Doblado
Manchado
Rayado
Manchado
Manchado
Manchado
Manchado
Rayado
Astillado
Astillado
Rayado
Abollado
Manchado
Rayado
Manchado
Manchado
Manchado
Rayado
Rayado
Rayado
Manchado
Manchado
Rayado
Rayado
Astillado
Astillado
Astillado
Cecilia Larran R.
El defecto ms frecuente en la
lnea de armado es Manchado
Moda = manchado
Estadstica Descriptiva
Pgina 16
1
1
1
0
0
3
1
0
0
1
3
0
2
1
1
1
0
3
0
2
0
1
2
0
1
1
3
3
1
1
4
2
0
0
2
2
Identifique
Unidad de estudio: ______________
Variable de Inters: ___________________ y clasifquela segn:
Naturaleza:____________ T Recorrido:___________ N Medicin:_________
Nmeros de averas
en
Febrero.2012 de 40 centrales
Elctricas.
0
2
0
2
0
3
0
2
1
1
1
0
0
1
2
0
0
3
1
0
1
1
3
3
0
1
3
0
1
1
4
2
Tabla de frecuencias
2
1
1
1
0
0
2
2
N de
averas
0
Frecuencia
Porcentaje
Porcentaje
acumulado
13
32,5
32,5
13
32,5
65,0
20,0
85,0
12,5
97,5
100,0
2,5
Total
40
100,0
Grfico
14
13
13
12
10
Recuento
8
8
0
0
N de averas
Cecilia Larran R.
Estadstica Descriptiva
Vlidos
Perdidos
Media
Mediana
Moda
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
Mnimo
Mximo
Percentiles
25
50
75
40
0
1,20
1,00
0a
1,114
,637
,374
-,445
,733
0
4
,00
1,00
2,00
Pgina 17
Ejemplo 3
Tabla de frecuencias
Nota de Estadstica
400 alumnos
Semestre 2 - 2011
Nota de Estadstica
Vlidos
Frecuencia
30
53
74
96
86
61
400
1-2
2-3
3-4
4-5
5-6
6-7
Total
Porcentaje
acumulado
7,5
20,8
39,3
63,3
84,8
100,0
Porcentaje
7,5
13,3
18,5
24,0
21,5
15,3
100,0
Semestre 2 - 2012
Grficos
Nota de Estadstica
Semestre 2 - 2011
Histograma
96
100
86
Frecuencia
80
74
61
60
53
40
30
Medidas de resumen
20
0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
Nota
Nota de Estadstica
Semestre 2 - 2011
Cecilia Larran R.
Estadstica Descriptiva
Pgina 18
Identifique (ejemplo 3)
Unidad de estudio: ______________
Variable de Inters: ___________________ y clasifquela segn:
Naturaleza:____________ T Recorrido:___________ N Medicin:_________
1990
1991
1992
1993
1994
1995
1996
1997
1998
Consumo
62,5
29,9
31,3
25,2
20,8
16,1
15,8
15,9
16,6
Ao
1999
2000
2001
2002
2003
2004
2005
2006
Consumo
16,2
17,1
15,5
17,6
11,9
11,8
12,3
13,1
Variacin porcentual =
- 1 100
Inicial
Cecilia Larran R.
Estadstica Descriptiva
Pgina 19
centrales Elctricas.
0
2
0
2
Cecilia Larran R.
1
1
1
0
0
3
1
0
0
1
3
0
2
1
1
1
0
3
0
2
Estadstica Descriptiva
0
1
2
0
1
1
3
3
1
1
4
2
0
0
2
2
Pgina 20
24
29
26
36
18
19
19
25
25
25
31
23
23
23
22
21
22
21
19
25
18
27
21
21
19
25
34
27
33
20
22
19
22
23
19
19
18
19
26
28
20
22
20
21
23
36
23
25
24
Grficos
Sectorial
Barras
Separadas
- Diagrama
de Pareto
- Pictograma
Tabla o distribucin de
frecuencias
Es una tabla que constituye
el resumen bsico de
los datos
Cecilia Larran R.
Medida de resumen
Moda: es el dato o
modalidad de mayor
frecuencia dato
ms representativo
La presentacin grfica
puede revelar de un
vistazo las
principales
caractersticas
de un conjunto
de datos
Estadstica Descriptiva
Pgina 21
Ejemplo 1: (p 15) El reporte de la inspeccin final de defectos para la lnea de armado A12
se muestra en la tabla siguiente:
Defectos_Linea A12
Defectos del
producto
Frecuencia absoluta
ni
Abollado
Astillado
Doblado
Manchado
Rayado
Otros
Total
Frecuencia Relativa
n
fi = i
n
0,05
0,15
8
23
56
Porcentaje
%
5,33
15,33
37,33
150
1,00
100%
Grfico sectorial:
Crculo dividido en
porciones que
representan las
frecuencias relativas o
porcentajes de una
poblacin o muestra
perteneciente a diferentes
categoras.
Como sabemos, un crculo
contiene 360 grados. Para
construir un grfico sectorial,
se multiplica por 360 la
frecuencia relativa de cada
categora, para obtener la
medida del ngulo
correspondiente
Abollado
5,33%
Otros
4,00%
Rayado
30,00%
Astillado
15,33%
Doblado
8,00%
Manchado
37,33%
Cecilia Larran R.
Estadstica Descriptiva
Pgina 22
50
45
Frecuencia
40
30
23
20
12
10
8
0
Abollado
Astillado
Doblado
Manchado
Rayado
Otro
Diagrama de Pareto
Herramienta bsica de la mejora de calidad. Muy til para priorizar los problemas
o las causas que los generan.
Su fundamento parte de considerar que un pequeo porcentaje de las causas
producen la mayora de los efectos. Se tratar de identificar ese pequeo
porcentaje de causas vitales para actuar prioritariamente sobre l.
Centrales elctricas (40). Febrero 2011
Cecilia Larran R.
Estadstica Descriptiva
Pgina 23
Defecto
Manchado
Rayado
Astillado
Doblado
Abollado
Otros
TOTAL
frecuencia
56
45
23
12
8
6
150
%
37,33
30,00
15,33
8,00
5,33
4,00
100,0%
frec. Acum.
56
101
124
136
144
150
% acumulado
37,33
67,33
82,67
90,67
96,00
100
Frec.
Absoluta
ni
Frec. Relativa
x1
x2
x3
.
.
.
xk
n1
n2
n3
.
.
.
nk
n
f1
f2
f3
.
.
.
fk
1
Total
fi =
Frec. Abs.
Acumulada
Ni
ni
n
N1 = n 1
N2 = n 1 + n 2
N3 = n 1 + n 2 + n 3
.
.
.
Nk = n
Frec. Relat.
Acumulada
F=
i
Ni
n
F1
F2
F3
.
.
.
Fk = 1
Cecilia Larran R.
Estadstica Descriptiva
Pgina 24
Frec.
Absoluta
ni
0
1
2
3
4
Total
Frec.
Relativa
fi
Frec. Relat.
Acumulada
Fi
13
13
13
26
0,325
5
1
40
40
1,000
GRFICO DE BARRAS SEPARADA
Variable X =
Unidad de observacin =
Interprete:
n2
f3
N de centrales
12
13
13
10
1
0
0
N de averas
Cecilia Larran R.
Estadstica Descriptiva
Pgina 25
Ejemplo: (p 21) En abril. 2012 se recolect informacin sobre la edad (en aos) de 50
estudiantes seleccionados de una casa de estudio superior. El valor de los datos, en el
orden en que fueron recolectados se presenta a continuacin. (Este es un ejemplo de
datos cuantitativos en bruto)
21
24
29
26
36
18
19
19
25
25
25
31
23
23
23
22
21
22
21
19
25
18
27
21
21
19
25
34
27
33
20
22
19
22
23
19
19
18
19
26
28
20
22
20
21
23
36
23
25
24
Estadstica Descriptiva
Pgina 26
iii)
Cualquier nmero que sea igual o menor que el ms bajo de los valores del
conjunto de datos ser conveniente para ser usado como el lmite inferior del
primer intervalo.
En el ejemplo (Edad): n = 50 mx = 36
mn = 18
Amplitud =
36 18
= 3
6
Se lee
Edad
18 21
21 24
24 27
27 30
30 33
33 36
n de alumnos
14
17
10
4
1
4
Total = 50
18 21
21 24
24 27
27 30
30 33
33 36
Marca de clase
Frec. Absoluta
Frec. Relativa
xi
ni
fi
Porcentaje
19,5
22,5
25,5
14
17
10
0,28
0,34
0,20
28
34
20
Total = 50
1,00
100%
m arca de clase =
Cecilia Larran R.
Estadstica Descriptiva
Pgina 27
Histograma
N estudiantes
20
17
15
14
10
10
0
15
18
21
24
27
30
33
36
39
Edad
Formas de histogramas
Un histograma puede asumir diferentes formas. Las ms comunes son: simtricos,
asimtricos y uniforme o rectangular.
Simtrico
10
Asimetra Positiva
Asimetra Negativa
10
10
Simtrica
0
2.5
7.5
12.5
17.5
22.5
27.5
2.5
32.5
7.5
12.5
17.5
22.5
27.5
32.5
2.5
7.5
12.5
17.5
22.5
27.5
32.5
Estadstica Descriptiva
Pgina 28
Polgono de frecuencias
Grfico alternativo al histograma
Los polgonos de frecuencias se realizan trazando los puntos formados por las marcas
de clase y las frecuencias, y unindolos mediante segmentos.
20
17
15
14
10
10
5
4
1
0
0
15,0
16,5
18,0
19,5
21,0
22,5
24,0
25,5
27,0
28,5
30,0
31,5
33,0
34,5
36,0
37,5
39,0
Edad
Cecilia Larran R.
Estadstica Descriptiva
Pgina 29
Ejercicios II
En cada uno de los siguientes ejercicios debe indicar cul es: unidad de observacin, la
variable de inters y clasificarla segn naturaleza, T_recorrido y N_medicin.
Ejercicio II-1
El Ingeniero a cargo del control de calidad del agua de una ciudad, es responsable del nivel
de cloracin del agua. Dicho nivel debe acercarse bastante al que exige el Departamento de
Sanidad. Para vigilar el cloro, sin necesidad de verificar cada galn de agua que sale de la
planta, el Ingeniero muestrea diariamente algunos galones, mide el contenido de cloro y
saca una conclusin sobre el nivel promedio de cloracin que tiene el agua tratada ese da.
La tabla anexa exhibe las concentraciones de cloro correspondiente a 30 galones
seleccionados como muestra de un da. A partir de esta muestra diaria el Ingeniero obtiene
sus conclusiones respecto a la poblacin total a la que se le aplic la cloracin.
Diagrama de tallo-hojas
15.7
16.6
15.9
15.6
16.4
15.8
16.0
16.0
15.4
16.2
15.6
16.8
16.4
15.9
16.3
16.0
Stem-and-Leaf Plot
Frequency
,00
1,00
1,00
5,00
7,00
5,00
5,00
2,00
1,00
3,00
Stem width:
Each leaf:
Stem &
15
15
15
15
15
16
16
16
16
16
.
.
.
.
.
.
.
.
.
.
Leaf
2
4
66677
8889999
00001
22333
44
6
889
1,0
1 case(s)
Ejercicio II-2
En un centro de computacin, el nmero de veces que el computador se detiene, por error
de mquina, diariamente, fue recolectado por un perodo de 70 das. Los datos obtenidos
fueron los siguientes.
0
1
0
2
0
0
8
3
2
1
2
5
1
0
6
0
2
2
5
0
0
3
1
2
0
0
0
0
1
4
Cecilia Larran R.
Estadstica Descriptiva
Pgina 30
Ejercicio II-3
Un fabricante de envases de plstico desea analizar cules son las causas que generan los
envases defectuosos que se producen. Se observan 248 envases defectuosos obteniendo:
Diagrama de Pareto
97,18%
100
99,60%
100,00%
100%
92,34%
76,61%
80%
60,48%
60
60%
40
40%
20
20%
Porcentaje
Frecuencia
80
0%
Aplastamiento
Desbalanceo
Rotura
Rosca
Fuera de
medida
Color
Defectos
xido
contaminacin
xido
xido
varios
xido
contaminacin
metalizacin
xido
contaminacin
contaminacin
xido
contaminacin
contaminacin
contaminacin
corrosin
silicio
varios
contaminacin
contaminacin
contaminacin
varios
contaminacin,
contaminacin
doping
xido
xido
metalizacin
contaminacin
contaminacin
Ejercicio II-5
Al responsable en control de industrial de una empresa, debe analizar informacin entregada en un
Cecilia Larran R.
Estadstica Descriptiva
Pgina 31
histograma de la duracin (tiempo hasta fallo en horas) de un test de fiabilidad 150 dispositivos
electrnicos idnticos.
Histograma
N de dispositivos
60
51
50
40
30
27
21
21
20
18
10
6
3
0
0
200
400
600
800
1000
1200
1400
1600
1800
2000
Duracion
a.
b.
c.
d.
e.
f.
g.
50%
50%
Duracin (hrs)
1600
Mn
Mx
Frecuencia
Porcentaje
150
100
Ejercicio II-6
Se seleccionaron de un proceso de fabricacin, aleatoriamente 270 ladrillos y se llev a
Cecilia Larran R.
Estadstica Descriptiva
Pgina 32
cabo una prueba para determinar la resistencia transversal de stos. Se obtuvieron los
siguientes datos:
Resistencia (MN/m2)
X
ni
1.5 3.5
3.5 4.5
4.5 5.5
5.5 6.5
6.5 7.5
7.5 8.5
8.5 9.5
9.5 10.5
10.5 11.5
11.5 14.5
2
4
24
81
78
51
18
9
2
1
ai hi = kni
hi = k
ni
ai
Cecilia Larran R.
Estadstica Descriptiva
Pgina 33
Ejercicio II-7
En un estudio sobre el nivel de ruido en un concierto de rock se toma una muestra de 60
valores, medidos en decibelios y en distintos momentos del concierto.
Los datos obtenidos se encuentran el el diagrama tallo-hojas siguiente
NIVEL DE RUIDO
Frequency
Stem &
1,00
3,00
22,00
21,00
11,00
2,00
8
8
9
9
10
10
.
.
.
.
.
.
Leaf
3
789
0000111123333334444444
555566677777777889999
00001122234
57
Encuentre:
Valor mnimo
Valor mximo
El % de mediciones inferior a 91 db.
El % de mediciones superior a 100 db.
Ejercicio II-8
Con el propsito de mejorar el tiempo de entrega desde una embotelladora de refrescos a mquinas
vendedoras de una universidad, se ha obtenido 40 datos.
9,45
17,08
44,88
24,45
24,45
37,00
54,12
33,66
31,75
41,95
56,63
37,10
9,60
10,30
16,97
29,41
24,35
34,93
17,73
24,45
37,50
46,59
21,84
9,45
Organice los datos en una tabla de frecuencias con igual amplitud y confecciones un grfico
adecuado
Tiempo de
entrega
(min)
Porcentaje
9,45 - 19,45
14,45
13
32,5
59,45 - 69,45
64,45
2,5
40
100,0
Total
Cecilia Larran R.
xi
Frecuencia
Absoluta
ni
Estadstica Descriptiva
Pgina 34
Ejercicio II-9
En el departamento de montaje de una industria se producen diariamente cierta
cantidad de productos defectuosos. Para estudiar ese fenmeno se decidi realizar
un anlisis de Pareto.
Durante cuatro meses de observacin se recogieron datos sobre el tipo de defectos
de los productos y se contabilizaron un total de 350 defectos.
N de defectos
98%
100
100%
100%
92%
84%
80
80%
74%
60%
42%
40
40%
20
20%
Porcentaje
60
0%
Piezas
errneas
Revestimiento
araado
Montaje
defectuoso
Pieza faltante
Rugosidad
superficial
Otras causas
Tipos de defectos
a.
b.
porcentaje
Piezas errneas
Revestimiento araado
Montaje defectuoso
Pieza faltante
Rugosidad superficial
Otras causas
Total
Cecilia Larran R.
Estadstica Descriptiva
Pgina 35
Medidas de Resumen
Entre las medidas que permiten resumir informacin proveniente de una
poblacin o muestra, podemos considerar: medidas de posicin, de dispersin o
variabilidad, de forma y de asociacin
N de empleados
Muy satisfechos
20
Satisfechos
25
Moderadamente satisfechos
22
Insatisfechos
18
Muy insatisfechos
10
Cecilia Larran R.
Estadstica Descriptiva
Pgina 36
Y si los datos estn agrupados en intervalos de clase, la moda ser el punto medio del
intervalo ms frecuente. La moda para datos agrupados en intervalos en tablas de
frecuencia, no es un valor exacto porque vara con las diferentes maneras de agrupar
una distribucin.
300.000 350.000
Marca de clase
xi
325.000
N de trabajadores
ni
13
350.000 400.000
375.000
18
400.000 450.000
425.000
24
450.000 500.000
475.000
20
500.000 550.000
525.000
15
Sueldo
En este caso la moda es 425.000 pesos, por ser el punto medio del intervalo ms
frecuente.
A menudo encontramos distribuciones bimodales (con dos modas).
x +x +x ...+x n
x= 1 2 3
=
n
Cecilia Larran R.
Estadstica Descriptiva
i =1
total
n
Pgina 37
22 45 25 35 50
Sumatoria = x i = 705
705
15
x=
i =1
= 47 min
Observacin: La media de la poblacin se define de la misma forma que
la media muestral pero se utiliza el smbolo para denotarla:
N
x
i =1
x1 +x 2 +x 3 ...+x N total
=
N
N
x n
i
i =1
donde xi
representa el
n de personas
ni
x i ni
0
1
2
3
4
5
22
50
90
49
26
13
0
50
180
147
104
65
Total
Cecilia Larran R.
n = 250
xini =
i
x =
= 2,184 frutas
n = 250
Estadstica Descriptiva
Pgina 38
Marca de clase
xi
325
N de trabajadores
350 400
375
18
400 450
425
24
450 500
475
20
500 550
525
15
7875
90
38550
ni
13
Total
x i ni
4225
X = Sueldo mensual
n
90
Total =
xn
i i
38550
38550
= 428,33
90
$428.333
Y = a + bX Y = a + bX ; a, b ctes.
(Demostracin tarea)
Del ejemplo anterior: Si a los trabajadores de la empresa textil le aumentan el sueldo en:
(Caso 1)
$50.000,0
Y(1) = X + 50
(Caos 2)
15%
Y(2) = 1,15X
Complete
(caso 3)
7% + un bono
fijo de $30.000
Sueldo actual
Y(3) = 1,07X + 30
x = 428,333 (m $)
Y(1) =
Y(3) =
Y(3) =
Y = Sueldo aumentado
Cecilia Larran R.
Estadstica Descriptiva
Pgina 39
Mediana (Me)
Mediana: es un valor tal que, ordenados en magnitud los n datos de una
variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.
Para el clculo de la mediana la variable debe ser por lo menos ordinal
En datos no agrupados (directos), con n impar, el valor central es la mediana.
n = 9 datos.
La mediana es el valor 9.
1+ n
2
n = 8 datos;
ni
Ni
0
1
2
3
4
5
6
Total
40
26
14
6
3
0
1
n = 90
40
66
Mediana = 1
avera.
Interpretacin:
Cecilia Larran R.
Estadstica Descriptiva
Pgina 40
Comparacin entre
, Me y Mo
proporcionan
Media
aritmtica
x
x=
i =1
total
n
Mediana
Me
Moda
Mo
Observaciones
El nivel de medicin de la
variable X sea por lo menos en
escala de intervalos.
La media es muy sensible
cuando existen datos atpicos
o extremos.
Es preferible utilizar el promedio
aritmtico
como medida de
resumen si los datos son
homogneos.
La mediana
utiliza menos
informacin que la media, ya
que solo tiene en cuenta el
orden de los datos y no su
magnitud, por lo tanto, para
poder calcular la mediana el
nivel de medicin de la variable
X debe ser por lo menos en
escala ordinal.
La mediana se ve menos
alterada por los datos atpicos o
extremos.
Para el clculo de la moda la
variable puede tener cualquier
nivel de medicin, luego es la
nica medida de tendencia
central que se puede calcular si
el nivel de medicin de la
variable X es en escala nominal.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 41
Simtrica
Asimetra positiva
Asimetra Negativa
10
10
Simtrica
8
10
8
6
6
4
4
4
2
2
0
2.5
7.5
12.5
17.5
22.5
27.5
32.5
0
2.5
7.5
12.5
17.5
22.5
27.5
32.5
2 .5
7.5
1 2 .5
1 7 .5
2 2. 5
2 7. 5
32 . 5
X = Me = Mo
Mo < Me < X
X < Me < Mo
Ejercicios III
Ejercicio III-1
Un fabricante de un dispositivo para cierto artculo electrnico informa en su propaganda
que la vida til de su producto es superior a 5 aos.
Una muestra aleatoria de 90 unidades vendidas hace 10 aos, revel la siguiente
distribucin de las duraciones:
Duracin
0- 2
24
46
68
8 10
Frecuencia
10
20
25
22
13
Ejercicio III-2
En la fabricacin de semiconductores, a menudo se utiliza una sustancia qumica para
quitar el silicio de la parte trasera de las obleas antes de la metalizacin. En este proceso es
importante la rapidez con la que acta la sustancia. Se han comparado dos soluciones
qumicas, utilizando para ello dos muestras de obleas para cada solucin. La rapidez de
accin observada es la siguiente
Solucin 1:
Solucin 2:
9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1
10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3
Solucin
Promedio
Mediana
1
2
aaaaaaa
Cecilia Larran R.
Estadstica Descriptiva
Pgina 42
Ejercicio III-3
Media Ponderada o Promedio Ponderado
Sean x1 ,x2,....,xn , n datos y sea los nmero w1 ,w2,....,wn, los pesos correspondiente a
cada xi i = 1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los
P1 (25%)
P2 (35%)
P3 (40%)
4,2
5,7
2,1
Promedio =
Ejercicio III-4
Promedio estratificado
X = Sueldo mensual (miles de $)
Planta
Promedio
N de trabajadores
Santiago (1)
Concepcin (2)
x1 = 568,320
x 2 = 665,210
n1 = 215
n2 = 180
n = n1 + n2+ n3
Antofagasta (3)
x 3 = 480,715
n3 = 96
n x
i
X estr =
i=1
Cecilia Larran R.
Estadstica Descriptiva
Pgina 43
25%
25%
Mn
Q1
25%
25%
Q2
Q3
|
Mx
q1
q2
q3
q4
Mx
|
x(1)
p%
|
Pp
(100 - p)%
|
x(n)
Mn
Mx
(100 - p)%
x(1)
Pp
x(n)
Mn.
Mx.
entre Pp y mx se
Cecilia Larran R.
Estadstica Descriptiva
Pgina 44
Me = Q2 = D5 = P50
Q3 = P75
q1 = D2 = P20
q2 =
q3 =
q4 =
Puntaje
Clculo percentiles Pp
En la definicin de percentil en un conjunto de datos es el valor tal que el p% de los
datos es menor o igual que l y el (100 p)% de los datos es superior o igual a l,
puede que ningn valor cumpla exactamente la definicin. Existen diversas formas de
interpolar para el clculo del Pp, en este curso vamos a utilizar el mtodo AEMPIRAL
explicado en la pgina 22 de texto Probabilidad y Estadstica. Douglas C. Montgomery
y George C. Runger (1996)
Del ejemplo:
lugar j=
14 50
100
P50
=7
n = 14
P50 =
65 + 68
= 66,5 = Me el 50% de los estudiante
2
Estadstica Descriptiva
Pgina 45
aproximados.
Mediante interpolacin lineal en el grfico de frecuencias acumulada (ojiva) se
llega a la frmula del percentil.
Puntaje en un test de aptitud
Puntaje
X
15 20
20 25
25 30
30 35
35 40
40 45
N de
sujetos
ni
8
7
14
6
3
2
n = 40
Frecuencias acumuladas
Ni
Fi
(absoluta)
(relativa)
8
15
29
35
38
40
0,200
0,375
0,725
0,875
0,950
1,000
n = 40
lugar
np n 50
=
= 20
100 100
el percentil 50 o
mediana
aproximadamente se
encuentra en el lugar 20,
observando la columna Ni
de frec. acumuladas o el
grfico ojiva, el valor que
ocupa el lugar 20 se
encuentra en el tercer
intervalo.
P50 = Me [25, 30)
Puntaje
X
< 15
< 20
< 25
< 30
< 35
< 40
< 45
Cecilia Larran R.
Estadstica Descriptiva
Pgina 46
Interpolando
Linealmente, se
obtiene
Puntaje
P50 [25, 30) 25 es el lmite inferior del intervalo j
30 25 = 5 es la amplitud del intervalo j
intervalo j
np
- N j-1
100
Pp = liminf j +amplitud j
nj
Se utiliza
cuando no se
tienen los
datos de cada
unidad de
observacin
20 15
P50 = 25 + 5
= 26,79 puntos
14
Interpretacin .
-
Suponga que al 15% de los puntajes ms altos pasan a una segunda etapa,
a partir de qu puntaje se va a realizar el corte para seleccionar a dichos
sujetos?.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 47
Ejercicios IV
Ejercicio IV-1
El responsable en control de industrial de una empresa somete a un test de fiabilidad 150
dispositivos electrnicos idnticos y anota su duracin (tiempo hasta fallo en horas).
Histograma
N de dispositivos
60
51
50
40
30
27
21
21
20
18
10
6
3
0
0
200
400
600
800
1000
1200
1400
1600
1800
2000
Duracion
y nivel de medicin.
Entre qu valores se encuentra el 30% de los dispositivos de mayor duracin?
Qu porcentaje de dispositivos tienen duracin entre 200 y menos de 1000
horas?
Qu porcentaje de dispositivos tienen duracin entre 600 y 950 horas?
Dibuje en el histograma el tiempo medio de fallo, la mediana y la moda.
El promedio es una medida adecuada para resumir la duracin de los
dispositivos? Justifique su respuesta.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 48
Ejercicio IV-2
En una industria, se realizan peridicamente un anlisis de la medicin del trabajo con el
fin de determinar el tiempo requerido para generar una unidad de produccin. En una
planta de procesamiento se registr durante 20 das el nmero de horas-trabajador
horas
totales requeridass para realizar cierta tarea. Los datos recogidos son:
128 119 95 97 113 109 124 132 146 128 103
124 131 133 131 100 112 111 150
135
Estadstica Descriptiva
Pgina 49
Cecilia Larran R.
Estadstica Descriptiva
Pgina 50
Q1 = P25
Las desviaciones
di = (xi - x )
se elevan al cuadrado para
convertirlas
en
positivas,
adems recuerde que
(xi - x)2
Desviacin estndar: s =
i =1
(x
- x) = 0
i =1
s2 =
Cecilia Larran R.
(x
i=1
x)2
Estadstica Descriptiva
Pgina 51
Total
Grupo
10
10
Grupo 2
x-x
(x - x)
3
4
4
5
5
5
5
6
6
7
50
-2
-1
-1
0
0
0
0
1
1
2
0
4
1
1
0
0
0
0
1
1
4
12
Promedio
50
= 5 ptos
10
50
= 5 ptos
10
x-x
(x - x) 2
1
2
3
4
5
5
6
7
8
9
50
-4
-3
-2
-1
0
0
1
2
3
4
0
16
9
4
1
0
0
1
4
9
16
60
Desviacin
estndar
12
= 1,0954 ptos
10
60
= 2,4495 ptos
10
Varianza
(1,0954)2
(2,4495)2
Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor
dispersin o variabilidad.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 52
Observaciones:
N
(x
i
)2
i=1
N
media de la poblacin, N tamao de la poblacin
(xi -x)
= i=1
n -1
s =
2
n
x
i=1 i
(xi -x)
i=1
n -1
2
i
i=1
n-1
(x x) n
2
2
x
Varianza s =
i=1
n-1
k
(x -x) n
2
Desviacin estndar: s =
i =1
n-1
o la marca de clase en el
Cecilia Larran R.
Estadstica Descriptiva
Pgina 53
0
1
2
3
4
5
6
5
10
16
15
9
3
2
0
10
32
45
36
15
12
31,25
22,50
4,00
3,75
20,25
18,75
24,50
Total
n = 60
150
125,00
x=
150
60
s2 =
125
59
= 2,119 varianza
Desviacin estndar s =
=
varianza
2,119 = 1, 456
s =
2
(x i -x) ni
i=1
n -1
2
i
ni -
x i ni
i=1
i=1
n-1
s=
Cecilia Larran R.
(x i -x) ni
i=1
n -1
2
i
ni -
x i ni
i=1
i=1
Estadstica Descriptiva
n -1
Pgina 54
s=
xn
i i
= 150 ;
x n
2
i
= 500
(150)2
60 = 1,456
59
500
CVX =
sX
1
2
3
4
5
6
7
8
9
10
78 75 70 68 44 66 72 95 70 74
172 175 168 178 159 166 176 180 179 171
Media
Desv. tp.
CV
Peso (Y)
Estatura (X)
71,20
172,40
12,541
6,620
0,176
0,038
100*CV
(% de variabilidad)
17,614%
3,840%
Cecilia Larran R.
Estadstica Descriptiva
Pgina 55
Ejercicios V
Ejercicio V-1
En un banco se realiz un estudio para medir el tiempo de atencin necesario para que un cliente
realice una transaccin entre las 12:00 y 14:00 horas. Durante una semana se tomaron los tiempos
de atencin de 10 clientes diariamente, obtenindose los siguientes datos:
Tiempo de atencin
(min)
Cantidad de
clientes
02
24
46
6 8
8 10
10 12
12 -14
17
11
Cuartil 1
b. Determine
(aprox.)
Mediana
Cuartil 3
RI
Moda
50 p
- 17
3 = 2 + 100
11
p = 45%
Ejercicio V-2
2
i=1
Ejercicio V-3
Se ha hecho un seguimiento durante una serie de das del nmero de mensajes spam al da
que un cierto usuario recibe en su correo electrnico. Los datos obtenidos se muestran a
continuacin:
N de spam diario
Frecuencia observada
a. n =
0
35
1
42
2
55
3
40
4
15
5
10
6
3
(interprete)
Cecilia Larran R.
Estadstica Descriptiva
Pgina 56
Ejercicio V-4
Se realiz un estudio sobre los costos operacionales (Y), en millones de dlares anuales, en
empresas de dos rubros distintos( A ; B ). Se tomaron muestras de 25 empresas de cada
rubro, obtenindose:
Rubro
5,3
4,4
4,4
8,2
2,8
1,5
7,5
6,2
8,5
4,8
4,2
7,2
3,9
6,4
5,3
5,4
2,7
7,1
8,2
5,9
3,9
6,4
4,2
7,5
3,5
6,1
4,5
4,0
4,1
4,8
3,6
5,4
5,2
3,5
4,6
5,4
2,9
4,3
4,0
4,8
4,7
2,6
5,5
5,4
2,9
3,5
5,9
3,8
5,2
4,9
Rubro A
Rubro B
1.
2.
3.
4.
5.
6.
7.
8.
5
78
99
22448
23349
244
1255
225
3,00
0,00
5,00
4,00
6,00
4,00
2,00
1,00
-1
2.
3.
3.
4.
4.
5.
5.
6.
2
i
1,00
2,00
2,00
5,00
5,00
3,00
4,00
3,00
137,1
833,9
109,9
505,4
699
55568
0013
567889
2444
59
1
-1
Multiplicar por 10
a.
Y = Costo operacional
Multiplicar por 10
CV
% de variabilidad
A
B
b.
c.
Comentarios:
Entre qu costos operacionales se ubica el 50% central de las empresas del rubro B?
Segn estimaciones, realizadas en las empresas del rubro A, los costos operacionales
aumentarn en un 3%. Determine e interprete la nueva mediana y la nueva desviacin
estndar.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 57
Ejercicio V-5
Se toman muestras, de barras planas de dos tipos de acero, de tamao 80 y 100
respectivamente, para analizar la resistencia a la ruptura. Los siguientes grficos muestran los
tiempos mximos (Y), en minutos que soportan dichas barras antes de fragmentarse, cuando son
sometidos a la tensin:
Muestra 1
Muestra 2
minutos
minutos
a.
b.
Si las barras de acero tipo 1, se clasifican de acuerdo a su resistencia en {RB, RM, RA}
Baja resistencia (RB)
: si soportan un tiempo mximo inferior a 5,5 minutos
Alta resistencia (RA)
: si soportan un tiempo mximo de por lo menos 14 minutos
Resistencia media (RM) : en otro caso.
Muestre grficamente la distribucin de las barras de acuerdo a la nueva clasificacin.
Medidas de Forma
Coeficiente de asimetra de Fisher
n
C A = g1 =
(x i -x ) 3
n(n+1) (x i -x)4
i= 1
(n -1 )(n -2 )
s3
CA p = g 2 =
CA = 0; si la distribucin es perfectamente
simtrica
CA > 0; si hay asimetra positiva
CA < 0; si hay asimetra negativa
Un coeficiente de asimetra mayor que 1
en valor absoluto puede considerarse
alto.
Cecilia Larran R.
i=1
(n-1)(n-2)(n-3)s 4
(n-1) 2
-3
(n-2)(n-3)
Los
valores positivos de CAp
indicarn un fuerte
apuntamiento (leptocrtica),
valores negativos indican una
distribucin ms plana (platicrtica) y si los valores son
cercanos a cero el histograma o polgono de frecuencias
tiene una forma parecida a una campana (mesocrtica)
Estadstica Descriptiva
Pgina 58
Cecilia Larran R.
Estadstica Descriptiva
Pgina 59
Mtodo 1
Mtodo 2
Total
Cecilia Larran R.
Superconductores
(Si fallas)
31
42
73
Estadstica Descriptiva
Fallas
Total
19
8
27
50
50
100
Pgina 60
Ejemplo: Los datos que se muestran a continuacin son los grados de dureza
Brinell obtenidos para muestras de dos aleaciones de magnesio:
Y = grado de dureza Brinell
Aleacin 1
66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleacin 2
71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2
ALEACION
1
2
RI
1,6
1,5RI
2,4
(61,1 ; 67,5)
Interpretacin: ___________________
__________________
Cecilia Larran R.
Estadstica Descriptiva
Pgina 61
ALEACION
1
2
Total
n
10
10
20
Mn.
Mx.
Resistencia
(en Newton)
10,00 10,25
10,25 10,50
10,50 10,75
10,75 11,00
11,00 11,25
11,25 11,50
11,50 11,75
yi
10,125
10,375
10,625
10,875
11,125
11,375
11,625
Empresa
Alfha Delta
yn
i i
2
12
14
11
5
4
0
0
17
25
11
9
9
3
Alfha
Delta
48
74
514,25
799,00
y n
2
i
5514,5
8636,90625
Cecilia Larran R.
Estadstica Descriptiva
Pgina 62
EMPRESA
Alfha
Delta
Media
(promedio)
10,71354
n
48
Desv.
C.V.
estandar
0,32815 0,03063
% de variabilidad
3,063%
Respuesta: _______________
Cecilia Larran R.
Estadstica Descriptiva
Pgina 63
Ejercicio:
Un Gerente de produccin de una gran industria automovilstica norteamericana
cree que los trabajadores de la planta A hacen un promedio salarial por hora
menor con una mayor variabilidad que los trabajadores de la planta B. Muestras
de 12 trabajadores de la planta A y 10 trabajadores de la planta B dieron los
siguientes valores:
Salario (um ) por hora de un trabajador (Y)
Planta A (1) 12.2 18.2 19.4 15.3 18.6 16.4 15.5 18.7 17.1 18.3 14.5 15.8
Planta B (2) 15.1 14.8 16.9 17.2 18.2 18.5 18.7 19.3 19.2 19.8
Promedio
Desv. Estandar
C.V.
Aumento
5% + 0.8 um
1,5 um
Cecilia Larran R.
Estadstica Descriptiva
Pgina 64
2
x2
y2
3
x3
y3
n
xn
yn
La tabla contiene n
pares ordenados
Cecilia Larran R.
Estadstica Descriptiva
Pgina 65
Ejemplos
a) Una correlacin lineal positiva perfecta
X
2
4
5
6
7
8
9
10
12
13
Y
4
6
7
8
9
10
11
12
14
15
r=1
Y
11
14
11
7
9
11
3
7
6
1
Y
7
11
3
7
2
12
6
2
9
6
Cecilia Larran R.
Estadstica Descriptiva
Pgina 66
Significado de la correlacin
El valor de de la correlacin puede variar desde -1 (lo que indica
correlacin negativa perfecta), pasando por el 0 (que indica independencia
completa o ninguna relacin), hasta +1 (que significa perfecta correlacin
positiva)
La magnitud se relaciona con la intensidad o estrechez de la relacin.
Coeficiente de correlacin lineal de Pearson
r=
n
sxy =
(x -x)(y -y)
i=1
n -1
s xy
; -1 < r < 1
sxs y
COVARIANZA
n n
xi yi
n
n
(xi -x)(yi -y) xi yi - i=1 i=1
n
sxy = i=1
= i=1
n -1
n-1
Cecilia Larran R.
Estadstica Descriptiva
Pgina 67
Ejemplo:
sujeto
1
2
3
4
5
6
7
8
9
10
x
13
12
10
10
8
6
6
5
3
2
(x - x )
5,5
4,5
2,5
2,5
0,5
-1,5
-1,5
-2,5
-4,5
-5,5
y
11
14
11
7
9
11
3
7
6
1
Total
75
80
promedio
x =7,5
y = 8,0
Desviacin estndar de Y: s y =
sxy =
(x - x )2 (y - y )2
30,25
9
20,25
36
6,25
9
6,25
1
0,25
1
2,25
9
2,25
25
6,25
1
20,25
4
30,25
49
124,5
Desviacin estndar de X: s x =
Covarianza de (x,y):
(y - y )
3
6
3
-1
1
3
-5
-1
-2
-7
(x - x)
n-1
(y - y)
n-1
(x -x)(y -y)
n-1
124,5
= 3, 719
9
144
= 4, 000
9
102
=
= 11,333
9
(x - x )(y - y )
16,5
27
7,5
-2,5
0,5
-4,5
7,5
2,5
9
38,5
144
102
Covarianza positiva
Interpretacin: si hubiese
relacin lineal, esta sera
directa
11,333
= 0,762
(3,719)(4,000)
Interpretacin: _________________________________________
Cecilia Larran R.
Estadstica Descriptiva
Pgina 68
Ejercicios VI
Ejercicio VI-1
Para determinada tarea en una fbrica, donde se necesita mucha destreza, se quiere
investigar si
la productividad en el trabajo debe ser mayor al aumentar los aos de
experiencia. Se seleccionaron al azar diez empleados de entre lo que tienen ese trabajo.
Los datos de aos de experiencia y medicin de productividad son los siguientes:
Empleado
Aos de experiencia
Productividad
01
4
80
02
6
82
03
10
88
04
2
81
05
12
92
06
6
85
07
5
83
08
10
86
09
13
91
10
9
90
1 2
6 5
3
8
4 5 6 7 8
14 7 4 5 9
4 8 15
9
6
9 6 9 6 11
10 11 12
5 7 6
7
a.
Se desea pronosticar el tiempo que tardar un determinado circuito lgico tras una hora
de funcionamiento intensivo, utilizando informacin del tiempo de respuesta en fro.
Para un pronstico fiable, las variables deben estar fuertemente relacionadas, utilizando
una mediada estadstica adecuada, qu concluira usted?
b.
Ejercicio VI-3
Se estn estudiando dos tipos de tubos para la utilizacin en cierta aplicacin industrial. Se
seleccionaron 12 ejemplares de cada tipo y se anot su duracin en semanas.
Tubo
Tipo 1
Tipo 2
Semanas de duracin
26,3 32,7 29,6 25,6 34,6 40,3 39,1 32,3 28,2 36,7 32,6 38,8
38,9 27,6 23,6 25,0 33,7 31,4 29,5 32,5 30,6 20,0 31,8 29,3
Analice en forma descriptiva ambos tipos de tubos e indique cul debera seleccionarse para la
aplicacin industrial (Justifique con medidas de tendencia central y de dispersin)
Cecilia Larran R.
Estadstica Descriptiva
Pgina 69
Ejercicio VI-4
Se est investigando la resistencia (en miles ohms) de cierto tipo de resistor. Para ello se probaron
80 resistores con el siguiente resultado:
Resistencia
(miles ohms)
N de resisteros
5,0 5,5
5,5 6,0
6,0 6,5
6,5 7,0
7,0 7,5
7,5 8,0
8,0 8,5
14
36
14
6
4
3
3
80
Ejercicio VI-5
En una empresa constructora se debe decidir por una de dos mezclas, para preparar concreto. Se
tiene una mezcla estndar que es la que se ha utilizado en los ltimos cuatro aos, pero debido a
nuevas exigencias para que las construcciones sean ms resistentes, por ejemplo a los terremotos,
es que los ingenieros a cargo experimentan con distintas mezclas y despus de meses de
experimentacin, al parecer logran una mezcla que cumple con los estndares exigidos. Por otro
lado, la mezcla estndar tiene costos de produccin muy inferiores a la nueva mezcla, razn por la
cual utilizarn la nueva mezcla solo si cumple de mejor manera con las exigencias mnimas
requeridas, las cuales son:
i.
ii.
Se probaron 50 probetas con muestras de cada tipo de mezcla, las resistencias obtenidas se
presentan en la tabla siguiente.
Resistencia
MN/m2
14 17
17 20
20 23
23 26
26 29
29 32
N de probetas
Mezcla Estndar
Mezcla Nueva
1
9
13
18
7
2
2
8
19
14
5
2
Estadstica Descriptiva
Pgina 70
Ejercicio VI-6
Se realizan mediciones del contenido de oxigeno en un una mina subterrnea, para
analizar la factibilidad de explotarla sin riesgos para los trabajadores. Se mide entonces el
contenido de oxigeno en miligramos/litro a diferentes profundidades (metros), obtenindose
la siguiente informacin:
Profundidad
Contenido O
15
6,5
20
5,6
30
5,4
40
6,0
50
4,6
25
5,0
35
5.0
45
4,8
65
1,0
60
1,4
70
0,1
Ejercicio VI-7
Se analizan dos catalizadores para determinar la forma en que afecta el rendimiento de un
proceso qumico. El catalizador 1 es el que se viene empleando en la fbrica y se quiere
averiguar si se puede sustituir por el catalizador 2, ms barato, pero que, segn el
fabricante provoca un descenso del rendimiento. Se llevan a cabo 24 reacciones
obteniendo para cada catalizador los rendimientos en porcentaje:
Catalizador
Y = rendimiento (%)
2
i
93,1
92,0
93,8
91,7
94,0
90,3
99,9
98,2
92,8
90,3
96,1
91,1
96,2
97,9
91,1
92,7
87,0
89,4
92,7
89,4
94,2
89,0
92,6
102,1
2237,6
208924,80
91,5
87,2
90,6
89,2
90,9
88,2
92,8
91,3
87,8
95,3
92,6
89,9
95,1
91,4
90,4
96,4
91,5
90,6
87,0
91,4
91,0
91,7
95,5
97,0
2196,3
201164,17
a.
b.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 71
Ejercicio VI-8
En una planta embotelladora de bebidas de fantasa, utilizan envases fabricados
con 2 tipos de plstico, de similares condiciones. ( A y B ).
Con muestras de 25 botellas fabricadas con cada tipo de plstico se midi la
resistencia (en psi). Algunos resultados parciales se encuentran a continuacin:
Resist_A Stem-and-Leaf Plot
Freq
Freq
1,00
2,00
1,00
4,00
7,00
4,00
2,00
1,00
2,00
1,00
18 .
18 .
19 .
19 .
20 .
20 .
21 .
21 .
22 .
22 .
2
59
0
5679
1222234
5689
01
9
14
5
Stem width:
10
Each leaf:
1 case(s)
Atpico = 171
X = Resistencia
Plstico A
Plstico A
5087
4898
1038093
963332
a.
b.
Determine para cada tipo de envase entre que valores (psi) se encuentran el
50% de las botellas con mayor resistencia
Cecilia Larran R.
Estadstica Descriptiva
Pgina 72
Ejercicio VI-9
Se ha comprobado que las aleaciones amorfas tienen una excelente
resistencia a la corrosin. En Corrosin Science (septiembre 2007) se inform de la
resistividad de una aleacin amorfa de hierro, boro y silicio despus de la cristalizacin.
Se recocieron durante un cierto tiempo (X), expresado en minutos, una muestra de 100
especmenes de esta aleacin a 700C. Luego se midi el potencial de pasivacin, en
mV (una medida de la resistividad de la aleacin cristalizada) para cada espcimen.
Los resultados son los siguientes:
(Prueba 1 06/05/2010)
X tiempo de
recocido
(en minutos)
10-25
25-40
40-55
55-70
TOTAL
-400; -380
-380; -360
TOTAL
0
14
3
0
17
15
10
9
9
43
0
6
15
19
40
15
30
27
28
100
a.
b.
c.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 73
Anexo 1
ROL DE LA ESTADSTICA EN LA INVESTIGACIN CIENTFICA
(Revista: Contribuciones Cientficas y Tecnolgicas, Junio 1985 pg. 7 9, USACH)
1.1.
PLANTEAMIENTO GENERAL
El hombre busca constantemente una explicacin racional para los fenmenos que
lo rodena. EL MTODO CIENTFICO le ayuda a organizar adecuadamente la
observacin de los hechos y a determinar las leyes que los rigen. En la gran mayora
de las situaciones reales la determinacin de tales leyes se complica por la
multicasualidad del fenmeno estudiado.
1.2.
MTODO CIENTFICO
El mtodo cientfico es un procedimiento que se aplica al ciclo completo de una
investigacin, desde el enunciado del problema hasta la evaluacin de los resultados
obtenidos. En forma esquemtica podemos distinguir las siguientes etapas en la
aplicacin del mtodo cientfico.
1.2.a.
1.2.e. Conclusin
Puede consistir en una aceptacin, modificacin o rechazo de la hiptesis
Cecilia Larran R.
Estadstica Descriptiva
Pgina 74
1.3.
MTODO ESTADSTICO
Al aplicar el mtodo cientfico nos proponemos verificar la hiptesis inicial,
investigando si las consecuencias deducidas de ella se comprueban o no al recoger,
en forma sistemtica, nuevas observaciones. Es el mtodo estadstico el que nos
proporciona las tcnicas necesarias para recolectar y analizar la informacin
requerida. Podramos distinguir una fase de planificacin y otra de ejecucin.
1.3.a. Planificacin
En esta fase debemos considerar
En una misma investigacin puede haber varios objetivos parciales que requieren
estudiar unidades de observacin diferentes. La eleccin de unidades de medida es
crucial ya que una equivocacin puede resultar en un exceso de informacin o en
una perdida irrecuperable de ella.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 75
1.3.b. Ejecucin
En esta fase podemos reconocer:
b.1. Recoleccin de la informacin.
b.2. Elaboracin de la informacin.
b.3. Anlisis de lo resultados
Un esquema til en la aplicacin de mtodo cientfico y que destaca un paralelismo con el
mtodo estadstico se resume en el diagrama siguiente:
Cecilia Larran R.
Estadstica Descriptiva
Pgina 76
Anexo 2
Muestreos aleatorios
Se seleccionan los elementos de la muestra por un procedimiento de azar (un sorteo).
El investigador no decide que elementos van a tomar parte de la muestra, aunque debe
conocer la probabilidad de seleccin de cada elemento. Estos tipos de muestreo
permiten aplicar las tcnicas de inferencia estadstica.
Entre ellos se usan los siguientes:
Estadstica Descriptiva
Pgina 77
Muestreos no Aleatorios
Este tipo de muestreo no permite, rigurosamente hablando, aplicar tcnicas de
inferencia estadsticas, ya que la formulacin de estas tcnicas se realiza bajo la
hiptesis de la aleatoriedad de las muestras.
Muestreo Dirigido o Adaptado: Se seleccionan para formar parte de la muestra
elementos, que segn la opinin de los encuestadores, sean representativos.
Se suele emplear en las primeras fases del estudio para construir una muestra piloto.
Muestreo por cuotas: Cada encuestador debe entrevistar a un cierto nmero de
personas de unas caractersticas definidas. Por ejemplo: 15 hombres solteros con
edades comprendidas entre 25 y 30 aos, 22 mujeres casadas de edades
comprendidas entre 30 y 50 aos, 20 personas con hijos en edad escolar, etc.
Muestro deliberado: Se selecciona la muestra en un sector de la Poblacin por
comodidad de acceso. Por ejemplo cuando se dispone fcilmente de una lista de
personas, como la gua de telfono, las matrculas de los automviles, etc.
Cecilia Larran R.
Estadstica Descriptiva
Pgina 78