Está en la página 1de 22

CURSO GEOESTADSTICA

Definiciones
Poblacin: Es una coleccin bien definida de objetos que constituyen el
conjunto de inters.
Censo: Disponibilidad de informacin de inters para todos los objetos de la
poblacin.
Variable: Es cualquier caracterstica cuyo valor puede cambiar de un objeto a
otro en la poblacin.
Datos univariantes: Es un conjunto
realizadas en una sola variable.

de datos compuesto de observaciones

Datos bivariables: Cuando se realizan observaciones en cada una de dos


variables.
Estadstica inferencial: Son tcnicas para generalizar desde una muestra hasta
una poblacin. Los tipos ms importantes de procedimientos inferenciales son:
estimacin puntual, comprobacin de hiptesis y estimacin por medio de
intervalos de confianza.
Estudio enumerativo: El inters se enfoca en un conjunto de individuos u
objetos finitos identificable y no cambiante que conforma una poblacin, debe
existir un marco de muestreo.
Marco de muestreo: Lista de individuos que deben ser muestreados.
Estudio analtico: se considera como aquel que no es enumerativo.
Muestra aleatoria simple: Es una para la cual cualquier subconjunto particular
del tamao especificado tiene igual oportunidad de ser seleccionado.
Muestreo Estratificado: Implica separar la poblacin en grupos no traslapantes
y tomar una muestra de cada uno.
Ejercicios 1.1
1) De una posible muestra de tamao 4 de cada una de las siguientes
poblaciones:
a) Todos los peridicos publicados en USA: Los ngeles Times, Chicago
Tribune, Washington Post, The New York Times.
b) Todas las compaas listadas en la bolsa de valores de N.Y.: Apple,
Microsoft, Ford Company, GM.
2) Considere la poblacin compuesta de todas las computadoras de una
cierta marca y modelo y enfquese en s una computadora necesita
servicio mientras se encuentra en garanta.

a) Plantee varias preguntas de probabilidad con base en la seleccin de


100 de esas computadoras: Qu tan probable es que el sistema
operativo presente fallas, el disco duro, presente problemas
relacionados con la batera, en los puertos?
3) Qu pregunta de estadstica inferencial podra ser respondida
determinando el nmero de dichas computadoras en una muestra de
tamao 100 que requieren servicio de garanta? Cul es la falla ms
recurrente en cada 100 computadoras.
4) Cierta ciudad se divide en 10 distritos Cmo puede seleccionar un
valuador de bienes races una muestra de casas unifamiliares que
pudiera ser utilizada como base para desarrollar una ecuacin para
predecir el valor estimado a partir de caractersticas tales como
antigedad, tamao, nmero de baos, distancia a la escuela ms
cercana y as sucesivamente El estudio es analtico o enumerativo?
a) Puede ser una muestra aleatoria simple o bien una muestra
estratificada.
b) El estudio es enumerativo.

Mtodos pictricos y tabulares en la estadstica descriptiva.


La estadstica descriptiva se divide en dos temas generales, la representacin
mediante tcnicas visuales y la representacin mediante medidas numricas
para conjuntos de datos.
Grficas de tallos y hojas.
Considrese un conjunto de datos numricos x 1, x2, .xn para el cual cada xi, se
compone de por lo menos dos dgitos. Una forma rpida de obtener la
representacin visual informativa del conjunto de datos es construir una grfica
de tallos y hojas.
Pasos para construir una grfica de tallos y hojas
1) Seleccione uno o ms de los primeros dgitos para los valores de tallo.
Los segundos dgitos se convierten en hojas.
2) Enumere los posibles valores de tallos en una columna vertical.
3) Anote la hoja para cada observacin junto al correspondiente valor de
tallo.
4) Indique las unidades para tallos y hojas en algn lugar de la grfica.
En general, se recomienda una grfica basada en tallos entre 5 y 20.
Grficas de puntos
Una grfica de puntos es un resumen atractivo de datos numricos cuando el
conjunto de datos es razonablemente pequeo o existen pocos valores de

datos distintos. Cada observacin est representada por un punto sobre la


ubicacin correspondiente en una escala de medicin horizontal. Cuando un
valor ocurre ms de una vez, existe un punto por cada ocurrencia y estos
puntos se apilan verticalmente.
Histogramas
La prescripcin para trazar un histograma depende de si se trata de variables
discretas o continuas.
Variable discreta: Es discreta si su conjunto de valores posibles es finito o
adems puede ser puesto en lista en una secuencia infinita.
Una variable numrica es continua si sus valores posibles abarcan un intervalo
completo sobre la lnea de nmeros.
Considrense datos compuestos de observaciones de una variable discreta x.
La frecuencia de cualquier valor x particular es el nmero de veces que
ocurre un valor en el conjunto de datos. La frecuencia relativa de un valor es
la fraccin o proporcin de veces que el valor ocurre:

Frecuencia relativa de un valor

Nmero de veces que ocurre un valor


Nmero de observaciones en el conjunto de datos

Las frecuencias relativas, o porcentajes, por lo general interesan ms que las


frecuencias mismas.
Construccin de un histograma para datos discretos
En primer lugar, se determinan la frecuencia y la frecuencia relativa de cada
valor x. Luego se marcan los posibles valores x en una escala horizontal. Sobre
cada valor, se traza un rectngulo cuya altura es la frecuencia relativa (o
alternativamente, la frecuencia) de dicho valor.
La construccin de un histograma para datos continuos (mediciones) implica
subdividir el eje de medicin en un nmero adecuado de intervalos de clase o
clases, de tal suerte que cada observacin quede contenida en exactamente
una clase.
No existen reglas inviolables en cuanto al nmero de clases o la seleccin de
las mismas. Entre 5 y 20 ser satisfactorio para la mayora de los conjuntos de
datos. En general, mientras ms grande es el nmero de observaciones en un

conjunto de datos, ms clases debern ser utilizadas. Una razonable regla


emprica es:

Nmero de clases= Nmero de ob servaciones


Construccin de un histograma para datos continuos: anchos de clase
desiguales.
Despus de determinar las frecuencias y las frecuencias relativas, se calcula la
altura de cada rectngulo con la frmula:

Altura del rectngulo=

Frecuencia relativa de la clase


ancho de laclase

Las alturas del rectngulo resultante en general se conocen como densidades


y la escala vertical es la escala de densidades. Esta prescripcin tambin
funcionar cuando los anchos de clase sean iguales.
Cuando los anchos de clase son desiguales, si no se utiliza una escala de
densidades se obtendr una grfica con reas distorsionadas. Con anchos de
clase iguales, el divisor es el mismo en cada clculo de densidad y la aritmtica
adicional simplemente implica cambiar la escala en el eje vertical. Un
histograma de densidad tiene una propiedad interesante. Si se multiplican
ambos miembros de la frmula para densidad por el ancho de clase se obtiene
Frecuencia relativa = (ancho de clase)(densidad)
= (ancho del rectngulo)(altura del rectngulo)
= rea del rectngulo)
Es decir, el rea de cada rectngulo es la frecuencia relativa de la clase
correspondiente. Adems, como la suma de frecuencias relativas debe ser 1, el
rea total de todos los rectngulos en un histograma de densidad es 1.
Siempre es posible trazar un histograma de modo que el rea sea igual a la
frecuencia relativa (esto tambin es cierto para un histograma de datos
discretos), simplemente se utiliza la escala de densidad. Esta propiedad
desempear un importante papel al crear modelos de distribucin.
Formas de histograma
Los histogramas se presentan en varias formas. Un histograma unimodal es el
que se eleva a una sola cresta y luego declina. Uno bimodal tiene dos crestas
diferentes. Puede ocurrir bimodalidad cuando el conjunto de datos se compone

de observaciones de dos clases bastante diferentes de individuos u objetos. Se


dice que un histograma con ms de dos crestas es multimodal.
Ejemplos seccin 1.2
1) Cada calificacin en el siguiente lote de calificaciones de exmenes se
encuentra en los 60, 70, 80 o 90. Una grfica de tallos y hojas con slo
los cuatro tallos 6, 7, 8 y 9 no describira detalladamente la distribucin
de calificaciones. En tales situaciones, es deseable utilizar tallos
repetidos. En este caso se repetira el tallo 6 dos veces, utilizando 6B
para las calificaciones en los 60 bajos (hojas 0, 1, 2, 3 y 4) y 6A para las
calificaciones en los 60 altos (hojas 5, 6, 7, 8 y 9). Construya la grfica
las calificaciones dadas. Qu caracterstica de los datos es resaltada
por esta grfica?
74
71
69
88

89
74
66

80
82
60

93
85
83

64
63
85

67
72
98

72
81
84

70
81
68

66
95
90

85
84
82

89
81
69

81
80
72

81
70
87

Existe una brecha en los datos, no hay valores en el rango 7B.


2) Las propiedades mecnicas permisibles para el diseo estructural de
vehculos aeroespaciales metlicos requieren un mtodo aprobado para
analizar estadsticamente datos de pruebas empricos.
El artculo
Establishing Mechanical Property Allowables for Metals (J. of testing
and Evaluation, 1998: 293-299) utiliz
los datos anexos sobre la
2
Resistencia a la tensin ltima (kg/pulg ) como base para abordar las
dificultades que se presentan en el desarrollo de dicho mtodo.

122.2
127.5
130.4
131.4
132.7
133.2
134
134.7
135.2
135.7
135.9
136.6
137.8

124.2
127.9
130.8
132.3
132.9
133.3
134
134.7
135.2
135.8
136
136.8
137.8

124.3
128.6
131.3
132.4
133
133.3
134
134.7
135.3
135.8
136
136.9
137.8

125.6
128.8
131.4
132.4
133.1
133.5
134.1
134.8
135.3
135.8
136.1
136.9
137.9

126.3
129
131.4
132.5
133.1
133.5
134.2
134.8
135.4
135.8
136.2
137
137.9

126.5
129.2
131.5
132.5
133.1
133.5
134.3
134.8
135.5
135.8
136.2
137.1
138.2

126.5
129.4
131.6
132.5
133.1
133.8
134.4
134.9
135.5
135.9
136.3
137.2
138.2

127.2
129.6
131.6
132.5
133.2
133.9
134.4
134.9
135.6
135.9
136.4
137.6
138.3

127.3
130.2
131.8
132.6
133.2
134
134.6
135.2
135.6
135.9
136.4
137.6
138.3

138.4
139.1
140.9
143.6

138.4
139.5
140.9
143.8

138.4
139.6
141.2
143.8

138.5
139.8
141.4
143.9

138.5
139.8
141.5
144.1

138.6
140
141.6
144.5

138.7
140
142.9
144.5

138.7
140.7
143.4
147.7

139
140.7
143.5
147.7

a) Construya una grfica de tallos y hojas de los datos eliminando los


dgitos de dcimos y luego repitiendo cada valor de tallo cinco veces
(una vez para para las hojas 1 y 2, una segunda vez para las hojas 3
y 4, etc.) Por qu es relativamente fcil identificar un valor de
resistencia representativo?
b) Construya un histograma utilizando clases de ancho igual con la
primera clase que tiene un lmite inferior de 122 y un lmite superior
de 124. En seguida comente sobre cualquier caracterstica
interesante del histograma.

12

12

445

12

6667777

12

889999

13

00011111111

13

2222222222333333333333333

13

44444444444444444455555555555

13

6666666666667777777777

13

888888888888999999

14

2333333

14

444

14

77

Comandos en R:
read.table("E:/Curso_geo/Ejercicio2_secc1.2.csv", header = FALSE, sep =",",
dec = ".")
fuerza$V1 % convierte los datos de la variable V1 en un vector.
x<c(fuerza$V1,fuerza$V2,fuerza$V3,fuerza$V4,fuerza$V5,fuerza$V6,fuerza$V7,
fuerza$V8,fuerza$V9) % convierte los datos de la tabla en un vector.

stem(x) % produce una grfica de hojas y tallos.

The decimal point is at the |


122 | 2
124 | 236
126 | 3552359
128 | 680246
130 | 24834445668
132 | 2344555567901111223355589
134 | 00001234467778889922233455667888889999
136 | 0012234468990126688899
138 | 223344455677015688
140 | 0077992456
142 | 9456889
144 | 155
146 | 77
hist(x, nclass =10, freq = TRUE, right = TRUE, col = 'yellow', border = 13, xlab
= 'Fuerza Kg/in2', main = 'Resistencia a la tensin')

Con 5 clases:

Histograma en funcin de la densidad:


hist(x, freq = FALSE, right = TRUE, col = 'blue', border = 'yellow', xlab =
'Fuerza kg/pul2', main = 'Resistencia a la tensin')

3) Los tiempos de duracin de las pelculas estadounidenses difieren de


alguna manera de las del cine francs? El autor investig esta cuestin
seleccionando aleatoriamente 25 pelculas recientes de cada tipo, lo que
resulta en los siguientes tiempos de duracin(min):
94

90

95

93

128

95

125

91

104

110

92

113

116

90

97

103

95

120

123
105

116
95

90
125

158
122

122
103

119
96

125
111

90
81

96
113

11
6
10
9

162

102

90

91

138

Am

94
12
8

137
93

102
92

105
Fr.

am<c(94,90,95,93,128,95,125,91,104,116,162,102,90,110,92,113,116,9
0,97,103,95,120,109,91,138)
> summary(am)
Min. 1st Qu. Median Mean 3rd Qu. Max.
90.0 93.0 102.0 106.4 116.0 162.0

> stem(am)
The decimal point is 1 digit(s) to the right of the |
8 | 000112345557
10 | 23490366
12 | 0588
14 |
16 | 2
>fr<c(123,116,90,158,122,119,125,90,96,94,137,102,105,105,95,125,1
22,103,96,111,81,113,128,93,92)
> summary(fr)
Min. 1st Qu. Median Mean 3rd Qu. Max.
81.0 95.0 105.0 109.6 122.0 158.0
> stem(fr)
The decimal point is 1 digit(s) to the right of the |
8 | 100234566
10 | 23551369
12 | 2235587
14 | 8
La duracin de las pelculas americanas son ms positivamente
asimtricas que las francesas.
Existe un salto entre los 120 y los 160 minutos de duracin en las
primeras. Valor atpico de 162 para pelculas americanas y de 148 para
francesas. Valores tpicos debajo de los 120 y encima de los 90 minutos
para ambas.

4) Transductores de temperatura se envan en lotes de 50. Se seleccion


una muestra de 60 lotes y se determin el nmero de transductores en
cada lote que no cumplen con las especificaciones de diseo y se
obtuvieron los siguientes datos. Ver E4_secc1.2.csv.
a) Determine las frecuencias y las frecuencias relativas de los valores
observados de x = nmero de transductores en un lote que no
cumplen con las especificaciones.
b) Qu proporcin de lotes muestreados tienen a lo sumo cinco
transductores que no cumplen con las especificaciones? Qu
proporcin tienen menos de cinco? Qu proporcin tienen por lo
menos cinco unidades que no cumplen con las especificaciones?
c) Trace un histograma con las densidades en la escala vertical y
comente sus caractersticas?
d) Tans$V1 = vector de transductores que no cumplen las
especficaciones

a) summary(tans$V1)
b)
Min. 1st Qu. Median Mean 3rd Qu. Max.
c) 0.000 1.000 2.000 2.533 3.000 8.000
d) > stem(tans$V1)
e)
f)
The decimal point is at the |
g)
h) 0 | 0000000
f= 7, fr = 0.1166
i)
1 | 000000000000 f = 12, fR = 0.2
j)
2 | 0000000000000 f= 12, fR = .2166
k) 3 | 00000000000000 f = 14, fR = 0.233
l)
4 | 000000 f = 6, fR = 0.1
m) 5 | 000 f= 3, FR = 0.05
n) 6 | 000 f= 3, fR = 0.05
o) 7 | 0 F= 1, fr = 0.016
p) 8 | 0 f= 1, fr = 0.016
90 % de los lotes muestrados tienen a lo sumo cinco transductores que
no cumplen con las especificaciones. 85 % tienen menos de 5.

El histograma esta sesgado positivamente, con valores centrales entre 2


y 3.
5) Se determin el nmero de partculas contaminantes en una oblea de
silicio antes de cierto proceso de enjuague para cada oblea en una
muestra de tamao 100 y se obtuvieron las siguientes frecuencias.
Nmero

de
partcul
as
Frecuen
cia
Nmero
de
partcul
as
Frecuen
cia

12

11

15

18

10

11

12

13

14

12

10

a) Qu proporcin de las obleas muestreadas tuvieron por lo menos


una partcula? Por lo menos cinco partculas?
b) Qu proporcin de las obleas muestreadas tuvieron entre cinco y
diez partculas, inclusive? Estrictamente entre cinco y diez?
c) Trace un histograma con la frecuencia relativa en el eje vertical.
Cmo describira la forma del histograma?
a) .99 tuvieron por lo menos una, 0.71 por lo menos 5.
b) 0.64 entre 5 y 10, inclusive. 0.44 entre 5 y 10, estrictamente.

c)

6) El artculo citado en el ejercicio 20 tambin da los siguientes valores de


las variables y = nmero de calles cerradas y z = nmero de
intersecciones: Ejer6_seccin1.3
a) Construya un histograma con los datos y. Qu proporcin de estas
subdivisiones no tena calles cerradas? Por lo menos una calle
cerrada?.
b) Construya un histograma con los datos z. Qu proporcin de estas
subdivisiones tena cuando mucho cinco intersecciones? Menos de
cinco intersecciones?

a)

16 subdivisiones no tienen calles cerradas y 22 tienen una calle cerrada.

b)

Aparecen las frecuencias solicitadas por el ejercicio de manera exacta.


Estos histogramas estn abiertos por la derecha, es decir no incluyen los
extremos de estos intervalos.

7) Una transformacin de valores de datos por medio de alguna funcin


matemtica, tal como:

o 1/x a menudo produce un conjunto de

nmeros que tienen mejores propiedades estadsticas que los datos


originales. Considere los datos Ejer7_secc1.2 y use los intervalos de
clase 10-<20, 20-<30..para construir un histograma de los datos
originales. Use los intervalos 1.1-<1.2, 1-2-<1.3 .para hacer lo mismo
con los datos transformados. Cul es el efecto de la transformacin?

b)
El primer histograma muestra un pico amplio entre los valores 15 a 30,
as mismo muestra forma asimtrica positiva.
El segundo histograma tiene forma ms parecida a la distribucin normal
y es ms simtrico.
Estos histogramas quizs se puedan mejorar si se cambia el nclass a 5.

8) El artculo Study on the life Distributin of Microdills (J. of Engr,


Manufacture, 2002; (301-305) report las siguientes observaciones,
listadas en orden creciente sobre la duracin de brocas (nmero de
agujeros que una broca fresa antes de se rompa) cuando se fresaron
agujeros en una cierta aleacin de latn. Ejer9_secc1.2
a) Por qu una distribucin de frecuencia no puede estar basada en los
intervalos de clase 0-50, 50-100, 100-150, etc?
Porque se traslapan los valores final e inicial de las clases
b) Construya una distribucin de frecuencia e histograma de los datos
con los lmites de clase 50, 100..y luego comente sobre las
caractersticas interesantes.

Caractersticas de histograma: sesgado positivamente, con un solo


pico en el rango de 51-100, concentracin importante en los rangos
de 0-50, 51-100, 101-150. Hay un surco en el rango de 401-500,
datos dispersos en los rangos altos.
c) Construya una distribucin de frecuencia e histograma de los
logaritmos naturales de las observaciones de duracin y comente
sobre las caractersticas interesantes.
Comandos R:
> log(x)
> y<-log(x)
> hist(y, nclass = 13, freq = TRUE, right = FALSE, col = 'orange',
border ='black', xlab = 'ln de falla de brocas', main = 'prueba
brocas')

La distribucin se asemeja ms a una distribucin natural.


d) Qu proporcin de las observaciones de duracin en esta muestra
son menores que 100? Qu proporcin de las observaciones son de
por lo menos 200?
> hist(x, nclass = 13, freq = FALSE, right = FALSE, col = 'green',
labels = TRUE)

Medidas de tendencia central o de ubicacin


Una importante caracterstica de un conjunto de nmeros es su ubicacin y en
particular su centro.
La media.
Para un conjunto dado de nmeros x1, x2, . xn, la medida ms conocida y til
del centro es la media o promedio aritmtico del conjunto

Medidas de Variabilidad.
El reporte de una medida de centro da slo informacin parcial sobre un
conjunto o distribucin de datos. Diferentes nuestras o poblaciones pueden
tener medidas idnticas de centro y an diferir una de otra en otras
importantes maneras.
La medida ms imple de variabilidad en una muestra es el rango, el cual es la
diferencia entre los valores muestrales ms grande y ms pequeo. Un defecto
del rango, no obstante, es que depende de slo las dos observaciones ms
extremas y hace caso omiso de las posiciones de las n-2 valores restantes.
Las medidas principales de variabilidad implican las desviaciones de la media.
La varianza se defines como:

( x ix )
s=
2

n1

La desviacin estndar muestral:

= s 2

Las unidades de la varianza y de la desviacin estndar son las mismas que las
de x

También podría gustarte