Está en la página 1de 21

CURSO GEOESTADSTICA Definiciones Poblacin: Es una coleccin bien definida de objetos que constituyen el conjunto de inters.

Censo: Disponibilidad de informacin de inters para todos los objetos de la poblacin. Variable: Es cualquier caracterstica cuyo valor puede cambiar de un objeto a otro en la poblacin. Datos univariantes: Es un conjunto de datos compuesto de observaciones realizadas en una sola variable. Datos bivariables: Cuando se realizan observaciones en cada una de dos variables. Estadstica inferencial: Son tcnicas para generalizar desde una muestra hasta una poblacin. Los tipos ms importantes de procedimientos inferenciales son: estimacin puntual, comprobacin de hiptesis y estimacin por medio de intervalos de confianza. Estudio enumerativo: El inters se enfoca en un conjunto de individuos u objetos finitos identificable y no cambiante que conforma una poblacin, debe existir un marco de muestreo. Marco de muestreo: Lista de individuos que deben ser muestreados. Estudio analtico: se considera como aquel que no es enumerativo. Muestra aleatoria simple: Es una para la cual cualquier subconjunto particular del tamao especificado tiene igual oportunidad de ser seleccionado. Muestreo Estratificado: Implica separar la poblacin en grupos no traslapantes y tomar una muestra de cada uno. Ejercicios 1.1 1) De una posible muestra de tamao 4 de cada una de las siguientes poblaciones: a) Todos los peridicos publicados en USA: Los ngeles Times, Chicago Tribune, Washington Post, The New York Times. b) Todas las compaas listadas en la bolsa de valores de N.Y.: Apple, Microsoft, Ford Company, GM. 2) Considere la poblacin compuesta de todas las computadoras de una cierta marca y modelo y enfquese en s una computadora necesita servicio mientras se encuentra en garanta. a) Plantee varias preguntas de probabilidad con base en la seleccin de 100 de esas computadoras: Qu tan probable es el sistema operativo presente fallas, el disco duro, presente problemas relacionados con la batera, en los puertos? b) Qu pregunta de estadstica inferencial podra ser respondida determinando el nmero de dichas computadoras en una muestra de tamao 100 que requieren

servicio de garanta? Cul ser el nmero total de computadoras que requerirn servicio de garanta. 3) Cierta ciudad se divide en 10 distritos Cmo puede seleccionar un valuador de bienes races una muestra de casas unifamiliares que pudiera ser utilizada como base para desarrollar una ecuacin para predecir el valor estimado a partir de caractersticas tales como antigedad, tamao, nmero de baos, distancia a la escuela ms cercana y as sucesivamente El estudio es analtico o enumerativo? a) Puede ser una muestra aleatoria simple o bien una muestra estratificada. b) El estudio es enumerativo.

Mtodos pictricos y tabulares en la estadstica descriptiva. La estadstica descriptiva se divide en dos temas generales, la representacin mediante tcnicas visuales y la representacin mediante medidas numricas para conjuntos de datos. Grficas de tallos y hojas. Considrese un conjunto de datos numricos x1, x2, .xn para el cual cada xi, se compone de por lo menos dos dgitos. Una forma rpida de obtener la representacin visual informativa del conjunto de datos es construir una grfica de tallos y hojas. Pasos para construir una grfica de tallos y hojas 1) Seleccione uno o ms de los primeros dgitos para los valores de tallo. Los segundos dgitos se convierten en hojas. 2) Enumere los posibles valores de tallos en una columna vertical. 3) Anote la hoja para cada observacin junto al correspondiente valor de tallo. 4) Indique las unidades para tallos y hojas en algn lugar de la grfica. En general, se recomienda una grfica basada en tallos entre 5 y 20. Grficas de puntos Una grfica de puntos es un resumen atractivo de datos numricos cuando el conjunto de datos es razonablemente pequeo o existen pocos valores de datos distintos. Cada observacin est representada por un punto sobre la ubicacin correspondiente en una escala de medicin horizontal. Cuando un valor ocurre ms de una vez, existe un punto por cada ocurrencia y estos puntos se apilan verticalmente. Histogramas La prescripcin para trazar un histograma depende de si se trata de variables discretas o continuas.

Variable discreta continua: Es discreta si su conjunto de valores posibles es finito o adems es puede ser puesto en lista en una secuencia infinita. Una variable numrica es continua si sus valores posibles abarcan un intervalo completo sobre la lnea de nmeros. Considrense datos compuestos de observaciones de una variable discreta x. La frecuencia de cualquier valor x particular es el nmero de veces que ocurre un valor en el conjunto de datos. La frecuencia relativa de un valor es la fraccin o proporcin de veces que el valor ocurre:

Frecuencia relativa de un valor

Nmero de veces que ocurre un valor Nmero de observaciones en el conjunto de datos

Las frecuencias relativas, o porcentajes, por lo general interesan ms que las frecuencias mismas. Construccin de un histograma para datos discretos En primer lugar, se determinan la frecuencia y la frecuencia relativa de cada valor x. Luego se marcan los posibles valores x en una escala horizontal. Sobre cada valor, se traza un rectngulo cuya altura es la frecuencia relativa (o alternativamente, la frecuencia) de dicho valor. La construccin de un histograma para datos continuos (mediciones) implica subdividir el eje de medicin en un nmero adecuado de intervalos de clase o clases, de tal suerte que cada observacin quede contenida en exactamente una clase. No existen reglas inviolables en cuanto al nmero de clases o la seleccin de las mismas. Entre 5 y 20 ser satisfactorio para la mayora de los conjuntos de datos. En general, mientras ms grande es el nmero de observaciones en un conjunto de datos, ms clases debern ser utilizadas. Una razonable regla emprica es: Construccin de un histograma para datos continuos: anchos de clase desiguales. Despus de determinar las frecuencias y las frecuencias relativas, se calcula la altura de cada rectngulo con la frmula:

Las alturas del rectngulo resultante en general se conocen como densidades y la escala vertical es la escala de densidades. Esta prescripcin tambin funcionar cuando los anchos de clase sean iguales.

Cuando los anchos de clase son desiguales, si no se utiliza una escala de densidades se obtendr una grfica con reas distorsionadas. Con anchos de clase iguales, el divisor es el mismo en cada clculo de densidad y la aritmtica adicional simplemente implica cambiar la escala en el eje vertical. Un histograma de densidad tiene una propiedad interesante. Si se multiplican ambos miembros de la frmula para densidad por el ancho de clase se obtiene Frecuencia relativa = (ancho de clase)(densidad) = (ancho del rectngulo)(altura del rectngulo) = rea del rectngulo) Es decir, el rea de cada rectngulo es la frecuencia relativa de la clase correspondiente. Adems, como la suma de frecuencias relativas debe ser 1, el rea total de todos los rectngulos en un histograma de densidad es 1. Siempre es posible trazar un histograma de modo que el rea sea igual a la frecuencia relativa (esto tambin es cierto para un histograma de datos discretos), simplemente se utiliza la escala de densidad. Esta propiedad desempear un importante papel al crear modelos de distribucin. Formas de histograma Los histogramas se presentan en varias formas. Un histograma unimodal es el que se eleva a una sola cresta y luego declina. Uno bimodal tiene dos crestas diferentes. Puede ocurrir bimodalidad cuando el conjunto de datos se compone de observaciones de dos clases bastante diferentes de individuos u objetos. Se dice que un histograma con ms de dos crestas es multimodal. Ejemplos seccin 1.2 1) Cada calificacin en el siguiente lote de calificaciones de exmenes se encuentra en los 60, 70, 80 o 90. Una grfica de tallos y hojas con slo los cuatro tallos 6, 7, 8 y 9 no describira detalladamente la distribucin de calificaciones. En tales situaciones, es deseable utilizar tallos repetidos. En este caso se repetira el tallo 6 dos veces, utilizando 6B para las calificaciones en los 60 bajos (hojas 0, 1, 2, 3 y 4) y 6A para las calificaciones en los 60 altos (hojas 5, 6, 7, 8 y 9). Construya la grfica las calificaciones dadas. Qu caracterstica de los datos es resaltada por esta grfica? 74 89 80 93 64 67 72 70 66 85 89 81 81 71 74 82 85 63 72 81 81 95 84 81 80 70 69 66 60 83 85 98 84 68 90 82 69 72 87 88 Ver grfica en cuaderno.

Existe una brecha en los datos, no hay valores en el rango 7B.

2) Las propiedades mecnicas permisibles para el diseo estructural de vehculos aeroespaciales metlicos requieren un mtodo aprobado para analizar estadsticamente datos de pruebas empricos. El artculo Establishing Mechanical Property Allowables for Metals (J. of testing and Evaluation, 1998: 293-299) utiliz los datos anexos sobre la Resistencia a la tensin ltima (kg/pulg2) como base para abordar las dificultades que se presentan en el desarrollo de dicho mtodo.

122.2 127.5 130.4 131.4 132.7 133.2 134 134.7 135.2 135.7 135.9 136.6 137.8 138.4 139.1 140.9 143.6

124.2 127.9 130.8 132.3 132.9 133.3 134 134.7 135.2 135.8 136 136.8 137.8 138.4 139.5 140.9 143.8

124.3 128.6 131.3 132.4 133 133.3 134 134.7 135.3 135.8 136 136.9 137.8 138.4 139.6 141.2 143.8

125.6 128.8 131.4 132.4 133.1 133.5 134.1 134.8 135.3 135.8 136.1 136.9 137.9 138.5 139.8 141.4 143.9

126.3 129 131.4 132.5 133.1 133.5 134.2 134.8 135.4 135.8 136.2 137 137.9 138.5 139.8 141.5 144.1

126.5 129.2 131.5 132.5 133.1 133.5 134.3 134.8 135.5 135.8 136.2 137.1 138.2 138.6 140 141.6 144.5

126.5 129.4 131.6 132.5 133.1 133.8 134.4 134.9 135.5 135.9 136.3 137.2 138.2 138.7 140 142.9 144.5

127.2 129.6 131.6 132.5 133.2 133.9 134.4 134.9 135.6 135.9 136.4 137.6 138.3 138.7 140.7 143.4 147.7

127.3 130.2 131.8 132.6 133.2 134 134.6 135.2 135.6 135.9 136.4 137.6 138.3 139 140.7 143.5 147.7

a) Construya una grfica de tallos y hojas de los datos eliminando los dgitos de dcimos y luego repitiendo cada valor de tallo cinco veces (una vez para para las hojas 1 y 2, una segunda vez para las hojas 3 y 4, etc.) Por qu es relativamente fcil identificar un valor de resistencia representativo? b) Construya un histograma utilizando clases de ancho igual con la primera clase que tiene un lmite inferior de 122 y un lmite superior de 124. En seguida comente sobre cualquier caracterstica interesante del histograma.

12 12 12 12

2 445 6667777 889999

13 13 13 13 13 14 14 14

00011111111 2222222222333333333333333 44444444444444444455555555555 6666666666667777777777 888888888888999999 2333333 444 77

Comandos en R: read.table("E:/Curso_geo/Ejercicio2_secc1.2.csv", header = FALSE, sep =",", dec = ".") fuerza$V1 % convierte los datos de la variable V1 en un vector. x<-c(fuerza$V1,fuerza$V2,fuerza$V3,fuerza$V4,fuerza$V5,fuerza$V6,fuerza$V7, fuerza$V8,fuerza$V9) % convierte los datos de la tabla en un vector. stem(x) % produce una grfica de hojas y tallos.

The decimal point is at the | 122 | 2 124 | 236 126 | 3552359 128 | 680246 130 | 24834445668 132 | 2344555567901111223355589 134 | 00001234467778889922233455667888889999 136 | 0012234468990126688899 138 | 223344455677015688 140 | 0077992456 142 | 9456889 144 | 155

146 | 77 hist(x, nclass =10, freq = TRUE, right = TRUE, col = 'yellow', border = 13, xlab = 'Fuerza Kg/in2', main = 'Resistencia a la tensin')

Con 5 clases:

Histograma en funcin de la densidad: hist(x, freq = FALSE, right = TRUE, col = 'blue', border = 'yellow', xlab = 'Fuerza kg/pul2', main = 'Resistencia a la tensin')

3) Los tiempos de duracin de las pelculas estadounidenses difieren de alguna manera de las del cine francs? El autor investig esta cuestin seleccionando aleatoriamente 25 pelculas recientes de cada tipo, lo que resulta en los siguientes tiempos de duracin(min): 94 110 123 105 90 92 116 95 95 113 90 125 93 116 158 122 128 90 122 103 95 97 119 96 125 103 125 111 91 95 90 81 104 120 96 113 116 109 94 128 162 91 137 93 102 138 102 92 90 Am 105 Fr.

am<c(94,90,95,93,128,95,125,91,104,116,162,102,90,110,92,113,116,90,97,103,95,120,10 9,91,138)

> summary(am) Min. 1st Qu. Median Mean 3rd Qu. Max. 90.0 93.0 102.0 106.4 116.0 162.0 > stem(am) The decimal point is 1 digit(s) to the right of the | 8 | 000112345557 10 | 23490366 12 | 0588 14 | 16 | 2 >fr<c(123,116,90,158,122,119,125,90,96,94,137,102,105,105,95,125,122,103,96,111,81,1 13,128,93,92) > summary(fr) Min. 1st Qu. Median Mean 3rd Qu. Max. 81.0 95.0 105.0 109.6 122.0 158.0 > stem(fr) The decimal point is 1 digit(s) to the right of the | 8 | 100234566 10 | 23551369 12 | 2235587 14 | 8 La duracin de las pelculas americanas es ms positivamente asimtricas que las francesas. Existe un salto entre los 120 y los 160 minutos de duracin en las primeras. Valor atpico de 162 para pelculas americanas y de 148 para francesas. Valores tpicos debajo de los 120 y encima de los 90 minutos para ambas.

4) Transductores de temperatura se envan en lotes de 50. Se seleccion una muestra de 60 lotes y se determin el nmero de transductores en cada lote que no cumplen con las especificaciones de diseo y se obtuvieron los siguientes datos. Ver E4_secc1.2.csv. a) Determine las frecuencias y las frecuencias relativas de los valores observados de x = nmero de transductores en un lote que no cumplen con las especificaciones. b) Qu proporcin de lotes muestreados tienen a lo sumo cinco transductores que no cumplen con las especificaciones? Qu proporcin tienen menos de cinco? Qu

proporcin tienen por lo menos cinco unidades que no cumplen con las especificaciones? c) Trace un histograma con las densidades en la escala vertical y comente sus caractersticas? d) Tans$V1 = vector de transductores que no cumplen las especficaciones a) summary(tans$V1) b) Min. 1st Qu. Median Mean 3rd Qu. Max. c) 0.000 1.000 2.000 2.533 3.000 8.000 d) > stem(tans$V1) e) f) The decimal point is at the | g) h) 0 | 0000000 f= 7, fr = 0.1166 i) 1 | 000000000000 f = 12, fR = 0.2 j) 2 | 0000000000000 f= 12, fR = .2166 k) 3 | 00000000000000 f = 14, fR = 0.233 l) 4 | 000000 f = 6, fR = 0.1 m) 5 | 000 f= 3, FR = 0.05 n) 6 | 000 f= 3, fR = 0.05 o) 7 | 0 F= 1, fr = 0.016 p) 8 | 0 f= 1, fr = 0.016 90 % de los lotes muestrados tienen a lo sumo cinco transductores que no cumplen con las especificaciones. 85 % tienen menos de 5.

El histograma esta sesgado positivamente, con valores centrales entre 2 y 3.

5) Se determin el nmero de partculas contaminantes en una oblea de silicio antes de cierto proceso de enjuague para cada oblea en una muestra de tamao 100 y se obtuvieron las siguientes frecuencias. Nmero 0 1 2 3 4 5 6 7 de partculas Frecuencia 1 2 3 12 11 15 18 10 Nmero 8 9 10 11 12 13 14 de partculas Frecuencia 12 4 5 3 1 2 1 a) Qu proporcin de las obleas muestreadas tuvieron por lo menos una partcula? Por lo menos cinco partculas? b) Qu proporcin de las obleas muestreadas tuvieron entre cinco y diez partculas, inclusive? Estrictamente entre cinco y diez? c) Trace un histograma con la frecuencia relativa en el eje vertical. Cmo describira la forma del histograma? a) .99 tuvieron por lo menos una, 0.71 por lo menos 5. b) 0.64 entre 5 y 10, inclusive. 0.44 entre 5 y 10, estrictamente.

c)

6) El artculo citado en el ejercicio 20 tambin da los siguientes valores de las variables y = nmero de calles cerradas y z = nmero de intersecciones: Ejer6_seccin1.3 a) Construya un histograma con los datos y. Qu proporcin de estas subdivisiones no tena calles cerradas? Por lo menos una calle cerrada?. b) Construya un histograma con los datos z. Qu proporcin de estas subdivisiones tena cuando mucho cinco intersecciones? Menos de cinco intersecciones?

a)

16 subdivisiones no tienen calles cerradas y 22 tienen una calle cerrada.

b)

Aparecen las frecuencias solicitadas por el ejercicio de manera exacta. Estos histogramas estn abiertos por la derecha, es decir no incluyen los extremos de estos intervalos. 7) Una transformacin de valores de datos por medio de alguna funcin matemtica, tal como: o 1/x a menudo produce un conjunto de nmeros que tienen mejores propiedades estadsticas que los datos originales. Considere los datos Ejer7_secc1.2 y use los intervalos de clase 10-<20, 20-<30..para construir un histograma de los datos originales. Use los intervalos 1.1-<1.2, 1-2-<1.3 .para hacer lo mismo con los datos transformados. Cul es el efecto de la transformacin?

b)

El primer histograma muestra un pico amplio entre los valores 15 a 30, as mismo muestra forma asimtrica positiva. El segundo histograma tiene forma ms parecida a la distribucin normal y es ms simtrico. Estos histogramas quizs se puedan mejorar si se cambia el nclass a 5.

8) El artculo Study on the life Distributin of Microdills (J. of Engr, Manufacture, 2002; (301-305) report las siguientes observaciones, listadas en orden creciente sobre la duracin de brocas ( nmero de agujeros que una broca fresa antes de se rompa) cuando se fresaron agujeros en una cierta aleacin de latn. Ejer9_secc1.2 a) Por qu una distribucin de frecuencia no puede estar basada en los intervalos de clase 0-50, 50-100, 100-150, etc? Porque se traslapan los valores final e inicial de las clases b) Construya una distribucin de frecuencia e histograma de los datos con los lmites de clase 50, 100..y luego comente sobre las caractersticas interesantes.

Caractersticas de histograma: sesgado positivamente, con un solo pico en el rango de 51-100, concentracin importante en los rangos de 0-50, 51-100, 101-150. Hay un surco en el rango de 401-500, datos dispersos en los rangos altos. c) Construya una distribucin de frecuencia e histograma de los logaritmos naturales de las observaciones de duracin y comente sobre las caractersticas interesantes. Comandos R: > log(x) > y<-log(x) > hist(y, nclass = 13, freq = TRUE, right = FALSE, col = 'orange', border ='black', xlab = 'ln de falla de brocas', main = 'prueba brocas')

La distribucin se asemeja ms a una distribucin natural. d) Qu proporcin de las observaciones de duracin en esta muestra son menores que 100? Qu proporcin de las observaciones son de por lo menos 200? > hist(x, nclass = 13, freq = FALSE, right = FALSE, col = 'green', labels = TRUE)