Está en la página 1de 276

Estadstica Aplicada I

Emilio Lopez Escobar


http://www.Info-Emilio.net
Depto. de Estadstica, ITAM, Mexico.
VERSION: Enero de 2014.
Indice general

I Informacion sobre el curso II


Contenido general del curso . . . . . . . . . . . . . . . . . . . . . . . iii
Objetivo del curso . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Conocimientos previos que son necesarios . . . . . . . . . . . . . . . . v
Referencias bibliograficas del curso . . . . . . . . . . . . . . . . . . . vi
Software estadstico . . . . . . . . . . . . . . . . . . . . . . . . . . . viii
Calendarizacion del curso . . . . . . . . . . . . . . . . . . . . . . . . ix
Horario de atencion a alumnos . . . . . . . . . . . . . . . . . . . . . x
Evaluacion del curso . . . . . . . . . . . . . . . . . . . . . . . . . . . xi
De las practicas fraudulentas (licenciatura) . . . . . . . . . . . . . . . xii
Sobre los telefonos . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii

II Estadstica Aplicada y Analisis Exploratorio de datos 1

1. Introduccion a la Estadstica Aplicada 2


1.1. Estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . 3

ii
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

1.1.2. Partes o subdivisiones . . . . . . . . . . . . . . . . . . . 3


1.2. Variables, datos y escalas . . . . . . . . . . . . . . . . . . . . . 4
1.2.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1. Datos cualitativos . . . . . . . . . . . . . . . . . . . . . 7
1.3.2. Datos cuantitativos . . . . . . . . . . . . . . . . . . . . 7
1.4. Escalas de medicion . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Analisis Exploratorio de Datos 12


2.1. Analisis Exploratorio de Datos . . . . . . . . . . . . . . . . . . . 13
2.1.1. Algo de historia del Analisis Exploratorio de Datos . . . . 13
2.1.2. Objetivo del Analisis Exploratorio de Datos . . . . . . . . 15
2.2. EDA para variables cualitativas . . . . . . . . . . . . . . . . . . 17
2.2.1. Tablas de frecuencia . . . . . . . . . . . . . . . . . . . . 17
2.2.2. Diagramas circulares (pastel) . . . . . . . . . . . . . . . 18
2.2.3. Diagramas o graficos de barras . . . . . . . . . . . . . . 18
2.3. EDA para variables cuantitativas . . . . . . . . . . . . . . . . . 19
2.3.1. Diagramas de punto . . . . . . . . . . . . . . . . . . . . 19
2.3.2. Diagramas de tallo y hojas . . . . . . . . . . . . . . . . . 20
2.3.3. Distribucion de frecuencias de variables discretas . . . . . 21
2.3.4. Histogramas o distribucion de frecuencias de variables
continuas . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4. Estadsticos Descriptivos: Medidas de tendencia central . . . . . . 24
2.4.1. La media . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.2. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.3. Percentiles o medidas de posicion . . . . . . . . . . . . . 28
2.4.4. Interpretacion geometrica de la media . . . . . . . . . . . 30
2.5. Estadsticos Descriptivos: Medidas de dispersion . . . . . . . . . 31
2.5.1. Diagramas de Caja y Brazo . . . . . . . . . . . . . . . . 35
2.5.2. Diagramas de Dispersion . . . . . . . . . . . . . . . . . . 35
2.5.3. Diagramas de Burbujas . . . . . . . . . . . . . . . . . . 35

Departamento de Estadstica iii


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.5.4. Diagramas de Estrella . . . . . . . . . . . . . . . . . . . 36


2.5.5. Graficos de Violn . . . . . . . . . . . . . . . . . . . . . 36
2.5.6. Graficos de probabilidades (Q-Q plots) . . . . . . . . . . 36
2.6. Estadsticos Descriptivos: medidas de asociacion lineal . . . . . . 37

III Introduccion al Muestreo 41

3. El objetivo del muestreo y el marco muestral 42


3.1. El objetivo del muestreo . . . . . . . . . . . . . . . . . . . . . . 43
3.2. El objetivo del muestreo: grafico . . . . . . . . . . . . . . . . . . 44
3.3. Inferir o generalizar... . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1. Siempre inferimos, siempre generalizamos... . . . . . . . . 45
3.3.2. Inferir es aprender?... . . . . . . . . . . . . . . . . . . . 46
3.4. Inferir o generalizar sobre U a partir de s . . . . . . . . . . . . . 47
3.4.1. Un ejemplo equivocado... . . . . . . . . . . . . . . . . . 47
3.4.2. Interpretacion: Foto o pronostico? . . . . . . . . . . . . 50
3.5. Sobre los 3 grandes enfoques teoricos del muestreo . . . . . . . . 51
3.5.1. Design-based approach . . . . . . . . . . . . . . . . . . 52
3.5.2. Model-based approach . . . . . . . . . . . . . . . . . . 53
3.5.3. Model-assisted approach . . . . . . . . . . . . . . . . . 54
3.6. Marco muestral . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.7. Radiografa general de una encuesta por muestreo . . . . . . . . 57
3.8. Algunos comentarios para discutir . . . . . . . . . . . . . . . . . 60
3.8.1. Incorporacion de tecnica a el objetivo del muestreo . . . . 62
3.8.2. Un ejemplo sobre el marco muestral (de Lohr, 1999) . . . 63

4. Muestreo probabilstico y extraccion de la muestra 64


4.1. Muestreando probabilsticamente . . . . . . . . . . . . . . . . . 65
4.1.1. Muestreo en 1 etapa . . . . . . . . . . . . . . . . . . . . 65
4.2. Muestreando en mas de 1 etapa . . . . . . . . . . . . . . . . . . 69
4.2.1. Muestreo en 3 etapas . . . . . . . . . . . . . . . . . . . 69

Departamento de Estadstica iv
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

4.2.2. Ventaja de las muestras probabilsticas sobre las no pro-


babilsticas . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2.3. Muestreo en 2 etapas . . . . . . . . . . . . . . . . . . . 74

5. Estimacion a partir de muestras probabilsticas 76


5.1. Poblacion, muestra y seleccion . . . . . . . . . . . . . . . . . . . 77
5.2. La funcion diseno de muestreo . . . . . . . . . . . . . . . . . . . 79
5.3. Probabilidades e indicadoras de inclusion . . . . . . . . . . . . . 82
5.3.1. Las indicadoras de inclusion muestral . . . . . . . . . . . 82
5.3.2. Las probabilidades de inclusion . . . . . . . . . . . . . . 82
5.3.3. Comentarios sobre las probabilidades de inclusion . . . . . 84
5.3.4. Estadsticos bajo el diseno muestral . . . . . . . . . . . . 87
5.4. Muestreo Bernoulli (BE) . . . . . . . . . . . . . . . . . . . . . . 92
5.5. Muestreo Aleatorio Simple (SI) . . . . . . . . . . . . . . . . . . 95

6. Estimadores y sus propiedades estadsticas basicas 98


6.1. Estimadores comunes . . . . . . . . . . . . . . . . . . . . . . . 99
6.2. Distribucion muestral de un estimador . . . . . . . . . . . . . . . 101
6.3. Los Estimadores y sus propiedades . . . . . . . . . . . . . . . 111
6.4. El estimador bajo el diseno BE . . . . . . . . . . . . . . . . . 122
6.5. El estimador bajo el diseno SI . . . . . . . . . . . . . . . . . . 124
6.6. El efecto de diseno . . . . . . . . . . . . . . . . . . . . . . . . . 126

7. Que tamano de muestra utilizar? 129


7.1. Tamano de muestra para una media bajo muestreo SI asumiendo
normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.2. Tamano de muestra para una media bajo muestreo SI sin asumir
normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.2.1. Utilizando el coeficiente de variacion . . . . . . . . . . . 135
7.2.2. Utilizando la desigualdad de Tchebychev . . . . . . . . . 136

Departamento de Estadstica v
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

7.3. Tamano de muestra para una proporcion bajo muestreo SI asu-


miendo normalidad . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.4. Tamano de muestra para una proporcion bajo muestreo SI sin
asumir normalidad . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.5. Cuando se puede considerar a N grande? . . . . . . . . . . . . 139
7.6. El efecto del diseno: ajuste del tamano de muestra . . . . . . . . 141
7.7. Ajuste del tamano de muestra por la tasa de respuesta . . . . . . 142
7.8. Comentarios finales sobre el tamano de muestra . . . . . . . . . 143

8. Estratificacion 144
8.1. Introduccion a la estratificacion . . . . . . . . . . . . . . . . . . 145
8.1.1. Como se ve la estratificacion en otros textos y como la
trataremos? . . . . . . . . . . . . . . . . . . . . . . . . 145
8.1.2. De que se trata la estratificacion? . . . . . . . . . . . . 145
8.1.3. Utilidad y usos de la estratificacion . . . . . . . . . . . . 146
8.1.4. Estratificar o no estratificar? . . . . . . . . . . . . . . . 147
8.1.5. La peor de las situaciones . . . . . . . . . . . . . . . . . 148
8.1.6. Concepcion equivocada y muy usada al estratificar . . . . 148
8.2. Hay una buena estratificacion? . . . . . . . . . . . . . . . . . . 149
8.3. El numero de estratos . . . . . . . . . . . . . . . . . . . . . . . 151
8.4. El tamano de muestra asociado a la poblacion a partir del tamano
de muestra asociado a los dominios de estimacion . . . . . . . . 152
8.5. Muestreo PPT o mejor estratificar? . . . . . . . . . . . . . . . 154
8.6. Notacion y uso de la estratificacion . . . . . . . . . . . . . . . . 155
8.6.1. El diseno de muestreo aleatorio simple estratificado, STSI 158
8.6.2. Sobre la estimacion de un total y una media con estrati-
ficacion: un error comun . . . . . . . . . . . . . . . . . . 160
8.7. Afijacion, asignacion o distribucion de muestra en estratos . . . . 161
8.7.1. Una funcion de costos . . . . . . . . . . . . . . . . . . . 165
8.7.2. Distribucion Optima . . . . . . . . . . . . . . . . . . . . 166
8.7.3. Distribucion de Neyman . . . . . . . . . . . . . . . . . . 167

Departamento de Estadstica vi
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

8.7.4. Distribucion proporcional . . . . . . . . . . . . . . . . . 168


8.7.5. Distribuciones alternativas . . . . . . . . . . . . . . . . . 168

9. Conglomeracion 170
9.1. Introduccion a la conglomeracion . . . . . . . . . . . . . . . . . 171
9.1.1. Como se ve la conglomeracion en otros textos y como la
trataremos? . . . . . . . . . . . . . . . . . . . . . . . . 171
9.1.2. Que problemas soluciona o que facilita la conglomera-
cion? Su utilidad... . . . . . . . . . . . . . . . . . . . . . 172
9.1.3. En que consiste el muestreo por conglomerados? . . . . 174
9.1.4. En que consiste el muestreo en dos etapas? . . . . . . . 175
9.1.5. En que consiste el muestreo multi-etapico? . . . . . . . 176
9.2. Estimacion de totales y medias con conglomeracion . . . . . . . 177
9.3. Muestreo de conglomerados unietapico . . . . . . . . . . . . . . 179
9.4. Muestreo de conglomerados unietapico aleatorio simple (SIC) . . 185
9.4.1. El coeficiente de homogeneidad . . . . . . . . . . . . . . 186
9.5. Muestreo bietapico . . . . . . . . . . . . . . . . . . . . . . . . . 189
9.5.1. Muestreo bietapico de elementos . . . . . . . . . . . . . 193
9.5.2. Muestreo bietapico de elementos: diseno auto-ponderado . 198
9.6. Post-Estratificacion, ajuste o calibracion de factores de expansion 201

IV Apendices 203
Relacion entre distribuciones de probabilidad . . . . . . . . . . . . . . 204
Smbolos pch para graficos en R . . . . . . . . . . . . . . . . . . . . . 205
Varianzas hipoteticas de algunas distribuciones (Kish, 1965) . . . . . . 206
Teorema Central del Lmite, Velocidad de convergencia a una Normal,
Aproximaciones a la varianza de una variable, Desigualdad de
Tchebychev (Mendez, Eslava & Romero, 2004) . . . . . . . . . . 207

Departamento de Estadstica vii


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

V Sesiones practicas en R 212

VI Ejercicios 240
Ejercicios de Analisis Exploratorio de Datos . . . . . . . . . . . . . . . 241
Ejercicios de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 245

Departamento de Estadstica i
Parte I

Informacion sobre el curso

ii
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Contenido general del curso

Bloque de Contenidos I. Estadstica Aplicada, Analisis Exploratorio de


Datos y Computo con R.

Introduccion a la Estadstica Aplicada.

Motivacion al curso. Importancia del los conceptos del curso.


Definicion, objetivo y ramas de la Estadstica.
Tipos de datos (variables) y escalas de medicion.

Analisis Exploratorio de datos y Estadstica Descriptiva.

Distribuciones de frecuencia. Descripcion de poblaciones.


Medidas de tendencia central, dispersion y orden. Medidas de asocia-
cion lineal.
Diagramas de punto, de dispersion, de tallo y hojas, histogramas, de
probabilidades (Q-Q).

Introduccion a R.

Manipulacion y tipos de datos con R. Importacion de datos con R.


Estadsticos descriptivos, graficos y analisis exploratorio de datos uni-
variados con R.
Exportacion de resultados numericos y graficos en otros formatos.

Bloque de Contenidos II. Muestreo.

Introduccion al muestreo.

El enfoque particularizado vs. generalizado en el muestreo.

Departamento de Estadstica iii


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Teora de muestreo bajo el enfoque generalizado de los estimadores


o de Narain-Horvitz-Thompson (probabilidades arbitrarias).
Nocion de factor de expansion.
Muestreo aleatorio simple.

Distribucion muestral de un estimador.

Propiedades de los estimadores. La varianza del estimador, errores


estandares. Calidad de estimaciones. Coeficiente de variacion.
Calidad de un esquema de muestreo especfico. El efecto de diseno.

Calculo de tamano de muestra. Estimacion en dominios o subpoblaciones.

Estratificacion. Metodos de asignacion (afijacion) de muestra.

Conglomeracion. Muestreo en dos etapas. Introduccion al muestreo en mas


de dos etapas.

Introduccion al muestreo con probabilidades proporcionales al tamano.


Ventajas, desventajas y precauciones.

Sobre disenos de muestreo autoponderados, post-estratificacion y conse-


cuencias de suponer muestreo aleatorio simple en la estimacion cuando
este no fue utilizado en la extraccion de la muestra.

Introduccion al muestreo complejo con paquetes estadsticos (SPSS o de


preferencia R).

Planteamiento de problemas practicos y comunes de muestreo complejo.

Departamento de Estadstica iv
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Objetivo del curso

Conocer los principales conceptos de la estadstica aplicada, los metodos del


analisis exploratorio de datos y los fundamentos de las tecnicas de muestreo. Se
hara especial enfasis en la teora de muestreo contemporanea bajo una perspec-
tiva unificada y generalizada. Se discutiran ejemplos y casos. Se combinara con
ejemplos practicos de computo.

Conocimientos previos que son necesarios

Es deseable que los alumnos cuenten con los siguientes conocimientos previos
mnimos:

Algebra (conjuntos, doble sumas, conocimientos de conteo),

Calculo de probabilidades (distribuciones de probabilidad basicas, calculo


de probabilidades, funcion de densidad Bernoulli y Normal),

Inferencia estadstica (deseable - estimacion puntual, intervalos de con-


fianza, pruebas de hipotesis, pruebas de significancia),

Nociones de uso y/o programacion en R (deseable).

Departamento de Estadstica v
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Referencias bibliograficas del curso

Las referencias del curso para la parte I es:

Crawley, M. J. (2012). The R Book. 2nd ed. Wiley.

Departamento de Estadstica ITAM. (2006). Fundamentos de probabilidad


y estadstica. 2da. Edicion. Just in Time Press.

Rice, J. A. (2006). Mathematical Statistics and Data Analysis. 3rd. Edition.


Duxbury Press.

Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with


S. 4th Edition. Springer.

Verzani, J. (2005). Using R for Introductory Statistics. Chapman & Hall.

Y la referencia base del curso para la parte II, de muestreo:

Sarndal, C.-E., Swensson, B. & Wretman, J. (2003). Model Assisted Survey


Sampling. Springer-Verlag.

Departamento de Estadstica vi
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Referencias adicionales de muestreo. (Tradicionales, enfoque particularizado):


Deming(1950) (Algo ilustrativo pero ya muy anticuado).

Kish(1965) (Un clasico - Muy bueno en lo que atane a consejos y resolu-


cion de problemas practicos - Mejor consultarlo despues del Sarndal).

Raj(1968).

Kish(1972) (Traduccion al Espanol difcil de encontrar a la venta).

Cochran(1977) (Un clasico - Anticipa varios problemas teoricos serios a


los que se enfrentara un muestrista - Consultarlo despues del Sarndal).

Sukhatme(1984).

Kish(1987) (Varios detalles importantes para investigacion).

Mendez, Eslava & Romero(2004)(Ayuda mucho a tener una vision rapida


y sencilla sobre conceptos basicos - Mejor consultarlo despues del Sarndal).

Y tambien nos apoyaremos en pasajes o ejemplos de:


Pfeffermann, D. & Rao, C. R. (eds.) (2009). Handbook of Statistics 29A.
Sample Surveys: Designs, Methods and Applications. North-Holland.

Lohr, S. L. (1999). Sampling: Design and Analysis. Duxbury Press.

Caractersticas generales de la bibliografa que utilizaremos:


El libro base ofrece un enfoque o perspectiva unificada del muestreo.

El libro es rico en conceptos estadsticos pero a la vez no es de alto nivel


matematico (al menos en los captulos que tocaremos en este curso).

Y algo importante para este curso en particular, el planteamiento


de este libro es el mismo que utiliza cualquier software especiali-
zado de muestreo.

Departamento de Estadstica vii


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Software estadstico

Utilizaremos primordialmente R.

Es gratuito. Esta en la Comprehensive R Archive Network (CRAN-ITAM):

http://www.r-project.org/

Este sera el paquete estadstico basico.

Por que R? Por que es el mejor. Para acabar pronto... terminaran utilizando R
en algun momento. Empiecen desde ahora. Vamos de la mano.

Si hay tiempo, podramos utilizar tambien software comercial de amplia distri-


bucion como SPSS de IBM o cualquier otro.

Son libres de utilizar el software que prefieran. Por supuesto, se sugiere


utilizar R.

Departamento de Estadstica viii


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Calendarizacion del curso

El curso esta compuesto de:

Numero de sesiones: 33 sesiones en total

Enero: 6 sesiones, 18 %, Acum. 18 %

Febrero: 8 sesiones, 24 %, Acum. 42 %

Marzo: 8 sesiones, 24 %, Acum. 66 %

Abril: 7 sesiones, 21 %, Acum. 87 %

Mayo: 4 sesiones, 13 %, Acum. 100 %

Asueto/Descansos: 15 y 17 de Abril; 01 de Mayo.

Duracion de sesion: 1.5 horas (17:30-19:00 hrs. Martes y Jueves)

Total de horas: 49.5 horas efectivas en aulas

Dado el contenido general del curso (en la pagina iii), sera practicamente
imposible repasar o regresar a lo visto en la clase anterior.

Departamento de Estadstica ix
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Horario de atencion a alumnos

Lunes de 12:00 a 13:15 horas


Martes de 12:00 a 13:15 horas
Miercoles de 12:00 a 13:15 horas
Jueves de 12:00 a 13:15 horas

Departamento de Estadstica x
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Evaluacion del curso

Asistencia Individual 5%
Ex. Parcial 1() Individual Febrero 13 15 %
()
Ex. Parcial 2 Individual Marzo 20 20 %
Ex. Parcial 3() Individual Abril 29 25 %
()
Ex. final Individual Mayo 35 %
Notas:
()
Los examenes son estrictamente individuales, el examen
final es acumulativo y debe tener calificacion aprobatoria.
Adicionalmente, habran tareas opciones que valdran (en total) 3 a 5 %,
mas dependiendo de cuantas son. Traten de hacerlas para ayudarse.

No hay cambios a las fechas de los examenes.

No se confen... Recuerden que tienen que utilizar tiempo de estudio adicional a


su clase... (lectura, repaso, ejercicios)

No sera suficiente que solo vengan a ver la clase. Se trata de que se involucren
en el tema y maduren conceptos.

Departamento de Estadstica xi
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

De las practicas fraudulentas (licenciatura)

Para preservar la armona y el correcto desarrollo del curso nos apegaremos al


reglamento del ITAM. No habra negociacion.

Recuerden...

Sobre los telefonos

No utilizar el telefono por favor (smartphones). Distrae.

Departamento de Estadstica xii


Parte II

Estadstica Aplicada y Analisis


Exploratorio de datos

1
CAPITULO 1

Introduccion a la Estadstica Aplicada

2
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

1.1. Estadstica

1.1.1. Definicion

Rama de las matematicas que comprende un conjunto de tecnicas que


se encargan de la coleccion, organizacion, analisis e interpretacion de datos
que presentan variabilidad o incertidumbre.

No es una ciencia, se desprende de las Matematicas que s es una ciencia.

1.1.2. Partes o subdivisiones

A su vez, la Estadstica se subdivide en varias partes o especialidades, e.g.:

- Estadstica descriptiva.
- Analisis exploratorio de datos.
- Estadstica no parametrica.
- Inferencia estadstica y estadstica parametrica.
- Estadstica multivariada (componentes principales, escalamiento mul-
tidimensional).
- Analisis multivariado de datos (componentes principales, analisis de
factores, analisis discriminante, arboles de regresion).
- Analisis multivariado de datos categoricos (arboles de decision, anali-
sis de correspondencia, analisis de correspondencias multiples).

Departamento de Estadstica 3
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

- Muestreo (design-based, model-based).


- Diseno de experimentos (analisis observacional, metodos de captura
y recaptura).
- Modelos lineales (regresion lineal simple, regresion lineal multiple).
- Modelos lineales generalizados (regresion logstica, regresion ordinal,
regresion Poisson, regresion Probit, regresion log-log, regresion Tobit,
regresion zero-inflada, regresion binomial negativa, etc.).
- Modelo lineal general.
- Modelos jerarquicos.
- Modelos no lineales.
- Series de tiempo.
- Analisis de supervivencia.
- Simulacion estocastica.
- Computo estadstico.
- Estadstica Bayesiana.
- Estadstica Fiducial.
- etc...

1.2. Variables, datos y escalas

1.2.1. Definiciones

La materia prima con la que estaremos trabajando son los datos y sus
terminos relacionados.

Departamento de Estadstica 4
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Las siguientes definiciones pueden variar segun la aplicacion o fenomeno


de estudio.

Datos. Mediciones o en general observaciones documentadas que recolec-


tamos de un experimento o fenomeno.

Es decir, los datos son las diferentes mediciones que obtenemos al observar
cierta caracterstica en cada una de las unidades experimentales.

Unidad experimental. Puede referirse a seres, cosas o periodos de tiempo.

Variables de respuesta o variables. Es el registro u organizacion de los


datos de modo que conforman la caracterstica observada en una poblacion
de estudio.

En un conjunto de datos, idealmente se debera definir la utilidad de cada


variable antes de capturarla y considerando el tipo de analisis estadstico
que se llevara a cabo.

A veces las variables son tan complejas que resulta difcil su definicion,
que tiene que ser inequvoca.

Ejemplos de variables difcil de definir?

Departamento de Estadstica 5
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

A veces las variables que interesan no estan disponibles. No al menos de


manera directa porque son multifactoriales.

Ejemplos de variables multifactoriales de interes no disponibles de manera


directa?

Entonces, tenemos un dato para cada unidad experimental y para cada


variable respuesta.

Que valores pueden tomar estos datos?

1.3. Tipos de datos

Hay dos tipos de datos (y por consiguiente tipos de variables):

1. Datos cualitativos.

2. Datos cuantitativos.

Departamento de Estadstica 6
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

1.3.1. Datos cualitativos

Denotan cualidades o atributos de las unidades experimentales.

Pueden clasificarse en un numero finito de categoras o clases.

Las categoras deben ser mutuamente excluyentes y exhaustivas.

Es decir, cada unidad experimental debe ser clasificada en 1 y solo 1 de las


categoras. Todas las unidades deben pertenecer a alguna clase. En caso
de existir ambiguedad, esta debe resolverse de manera unica.

Ejemplos?

1.3.2. Datos cuantitativos

Representan respuestas con significado numerico.

Obtenidos de un proceso de conteo o medicion.

Departamento de Estadstica 7
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Si son resultado de un conteo se denominan datos discretos.

Si vienen de un proceso de medicion se denominan datos continuos.

De manera mas formal, son datos continuos si entre cualesquiera 2 dos


valores potencialmente observables, puede estar otro valor potencialmente
observable.

Notar que los conteos pueden tambien representarse de manera continua


si se expresan en terminos de porcentajes.

Ejemplos?

Categorizacion. Los datos cuantitativos pueden a veces re-expresarse o


agruparse de modo que se obtengan clases o categoras. Y entonces se
pueden utilizar otras tecnicas estadsticas para datos categoricos.

Que tan bueno es hacer esto ultimo? Depende de la escala, lo veremos...

Ejemplos?

Departamento de Estadstica 8
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

1.4. Escalas de medicion

Dependiendo del detalle y precision, los valores medidos de las variables de


respuesta pueden clasificarse en niveles.

Por supuesto, dependiendo de tales escalas dependera cual tecnica es-


tadstica es posible emplear.

Los niveles de las escalas son:

(a) Escala nominal.

El mas bajo nivel de medicion.


Se realiza la operacion mas basica y sencilla: clasificar en categoras.
No es posible establecer una relacion de orden entre las categoras.
Solo es posible decir si la observacion pertenece o no a cierta cate-
gora.
Ejemplos?

(b) Escala ordinal.

Igual que la escala nominal pero ahora con la presencia o estableci-


miento de un orden entre las categoras.
No es posible hacer operaciones aritmeticas usuales.
Ejemplos?

Departamento de Estadstica 9
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

(c) Escala de intervalo.

Los valores no solo se clasifican sobre la base del grado de posesion del
atributo sino que ademas es posible medir exactamente la intensidad
con la que se posee esa caracterstica.
Se requiere de una unidad de medida aceptada.
El origen o cero se establece sobre la base de conveniencias practicas.
No necesariamente implica ausencia de atributo.
Es posible hacer operaciones de suma o resta.
Ejemplos?

(d) Escala de razon.

Igual que el anterior pero ademas es posible situar un punto cero


absoluto no arbitrario y fijo, donde cero implica ausencia del atributo.
Es posible hacer operaciones de suma, resta, producto, cociente.
Es posible comparar mediante proporciones o razones.
Ejemplos?

Notar que las escalas son acumulativas, es decir, una escala ordinal posee
todas las propiedades de una escala nominal. Y as sucesivamente...

Una escala de razon es mas fuerte que una escala nominal porque posee
mas informacion.

Departamento de Estadstica 10
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Siempre sera posible transformar datos que se encuentran en cierta escala


a una mas debil.

Entonces como sera la relacion entre escalas y tipos de datos?

Departamento de Estadstica 11
CAPITULO 2

Analisis Exploratorio de Datos

12
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.1. Analisis Exploratorio de Datos

2.1.1. Algo de historia del Analisis Exploratorio de Datos

Originalmente la Estadstica en sus comienzos (hace alrededor de 400


anos), era casi solo registro y resumen de datos.

La descripcion de los datos acompanada de graficos era ocasional.

Con el desarrollo del calculo y la probabilidad, la Estadstica dejo de ser


unicamente descriptiva y se torno en una herramienta inferencial o de
induccion (principios s. XIX).

Los metodos descriptivos quedaron casi en el olvido o pasaron a un se-


gundo plano como visualizacion de resultados obtenidos por procedimientos
analticos o inferenciales.

Debate entre el hecho de que los resultados obtenidos graficamente eran


suficientes y muchas veces no era si quiera necesario tener procedimientos
inferenciales.

Llegada de John W. Tukey, que crea metodos grafico-numericos novedosos.


Publicacion del libro Exploratory Data Analysis (1977). Conocido como
EDA.

Departamento de Estadstica 13
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Renacimiento del uso de graficos antes o al comienzo del analisis de un


conjunto de datos.

De enorme utilidad ante datos multivariados.

Departamento de Estadstica 14
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.1.2. Objetivo del Analisis Exploratorio de Datos

El principal objetivo del EDA es hacer hablar a los datos.

No hay supuestos probabilsticos (principal fortaleza).

Su simplicidad, o evidencia, convierte al EDA en una herramienta muy


poderosa.

Puede echar abajo cualquier otra teora aunque sea muy sofisticada
(supuestos, graficos de residuales, supuestos de Normalidad, etc).

Ejemplo de un grafico de dispersion de Y vs. X antes de una regresion.

Describir de manera rapida y resumida un conjunto de datos.

Ver la solucion de un problema estadstico.

Detectar particularidades en los datos que pudieran afectar adversamente


los procedimientos estadsticos inferenciales tradicionales.

Departamento de Estadstica 15
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Senalar caractersticas que nos hagan conocer mas el fenomeno (observaciones


atpicas).

Despues al EDA, la inferencia estadstica surge naturalmente (confirma,


desecha, cuantifica diferencias o asociaciones encontradas previamente).

Ambos campos, el exploratorio y el inferencial se refuerzan mutuamente.

Departamento de Estadstica 16
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.2. EDA para variables cualitativas

2.2.1. Tablas de frecuencia

Contiene las frecuencias (conteos, apariciones) de cada categora.

Pueden ser frecuencias absolutas o frecuencias relativas.

Frecuencia absoluta: numero de veces en que se observo cierta categora

Frecuencia relativa: divide la frecuencia absoluta entre el total de ob-


servaciones. Regularmente se expresan en porcentaje (multiplicandolas por
100).

A las tablas de frecuencia se les conoce tambien como distribuciones de


frecuencia.

Entonces, una tabla de frecuencia me muestra dos cosas:

1. Todos los posibles valores que puede tomar una variable categorica.

2. La frecuencia.

Implementacion en R: ver clase practica.

Departamento de Estadstica 17
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.2.2. Diagramas circulares (pastel)

Compara las partes que componen una entidad con la entidad completa.

Regularmente expresados en porcentaje.

Implementacion en R: ver clase practica.

2.2.3. Diagramas o graficos de barras

Despliega grafico de frecuencias (relativas o absolutas).

Implementacion en R: ver clase practica.

Departamento de Estadstica 18
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.3. EDA para variables cuantitativas

2.3.1. Diagramas de punto

Sirven para exhibir graficamente un conjunto de datos cuantitativos.

Se puede apreciar el numero de veces en que se presenta cada valor en el


conjunto de datos.

Se hacen evidentes:

Observaciones atpicas: Valores observados sustancialmente grandes


o pequenos con respecto al resto del conjunto.
Huecos: Espacios grandes entre conjuntos de puntos.
Perfil de la distribucion: Valores que son mas frecuentes.

Faciles de construir e interpretar si el numero de observaciones es pequeno,


digamos 25. De lo contrario se pierde claridad.

Implementacion en R: ver clase practica.

Departamento de Estadstica 19
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.3.2. Diagramas de tallo y hojas

Con este diagrama se obtienen dos cosas:

Un orden de los datos.


Una idea de la distribucion de los datos.

Nos permite determinar:

Alejamiento de los datos entre s.


Concentracion de observaciones.
Si existen muchos datos cuyos valores se alejan mucho del resto del
conjunto.
Simetra.
Si hay grupos aislados de observaciones.

Pasos para hacer un diagrama de tallo y hojas a mano:

1. Hallar el maximo y el mnimo.


2. Determinar la regla para los tallos y las hojas.
3. Ordenar los tallos de arriba hacia abajo.
4. Por cada dato ingresar una hoja (sin orden)
5. Ordenar las hojas de izquierda a derecha.

Adecuaciones si queda muy largo hacia la derecha: abrir o amplificar los


niveles en los tallos.

Departamento de Estadstica 20
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Implementacion en R: ver clase practica.

2.3.3. Distribucion de frecuencias de variables discretas

Las distribuciones de frecuencias de variables discretas es igual a lo que


vimos para variables categoricas.

En este caso, las categoras son los valores discretos que toma la variable.

Es decir, en la construccion necesitamos contar apariciones (comando ta-


ble(), recuerdan?) para determinar las frecuencias absolutas y relativas.

De modo que podemos notar los valores mas frecuentes, concentraciones,


alejamientos, simetra, etc... darnos una idea de como estan distribuidos
los datos.

Implementacion en R: ver clase practica.

Departamento de Estadstica 21
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.3.4. Histogramas o distribucion de frecuencias de varia-


bles continuas

Las distribuciones de frecuencias de variables continuas no puede hacerse


de manera directa. Por que?

Necesitamos la construccion de intervalos cuantos intervalos? de que lon-


gitud? de igual longitud o de diferente longitud?

A los intervalos de igual longitud se les suele llamar intervalos de clase

Notar que si se cambian los anchos de los intervalos de clase, la distribucion


de frecuencias puede cambiar.... Hay metodos con algunos criterios de
optimalidad, pero es algo con lo que tienen que vivir.

Entonces, un histograma es una representacion grafica (barras) de estas


frecuencias... Las frecuencias de los intervalos de clase.

Con los histogramas podemos ver:

Simetra
Sesgo
Bimodalidad
Observaciones atpicas

Departamento de Estadstica 22
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Huecos
Etc...

Graficos analogos: Polgono de frecuencias, Ojiva (frecuencias relativas acu-


muladas).

Implementacion en R: ver clase practica.

Departamento de Estadstica 23
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.4. Estadsticos Descriptivos: Medidas de ten-


dencia central

Nos hemos dado una idea de la distribucion de los datos para algunas
variables utilizando frecuencias, histogramas, barras, pasteles, puntos, etc.

Existe otro tipo de descripciones no graficas que estan basadas en unos


numeros resumen o estadsticos descriptivos. Estos proporcionan as-
pectos relevantes de los datos.

Por ejemplo, hemos visto en algunos ejercicios practicos como los datos se
amontonan o se aglomeran alrededor de cierto valor.

Nos interesa ese valor, esa tendencia central y tambien nos interesan
medidas de variabilidad con respecto a ese valor.

Ejemplo de motivacion: Los 2 estudiantes.

Nos interesan estadsticos que resuman... summary statistics.

Departamento de Estadstica 24
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Fuente: Gonick & Smith, 1993

2.4.1. La media

Es la medida de tendencia central mas comun.

Es el promedio aritmetico de un conjunto de mediciones (suma de todas


las observaciones dividida entre el numero de observaciones).

Conceptualmente, sabemos que existe una media poblacional. Que no co-


nocemos pero que esta ah y la podemos definir. Se suele denotar por
:
N
1 X
= Xk
N k=1

La media muestral o promedio muestral se suele denotar por x


n
1X
x = xk
n k=1

Departamento de Estadstica 25
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

En que casos conviene utilizar la media como medida de tendencia central


y en que casos no?

Alguna alternativa?

Departamento de Estadstica 26
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.4.2. La mediana
Es el percentil del 50 % (veremos percentiles mas adelante).

Es el valor que, una vez ordenados los datos, los divide en 2 partes con
mismo numero de observaciones.

En otras palabras, una vez obtenida la mediana, el 50 % de los datos estan


por debajo o igual a ese valor y el 50 % estan por arriba.

En textos, regularmente se denota a la mediana poblacional (la que no


conocemos pero que sabemos existe) con una M y a la mediana muestral
con una m.

Ejemplo:

Departamento de Estadstica 27
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.4.3. Percentiles o medidas de posicion


Si queremos describir todava mas a una distribucion emprica, estan los
percentiles.

Con ellos podemos comparar dos distribuciones, por ejemplo. O focalizarnos


en los extremos o en algun lugar especifico de una distribucion.

Para entender los percentiles, la forma mas facil es explicar los percentiles
mas utilizados... Veamos primero estos y luego regresamos a los percentiles.

As como el percentil 50 es la mediana, que corta en 2 nuestra distribucion,


nos interesan tambien aquellas medidas que cortan en 4 partes nuestra
distribucion. Estos son los cuartiles.

Cuartiles. Son valores que dividen al conjunto de observaciones ordenadas


en cuatro partes.

Son las abscisas que tienen por debajo al 25 %, 50 % (mediana), y el 75 %


de los valores de la distribucion de frecuencias.

El cuartil inferior o primer cuartil. Es aquel que acumula 25 % de las ob-


servaciones. Notar que este sera la mediana de los datos inferiores a la
mediana original con todos los datos.

El cuartil superior o tercer cuartil. Es aquel que acumula 75 % de las ob-


servaciones.

De modo que los percentiles es la generalizacion de lo anterior para cual-


quier porcentaje acumulado.

Existe tambien el concepto de deciles. Ya se imaginaran...

Departamento de Estadstica 28
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Ejemplo, a partir de un diagrama de hoja y tallo.

Suponga que tiene 31 observaciones que producen el siguiente diagrama:

Cual es la mediana?

Cual es el primer cuartil?

Cual es el tercer cuartil?

Y el segundo cuartil?

Y el primer decil?

Departamento de Estadstica 29
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.4.4. Interpretacion geometrica de la media

Departamento de Estadstica 30
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.5. Estadsticos Descriptivos: Medidas de dis-


persion

Hemos podido resumir el sentido de un conjunto de datos pero aun nos


falta dar medidas de dispersion para caracterizarlo bien.

Recuerden el ejemplo de los estudiantes. Nos interesa que tan dispersos


estan los datos con respecto, regularmente, a las medidas de tendencia
central como la media.

Amplitud o Rango (R): Es la medida de dispersion mas simple de todas.

Mide la distancia entre el maximo y el mnimo de los valores observados.

R = Amplitud = valor maximo - valor mnimo

De modo que podemos comparar dos distribuciones de datos. Nos podemos


dar cuenta cual esta mas dispersa. Esto sera bueno o malo segun lo que
estamos estudiando.

Amplitud Intercuartlica (AI): Es la distancia que hay entre los cuartiles


1 y 3.

AI = q3 - q1

Departamento de Estadstica 31
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Luego tenemos a la siguiente medida basada en las desviaciones de cada


valor con respecto a la media.

Varianza ( 2 ): (Poblacional) Suma las desviaciones cuadraticas de las


observaciones con respecto a la media poblacional y las divide entre el
numero de observaciones en la poblacion.

N
2 1 X
= (Xk )2
N k=1

Por que esta definicion?

Por que desviaciones al cuadrado? Que pasa si no tenemos ese cuadrado?

Si lo que tenemos es una muestra o subconjunto de datos observados de


la poblacion. Entonces tenemos a la varianza muestral
n
2 1 X
s = (xk x)2
n 1 k=1

Esa varianza muestral nos sirve para estimar la varianza poblacional. Es


posible demostrar que se obtiene una mejor estimacion utilizando n 1 en
lugar de n.

Departamento de Estadstica 32
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Notar que las unidades en que se expresa la varianza son el cuadrado de


las unidades originales, por lo que se acostumbra aplicar la raz cuadrada a
las definiciones anteriores para tener una medida de dispersion que tenga
las unidades originales.

Obtenemos entonces la desviacion estandar ( y s)



= 2

y

s = s2

Coeficiente de Variacion (CV): Este mide la dispersion relativa de un


conjunto de datos. Relativiza la dispersion con respecto a la media.


CV =

Relativizar? Ejemplo de los millones de dolares.

De modo que podemos expresar la dispersion en terminos de la media


(porcentaje), con la gran ventaja de que este coeficiente es independiente
de las unidades de medicion por que?

Entonces por eso resulta muy util para hacer comparaciones de variabilidad
en diversos datos.

Departamento de Estadstica 33
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Ejemplo (datos de la sesion practica en R): Billetes suizos (francos viejos).

Tenemos un conjunto de datos con 200 observaciones. Se trata de mediciones de


billetes suizos. La mitad de las observaciones son de billetes genuinos mientras
que la otra mitad se trata de billetes falsos.

Se midieron las siguientes variables que se expresan en el dibujo:

X1 = Largo del billete.

X2 = Ancho izquierdo del billete.

X3 = Ancho derecho del billete.

X4 = Margen inferior de la figura del billete.

X5 = Margen superior de la figura del billete.

X6 = Diagonal del billete.

Departamento de Estadstica 34
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.5.1. Diagramas de Caja y Brazo

Ver clase practica en R.

Importante saber los nombres y como se construye cada elemento del grafi-
co.

2.5.2. Diagramas de Dispersion

Ver clase practica en R.

Importante saber los nombres y como se construye cada elemento del grafi-
co.

2.5.3. Diagramas de Burbujas

Ver clase practica en R.

Importante saber los nombres y como se construye cada elemento del grafi-
co.

Departamento de Estadstica 35
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.5.4. Diagramas de Estrella

Ver clase practica en R.

Importante saber los nombres y como se construye cada elemento del grafi-
co.

2.5.5. Graficos de Violn

Ver clase practica en R.

2.5.6. Graficos de probabilidades (Q-Q plots)

Ver clase practica en R.

Departamento de Estadstica 36
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2.6. Estadsticos Descriptivos: medidas de aso-


ciacion lineal

Ya vimos graficamente algo sobre asociacion de variables utilizando dia-


gramas de dispersion.

Para medir la asociacion de dos variables se tiene el coeficiente de co-


rrelacion

Motivemos graficamente al coeficiente de correlacion en el pizarron...

Entonces tenemos a la covarianza muestral entre X y Y definida como:


n
1 X
Cov(X, Y ) = (xi x)(yi y)
n 1 i=1

Tiene como unidades el producto de las unidades de X por las unidades


de Y .

En la practica resulta conveniente eliminar la dependencia de la covarianza


con las unidades de medicion de las variables. Entonce se divide la cova-
rianza entre el producto de las desviaciones estandar de cada variable.

Departamento de Estadstica 37
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Se obtiene entonces lo que se denomina coeficiente de correlacion mues-


tral, usualmente abreviado como r,
Pn
i=1 (xi x)(yi y)
Corr(X, Y ) = r =
sX sY

Entonces r ya no depende de unidades.... Ejemplo...

|r| 1

Se le suele tambien llamar coeficiente de correlacion lineal, porque la aso-


ciacion que mide es lineal.... Grafico en el pizarron.

De modo que si hay algun otro tipo de asociacion entre las variables en
cuestion, esta pasara inadvertida por r.

Por ello, como vimos en la clase practica pasada, hay que acompanar de
graficos nuestras conclusiones.

Importante: Ni los diagramas de dispersion, ni el coeficiente de correlacion


deben tomarse como evidencia de causalidad.

Para concluir causalidad, se requiere de informacion externa de un experto


en el fenomeno estudiado.

Departamento de Estadstica 38
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Resumiendo:

La covarianza es una medida de dependencia o asociacion.

La covarianza mide solo dependencia lineal.

La covarianza es dependiente de la escala utilizada (unidades de medicion).

Covarianza cero no implica independencia.

La independencia implica covarianza cero.

Una covarianza negativa corresponde a un grafico de dispersion con pen-


diente negativa.

La covarianza de una variable consigo misma es la varianza de la variable.

La correlacion es una medida de dependencia o asociacion estandarizada.

Departamento de Estadstica 39
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

El valor absoluto de la correlacion siempre sera menor o igual a 1.

La correlacion solo mide dependencia lineal.

Existen dependencias no-lineales que tienen correlacion cero.

Una correlacion cero no implica independencia.

Independencia implica correlacion cero.

Una correlacion negativa corresponde a una pendiente negativa en un dia-


grama de dispersion.

Una correlacion positiva corresponde a una pendiente positiva en un dia-


grama de dispersion.

Departamento de Estadstica 40
Parte III

Introduccion al Muestreo

41
CAPITULO 3

El objetivo del muestreo y el marco muestral

42
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.1. El objetivo del muestreo

Hay una poblacion finita (conjunto de elementos) de la cual nos in-


teresa conocer alguna(s) caracterstica(s).

Nos aproximaremos a esta poblacion mediante una muestra (subconjunto


de elementos).

Se trata entonces de inferir sobre ciertas propiedades de una pobla-


cion a partir de la informacion parcial de esta.

Departamento de Estadstica 43
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.2. El objetivo del muestreo: grafico

Departamento de Estadstica 44
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.3. Inferir o generalizar...

3.3.1. Siempre inferimos, siempre generalizamos...

Notemos que siempre estamos infiriendo.

No podemos estar experimentando exhaustivamente todas las cosas o


vivencias... inferimos a partir de una pequena muestra.

Probamos y luego decidimos, inferimos sobre el resto.

Ejemplo: Enologa.... Otros ejemplos?

Como tenemos memoria, siempre estamos en proceso de induccion... ge-


neralizamos a partir de informacion parcial.

Departamento de Estadstica 45
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.3.2. Inferir es aprender?...

Ejemplo: Opiniones formadas.... Ustedes que creen?

Departamento de Estadstica 46
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.4. Inferir o generalizar sobre U a partir de s

3.4.1. Un ejemplo equivocado...


Un ejemplo del Lohr (1999).

En el libro: Mujeres y amor: Una revolucion cultural en progreso por Shere Hite
(1987) se encuentran los siguientes resultados:

84 % de las mujeres estan no satisfechas emocionalmente con su relacion


sentimental (p. 804)

70 % de todas las mujeres casadas 5 o mas anos tienen relaciones sexuales


fuera de sus matrimonios (p. 856)

95 % de las mujeres reportan formas de abuso emocional o psicologico de


parte de hombres con quienes estan en una relacion amorosa (p. 810)

84 % de las mujeres reportan formas de desden o indiferencia por parte de


los hombres en su relacion amorosa (p. 809)

Resultados citados y criticados bastante en Estados Unidos por periodicos y


revistas. Por que tan criticado? Sera informacion que ofende?

El estudio de Hite discute temas de interes, no obstante su error es generalizar a


todas las mujeres por el solo hecho de haber o no participado en su encuesta.

Departamento de Estadstica 47
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Tal generalizacion no es posible porque:

La muestra fue auto-seleccionada. Las mujeres que reciban el cuestiona-


rio por correo decidan si estaran en muestra o no. Hite mando 100,000
cuestionarios y solo le regresaron 4.5 %

Los cuestionarios llegaron mediante asociaciones profesionales de mujeres,


grupos de trabajo, iglesias, etc. y dejaron fuera a todas las demas mujeres
que no acudan a tales lugares

La encuesta tiene 127 preguntas abiertas y varias preguntas tenan varias


partes Quien tendera a contestar tales preguntas?

Muchas preguntas son vagas y usan palabras como amor. Un concepto


de muchas interpretaciones - sin criterios validos o comparables.

Muchas de las preguntas son tendenciosas. Por ejemplo: Tu esposo/amante


te ve como igual? O hay veces en que parece que el te trata como alguien
inferior? O no te deja tomar decisiones? O actua superior? (p. 795)

Hite escribe: Es posible que una investigacion no basada en la probabilidad o


en una muestra aleatoria permita generalizar sus resultados a la gran poblacion?
Si el estudio es lo suficientemente grande y la muestra lo suficientemente amplia
y si una generaliza con cuidado, s. (p. 778)

Para un estadstico muestrista la respuesta es no. La muestra final no representa


a las mujeres de los Estados Unidos y los estadsticos obtenidos solo describen a
las mujeres que decidieron responder.

Departamento de Estadstica 48
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Entonces, por ejemplo...

son validos los sondeos por Internet?

son validos los cuestionarios por correo electronico a empleados de una


empresa?

son validas las generalizaciones que se hacen a partir de este tipo de


sondeos?

La respuesta es: s son validos. Lo que puede no ser valido son las genera-
lizaciones que se hagan.

Entonces, nos tenemos que fijar no solo en el instrumento o cuestionario,


sino quienes contestan, que se infiere o generaliza. Abusados.

Esto aunque simple es un abuso muy comun....

Departamento de Estadstica 49
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.4.2. Interpretacion: Foto o pronostico?

Los votantes probables... En que consiste?

La estimacion directa... En que consiste?

Que diferencia de interpretacion tiene?

Cual es mejor?

Departamento de Estadstica 50
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.5. Sobre los 3 grandes enfoques teoricos del


muestreo

Hay varias formas de resolver el mismo problema con matematicas.

El objetivo o problema de muestreo puede tambien resolverse de varias


formas.

Hay 3 principales enfoques o perspectivas, dependiendo de donde se en-


cuentra (o se asume) esta la estructura estocastica del problema.

Antes de definir cada enfoque... Vamos a ejemplificarlos..

Ejemplo: Observar el movimiento de una mano con un ojo y un tubo.

Departamento de Estadstica 51
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.5.1. Design-based approach


Lo importante: Como fue extrada la muestra?

El muestrista puede elegir como, lo crucial sera que considere este como a
la hora de estimar.

Otros nombres: muestreo a secas por colegas no expertos, muestreo ba-


sado en diseno, muestreo con enfoque aleatorizado, muestreo directo.

Fortalezas:

Objetividad. Si se hace de manera documentada, nadie puede cuestio-


nar la objetividad de la muestra, o el que haya o no sido seleccionada
de acuerdo a un diseno de muestreo.
No se confundan. Notar que la objetividad no esta ligada a la arbitra-
riedad del diseno de muestreo que elija el muestrista (e.g. una vez de
acuerdo todos en como se extraera la muestra no hay subjetividad).
La aparente confusion es un argumento mal utilizado para atacar este
enfoque.
Exactitud (insesgamiento). Y conforme se aumente el tamano de
muestra se tendera al verdadero valor.

Debilidades:

Tamanos de muestra grandes. Para obtener buenas estimaciones se


requieren tamanos de muestra considerables o de plano muy grandes.
Elevados costos. Por el tamano de muestra grande necesita de mas
recursos economicos.

Departamento de Estadstica 52
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.5.2. Model-based approach


Asume la existencia de una super-poblacion U que genero a la poblacion
U que tenemos enfrente a traves de un modelo.

Lo importante: el modelo?

El muestrista tiene que elegir el modelo que impondra. El modelo determina


que partes son aleatorias y que parte no lo son, tambien la estructura
estocastica de la parte aleatoria.

Otros nombres: muestreo basado en modelos, muestreo con enfoque de


super-poblacion (areas pequenas, etc.).

Notar que el modelo se impone subjetivamente. Se impone un modelo a


algo que no se conoce.

Fortalezas:

Precision (estabilidad de las estimaciones).


Se pueden manejar tamanos de muestra muy pequenos o de plano
tamano de muestra cero.
Encuestas muy economicas.

Debilidades:

No insesgamiento. Ni siquiera aumentando el tamano de muestra te


puedes quitar el sesgo.
Subjetividad. (e.g. aunque todos estemos de acuerdo en el modelo,
no es cierto, porque no conocemos la super-poblacion).

Ojo, no estoy diciendo que este enfoque sea equivocado. Claramente tiene
sus ventajas (principalmente economicas y muy fuertes). El problema es
la subjetividad que puede echar abajo todo. Como siempre que se utilizan
modelos, no hay forma alguna de saber si son ciertos. Aguas!

Departamento de Estadstica 53
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.5.3. Model-assisted approach


Lo importante: La informacion auxiliar disponible y los recursos compu-
tacionales.

En palabras llanas, combina los dos anteriores.

Otros nombres: muestreo modelo asistido, estimacion GREG.

Fortalezas:

Robustez: Siempre jala. Aunque el modelo esta mal especificado se


obtienen buenas estimaciones porque automaticamente se le da mas
peso a la parte design-based. Si el modelo esta muy bien especificado
(resulto ser muy realista) automaticamente el metodo da mas peso a
la parte model-based.
Objetividad.
Exactitud (insesgamiento).
Precision (estabilidad de las estimaciones).

Debilidades:

Para que de verdad funcione y mejore al design-based, lo necesario


para dar estimaciones (los g-weights) son a nivel maximo de des-
agregacion (individuo - observacion). Los g-weights dependen de las
probabilidades de inclusion de los individuos y de un parametro de
variabilidad por individuo.
Elevados costos informaticos (informacion, computo, etc.).

Departamento de Estadstica 54
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.6. Marco muestral

Para extraer una muestra de la poblacion se requiere de algo que denominamos


marco muestral, marco de muestreo o simplemente marco.

Este es una lista que me permitira:

1. Identificar los individuos de mi poblacion y proporcionarme informacion


adicional util para un mejor uso del muestreo.

Cuantos individuos hay en la poblacion, como esta dividida, etc.?

2. Acceder a los individuos o poder establecer contacto con ellos.

Donde estan, telefono, direccion, coordenadas, etc..?

En el peor de los casos si no existe una lista, un marco muestral puede ser:

un mapa geografico,

una delimitacion en el plano cartesiano,

el boot de un disco duro,

el directorio de un CD,

el directorio telefonico,

el listado nominal electoral,

el padron de un partido poltico, etc.

Departamento de Estadstica 55
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Lo importante es que el marco me esquematice a la poblacion de interes.

Problemas o imperfecciones en el marco muestral:

Incompleto (No cobertura).

Muy general (Muy grueso, sin detalle ni informacion adicional necesaria


para muestrear).

Desactualizado.

Inexistente (el clasico problema en Mexico).

Mucha de la labor de muestreo tiene que ver con la construccion de un


buen marco muestral.

Importante: los errores de marco pueden ser indetectables en la lectura de re-


sultados de una muestra si en su construccion fueron obviados detalles, huecos,
etc. Pueden llegar a ser grandes errores arrastrados. Un marco muestral equi-
vocado puede ser un verdadero desastre.

En muestreos mas complejos se requerira que el marco proporcione informacion


adicional para la obtencion de estimaciones mas precisas y esquemas de seleccion
mas economicos.

La bibliografa base del curso, Sarndal et al.(1992), habla mas sobre marcos
muestrales y tambien aquella bibliografa clasica como el Kish (1965) que toca
el tema de manera muy completa y hasta con sugerencias ante complicaciones.

Departamento de Estadstica 56
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.7. Radiografa general de una encuesta por mues-


treo

Para ir familiarizandonos mas con el problema al que da respuesta el muestreo


(inferir sobre una poblacion a partir de un subconjunto de individuos) y con
la nomenclatura (sinonimos) de lo que utilizaremos, consideremos el siguiente
listado muy sintetico del proceso de una encuesta (una aplicacion muy natural
del muestreo, ojo, pero no la unica).

1. Una encuesta tiene que ver con un conjunto de elementos denominado


poblacion finita.

2. Se dispone de una regla o listado que define de manera inequvoca a los


elementos que pertenecen a la poblacion; a tal regla se le denomina marco
muestral.

3. El objetivo de la encuesta es proveer de informacion sobre la poblacion


finita o sobre subpoblaciones de especial interes, por ejemplo, hombres y
mujeres como dos subpoblaciones; tales subpoblaciones son denominadas
dominios de estudio o simplemente dominios.

4. Se tiene asociado un valor de una o mas variables de estudio para cada


elemento de la poblacion. El objetivo de la encuesta es obtener informacion
sobre caractersticas poblacionales o parametros.

Departamento de Estadstica 57
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

5. Los parametros son funciones de los valores de las variables de estudio.


Estos, son desconocidos y pueden ser medidas cuantitativas de interes
para la investigacion en curso, por ejemplo, el ingreso total, el ingreso
medio, numero de desempleados; para la poblacion entera o para dominios
especficos.

6. En la mayora de las encuestas, la observacion y el acceso a los elementos


individuales (en ocasiones denominados unidades de analisis) de la po-
blacion es establecido a partir de un marco muestral. Este asocia a los
elementos de la poblacion con las unidades muestrales contenidas en el
marco.

7. Una muestra (un subconjunto) de elementos se selecciona de la poblacion.


Esto se lleva a cabo seleccionando unidades muestrales de un marco.

8. Una muestra es una muestra probabilstica si fue obtenida mediante un


mecanismo aleatorio y con ciertos lineamientos.

9. Se realiza una observacion de los elementos muestrales, esto es que, para


cada elemento de la muestra, se hace una medicion de las variables de
estudio y sus valores son registrados. Las mediciones son acorde a un plan
de medicion bien definido.

Departamento de Estadstica 58
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

10. Los valores registrados de las variables son utilizados para el calculo de es-
timaciones (puntuales) de los parametros poblacionales de interes (to-
tales, medias, medianas, razones, coeficientes de regresion, etc.). Luego se
realizan estimaciones de la precision de las estimaciones (los errores). Por
ultimo, se publican los resultados.

En una encuesta por muestreo, el ejercicio de observacion se limita a un subcon-


junto de la poblacion. Un tipo especial de encuesta es aquella en donde toda la
poblacion es observada; denominada censo o enumeracion completa.

Un censo significa automaticamente la estimacion de un parametro sin


errores?

Que se suele hacer con los censos en lo que toca al gran numero de
variables de estudio?

Cual es la tendencia cada vez mas creciente en primer mundo con respecto
a los censos?

Departamento de Estadstica 59
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.8. Algunos comentarios para discutir

Considerando los ejemplos anteriores y lo hasta ahora visto, notese lo siguiente:

1. La complejidad de una encuesta por muestreo puede variar mucho.

2. Aunque una encuesta involucra observaciones individuales de los elementos


de la poblacion, el proposito de la encuesta no es utilizar esos datos
a nivel individual sino la obtencion de estadsticos resumen para la
poblacion o subgrupos especficos.

3. En la misma encuesta pueden haber muchas variables de estudio, mu-


chos dominios de estudio, muchos parametros de interes y quizas mu-
chos tipos de estos.

4. Una muestra es cualquier subconjunto de la poblacion. Puede o no ser ex-


trada mediante un mecanismo aleatorio. Nosotros nos concentraremos
en aquellas probabilsticas.

Un ejemplo de aquellas no probabilsticas son aquellas en las que un ex-


perto en la materia del estudio ligada a la encuesta decide la seleccion de
los individuos de modo que la muestra represente las caractersticas de la
poblacion de estudio.

Departamento de Estadstica 60
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

En general, solo en circunstancias afortunadas una seleccion no


probabilstica arrojara estimaciones adecuadas.

5. La correcta medicion y registro de informacion pude ser difcil y en ocasio-


nes imposible. Respuestas falsas, no respuesta, rechazo a responder. Todos
estos errores no muestrales pueden llegar a ser considerables.

6. Existe cada vez mayor posibilidad de la combinacion e incorporacion de


informacion proveniente de otras encuestas, diversas bases de datos gu-
bernamentales (esto gracias a la ley federal de transparencia y acceso a
la informacion publica gubernamental - hay que aprovecharla!).

Departamento de Estadstica 61
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.8.1. Incorporacion de tecnica a el objetivo del muestreo

Departamento de Estadstica 62
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

3.8.2. Un ejemplo sobre el marco muestral (de Lohr, 1999)

Poblacion objetivo y poblacion muestreada en una encuesta telefonica


de posibles votantes en una eleccion.

No todos los hogares tienen telefono, de modo que cierta cantidad de


personas de la poblacion objetivo de posibles votantes no estaran asociados
a los numeros telefonicos del marco muestral.

En algunos hogares con telefono, los residentes no estan empadronados


para votar y entonces no son elegibles para la encuesta.

Algunas personas que s son elegibles y que estan en el marco muestral


no responden debido a varias razones: No pueden contestar, no quieren
contestar, o son incapaces de contestar.

Departamento de Estadstica 63
CAPITULO 4

Muestreo probabilstico y extraccion de la muestra

64
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

4.1. Muestreando probabilsticamente

Ahora... Como es la extraccion? Como se extrae la muestra?


Respuesta: Mediante muestreo probabilstico.

Este es una forma de seleccion de muestras que satisface ciertas condiciones.


Si no, entonces no se le puede llamar probabilstico.

4.1.1. Muestreo en 1 etapa

Para el caso en el que se hace una seleccion directa de elementos de la


poblacion, es decir, muestreo en una etapa; tales condiciones son las siguientes:

1. Es posible definir a S = {s1 , s2 , . . . , sM }, el conjunto de todas las muestras


posibles del esquema de seleccion.

2. Se tiene una probabilidad conocida de seleccion p(s) asociada con cada


posible muestra s S.

3. El esquema de seleccion p(), aunque esta definido para s, hereda a cada


elemento k en la poblacion una probabilidad de ser seleccionado k 6= 0.

Departamento de Estadstica 65
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

4. Se selecciona una muestra s mediante un mecanismo aleatorio que per-


mita que cada s posible tenga exactamente la probabilidad p(s) de ser
seleccionada.

Notese que 1, 2 y 4 tienen que ver con muestras (subconjuntos de elementos


de la poblacion) o probabilidades de obtener estas; mientras que 3 tiene que
ver con elementos de la poblacion.

Se le denomina muestra probabilstica a una muestra obtenida bajo estas


cuatro condiciones.

La funcion p() define una distribucion de probabilidad sobre

S = {s1 , s2 , . . . , sM } ,

el conjunto de todas las muestras posibles.

A la funcion p() se le denomina funcion diseno de muestreo o simplemente


funcion diseno. Es la que matematiza la forma en que previamente estable-
cimos sera seleccionada la muestra.

La probabilidad mencionada en el punto 3 es denominada la probabilidad de


inclusion (en la muestra) de los elementos en la poblacion.

El proceso de aleatorizacion del punto 4 regularmente puede llevarse a cabo me-


diante un algoritmo facil (que muchas veces, tratandose de situaciones estandar,
ya viene integrado a algun software estadstico).

Departamento de Estadstica 66
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Un tipo comun de algoritmo es aquel en el que un experimento aleatorio se lleva


a cabo para cada elemento listado en el marco indicando inclusion o no inclusion
del elemento en la muestra (simulacion de distribuciones Uniformes y definiendo
una probabilidad tope).

Ejemplo simple de Excel o en el Pizarron.

Departamento de Estadstica 67
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Esquema de muestreo en 1 etapa

Departamento de Estadstica 68
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

4.2. Muestreando en mas de 1 etapa

La seleccion de una muestra regularmente se lleva a cabo en dos o mas


etapas.

Esto quiere decir que se seleccionan conglomerados de elementos en la


etapa inicial por ejemplo y posteriormente se seleccionan individuos o ele-
mentos dentro de los conglomerados seleccionados.

Esto puede suceder en una o mas etapas de muestreo (submuestreo); los


elementos tal cual son muestreados entonces hasta la ultima etapa.

Importante: En un diseno de muestreo probabilstico de mas de 1 etapa


se tienen que cumplir las condiciones 1-4 en cada etapa.

4.2.1. Muestreo en 3 etapas

Por ejemplo, pensemos que tenemos un muestreo en 3 etapas.

Para ello necesito un marco muestral organizado de manera anidada en


3 niveles.

Departamento de Estadstica 69
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Esto es, tengo un marco muestral a partir de donde voy a extraer una
muestra que esta organizado en forma desagregada por niveles.

Por ejemplo, de la siguiente forma:

1. Manzanas (representado por rombos) compuesta de viviendas


2. Viviendas que estan conformadas por individuos
3. Individuos

La poblacion U de individuos esta organizada de modo que tengo una


poblacion UI de manzanas, una poblacion UII de viviendas y una poblacion
UIII de individuos.

La siguiente tabla ejemplifica esta estructura anidada en los datos.

Departamento de Estadstica 70
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Departamento de Estadstica 71
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Esquema de muestreo en 3 etapas

Departamento de Estadstica 72
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Entonces, finalmente, se debera tener una probabilidad de inclusion de ser


seleccionado para cada uno de los elementos de la poblacion sin importar
el numero de etapas del esquema de muestreo.

Esto lo veremos mas adelante, y se denominan las probabilidades de inclu-


sion de individuos (elementos) de una poblacion en muestra.

Hay que tener cuidado en no confundir estas con la probabilidad de selec-


cion de una muestra.

4.2.2. Ventaja de las muestras probabilsticas sobre las no


probabilsticas

La ventaja principal que tienen las muestras probabilsticas sobre


las demas es que permiten el uso de la teora estadstica para inferir
sobre la poblacion de la que fueron tomadas.

Con esto se tiene la capacidad de producir medidas de error y de


precision en terminos probabilsticos.

Por ultimo, el muestreo probabilstico garantiza la eliminacion de cualquier


subjetividad en el proceso de seleccion de elementos en una muestra.

Departamento de Estadstica 73
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Esa subjetividad ausente, es lo que coloquialmente algunos llaman sesgo.


No obstante esta palabra tiene otras connotaciones estadsticas.

Es por ello que las muestras obtenidas mediante muestreo probabilstico


son objetivas y por lo tanto gozan de mayor aceptacion.

4.2.3. Muestreo en 2 etapas

Con lo unico que se sabe del ejemplo anterior de 3 etapas...

Rapidamente... Como podra mejorar el diseno de muestreo anterior?

Mas etapas implica un mejor diseno?

Mas etapas implica un diseno mas economico?

Hay respuesta absoluta a estas preguntas?

Departamento de Estadstica 74
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Esquema de muestreo en 2 etapas

Departamento de Estadstica 75
CAPITULO 5

Estimacion a partir de muestras probabilsticas

76
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

5.1. Poblacion, muestra y seleccion

Considerese la poblacion, U , un conjunto finito de N elementos etiquetados


k = 1, . . . , N ,
{u1 , . . . , uk , ..., uN } (5.1)

Por simplicidad, representemos al elemento k-esimo, uk , unicamente por su eti-


queta k. De modo que:

def
U = {1, . . . , k, . . . , N } (5.2)

Por lo pronto, tomaremos como conocido a N , que representara el tamano de


la poblacion.

Ahora, considerese a y la variable de estudio, y sea yk , k U el valor de la


variable y para el k-esimo elemento de la poblacion U . Sabemos que yk existe
pero la desconocemos.

Supongase que interesa el total poblacional t de la variable y,

def
X X
t= yk = yk (5.3)
kU U

o de la media poblacional y U de la variable y,


X
y U = t/N = yk /N (5.4)
U

Departamento de Estadstica 77
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Notese que cuando y toma unicamente los valores 0 y 1 tendramos que


y U es una proporcion.

Entonces, como una proporcion es una media y la media es un total


dividido entre la constante N , plantearemos todo en terminos del
problema de estimar al total t.

Esto, de nuevo es otra generalizacion del libro base del curso que antes no
se efectuaba en libros tradicionales.

Para la estimacion de t a partir de una muestra probabilstica s, sub-


conjunto de elementos de la poblacion U seleccionados mediante un me-
canismo aleatorio, tendremos que observar los valores que toma yk , k s;
es decir, los valores de y unicamente para aquellos elementos que fueron
seleccionados en la muestra probabilstica.

Esto es, se generaran estimaciones de t con la informacion que contengan


las yk , k s.

Departamento de Estadstica 78
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

5.2. La funcion diseno de muestreo

Ya tenemos definida nuestra poblacion U de tamano N , le extraeremos una


muestra probabilstica s mediante un esquema aleatorio de seleccion.

De modo que es posible (aunque no siempre sencillo) determinar la proba-


bilidad de seleccion p(s) de la muestra especfica s.

Asumimos que existe la funcion p() tal que p(s) indica la probabilidad de
seleccionar s bajo el esquema utilizado.

A la funcion p() la denominaremos funcion diseno de muestreo.

Es fundamental pues determina las propiedades estadsticas de las canti-


dades aleatorias calculadas a partir de la muestra... por eso son aleatorias,
porque no sabemos que muestra estamos observando.

Por ejemplo: la distribucion muestral, el valor esperado y la varianza de la


media muestral, la mediana muestral y la varianza muestral.

Estas cantidades aleatorias vendran siendo lo que en cursos como Inferen-


cia Estadstica se denominan estimadores, i.e. funciones con variabilidad
pues dependen de un conjunto aleatorio.

Departamento de Estadstica 79
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Para un diseno de muestreo dado p(), se puede entonces considerar cual-


quier muestra s como la realizacion de la variable aleatoria (o output del
evento aleatorio) S, cuya distribucion de probabilidad queda explicitada
mediante la funcion p().

Sea S el conjunto de todas las muestras s posibles. Entonces, S es un


conjunto de 2N subconjuntos de U , si incluimos al conjunto vaco y tambien
al conjunto U mismo; i.e. con un mismo diseno muestral se tienen un total
de 2N muestras posibles incluyendo a la muestra vaca y a la muestra
censal.

Entonces tenemos que:

P r {S = s} = p(s) (5.5)

para cualquier s S. Como p(s) es una distribucion de probabilidad sobre


S, tenemos

i. p(s) 0, s S (5.6)
P
ii. sS p(s) = 1 (5.7)

Notese que muchas de las 2N muestras contenidas en S pueden tener de


hecho probabilidad cero. El subconjunto de S compuesto de aquellas s
cuyas p(s) son estrictamente mayores que cero constituyen el conjunto de

Departamento de Estadstica 80
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

muestras verdaderamente posibles. Ellas seran las unicas que podran ser
extradas segun el diseno especificado.

El tamano de muestra, ns , es el numero de elementos en s, es decir la


cardinalidad del conjunto s.

ns no es necesariamente el mismo para todas las muestras posibles, esto


dependera del diseno de muestreo utilizado.

El diseno de muestreo p(), como ya se dijo, determina las propiedades


estadsticas de las cantidades calculadas a partir de la muestra. No obs-
tante, p() es principalmente una herramienta matematica, un constructo
teorico, no practico per se para la extraccion de una muestra. Pero s fun-
damental para el desarrollo de toda la teora que sostiene el muestreo
probabilstico.

Es importante la eleccion del diseno de muestreo y a su vez la simultanea


eleccion de un esquema de seleccion que haga posible la implementacion
del diseno. Ambos tienen que estar ligados.

En otras palabras, la realidad de mi forma de extraer muestras tiene


que estar perfectamente compaginada con la teora que asumo para
la extraccion y/o proceso de inferencia.

Departamento de Estadstica 81
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

5.3. Probabilidades e indicadoras de inclusion

Suponga que determinado diseno de muestreo p(s) ha quedado establecido,


i.e. que se tiene una forma matematica para p(s).

5.3.1. Las indicadoras de inclusion muestral

Entonces, la inclusion de un elemento determinado k en una muestra es un


evento aleatorio indicado por la variable aleatoria Ik , denominada la indicadora
de inclusion muestral del elemento k, definida como,
(
1 si k S
Ik = (5.8)
0 en otro caso

Notese que Ik = Ik (S) es una funcion de la variable aleatoria S.

5.3.2. Las probabilidades de inclusion

De modo que la probabilidad de que el elemento k este en muestra es k donde,

X
k = P r {k S} = P r {Ik = 1} = p(s) (5.9)
s3k

Departamento de Estadstica 82
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Y la probabilidad de que los elementos k y l estan simultaneamente en muestra,

X
kl = lk = P r {k&l S} = P r {Ik Il = 1} = p(s) (5.10)
s3k&l

Tambien, tenemos que,

kk = P r Ik2 = 1 = P r {Ik = 1} = k , k = 1, . . . , N

(5.11)

Formalmente para evitar abusos de notacion, en la ecuacion (5.9) lo escrito como


{k S} debe ser interpretado como el evento aleatorio {S 3 k}, el cual es el
evento una muestra en cuya realizacion contiene al elemento k.

Entonces, dado p(), se tienen asociados N valores,

1 , . . . , k , . . . , N (5.12)

denominadas las probabilidades de inclusion de primer orden. Tambien estan


asociados N (N 1)/2 valores,

12 , 13 , . . . , kl , . . . , N 1,N (5.13)

denominadas las probabilidades de inclusion de segundo orden.

Desde luego, as le podemos seguir con probabilidades de inclusion de tercer


orden, etc... partiendo de p(), pero no seran necesarias para este curso y
tampoco son necesarias para disenos comunmente usados.

Departamento de Estadstica 83
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Usualmente el diseno de muestreo se escoge en funcion de la facilidad para


el calculo de las probabilidades de inclusion de primero y segundo orden.

Tambien se busca un compromiso entre que sea facil manejo tecnico y


factible llevar tal seleccion a la realidad.

Por otro lado, p() pueda llegar a ser complicada pero eso no afecta tanto
mientras podamos obtener las k y las kl .

Como veremos, es posible alcanzar uno de los objetivos principales, la ob-


tencion del valor esperado y la varianza de ciertas cantidades calculadas a
partir de la muestra, a partir de las k y las kl unicamente.

5.3.3. Comentarios sobre las probabilidades de inclusion

Formalmente, hemos visto en la seccion 4.1 en el punto 3, que para que


una muestra sea considerada una muestra probabilstica, se tendra que
cumplir que k > 0, k U .

No obstante, en la practica a veces se le asigna probabilidad cero a algunos


individuos en la poblacion de modo que estos nunca salgan en muestra.

Departamento de Estadstica 84
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Esta practica (previa a la extraccion de la muestra) tiene como objeto


eliminar de posibles muestras a individuos que se sabe no importante la in-
formacion que aportan. Desde luego, esta es una practica delicada porque
varias expresiones tienen estos valores como denominador.

En el muestreo directo de individuos (es decir, una sola etapa de muestreo),


todas las k , k = 1, . . . , N son (y deben ser) normalmente conocidas
antes de la extraccion de la muestra.

En disenos de muestreo mas complejos esto no es posible o resulta muy


complicado. Sin embargo, en muestreo de varias etapas, conocer todas las
k y las kl no es indispensable pues basta con el conocimiento a
priori de las probabilidades de inclusion para las unidades de muestreo al
momento de la extraccion en cada etapa.

En otras palabras, basta con conocerlas previo a muestrear en cada


etapa. As lo podemos apreciar en el siguiente grafico.

Departamento de Estadstica 85
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Departamento de Estadstica 86
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

5.3.4. Estadsticos bajo el diseno muestral

En Estadstica el termino estadstico es una funcion que toma valores


reales cuyo valor puede variar acorde con las diferentes realizaciones de
determinado experimento.

En muestreo, queremos examinar como un estadstico vara de la


realizacion de una muestra s segun vare el conjunto aleatorio S.

Es decir, la variacion muestra a muestra es lo que nos interesa.

Si Q(S) es una funcion real del conjunto aleatorio S, esta funcion to-
mara valores una vez que se tenga la realizacion s de S y se tengan reco-
lectados los datos de los elementos que componen a s.

En la practica cuando una muestra es extrada, exactamente una realizacion


s del conjunto aleatorio S ha ocurrido.

Una vez que s se realizo, asumimos que es posible medir la o las variables
de interes, e.g. y y z, para cada elemento k s.

P P
Por ejemplo para el estadstico Q(S) = S yk / S zk , despues de la medi-
P P
cion, podemos calcular (la realizacion del estadstico) Q(s) = s yk / s zk .

Departamento de Estadstica 87
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Importante!. En este ejemplo y y z son variables en el sentido matemati-


co determinstico o de bases de datos...

i.e. pueden tomar posibles valores diferentes yk y zk para k s. No obs-


tante, y y z no seran tratados como variables aleatorias.

Por que esto ultimo?

Departamento de Estadstica 88
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Importante!. La naturaleza aleatoria del estadstico Q(S) recae so-


lamente del hecho de que el conjunto S es aleatorio.

Es muy importante que esto quede claro. La aleatoriedad reside


en cual muestra fue extrada y no en los posibles valores de las
variables de interes en los elementos de la muestra.

Consideraremos que los valores de las variables de interes son dados (fijos)
en los elementos, no son aleatorios pero s son desconocidos.

La incertidumbre vendra, entonces, de la muestra que utilizaremos y no de


lo que medimos en los elementos que componen la muestra.

Como el estadstico Q(S) es una variable aleatoria, esta tiene varias pro-
piedades estadsticas.

Departamento de Estadstica 89
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Definicion 5.3.4.1 La esperanza y la varianza del estadstico Q = Q(S) se


definen, respectivamente, por las siguientes expresiones,
X
E(Q) = p(s)Q(s) (5.14)
sS
V (Q) = E [Q E(Q)]2

(5.15)
X
= p(s) [Q(s) E(Q)]2 (5.16)
sS

La covarianza entre dos estadsticos Q1 = Q1 (S) y Q2 = Q2 (S) se define por,

C(Q1 , Q2 ) = E {[Q1 E(Q1 )][Q2 E(Q2 )]} (5.17)


X
= p(s)[Q1 E(Q1 )][Q2 E(Q2 )]. (5.18)
sS

Notese (de nueva cuenta) que estas definiciones hacen referencia a la


variacion sobre todas las muestras posibles que pueden ser obtenidas
bajo el diseno de muestreo dado, p(s).

Entonces, hacia donde vamos?

Para hacer enfasis, algunos textos de muestreo utilizan los terminos espe-
ranza diseno, varianza diseno y covarianza diseno. Aqu no utilizaremos la
palabra diseno (como apellido) en estos estadsticos.

No hay riesgo de mala interpretacion porque todo lo estamos viendo bajo


el enfoque basado en diseno.

Departamento de Estadstica 90
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Los estimadores que nos interesan son los que pueden expresarse como
funciones de las indicadores de inclusion muestral definidas en la ecuacion
(5.8).

Es importante entonces describir las propiedades basicas de los estadsticos


Ik = Ik (S), para k = 1, . . . , N .

Resultado 5.3.1.1 Para un diseno de muestreo p(s) arbitrario, y para k, l =


1, . . . , N ,

E(Ik ) = k (5.19)
V (Ik ) = k (1 k ) (5.20)
def
C(Ik , Il ) = kl k l = kl (5.21)

Demostracion.
Tarea opcional 1 para la proxima clase, antes de su comienzo (cla-
se despues del examen). Se entrega por e-mail -LaTeX o algo legible
escaneado-, les tengo que confirmar recepcion, revisare mi correo antes
de comenzar la clase. 

Dependiendo del diseno, C(Ik , Il ) puede ser positiva, negativa o cero. Notese
que si k = l,
V (Ik ) = kk (5.22)

Departamento de Estadstica 91
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

5.4. Muestreo Bernoulli (BE)

N elementos en un marco muestral con cierto orden, que no nos interesa.

De antemano, se fija constante, 0 < < 1, i.e. k = , k U

Sean 1 , . . . , N un conjunto de N realizaciones independientes de una


variable aleatoria U nif (0, 1).

La seleccion o no del elemento k-esimo se decide de la siguiente forma:

Si k < , entonces k es seleccionado, de otro modo no. k = 1, . . . , N .

Entonces, la probabilidad de seleccionar al individuo k-esimo es:

P r{k < } = , k U.

Y tenemos que para k 6= ` los eventos {k s} y {` s} son independiente.

El numero de elementos seleccionados


X
ns = #(s) = Ik ,
U

Departamento de Estadstica 92
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

se distribuye Bin(N, ). Es decir, ns no es fijo, es una variable aleatoria.


 
N n
P r{ns = n} = (1 )N n , n = 1, . . . , N.
n

De modo que:

EBE [ns ] = N y VBE (ns ) = N (1 )

Y entonces tenemos que:

p(s) = ns (1 )N ns

Notar que no tenemos que conocer N para determinar las s.

Notar que el tamano de muestra es aleatorio, pero sabemos como se


comporta.

Ojo: Esto no es un modelo impuesto. Predefinimos que as sera la selec-


cion de individuos, con una probabilidad fija .

En que casos es util este diseno de muestreo?

Algun ejemplo real?

Departamento de Estadstica 93
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Departamento de Estadstica 94
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

5.5. Muestreo Aleatorio Simple (SI)

Queremos seleccionar especficamente n elementos de una poblacion de N


sin reemplazo y donde cada seleccion sea con igual probabilidad.

Lo mas facil es imaginarlo como si seleccionaramos n elementos de una


urna con N elementos. Elemento que fue seleccionado se separa y se siguen
extrayendo elementos de la urna hasta alcanzar una muestra de tamano n.

Hay varias formas de llevar a cabo este esquema de seleccion. El mas


sencillo es un procedimiento basado en extracciones, tal cual como se
menciono, con una urna o con papelitos:

1. Seleccionar con igual probabilidad 1/N al primer elemento de entre N


posibles y apartarlo.

2. Seleccionar con igual probabilidad 1/(N 1) al segundo elemento de entre


los restantes N 1 y apartarlo.
..
.

n. Seleccionar con igual probabilidad 1/(N n + 1) al n-esimo elemento de


entre los restantes N n + 1 despues de n 1 extracciones y apartarlo.

Otra forma? Se les ocurre otra forma?

Otra forma es siguiendose:

Departamento de Estadstica 95
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

1. Seleccionar con igual probabilidad 1/N al primer elemento de entre N


posibles y reemplazarlo (devolverlo a la urna).

2. Repetir el paso anterior veces hasta obtener n elementos distintos,


P r{ n} = 1.

Otra forma? Se les ocurre otra forma?

Otra forma es, grosso modo, convirtiendo el primer esquema en un esquema


secuencial de lista (Fan, Muller & Rezucha, 1962).

1. Se generan 1 , 2 , . . . realizaciones U nif (0, 1) independientes. Seleccionar


el primer elemento si 1 < n/N , si no, no.

2. Para los siguientes elementos k = 2, 3, . . ., sea nk el numero de elementos


que hemos seleccionado entre los primeros k 1 elementos en la lista de
la poblacion (marco). Si

n nk
k <
N k+1

se elige el elemento k-esimo, si no, no.

3. El procedimiento termina cuando nk = n.

Otro? S, uno muy facil que yo llamo con hojita de Excel. Pizarron.

1. Se generan 1 , 2 , . . . , N realizaciones U nif (0, 1) independientes.

Departamento de Estadstica 96
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

2. Ordenar la poblacion acorde con estas variables generadas. Y elegir los


primeros n elementos.

Este ultimo tiene la particularidad de generar tantas muestras SI como yo


quiera y que ademas no se traslapen (negatively coordinated samples).

Desventajas de estos esquemas? Alternativas?

De modo que, bajo SI tenemos que:


(
N

1/ n
si #(s) = n,
p(s) =
0 en otro caso .

Y usando la definiciones que vimos, podemos calcular k y k` .


1
Tenemos exactamente Nn1

muestras s que tienen al elemento k-esimo,
N 2

y n2 muestras s que tienen a los elementos k y `-esimo (k 6= `).

Dado que todas las muestras de tamano n tienen la misma probabilidad:


   
N 1 N n
k = / = , k = 1, . . . , N
n1 n N

y    
N 2 N n(n 1)
k` = / = , k 6= ` = 1, . . . , N
n2 n N (N 1)

Notar que aqu ns = n es fijo. Por como definimos quebamos a seleccionar.

Como ven los textos tradicionales al muestreo aleatorio simple?

Departamento de Estadstica 97
CAPITULO 6

Estimadores y sus propiedades estadsticas basicas

98
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

6.1. Estimadores comunes

Vimos en general estadsticos bajo el diseno muestral...

La gran mayora de los estadsticos que utilizaremos son estimadores.

Un estimador es un estadstico pensado para la produccion de valo-


res cercanos a un valor poblacional de interes que desconocemos, que
denominaremos parametro y denotaremos por .

Si, por ejemplo, solo hay una variable de estudio y, se puede pensar a
como una funcion de y1 , . . . , yN , los N valores de y en la poblacion.

= (y1 , . . . , yN )

Un ejemplo de parametro podra ser el total poblacional t de y,

= t
X
= yk
kU
def
X
= yk
U

Departamento de Estadstica 99
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Otro, la media poblacional y U de y,

= yU
t
=
N
P
U yk
=
N

Otro ejemplo de parametro que es funcion de dos variables de estudio y y


z, sera la razon de los totales poblacionales de y y z,
P
y
= PU k
U zk

Denotaremos al estimador de como,

b = b (S)

Si s es una realizacion del conjunto aleatorio S, entonces podemos calcular b a


partir de la(s) variable(s) de estudio asociadas a los elementos k s.

Departamento de Estadstica 100


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

6.2. Distribucion muestral de un estimador

Como ya se dijo, para nosotros es de interes describir la variacion mues-


tra a muestra del estimador b que utilicemos.

Un estimador que vare poco alrededor del valor desconocido del parametro es
intuitivamente mejor que otro que vare mucho.

Esta descripcion del comportamiento muestra a muestra de b la logramos


mediante la distribucion muestral del estimador .
b

Departamento de Estadstica 101


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

En ella se describen todos los valores posibles del estimador junto con la proba-
bilidad correspondiente para cada uno de esos valores, todo esto bajo el diseno
de muestreo p(s) en uso.

Ejemplo de la Distribucion Muestral: Las Letras (A,B,C,D,E,F,G,H).

uk

yk

#(S)

si

(s
b i)

Frecuencias relativas

Distribucion muestral de b

Departamento de Estadstica 102


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

En teora, dado el diseno, el estimador y las mediciones de la variable de interes;


habra de ser posible la obtencion de la distribucion muestral del estimador.

No obstante, puede ser complicado debido al gran numero de muestras


posibles que se traduciran en un gran numero de valores del estimador.

Sin embargo, es posible tener, de manera teorica a partir de la Definicion 5.3.4.1,


medidas resumen (usualmente desconocidas) que describen importantes aspectos
de la distribucion muestral de un estimador.

La esperanza de b esta dada por,


X
E()
b = p(s) (s)
b
sS

Mientras que la varianza esta dada por,


X h i2
V ()
b = b E()
p(s) (s) b
sS

Departamento de Estadstica 103


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Departamento de Estadstica 104


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Hay dos medidas importantes de la calidad de un estimador ,


b son el sesgo y el
error cuadratico medio. El sesgo de b se define como,

B() b
b = E() (6.1)

Un estimador b se dice que es insesgado de si:

b = 0, y = (y , . . . , y )0 RN
B() (6.2)
1 N

El error cuadratico medio de b se define como,

h i2
b = E b
M SE() (6.3)
X h i2
= p(s) (s)
b (6.4)
sS
h i2
= V () + B()
b b (6.5)

Y, por supuesto, si el estimador b es insesgado para , entonces por la ecuacion


(6.5), M SE()
b = V ().b

(Es muy importante que esto quede claro, es un error muy comun.) Notese la
diferencia entre una estimacion y un estimador. Una estimacion (s)
b es un

Departamento de Estadstica 105


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

numero, es producido por un estimador b = (S),


b una funcion.

(s)
b es un numero que puede ser calculado una vez que hay una realizacion s
del conjunto aleatorio S y ha sido observado y la(s) variable(s) de estudio ha(n)
sido medida(s) para los elementos k s.

En adelante, ignoraremos la diferencia tipografica entre S, el conjunto


aleatorio y s la realizacion de S. Por simplicidad designaremos a ambos
con la notacion s.

En palabras, un estimador es insesgado si el promedio ponderado (sobre todas


las muestras posibles utilizando las probabilidades p(s) como pesos) es igual al
valor del parametro desconocido.

Los estimadores que son de mayor interes al muestreo son aquellos que
son insesgados o aproximadamente insesgados.

Estos ultimos son aquellos en donde el sesgo es muy pequeno. Que tan pe-
queno? Se puede relativizar tal sesgo con lo que se esta midiendo (coeficiente
de variacion). Tambien, es posible calcular tal sesgo. El muestrista decidira si lo
considera grande o pequeno.

Una nota, formalmente hablando. No existen estimaciones insesgadas pues


las estimaciones (como ya se dijo) son numeros, valores constantes. Los que
pueden o no ser insesgados son unicamente los estimadores. No obstante,
en la practica, cuando se habla coloquialmente de una estimacion insesgada se

Departamento de Estadstica 106


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

esta hablando de una estimacion proveniente de un estimador insesgado.

Un muestrista en la practica tendra que decidir entre varios posibles esti-


madores para un mismo parametro. Buscara utilizar aquel cuya distribucion
muestral esta altamente concentrada, poco dispersa alrededor de .

No obstante, aun cuando la distribucion muestral esta altamente concen-


trada alrededor de siempre existira una pequena posibilidad de que
nuestra muestra en particular haya sido desafortunada (mala), de tal manera que
la estimacion caiga en una de las colas de la distribucion, muy lejos de
. Tendran que vivir con esta posibilidad.

Entonces que puede uno controlar como muestrista?

Departamento de Estadstica 107


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Departamento de Estadstica 108


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

h i1/2
A la raz cuadrada de la varianza del estimador V ()b se le denomina el
error estandar del estimador .
b Al cociente del error estandar del estimador y
h i1/2
la esperanza del estimador, CV ()
b = V ()b /E()
b se le denomina el error
estandar relativo o el coeficiente de variacion del estimador.

En la practica, se desconoce a V ().b Esto porque tendra que conocer todos


los valores posibles que toma el estimador de muestra en muestra y para ello
necesitara conocer la variable de interes en toda la poblacion.

Por lo tanto, tal varianza se estima a partir de los datos disponibles de la muestra
mediante el estimador Vb ().
b

Departamento de Estadstica 109


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Pero este estimador, Vb (),


b nos dice poca informacion de manera directa, pues
esta en unidades al cuadrado de las unidades en las que esta el estimador ,
b
de modo que se acostumbra tomar su raz cuadrada, el error estandar esti-
h i1/2
mado, Vb ()b y tambien se calcula el coeficiente de variacion estimado,
(normalmente expresado en porcentaje) que se define de la siguiente manera,
h i1/2
V ()
b b
cve()
b = (6.6)
b

Nota. En la practica suele llamarse coloquialmente al cve como el coeficiente de


variacion, aunque esto no es correcto si observamos las dos definiciones anteriores.
No obstante, no hay confusion pues es evidente que si uno esta trabajando con
datos muestrales, no es posible el calculo del coeficiente de variacion de acuerdo
a la definicion de la expresion especfica y por lo tanto se utiliza la expresion
(6.6) que finalmente tiene la misma intencion o utilidad.

Para que nos sirve el cve?

Por que no lo utilizan en Mexico?

Tiene sentido que al muestrear de la misma forma, con el mismo tamano de


muestra y medir lo mismo, se tengan mejores o peores estimaciones que otras?

Ejemplo de los Millones de Dolares

Entonces, cuales son los niveles aceptables o utilizados para el cve?

Departamento de Estadstica 110


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

6.3. Los Estimadores y sus propiedades

Suponer que interesa estimar el parametro del total de la poblacion t,


de la variable de estudio y, definido como:
X
t= yk
U

Considerar al estimador del total t


Xy
k
t = (6.7)
s
k

Este estimador puede ser expresado en terminos de una funcion lineal de


las variables indicadoras de inclusion muestral Ik . Entonces,
X yk
t = Ik (6.8)
U
k

De (6.8) y como E [Ik ] = k y k > 0, k U tenemos que:


" #
  X y X y X y X
E t = E Ik k = E [Ik ] k = k k = yk = t (6.9)
U
k U
k U
k U

P
por lo tanto t es insesgado para t = U yk .

Las cantidades yk /k se llaman los valores de y -expandidos del k-


esimo elemento. Usualmente son denotados como:

yk
yk =
k

Departamento de Estadstica 111


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Entonces (6.7) es simplemente la suma de los valores de y, -expandidos.


X X
t = yk = Ik yk (6.10)
s U

Pregunta Los valores yk son constantes o son variables aleatorias? Expli-


que.

Pregunta Donde esta la aleatoriedad en t ? Explique.

Lo aleatorio esta incorporado por s o equivalentemente por las indicadoras


I1 , . . . , IN . Los valores -expandidos yk son constantes fijas.

Notar que en (6.10) se logra la conexion analtica entre s y U , gracias a el


uso de las indicadoras I1 , . . . , Ik , . . . , IN .

Que efectos tiene el dividir yk entre k ?

La expansion aumenta la importancia de elementos en la muestra; co-


mo la muestra contiene menos elementos que la poblacion se requiere
forzosamente de una expansion.

Departamento de Estadstica 112


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

El elemento k-esimo cuando esta presente en muestra representara 1/k


elementos de la poblacion.

Las formulas (6.7), (6.8) y (6.10) anteriores conforman un principio extre-


madamente importante:

Es posible usar los valores muestrales -expandidos para estimar


insesgadamente el total poblacional aun cuando el muestreo es
hecho con probabilidades de inclusion arbitrarias positivas.

Pregunta Por que las k s pueden ser arbitrarias? Explique.

Cuando asignamos arbitrariamente k a yk , k U , lo hacemos en U y


no ha habido nada aleatorio.

Una vez realizada la extraccion siguiendo las k s arbitrarias, despues re-


construyo.

En otras palabras, antes de extraer, estamos decidiendo como vamos a em-


paquetar o comprimir independientemente de que muestra nos toque...
y despues de la extraccion desempaquetamos o descomprimimos la
informacion de la muestra.

Departamento de Estadstica 113


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Los orgenes de este principio de expansion vienen de Narain (1951) y


de Horvitz & Thompson (1952), y por eso estos estimadores se conocen
tambien con el nombre de estimadores de Narain-Horvitz-Thompson
o solo estimadores de Horvitz-Thompson.

Algo similar haba sido utilizado por Hansen & Hurwitz (1943), pero para
muestreo probabilstico con reemplazo (y probabilidades desiguales).

Notar que el estimador es lineal en Ik , esto, como se vera mas adelante


simplificara la derivacion de la varianza.

La siguiente expresion se sintetiza cierta notacion y algunas equivalencias


para el facil manejo de dobles sumas, mismas que utilizaremos en algunos
desarrollos matematicos posteriores.
XX def
XX X X X{k6=l}
akl = akl = akk + akl (6.11)
U U U
kU lU

Tambien, para toda k, l U , definamos al expandido de (que denota la


covarianza entre Ik y Il ),

= /
kl kl kl

y por la definicion (5.21) dentro del Resultado 5.3.1.1 tenemos que,

= 1 ( / ) para k 6= l ;
=1

kl k l kl kk k

Departamento de Estadstica 114


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Resultado 6.3.1 El estimador

X
t = yk (6.12)
s

P
es insesgado para t = U yk , y tiene la varianza,

 XX
V t = kl yk yl (6.13)
U

donde kl se define por (5.21) dentro del Resultado 5.3.1.1. Luego, dado que

kl > 0, k 6= l U , un estimador insesgado de V t esta dado por,

XX
y y

Vb t = kl k l
(6.14)
s

= / .
donde kl kl kl

Departamento de Estadstica 115


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Demostracion.
De (6.9), tenemos demostrado el insesgamiento. Respecto a la varianza, par-
P
tiendo de (6.10) tenemos que t = U Ik yk , entonces por la sabida formula de
varianza de combinacion lineal de variables aleatorias (en este caso las Ik )

 X X X{k6=l}
V t = V (Ik )yk2 + C(Ik , Il )yk yl (6.15)
U U

Ahora, por (5.21) y (5.22), donde C(Ik , Il ) = kl y V (Ik ) = kk , y tambien


por el manejo de dobles sumas visto en (6.11), tenemos

X X X{k6=l}
kk yk2 +

V t = kl yk yl (6.16)
XUX U

= kl yk yl (6.17)
U


Para la demostracion del insesgamiento de Vb t , primero expresemos (6.14)
utilizando las indicadoras Ik ,
 XX
Vb t = y y
Ik Il (6.18)
kl k l
U

dado que kl > 0, k, l U . Luego, como Ik Il toma el valor 1 si y solo si ambas


k y l pertenecen a s. Entonces, por la ecuacion (5.10), E[Ik Il ] = P r{Ik Il =
1} = kl , de modo que

h i hX X i XX
E Vb t = E y y =
Ik Il y y(6.19)
E [Ik Il ]
kl k l kl k l
U U
XX XX
y y =

= kl kl k l
kl yk yl = V t (6.20)
U U

Departamento de Estadstica 116


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

 PP
La varianza V t = U kl yk yl puede alternativamente ser expre-
sada de las siguientes formas en terminos de valores originales (es decir,
no expandidos) de yk como

 XX  
kl
V t = 1 yk yl (6.21)
U k l
XX X 2
kl
= yk yl y (6.22)
U U k
k l


 PP
Y por su parte, el estimador de varianza Vb t = s kl yk yl como

 XX 1  
kl
Vb t = 1 yk yl (6.23)
s k l
kl

Como ya se menciono anteriormente (pagina 80) el tamano de muestra,


ns , puede o no ser fijo, puede o no ser el mismo para todas las muestras
s posibles contenidas en S (el conjunto de todas las muestras s posibles).
Esto dependera del diseno de muestreo p(s) utilizado o por utilizar.

Cuando utilicemos un diseno de muestreo con tamano de muestra fijo,


denotaremos a ns unicamente con n.

Departamento de Estadstica 117


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Resultado 6.3.2 (Sen; Yates-Grundy, 1953) Si p(s) es un diseno de muestreo


de tamano de muestra fijo, entonces la varianza del estimador puede alterna-
tivamente ser escrita como

1X X
(yk yl )2

V t = (6.24)
2 U kl


Dado que kl > 0, k 6= l U , un estimador insesgado de V t esta dado por

1X X
kl (yk yl )2

Vb t = (6.25)
2 s

Demostracion.
Tarea opcional 2 para la proxima clase, antes de su comienzo. Se entrega
por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar
recepcion, revisare mi correo antes de comenzar la clase. Pista: Desarrollar
el termino al cuadrado, sumar y utilizar los resultados siguientes para disenos de
tamano de muestra fijo:
X
k = n (6.26)
U
X X{k6=l}
kl = n(n 1) (6.27)
U
X{k6=l}
kl = (n 1)k (6.28)
U

Departamento de Estadstica 118


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Tarea opcional 3 para la proxima clase, antes de su comienzo. Se entrega


por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar
recepcion, revisare mi correo antes de comenzar la clase. Demostrar las 3
expresiones anteriores.

Sobre el Resultado 6.3.2. Como yk yl = 0 si k = l, los terminos en donde


k = l no contribuyen con valores en la doble suma del resultado. De modo
P P{k6=l}
que es posible, en el Resultado 6.3.2, utilizar U en la formula para
 P P{k6=l} 
V t ,y s en la formula para V t .
b

Notar tambien, a partir de la demostracion, que las dos varianzas (6.13)


y (6.24) son identicas cuando el diseno es de tamano de muestra
fijo.

No obstante, aun con diseno con tamano de muestra fijo, las dos varianzas
(6.14) y (6.25), no son necesariamente identicas, pero ambas son
insesgadas.

Pregunta Por que no son necesariamente identicas? Explique.

Ahora, notar que ambas varianzas (6.14) y (6.25), requieren que

kl > 0, k 6= l U (6.29)

Pregunta Por que este requerimiento? Explique.

Departamento de Estadstica 119


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Pregunta Por que es tan fuerte? Explique.

Para cualquier s seleccionada, p(s) es necesariamente positiva y por lo


tanto kl > 0, k 6= l s, el requerimiento mas fuerte (6.29), puede
no satisfacerse. Alguien sabe un ejemplo?

Ojo: Las varianzas (6.14) y (6.25) pueden ser calculadas para cualquier s.
No obstante, si no se cumple (6.29), estas estimaciones de varianza
no deben utilizarse, pueden estar totalmente equivocadas

Un resultado util relativo a los valores -expandidos es el siguiente, cuya demos-


tracion es muy parecida a la utilizada en la demostracion de los Resultados 6.3.1.
y 6.3.2.

Resultado 6.3.3 Sean a1 , . . . , ak , . . . , aN numeros fijos y ak = ak /k (con


P P
k > 0) para k = 1, . . . , N . Entonces s ak es insesgado para U ak . Sean
a11 , a12 , . . . , akl , . . . , aN N numeros fijos y akl = akl /kl (con kl > 0) para
PP PP
k, l U . Entonces s akl es insesgado para U akl .

Departamento de Estadstica 120


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Comentarios en clase

Entonces, que estamos haciendo con el Resultado 6.3.1.?

De que se trata el principio este de utilizar los factores de expansion?

Cual es el chiste del uso de los estimadores de Horvitz-Thompson(1952)?

Como lo entiendo de manera facil, intuitiva?

Para contestar esto, veamos el siguiente ejemplo que contiene la idea...

Ejemplo del Arca de Noe mezclado con la Carretera Inter-Galactica.

Departamento de Estadstica 121


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

6.4. El estimador bajo el diseno BE

Retomando lo que vimos del diseno de muestreo BE, tenemos que:

k = , k U,

y tambien que:
k` = 2 , (k 6= `) U

De modo que aplicando los resultados que vimos, tenemos el siguiente


resultado

Resultado 6.4.1 Bajo un diseno BE, el estimador del total poblacional t =


P
U yk toma la forma:

1 X
t = y . (6.30)
s k

La varianza esta dada por,

  X
1
y2.

VBE t = 1 (6.31)
U k

Un estimador insesgado de tal varianza es,

  X
1 1
yk2 .

VbBE t = 1 (6.32)
U

Departamento de Estadstica 122


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Y si hablaramos de estimar una media....

Pregunta Como sera un estimador para la media utilizando los estimado-


res o de Narain-Horvitz-Thompson cuando conocemos a N ?

Pregunta Cual es la varianza de tal estimador?

Pregunta Cual es un estimador insesgado de tal varianza?

Pregunta Y si queremos estimar la proporcion de hombres de cierta pobla-


cion bajo un diseno BE, Como adecuamos tales expresiones?

Departamento de Estadstica 123


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

6.5. El estimador bajo el diseno SI


Vimos que bajo el diseno SI:

n
k = f = , k U,
N

donde f denota la fraccion de muestreo. Y tambien vimos que:

n(n 1)
k` = , (k 6= `) U
N (N 1)

Tenemos entonces el siguiente resultado...

Resultado 6.5.1 Bajo un diseno SI, el estimador del total poblacional t =


P
U yk toma la forma:

1 X
t = N ys = y . (6.33)
f s k

La varianza esta dada por,

   
 2 1 1 2 2 1f 2
VSI t = N SyU = N SyU , (6.34)
n N n

2 1
yU )2 . Un estimador insesgado de tal varianza es,
P
donde SyU = N 1 U (yk

   
 2 1 1 2 2 1f 2
VbSI t = N Sys = N Sys , (6.35)
n N n
2 1
ys )2 .
P
con Sys = n1 s (yk

Departamento de Estadstica 124


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Tarea opcional 4 para la proxima clase, antes de su comienzo. Se entrega


por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar
recepcion, revisare mi correo antes de comenzar la clase. Demostrar que,
en efecto, a partir de las expresiones generales se obtienen las expresiones (6.31)
y (6.34) cuando se utiliza un diseno BE y SI, respectivamente.

Tarea opcional 5 para la proxima clase, antes de su comienzo. Se entrega


por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar
recepcion, revisare mi correo antes de comenzar la clase. Demostrar que
la expresion (6.35) es insesgada para (6.34).

Resultado 6.5.2 En un diseno de muestreo SI (por lo tanto, de tamano de


muestra fijo), el estimador de la media poblacional de la variable de interes y,
P
es decir, y U = U yk /N , es

t X
y U = = y /N = y s (6.36)
N s k

La varianza estara dada por,

 1f 2
VSI y s = SU (6.37)
n y

1
donde S 2U = y U )2 . Y un estimador insesgado de tal varianza es,
P
y N 1 U (yk

 1f 2
VbSI y s = Sy s (6.38)
n
1
donde Sy2s = y s )2 .
P
n1 s (yk

Demostracion. La demostracion se desprende de manera muy sencilla de la de-


mostracion del Resultado 6.5.1.


Departamento de Estadstica 125


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

6.6. El efecto de diseno

Como puedo comparar disenos? Que se les ocurre?

Como puedo saber que diseno es el adecuado para cada situacion?

Como puedo comparar dos disenos dado el uso del mismo estimador?

Como puedo comparar dos estimadores dado el mismo diseno de mues-


treo?

Por ejemplo, de los resultados anteriores Como puedo saber bajo cual
diseno, BE o SI, el estimador es mejor?...

O dicho de otra forma mas formal... Que diseno es mejor cuando utilizo
el estimador ?

Primero recordemos la importancia del diseno SI:

(a) El mas importante.

(b) Teorico.

(c) Ideal.

Departamento de Estadstica 126


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

(d) Contra el que se comparan todos los desarrollos nuevos.

Entonces, tiene sentido tomar al diseno SI como referencia.

Kish (1965) propuso la medida Design Effect, efecto de diseno, usualmente


denotado como Def f ,

Vp ()
b
Def f (p, )
b = . (6.39)
VSI ()
b

Notar que utilizamos valores poblacionales... Las varianzas reales, pero no


las conocemos porque no tenemos todas las muestras posibles, entonces se
define al efecto de diseno estimado def f (o a veces denotado Def \ f.
Este lo unico que hace es utilizar estimaciones de la varianza en lugar de
las varianzas poblacionales que utiliza la expresion (6.40):

b = Vp () .
b b
def f (p, ) (6.40)
VbSI ()
b

Notar los valores que pueden tomar...

Si utilizamos un diseno SI tenemos que Def f = 1 y def f = 1

Entonces, siempre queremos que Def f < 1... buscamos eso!

Departamento de Estadstica 127


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Normalmente, el Def f < 1 siempre que se utilicen disenos con estratifi-


cacion y el Def f > 1 siempre que se utilicen disenos con conglomeracion.

El problema en la practica es que vamos a utilizar estratificacion y conglo-


meracion... y no sabemos que efecto es el que domina.

Lo importante es, anotar la posibilidad de mejorar los disenos de


muestreo utilizados.

Con el paso del tiempo o en el repetido ejercicio dela misma encuesta, uno
puede mejorar anadiendo experiencia previa.

Esto es, cambiando el diseno: la forma de estratificar, los tamanos de


muestra de estratos, el tamano de muestra utilizado, etc.

Cuidado con las definiciones y las notaciones de diferentes fuentes.

Departamento de Estadstica 128


CAPITULO 7

Que tamano de muestra utilizar?

129
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

El tamano de muestra a utilizar es un tema claves en muestreo.

Pregunta que le hacen regularmente a un muestrista o estadstico.

Bajo la teora moderna de muestreo el tema no es tan clave. Es mas una


cuestion de $. Por eso el libro base del curso no incluye este tema.

Desde otras disciplinas ajenas a la estadstica creen que existe un


tamano de muestra preestablecido que aplica siempre.

Salen entonces varias interrogantes, las primeras muchas veces de nuestro


jefe, cliente o companero de oficina:

Es suficiente el tamano de muestra de # para estimar esto?


Con un tamano de muestra de # ya es representativa mi muestra?
Que dice Sarndal al respecto? Se utiliza en Sarndal el concepto de
representatividad?
Que hace en la practica el mercado actual de encuestas en Mexico?

El tamano de muestra depende fundamentalmente de lo que se


intenta medir, en particular de la variabilidad de lo que se mide.

Si lo que se quiere medir tiene mucha variabilidad se necesitara un tamano


de muestra mayor, a que si es bastante homogeneo.

Departamento de Estadstica 130


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Tenemos algo aparentemente paradojico:

Como sabemos la variabilidad de lo que se intenta medir?

Aunque parezca paradoja, muchas veces se puede tener una idea o se


pueden tener estudios del mismo tipo (o similares) anteriores.
Ejemplos para casos extremos del Deming (1950) y del Kish (1965)

Existen varias expresiones matematicas para el calculo del tamano de muestra,


tambien existen varias interrogantes y consideraciones; se iran resolviendo con la
practica y el manejo repetido.

Listaremos de manera esquematizada algunas expresiones e ideas simples para el


calculo del tamano de muestra (viene mayormente extendido en Mendez et al.
(2004)[pp. 12-15, 44-50]).

Importante no perderse en la teora siguiente. La mecanica basica a seguir es:

Utilizaremos el Teorema Central del Lmite (trata medias, recordar la rela-


cion entre media, total y proporcion).

Se obtienen formulas para un diseno SI.

Departamento de Estadstica 131


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Posteriormente el tamano de muestra obtenido se altera segun que tanto


nos alejamos del diseno SI cuando utilizamos cualquier diseno de muestreo.

Finalmente se incorporan alteraciones segun tasas de no respuesta

Como se menciona en Mendez et al. (2004), de manera laxa dice que los prome-
dios de muchas muestras probabilsticas de una poblacion tienden, al aumentar
el tamano de muestra, a tener una distribucion normal, a pesar de que la variable
que se mide no tenga distribucion normal en la poblacion.

Para alcanzar una distribucion muestral parecida a una Normal, se requiere que
el tamano de muestra sea grande.

La rapidez con la que se alcanza tal Normalidad depende del tipo y de como es la
variable en la poblacion. Con estudios empricos de simulacion estocastica, se han
determinado algunos tamanos de muestra mnimos: 1, 5, 20, 30, etc. Observar
las Figuras 1.6 y 1.7 del Mendez et al. (2004)[pp. 12-13].

Una vez que se considera un tamano de muestra mnimo, entonces puedo decir:

b N [, V ()],
b (7.1)

de modo que es posible determinar la probabilidad

P [ b + ] = 1 , (7.2)

Departamento de Estadstica 132


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

que estara asociada al intervalo de confianza

P [b b + ] = 1 , (7.3)

que puede expresarse sinteticamente:

P [|b | < ] = 1 . (7.4)

Esta ultima expresion me determinara como tendria que ser (que tamano de
muestra utilizar en) ,
b para que discrepe a lo mas (la precision o error
absoluto o margen de error) del verdadero valor , y para que esto suceda
con un nivel de confianza del (1 ) 100 %.

7.1. Tamano de muestra para una media bajo


muestreo SI asumiendo normalidad

Si utilizamos el Teorema Central del Lmite, entonces necesitamos una suce-


sion de variables aleatorias independientes identicamente distribudas. Esto lo
cubrimos utilizando un muestreo SI y cuando interesa estimar una media en la
poblacion (es decir, = yU ), de modo que tenemos expresiones para b y para
V ().
b

Entonces, sea n el tamano de muestra llegamos a que, para una media, bajo
un diseno SI y asumiendo normalidad en la distribucion muestral de : b

1
n = 2 1
(7.5)
2
z/2 Sy2 U
+ N

Departamento de Estadstica 133


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

donde,

1 X
Sy2U = (yk yU )2 . (7.6)
N 1 U

Notar que Sy2U se desconoce, pero podra ser sustituido por algun valor aproxi-
mado de mediciones anteriores de lo mismo o mediante una prueba piloto.

La expresion (7.5) la podemos simplificar utilizando un nivel de confianza del 95 %


y si podemos suponer que N es muy grande, tal que 1/N sea muy pequeno.

Ojo: Notar lo conservador del supuesto de que 1/N l 0 en (7.5).

Asi, (7.5) es aproximado de la siguiente forma,

(1.96)2 Sy2U
n l (7.7)
2

Departamento de Estadstica 134


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

7.2. Tamano de muestra para una media bajo


muestreo SI sin asumir normalidad

Cuando no es posible asumir normalidad en la distribucion muestral de


b hay dos opciones.

Utilizar una expresion asociada al coeficiente de variacion o utilizar la de-


sigualdad de Tchebychev.

7.2.1. Utilizando el coeficiente de variacion

Si utilizamos el coeficiente de variacion cuando b = ys tenemos que:


q
p
V ()
b V (ys )
CV = = , (7.8)
E[]
b E[ys ]

expresion que bajo el diseno SI resulta ser:


q
1n/N 2
n
SU
y
CV = , (7.9)
yU

y despejando n y estableciendo un coef. de variacion deseado de CV0 ,

S 2U
y
n = S2
, (7.10)
yU
(CV0 )2 (yU )2 + N

Departamento de Estadstica 135


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

La expresion (7.10) es util cuando es de interes tener una precision del


orden de lo que se esta midiendo, es decir, cuando el error absoluto o nuestra
precision se quiere establecer en terminos porcentuales de lo que intentamos
medir.

Desafortunadamente, (7.10) tiene la desventaja de que necesita adicionalmente


tener un valor aproximado o de una prueba piloto de lo que intentamos medir yU ,
cosa a veces no muy facil de determinar si consideramos que estamos hablando
de una media.

7.2.2. Utilizando la desigualdad de Tchebychev

La otra opcion cuando no se puede asumir normalidad, es la Desigualdad de


Tchebychev, en cuyo caso para la expresion (7.5) tendriamos la correspondiente
expresion siguiente que no asume normalidad:

1
n = 2 1
. (7.11)
(4.4)2 Sy2 U
+ N

Que equivalentemente, como ocurrio anteriormente, puede simplificarse si pode-


mos suponer que N es muy grande, como:

(4.4)2 Sy2U
n l . (7.12)
2

Departamento de Estadstica 136


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Analogamente, tambien se pueden derivar expresiones donde se utiliza el coefi-


ciente de variacion simultaneamente con el uso de la desigualdad de Tchebychev,
e.g. Mendez et al. (2004, p. 48).

7.3. Tamano de muestra para una proporcion


bajo muestreo SI asumiendo normalidad

Consideremos la expresion que ya vimos para la media (7.5). Entonces, cuando


el parametro de interes a estimar es una proporcion, es decir = P , se tiene
que:

1
n = 2 1
(7.13)
2
z/2 N
P (1P )
+ N
N 1

donde P representa la proporcion que se quiere estimar, que desconocemos y


cuyo valor en la expresion anterior puede ser sustituido por alguno aproximado
de estudios anteriores o de una prueba piloto.

Simplificando la expresion (7.13), utilizando un nivel de confianza del 95 % y si


podemos suponer que N es muy grande de modo que 1/N sea muy pequeno y
de modo que N/(N 1) sea casi 1, tenemos entonces la siguiente version de
(7.13) simplificada:

(1.96)2 P (1 P )
n l , (7.14)
2

Departamento de Estadstica 137


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

expresion que puede todavia simplificarse mas si se considera que P (1P ) toma
su valor maximo cuando P = 0.50 y que reflejara absoluta ignorancia sobre cual
sera el valor del parametro P que queremos estimar.

Y si ademas amplificamos, conservadoramente, el tamano de muestra todava


mas considerando gruesamente que 1.96 l 2, entonces podramos re-escribir
(7.14) como:

(2)2 (0.25) 1
n l 2
= 2. (7.15)

Desde luego, considerando el hecho de que para poder asumir normalidad en


(7.13), (7.14) y en (7.15) se tendra que dar la conocida condicion emprica de
que:

nP > 5 (7.16)

y simultaneamente de que

n(1 P ) > 5. (7.17)

Hay que recordar de que este resultado viene de lo ya visto sobre el Teorema
Central del Lmite, vease Mendez et al. (2004, p. 13).

Adicional a esto, en varios textos de muestreo se sugiere que el valor de P se


encuentre entre 0.2 y 0.8 para que las expresiones vistas para proporciones supo-
niendo normalidad funcionen bien. Esto ultimo ya quedara a criterio de ustedes.

Departamento de Estadstica 138


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

7.4. Tamano de muestra para una proporcion


bajo muestreo SI sin asumir normalidad

Analogamente a lo que ya hemos visto, para el caso en que se requiera utilizar


la desigualdad de Tchebychev para proporciones y simplificando (de la misma
manera que ya hemos visto) tenemos que la expresion correspondiente sera:

(4.4)2 (0.25) 5
n l 2
l 2. (7.18)

7.5. Cuando se puede considerar a N grande?

Para contestar a esta pregunta observemos las siguientes tablas que nos daran
una idea del comportamiento de las expresiones hasta ahora vistas

Departamento de Estadstica 139


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Podemos decir entonces que, en general, el tamano de la poblacion N no


es fundamental para el calculo del tamano de muestra n. Basta con que
N sea lo suficientemente grande.

As, considerando la expresion (7.13) tenemos los siguientes tamanos de muestra


para diferentes niveles de error absoluto o precision predefinidos:

Departamento de Estadstica 140


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

7.6. El efecto del diseno: ajuste del tamano de


muestra

Una vez determinado el tamano de muestra n adecuado a nuestras necesidades y


conforme a lo desarrollado en parrafos anteriores, este tiene que ser modificado
si el diseno de muestreo a utilizar no es un muestreo aleatorio simple.

Para ello basta con multiplicar el tamano de muestra obtenido originalmente por
el Deff (design effect).

El Def f proporciona una medida de perdida o ganancia en precision


conforme al diseno de muestreo que estamos utilizando y respecto al
diseno de muestreo SI.

Por ejemplo, tratandose de dos Def f s del mismo diseno pero para diferentes
variables o estimadores, este me indicara de entre esos dos para cual variable o
estimador es mas adecuado el diseno de muestreo que estamos utilizando.

Esto es, no hay disenos de muestreo malos, lo que hay son disenos
mas adecuados que otros para lo que se esta midiendo y el como se
esta midiendo.

Para efectos de calculo de tamano de muestra, este puede tomarse de estudios


o experiencias anteriores.

Problemas practicos con el uso del Def f :

Departamento de Estadstica 141


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Para calculo de tamanos de muestra pueden no tenerse a disposicion valores


del de estudios anteriores.

Y como vimos, el diseno que vamos a utilizar puede usar estratificacion y


conglomeracion, no sabemos que efecto domina.

Otra vez, lo importante es la posibilidad de mejorar los disenos de mues-


treo utilizados con el paso del tiempo o en encuestas repetidas.

7.7. Ajuste del tamano de muestra por la tasa


de respuesta

Otra modificacion que se puede hacer al tamano de muestra n es ajustar por la


tasa de respuesta r (valor entre 0 y 1) que senala el porcentaje de respuesta a
una encuesta. Para realizar dicho ajuste basta con dividir a n entre r.

Departamento de Estadstica 142


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

7.8. Comentarios finales sobre el tamano de mues-


tra

Finalmente, el tamano de muestra (y/o el diseno de muestreo utilizado)


suele estar muchas veces definido por los recursos economicos destinados
a la encuesta.

Esto se combina con la importancia que el cliente o consumidor de a la


informacion obtenida.

Si, por ejemplo, se trata de simplemente tener una idea de determinadas


proporciones se destinara poco dinero a la encuesta y por consiguiente
sera un tamano de muestra pequeno con respecto al ideal que el mues-
trista calcule. Se tendran estimaciones con precisiones modestas.

En el mercado de encuestas en Mexico, le llaman Error Teorico de Esti-


macion al que se obtiene bajo muestreo aleatorio simple con el tamano
de muestra impuesto por las restricciones economicas.

En lo que respecta a la tasa de no respuesta, su consideracion en la practica


depende de la forma de cobrar de las empresas de campo, por cuestionario
efectivo o aplicado. Siendo la primera opcion la que normalmente se cobra.

Departamento de Estadstica 143


CAPITULO 8

Estratificacion

144
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

8.1. Introduccion a la estratificacion

8.1.1. Como se ve la estratificacion en otros textos y


como la trataremos?

Se ve mas como un tipo de diseno de muestreo.

Nosotros lo veremos como una tecnica o una herramienta que podemos


implementar para mejorar nuestro diseno.

Es una de las tecnicas mas importantes para mejorar un diseno.

Ayuda grandemente a mejorar la calidad de un ejercicio de muestreo sin


aumentar la complejidad matematica de este.

8.1.2. De que se trata la estratificacion?

En palabras llanas, dividir un problema grande de estimacion en va-


rios problemas pequenos de estimacion y ulteriormente combinar las
estimaciones obtenidas en estas subdivisiones (estratos) para la obtencion
de una estimacion global (de toda la poblacion).

Departamento de Estadstica 145


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

8.1.3. Utilidad y usos de la estratificacion

Me ayuda a enfrentar problemas de marco muestral.

Me ayuda a separar los pedazos de la poblacion en partes que tienen que


tratarse de diferente forma.

El estratificar me ayuda tambien a la incorporacion de informacion


adicional (proveniente de mi marco muestral o de mi experiencia) para la
mejora del diseno de muestreo a utilizar.

Otra utilidad importante de la estratificacion es el control de mi muestra.

Lo anterior, de modo que puedo mejorar la dispersion de mi muestra.

Ojo: Notar la palabra dispersion... Es dispersion geografica?

Tambien puede ser una herramienta para el manejo de costos y admi-


nistracion de recursos en las tareas operativas

Otra utilidad importante de la estratificacion es que muchas veces se re-


quiere tener estimacion para determinadas subpoblaciones o dominios de
estudio.

Departamento de Estadstica 146


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Para poder arrojar estimaciones por dominios, sin desvos de muestra. Es


decir, sin tener mas muestra donde no nos interesa, o tener mas donde hay
mas variabilidad o s nos interesa.

Por ejemplo, si un grupo de polticos solicitan una muestra, desde luego


que exigiran que caigan, digamos, todos los estados de la republica; en
este caso la estratificacion solo se utiliza para fines de control de la muestra
y no para mejorar la precision.

Que esta pasando, en terminos generales, cuando estratificamos y como


es que me ayuda ante problemas de marco muestral, mejoras de precision
o manejo de costos? Es una idea muy basica. Al estratificar se trata por
separado cada estrato.

Puede ser que se utilicen esquemas de muestreo independientes entre es-


tratos y mas adecuados para cada estrato (costos, precision o marco mues-
tral).

8.1.4. Estratificar o no estratificar?

Estratificar o no estratificar?.... Respuesta....

Departamento de Estadstica 147


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Se gana siempre, estratificando?.... Respuesta....

Claro, esto ultimo siempre y cuando se haga una adecuada estratifica-


cion.

8.1.5. La peor de las situaciones

En el peor de los casos, ante una estratificacion no adecuada,


se obtienen niveles de precision equivalentes a no haber utilizado
estratificacion.

En otras palabras, si una estratificacion no es adecuada es como si no se


hubiera estratificado.

Esta es una propiedad muy interesante, noble y util pues te permite experi-
mentar e intentar mejorar tu diseno de muestreo sin grandes consecuencias.

8.1.6. Concepcion equivocada y muy usada al estratificar

Necesariamente los estratos tienen que ser bloques geograficos definidos


o colindantes?

Departamento de Estadstica 148


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Esta es una idea erronea de la gente que cree tener mucho contacto con la
materia de muestreo y piensa a la estratificacion como cortes geograficos
unicamente.

En realidad los estratos pueden ser cualquier corte en mi poblacion objetivo.

Estos cortes tienen que ser a manera de lo que en matematicas se conoce


como una particion.

Es decir cortes exhaustivos (todos los elementos de la poblacion pertenecen


a algun estrato, no podran quedar fuera) y excluyentes (un elemento no
puede estar en mas de un estrato).

8.2. Hay una buena estratificacion?

Que es lo mas importante para que mi estratificacion sea fructfera en


terminos de precision?

Mas alla de la clasica recomendacion de los viejos libros de muestreo....

Departamento de Estadstica 149


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Los estratos deben ser homogeneos al interior y heterogeneos entre s,


i.e. los individuos dentro de un estrato deben ser muy parecidos y dos
individuos pertenecientes a diferentes estratos deben ser muy distintos

Cual creen ustedes?.....

Que la variable de estratificacion (una variable categorica o continua ca-


tegorizada en intervalos) este ntimamente ligada o asociada a la variable
de estudio relativa al parametro de interes.

Por ejemplo, si me interesa medir la estatura media de una poblacion,


una muy buena variable a utilizar para estratificar sera la estatura de la
poblacion en mediciones pasadas.

Esto porque yo como investigador se de antemano que la estatura esta nti-


mamente ligada (correlacionada) con el peso.

Entonces, podramos utilizarla en intervalos de estatura, etc.

Claro, esto dependera si tenemos tal variable disponible en nuestro marco


muestral.

Departamento de Estadstica 150


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

De modo que obtendramos una buena estratificacion mientras mas


relacionada este la variable que utilizamos para estratificar con la
variable asociada a lo que nos interesa.

8.3. El numero de estratos

Cuantos estratos usar?

Esto equivale a responder Cuantos intervalos usar? en el caso de que


tengamos que categorizar alguna variable continua que queremos utilizar
para la estratificacion.

Alguien sabe?

La respuesta tiene que ver con cuanta muestra tenemos disponible para ser
distribuda en nuestros estratos y tambien cuestiones ejecutivas, es decir,
si la estratificacion es vendible al jefe o cliente no experto en muestreo.

Nosotros, expertos, tenemos que tener en mente siempre que la variable


de estratificacion debe estar muy asociada a lo que queremos medir.

Departamento de Estadstica 151


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

De nuevo, si esto ultimo no sucede, no pasa nada, pero desperdiciaremos


concentracion de muestra donde debieramos concentrarla.

Donde deberamos concentrarla?

Donde hay mayor variabilidad.

Habamos dicho, que depende de cuanta muestra tenemos... Por que?

Para determinar cuantos estratos utilizar, se tiene que considerar que se


necesitan al menos 2 elementos por estrato. Esto nos limita en el numero
de estratos a utilizar.

8.4. El tamano de muestra asociado a la pobla-


cion a partir del tamano de muestra asocia-
do a los dominios de estimacion

La estratificacion nos permite tratar a cada estrato por separado.

De modo que se podra planificar una muestra a partir de los tamanos de


muestra necesarios para arrojar buenas estimaciones por dominio.

Departamento de Estadstica 152


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Y, entonces, tendramos un tamano de muestra para toda la poblacion

Claro, va a salir gigante y eso no le va a gustar al jefe o cliente, ni modo,


as tiene que ser si quieren dar estimaciones con precisiones muy exigentes
por dominio.

Esto es difcil de explicar a gente de otras disciplinas... como lo explicaran


ustedes? A alguien se le ocurre algo?

Departamento de Estadstica 153


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

8.5. Muestreo PPT o mejor estratificar?

Hay que resaltar el punto que se menciona en la bibliografa base del curso,
Sarndal et al. (1992, p. 100).

A estas alturas del curso ya hemos platicado un poco del muestreo con pro-
babilidades proporcionales al tamano (PPS, o PPT en Espanol), entonces
ya tiene sentido este comentario.

Como se platico, el tener probabilidades proporcionales a cierta variable


relacionada con la variable de interes trae beneficios en precision.

Estos beneficios, sin necesidad de utilizar probabilidades desiguales es po-


sible obtenerlos si se utiliza una buena estratificacion.

A diferencia de utilizar un diseno de muestreo PPS, al estratificar no


tendramos que manejar teora matematica de muestreo que pudiere llegar
a ser complicada.

Departamento de Estadstica 154


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

8.6. Notacion y uso de la estratificacion

Tenemos una poblacion U = {u1 , . . . , uk , . . . , uN } que dijimos represen-


taramos (por pura simplificacion de notacion) como:

U = {1, . . . , k, . . . , N }.

Ahora, haremos una particion de esta poblacion en H subpoblaciones que


se denominan estratos y que denotaremos por

U1 , . . . , Uh , . . . , UH

donde,
Uh = {k : k Uh }.

Una vez estratificada nuestra poblacion U , extraemos una muestra sh


del estrato Uh de acuerdo al diseno de muestreo ph (), para h = 1, . . . , H.

Como ya se menciono, la extraccion de muestra en un estrato es indepen-


diente de la extraccion en otro estrato.

De modo que se puede decir que s esta compuesta de la siguiente manera:

s = s1 s2 . . . sH

Departamento de Estadstica 155


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

y por la independencia (que ya hemos comentado mucho)

p(s) = p(s1 ) p(s2 ) . . . p(sH ).

Los estratos son de tamano Nh (que tambien asumiremos un dato conocido


para este curso), entonces

H
X
N = Nh .
h=1

Y por lo tanto el total poblacional t de la variable de interes y lo podemos


descomponer de la siguiente manera:
X
t = yk (8.1)
U
H
X
= th (8.2)
h=1
XH
= Nh yUh (8.3)
h=1

P
donde th = Uh yk es el total de la variable y en el estrato h, y yUh es la
correspondiente media de y en el estrato h.

Definamos ahora el tamano relativo del estrato

Nh
Wh = , (8.4)
N

Departamento de Estadstica 156


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

entonces la media poblacional la podramos descomponer de la siguiente


manera:
XH
yU = Wh yUh .
h=1

Resultado 8.6.1 En un diseno de muestreo estratificado, el estimador del


P
total poblacional t = U yk puede escribirse como

H
X
t = th (8.5)
h=1

P
donde th es el estimador de th = Uh yk . La varianza de t puede escribirse
como,

H
X
 
VST t = Vh th (8.6)
h=1


donde Vh th es la varianza de th . Un estimador insesgado de la varianza

VST t esta dado por,

H
X
 
VbST t = Vbh th (8.7)
h=1


suponiendo que existe un estimador insesgado Vbh th para cada h.

Demostracion.
Tarea opcional 6 para la proxima clase, antes de su comienzo. Se entrega
por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar
recepcion, revisare mi correo antes de comenzar la clase.


Departamento de Estadstica 157


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

8.6.1. El diseno de muestreo aleatorio simple estratificado,


STSI

Sea nh el tamano de muestra fijo de un muestreo bajo el diseno SI para el estrato


h, con h = 1, . . . , H.

Resultado 8.6.2 Bajo el diseno STSI, el estimador del total poblacional t =


P
U yk es

H
X
t = Nh ysh (8.8)
h=1

P
donde ysh = sh yk /nh es la media muestral del estrato h. La varianza de t es,

H
X
 
VST SI t = Vh th (8.9)
h=1
H
X 1 fh 2
= Nh2 Sy Uh (8.10)
h=1
nh

donde fh = nh /Nh es la fraccion de muestreo para el estrato h y

1 X
Sy2Uh = (yk yUh )2 . (8.11)
Nh 1 U
h


Un estimador insesgado de la varianza VST SI t esta dado por,

Departamento de Estadstica 158


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

H
X 1 fh 2
Nh2

VbST SI t = Sy sh (8.12)
h=1
nh

donde

1 X
Sy2sh = (yk ysh )2 . (8.13)
nh 1 s
h

es la varianza muestral de y para el estrato h.

Demostracion.
Tarea opcional 7 para la siguiente clase, se entrega electronicamente
como le hemos venido haciendo.

Departamento de Estadstica 159


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

8.6.2. Sobre la estimacion de un total y una media con


estratificacion: un error comun

Entonces, para la estimacion de un total poblacional, bajo estratificacion


basta con estimar el total en cada estrato y luego hacer una suma de tales
estimaciones por estrato.

En este caso, para la varianza, basta con sumar las varianzas por estrato,
esto por la independencia entre estratos.

Para el caso de una media (proporciones), se estiman las medias en


cada estrato y luego se suman de manera ponderada por el tamano relativo
del estrato Wh , definido anteriormente en (8.4).

La varianza, entonces, sera la suma de las varianzas por estrato (para una
media) ponderando por el cuadrado de los tamanos relativos del estrato

Un error muy comun es, para el caso de la media, querer combinar las
estimaciones (y sus correspondientes estimaciones de varianza) por estrato
de la misma manera que para un total.

Este error es mas comun para el calculo de la varianza.

Departamento de Estadstica 160


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

8.7. Afijacion, asignacion o distribucion de mues-


tra en estratos

Un resumen breve de lo anterior ...

La estratificacion es mi amiga... siempre ayuda.

Nos ayuda con (no nos quita) problemas de marco, administracion, disper-
sion, precision y lo mejor de todo es que es barata o facil.

Los estratos deben estar predefinidos?

Deben ser delimitaciones geograficas?

Que necesito en mi marco muestral para poder estratificar?

Se vale estratificar por una variable que no tengo en mi marco?

Que habamos comentado que es fundamental para una buena estratifi-


cacion mas alla de lo que dicen los viejos libros de muestreo? Que dicen
los libros tradicionales?

Departamento de Estadstica 161


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Una vez comprendido como opera la estratificacion... o decidimos llevarla


a cabo, viene la siguiente pregunta...

Si no se necesita dar estimaciones por estrato, cuanta muestra de la que


ya haba calculado para U y para la estimacion global, asigno o distribuyo
a mis estratos?.....

Depende de varias cosas... Sabemos que depende de costos, tamanos de


los estratos y de la variabilidad...

Y si tuvieramos que dar estimaciones por cierto estrato o sub-estrato (es


decir, por ciertos dominios) como se calculaba la muestra?

Ejemplo: Una encuesta nacional, con posibilidad de dar estimacion nacio-


nal a cierta precision y a la vez con posibilidad de dar estimaciones en
Iztapalapa, D.F., Toluca, Monterrey y Guadalajara. Por donde empiezo?

Departamento de Estadstica 162


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Ejemplo del presidente municipal de un pueblo que cuestiona insistentemen-


te y pide que usemos menos muestra... 2 posibles soluciones o explicaciones
que pongo a su consideracion:

(1) La historia del pueblo y la de Mexico.

(2) La recta numerica.

Tarea opcional 8 para la siguiente clase despues del examen, se


entrega verbalmente ante el salon (bien preparado - escrbanlo
para ustedes - pueden usar pizarron).

Pensar en un buen EJEMPLO (no explicacion) para el presidente municipal.


Ojo, es darle un ejemplo al presidente municipal (o diputado local de bajos
estudios) para que le caiga el veinte de porque a cierta precision y confianza
tenemos que (suponiendo un diseno SI) encuestar a la misma cantidad de
gente en el pas y en el pueblo indistintamente.

Entonces, en el problema de asignar muestra a mis estratos... hay varios


metodos. Aqu listaremos los mas importantes.

El primero, distribucion optima, es poco utilizado pero es importante


tenerlo en consideracion. De el se desprenden los otros dos que listaremos.

El metodo de Neyman, caso particular del optimo cuando los costos son
fijos.

Departamento de Estadstica 163


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

El de Neyman es el mas importante ya que indica como se incorpora infor-


macion que tengamos de los estratos.

Esta informacion tiene que ver con la variabilidad de lo que queremos medir
de estudios pasados o de variables muy asociadas a lo que queremos medir.

Es informacion de la que tendramos que disponer en nuestro marco mues-


tral, claro.

El metodo de Neyman asignara mas muestra en aquellos estratos en donde


mas se requiera (donde haya mas variabilidad, si no, como dicen: para
muestra un boton).

Finalmente, se lista la expresion de la distribucion proporcional, en esta


solo se consideran los tamanos de los estratos. Se ignora la variabilidad.

El proporcional no es muy bueno por obvias razones, tiramos informacion


de gran utilidad para ganar mayor precision en la estratificacion, desapro-
vechamos muestra en estratos donde no es necesaria tanta muestra.

Es el mas utilizado. Aun con nociones rudimentarias de muestreo puede


ser mas facil de venderse de manera ejecutiva, sin oposicion, sin discusion
de colegas, jefes o clientes.

Departamento de Estadstica 164


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Si utilizamos este ultimo metodo, entonces utilizamos la estratificacion


unicamente como control de extraccion y/o dispersion de la muestra.

Es decir, aseguramos que la muestra caiga en todos los estratos. No obs-


tante, en terminos de precision, no mejoramos o mejoramos muy poco con
respecto a no estratificar.

8.7.1. Una funcion de costos

Para la distribucion optima, de donde se desprenden las demas distribucio-


nes, necesitamos establecer siguiente funcion de costo total C.

Son costos asociados al ejercicio practico de muestrear, por ejemplo ope-


rativos de levantamiento, etc.

H
X
C = c0 + n h ch
h=1

donde:

c0 es el costo fijo, igual para todos los estratos;

ch > 0 es el costo variable de estrato en estrato.

Entonces, surge un problema de optimizacion matematica...

Departamento de Estadstica 165


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Minimizar la varianza total del estimador global sujeto al costo total C,

O puede verse como un problema de maximizar la precision, dado un costo


total fijo (gobierno).

Este problema se resuelve con la desigualdad de Cauchy, y su resolucion


no se desarrollara en el presente texto (viene en cualquier libro estandar de
muestreo, incluso los mas viejos).

Las expresiones estan calculadas bajo un diseno de muestreo SI para cada


estrato, es decir un diseno STSI y suponiendo respuesta completa (tasa de
respuesta del 100 %).

Recuerden... todo lo que tiene que ver con tamanos de muestra se hace
bajo el diseno SI y posteriormente se hacen los ajustes con los def f y las
tasas de respuesta, para tener el tamano de correspondiente a un diseno
cualquiera que utilicemos.

8.7.2. Distribucion Optima


Nh SyU h / ch
nh = (C c0 ) PH (8.14)
h=1 Nh SyU h ch

Departamento de Estadstica 166


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

8.7.3. Distribucion de Neyman

Si es posible asumir costos constantes en todos los estratos, entonces te-


nemos esta forma de afijacion de muestra en estratos:

Nh SyU h
nh = n PH
h=1 Nh SyU h

En este caso, SyU h tiene que ser conocida.

De nueva cuenta, pueden obtener aproximaciones, rescatar informacion de


una encuesta previa.

O bien, utilizar informacion de alguna variable auxiliar x que este altamente


correlacionada con la variable de interes y, de modo que utilizaramos:

Nh SxU h
n h = n PH
h=1 Nh SxU h

Departamento de Estadstica 167


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

8.7.4. Distribucion proporcional

si es posible asumir que tanto los costos y la variabilidad de la variable de


interes es constante (o cercanamente constante) en todos los estratos:

Nh Nh
n h = n PH = n
h=1 Nh N

Esta expresion, es la que regularmente es utilizada cuando lo que se quiere


es utilizar la estratificacion como un control de nuestra muestra o para
forzar cierta dispersion de la muestra.

Ejemplo grafico en el pizarron.

Si utilizamos esta distribucion, habriamos de obtener casi la misma preci-


sion a que si no estratificaramos pero asegurariamos la presencia de muestra
en diversos estratos en que previamente fue cortada la poblacion U .

8.7.5. Distribuciones alternativas

Desde luego, las expresiones anteriores pueden ser modificadas segun lo requiere
el estudio en cuestion.

Departamento de Estadstica 168


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Normalmente estas modificaciones siguen la misma lnea que el metodo de Ney-


man, pero modificando a los terminos SyU h .

p
Por ejemplo, a veces se utiliza SyU h . Esto ayuda a suavizar el efecto de la
distribucion de Neyman. Asi, se enva mas muestra donde hay mas variabilidad
pero de manera menos pronunciada a si se utiliza la expresion original de Neyman.

Otra modificacion comun, como ya se vio, es hacer uso de SxU h en lugar de SyU h .
O tambien, a veces se hacen asignaciones ad hoc.

En algunos ejercicios practicos, cuando se tiene un tamano de muestra muy gran-


de, se prefiere afectar la calidad de la estimacion global y mejorar las estimaciones
por estratos o dominios.

Departamento de Estadstica 169


CAPITULO 9

Conglomeracion

170
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

9.1. Introduccion a la conglomeracion

9.1.1. Como se ve la conglomeracion en otros textos y


como la trataremos?

Al igual que la estratificacion, se ve mas como un tipo de diseno de mues-


treo.

Nosotros lo veremos como una tecnica o una herramienta que podemos


implementar no para mejorar nuestro diseno, sino para solucionar
problemas practicos del muestreo.

Ojo: No mejoramos la estimacion.

De entrada, conglomerar disminuye nuestra precision. Esto es, aumenta


la variabilidad de nuestro estimador sea el que sea.

Pero, nos sirve para solucionar problemas...

Departamento de Estadstica 171


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

9.1.2. Que problemas soluciona o que facilita la conglo-


meracion? Su utilidad...

Hasta ahora los disenos que hemos utilizado o comentado son los disenos
en 1 etapa.

Es decir, muestreo directo de elementos.

No obstante, en muchas encuestas o estudios que utilizan muestreo, el


muestreo directo de elementos no es viable o es impractico por alguna
de las siguientes razones:

No existe o no se tiene disponible un marco muestral.


Obtener un marco muestral con mucha desagregacion geografica y
con mucho detalle puede no existir o ser excesivamente caro.
El marco muestral de las unidades de interes para el estudio que
realizamos es, de plano, imposible.
Por ejemplo, la poblacion de abejas en una region de Michoacan, la
poblacion indgena de la sierra oaxaquena.
A lo mas que podramos llegar, en el segundo ejemplo, es a un listado
de viviendas (y eso, tambien no es tan sencillo o barato)

Se les ocurre algun otro ejemplo de marco muestral difcil, caro,


inaccesible o inexistente?

Departamento de Estadstica 172


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Otra razon... La poblacion de elementos esta muy dispersa geografica-


mente y los operativos de medicion o levantamiento de campo seran
muy costosos.

Es decir, es necesario abaratar la encuesta.

Otra razon para conglomerar... La poblacion de elementos esta, na-


turalmente aglomerada en escuelas, barrios, etc. y entonces la super-
vision de campo es mas facil si consideramos tales grupos.

De modo que, al igual que en la estratificacion, siempre podemos cuestionar


cierta conglomeracion e intentar mejorarla... i.e. disminuir su dano.

Volvemos a lo que vimos en primeras clases de manera muy platicada...


En realidad hay que seguir cierta conglomeracion hecha por tradicion ?

Que comentamos en el ejemplo que tenamos de pasar de 3 a 2 etapas?

Que nos limita para cierta conglomeracion aparte de los recursos economi-
cos?

Vamos a lo basico... muestreo por conglomerados en una etapa...

Departamento de Estadstica 173


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

9.1.3. En que consiste el muestreo por conglomerados?

Pizarron.... Empecemos por el caso de muestreo por conglomerados como


lo define nuestro texto base (despues submuestrearemos).

En muestreo por conglomerados la poblacion finita es agrupada en


conglomerados.

Luego se selecciona una muestra de conglomerados.

Posteriormente todos los elementos contenidos en los conglomerados se-


leccionados son encuestados.

El muestreo por conglomerados tambien se le llama muestreo de con-


glomerados en una etapa.

O si no, tambien como muestreo unietapico de conglomerados.

Departamento de Estadstica 174


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

9.1.4. En que consiste el muestreo en dos etapas?

Por otro lado, en el muestreo de dos etapas o muestreo bi-etapico,


una muestra de elementos dentro de los conglomerados es seleccionada en
lugar de (censarlos) medirlos a todos.

Es decir, el muestreo en dos etapas es el resultado de dos etapas en


donde se muestrea.

Esto es:

La poblacion de elementos es agrupada en subpoblaciones disjuntas


llamadas unidades primarias de muestreo (UPMs) (o PSUs en
Ingles)

Se selecciona una muestra de UPMs (primera etapa de muestreo)

Para cada UPM seleccionada en la primera etapa de muestreo se lleva


a cabo una segunda etapa de muestreo al interior.

Estas unidades secundarias de muestreo (USMs) (o SSUs en


Ingles) pueden ser elementos o incluso conglomerados.

Cuando las USMs son conglomerados, todos los elementos de estos


conglomerados son encuestados, a estos disenos se les llama mues-
treo bi-etapico de conglomerados.

Departamento de Estadstica 175


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Tratandose del caso en que las USMs son elementos, se utiliza el


termino muestreo bi-etapido de elementos

Entonces, si se habla de un diseno de muestreo bi-etapico hablamos de


dos posibles opciones. Ojo, evtense confusiones..

9.1.5. En que consiste el muestreo multi-etapico?

Este consiste en tres o mas etapas de muestreo.

Hay una jerarqua de unidades muestrales... UPMs, USMs, UTMs,... UPUMs,


UUMs.

Analogamente, cuando se trata de elementos o conglomerados podemos


tener un muestreo multi-etapico de elementos o un muestreo multi-etapico
de conglomerados.

De modo que ya podemos ir viendo en los reportes de las encuestadoras


mexicanas quienes llaman de manera correcta lo que reportan que estan
haciendo...

Departamento de Estadstica 176


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

9.2. Estimacion de totales y medias con conglo-


meracion

Tratandose de totales, la teora que hemos visto aplica directamente (ya lo


veremos).

Si se dan cuenta, vimos una forma general de estimar y solo estamos


revisando como se adapta bajo estratificacion, conglomeracion y demas...

Y si trabajamos con medias... es igual?

Departamento de Estadstica 177


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Tratandose de medias, no es posible dividir las estimaciones puntuales entre


N y las varianzas entre N 2 .

Esto porque usualmente N es desconocido en muestreos donde se requiere


conglomerar.

Entonces, la media es una razon de dos totales desconocidos que tienen


que ser estimados, esto se vera mas adelante.

Y esto, como se imaginaran traera complicaciones en la estimacion de


varianzas...

Departamento de Estadstica 178


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

9.3. Muestreo de conglomerados unietapico

Como habamos introducido, se tiene que la poblacion finita

U = {1, . . . , k, . . . , N } (9.1)

se particiona en NI subpoblaciones llamados conglomerados, y se denotan

U1 , . . . , Ui , . . . , UNI (9.2)

Entonces tenemos una nueva poblacion, una poblacion de conglomerados

UI = {1, . . . , i, . . . , NI } (9.3)

de donde seran muestreados conglomerados.

Notar que el ndice I lo utilizaremos para identificar objetos o entidades asociados


con los conglomerados.

El numero de elementos en el i-esimo conglomerado Ui se denota Ni . Es decir,


el tamano del conglomerado i.

Entonces, por la particion de U tenemos que


[
U = Ui (9.4)
iUI

y entonces,
X
N = Ni (9.5)
iUI

Departamento de Estadstica 179


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Consecuentemente, definimos el muestreo unietapico conglomerado de la siguien-


te manera:

1. Se extrae una muestra sI de la poblacion de conglomerados UI de acuerdo


a un diseno pI ().

El tamano de sI lo denotamos como nI o nsI para disenos de tamano no


fijo

2. Todos los elementos dentro de los conglomerados seleccionados son obser-


vados

Aqu, pI () representa cualquier diseno de muestreo convencional, e.g. muestreo


aleatorio simple sin reemplazo, muestreo aleatorio simple con reemplazo, mues-
treo aleatorio simple estratificado (ojo: podemos estratificar en pI ()), etc.

Entonces

Como sera s?

Como sera ns ?

Departamento de Estadstica 180


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

[
s = Ui (9.6)
isI

y su tamano
X
ns = Ni (9.7)
isI

Notar que aunque pI () sea de tamano de muestra fijo, el numero ns en


general no sera fijo porque los tamanos de los conglomerados Ni pueden
variar.

Y de manera analoga a lo ya visto anteriormente, la funcion diseno pI () induce


las siguientes probabilidades
X
Ii = pI (sI ) (9.8)
sI 3i

y para dos conglomerados i y j,


X
Iij = pI (sI ) (9.9)
sI 3i&j

Tambien tenemos que Iii = Ii .

Entonces, en lo que respecta a las probabilidades de inclusion de elementos....

Como seran?...

Departamento de Estadstica 181


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Dado que s contiene cada elemento de los conglomerados seleccionados, tene-


mos, para cada k en Ui ,

k = P r(k s) = P r(i sI ) = Ii . (9.10)

Y las probabilidades de inclusion de segundo orden estan dadas por,

kl = P r(k&l s) = P r(i sI ) = Ii , (9.11)

si ambas k y l estan contenidas en el mismo conglomerado Ui , y

kl = P r(k&l s) = P r(i&j sI ) = Iij , (9.12)

si k y l pertenecen a diferentes conglomerados Ui y Uj . Notar que kk = k .

Ahora, para simplificar la notacion definamos,


X
ti = yk , (9.13)
Ui

para el total del conglomerado i-esimo. Entonces, el total a ser estimado puede
re-expresarse como
X X
t = yk = ti . (9.14)
U UI

Iij = Iij /Iij , con Iij = Iij Ii Ij , y definamos


Sea

ti = ti /Ii . (9.15)

Departamento de Estadstica 182


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Resultado 9.3.1 En un muestreo conglomerado unietapico, el estimador del


P
total poblacional t = U yk puede escribirse como

X X
t = ti = ti /Ii (9.16)
sI sI

La varianza de este esta dada por,

 XX
V t = Iij ti tj (9.17)
UI


Un estimador insesgado de V t esta dado por,

 XX
Vb t = t t
(9.18)
Iij i j
sI

Demostracion. La demostracion se desprende de manera muy sencilla de la de-


mostracion del Resultado 6.3.1.

Como ha sucedido anteriormente, si pI () es un diseno de muestreo de tamano



de muestra fijo, la varianza V t puede expresarse como

 1X X 2
V t = Iij ti tj , (9.19)
2 UI

con el siguiente estimador insesgado

 1X X 2
Vb t = Iij ti tj . (9.20)
2 sI

Departamento de Estadstica 183


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

De esta ultima ecuacion podemos extraer interesantes conclusiones sobre la


eficiencia del muestreo de conglomerados (unietapico).


Si todos los ti = ti /Ii son iguales, entonces Vb t = 0.

De modo que podemos escoger Ii aproximadamente proporcional a los to-


tales por conglomerado ti , y asi el muestreo por conglomerados unietapico
sera eficiente.

Si los tamanos de los conglomerados Ni son conocidos en la etapa de


planeacion, uno puede escoger un diseno con Ii Ni .
P
Y, como ti = Ni yUi = Ui yk esta es una buena eleccion si existe poca
variacion entre las medias de los conglomerados yU . Si todas las medias

yUi fueran iguales tendriamos Vb t = 0.

Un muestreo de conglomerados unietapico con probabilidades iguales (i.e.


las Ii todas iguales) es usualmente una mala eleccion cuando los conglo-
merados son de diferente tamano.

Para que tal diseno sea eficiente necesitaramos que yUi fueran mas o menos
proporcionales a Ni1 . Esto es raro en la practica.

Departamento de Estadstica 184


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

9.4. Muestreo de conglomerados unietapico alea-


torio simple (SIC)

Consideremos ahora el muestreo aleatorio simple (sin reemplazo) de con-


glomerados (SIC).

Se utilizara un diseno SI para extraer una muestra sI de tamano nI de


la poblacion de conglomerados UI de tamano NI , y todos los elementos
contenidos en los conglomerados extrados son observados.

Entonces, por el resultado 9.3.1 tenemos que el estimador del total


poblacional esta dado por
t = NI tsI ,
P
donde tsI = sI ti /nI es la media de los totales de los conglomerados ti
en sI .

La varianza, entonces, se puede expresar como

1 fI 2
VSIC (t ) = NI2 S t UI
nI

donde fI = nI /NI es la fraccion de muestreo de conglomerados y

1 X
St2UI = (ti tUI )2 ,
NI 1 U
I

Departamento de Estadstica 185


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

P
con tUI = UI ti /NI . El estimador insesgado de la varianza es

1 fI 2
VbSIC (t ) = NI2 St sI
nI

donde
1 X
St2sI = (ti tsI )2 .
nI 1 s
I

9.4.1. El coeficiente de homogeneidad

Ahora comparemos el diseno SIC contra el diseno SI.

Para ello es util trabajar con el coeficiente de homogeneidad

Sy2 W
= 1 ,
Sy2 U

donde
1 XX
Sy2 W = (yk yUi )2 ,
N NI U U
I i

es la varianza combinada intra-conglomerado, con la media del con-


glomerado i-esimo:
X yk
yUi =
U
Ni
i

Hay varias formas de re-expresar el coeficiente de homogeneidad.

Departamento de Estadstica 186


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

(Pizarron.) Desde el analisis de regresion, no es mas que el coeficiente


de determinacion ajustado por los grados de libertad, obtenido de
correr una regresion lineal sobre y en las NI variables dummy (que indican
la membresa a los conglomerados) en toda la poblacion con N puntos.

El coeficiente de homogeneidad satisface

NI 1
1
N NI

Un valor pequeno de significa...

... que los elementos en el mismo conglomerado son disimilares con respecto
a la variable de estudio, esto es, tienen un bajo nivel de homogeneidad.

Por otro lado, si = 1 tenemos el caso de que hay variacion cero dentro
de cada conglomerado, i.e. total homogeneidad.

El extremo inferior de es usualmente cercano a cero, especialmente si N


es grande comparado con NI .

Departamento de Estadstica 187


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Y uno obtiene exactamente el valor = 0 si la varianza promedio dentro


de los conglomerado es igual a la varianza de la poblacion entera U .

Una vez definido , vamos a obtener el efecto de diseno del diseno SIC.

Sea N = N/NI el numero promedio de elementos por conglomerado, y


sea Cov la covarianza entre Ni y Ni yU2 i dada por:

1 X
Cov = (Ni N )Ni yU2 i
NI 1 U
I

Haciendo un poco de Algebra tenemos entonces que:

VSIC (t ) N NI Cov
Def f (SIC, t ) = = 1 + +
VSI (t ) NI 1 N Sy2 U

Entonces, si todos los conglomerados tuvieran el mismo tamano Cov = 0


y si << 0 se podra dar que VSIC < VSI . Analticamente s se podra...

No obstante, que << 0 es muy difcil que se de en la practica ya que


los conglomerados, usualmente estan conformados de elementos cercanos
geograficamente y tenderan a parecerse en terminos de la variable y.

Por ejemplo, incluso con = 0.08 y un tamano promedio de conglomerados


N = 300 tenemos que Def f (SIC, t ) l 25.

Departamento de Estadstica 188


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Hay mas resultados parecidos al anterior.... Todos, en general, exhiben


que siempre, en la practica y en casos facilmente encontrables, se pierde
precision al conglomerar.

9.5. Muestreo bietapico

Dado que perdemos precision al conglomerar, para controlar costos y au-


mentar el numero de conglomerados a seleccionar (que como ya vimos
tambien, habria de mejorar nuestra precision) hace sentido muestrear den-
tro de los conglomerados seleccionados en lugar de observar a todos.

Entonces, tenemos que estimar cada total de cada conglomerado ti con


submuestras dentro de los conglomerados.

Si la variacion dentro de los conglomerados es pequena (cosa que podemos


esperar), entonces habramos de tener estimadores ti con pequena varianza,
incluso para utilizando poca cantidad de elementos en tales estimaciones.

Y entonces, intuitivamente, si tenemos, digamos, un numero limitado de


lecturas o mediciones en nuestra muestra global, o si tenemos fijo el
tamano de muestra global sin importar como se distribuye la muestra por
etapas (pizarron), habramos de mejorar las estimaciones globales.

Departamento de Estadstica 189


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

En un muestreo bietapico hay dos fuentes de variacion, la primera de la


seleccion de unidades primarias de muestreo (UPM) y la segunda del sub-
muestreo o seleccion de unidades secundarias de muestreo (USM) dentro
de las UPMs seleccionadas en la primera etapa.

La poblacion U se particiona, entonces, en NI UPMs, denotadas

U1 , . . . , UNI .

Tenemos entonces, una poblacion de conglomerados UI de tamano NI .

De nuevo, denotaremos el tamano del conglomerado Ui como Ni .

Tenemos entonces que,


X
N = Ni
iUI

Definimos el muestreo bietapico de la siguiente manera:

1. Se extrae una muestra sI de la poblacion de conglomerados UI de


acuerdo a un diseno pI ().
El tamano de sI lo denotamos como nI o nsI para disenos de tamano
no fijo.

2. Para cada i sI , se extrae una muestra si de elementos a partir de


Ui de acuerdo al diseno pi (|sI )

Departamento de Estadstica 190


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Formalmente hemos visto que en la segunda etapa estamos utilizando el


diseno pi (|sI ).

El supuesto que usualmente se hace, a estas alturas, son los de invarianza


e independencia.

De manera sencilla y en palabras, esto significa que pi (|sI ) = pi () y que


el submuestreo dentro de una UPM se lleva a cabo independientemente de
lo que pase en las demas UPMs.

Hay disenos mas generales en donde los dos supuestos de independencia e


invarianza no se hacen. Nosotros, en lo que queda de conglomeracion (en
particular el diseno bietapico) nos restringiremos al muestreo de elementos
en dos etapas.

El numero de UPMs en sI se denota nsI , o simplemente nI , si el diseno


de muestreo de la primera etapa pI () es de tamano de muestra fijo.

Los elementos muestreados en la UPM i-esima, si se denota como nsi , o


simplemente ni , si pi () es de tamano de muestra fijo.

El numero total de elementos muestreados en s es denotado ns .

Departamento de Estadstica 191


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Entonces, tenemos que:


[
s = si
isI

y su tamano
X
ns = ni
isI

Ahora, para las probabilidades de inclusion asociadas al muestreo bietapico


tenemos: para el diseno de muestreo de la primera etapa pI (), tenemos a
Ii y Iij .

Sea,
Iij = Iij Ii Ij

con
Iii = Ii (1 Ii )

y con
Iij = Iii /Iij

Correspondientemente, para la segunda etapa de muestreo pi (), utilizamos


la notacion k|i y kl|i .

As,
kl|i = kl|i k|i l|i

Departamento de Estadstica 192


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

con
kk|i = k|i (1 k|i )

y con,
kl|i = kl|i /kl|i

9.5.1. Muestreo bietapico de elementos

Para obtener el estimador , su varianza y el correspondiente estimador de


varianza podemos aplicar tal cual el Resultado 6.3.1 general sustituyendo
las correspondientes probabilidades de inclusion k y kl subyacentes

En un muestreo bietapico de elementos:

k = Ii k|i si k Ui

y,
Ii k|i
si k = l Ui
kl = Ii kl|i si k&l Ui , k 6= l

Iij k|i l|j si k Ui and l Uj , i 6= j

En muestreo bietapico condicionamos en el evento realizado de extraccion


de la muestra sI de la primera etapa.

Departamento de Estadstica 193


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Sea
yk
yk|i =
k|i
y sea
X
ti = yk|i (9.21)
si

el estimador con respecto a la etapa 2 del total i-esimo de UPMs


X
ti = yk
Ui

Entonces, sub-muestreando muestras si de manera repetida a partir de Ui ,


de acuerdo al diseno pi (), ti es insesgado para ti .

La varianza con respecto a la etapa 2 es


XX
Vi = kl|i yk|i yl|i
Ui

la cual es estimada insesgadamente mediante el estimador de varianza


XX
Vbi = kl|i yk|i yl|i

si

Alternativamente, como ha sucedido anteriormente, para disenos de mues-


treo pi () de tamano fijo, Vi puede escribirse como

1X X 2
Vi = kl|i yk|i yl|i (9.22)
2 Ui

Departamento de Estadstica 194


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

la cual es estimada insesgadamente mediante el estimador de varianza

1X X 2
Vbi = kl|i yk|i yl|i (9.23)
2 si

A continuacion, la varianza del estimador la escribiremos como la suma


de dos componentes VU P M y VU SM , que representan las dos fuentes de
variabilidad.

El sub-ndice 2st lo utilizaremos para denotar que hay 2 etapas (detwo


stages).

Importante: Notar la diferencia entre ti de la ecuacion (9.21), y

ti
ti =
Ii

Resultado 9.5.1.1 En un muestreo bietapico de elementos, el estimador del


P
total poblacional t = U yk puede escribirse como

X ti
t = (9.24)
sI Ii

donde ti es el estimador de ti con respecto a la etapa 2. La varianza de t


puede escribirse como la suma de dos componentes,

V2st (t ) = VU P M + VU SM (9.25)

Departamento de Estadstica 195


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

con
XX
VU P M = Iij ti tj (9.26)
UI

donde ti = ti /Ii , y
X Vi
VU SM = (9.27)
UI Ii
donde Vi esta dado por la ecuacion (9.22). El primer componente VU P M es
estimado insesgadamente mediante

XX ti tj X 1  1 
VU P M = Iij
1 Vi (9.28)
sI Ii Ij sI Ii Ii

donde Vi esta dado por la ecuacion (9.23), y el segundo componente VU SM es


estimado insesgadamente mediante

X Vi
VU SM = 2
(9.29)
sI Ii

Un estimador insesgado para V2st (t ) es

V2st (t ) = VU P M + VU SM (9.30)

Y se puede demostrar, haciendo el algebra, que

Iij ti tj +
XX X Vi
V2st (t ) = (9.31)
sI Ii Ij sI Ii

Es importante notar que los dos componentes de estas dos ultimas ecuaciones
no corresponden.

Demostracion. La demostracion se desprende de la teora vista.

Departamento de Estadstica 196


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Dado que el segundo termino de la ultima expresion es complicado de


calcular en la practica, en algunos ejercicios practicos se utiliza, como sim-
plificacion solo el primer componente.

Ojo: Esta practica simplifica, no obstante, subestima la verdadera varianza,


aunque por poco (en la mayora de los casos). Es importante, saberlo.

Ojo: Como ya se dijo. No es lo mismo ignorar el ultimo termino que ignorar


VU SM .

En algunas aplicaciones es necesario saber cuanto contribuye cada etapa


en la varianza. Regularmente, se utiliza un estudio piloto.

Notar que VU P M no siempre da estimaciones positivas.

En que condiciones cada componente da cero?

(a) si SI = UI con probabilidad 1, entonces Ii = Iij = 1, i, j. Entonces


P
VU P M = 0 y VU SM = UI Vi . Es decir la varianza del estimador en
muestreo estratificado.

(b) si si = Ui entonces tenemos...

Departamento de Estadstica 197


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Hablar de Srinath & Hidiroglou (1980).

Otra ventaja de ignorar el ultimo termino, aunque sub-estime, es que en la


vida real uno puede utilizar cualquier diseno de muestreo probabilstico en
la segunda etapa.

9.5.2. Muestreo bietapico de elementos: diseno auto-ponderado

Uno de los diseno mas comunes en la practica son los disenos auto-
ponderados.

Basicamente por dos razones:

1. Ayudan a controlar el trabajo de campo.

2. Simplifican los calculos de estimaciones (puntuales).

Un diseno auto-ponderado de dos etapas se hace de la siguiente manera:

(a) Se supone la existencia y conocimiento de una medida de tamano


(gruesa) ui de la i-esima UPM.

Departamento de Estadstica 198


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

(b) Seleccionamos UPMs de acuerdo a un diseno tal que Ii Ni .

(c) Submuestreamos un numero fijo de USMs, ni dentro de las UPMs


seleccionadas, utilizando un diseno SI.

(d) Si se utiliza un diseno de muestreo de tamano de muestra fijo nI


entonces tenemos que:
Ni
Ii = nI P .
Ni

(e) Tenemos entonces que:

Ni ni ni
k = Ii k|i = nI P = nI
Ni Ni N

Obtenemos entonces que todos los individuos en nuestra muestra pesan lo


mismo.

Es lo mismo que considerar, entonces, un diseno SI?

Que creen que hacen las empresas encuestadoras que tenemos en Mexico?

Y es que, entonces se tiene la misma carga de trabajo de campo en cada


UPM.

Departamento de Estadstica 199


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Se puede utilizar software estandar, al menos para la estimacion puntual.

Que pasa con el calculo de varianzas?

El vicio del mercado...

Este auto-ponderamiento se puede tambien implementar en diseno de


mas de dos etapa, por supuesto.

Departamento de Estadstica 200


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

9.6. Post-Estratificacion, ajuste o calibracion de


factores de expansion

Como lograr que si calculamos las frecuencias de una encuesta por ejem-
plo, se tengan proporciones de hombres y mujeres igual a la poblacion
objetivo si la informacion del sexo del entrevistado no la sabemos si no
hasta que ya nos contesto?

Como evitar desviaciones de tal o cual caracterstica en mi muestra y que


ademas se que esa caracterstica esta relacionada con lo que me interesa
medir?

Es decir, lograr lo que en algunos textos o clientes llaman coloquialmente


representatividad en lo que se refiere a cierta variable que no pudimos
controlar previo a la extraccion de la muestra.

Hay que utilizar un Factor de Ajuste,

Pc
F Ac =
P Mc

donde Pc es la proporcion poblacional (esperado) del cruce c, y P Mc es la


proporcion muestral (observada) del cruce c.

Explicando en el pizarron...

Departamento de Estadstica 201


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Cuanto deben sumar los F Ac en mi base de datos muestral?

Otros nombres: ponderacion (comun), calibracion (correcto), post-estratificacion


(correcto).

El vicio del mercado...

Como saber cuando te dan una base de datos que es el ponderador que
reportan en tal base de datos?

Un ponderador o el producto de varios ponderadores?

El otro vicio del mercado... anclar.

Otras opciones...

Departamento de Estadstica 202


Parte IV

Apendices

203
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Relacion entre distribuciones de probabilidad

Fuente: Leemis, L. M. (1986). Relationships among common univariate distributions. Am. Stat.. 40, pp. 1436.

Departamento de Estadstica 204


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Smbolos pch para graficos en R

Departamento de Estadstica 205


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Varianzas hipoteticas de algunas distribuciones


(Kish, 1965)

Departamento de Estadstica 206


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Teorema Central del Lmite,


Velocidad de convergencia a una Normal,
Aproximaciones a la varianza de una variable,
Desigualdad de Tchebychev
(Mendez, Eslava & Romero, 2004)

Departamento de Estadstica 207


Parte V

Sesiones practicas en R

212
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 00 (Instalacion de R y R-Studio)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 16, 2014
###
#################################################################
#################################################################
#################################################################
#Instalacion de R en el equipo.
#################################################################
#Este se encuentra ms rpidamente en el siguiente servidor mexicano:
#http://cran.itam.mx
#(Si tienen curiosidad esta es la pgina principal de R: http://www.r-project.org)
#Hay que seleccionar la versin de R segn el sistema que se est utilizando.
#Bajar, ejecutar la instalacin y seguir las instrucciones del instalador de Windows.
#Importante: Cuando pregunte el instalador el tipo de formato que se desea para la ayuda hay que
elegir html (o html2). Es ms fcil navegar por la ayuda con el navegador.
#Posteriormente, si se desea, instalar R-Studio (opcional, sugerido). Est aqu:
#http://rstudio.org
#Para la instalacin de R-Studio, tiene que haberse instalado antes R.
#R-Studio es una "mascara" de R que lo hace ms amigable.
#Propiamente, no es necesario para ejecutar R, es opcional.
#Una vez instalado R (y en su caso R-Studio), hay que ejecutar R (o R-Studio si se instal,
directamente sin ejecutar antes a R).
#Dentro de R (o R-Studio), en la lnea de comandos, hay que aprender 2 comandos bsicos que
necesitaremos para saber donde estamos trabajando.
#El primer comando indica el directorio de trabajo actual:
getwd()
#Y otro que me permite manualmente determinar el directorio que yo quiero utilizar para trabajar.
Por ejemplo, si quiero trabajar en una carpeta llamada R, en el disco F.
#(Ojo, la carpeta que se indica debe de existir.
#Notar que las diagonales que se utilizan son diagonales NO INVERSAS, de divisin. As se indican
las carpetas en R bajo Windows. Tambin, no olvidar las comillas al inicio y al final.):
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
setwd("E:/WORK/Lecturing/2014_01_ITAM_Licenciatura_EstadisticaAplicada_I/08_R")
#Otra forma es hacer esto con el mouse...
#Una vez determinado el directorio de trabajo hay que colocar all los archivos de datos que se van
a leer.
#Tambin, es en esa carpeta donde se guardaran las cosas que guarden.

Departamento de Estadstica 213


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 01 (Introduccion a R)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 16, 2014
###
#################################################################
#################################################################
#################################################################
# Basta con copiar y pegar cualquier linea en la consola de R.
# Ojo: Es quizas necesario copiar, pegar y correr las lineas anteriores a la linea de interes.

# Precisamente para que pudieran copiar y pegar no estoy utilizando acentos ni letras hispanas.

# Para ir aprendiendo y que tenga chiste, hay que ir viendo lo que pasa con cada linea.
# Si quiero comentar algo sin que lo ejecute R, utilizo el signo # antes
getwd() # Me indica la carpeta de trabajo
setwd("C:/Emilio/R") # Cambia la carpeta de trabajo a C:\Emilio\R (tiene que existir)
setwd("C:\\Emilio\\R") # Cambia la carpeta de trabajo a C:\Emilio\R (tiene que existir)
help(sum) # Llama la ayuda relativa al comando sum
?sum # Llama la ayuda relativa al comando sum
??sum # Llama la ayuda relativa a la palabra sum (cuando estamos ignorando mas)
# Si de plano no encuentro, entonces utilizo Google tecleando por ejemplo: R sum of values
c(1, 2.5, 3) # Arroja un vector de tamano 3
x <- c(1, 2.5, 3) # Asigna a x un vector conformado de 3 numeros
x # Arroja el valor de x
length(x) # Devuelve el tamano del vector x
x <- c(x, 4) # Sobre-escribe a x, extiende su dimension en uno con el valor 4
x # Arroja el valor de x
length(x) # Devuelve el tamano del vector x
mean(x) # Calcula la media de los elementos del vector x
var(x) # Calcula la varianza de los elementos del vector x
mean(x^2) # Calcula el cuadrado de cada elemento del vector x, luego calcula la media
# Entonces estas dos lineas:
sum(x)/length(x)
sum( (x-mean(x))^2 ) / (length(x)-1)
# me tienen que dar lo mismo, respectivamente, que estas dos lineas:
mean(x)
var(x)
Varianza.Que.Me.Interesa <- var(x) # Crea una variable que guarde la varianza de x
sqrt(Varianza.Que.Me.Interesa) # Calcula la raiz cuadrada de la variable con el nombre raro
sd(x) # Calcula la desviacion estandar del vector x
n <- 5 # Crea una variable con el valor de n igual a 5
c(1:n) # Arroja un vector que tiene la secuencia del 1 al valor de n
rep(x, times=2) # Arroja un vector que repite al vector x, 2 veces
rep(x, each=2) # Arroja un vector que repite 2 veces cada elemento de x
z <- c(1:6)^2 # Crea un vector z con valores enteros del 1 al 6 y los eleva al
cuadrado
z # Arroja el valor de z
EsMenorADos <- z<2 # Crea un vector logico con nombre chistoso evaluando contra 2
EsMenorADos # Arroja el valor del vector EsMenorADos
EsIgualACuatro <- z==4 # Crea un vector logico con nombre chistoso evaluando contra 4
EsIgualACuatro # Arroja el valor del vector EsIgualACuatro
z # Arroja el valor de z
z[3] # Arroja el tercer elemento del vector z
z[c(1,3)] # Arroja el 1er y 3er elemento del vector z
z[z<2] # Arroja los elementos del vector z que son menores a 2
z[EsMenorADos] # Arroja los elementos del vector z que son menores a 2
z[-3] # Arroja el valor de z pero omitiendo el 3er elemento
summary(z) # Dependiendo de lo que sea z (datos, vector, matrix,.. arroja estadisticos basicos

Departamento de Estadstica 214


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 02 (Introduccion a R y BilletesSuizos)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 21, 2014
###
#################################################################
#################################################################
#################################################################
# Primero, es recomendable revisar cual es el directorio de trabajo que tenemos actualmente definido
para trabajar en R.
getwd() # Del vocablo en Ingles "get working directory"
# Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos
que utilizaremos.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
# A continuacisn, leemos el conjunto de datos llamado BilletesSuizos.csv. Este esta en formato .csv
(Comma Separated Values)
BilletesSuizos <- read.table(
file = "BilletesSuizos.csv",#Nombre del archivo
#debe estar en el
#direct. de trabajo.
header = TRUE, #Indicamos que los datos
#tienen encabezados en las
#columnas.
sep = ",") #Indicamos que los datos estan
#separados por coma.
# Notar que escrib el comando en varias lneas para irles explicando qu significa cada cosa.
# El comando de arriba lo puedo alternativamente correr como:
BilletesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",")
# Otra forma de hacerlo es utilizando los botones de R-studio... Hagmoslo...
# Ahora, echemos directamente un vistazo a los datos cargados...
# Una primera forma de hacerlo es que llamemos, tal cual a la tabla (o matriz) que acabamos de
cargar.
BilletesSuizos
# Otra forma es que demos doble click a el arreglo de datos que tenemos en nuestro espacio de
trabajo en el R-studio
# Si quiero ver en la consola los primeros 10 renglones (por ejemplo).
BilletesSuizos[1:10, ]
# Tambin tenemos al comando head() que sirve para mostrar los primeros 6 renglones de algn arreglo.
head(BilletesSuizos)
# Puedo ver que son puras variables continuas....
# Si tuvieramos muchas variables, tambien vale la pena ejecutar el comando names()
names(BilletesSuizos)
# En este caso puedo ver que tengo 6 variables y sus nombres.
# Utilizando los botones de R-studio quizs esto no es necesario pero sirve saber que hay un comando
que arroja los nombres en la consola.
# Podemos averiguar la estructura de los datos en la ventana de espacio de trabajo (Workspace) de R-
studio, vemos que son 200 observaciones de 6 variables.
# Otra forma de averiguar el tamaqo de los datos es con el comando dim()
dim(BilletesSuizos)
# Tal comando me arroja la dimensisn del arreglo de datos que estoy utilizando. Entonces utilizamos
200 observaciones (filas) y 6 variables (columnas)
# Vimos que es util calcular la media de cada variable:
colMeans(BilletesSuizos) # Este comando me sirve para calcular la media de las columnas de una
matriz de datos
# Si tuviera una sola variable, entonces utilizo el comando mean()
mean(BilletesSuizos$LARGO) #Estoy indicando me calcule la media del vector que conforma la columna
con nombre LARGO en mi matriz de datos.
# Ahora... sabemos que los primeros 100 registros son de billetes genuinos y los otros 100 son de
billetes falsos.
# Vamos a crear una variable (aparte) 0 y 1 donde 1 es genuino y 0 es falso.
GENUINO <- c(rep(1, times=100), rep(0, times=100))
GENUINO # Vemos cmo quedo mi nueva variable en la consola y en visualizador de datos de R-studio

Departamento de Estadstica 215


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

colMeans(BilletesSuizos[GENUINO==1, ]) # Los genuinos


colMeans(BilletesSuizos[GENUINO==0, ]) # Los falsos
# Ahora, si quiero, ese vector se lo pegamos a nuestra matriz de datos como otra columna, para ello
utilizamos el comando cbind()
BilletesSuizos <- cbind(BilletesSuizos, GENUINO)
# Ahora, le pedimos a R que nos de un resumen esquematico de los datos. Para ellos utilizamos el
comando summary()
summary(BilletesSuizos) # Todos los billetes
summary(BilletesSuizos[GENUINO==1, ]) # Los genuinos
summary(BilletesSuizos[GENUINO==0, ]) # Los falsos

Departamento de Estadstica 216


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 03 (Analisis Exploratorio de Datos: Variables Cualitativas)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 21, 2014
###
#################################################################
#################################################################
#################################################################
# Tip de R-Studio: Utilicen CTRL + R para correr la linea en la que estan situados.
# Primero, revisamos el directorio de trabajo.
getwd()
# Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos
que utilizaremos.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
# Ahora vamos a cargar unos datos para ejemplificar.
# Vamos a cargar la biblioteca MASS.... Platicar sobe la biblioteca MASS.
library(MASS)
# Una vez hecho esto, vamos a utilizar el dataset "bacteria"
bacteria
# Para ver el conjunto de datos solo unas cuantas observaciones y encabezados utilizamos el comando
head()
head(bacteria)
# Como este conjunto de datos esta cargado en un paquete (es decir, es un comando del paquete MASS),
entonces podemos ver que significa cada variable utilizando la ayuda:
?bacteria
# Ahora, para que ustedes puedan reciclar los siguientes comandos, vamos a asignar el conjunto de
datos a una variable
Datos <- bacteria
# De modo que todo lo que hagamos a continuacin, lo pueden hacer ustedes modificando el conjunto de
datos bacteria por el que ustedes quieran en la linea anterior. Por supuesto, en comandos siguientes
tendr que modificar los nombres de columnas, etc...
# Podemos observar que ahora tenemos un objeto de 220 observaciones y 6 variables en la ventana
superior derecha de R-Studio
# Podemos darle doble click para navegar en los datos.
# Digamos que ahora vamos a hacer una tabla de frecuencias simple de la variable y
table(Datos$y)
# En la linea de comando anterior tratamos a Datos como un data.frame.... Ahora vamos a hacer lo
mismo tratando a Datos como una matriz
table(Datos[,"y"])
# O equivalentemente, como una matriz donde no se tiene nombre de columna y nos interesa la primera
columna.
table(Datos[,1])
# Si queremos estas frequencias en trminos relativos y en porcentaje...
prop.table(table(Datos[,1])) * 100
# Pensemos ahora que queremos `cruzar' dos variables cualitativas, una forma es:
table(Datos$y, Datos$trt)
table(Datos$trt, Datos$y) #Vean que pasa.
# Otra forma es (notar la diferencia del output):
with(Datos, table(y, trt))
# Si me interesan las proporciones por celda, es decir, de toda la tabla (que sumen 1):
prop.table(table(Datos$y, Datos$trt))
# Si les interesa que las proporciones sumen 1 por renglones:
prop.table(table(Datos$y, Datos$trt),1)
# Si queremos anadir una columna con la suma para darle mas presentacion, utilizaremos el comando
cbind() que pega columnas, y el comando rowSums() que suma por renglones...
x <- prop.table(table(Datos$y, Datos$trt),1) # Estamos guardando lo anterior en el
objeto x
Total <- rowSums(x) # Guardamos los totales de la tabla x por
renglon
TablaCruzada1 <- cbind(x, Total) # Pegamos a y del lado derecho de x
(agregamos una columna)
# Y guardamos todo en TablaCruzada1

Departamento de Estadstica 217


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

# Ahora vemos como quedo:


TablaCruzada1
# Si queremos a nuestra tabla en terminos porcentuales multiplicamos por 100 y sobreescribimos el
objeto:
TablaCruzada1 <- TablaCruzada1 * 100
TablaCruzada1
# Si quisiera menos decimales utilizo round()
TablaCruzada1 <- round(TablaCruzada1, digits = 2)
TablaCruzada1
# Ahora, si queremos la misma tabla pero que las proporciones sumen por columna (ahora lo voy a
escribir mas rapido sin tanta explicacion). Utilizare esta vez el comando colSums() y el comando
rbind(), que suma por columnas y pega renglones, respectivamente. Entonces, seria:
TablaCruzada2 <- 100 * prop.table(table(Datos$y, Datos$trt),2)
TablaCruzada2 <- rbind(TablaCruzada2, Total = colSums(TablaCruzada2))
TablaCruzada2
# Entonces, con estas tres lineas puedo hacer una tabla que sume por columnas. De modo que puedo ver
la distribucion de los datos, por ejemplo, de "trt" dado "y". Y en el caso pasado, cuando sumaba por
renglones, podiamos observar la distribucion de los datos, de "y" dado "trt".
# Si ahora queremos hacer una tabla cruzada simple con 3 variables:
x <- table(Datos$y, Datos$ap, Datos$trt)
x
# Y podemos seguir usando table con mas variables, pero para mejorar el formato del output, mejor
utilizamos otro comando...
ftable(x)
# Y lo mismo, si queremos proporciones:
ftable(prop.table(x))
# Y si queremos un poco ms de formato, parecido a SAS o a SPSS... Utilizamos el paquete gmodels
# Para instalarlo, podemos usar el comando install.packages() o si no, utilizando el R-Studio...
Hagamoslo...
# Una vez instalado, hay que cargar el paquete con el comando library()
library(gmodels)
# Otra forma de cargar los paquetes es utilizando require() que carga en memoria un paquete si no ha
sido cargado (para ahorrar tiempo)
require(gmodels)
# Y utilizamos el comando CrossTable() del paquete gmodels.
CrossTable(Datos$y, Datos$trt)
# El comando CrossTable tiene un monton de configuraciones... veamos:
?CrossTable
# Veamos por ejemplo las diferentes versiones de la misma tabla utilizando configuraciones
diferentes...
CrossTable(Datos$y, Datos$trt, digits=8)
CrossTable(Datos$y, Datos$trt, digits=1, prop.r=TRUE, prop.c=TRUE, prop.t=TRUE, prop.chisq=TRUE)
CrossTable(Datos$y, Datos$trt, digits=1, prop.r=FALSE, prop.c=TRUE, prop.t=FALSE, prop.chisq=FALSE)
# Pensemos que ahora queremos ver graficamente estos datos...
# Vamos a utilizar un grafico de pastel o pay...
rebanadaspay <- prop.table(table(Datos$trt))
pie(rebanadaspay,
main="Pay de la variable trt")
pie(rebanadaspay,
labels = levels(Datos$trt),
main="Pay de la variable trt")
# Ahora vamos a poner mas informacion...
pct <- round(rebanadaspay/sum(rebanadaspay)*100)
etiquetas <- levels(Datos$trt)
etiquetas <- paste(etiquetas, pct) # Agregamos porcentajes a las etiquetas
etiquetas <- paste(etiquetas,"%",sep="") # Agregamos el signo porcentaje a etiquetas
pie(rebanadaspay,
labels = etiquetas,
main="Pay de la variable trt")
# Cambiamos a otra paleta de colores...
pie(rebanadaspay,
labels = etiquetas,
main="Pay de la variable trt",
col=rainbow(length(etiquetas)))
# Si queremos hacer un pay en 3D, hay un paquete que lo hace (quizs hay mas opciones). Es el
paquete plotrix... lo instalamos con R-Studio
# Lo cargamos...
library(plotrix)
pie3D(rebanadaspay, labels = etiquetas, main="Pay de la variable trt",
col=rainbow(length(etiquetas)))

Departamento de Estadstica 218


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

# Si queremos separar las rebanadas...


pie3D(rebanadaspay, labels = etiquetas, main="Pay de la variable trt",
col=rainbow(length(etiquetas)), explode=0.12)
# Si queremos poner diferentes las etiquetas, agregamos un cambio de linea...
etiquetas <- levels(Datos$trt)
etiquetas <- paste(etiquetas, "\n") # Agregamos cambio de linea a etiquetas
etiquetas <- paste(etiquetas, pct) # Agregamos porcentajes a las etiquetas
etiquetas <- paste(etiquetas,"%",sep="") # Agregamos el signo porcentaje a
# Corremos de nuevo...
pie3D(rebanadaspay,
labels = etiquetas,
main="Pay de la variable trt",
col=rainbow(length(etiquetas)),
explode=0.05)
# Y asi sucesivamente...
# Ahora para realizar un grafico de barras...
conteos <- table(Datos$trt)
barplot(conteos,
main="Distribucion de trt",
xlab="Numero de Observaciones")
# Y si hacemos el grafico acostado...
barplot(conteos,
main="Distribucion de trt",
horiz=TRUE,
xlab="Numero de Observaciones")
# Y si ahora apilamos por la variable y
conteos <- table(Datos$y, Datos$trt)
barplot(conteos,
main="Distribucion de observaciones por trt y la variable y",
xlab="Number de observaciones en trt",
col=c("darkblue","red"),
legend = rownames(conteos))
# Y ahora no apilados, lado a lado...
barplot(conteos,
main="Distribucion de observaciones por trt y la variable y",
xlab="Number de observaciones en trt",
col=c("darkblue","red"),
legend = rownames(conteos),
beside=TRUE)
# Ver R gallery en : http://rgraphgallery.blogspot.mx//

Departamento de Estadstica 219


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 04 (Analisis Exploratorio de Datos: Variables Cuantitativas)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 23, 2014
###
#################################################################
#################################################################
#################################################################
getwd() # Revisamos el directorio de trabajo.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R") # Definimos el
directorio donde trabajaremos, donde estan los datos.
# Ahora vamos a borrar todo lo que tengamos en memoria desde la consola
# (se puede hacer tambin con la escobill en el Workspace)
rm(list=ls()) # el comando "remove" rm() borra objetos en memoria y el comando ls() me lista lo que
tengo en memoria. Si uso los dos juntos me borra todo en la memoria
gc() # Este es el comando "Garbage Collection", sirve para re-establecer la memoria y elimiar
basura que haya quedado en memoria por "memory-leaks".
# Ahora cargamos los datos que utilizaremos.
# Nos interesan los datos "TVcable.csv"
Datos <- read.table(file = "TVcable.csv", header= TRUE, sep= ",")
# Borremos de nuevo... todo
rm(list=ls())
# Si lo quisiera hacer directamente con R-Studio....
# Hagamoslo...
# Revisemos...
head(Datos)
# Que sabemos hasta ahora?
# Veamos los datos... Podemos decir algo?
# Hagamos un diagrama de puntos de la variable RENTA.
# Como se hace a mano?
# Con R, hay un comando para hacer diagramas de puntos es stripchart()
# Veamos como se usa...
?stripchart()
stripchart(Datos$RENTA)
stripchart(Datos$RENTA, method = "stack", vertical = TRUE, axes=TRUE, pch=21, col="blue",
main='Diagrama de puntos, con los datos: TVcable', ylab =
pagar al mes")
# Otro mas cambiando configuracion
stripchart(Datos$RENTA, method = "stack", vertical = FALSE, axes=TRUE, pch=19, col="red",
main='Diagrama de puntos, con los datos: TVcable', xlab =
pagar al mes")
# Ahora un diagrama de tallo y hojas...
# Como se hace a mano?
# Ahora con R utilizando el comando stem()
# Primero veamos como se usa...
?stem
# Ahora lo hacemos con R y revisamos que est bien hecho...
stem(Datos$RENTA)
# Y si nos preguntaran de TVTOT?
stem(Datos$TVTOT)
# Y si quiero ms detalle?
stem(Datos$TVTOT, scale = 2)
# Ahora, para observar una distribucion de frecuencias de una variable discreta...
# Retomamos lo visto en la clase pasada... No abordaremos esta vez las tablas, nos iremos solo a los
graficos.
# Por ejemplo, pensemos en las variables ADULTOS y NINOS...
conteos1 <- table(Datos$ADULTOS)
conteos2 <- table(Datos$NINOS)
barplot(conteos1,
main="Distribucion de frecuencias absolutas",
col="red",
xlab="Nmero de adultos en el hogar"

Departamento de Estadstica 220


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

)
barplot(conteos2,
main="Distribucion de frecuencias absolutas",
col="blue",
xlab="Nmero de nios en el hogar"
)
#NOTA: abusados con las comas
#cuando escriban los comandos
#de esta forma
# Ahora utilicemos histogramas...
# Como se harian a mano?
# Ok, hagamoslo en R con el comando hist()... Hay, por supuesto, mas comandos y opciones para hacer
histogramas mas exoticos y presentables... Nosotros utilizaremos lo basico.... Recuerden, simple
siempre es bueno.
# Veamos como se usa el comando hist()
?hist
# Ahora supongamos que nos interesa la variable VALOR
hist(Datos$VALOR)
# Y si le queremos dar mas formato...
hist(Datos$VALOR, col = "blue", breaks = 4)
hist(Datos$VALOR, col = "blue", breaks = 8)
hist(Datos$VALOR, col = "blue", breaks = 12)
hist(Datos$VALOR,
col = "red",
breaks = "Sturges", #Nota: Default, ponerlo o no ponerlo es igual.
main = "Histograma ms presentable",
xlab = "Valor catastral del hogar (en miles de pesos)",
ylab = "Frecuencia",
)
# Hagamos ahora un ejemplo mas elaborado con histogramas...
# Utilicemos los datos de los "Billetes Suizos"
BilletesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",")
head(BilletesSuizos)
GENUINO <- c(rep(1, times=100), rep(0, times=100))
# Pegamos a nuestra matriz de datos la informacion del vector GENUINO
BilletesSuizos <- cbind(BilletesSuizos, GENUINO)
# Ahora, le pedimos a R que nos de un resumen esquematico de los datos. Para ellos utilizamos el
comando summary()
summary(BilletesSuizos) # Todos los billetes
summary(BilletesSuizos[GENUINO==1, ]) # Los genuinos
summary(BilletesSuizos[GENUINO==0, ]) # Los falsos
# Qu vemos?
# Ahora digamos que quiero ver cmo estn distribuidos los datos
hist(BilletesSuizos$LARGO, col = "blue", breaks = 20)
hist(BilletesSuizos$ANCHOIZQ, col = "blue", breaks = 20)
hist(BilletesSuizos$ANCHODER, col = "blue", breaks = 20)
hist(BilletesSuizos$MARGENINF, col = "blue", breaks = 20)
hist(BilletesSuizos$MARGENSUP, col = "blue", breaks = 20)
hist(BilletesSuizos$DIAGONAL, col = "blue", breaks = 20)
# Me doy cuenta que parece ser que la variable DIAGONAL es la que tiene dos montoncitos y que quizs
pudiera diferenciar mis billetes entre genuinos y falsos ms fcilmente.
# Vuelvo a hacer esos histogramas pero diferenciando entre genuinos y falsos
hist(BilletesSuizos$DIAGONAL[GENUINO==1], col=rgb(0,0,1,1/4), breaks = 20, xlim=c(138, 142))
hist(BilletesSuizos$DIAGONAL[GENUINO==0], col=rgb(1,0,0,1/4), breaks = 20, xlim=c(138, 142), add=
TRUE)
# A ver otra variable???
hist(BilletesSuizos$MARGENSUP[GENUINO==1], col=rgb(0,0,1,1/4), breaks = 20, xlim=c(8, 12))
hist(BilletesSuizos$MARGENSUP[GENUINO==0], col=rgb(1,0,0,1/4), breaks = 20, xlim=c(8, 12), add= TRUE)
# Que puedo concluir?

Departamento de Estadstica 221


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 05 (Analisis Exploratorio de Datos: Variables Cuantitativas - Diagramas de Caja y
Brazos)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 28, 2014
###
#################################################################
#################################################################
#################################################################
# Revisamos y definimos el directorio de trabajo.
getwd() # Revisamos el directorio de trabajo.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
# Definimos el directorio donde trabajaremos, donde estan los datos.
getwd() # Volvemos a revisar.
# Borramos memoria.
rm(list=ls())
gc()
# Ahora cargamos los datos que utilizaremos...
BilletesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",")
# Los vemos...
head(BilletesSuizos)
# Creamos la variable GENUINO...
GENUINO <- c(rep(1, times=100), rep(0, times=100))
# Pegamos a nuestra matriz de datos la informacion del vector GENUINO
BilletesSuizos <- cbind(BilletesSuizos, GENUINO)
# Sabamos de la clase pasada que la variable DIAGONAL de los billetes suizos es la que mejor me
poda discriminar entre los genuinos y los falsos...
# Ahora vamos a llegar a la misma conclusin haciendo unos grficos de Caja y Brazos...
# Primero, los elementos de un diagrama de caja y brazos (caja y bigotes en Ingls)... En el
pizarrn.
# Adyacente inferior
# q1
# m
# q3
# Adyacente superior
# Valores atpicos (o atpicos menores)
# Valores extremos (o atpicos mayores)
# Factor de escala: fes = 1.5 * AI
# AI = Amplitud Intercuartlica
# Barreras interiores: f1 = q1 - fes y f2 = q3 + fes
# Barreras exteriores: F1 = f1 - fes y F2 = f2 + fes
# Para hacer un diagrama de caja y brazos utilizamos el comando boxplot()
boxplot(BilletesSuizos$LARGO,
xlab = "Largo del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHOIZQ,
xlab = "Ancho Izquierdo del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHODER,
xlab = "Ancho Derecho del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENINF,
xlab = "Margen Inferior del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENSUP,
xlab = "Margen Superior del Billete",
col = "red",
horizontal = TRUE )

Departamento de Estadstica 222


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

boxplot(BilletesSuizos$DIAGONAL,
xlab = "Diagonal del Billete",
col = "red",
horizontal = TRUE )
# Ahora hacemos diagramas de caja y brazos de cada variable y separando por genuinos y falsos.
boxplot(BilletesSuizos$LARGO ~ BilletesSuizos$GENUINO,
xlab = "Largo del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHOIZQ ~ BilletesSuizos$GENUINO,
xlab = "Ancho Izquierdo del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHODER ~ BilletesSuizos$GENUINO,
xlab = "Ancho Derecho del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENINF ~ BilletesSuizos$GENUINO,
xlab = "Margen Inferior del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENSUP ~ BilletesSuizos$GENUINO,
xlab = "Margen Superior del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$DIAGONAL ~ BilletesSuizos$GENUINO,
xlab = "Diagonal del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
# Podemos concluir lo mismo que la vez pasada pero ahora utilizando otro tipo de grafico...

Departamento de Estadstica 223


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 06 (Analisis Exploratorio de Datos: Ms grficos)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 28, 2014
###
#################################################################
#################################################################
#################################################################
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R") # Definimos el
directorio donde trabajaremos, donde estan los datos.
getwd()
# Utilizaremos el conjunto de datos: mtcars que ya viene con R...
# Es buena idea ver la descripcinn de las variables utilizando ?mtcars
?mtcars
#################################################################
#################### Grficos de Dispersin #####################
#################################################################
# Son como los diagramas de punto pero en 2 dimensiones
# Lo pueden pensar tal cual como los grficos en un plano cartesiano (2D)
# Empecemos por hacer un grafico de dispersion en 2 dimensiones.
# Un diagrama de dispersinn simple se hace con el comando: plot()
?plot()
# Utilicemos las variables wt y mpg de la base de datos...
# Grafiquemos una primera version...
plot(x = mtcars$wt,
y = mtcars$mpg,
xlab ="Peso del carro ",
ylab ="Millas por galon",
main ="Grafico de dispersion simple/crudo",
col = "red",
pch = 19)
# Otra versin cambiando configuraciones... Qu creen que cambie?
plot(x = mtcars$wt,
y = mtcars$mpg,
xlab ="Peso del carro ",
ylab ="Millas por galon",
main ="Grafico de dispersion simple/crudo",
cex = 3,
col = "dark green",
pch = 21)
# Otra versin cambiando configuraciones
plot(x = mtcars$wt,
y = mtcars$mpg,
xlab ="Peso del carro ",
ylab ="Millas por galon",
main ="Grafico de dispersion simple/crudo",
cex = 2,
col = "dark red",
pch = 8)
# A continuacin un listado de los posibles simbolos para pch... Tambin pueden ver en sus notas, he
aadido en el apndice un listado.
#pch=0, square
#pch=1, circle
#pch=2, triangle point up
#pch=3, plus
#pch=4, cross
#pch=5, diamond
#pch=6, triangle point down
#pch=7, square cross
#pch=8, star
#pch=9, diamond plus
#pch=10, circle plus

Departamento de Estadstica 224


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#pch=11, triangles up and down


#pch=12, square plus
#pch=13, circle cross
#pch=14, square and triangle down
#pch=15, filled square blue
#pch=16, filled circle blue
#pch=17, filled triangle point up blue
#pch=18, filled diamond blue
#pch=19, solid circle blue
#pch=20, bullet (smaller circle)
#pch=21, filled circle red
#pch=22, filled square red
#pch=23, filled diamond red
#pch=24, filled triangle point up red
#pch=25, filled triangle point down red
# Supongamos que queremos agregar a ese grafico (el ltimo) un par de lineas.
# la lnea ajustada de una regresion lineal simple y la de suvizamiento (promedio movil)
abline(lm(mtcars$mpg ~ mtcars$wt), col="red") # Agrega linea de regresion
lines( lowess(mtcars$wt, mtcars$mpg), col="blue") # Agrega linea de suavizamiento
# Ahora unos diagramas de dispersinn por parejas con el comando: pairs()
# Primero todas las parejas de variables...
pairs(mtcars,
main = "Todas las parejas de variables",
cex = 2,
col = "red",
pch = 20)
# Ahora una seleccin de variables...
pairs(mtcars[ , c("mpg","disp","hp")],
main = "Una seleccion de variables",
cex = 2,
col = "red",
pch = 20)
# Ahora una seleccin de variables... cambiando la expansion de etiquetas...
pairs(mtcars[ , c("mpg","disp","hp")],
main = "Una seleccion de variables",
cex = 2,
cex.labels = 1.5,
col = "red",
pch = 20)
# Ahora un diagrama de dispersion en 3D...
# Hay que instalar el paquete "scatterplot3d"
library(scatterplot3d)
?scatterplot3d
scatterplot3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Diagrama de dispersion 3D",
color = "red",
col.grid = "grey",
pch = 19)
# Ahora agamos el mismo grafico pero con mas cosas activadas en la funcion...
scatterplot3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Diagrama de dispersion 3D",
highlight.3d = TRUE,
col.grid = "grey",
pch = 19)
# Ahora con "spikes" o lineas de proyecccion y con etiquetas cambiadas
scatterplot3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Diagrama de dispersion 3D",
xlab = "Peso",
ylab = "Desplazamiento",
zlab = "Millas/galon",
highlight.3d =TRUE,
col.grid ="blue",
type ="h",
pch = 19)

Departamento de Estadstica 225


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

# Ahora digamos que quieren interactuar con el grafico 3D...


# Instalen el paquete "rgl"
library(rgl)
?plot3d
plot3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Dispersion 3D",
xlab = "Peso",
ylab = "Despl.",
zlab = "Mill/galon",
col = "red",
size = 9)
plot3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Dispersion 3D",
xlab = "Peso",
ylab = "Desplazamiento",
zlab = "Mill/galon",
col = "blue",
box = FALSE,
size = 9)
# Otra opcion de grafico 3D...
# Ojo: requiere de instalar un paquete que a su vez requiere de ms paquetes, etc...
# Puede tomar tiempo instalarlo porque son graficos de alta resolucion...
# Hay que instalar el paquete: "Rcmdr"
# Despus poner aceptar en los demas paquetes y aplicaciones que necesita...
library(Rcmdr)
?scatter3d
scatter3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Diagrama de dispersion 3D",
xlab = "Peso",
ylab = "Desplazamiento",
zlab = "Millas/galon",
point.col = "red")
# Pongamos ms opciones... y cambiemos colores
scatter3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Diagrama de dispersion 3D",
xlab = "Peso",
ylab = "Desplazamiento",
zlab = "Millas/galon",
surface.col = "dark red",
point.col = "yellow")
# Pongamos ms opciones... y cambiemos colores
scatter3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Diagrama de dispersion 3D",
xlab = "Peso",
ylab = "Desplazamiento",
zlab = "Millas/galon",
surface.col = "white",
point.col = "yellow",
bg.col = "black",
surface = FALSE,
ellipsoid = TRUE)
################################################################
#################### Grfico Combinado 1 #######################
################################################################
# Ahora un grfico esttico mas sofisticado, no interactivo pero con mas informacion:
# Hay que instalar el paquete "graphics"
# Indicaremos que se grafique la variable mpg (galones por milla) contra la variable disp
(desplazamiento)
# Pero queremos que todo est cortado o desglosado por la variable (cilindros)
# Antes, como la variable cilindros no es una variable categrica le aplicamos el comando
as.factor() que la convierte o trata como variable categrica.

Departamento de Estadstica 226


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

levels(mtcars$cyl) # Con este comando confirmamos que, en efecto, no es categrica porque fue
definida como no categrica...
# Tambin (como hay 3 tipos de cilindros: 4, 6 y 8, pedimos que los tres graficos los ponga en un
solo renglon.
# Se pide tambien que suavice los datos con una linea utilizando panel.smooth...
# Si quieren ver que hace cada cosa, quiten algun parametro, cambien su valor, etc...
library(graphics) #Solicita que se cargue el paquete graphics (ya debe estar instalado)
?coplot
coplot( mpg ~ disp | as.factor(cyl),
data = mtcars,
panel = panel.smooth,
rows = 1)
coplot( mtcars$mpg ~ mtcars$disp | as.factor(mtcars$cyl),
panel = panel.smooth,
rows = 1)
coplot( mpg ~ disp | as.factor(cyl),
xlab = "Desplazamiento",
ylab = "Millas/galn",
data = mtcars,
panel = panel.smooth,
rows = 1)
# Notar que aqu ya estamos metiendo mucha informacin...
# Ahora vamos a ver un grafico muy sencillo en el que puedo representar varias dimensiones y que
quizs es ms fcil de interpretar...
#################################################################
#################### Grficos de Burbujas #######################
#################################################################
# A continuacion, un grafico de burbujas que utiliza el comando symbols()
?symbols
symbols( x = mtcars$mpg,
y = mtcars$disp,
circles = mtcars$cyl,
inches = 0.3,
fg = "blue",
bg = rgb(0,0,1,1/4),
xlab = "Millas por galon",
ylab = "Desplazamiento",
main = "Burbujas de los Carros")
# Ahora vamos aadir etiquetas a los circulos por si no es muy clara la diferencia de tamaos..
?text
text(x = mtcars$mpg,
y = mtcars$disp,
labels = mtcars$cyl,
cex = 0.8)
# Recuerden, para que aprendan a usar estos graficos vayan moviendo y cambiando cosas y vean que
pasa.....
# Notar que el grafico esta utilizando 3 dimensiones... los 2 ejes y el tamao de las burbujas...
# Adicionalmente se podria etiquetar con otra variable en lugar de repetir la 3er variable en el
comando text() con la variable que esta en el argumento circles...
# Otra variante....
symbols( x = mtcars$mpg,
y = mtcars$disp,
squares = sqrt(mtcars$cyl),
inches = 0.5,
fg = "blue",
bg = rgb(0,0,1,1/4),
xlab = "Millas por galon",
ylab = "Desplazamiento",
main = "Cuadrados de los Carros")
text(x = mtcars$mpg,
y = mtcars$disp,
labels = mtcars$cyl,
cex = 0.8)
# Como les decia... vayan moviendo y cambiando cosas y vean que pasa.....
##################################################################
#################### Grficos de Estrellas #######################
##################################################################
# Ahora el grafico de estrellas con el comando stars()
# Primero observar los datos mtcars...
mtcars

Departamento de Estadstica 227


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

# Notar que los renglones tienen nombres, estos nombres ya los traian nuestros datos....
# R permite poner nombre a los renglones asi como tambien permite que las columnas tengan nombres...
?stars
stars(mtcars[, 1:7],
len = 0.8,
key.loc = c(12, 1.5),
main = "Carros",
draw.segments = TRUE)
# Podemos cambiar la paleta de colores a una mejor...
palette(rainbow(12, s = 0.6, v = 0.75))
# Y volvemos a graficar...
stars(mtcars[, 1:7],
len = 0.8,
key.loc = c(12, 1.5),
main = "Carros",
draw.segments = TRUE)
# Notar que estamos graficando 7 dimensiones....
# Si quisieramos graficar solo algunos renglones... y cambiar algunas cosas....indicamos por
ejemplo...
palette(rainbow(14, s = 0.55, v = 0.85))
stars(mtcars[c(2, 3, 6, 7, 8, 9, 10, 12:31), 1:5],
len = 0.9,
key.loc = c(12, 1.5),
main = "Carros",
draw.segments = TRUE,
cex = 0.95,
nrow = 5)
# Aqui estamos graficando 5 dimensiones.... que carros son mas parecidos??? por ejemplo.
################################################################
#################### Grfico Combinado 2 #######################
################################################################
# Grafico combinado de 3... estamos poniendo un diagrama de dispersion, luego unos de caja y brazos
y luego unos de puntos unidimensionales apilados...
# Esto es muy artesanal... iremos viendo cada cosa paso a paso...
plot.new() # Por si hab?a alguna grafica incompleta, esperando nueva sobreescritura. Decimos que se
va a hacer un nuevo grafico... esto me da una hoja en blanco nueva.
par(fig=c(0, 0.8, 0, 0.8), new=TRUE) # Establece ubicacion nueva
plot(mtcars$wt, mtcars$mpg, xlab="Peso del carro", ylab="Millas por galon", pch=19, col="red") #
Hace el grafico de dispersion en la ubicacion determinada anteriormente
par(fig=c(0,0.8,0.46,1), new=TRUE) # Establece otra ubicacion nueva (arriba)
boxplot(mtcars$wt , horizontal=TRUE , axes=FALSE, col="red", boxwex = 0.25) # Hace el boxplot
horizontal de arriba
par(fig=c(0,0.8,0.61,1), new=TRUE) # Establece otra ubicacion nueva (mas arriba)
stripchart(mtcars$wt, method = "stack", vertical = FALSE, axes=FALSE, pch=19, col="blue", add=TRUE)
# Grafico unidimensional de puntos arriba
par(fig=c(0.525,1,0,0.8),new=TRUE) # Establece otra ubicacion nueva (a la derecha)
boxplot(mtcars$mpg, horizontal=FALSE, axes=FALSE, col="red", boxwex = 0.25) # Hace el boxplot
vertical de la derecha
par(fig=c(0.7,1,0,0.8),new=TRUE) # Establece otra ubicacion nueva (mas a la derecha)
stripchart(mtcars$mpg, method= "stack", vertical = TRUE, axes=FALSE, pch=19, col="blue", add=TRUE)#
Grafico unidimensional de puntos a la derecha
mtext("Grafico combinado: dispersion, caja y brazos y puntos unidimensional", side=3, outer=TRUE,
line=-3) # Pone titulo al grafico
# Ahora un ejemplo, para resaltar la importancia de usar informacin grfica...
# Se trata de mostrarles la utilidad de los graficos y no solo de los estadisticos basicos.
# Por supuesto, hagamoslo para el caso mas simple, bidimensional...
# Imaginemos que tenemos 2 variables, x1 y x2 con los siguientes datos...
x1 <- c(3, 4, 2, 6, 8, 2, 5)
x2 <- c(5, 5.5, 4, 7, 10, 5, 7.5)
# Hagamos el grfico combinado que vimos ...
# Para ello copiamos y pegamos lo de arriba pero hacemos los cambios pertinentes...
# Para evitar estar cambie y cambie de aqui en adelante, mejor defino todo en terminos de las
variables x1 y x2 y todo lo corro con esas variables de aqui en adelante.... solo tendre que ir
modificando los valores de x1 y x2 y no de las lineas correspondientes a los graficos....
plot.new()
par(fig=c(0, 0.8, 0, 0.8), new=TRUE)
plot(x1, x2, xlab="x1", ylab="x2", pch=19, col="red")
par(fig=c(0,0.8,0.46,1), new=TRUE)
boxplot(x1 , horizontal=TRUE , axes=FALSE, col="red", boxwex = 0.25)
par(fig=c(0,0.8,0.61,1), new=TRUE)

Departamento de Estadstica 228


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

stripchart(x1, method = "stack", vertical = FALSE, pch=19, col="blue", add=TRUE)


par(fig=c(0.525,1,0,0.8),new=TRUE)
boxplot(x2, horizontal=FALSE, axes=FALSE, col="red", boxwex = 0.25)
par(fig=c(0.7,1,0,0.8),new=TRUE)
stripchart(x2, method= "stack", vertical = TRUE, pch=19, col="blue", add=TRUE)
mtext("Grafico combinado", side=3, outer=TRUE, line=-3)
# Entonces, de este grafico podemos ver la covarianza entre x1 y x2 ser positiva
# Ahora, podemos reordenar las parejas de modo que tengamos los mismo graficos marginales de puntos
y una relacion totalmente diferente entre las variables...
x1 <- c(5, 4, 6, 2, 2, 8, 3)
x2 <- c(5, 5.5, 4, 7, 10, 5, 7.5)
# Volvemos a graficas.... Notar que los graficos de puntos siguen iguales...
plot.new()
par(fig=c(0, 0.8, 0, 0.8), new=TRUE)
plot(x1, x2, xlab="x1", ylab="x2", pch=19, col="red")
par(fig=c(0,0.8,0.46,1), new=TRUE)
boxplot(x1 , horizontal=TRUE , axes=FALSE, col="red", boxwex = 0.25)
par(fig=c(0,0.8,0.61,1), new=TRUE)
stripchart(x1, method = "stack", vertical = FALSE, pch=19, col="blue", add=TRUE)
par(fig=c(0.525,1,0,0.8),new=TRUE)
boxplot(x2, horizontal=FALSE, axes=FALSE, col="red", boxwex = 0.25)
par(fig=c(0.7,1,0,0.8),new=TRUE)
stripchart(x2, method= "stack", vertical = TRUE, pch=19, col="blue", add=TRUE)
mtext("Grafico combinado", side=3, outer=TRUE, line=-3)
# Entonces, de este segundo grafico esperariamos una covarianza negativa entre las dos variables...
# De modo que podemos concluir algo.... podemos tener la misma distribucion marginal para las
variables pero la distribucion conjunta de ambas puede variar... importa entonces como estan
aparejados los datos (ordenados o relacionados)...
# Esto mismo se cumplira generalizando a mas dimensiones.... Es por esto que yo puedo estar viendo
solo cosas marginales pero la idea del analisis multivariado es considerar la combinacion de
informacion... y entonces "sacar mas"
# Veamos otro ejemplo......
# Pensemos ahora que nos encontramos en la situacion de que alguien en la oficina no quiere utilizar
graficos pues aduce que con el puro estadistico descriptivo numerico se captura toda la
informacion...
# Puede que si, pero nosotros sabemos que no... o mejor dicho, con un grafico podriamos contar mejor
la pelicula de lo que esta pasando con nuestros datos...
# Digamos que tenemos los siguientes datos... Que son una recreacion aproximada de datos publicados
en Forbes, Abril, 30, 1990) relativos a la productividad de 16 empresas
x1 <- c( 11, 11, 20, 25, 9, 10, 29, 36, 20, 15, 5, 9, 5, 8, 73, 25 ) # Miles de empleados
x2 <- c( 4, 6, 5, 9, 9, 10, 10, 11, 11, 15, 22, 27, 32, 35, 12, -9 ) # Ganancia por empleado en
miles de dolares
# Supongamos que las empresas estan etiquetadas del 1 al 16... Utilicemos el comando seq() para
crear secuencias.
Etiquetas <- seq(from=1, to=16, by= 1)
# Calculamos el coeficiente de correlacion entre las dos variables
cor(x1,x2)
# Los graficamos...
plot.new()
plot(x1, x2, xlab="x1", ylab="x2", type="n")
text(x1, x2, Etiquetas)
# Calculamos el coeficiente de correlacion entre las dos variables pero probando quitar la empresa
15, luego la 16 y luego quitando las dos, 15 y 16.
cor(x1,x2) # Todas las 16 empresas
cor(x1[-15],x2[-15]) # Quitando la empresa numero 15
cor(x1[-16],x2[-16]) # Quitando la empresa numero 16
cor(x1[-c(15,16)],x2[-c(15,16)]) # Quitando las empresas 15 y 16
# Podemos entonces ver que si nos hubieramos quedado solo con la informacion numerica nos hubieramos
perdido de lo que esta pasando... Sucede que estas dos empresas son muy diferentes del resto y por
tanto "jalan" nuestro estadistico descriptivo.
# El dejar o quitar la observacion u observaciones de nuestras conclusiones sobre la industria
dependera de los objetivos de nuestro estudio.

Departamento de Estadstica 229


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 07 (Analisis Exploratorio de Datos: Q-Q plot y Violin Plot)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 30, 2014
###
#################################################################
#################################################################
#################################################################
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R") # Definimos el
directorio donde trabajaremos, donde estan los datos.
getwd()
BilletesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",")
GENUINO <- c(rep(1, times=100), rep(0, times=100))
################################################################
#################### Grfico de Violin #########################
################################################################
# Un primo un poco ms moderno de los diagramas de caja y brazos (BoxPlots), se llaman grficos de
violines o "violin plots"
install.packages("vioplot")
library(vioplot)
# Graficamos la DIAGONAL de todos los billetes....
vioplot(BilletesSuizos$DIAGONAL, names=c("Todos"), col="red", rectCol ="white", colMed ="black",
pchMed =19, ylim=c(138, 143))
title("Violines de los billetes TODOS juntos") # Ponemos titulo al grafico...
# Graficamos la DIAGONAL de todos los billetes pero separando...
vioplot(BilletesSuizos$DIAGONAL[GENUINO==1], BilletesSuizos$DIAGONAL[GENUINO==0], names=c("Genuinos",
"Falsos"), col="red", rectCol ="white", colMed ="black", pchMed =19, ylim=c(138, 143))
title("Violines de los billetes separados") # Ponemos titulo al grafico...
################################################################
#################### Grfico de Probabilidades QQ ##############
################################################################
# Vimos que ms o menos la DIAGONAL se comportaban como una Normal cuando hicimos histogramas y
violines para los GENUINOS y para los FALSOS...
# Primero... Graficamos la DIAGONAL de todos los billetes... Esperamos que los datos no se
distribuyan como una Normal...
qqnorm(BilletesSuizos$DIAGONAL, # Hace el grfico de probabilidades Normales, tal cual sin
modificar
ylab = "Diagonal TODOS",
pch = 21,
col = "blue")
qqline(BilletesSuizos$DIAGONAL, # Dibuja la linea de probas Normales
col = "red")
points(qnorm(c(.25, .50, .75)), # Dibuja los puntos con los cuartiles centrales
quantile(BilletesSuizos$DIAGONAL, c(.25, .50, .75)),
pch=20, col="red", cex = 2)
# Y si ahora lo hacemos por separado para los GENUINOS
qqnorm(BilletesSuizos$DIAGONAL[GENUINO==1],
ylab = "Diagonal GENUINOS",
pch = 21,
col = "blue")
qqline(BilletesSuizos$DIAGONAL[GENUINO==1],
col = "red")
points(qnorm(c(.25, .50, .75)),
quantile(BilletesSuizos$DIAGONAL[GENUINO==1], c(.25, .50, .75)),
pch=20, col="red", cex = 2)
# Y si ahora lo hacemos por separado para los FALSOS
qqnorm(BilletesSuizos$DIAGONAL[GENUINO==0],
ylab = "Diagonal FALSOS",
pch = 21,
col = "blue")
qqline(BilletesSuizos$DIAGONAL[GENUINO==0],
col = "red")

Departamento de Estadstica 230


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

points(qnorm(c(.25, .50, .75)),


quantile(BilletesSuizos$DIAGONAL[GENUINO==0], c(.25, .50, .75)),
pch=20, col="red", cex = 2)

Departamento de Estadstica 231


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 08 (Estimacion 1)
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Marzo 04, 2014
###
#################################################################
#################################################################
#################################################################
# Primero, revisamos el directorio de trabajo actual en R.
getwd() # Del vocablo en Ingles "get working directory"
# Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos
que utilizaremos.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
# A continuacion, leemos el conjunto de datos llamado MU284.csv. Este esta en formato .csv (Comma
Separated Values)
Marco <- read.table(
file = "MU284.csv",#Nombre del archivo
#debe estar en el
#direct. de trabajo.
header = TRUE, #Indicamos que los datos
#tienen encabezados en las
#columnas.
sep = ",") #Indicamos que los datos estan
#separados por coma.
# Notar que escribi el comando en varias lineas para irles explicando que significa cada cosa.
# El comando de arriba lo puedo alternativamente correr como:
Marco <- read.table(file = "MU284.csv", header= TRUE, sep= ",")
# Otra forma de hacerlo es utilizando los botones de R-studio... Hagamoslo...
# Ahora, echemos directamente un vistazo a los datos cargados...
# Podemos ver que ya aparece un dataframe en nuestra memoria, vemos sus caracter?sticas.
# Vamos a ver las variables y les voy explicando que es cada una...
# Ahora vamos a instalar dos paquetes.... el paquete "sampling" y el paquete "samplingVarEst"
# Los paquetes se instalan utilizando clicks con R-studio o con el comando
?install.packages # Cuando no sepa que hacer utilizo el signo de interrogacin para abrir la
ayuda relativa a ese comando....
# Si no tengo ni idea del comando, entonces utilizo doble ??
# Tercera opcion de ayuda, es utilizar Google, ponga una R antes...
# Ok, instalemos utilizando clicks con el R-Studio o con la siguiente linea de comando
install.packages("samplingVarEst")
# Una vez instalados, ahora los cargamos...
#Recordar aqu? que podemos tener muchos paquetes instalados y no necesariamente cargados (activos)
en memoria...
library(sampling)
require(samplingVarEst)
# Ahora vamos a dar una revisada rapida al paquete sampling (paquete especializado en seleccion de
muestras)
# En particular los comandos que utilizaremos en esta sesion:
#srswor1
#inclusionprobabilities
#UPmaxentropy
#UPbrewer
# Tambien utilizaremos el paquete samplingVarEst (paquete especializado en estimacion de varianza)
# En particular utilizaremos los comandos:
#Pk.PropNorm.U
#Est.Total.NHT
#VE.HT.Total.NHT
#VE.SYG.Total.NHT
# Una vez que ya sabemos que hace cada comando, supongamos que me interesa estimar Theta...
# Theta: Total de la variable P85
# n: De acuerdo con cierto nivel de confianza y de error absoluto... para este ejercicio
utilizaremos 50
# De modo que:
n <- 50

Departamento de Estadstica 232


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

# Y tenemos que N es:


N <- dim(Marco)[1]
# Si tienen duda que hace el comando dim, tecleen ?dim
# Supongamos que vamos a utilizar un diseno SI (muestreo aleatorio simple - sin reemplazo)
# Entonces, como no es necesario que calculemos las Pk antes de extraer la muestra, nos vamos
directo a la extraccion...
# Recuerden, cada renglon en mi marco muestral es un municipio sueco....
# Revisamos de nuevo como se ejecuta el comando de seleccion de muestras aleatorias simples (sin
reemplazo)
?srswor1
####
#### Nota: Estas lineas de comando que siguen a continuaci?n NO SON EFICIENTES, son mas bien
didacticas. Traten de mejorarlas o comentarlas para ustedes mismos.
####
# Extraemos las muestras... saquemos 4, piensen en 4 compa?ias que hacen lo mismito...
s.SI1.U <- srswor1(n,N) # Compania "El buen nmero"
s.SI2.U <- srswor1(n,N) # Compania "Salgo en la TV"
s.SI3.U <- srswor1(n,N) # Compania "Salgo en el peridico"
s.SI4.U <- srswor1(n,N) # Compania "Macondo"
# Suponemos que se levantan los datos....
# Entonces, tenemos la variable de interes pero para cada muestra
VecY.s.SI1 <- Marco$P85[s.SI1.U==1]
VecY.s.SI2 <- Marco$P85[s.SI2.U==1]
VecY.s.SI3 <- Marco$P85[s.SI3.U==1]
VecY.s.SI4 <- Marco$P85[s.SI4.U==1]
# Tratandose de muestreo aleatorio simple tenemos que se tienen los mismos valores en las
probabilidades de inclusion para todos los individuos.
# Tambien en este caso, como cada empresa tiene el mismo tama?o de muestra, todas tendran las mismas
probabilidades de inclusion.
VecPk.s <- rep(n/N, times=n)
# Si tienen duda de como se usa el comando rep, teclear ?rep
# Entonces, si estimamos puntualmente utilizando Narain(1951);Horvitz-Thompson (1952)
EstTheta1 <- Est.Total.NHT(VecY.s.SI1, VecPk.s)
EstTheta2 <- Est.Total.NHT(VecY.s.SI2, VecPk.s)
EstTheta3 <- Est.Total.NHT(VecY.s.SI3, VecPk.s)
EstTheta4 <- Est.Total.NHT(VecY.s.SI4, VecPk.s)
# Veamos las estimaciones
EstTheta1
EstTheta2
EstTheta3
EstTheta4
# A cual le creen?
# Vamos a calcular el coeficiente de variaci?n estimado de cada medici?n. Pero para ello primero
necesitamos calcular la varianza
# Veamos c?mo se utilizan los dos comandos
?VE.HT.Total.NHT
?VE.SYG.Total.NHT
# Me hace falta la matriz de probabilidades de inclusi?n conjuntas MatPkl.s
# La podemos calcular de la siguiente forma:
# Camino largo...
MatPkl.s <- matrix(n*(n-1)/(N*(N-1)), ncol=n, nrow=n)
diag(MatPkl.s) <- n/N
MatPkl.s[1:5,1:5]
# Camino corto gracias a nuestro amigo Hajek que en 1964 public?... Ojo: esto es solo para
muestreos de alta entropia.
MatPkl.s <- Pkl.Hajek.s(VecPk.s)
MatPkl.s[1:5,1:5]
# Entonces, calculemos las varianzas....
EstVarEstTheta1 <- VE.HT.Total.NHT(VecY.s.SI1, VecPk.s, MatPkl.s)
EstVarEstTheta2 <- VE.HT.Total.NHT(VecY.s.SI2, VecPk.s, MatPkl.s)
EstVarEstTheta3 <- VE.HT.Total.NHT(VecY.s.SI3, VecPk.s, MatPkl.s)
EstVarEstTheta4 <- VE.HT.Total.NHT(VecY.s.SI4, VecPk.s, MatPkl.s)
# Y entonces los errores estandar son...
StdErrEstTheta1 <- sqrt(EstVarEstTheta1)
StdErrEstTheta2 <- sqrt(EstVarEstTheta2)
StdErrEstTheta3 <- sqrt(EstVarEstTheta3)
StdErrEstTheta4 <- sqrt(EstVarEstTheta4)
# Y ahora calculemos nuestro error absoluto o precision al 95% de confianza
alpha <- 0.05
AbsErrEstTheta1 <- StdErrEstTheta1*qnorm(1-alpha/2)

Departamento de Estadstica 233


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

AbsErrEstTheta2 <- StdErrEstTheta2*qnorm(1-alpha/2)


AbsErrEstTheta3 <- StdErrEstTheta3*qnorm(1-alpha/2)
AbsErrEstTheta4 <- StdErrEstTheta4*qnorm(1-alpha/2)
# Entonces nuestros 4 intervalos de confianza a un nivel de 95% son:
LimInfICEstTheta1 <- EstTheta1 - AbsErrEstTheta1
LimInfICEstTheta2 <- EstTheta2 - AbsErrEstTheta2
LimInfICEstTheta3 <- EstTheta3 - AbsErrEstTheta3
LimInfICEstTheta4 <- EstTheta4 - AbsErrEstTheta4
LimSupICEstTheta1 <- EstTheta1 + AbsErrEstTheta1
LimSupICEstTheta2 <- EstTheta2 + AbsErrEstTheta2
LimSupICEstTheta3 <- EstTheta3 + AbsErrEstTheta3
LimSupICEstTheta4 <- EstTheta4 + AbsErrEstTheta4
# Ahora calculemos el coeficiente de variacion estimado de cada una de las 4 estimaciones...
CVEEstTheta1 <- StdErrEstTheta1/EstTheta1
CVEEstTheta2 <- StdErrEstTheta2/EstTheta2
CVEEstTheta3 <- StdErrEstTheta3/EstTheta3
CVEEstTheta4 <- StdErrEstTheta4/EstTheta4
# Entonces si queremos tener un output bonito: (cbind pega vectores columna)
OUTPUT1 <- c(EstTheta1, EstTheta2, EstTheta3, EstTheta4)
OUTPUT1 <- cbind(EstTheta = OUTPUT1, StdErr = c(StdErrEstTheta1, StdErrEstTheta2, StdErrEstTheta3,
StdErrEstTheta4))
OUTPUT1 <- cbind(OUTPUT1, LInfCI95 = c(LimInfICEstTheta1, LimInfICEstTheta2, LimInfICEstTheta3,
LimInfICEstTheta4))
OUTPUT1 <- cbind(OUTPUT1, LSupCI95 = c(LimSupICEstTheta1, LimSupICEstTheta2, LimSupICEstTheta3,
LimSupICEstTheta4))
OUTPUT1 <- cbind(OUTPUT1, CVE = c(CVEEstTheta1, CVEEstTheta2, CVEEstTheta3, CVEEstTheta4))
OUTPUT1
# Y si ahora muestreamos con probabilidades desiguales...
# Con que sera mejor muestrear, con probabilidades proporcionales a la variable P75 o con
probabilides iguales...?
# Hagamoslo...
# Primero construimos nuestras probabilidades de inclusion proporcional a P75
?Pk.PropNorm.U
VecPk.U <- Pk.PropNorm.U(n, Marco$P75)
# Ahora necesitamos las probabilidades de inclusion de segundo orden, esto seria con el comando
MatPkl.U <- Pkl.Hajek.U(VecPk.U) #Ojo: No espantarse, puede salir error si excedemos las
dimensiones permitidas...
# Que alternativas tenemos?
# Por que antes cuando utilizmos SI primero extrajimos las muestras y luego construimos las Pik's?
# Claramente porque no importa que muestra cae, podemos reconstruir las probabilides de inclusion
sin problema...
# Para el caso de probabilidades desiguales podemos hacer lo mismo con el comando Pkl.Hajek.s en
lugar de utilizar Pkl.Hajek.U
# Este comando Pkl.Hajek.s estima las probas de inclusion de segundo orden a partir de las probas de
inclusion de primer orden pero de los individuos que tenemos en la muestra extraida...
# Es decir, manejaremos matrices de n por n, que son mucho mas manejables...
# Entonces vamos a extraer primero las muestras... y luego estimamos las Pikls
# Extraemos las muestras... vamos a utilizar el muestreo de Brewer que es de alta entropia Grafstrom
(2010, p. 97) da evidencia de que es de alta entrop?a aunque no est? demostrado. Berger (2011)
plantea que basta que el muestreo sea de alta entrop?a (aunque no maxima) para poder utilizar los
resultados de Hajek (1964)
s.Br1.U <- UPbrewer(VecPk.U)
s.Br2.U <- UPbrewer(VecPk.U)
s.Br3.U <- UPbrewer(VecPk.U)
s.Br4.U <- UPbrewer(VecPk.U)
# Notar que si hubieramos utilizado UPmaxentropy hubiera sido muy lento... pueden hacer la prueba en
su computadora... Notar tambien que el paquete sampling esta programado en R, seria bueno tener una
version mas veloz (programado en C)
# Y entonces ahora si, estimamos nuestras probabilidades de inclusion de 2do orden a partir de datos
muestrales.... (ver la expresion en el manual del paquete samplingVarEst).
# Primero creo un vector con las probabilidades de inclusion de primer orden con solo los datos
muestrales (tengo que hacer uno para cada muestra que saque)
VecPk.s1 <- VecPk.U[s.Br1.U==1]
VecPk.s2 <- VecPk.U[s.Br2.U==1]
VecPk.s3 <- VecPk.U[s.Br3.U==1]
VecPk.s4 <- VecPk.U[s.Br4.U==1]
# Como tenemos la matrix N por N de Pkl's tenemos que quedarnos con los renglones y las columnas de
esta:
MatPkl.s1 <- MatPkl.U[s.Br1.U==1,s.Br1.U==1]
MatPkl.s2 <- MatPkl.U[s.Br2.U==1,s.Br2.U==1]

Departamento de Estadstica 234


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

MatPkl.s3 <- MatPkl.U[s.Br3.U==1,s.Br3.U==1]


MatPkl.s4 <- MatPkl.U[s.Br4.U==1,s.Br4.U==1]
MatPkl.s1[1:5,1:5]
# Si no tuviera la matrix poblacional de Pkl's entonces creo las matrices de probas de 2do orden
estimadas utilizando la version muestral del Hajek(1964)
MatPkl.s1 <- Pkl.Hajek.s(VecPk.s1)
MatPkl.s2 <- Pkl.Hajek.s(VecPk.s2)
MatPkl.s3 <- Pkl.Hajek.s(VecPk.s3)
MatPkl.s4 <- Pkl.Hajek.s(VecPk.s4)
MatPkl.s1[1:5,1:5]
# Ahora creo mis datos muestrales, i.e. solo tendre datos observados de la variable Y para aquellos
que cayeron en muestra...
VecY.s.Br1 <- Marco$P85[s.Br1.U==1]
VecY.s.Br2 <- Marco$P85[s.Br2.U==1]
VecY.s.Br3 <- Marco$P85[s.Br3.U==1]
VecY.s.Br4 <- Marco$P85[s.Br4.U==1]
# Entonces, si estimamos puntualmente utilizando Narain(1951);Horvitz-Thompson (1952)
EstTheta1 <- Est.Total.NHT(VecY.s.Br1, VecPk.s1)
EstTheta2 <- Est.Total.NHT(VecY.s.Br2, VecPk.s2)
EstTheta3 <- Est.Total.NHT(VecY.s.Br3, VecPk.s3)
EstTheta4 <- Est.Total.NHT(VecY.s.Br4, VecPk.s4)
# Entonces, calculemos las varianzas....
#
#
#
#
# Pero aqui, como usamos probabilidades desiguales tiene m?s sentido utilizar SYG en lugar de NHT
para la estimaci?n de varianza, no tanto por el asunto de obtener valores negativos, sino porque es
mejor estimador (quizas estas diferencias aqu? no sean tan importantes porque tenemos una poblaci?n
grande y un tamano de muestra grande... estos argumentos son mas utiles cuando se est? operando en
poblaciones moderadas y tamanos de muestra m?s peque?os, e.g. en algunos estratos en particular)
# Ademas, recuerden que el estimador de varianza de SYG es mas rapido porque hace la mitad de
calculos
#
#
#
EstVarEstTheta1 <- VE.SYG.Total.NHT(VecY.s.Br1, VecPk.s1, MatPkl.s1)
EstVarEstTheta2 <- VE.SYG.Total.NHT(VecY.s.Br2, VecPk.s2, MatPkl.s2)
EstVarEstTheta3 <- VE.SYG.Total.NHT(VecY.s.Br3, VecPk.s3, MatPkl.s3)
EstVarEstTheta4 <- VE.SYG.Total.NHT(VecY.s.Br4, VecPk.s4, MatPkl.s4)
# Y entonces los errores estandar son...
StdErrEstTheta1 <- sqrt(EstVarEstTheta1)
StdErrEstTheta2 <- sqrt(EstVarEstTheta2)
StdErrEstTheta3 <- sqrt(EstVarEstTheta3)
StdErrEstTheta4 <- sqrt(EstVarEstTheta4)
# Y ahora calculemos nuestro error absoluto o precision al 95% de confianza
alpha <- 0.05
AbsErrEstTheta1 <- StdErrEstTheta1*qnorm(1-alpha/2)
AbsErrEstTheta2 <- StdErrEstTheta2*qnorm(1-alpha/2)
AbsErrEstTheta3 <- StdErrEstTheta3*qnorm(1-alpha/2)
AbsErrEstTheta4 <- StdErrEstTheta4*qnorm(1-alpha/2)
# Entonces nuestros 4 intervalos de confianza a un nivel de 95% son:
LimInfICEstTheta1 <- EstTheta1 - AbsErrEstTheta1
LimInfICEstTheta2 <- EstTheta2 - AbsErrEstTheta2
LimInfICEstTheta3 <- EstTheta3 - AbsErrEstTheta3
LimInfICEstTheta4 <- EstTheta4 - AbsErrEstTheta4
LimSupICEstTheta1 <- EstTheta1 + AbsErrEstTheta1
LimSupICEstTheta2 <- EstTheta2 + AbsErrEstTheta2
LimSupICEstTheta3 <- EstTheta3 + AbsErrEstTheta3
LimSupICEstTheta4 <- EstTheta4 + AbsErrEstTheta4
# Ahora calculemos el coeficiente de variaci?n estimado de cada una de las 4 estimaciones...
CVEEstTheta1 <- StdErrEstTheta1/EstTheta1
CVEEstTheta2 <- StdErrEstTheta2/EstTheta2
CVEEstTheta3 <- StdErrEstTheta3/EstTheta3
CVEEstTheta4 <- StdErrEstTheta4/EstTheta4
# Y como ahora estamos muestreando diferente del SI entonces s? tiene sentido calcular el deff
(estimado)
VecPk.s <- rep(n/N, times=n) # Ya lo teniamos en memoria pero para recordar que es... Notar
que es igual en todas las estimaciones porque es para un diseno SI y todas las muestras tienen el
mismo tama?o.

Departamento de Estadstica 235


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

deffEstTheta1 <- EstVarEstTheta1/VE.SYG.Total.NHT(VecY.s.Br1, VecPk.s, Pkl.Hajek.s(VecPk.s))


deffEstTheta2 <- EstVarEstTheta2/VE.SYG.Total.NHT(VecY.s.Br2, VecPk.s, Pkl.Hajek.s(VecPk.s))
deffEstTheta3 <- EstVarEstTheta3/VE.SYG.Total.NHT(VecY.s.Br3, VecPk.s, Pkl.Hajek.s(VecPk.s))
deffEstTheta4 <- EstVarEstTheta4/VE.SYG.Total.NHT(VecY.s.Br4, VecPk.s, Pkl.Hajek.s(VecPk.s))
# Entonces si queremos tener un output bonito:
OUTPUT2 <- c(EstTheta1, EstTheta2, EstTheta3, EstTheta4)
OUTPUT2 <- cbind(EstTheta = OUTPUT2, StdErr = c(StdErrEstTheta1, StdErrEstTheta2, StdErrEstTheta3,
StdErrEstTheta4))
OUTPUT2 <- cbind(OUTPUT2, LInfCI95 = c(LimInfICEstTheta1, LimInfICEstTheta2, LimInfICEstTheta3,
LimInfICEstTheta4))
OUTPUT2 <- cbind(OUTPUT2, LSupCI95 = c(LimSupICEstTheta1, LimSupICEstTheta2, LimSupICEstTheta3,
LimSupICEstTheta4))
OUTPUT2 <- cbind(OUTPUT2, CVE = c(CVEEstTheta1, CVEEstTheta2, CVEEstTheta3, CVEEstTheta4))
OUTPUT2 <- cbind(OUTPUT2, deff = c(deffEstTheta1, deffEstTheta2, deffEstTheta3, deffEstTheta4))
OUTPUT2
# Como son los FE de cada diseno?
summary(1/VecPk.s)
plot(sort(1/VecPk.s))
summary(1/VecPk.s1)
plot(sort(1/VecPk.s1))
# Notar que si el tamano de muestra es generoso, incluso con muestreo SI se obtienen buenas
estimaciones. Pero si tenemos poquita muestra, entonces el SI tendera a fallar y sera mucho mejor
utilizar pesos desiguales.
# Entonces, utilizando probabilidades desiguales esperamos que la distribucion muestral de nuestro
estimador est? m?s concentrada alrededor del verdadero valor, es decir, que utilizando
probabilidades desiguales voy a obtener con mucho menor frecuencia relativa estimaciones que disten
mucho del verdadero valor...
# Nom?s por puro ocio, revisemos qu? tan lejos estamos del verdadero valor en cada caso
OUTPUT1
OUTPUT2
# El verdadero valor es:
Theta <- sum(Marco$P85)
Theta
# Esperamos que vamos a tener mejores estimaciones utilizando un diseno diferente al muestreo SI por
como se comporta la variable de interes
# Para que esto de utilizar probas desiguales funcione, tenemos que la variable de interes tiene que
estar correlacionada con la variable que estamos utilizando para calcular las Pks
# Chequemos que tal esta la correlacion
cor(Marco$P75,Marco$P85)
# Usar las muestras con probas desiguales pero estimar con SI (vicio del mercado - exagerado)
EstTheta1 <- Est.Total.NHT(VecY.s.Br1, VecPk.s)
EstTheta2 <- Est.Total.NHT(VecY.s.Br2, VecPk.s)
EstTheta3 <- Est.Total.NHT(VecY.s.Br3, VecPk.s)
EstTheta4 <- Est.Total.NHT(VecY.s.Br4, VecPk.s)
EstTheta1
EstTheta2
EstTheta3
EstTheta4

Departamento de Estadstica 236


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

#################################################################
#################################################################
#################################################################
###
### Diplomado en Estadistica Aplicada : Modulo Muestreo
###
### Clase Practica 09 (Estimacin 1 - samplingEstimates)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Marzo 06, 2014
###
#################################################################
#################################################################
#################################################################
### Esta sesin tiene que ejecutarse habendo entendido la sesin anterior... No se explicar con
tanto detalle algunas cosas ya que no vale la pena repetir y repetir lo mismo.
### La idea de esta sesin es hacer lo mismo que la clase pasada pero de manera ms rpida
utilizando el paquete: samplingEstimates
# Primero, revisamos el directorio de trabajo actual en R.
getwd() # Del vocablo en Ingles "get working directory"
# Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos
que utilizaremos.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
# El comando de arriba lo puedo alternativamente correr como:
Marco <- read.table(file = "MU284.csv", header= TRUE, sep= ",")
# Ahora vamos a instalar el paquete "samplingEstimates"
install.packages("samplingEstimates")
# Una vez instalado, ahora lo cargamos y Tambin cargamos el paquete que muestrea que vimos la clase
pasada:
library(samplingEstimates)
require(sampling)
# Ahora vamos a dar una revisada rpida al paquete samplingEstimates (paquete "mscara" del paquete
samplingVarEst, con el objeto de hacerlo ms amigable)
# En particular el comando que utilizaremos en esta sesin (del paquete samplingEstimates):
#Estimate.Total.NHT (ver el manual en PDF para entender cmo trabaja)
# Una vez que ya sabemos como opera el comando, supongamos que me interesa estimar Theta...
# Theta: Total de la variable P85
# n: De acuerdo con cierto nivel de confianza y de error absoluto... para este ejercicio
utilizaremos 50
n <- 50
# Y tenemos que N es:
N <- dim(Marco)[1]
# Supongamos que vamos a utilizar un dise?o SI (muestreo aleatorio simple - sin reemplazo)
# Entonces, como no es necesario que calculemos las Pk antes de extraer la muestra, nos vamos
directo a la extracci?n...
# Extraemos las muestras... saquemos 4, piensen en 4 compa?ias que hacen lo mismito...
s.SI1.U <- srswor1(n,N) # Compaa "El buen nmero"
s.SI2.U <- srswor1(n,N) # Compaa "Salgo en la TV"
s.SI3.U <- srswor1(n,N) # Compaa?"Salgo en el peridico"
s.SI4.U <- srswor1(n,N) # Compaa "Macondo"
# Suponemos que se levantan los datos.... tenemos la variable de inters pero para cada muestra
VecY.s.SI1 <- Marco$P85[s.SI1.U==1]
VecY.s.SI2 <- Marco$P85[s.SI2.U==1]
VecY.s.SI3 <- Marco$P85[s.SI3.U==1]
VecY.s.SI4 <- Marco$P85[s.SI4.U==1]
# En este caso, cada empresa tiene el mismo tamao de muestra, todas tendran las mismas
probabilidades de inclusin.
VecPk.s <- rep(n/N, times=n)
# Tambin necesito la matriz de probabilidades de inclusion conjuntas MatPkl.s
MatPkl.s <- Pkl.Hajek.s(VecPk.s)
#### OJO: el paquete samplingEstimates me pide pesos muestrales en lugar de probabilidades de
inclusin de primer orden.
# Entonces, estimamos con el paquete samplingEstimates utilizando el estimador de un total de
Narain(1951);Horvitz-Thompson (1952)
Resultados1 <- Estimate.Total.NHT(MatY.s = VecY.s.SI1,
VecWk.s = 1/VecPk.s ,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s ,

Departamento de Estadstica 237


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

PopSize = N )
Resultados2 <- Estimate.Total.NHT(MatY.s = VecY.s.SI2,
VecWk.s = 1/VecPk.s ,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s ,
PopSize = N )
Resultados3 <- Estimate.Total.NHT(MatY.s = VecY.s.SI3,
VecWk.s = 1/VecPk.s ,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s ,
PopSize = N )
Resultados4 <- Estimate.Total.NHT(MatY.s = VecY.s.SI4,
VecWk.s = 1/VecPk.s ,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s ,
PopSize = N )
OUTPUT1 <- rbind(Resultados1, Resultados2, Resultados3, Resultados4)
OUTPUT1
# Y si ahora muestreamos con probabilidades desiguales...
# Primero construimos nuestras probabilidades de inclusin proporcional a P75 para todos los
individuos en la poblacin
?Pk.PropNorm.U
VecPk.U <- Pk.PropNorm.U(n, Marco$P75)
# Ahora necesitamos las probabilidades de inclusi?n de segundo orden, esto ser?a con el comando
MatPkl.U <- Pkl.Hajek.U(VecPk.U) #Ojo: No espantarse, puede salir error si excedemos las
dimensiones permitidas...
# Extraemos las muestras... vamos a utilizar el muestreo de Brewer que es de alta entrop?a Grafstr?m
(2010, p. 97) da evidencia de que es de alta entrop?a aunque no est? demostrado. Berger (2011)
plantea que basta que el muestreo sea de alta entrop?a (aunque no m?xima) para poder utilizar los
resultados de H?jek (1964)
s.Br1.U <- UPbrewer(VecPk.U)
s.Br2.U <- UPbrewer(VecPk.U)
s.Br3.U <- UPbrewer(VecPk.U)
s.Br4.U <- UPbrewer(VecPk.U)
#estimamos nuestras probabilidades de inclusi?n de 2do orden a partir de datos muestrales....
# Primero creo un vector con las probabilidades de inclusi?n de primer orden con s?lo los datos
muestrales (tengo que hacer uno para cada muestra que saqu?)
VecPk.s1 <- VecPk.U[s.Br1.U==1]
VecPk.s2 <- VecPk.U[s.Br2.U==1]
VecPk.s3 <- VecPk.U[s.Br3.U==1]
VecPk.s4 <- VecPk.U[s.Br4.U==1]
# Como tenemos la matrix N por N de Pkl's tenemos que quedarnos con los renglones y las columnas de
esta:
MatPkl.s1 <- MatPkl.U[s.Br1.U==1,s.Br1.U==1]
MatPkl.s2 <- MatPkl.U[s.Br2.U==1,s.Br2.U==1]
MatPkl.s3 <- MatPkl.U[s.Br3.U==1,s.Br3.U==1]
MatPkl.s4 <- MatPkl.U[s.Br4.U==1,s.Br4.U==1]
MatPkl.s1[1:5,1:5]
# Si no tuviera la matrix poblacional de Pkl's entonces creo las matrices de probas de 2do orden
estimadas utilizando la versi?n muestral del H?jek(1964)
MatPkl.s1 <- Pkl.Hajek.s(VecPk.s1)
MatPkl.s2 <- Pkl.Hajek.s(VecPk.s2)
MatPkl.s3 <- Pkl.Hajek.s(VecPk.s3)
MatPkl.s4 <- Pkl.Hajek.s(VecPk.s4)
MatPkl.s1[1:5,1:5]
# Ahora creo mis datos muestrales, i.e. s?lo tendr? datos observados de la variable Y para aquellos
que cayeron en muestra...
VecY.s.Br1 <- Marco$P85[s.Br1.U==1]
VecY.s.Br2 <- Marco$P85[s.Br2.U==1]
VecY.s.Br3 <- Marco$P85[s.Br3.U==1]
VecY.s.Br4 <- Marco$P85[s.Br4.U==1]
# Entonces, si estimamos:
Resultados1 <- Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s1 ,
PopSize = N )
Resultados2 <- Estimate.Total.NHT(MatY.s = VecY.s.Br2,
VecWk.s = 1/VecPk.s2,
VarEst = "SYG" ,

Departamento de Estadstica 238


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

MatPkl.s = MatPkl.s2 ,
PopSize = N )
Resultados3 <- Estimate.Total.NHT(MatY.s = VecY.s.Br3,
VecWk.s = 1/VecPk.s3,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s3 ,
PopSize = N )
Resultados4 <- Estimate.Total.NHT(MatY.s = VecY.s.Br4,
VecWk.s = 1/VecPk.s4,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s4 ,
PopSize = N )
OUTPUT2 <- rbind(Resultados1, Resultados2, Resultados3, Resultados4)
OUTPUT2
# Notar las diferencias de los comandos:
Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s1 ,
PopSize = N )
Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s1 )
Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1,
VarEst = "SYG" )
Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1)

Departamento de Estadstica 239


Parte VI

Ejercicios

240
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Ejercicios de Analisis Exploratorio de Datos

1. (Verdadero o Falso) La Estadstica es una ciencia.

2. (Pregunta abierta) Definicion de Estadstica.

3. (Pregunta abierta) Por que importa que haya una nocion de azar o incertidumbre en la definicion de
Estadstica?

4. (Reflexion) Donde esta el azar asociado a un objeto: en el objeto per se o en mi ignorancia sobre el
comportamiento del objeto? Justifique.

5. (Reflexion) Con su intuicion, suponiendo que no tiene conocimientos de muestreo. Intente calcular la
probabilidad de que su vecina Chuchita caiga seleccionada en una muestra. Como le hara? Justifique.

6. (Pregunta abierta) Dar 3 ejemplos de variables difciles de definir y que son de interes publico (i.e. que
interesen a INEGI, CONAPO, CONEVAL, CNSF, etc.).

7. (Pregunta abierta) Dar 3 ejemplos de variables multifactoriales que son de interes publico (i.e. que
interesen a INEGI, CONAPO, CONEVAL, CNSF, etc.)

8. (Pregunta abierta) Dar 3 ejemplos de variables categoricas de interes publico (i.e. que interesen a
INEGI, CONAPO, CONEVAL, CNSF, etc.)

9. (Pregunta abierta) Dar 3 ejemplos de variables continuas de interes publico.

10. (Pregunta abierta) Dar 3 ejemplos de variables continuas de interes publico que son recodificadas a
variables categoricas.

11. (Pregunta abierta) Dar 3 ejemplos de variables con escala nominal (de interes publico).

12. (Pregunta abierta) Dar 3 ejemplos de variables con escala ordinal (de interes publico).

13. (Pregunta abierta) Dar 3 ejemplos de variables con escala de intervalo (de interes publico).

14. (Pregunta abierta) Dar 3 ejemplos de variables con escala de razon (de interes publico).

15. (Pregunta abierta) Por que se recomienda hacer un EDA como punto de partida para un estudio o
investigacion?

16. (Pregunta abierta) Cual es la diferencia entre un diagrama de barras y un histograma?

17. (Pregunta abierta) Explique las diferencias entre una escala de intervalo y una escala de razon.

18. (Pregunta abierta) Explique porque se dice que hay una jerarqua entre los niveles de las escalas en los
datos.

Departamento de Estadstica 241


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

19. (Ejercicio Practico)

Utilizar los datos TVcable2 (ojo, estan en formato XLS)

1. Hacer en R un grafico de pastel y uno de barras de la variable asociada al tipo de televisor.


Tratar de hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando los graficos.

2. Hacer en R un grafico de pastel y uno de barras de la variable asociada al tipo de televisor


pero ahora uno por cada colonia. Tratar de hacerlo lo mas bonito que se pueda. Escribir unas
lneas interpretando los graficos para cada colonia y luego otras lneas platicando si se observan
diferencias.

3. Hacer en R un diagrama de puntos con alguna variable (que corresponda, por supuesto). Tratar
de hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando.

4. Hacer en R un grafico de frecuencias de variables discreta con alguna variable (que corresponda,
por supuesto). Tratar de hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando.

5. Hacer en R un histograma con alguna variable (que corresponda, por supuesto). Tratar de
hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando.

20. (Tarea moral) Investigue de que se trata el polgono de frecuencias.

21. (Tarea moral) Investigue de que se trata el diagrama llamado ojiva.

22. (Ejercicio algebraico) A partir de la definicion vista en clase de s2 , demostrar que:

Pn
k=1 x2k nx2
s2 =
n1

23. (Ejercicio Practico) Se tiene el siguiente diagrama de tallo y hojas de ciertos porcentajes para 129
pases. Las cifras del grafico se interpretan de la siguiente manera, por ejemplo 1|5 significa 15 %.
Uselo para determinar:

El rango.

El primer cuartil.

La mediana.

La amplitud intercuartlica.

24. (Ejercicio Practico) Suponga que tienen solamente dos datos: 14 y 160. Calcule:

El rango.

El primer cuartil.

La mediana.

La amplitud intercuartlica.

25. (Repaso de conceptos) Cual es la funcion de distribucion Bernoulli, su esperanza, su varianza?


Que modela una variable aleatoria con tal distribucion de probabilidades?

Departamento de Estadstica 242


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

26. (Repaso de conceptos) Cual es la funcion de distribucion Normal, su esperanza, su varianza? Que mo-
dela una variable aleatoria con tal distribucion de probabilidades?

27. (Ejercicio Practico) Indique hacia que lado (derecho o izquierdo) se tiene un sesgo en el siguiente
grafico.

28. (Ejercicio) Determine, en ese orden, si las siguientes variables son: cualitativas o cuantitativas, discretas
o continuas, y determine su escala de medicion.

El INPC. ( )( )( )

El rendimiento de las acciones de una empresa que cotiza en la BMV. ( )( )( )

El volumen de acciones vendidas por da. ( )( )( )

La clasificacion del riesgo-pas emitida por JP Morgan. ( )( )( )

Departamento de Estadstica 243


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

La intencion de voto del entrevistado. ( )( )( )

El ingreso mensual del entrevistado. ( )( )( )

El numero de focos en el hogar del entrevistado. ( )( )( )

La colonia donde vive el entrevistado. ( )( )( )

El genero del entrevistado. ( )( )( )

La etnia del entrevistado. ( )( )( )

Edad del entrevistado en anos cumplidos. ( )( )( )

El estado civil del entrevistado. ( )( )( )

Tipo de poblacion en que habita el entrevistado (urbana o rural). ( )( )( )

29. (Verdadero o Falso) La covarianza mide solo dependencia lineal.

30. (Verdadero o Falso) Si hay independencia entre 2 variables, esto implica que la correlacion entre estas
es cero.

31. (Verdadero o Falso con justificacion) La Estadstica es una ciencia.

32. (Verdadero o Falso) Con datos cualitativos, las categoras no necesariamente tienen que ser excluyentes.
Puede haber observaciones en 2 o mas categoras.

33. (Verdadero o Falso con justificacion) Los datos cuantitativos tienen un numero finito de clases. Puede
ser muy grande, pero es finito.

34. (Verdadero o Falso) Los datos cuantitativos discretos son aquellos donde hace falta informacion de la
unidad de medicion.

35. (Verdadero o Falso con justificacion) No es posible, de manera alguna, representar a los datos cuanti-
tativos discretos como datos cuantitativos continuos.

36. (Verdadero o Falso con justificacion) No es posible recodificar una variable continua a una variable
categorica.

37. (Verdadero o Falso con justificacion) No es posible determinar causalidad a partir de una correlacion,
aunque esta sea muy cercana a 1.

38. (Verdadero o Falso con justificacion) No es posible o no tiene sentido utilizar un histograma con una
variable categorica.

39. (Verdadero o Falso con justificacion) Existen dependencias no-lineales que pueden tener una correlacion
cero.

40. (Verdadero o Falso con justificacion) Si la covarianza entre dos variables da un valor de cero, esto
implica que las dos variables en cuestion son independientes.

(... trabajo en curso)

Departamento de Estadstica 244


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

Ejercicios de Muestreo

1. (Pregunta abierta) Cual es el objetivo principal del muestreo, es decir, en que situaciones se usa o
que pregunta ayuda a responder el muestreo?

2. (Pregunta abierta) Como podemos relacionar las siguientes ideas en una sola oracion: variabilidad,
muestreo, obtencion y recoleccion de datos, estimacion, inferencia, poblacion, responder preguntas,
precision, terminos probabilsticos, control, medicion, parte de la estadstica? Es decir, haga una oracion
que contenga todas las palabras y que a la vez no este diciendo algo equivocado.

3. (Pregunta abierta) Que diferencia tienen los libros tradicionales de muestreo y el libro de Sarndal que
estamos utilizando?

4. (Pregunta abierta) Que relacion hay entre el software de muestreo en general y el Sarndal?

5. (Pregunta abierta) Cual es la principal desventaja de un enfoque particularizado del muestreo en la


practica, en la oficina, en la realidad?

6. (Pregunta abierta) Comente en sus palabras cual sera el procedimiento general o esqueleto del proceso
que involucra una encuesta. Como si lo estuviera platicando o explicando a un poltico o a un joven
sin contacto previo con el muestreo.

7. (Pregunta abierta) Proporcione 3 ejemplos sobre el uso del muestreo diferente a una encuesta electoral
o de opinion publica. Es decir, se necesitan ejemplos en donde no se trate de una encuesta. En donde
no se necesite un cuestionario tal cual como ordinariamente se hace en una encuesta de opinion. De
preferencia de ejemplos diferentes a los comentados en clase.

8. (Pregunta abierta) Es importante definir bien todos los elementos o detalles involucrados dentro de un
ejercicio de muestreo de poblaciones finitas Que relacion tiene esto con el ejercicio de inferir?

9. (Pregunta abierta) Que es un marco muestral y para que me sirve dentro de la teora de muestreo?

10. (Pregunta abierta) Por que es importante tener un marco muestral de buena calidad y actualizado?

11. (Pregunta abierta) En que casos tengo problemas con mi marco muestral, cuales son los tpicos
problemas que pueden presentarse?

12. (Pregunta abierta) Una encuesta me sirve para responder preguntas de un individuo en particular.
S o no? Explique ampliamente.

13. (Pregunta abierta) Todos los errores en una encuesta tienen que ver con muestreo. S o no? Explique
ampliamente.

14. (Pregunta abierta) Explique de manera simple las ventajas y desventajas de un enfoque de muestreo
basado en diseno.

Departamento de Estadstica 245


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

15. (Pregunta abierta) Pensando en un enfoque de muestreo basado en modelos, explique por que es
posible tener tamanos de muestra muy pequenos en este .approach

16. (Pregunta abierta) Explique como es posible que el enfoque basado en diseno pueda utilizar disenos
de muestreo (o probabilidades de inclusion) arbitrarias y a la vez no se considera un enfoque subjetivo?

17. (Pregunta abierta) Que es el muestreo probabilstico?

18. (Pregunta abierta) Comente por que no es posible determinar que una muestra es probabilstica si solo
se observa la muestra extrada.

19. (Pregunta abierta) Que son las probabilidades de inclusion?

20. (Pregunta abierta) Que es el diseno de muestreo?

21. (Pregunta abierta) Cual es la diferencia entre p(s) y k ?

22. (Pregunta abierta) Para que me sirve determinar p(s) y k en todo este asunto del muestreo que
vemos en el curso. Que importancia tiene cada uno en la teora vista?

23. (Pregunta abierta) Es posible (y por que?) utilizar tecnicas de muestreo que hemos visto con muestras
no probabilsticas?

24. (Pregunta abierta) Que es un parametro (en la teora de muestreo)?

25. (Pregunta abierta) Un parametro tiene variabilidad. S, no, por que?

26. (Pregunta abierta) Y la variable de estudio, es una variable aleatoria. S, no, por que?

27. (Pregunta abierta) Un estimador de un parametro tiene variabilidad. S, no, por que?

28. (Pregunta abierta) Explique como es eso de que un estimador estima un parametro. Que es un
estimador? Como funciona con peras y manzanas Que quiero de un estimador y como me aseguro
de que eso que quiero suceda? Explquelo a un nino pregunton.

29. (Pregunta abierta) De donde viene la variabilidad en el muestreo bajo el enfoque basado en diseno?

30. (Pregunta abierta) La variabilidad en el muestreo basado en diseno la puedo controlar o mnimo
describir? Para que me interesa controlarla o describirla? Como? Mediante que? Explique.

31. (Pregunta abierta) Cual es la diferencia entre un estimador y una estimacion?

32. (Pregunta abierta) Que es la distribucion muestral? Que me dice? Es facil obtenerla siempre. S,
no, por que? En caso de que no, Que puedo hacer entonces?

33. (Pregunta abierta) Por que nos importa estimar en todo momento la media y la varianza de un
estimador? Como se conecta con el concepto de la distribucion muestral?

34. (Pregunta abierta) Que tiene que ver con la calidad del diseno de muestreo que utilicemos el calculo
o estimacion de la varianza?

Departamento de Estadstica 246


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

35. (Pregunta abierta) Como se relaciona en general un total, una media y una proporcion?

36. (Pregunta abierta) Si la calidad de un estimador, una de las caractersticas de las que depende es el
sesgo de este, Que significa que un estimador sea insesgado formalmente hablando? Y que significa
en palabras coloquiales como las entendera para un poltico o cliente comercial?

37. (Pregunta abierta) Es lo mismo hablar del sesgo de un estimador que de que una muestra tiene sesgo,
como habla coloquialmente la gente ajena a tecnicas de muestreo? S, no, explique ampliamente.

38. (Pregunta abierta) Por que formalmente hablando no existe una estimacion insesgada?

39. (Pregunta abierta) Explique como se construye una distribucion muestral de un estimador? Explique
como para un chavito de preparatoria.

40. (Pregunta abierta) Hasta lo que hemos visto, si se quisieran mejorar las estimaciones. En que elementos
tengo control (es decir, no depende del azar) y que cosa usted podra alterar o mejorar?

41. (Pregunta abierta) En poblaciones finitas, es posible determinar todas las muestras posibles? Sirve
de algo eso en la practica, necesito listarlas todas?

42. (Pregunta abierta) Para que nos sirve el coeficiente de variacion estimado? Explique su utilidad practica
a un subalterno que estudio matematicas.

43. (Pregunta abierta) Como explicarle a un poltico o a un nino en terminos coloquiales en realidad
que hace el coeficiente de variacion? Ejemplifique si lo considera pertinente.

44. (Pregunta abierta) En palabras, sin formulas ni notacion matematica. . . De que se trata el uso de
los estimadores o de Narain-Horvitz-Thompson? Cual es la idea intuitiva que hay detras? Explique
ampliamente de manera simple. Ejemplifique si lo considera pertinente.

45. (Pregunta abierta) Que restricciones hay en las probabilidades de inclusion para poder utilizar los
estimadores de Narain-Horvitz-Thompson? Que restricciones tengo para establecerlas?

46. (Pregunta abierta) Que es la fraccion de muestreo y que informacion me da si la tengo terminos
porcentuales?

47. (Pregunta abierta) Explique que significa estratificar en terminos practicos y en terminos matematicos?

48. (Pregunta abierta) Por que se recomienda estratificar como una tecnica util para mejorar estimaciones?
Como convencera a su jefe ignorante en muestreo sin tanto tecnicismo?

49. (Pregunta practica abierta) Suponga que tiene un marco muestral de 40mil registros. Usted sabe
de antemano que la variable Z, disponible en su marco, es dealpara utilizarse como variable de
estratificacion. Desafortunadamente, no todos los registros en su marco tienen registros de esa variable.
Aproximadamente un 20 % de su marco muestral no presenta informacion sobre tal variable. Cual es
la mejor alternativa que usted sugerira? Discuta ampliamente las otras alternativas y por que lo que
propone es mejor. Convenza al jefe que estudio medicina.

Departamento de Estadstica 247


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

50. (Verdadero o Falso con justificacion) La funcion diseno de muestreo es la que determina las propiedades
estadsticas del estadstico que estoy utilizando como estimador.

51. (Verdadero o Falso con justificacion) En muestreo directo de elementos, es decir en 1 etapa, y bajo un
diseno SI se requiere forzosamente tener el marco muestral completo que identifique a los elementos
de la poblacion.

52. (Verdadero o Falso) Si se incorporan mas etapas al diseno de muestreo regularmente se aumenta la
varianza del estimador.

53. (Verdadero o Falso) La ventaja principal de las muestras probabilsticas sobre las no probabilsticas es
que no hay errores no muestrales.

54. Para mejorar la precision en un diseno de muestreo de varias etapas se sugiere tratar de aumentar el
tamano de muestra de las unidades primarias de muestreo, es decir el numero de elementos a muestrear
en la primera etapa. Muchas veces esto tiene que hacerse disminuyendo el numero de unidades ultimas
de muestreo para no afectar el tamano de muestra global.

55. (Verdadero o Falso con justificacion) Es posible obtener muestras insesgadas incluso bajo disenos de
muestreo diferentes al SI.

56. (Verdadero o Falso con justificacion) El tamano de muestra se determina mayormente por el tamano
de la poblacion objetivo.

57. (Verdadero o Falso con justificacion) En un muestreo SI. Si censamos se obtiene una varianza del
estimador igual a cero y tambien la estimacion de la varianza del estimador es igual a cero.

58. (Verdadero o Falso con justificacion) Una proporcion es una media de variables continuas.

59. (Verdadero o Falso) En el muestreo aleatorio simple, todas las muestras tienen la misma probabilidad
de ser extradas.

60. (Verdadero o Falso) En el muestreo aleatorio simple estratificado, todos los elementos de la poblacion
tienen la misma probabilidad de ser seleccionados.

61. (Verdadero o Falso) En el muestreo aleatorio simple, todos los elementos de la poblacion tienen la
misma probabilidad de ser seleccionados.

62. (Verdadero o Falso con justificacion) Para mejorar la precision en un diseno de muestreo se sugiere
aumentar el tamano de muestra.

63. (Verdadero o Falso con justificacion) Siempre que tenga un nivel de precision en los dominios de
estimacion, al combinar las estimaciones para dar una estimacion global, el nivel de precision de la
estimacion global es mejor que el de la estimacion por dominios.

64. (Verdadero o Falso con justificacion) Para estimar proporciones se pueden usar practicamente las
mismas expresiones matematicas que para estimar medias.

Departamento de Estadstica 248


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

65. (Verdadero o Falso con justificacion) El muestreo polietapico, es decir en mas de dos etapas de muestreo
requiere forzosamente de un marco muestral completo que identifique a todas las unidades ultimas de
muestreo.

66. (Verdadero o Falso con justificacion) El deff teorico para cualquier estimador del diseno SI es igual a
cero siempre. Esto por su definicion.

67. (Verdadero o Falso con justificacion) Siempre que utilizamos conglomeracion se aumenta la precision
en mis estimaciones.

68. (Verdadero o Falso con justificacion) Segun la teora vista en el curso. El esquema real de muestreo
puede ser diferente a mi funcion diseno de muestreo al momento de estimar. Se vale y es correcto.

69. (Verdadero o Falso con justificacion) Siempre que se quiera mejorar la precision en un diseno de
muestreo en varias etapas se sugiere reducir el numero de etapas, es decir dejar de conglomerar para
algunas etapas.

70. (Verdadero o Falso con justificacion) El coeficiente de variacion (teorico, no estimado) puede tener
valores iguales a cero si censo.

71. (Verdadero o Falso con justificacion) El error estandar y la desviacion estandar no son lo mismo.

72. (Verdadero o Falso) Si muestreamos bajo el enfoque basado en modelos lo estocastico o variabilidad
esta en el componente aleatorio del modelo.

73. (Verdadero o Falso con justificacion) No se pueden calcular errores de estimacion con muestreo no
probabilstico. Por eso no tiene sentido calcular un tamano de muestra.

74. (Verdadero o Falso con justificacion) Para calcular un tamano de muestra a cierta precision y confianza
necesito siempre el supuesto de Normalidad.

75. (Verdadero o Falso con justificacion) Una manera de estimar a N , el tamano de la poblacion, es
sumando los factores de expansion de los individuos cados en muestra.

76. (Verdadero o Falso) La probabilidad de inclusion conjunta para el par de elementos (k, k), es igual a
la probabilidad de inclusion de primer orden del elemento k.

77. (Verdadero o Falso con justificacion) Es posible tener probabilidades de inclusion de primer orden igual
a n/N y tener un diseno de muestreo p() distinto del muestreo SI.

78. (Verdadero o Falso con justificacion) No se puede estimar puntualmente una proporcion si no se
conocen sus probabilidades kl .

79. (Verdadero o Falso con justificacion) Con las expresiones que vimos en clase, no es posible calcular la
varianza con un tamano de muestra menor a 2.

80. (Verdadero o Falso con justificacion) Las probabilidades de inclusion de primer orden son iguales a las
probabilidades de inclusion conjuntas si trabajamos con un diseno de muestreo aleatorio simple.

Departamento de Estadstica 249


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

81. (Verdadero o Falso con justificacion) El tamano de muestra se determina mayormente por el tamano
de la poblacion objetivo.

82. (Verdadero o Falso con justificacion) Es conservador que la estimacion de varianza de un estimador
tenga un sesgo negativo a uno positivo. Es decir, es conservador obtener errores estandares ligeramente
sub-estimados.

83. (Verdadero o Falso con justificacion) En las expresiones de estimacion puntual de Narain-Horvitz-
Thompson las probabilidades de inclusion pueden ser arbitrarias sin restriccion.

84. (Verdadero o Falso con justificacion) Los .errores no muestralessiempre son pequenos en comparacion
a los errores muestrales.

85. (Verdadero o Falso con justificacion) Al incorporar mas etapas al diseno de muestreo se puede perder
el insesgamiento del estimador puntual lineal.

86. (Verdadero o Falso con justificacion) Siempre que la poblacion es mucho mas grande, la muestra tiene
que ser mucho mas grande.

87. (Verdadero o Falso con justificacion) Siempre que se quiera mejorar la precision en una etapa especfica
de muestreo se sugiere disminuir el numero de unidades muestrales correspondientes a esa etapa.

88. (Verdadero o Falso con justificacion) Se necesitan al menos tanta cantidad de estratos como cantidad
de dominios de estudio tengo planeados.

89. (Verdadero o Falso) Si censamos una poblacion de elementos tenemos una fraccion de muestreo de 1.

90. (Verdadero o Falso con justificacion) De acuerdo a la teora vista en el curso. El total de elementos en
mi poblacion a los que les asigno probabilidad k = 1 no puede ser mayor al tamano de muestra n.

91. (Verdadero o Falso con justificacion) Si sumamos las probabilidades de inclusion de los elementos en
toda mi poblacion obtenemos exactamente el valor n.

92. (Verdadero o Falso con justificacion) Cuando usamos muestreo aleatorio simple no podemos asumir el
gran supuesto estadstico de tener observaciones independientes identicamente distribuidas.

93. (Verdadero o Falso con justificacion) Siempre que la poblacion es mas chica mejora la precision de mis
calculos.

94. (Verdadero o Falso con justificacion) Por su definicion, kl es la correlacion de las indicadoras de
inclusion muestral de los elementos k y l.

95. (Verdadero o Falso con justificacion) Un parametro tiene variabilidad y esta se mide por la varianza de
este, pero para calcular su varianza se requiere de toda la informacion de la poblacion.

96. (Verdadero o Falso con justificacion) Cuando alcanzo cierto error estandar en mis estimaciones globales,
si quiero dar resultados por sub-poblaciones, dominios o cruces, estos tendran un error estandar mas
grande.

Departamento de Estadstica 250


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

97. (Verdadero o Falso con justificacion) Las probabilidades de inclusion de primer orden son iguales a las
probabilidades de inclusion conjuntas si trabajamos con un diseno de muestreo aleatorio simple.

98. (Verdadero o Falso con justificacion) Las probabilidades de inclusion de primer orden son iguales a las
probabilidades de inclusion conjuntas si trabajamos con un diseno de muestreo Bernoulli.

99. (Verdadero o Falso con justificacion) Siempre que se quiera mejorar la precision en un diseno de
muestreo se sugiere estratificar.

100. (Verdadero o Falso con justificacion) La varianza del estimador de un parametro en un muestreo
estratificado aleatorio simple es casi siempre menor que la varianza si no hay estratos y se utilizo un
muestreo aleatorio simple.

101. (Verdadero o Falso con justificacion) Siempre se disminuye la varianza del estimador si se aumenta el
tamano de muestra en un diseno SI.

102. (Verdadero o Falso con justificacion) De acuerdo al curso. No es posible asignar probabilidades de
inclusion 1 a algunos elementos en el marco muestral porque no estaramos haciendo muestreo proba-
bilstico.

103. (Verdadero o Falso con justificacion) Si estratificamos un diseno de muestreo (sin importar si es un
diseno de muestreo de mas de una etapa), esta puede hacer perder al estimador lineal su insesgamiento.

104. (Verdadero o Falso con justificacion) No es posible tener tamano de muestra 1 en un estrato, aun
cuando su tamano poblacional sea 1.

105. (Verdadero o Falso con justificacion) No existen restricciones en el tamano de muestra asignado a los
estratos cuando se incorpora una estratificacion al diseno de muestreo utilizado.

106. (Verdadero o Falso con justificacion) En un muestreo en varias etapas. No es posible utilizar la muestra
de la etapa anterior como poblacion para extraer muestras en la etapa siguiente.

107. (Ejercicio algebraico) Vimos en clase (y usted demostro como tarea opcional) que:
Resultado 5.3.1.1 Para un diseno de muestreo p(s) arbitrario, y para k, l = 1, . . . , N ,

E(Ik ) = k
V (Ik ) = k (1 k )
def
C(Ik , Il ) = kl k l = kl

Sea ns el tamano de muestra para cualquier diseno de muestreo, tenemos que este puede expresarse
P
en terminos de las indicadoras de inclusion muestral Ik como: ns = U Ik .

(a) Calcule: E(ns )

Departamento de Estadstica 251


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

(b) Sabiendo que: !


X X X
V Ik = C(Ik , I` )
U kU `U

Complete la expresion para V (ns ), rellenando las siguientes expresiones:

X
V (ns ) = k (1 k ) +
U
!2
X
= k +
U

(... trabajo en curso)

Departamento de Estadstica 252


Indice alfabetico

Wh , 156 tablas de frecuencia, 17


kl , 83 para variables cuantitativas, 19
k , 82 diagramas de punto, 19
diagramas de tallo y hojas, 20
afijacion, asignacion o distribucion de
frecuencias de variables continuas,
muestra, 161
22
distribucion optima, 166
frecuencias de variables discretas,
distribucion de Neyman, 167
21
distribucion proporcional, 168
histogramas, 22
distribuciones alternativas, 168
Tukey, 13
ajuste de tamano de muestra por no
apendices, 204
respuesta, 142
analisis exploratorio de datos, 2, 12, 13 coeficiente de variacion, 109
EDA, 13 estimado, 110
historia, 13 coeficiente de variacion estimado, 110
objetivo, 15 conglomeracion, 170
para variables cualitativas, 17 bi-etapico, 175
diagramas circulares, 18 bietapico, 189
diagramas de barras, 18 de elementos, 193
diagramas de pastel, 18 bietapido

253
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

varianza, 195 diagramas de tallo y hojas, 20


coeficiente de homogeneidad, 186 frecuencias de variables continuas,
estimacion de totales y medias, 177 22
muestreo por conglomerados, 174 frecuencias de variables discretas,
multi-etapico, 176 21
SIC, 185 histogramas, 22
unietapico, 179 efecto de diseno, 126
unietapico aleatorio simple, 185 efecto de diseno estimado, 126
utilidad, 172 ejercicios, 241
CV, 109 exploratorio de datos, 241, 245
encuesta, 60
datos, 4
elementos, 57
cualitativos, 7
dominios de estudio, 57
cuantitativos, 7
marco muestral, 57
definiciones, 4
error cuadratico medio, 105
tipos, 6
error estandar, 109
Deff, 126, 141
error estandar relativo, 109
deff, 126, 142
escalas, 4
distribuciones de probabilidad
de medicion, 9
relacion, 204
Estadstica
dominios de estudio, 57
definicion, 3
EDA, 13 partes o subdivisiones, 3
objetivo, 15 Estadstica aplicada, 2
para variables cualitativas, 17 introduccion, 2
diagramas circulares, 18 estadsticos descriptivos
diagramas de barras, 18 medidas de dispersion, 31
diagramas de pastel, 18 amplitud, 31
tablas de frecuencia, 17 amplitud intercuartlica, 31
para variables cuantitativas, 19 coeficiente de variacion, 33
diagramas de punto, 19 rango, 31

Departamento de Estadstica 254


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

varianza muestral, 32 afijacion de muestra, 161


varianza poblacional, 32 distribucion optima, 166
medidas de posicion distribucion de Neyman, 167
percentiles, 28 distribucion proporcional, 168
medidas de tendencia central, 24 distribuciones alternativas, 168
media, 25, 30 asignacion de muestra, 161
mediana, 27 distribucion optima, 166
estimacion, 106 distribucion de Neyman, 167
estimador, 98 distribucion proporcional, 168
, 111 distribuciones alternativas, 168
diseno BE, 122 de que se trata, 145
diseno SI, 124 diseno aleatorio simple estratifica-
comunes, 99 do, 158
de expansion simple, 112 distribucion de muestra, 161
definicion, 99 la buena, 149
distribucion muestral, 101 numero de estratos, 151
error cuadratico medio, 105 peor de los casos, 148
esperanza, 103 STSI, 158
Horvitz-Thompson, 111 tamano relativo del estrato, 156
diseno BE, 122 utilidad y usos, 146
diseno SI, 124 expansion , 112
MSE, 105
fraccion de muestreo, 124
Narain-Horvitz-Thompson, 111
funcion diseno de muestreo, 66, 79
diseno BE, 122
definicion, 79
diseno SI, 124
funciones indicadoras, 82
notacion, 100
propiedades, 103 Horvitz-Thompson, 114
sesgo, 105
indicadoras de inclusion muestral, 82
varianza, 103
introduccion al muestreo, 42
estratificacion, 144
marco muestral, 55

Departamento de Estadstica 255


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

definicion, 55 deff, 127, 142


errores, 56 efecto de diseno, 141
informacion adicional, 56 elementos tecnicos, 62
problemas, 56 esquema
media, 78 1 etapa, 68
interpretacion geometrica, 30 2 etapas, 75
medidas de dispersion, 31 3 etapas, 72
amplitud, 31 fraccion de muestreo, 124
amplitud intercuartlica, 31 introduccion, 42
coeficiente de variacion, 33 multi-etapico, 176
rango, 31 no respuesta, 142
varianza muestral, 32 objetivo, 43, 44
varianza poblacional, 32 por conglomerados, 174
medidas de posicion principio de expansion, 112
percentiles, 28 probabilstico, 64
medidas de tendencia central, 24 SIC, 185
media, 25 STSI, 158
interpretacion geometrica, 30 unietapico, 179
mediana, 27 unietapico aleatorio simple, 185
MSE, 105 muestreo probabilstico, 64
muestreo condiciones, 65
aleatorio simple elementos, 65
estratificado, 158 ventajas, 73
bi-etapico, 175
niveles de escala de medicion, 9
bietapico, 189
de elementos, 193 parametro, 99
bietapido definicion, 99
varianza, 195 media poblacional, 100
coeficiente de homogeneidad, 186 total poblacional, 99
Deff, 127, 141 percentiles, 28

Departamento de Estadstica 256


Emilio Lopez Escobar EST-24104: Estadstica Aplicada I

poblacion, 43, 77 utilizando el coeficiente de varia-


marco muestral, 55 cion, 135
tamano de, 77 tamano relativo del estrato, 156
probabilidades de inclusion, 82 total, 78
conjunta, 83
variable de estudio, 77
de primer orden, 82
variables, 4
de segundo orden, 83
varianzas hipoteticas, 206
proporcion, 78

R
smbolos para graficos, 205
sesiones practicas, 213

smbolos para graficos en R, 205


Sen-Yates-Grundy, 118
sesgo, 105

tamano de muestra, 130


ajuste por no respuesta, 142
casos extremos, Deming, 131
casos extremos, Kish, 131
el tamano de la poblacion, 139
para estratos, 161
distribucion optima, 166
distribucion de Neyman, 167
distribucion proporcional, 168
distribuciones alternativas, 168
para una media asumiendo norma-
lidad y SI, 133
para una proporcion bajo SI sin asu-
mir normalidad, 139

Departamento de Estadstica 257