Apuntes de Estad´ıstica para LCEA

M.C.M.A. Gladys del Carmen Vel´ azquez L´opez
UPGM
Versi´ on 1
10 de enero de 2011
2
.
´
Indice general
Introducci´on 5
1. Introducci´on a la Estad´ıstica 6
1.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Definici´on de estad´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. ¿Para que estudiamos estad´ıstica? . . . . . . . . . . . . . . . . . . . . 9
1.4. Terminolog´ıa estad´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5. Notaci´on de suma con sigma . . . . . . . . . . . . . . . . . . . . . . . 15
1.6. Notas Sobre redondeo . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2. Estad´ıstica descriptiva 23
2.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Datos estad´ısticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2. Organizaci´on de datos mediante tablas . . . . . . . . . . . . . 24
2.3. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1. Obtenci´on de los intervalos y l´ımites de clases . . . . . . . . . 26
2.4. Presentaci´ on gr´afica de datos . . . . . . . . . . . . . . . . . . . . . . 32
2.5. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . 36
2.5.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6. Medidas de dispersi´on . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4
´
INDICE GENERAL
2.6.1. Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . 40
2.7. Medidas de tendencia central y de dispersi´on para datos agrupados . 44
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3. Muestreo 64
3.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2. Muestra y censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.2.1. Ventajas y desventajas del censo . . . . . . . . . . . . . . . . . 66
3.2.2. Ventajas y desventajas del muestreo . . . . . . . . . . . . . . . 67
3.3. Tabla de n´ umeros aleatorios . . . . . . . . . . . . . . . . . . . . . . . 70
3.4. Estimaci´on basada en una muestra aleatoria simple . . . . . . . . . . 75
3.5. Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . 81
3.6. Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . 92
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4. Regresi´on lineal y multilineal 106
4.1. Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.2. Estimaci´on de los coeficientes del modelo por m´ınimos cuadrados . . 110
4.3. Supuestos adicionales para los estimadores de m´ınimos cuadrados . . 115
4.4. Inferencias relativas a la pendiente β
1
de una recta . . . . . . . . . . 116
4.5. Correlaci´on lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.7. Regresi´on lineal multiple . . . . . . . . . . . . . . . . . . . . . . . . . 138
5. Habilidades b´asicas 143
Bibliograf´ıa 149
Introducci´on
Llegar´a un d´ıa en el que el razonamiento estad´ıstico ser´a tan necesario
para el ciudadano como ahora lo es la habilidad de leer y escribir
H.G. Wells (1866-1946)
La creciente complejidad de la sociedad moderna ha provocado incertidumbre en las
mentes de muchas personas en posiciones de mando. A´ un as´ı, deben de tomar deci-
siones relativas a sus funciones diarias y planes para el futuro, ya sea que est´en en
negocios, gobierno o en cualquier otra instituci´on. La Estad´ıstica es una herramienta
intelectual con la cual pueden tomarse decisiones racionales; y en realidad ha habido
un ´enfasis creciente en los enfoques cuantitativos a los problemas administrativos du-
rante las ´ ultimas d´ecadas. La estad´ıstica ha respondido a las necesidades de nuestro
tiempo y se ha desarrollado como una disciplina pr´actica para auxiliar a los adminis-
tradores en el proceso de toma de decisiones.
El objeto fundamental de la edici´on de este documento es facilitar a los alumnos de
licenciatura en comercio exterior y aduanas de la universidad polit´ecnica del golfo de
m´exico el desarrollo de los contenidos te´oricos de la asignatura Estad´ıstica. Desde un
punto de vista menos local, espero que sea ´ util, en alguna medida, a todo aquel que
necesite conocimientos b´asicos de las t´ecnicas estad´ısticas m´as usuales en el ambiente
cient´ıfico-tecnol´ ogico.
Cap´ıtulo 1
Introducci´on a la Estad´ıstica
1.1. Introducci´on
Para la gente com´ un y corriente la estad´ıstica significa n´ umeros. En el peri´odico de la
ma˜ nana se pueden encontrar las estad´ısticas m´as recientes sobre los delitos de la ciu-
dad: n´ umero de asesinatos, robos de autom´oviles, asaltos y dem´as delitos que hayan
sido denunciados en determinado periodo de tiempo; o las m´as recientes estad´ısticas
acerca de la mano de obra en el pa´ıs: por ejemplo, el n´ umero de desempleados; o
las ´ ultimas estad´ısticas sobre el n´ umero de nacimientos y muertes que han ocurrido
durante cierto peri´odo de tiempo.
Los ejemplos anteriores forman parte del concepto total de Estad´ıstica, pero dicha
palabra tiene un concepto mas amplio para las personas que tienen conocimiento de
los aspectos t´ecnicos. Para estas personas, la estad´ıstica tiene relaci´on con aquellos
conceptos y t´ecnicas que se emplean en la recopilaci´on, organizaci´on, resumen, an´ali-
sis, interpretaci´ on y comunicaci´ on de informaci´on num´erica.
Generalmente se dise˜ na una serie de trabajos para alcanzar uno de los siguientes
objetivos, o ambos.
1. Describir cuantitativamente una serie de personas lugares o cosas. (Estad´ıstica
descriptiva).
1.2 Definici´on de estad´ıstica 7
2. Dar informaci´on de la que se puedan sacar conclusiones acerca de un gran n´ umero
de personas, lugares o cosas mediante la observaci´on de una peque˜ na parte del
conjunto total. (Estad´ıstica Inferencial: Predecir y decidir).
El cap´ıtulo incluye una introducci´on del t´ermino Estad´ıstica y presenta los conceptos
m´as b´asicos relativos a poblaciones y muestras.
1.2. Definici´on de estad´ıstica
¿Que es la estad´ıstica?. La estad´ıstica es un conjunto de procedimientos que sirven
para organizar y resumir datos, hacer inferencias a partir de ellos y transmitir los
resultados de una manera clara concisa y significativa. Tambi´en podemos entender la
estad´ıstica como la ciencia que permite responder a ciertas preguntas bas´andose en
datos emp´ıricos, es decir, en datos que se originan de la observaci´ on o de la experiencia.
As´ı, diremos que es la ciencia que tiene que ver con los m´etodos que dan respuesta a
determinadas cuestiones mediante la recolecci´on, an´alisis e interpretaci´on apropiada
de datos emp´ıricos, as´ı como del proceso de toma de desiciones acerca del sistema del
cual fueron obtenidos los datos.
Definici´on 1.2.1. La Estad´ıstica es la ciencia que se ocupa de los m´etodos cient´ıfi-
cos para recolectar, organizar, resumir, presentar y analizar datos, as´ı como sacar
conclusiones v´alidas y tomar desiciones con base en este an´alisis.
Para su estudio la estad´ıstica se divide en tres ramas que son:
Estad´ıstica descriptiva: Es un conjunto de procedimientos que sirven para
organizar, describir y sintetizar datos sin que las conclusiones que se extraigan
de estas rebasen su ´ambito espec´ıfico, es decir, se busca ´ unicamente describir y
analizar un grupo determinado, sin sacar conclusiones o inferencias acerca de
un grupo mas grande. Generalmente los datos en una muestra pueden escribirse
de tres maneras:
8 Introducci´on a la Estad´ıstica
Descripci´on tabular: Elaboraci´on de tablas para distribuciones de frecuen-
cia;
Descripci´on gr´afica: Construcci´on de esquemas, histogramas, ojivas, pol´ıgonos
de frecuencia, etc. La gr´afica describe de una manera mas objetiva la na-
turaleza de los rasgos;
Descripci´on aritm´etica: C´alculo del n´ umero, rango, media, moda, mediana,
etc.
El ´ındice de desempleo, el costo de la vida, la precipitaci´on pluvial, el rendimien-
to medio de un auto en kil´ometros por litro y los promedios de calificaci´on,
quedan todos en esta categor´ıa.
Estad´ıstica inferencial: Es un conjunto de procedimientos que se emplean
para hacer inferencias y generalizaciones respecto a una totalidad partiendo
del estudio de un n´ umero limitado de casos tomados de ´esta ´ ultima. Es decir,
consiste en el an´alisis e interpretaci´on de una muestra de datos. El muestreo
es un ejemplo vivo del dicho “no tienes que comerte todo el pastel para saber
si te gusta”. Por lo tanto, la idea b´asica en el muestreo es medir una porci´on
peque˜ na, pero t´ıpica, de alguna “poblaci´on ”, y posteriormente utilizar dicha
informaci´on para inferir que caracter´ısticas tiene la poblaci´on total.
En la industria y los negocios hay muchas formas de aplicar este concepto. Por
ejemplo, un estudio cinematogr´afico somete a diversas pruebas a algunos actores
y actrices antes de decidir quien interpretar´ a cada papel, las f´abricas suelen
producir un peque˜ no n´ umero de piezas (producci´on piloto) antes de pasar a la
producci´on a gran escala. Muchas compa˜ n´ıas almacenan cientos de art´ıculos en
inventario y, mediante t´ecnicas de muestreo, pueden estimar su valor en unidades
monetarias sin tener que contar por completo todos sus art´ıculos. Algunas veces
se llevan a a cabo estudios de mercado de los nuevos productos en ciudades
claves, para establecer el grado de aceptaci´on por el consumidor. Las empresas
privadas y las dependencias gubernamentales realizan muestreos por m´ ultiples
1.3 ¿Para que estudiamos estad´ıstica? 9
razones. El costo suele ser el factor principal. Como cualquier otra cosa, recopilar
datos y analizar los resultados cuesta dinero y, generalmente, cuantos m´as datos
se reunan, mayor es el costo. El muestreo reduce la cantidad de datos que se
deben reunir y analizar, por lo tanto, dicha operaci´on reduce el costo. Otra
raz´on para realizar el muestreo es el hecho de que la informaci´on pierde su
valor en poco tiempo. Para que ´esta sea ´ util, se debe obtener y aprovechar con
bastante rapidez. A menudo el muestreo es el ´ unico medio posible de lograr lo
anterior. Algunas veces, el ex´amen de los art´ıculos, causa destrucci´on. Al probar
los cinturones de seguridad para conocer su punto de ruptura, evidentemente se
destruye el producto. Si todos se probaran de esa manera, no quedar´ıa ninguno
para vender. Esas y otras razones para el muestreo, se considerar´an con mayor
detalle en cap´ıtulos posteriores.
Probabilidad: La probabilidad estudia situaciones en las que interviene el azar.
Sus primeras aplicaciones se relacionaban b´asicamente con los juegos de azar,
como la loter´ıa, casinos, carreras de caballos, etc. (en este curso no se considera-
r´a esta parte de la estad´ıstica).
Como m´as tarde observaremos, las ramas de la estad´ıstica no son indepen-
dientes y distintas por completo, tienden a superponerse considerablemente.
En resumen, existen tres ´areas muy relacionadas de inter´es en estad´ıstica: la
descripci´on y resumen de datos, la teor´ıa de la probabilidad y el an´alisis e in-
terpretaci´on de los datos de muestra.
El objetivo de la Estad´ıstica es: Hacer inferencias (predecir, decidir) sobre algunas
caracter´ısticas de una poblaci´on con base en la informaci´on contenida en una muestra.
1.3. ¿Para que estudiamos estad´ıstica?
1.-Los conceptos y t´ecnicas se usan en un gran n´ umero de ocupaciones,
2.-Las ideas constituyen una parte integral de las investigaciones, de las encuestas
para recopilar datos y del an´alisis de los datos que se originan en las actividades que
10 Introducci´on a la Estad´ıstica
desarrollan las instituciones y organizaciones.
Ejemplo 1.3.1. Un trabajador que no necesariamente conoce conceptos y t´ecnicas
estad´ısticas muy bien, por lo menos debe tener la facultad de reconocer cuando
necesita la ayuda de un experto y poder comunicarse cuando trabajen juntos en la
planeaci´on, direcci´on e interpretaci´ on de los resultados de una actividad que requiera
la metodolog´ıa de esta ciencia.
Si comprendes los conceptos y metodolog´ıa sacar´as provecho de ello. Si lo entiendes
bien podr´as leer con mayor inteligencia toda la literatura !.
En la vida cotidiana hay muchos ejemplos de como la estad´ıstica est´a presente. Las
aplicaciones estad´ısticas se presentan en muchos campos incluyendo la ingenier´ıa,
ciencias f´ısicas, negocios, ciencias biol´ogicas y de salud, ciencias sociales y educaci´on,
comercio, qu´ımica, comunicaci´ on, econom´ıa, ciencias pol´ıticas, psicolog´ıa, etc. A con-
tinuaci´on se describen algunas aplicaciones.
a) Se dise˜ nan encuestas con el fin de recoger las primeras cifras de las elecciones y
predecir los resultados (o pronosticar).
b) Se realizan entrevistas con los consumidores para obtener mas informaci´on acerca
de los productos que prefieren.
c) Se toman muestras de fusibles reci´en fabricados, con el fin de decidir si se embarcan
o se retiran ciertos lotes de ese producto (Control de calidad en las industrias).
d) Los Economistas observan los ´ındices para saber que tan saludable es la econom´ıa
durante un periodo y utilizan la informaci´on para predecir como se compar-
tir´a en el futuro.
e) En Agricultura se realizan experimentos sobre la reproducci´on de plantas y anima-
les, se estudia la bondad de fertilizantes, insecticidas, etc., y se estudian m´etodos
para aumentar el rendimiento de las cosechas.
1.4 Terminolog´ıa estad´ıstica 11
f) En Biolog´ıa se emplean los m´etodos estad´ısticos para estudiar las reacciones de
las plantas y animales ante diferentes presiones ambientales.
g) En Negocios se usa para predecir vol´ umenes de ventas, medir las reacciones de los
consumidores ante un nuevo producto, tomar desiciones en cuanto a la forma
de invertir presupuesto en publicidad, etc.
h) En Salud y medicina los m´edicos investigadores se ayudan de la estad´ıstica para
evaluar la efectividad de diversos tratamientos.
i) En Psicolog´ıa se ayudan de la estad´ıstica para medir y comparar la conducta, las
actitudes, la inteligencia y las aptitudes del hombre.
1.4. Terminolog´ıa estad´ıstica
Es este apartado definiremos algunos t´erminos fundamentales que se utilizar´an en el
curso, los dem´as t´erminos se definir´an a medida que se vayan presentando.
Poblaci´ on: Tambi´en llamada universo, es todo conjunto de personas, cosas u
objetos con ciertas caracter´ısticas com´ unes. Cada uno de los elementos de la
poblaci´on recibe el nombre de elemento o unidad. Definimos Poblaci´on como
el conjunto m´as grande de valores (de una variable), por el cual existe alg´ un
inter´es.
Una poblaci´on puede ser finita o infinita. Por ejemplo, la poblaci´on que com-
prende todas las piezas producidas en un d´ıa determinado en una f´abrica, los
productos de un supermercado, los libros de una biblioteca, son ejemplos de una
poblaci´on finita, mientras que la poblaci´on que consta de todos los resultados
posibles (cara o cruz) en lanzamientos sucesivos de una moneda, la producci´on
futura de una m´aquina y el nacimiento de insectos son ejemplos de poblaciones
infinitas.
Nota 1. Los elementos que forman una poblaci´on pueden ser personas, empresas,
12 Introducci´on a la Estad´ıstica
productos manufacturados, inventarios, escuelas, ciudades, calificaciones esco-
lares, precios, o cualquier otra cosa que se pueda medir, contar o jerarquizar.
Muestra: Se llama muestra a toda porci´on de elementos sacada de una poblaci´on.
Sirve para estimar los resultados que se obtendr´ıan con el estudio completo de
la poblaci´on. Para que los resultados de la muestra puedan generalizarse a la
poblaci´on, es necesario que la muestra se elija adecuadamente, es decir, que sea
representativa de la poblaci´on.
Muestra aleatoria: Es aquella que se obtiene cuando todos los elementos de
la poblaci´on tienen igual posibilidad de ser elegidos, es decir, es la muestra que
se trae de una poblaci´on al azar.
De las definiciones anteriores podemos concluir que el objetivo de una muestra,
es que los elementos de la muestra representen al conjunto de todos los ele-
mentos de la poblaci´on. Esta cuesti´on, la construcci´on de muestras adecuadas,
representativas, es uno de los aspectos m´as delicados de la Estad´ıstica. Nosotros
vamos a considerar en esta asignatura s´olo un tipo de muestras, denominadas
muestras aleatorias simples. En una muestra aleatoria simple, todos los elemen-
tos de la poblaci´on deben tener las mismas posibilidades de salir en la muestra
y, adem´as, los elementos de la muestra deben ser independientes: el que salga
un resultado en la muestra no debe afectar a que ning´ un otro resultado salga
en la muestra.
Entidad: Conjunto de personas, lugares o cosas.
Un bi´ologo puede estar interesado en las ardillas que habitan determinada
regi´on.
Un m´edico puede mostrar inter´es por los pacientes que muestren determinada
serie de s´ıntomas.
A un agr´ıcola le llamar´a la atenci´on cierta variedad de trigo.
1.4 Terminolog´ıa estad´ıstica 13
Variable: Es toda propiedad o conjunto de caracter´ısticas de las entidades que
admiten variaciones dentro de un conjunto de objetos y que interesan en una
investigaci´ on cient´ıfica. Por ejemplo, el bi´ologo puede tener inter´es especial en
el tama˜ no de las ardillas, el m´edico puede querer investigar el nivel de colesterol
de ciertos pacientes; al educador le puede llamar la atenci´on el rendimiento de
lectura de los estudiantes que han aprendido a leer con un m´etodo determinado;
el investigador agr´ıcola puede estar interesado en conocer la resistencia de una
variedad de trigo a cierta enfermedad, al educador le puede llamar la atenci´on
el rendimiento en la lectura de los estudiantes que han aprendido a leer con
un m´etodo determinado, al meteor´ologo le puede llamar la atenci´on de la nieve
como una proporci´on de la precipitaci´on total, etc. En virtud de que cualquiera
de estas caracter´ısticas presenta un valor diferente cuando se observa desde
diferentes ´ambitos, recibe el nombre de variable. Hay tres tipos de variables las
cuales son: nominales, ordinales y cardinales.
• Variables nominales. Son las mas simples y abundantes y su ´ unica fun-
ci´on es clasificar. Su variable operacional correspondiente es una escala
nominal que sirve para clasificar las observaciones en un conjunto de ca-
tegor´ıas mutuamente excluyentes cuyo orden de colocaci´on es indistinto.
A esto se les puede asignar cifras u otros s´ımbolos arbitrarios con el fin de
distinguirlas. Si son cifras, no tienen ning´ un valor ni propiedades num´ericas
como en aritm´etica, es decir, no se puede hacer ninguna medida num´erica
s´olo clasificaci´on.
Ejemplo 1.4.1. Variable nominal −→{ Estado civil
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
_
soltero,
casado,
viudo,
divorciado,
uni´on libre.
14 Introducci´on a la Estad´ıstica
Ejemplo 1.4.2. Entre los datos num´ericos que son nominales (datos cuan-
titativos) se incluyen los n´ umeros de las camisetas deportivas, los n´ umeros
de c´odigo de las zonas postales, los n´ umeros telef´onicos, etc.
Ejemplo 1.4.3. Los datos nominales que son cualitativos incluyen el g´enero,
la raza, el tipo de sangre y la religi´on. Ver ejemplo 1.4.1.
Los datos nominales se obtienen cuando se definen las categor´ıas y se cuen-
ta el n´ umero de observaciones que queda en cada una.
• Variables ordinales o jerarquizados. Clasifican las observaciones en
categor´ıas mutuamente excluyentes que exigen ordenaci´on, ya que guardan
entre s´ı relaciones de mayor que. Su variable operacional es una escala
ordinal que va desde la categor´ıa mas baja hasta la mas alta o biceversa, de
modo que las observaciones queden en el orden apropiado. Estas categor´ıas
tampoco tienen propiedades num´ericas, aunque se les represente por cifras.
Ejemplo 1.4.4. Variable ordinal −→{ Alcoholismo
_
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
_
1.-Abstemio,
2.-Bebedor ocasional,
3.-Bebedor regular,
4.-Bebedor consuetudinario.
Ejemplo 1.4.5. Variable ordinal −→{ La evaluaci´ on de un maestro
_
¸
¸
¸
¸
¸
¸
¸
_
¸
¸
¸
¸
¸
¸
¸
_
1.-Pobre,
2.-Razonable,
3.-Buena,
4.-Superior.
Las variables nominales y ordinales son variables cuyos valores consisten
en categor´ıas de clasificaci´on y se denominan Variables Cualitativas.
• Variables cardinales o cuantitativas. Se dice que una variable es cuan-
titativa siempre que los valores que puede asumir sean los resultados de
medidas num´ericas. Ejemplos de variable cuantitativa son la estatura, el
peso, la temperatura, el cociente de inteligencia, la presi´on sangu´ınea, el
1.5 Notaci´on de suma con sigma 15
n´ umero de estudiantes de primer a˜ no, etc. Las variables cardinales, se di-
viden en continuas y discretas.
Continuas: Son las que pueden tomar cualquier valor dentro de un inter-
valo de valores, por ejemplo, la edad, los salarios, la estatura, la masa, la
distancia en kil´ometros, etc. En general, las mediciones dan origen a los
datos continuos.
Discretas: Son las que toman solo algunos valores dentro de un intervalo,
es decir, adquieren solo valores enteros. Por ejemplo, el n´ umero de alumnos
en un aula, el n´ umero de enfermos que ingresan a un hospital, el n´ umero
de ni˜ nos en una familia, la cantidad de coches en un estacionamiento, el
conjunto de personas en una fila, etc. En general, las enumeraciones o los
conteos dan origen a los datos discretos.
1.5. Notaci´on de suma con sigma
En muchos de los procedimientos estad´ısticos que estudiaremos en el curso, se requiere
de obtener la suma de un conjunto de n´ umeros. La letra griega

se utiliza para
denotar una suma. De ah´ı que, si alguna variable x tiene los valores 1, 5, 6 y 9, entonces

x = 21. De manera similar, si los gastos en comestibles durante una semana fueron
$8.82, $12.01, entonces

y = $22.93.
Ejemplo 1.5.1. Si los valores de x son 2, 4, 5 y 9, encuentre

x,

x
2
y (

x)
2
.
Soluci´on:

x = 2 + 4 + 5 + 9 = 20

x
2
= 2
2
+ 4
2
+ 5
2
+ 9
2
= 4 + 16 + 25 + 81 = 126
(

x)
2
= 20
2
= 400
Si s´olo se van a sumar algunos de los valores, se utilizan sub´ındices para indicar dichos
valores de este modo:
5

i=1
x
i
16 Introducci´on a la Estad´ıstica
indica la suma de los valores de la variable x, empezando con i = 1 y terminando con
i = 5:
5

i=1
x
i
= x
1
+ x
2
+x
3
+ x
4
+x
5
n

i=1
x
i
significa que hay que sumar n observaciones. A menudo
n

i=1
x
i
se abrevia con
los s´ımbolos

x
i
o

x.
Ejemplo 1.5.2. Usando los datos que se indiquen, calcule
2

i=1
x
i
,
4

i=1
x
i
,
11

i=7
x
i
y

x
i
i 1 2 3 4 5 6 7 8 9 10 11
x
i
8 2 3 6 7 8 9 4 5 4 1
Soluci´on:
2

i=1
x
i
= x
1
+x
2
= 8 + 2 = 10,
4

i=1
x
i
= x
2
+x
3
+ x
4
= 2 + 3 + 6 = 11,
11

i=7
x
i
= x
7
+x
8
+ x
9
+x
10
+ x
11
= 9 + 4 + 5 + 4 + 1 = 23,

x
i
= x
1
+x
2
+ . . . + x
11
= 8 + 2 + . . . + 1 = 57.
Cuando cada valor de una variable va a ser multiplicada por una constante, o dividida
entre ella, dicha constante se puede aplicar despu´es de que los valores se hayan sumado

cx = c

x
As´ı,
4

i=1
2x
i
= 2x
1
+ 2x
2
+ 2x
3
+ 2x
4
= 2(x
1
+ x
2
+x
3
+ x
4
) = 2
4

i=1
x
i
Por ejemplo,
3(2) + 3(8) + 3(4) = 3(2 + 4 + 8) = 3(14) = 42
1.5 Notaci´on de suma con sigma 17
La operaci´on de suma o sumatoria de una constante es igual al producto de la cons-
tante y el n´ umero de veces que se presenta.
n

i=1
c
i
= nc
Por ejemplo,
6

i=1
5
i
= 5 + 5 + 5 + 5 + 5 + 5 = 30
o bien, 6(5) = 30.
La adici´on de una suma (o diferencia) de dos variables es igual a la suma (o diferencia)
de sumatorias individuales de las dos variables.
n

i=1
(x
2
i
+ y
i
) =
n

i=1
x
2
i
+
n

i=1
y
i
n

i=1
(x
i
−y
i
) =
n

i=1
x
i

n

i=1
y
i
.
Ejemplo 1.5.3. Se tienen dos conjuntos de n´ umeros, tales como salarios por hora para
diversos empleados y el n´ umero de horas que cada uno trabaj´o.
i: Individuos f
i
: Horas trabajadas x
i
: Salarios por hora
1 1 $2
2 5 3
3 7 2
4 3 4
5 3 3
Sup´ongase que han de evaluarse las sumas que siguen:

f
i
,

x
i
,

x
2
i
,

f
i
x
i
,

f
i
x
2
i
y

(f
i
x
i
)
2
.
Soluci´on:
18 Introducci´on a la Estad´ıstica
i f
i
x
i
x
2
i
f
i
x
i
f
i
x
2
i
1 1 $2 4 2 4
2 5 3 9 15 45
3 7 2 4 14 28
4 3 4 16 12 48
5 3 3 9 9 27

f
i
= 19

x
i
= 14

x
2
i
= 42

f
i
x
i
= 52

f
i
x
2
i
= 152
y (

f
i
x
i
)
2
= 2704
1.6. Notas Sobre redondeo
Durante el curso cuando se registren datos finales o intermedios, se tendr´a en cuenta
la siguiente regla:
Si el d´ıgito que queda a la derecha de la posici´on del ´ ultimo d´ıgito que se va a
retener (y registrar) es menor que 5 se registrar´a el d´ıgito que ocupa la posici´on
que hay que retener (y registrar). Ejemplo que ilustra esta regla
Resultado final o intermedio Resultado registrado
175.783 175.78
164.78432 164.78
Si el d´ıgito que queda a la derecha de la posici´on del ´ ultimo d´ıgito que se va a
retener es mayor que 5 se aumentar´ a en 1 el d´ıgito que ocupa la posici´on del
´ ultimo d´ıgito que se va a retener y se registrar´a este resultado. Ejemplo que
ilustra esta regla
Resultado final o intermedio Resultado registrado
175.787 175.79
164.796 164.8
Si el d´ıgito que queda a la derecha de la posici´on del ´ ultimo d´ıgito que se va a
retener es igual a 5. Entonces, se registrar´a el d´ıgito que ocupa la posici´on del
1.6 Notas Sobre redondeo 19
´ ultimo d´ıgito que se va a retener tal como aparece si es par, y aumentando en
1, si es impar. Ejemplo que ilustra esta regla
Resultado final o intermedio Resultado registrado
Par 175.785 175.78
Impar 175.775 175.8
20 Introducci´on a la Estad´ıstica
1.7. Ejercicios
1. Desarrolle cada uno de los siguientes:
a)
5

i=1
x
i
b)
5

i=1
x
i
y
i
c)
6

i=1
(x
i
−y
i
)
2
d)
n

i=1
x
i
n
para n = 8.
2. Calcule las siguientes cantidades seg´ un los datos que se indican.

x
i
,

f
i
,

f
i
x
i
y

f
i
x
2
i
.
i 1 2 3 4 5 6
f
i
3 5 9 10 2 1
x
i
10 11 15 19 21 26
3. De acuerdo a las reglas de redondeo establecidas, redondee las siguientes cifras
hasta dos lugares decimales:
a) 5.781 b) 46.7385 c) 125.9995 d) 43.87500 e) 148.475
4. Clasifique los siguientes datos como discretos o continuos:
Puntajes de matem´aticas en la prueba de aptitud acad´emica de 30 alumnos
del ´ ultimo a˜ no de preparatoria.
El n´ umero de defectos en cada unidad de un lote de 50 coches nuevos.
El n´ umero de carreras anotadas en cada juego por los Piratas en la tem-
porada de 1990.
1.7 Ejercicios 21
Distancia en yardas recorrida por un mediocampista en cada juego durante
la ´ ultima temporada.
Peso perdido en libras por 20 personas debido a una dieta.
El n´ umero de acciones vendidas por d´ıa de la bolsa de valores.
Las temperaturas registradas cada media hora en un observatorio.
El tiempo de vida de los bulbos de televisi´on producidos por una empresa.
El ingreso anual de los profesores universitarios.
La longitud de 1000 tornillos producidos en una f´abrica.
El tiempo de vuelo de un misil.
El n´ umero de billetes de $20 que circulan en M´exico en un momento de-
terminado.
La suma S de los puntos obtenidos al lanzar un par de dados.
El pa´ıs C en Europa.
El estado civil de una persona.
El n´ umero N de individuos en una familia.
5. Clasifique los datos siguientes en cuantitativos y cualitativos:
Estaturas en pulgadas de cinco jugadores de basquetbol.
Peso en onzas de doce pollitos.
Clasificaci´on ´etnica de 20 empleados
N´ umeros telef´onicos de amigos
6. Identifique lo siguiente en t´erminos del tipo de datos:
17 gramos.
25 segundos.
3 canastas.
22 Introducci´on a la Estad´ıstica
M´as lento.
Talla de camisas.
El m´as encantador.
Estatura de un hombre.
Color de piel de los perros.
La vida de las llantas de un autom´ovil.
Cap´ıtulo 2
Estad´ıstica descriptiva
2.1. Introducci´on
Los m´etodos estad´ısticos comprenden el an´alisis e interpretaci´on de n´ umeros, ventas
mensuales, calificaciones de ex´amenes, n´ umeros de partes defectuosas, porcentaje de
respuestas correctas a un cuestionario, etc. A tales n´ umeros se les conoce como datos.
Los datos no procesados pueden carecer de significado, por lo cual para interpretarlos
correctamente es necesario primero organizar y resumir los n´ umeros. En este cap´ıtu-
lo aprenderemos m´etodos para resumir y describir conjuntos de datos a trav´es de
distintos tipos de tablas, gr´aficos y medidas estad´ısticas.
2.2. Datos estad´ısticos
Obtenidos a trav´es de encuestas, experimentos o cualquier otro conjunto de medidas,
los datos estad´ısticos suelen ser tan numerosos que resultan pr´acticamente in´ utiles
si no son resumidos de forma adecuada. Para ello la Estad´ıstica utiliza tanto t´ecni-
cas gr´aficas como num´ericas, algunas de las cuales describiremos en este cap´ıtulo.
Ahora bien, los datos estad´ısticos se obtienen mediante un proceso que comprende
la observaci´ on o medici´on de conceptos como ingresos anuales de una comunidad,
24 Estad´ıstica descriptiva
calificaciones de ex´amenes, porcentaje de az´ ucar en cereales, etc., los cuales se cono-
cen como variables, ya que producen valores que tienden a mostrar cierto grado de
variabilidad, al efectuarse mediciones sucesivas.
2.2.1. Tipos de datos
Como se describi´o en la secci´on 1.4, los datos pueden ser de dos tipos: cuantitativos y
cualitativos. Los datos cuantitativos son los que representan una cantidad reflejada en
una escala num´erica. A su vez, pueden clasificarse como datos cuantitativos discretos
si se refieren al conteo de alguna caracter´ıstica, o datos cuantitativos continuos si se
refieren a una medida. Los datos cualitativos o categ´oricos se refieren a caracter´ısticas
de la poblaci´on que no pueden asociarse a cantidades con significado num´erico, sino
a caracter´ısticas que s´olo pueden clasificarse.
Ejemplo 2.2.1. Veamos algunos ejemplos de cada uno de estos tipos de variables:
Si estamos interesados en un asfalto, la variable tensi´on de fractura es cuanti-
tativa continua.
En un ejemplo de unos cojinetes, el di´ametro de los cojinetes es una variable
cuantitativa continua.
En un ejemplo de los niveles de plomo, se est´a analizando si una muestra con-
tiene niveles detectables o no. Se trata, por tanto, de una variable cualitativa con
dos categor´ıas: s´ı contiene niveles detectables o no contiene niveles detectables.
En el ejemplo de accidentes laborales, la variable n´ umero de accidentes labo-
rales es cuantitativa discreta, mientras que las franjas horarias constituyen una
variable cualitativa.
2.2.2. Organizaci´on de datos mediante tablas
El objetivo de la organizaci´on de datos es acomodar un conjunto de datos en forma
´ util para revelar las caracter´ısticas esenciales y simplificar ciertos an´alisis. Los datos
2.3 Distribuciones de frecuencias 25
que no est´an organizados se llaman datos no agrupados. Una manera de acomodarlos
es construir un arreglo ordenado, acomodando los datos de abajo hacia arriba o al
rev´es; si el n´ umero de datos es muy grande, el arreglo puede ser dif´ıcil de manejar
o de comprender; por eso a menudo se usan tablas como aproximaci´on general a la
organizaci´on de datos no agrupados. Un ejemplo es el conjunto de las estaturas de
100 estudiantes hombres, obtenidas del registro universitario, que est´a ordenado en
forma alfab´etica.
Los m´etodos principales para organizar datos estad´ısticos comprenden el ordenamien-
to de elementos en subconjuntos que presenten cualidades semejantes (por ejemplo,
misma edad, misma finalidad, misma escuela, misma ciudad, etc.). Los datos agru-
pados se pueden resumir gr´aficamente, o en tablas, y mediante el uso de medidas
num´ericas, como la media, amplitud, la desviaci´on est´andar, y otras m´as. El nom-
bre que reciben los datos ordenados en grupos o categor´ıas es el de distribuci´on de
frecuencia.
2.3. Distribuciones de frecuencias
Una distribuci´on de frecuencia es un m´etodo estad´ıstico de clasificaci´on de datos en
clases o intervalos, de manera tal que se pueda establecer el n´ umero o porcentaje
(es decir, la frecuencia de los datos) de cada clase. Esto proporciona una forma de
observar un conjunto de n´ umeros sin que se tenga que considerar cada n´ umero, y
puede ser extremadamente ´ util al manejar grandes cantidades de datos. El n´ umero o
porcentaje en una clase se denomina frecuencia de clase.
Definici´on 2.3.1. Una distribuci´on de frecuencia es un agrupamiento de datos en
clases, que muestra el n´ umero o porcentaje de observaciones de cada una de ellas.
Una distribuci´on de frecuencias se puede representar en forma tabular o gr´afica.
Ejemplo 2.3.1. Construya una tabla de frecuencias para los datos siguientes, corres-
pondientes al n´ umero de faltas a clases durante el periodo de oto˜ no de 2010 para
26 Estad´ıstica descriptiva
estudiantes inscritos en la materia de Estad´ıstica.
9 8 7 8 4 3 2 1 0 3 2
5 3 2 1 1 7 3 2 8 1 4
7 6 6 4 3 2 2 0 9 4 2
4 6 9 6 9 4 3 5 7
Soluci´on:
Definici´on 2.3.2. Frecuencia absoluta (F). Es el n´ umero de veces que un n´ umero
aparece en el conjunto inicial de datos. La frecuencia de un intervalo de clase es igual
a la suma de las frecuencias de los datos que aparecen en ´el.
Definici´on 2.3.3. Frecuencia acumulada (F
a
): La frecuencia acumulada de un
dato o de un intervalo es igual a la suma de su frecuencia mas la frecuencia de los
datos anteriores a ´el.
Definici´on 2.3.4. Frecuencia Relativa (F
r
). Indica los porcentajes de la totalidad
de los datos que corresponden a cada clase. Se obtiene dividiendo la frecuencia de cada
clase entre el n´ umero total de datos y se multiplica por 100, se expresa en porcentaje
y su formula es
F
r
=
F
N
×100 (2.1)
donde F
r
: frecuencia relativa, F : frecuencia absoluta y N : n´ umero total de datos.
2.3.1. Obtenci´on de los intervalos y l´ımites de clases
N´ umero del intervalo de clase: No hay formas definidas respecto al n´ umero de
clase que deben utilizarse en una distribuci´on de frecuencia, si los intervalos de clase
son muy pocos se pierden detalles y si son muchos aparte de ser laborioso se mani-
fiestan irregularidades que no permiten apreciar con claridad un patr´on de compor-
tamiento. En otro caso, la mayor´ıa de los analistas recomiendan no menos de 5 ni
mas de 15 intervalos de clase.
2.3 Distribuciones de frecuencias 27
Definici´on 2.3.5. Clase. Se le llama Clase a cada uno de los intervalos que forman
una distribuci´on de frecuencia. Una aproximaci´ on razonable para calcular el n´ umero
de clases nos la da la regla de Sturges
n
0
= 1 + 3.3 log N, (2.2)
donde n
0
: n´ umero de clases o interv´ alos y N : n´ umero total de datos.
Nota 2. n
0
se redondea siempre al n´ umero inmediato superior (entero su-
perior mas cercano).
Ejemplo 2.3.2. Si N = 30, =⇒ n
0
= 1 + 3.3 log 30 = 5.87 ∴ n
0
= 6.
Ejemplo 2.3.3. Si n
0
= 5.12 =⇒ n
0
= 6.
Definici´on 2.3.6. Anchura o tama˜ no del intervalo de clase. Es la diferencia
entre los l´ımites reales de un intervalo de clase. Todas las clases deben tener la misma
amplitud, se simboliza con la letra C may´ uscula y su formula es:
C =
V
max
−V
min
n
0
, (2.3)
donde C : Amplitud del intervalo de clase, V
max
: Valor m´aximo, V
min
: Valor m´ınimo
y n
0
: n´ umero de clases.
Nota 3. Siempre se redondea a C seg´ un las caracter´ısticas del problema.
Nota 4. Si con el ancho de intervalo de clase encontrado, no contienen a
todos los datos, hay que tomar el m´ınimo entero mayor que la C encon-
trada.
Ejemplo 2.3.4. Encuentra el tama˜ no de los intervalos de clase
Datos 3 5 4 3 8 5 4 1 ⇒ C = 1.75 ∴ C = 2.
Definici´on 2.3.7. L´ımite normal de clase: Las clases o intervalos de clase est´an
limitados por sus valores extremos que se denominan l´ımite inferior y l´ımite superior.
Sus s´ımbolos son: L.N.I. y L.N.S.
28 Estad´ıstica descriptiva
Definici´on 2.3.8. L´ımites reales de clase: Corresponde al punto medio entre el
l´ımite normal superior de una clase y el l´ımite normal inferior de la clase siguiente.
Se denotan por: L.R.I. y L.R.S.
Definici´on 2.3.9. Marca de Clase: Es el valor correspondiente al punto medio de
un intervalo de clase y su valor es igual a la mitad de la suma de los l´ımites normales
inferior y superior de un intervalo de clase. Denotamos la marca de clase como
ˆ x =
LNI + LNS
2
, (2.4)
donde ˆ x : marca de clase y LNI y LNS : l´ımites normales.
Reglas generales para formar una distribuci´on de frecuencia.
1. Seleccione el n´ umero de intervalos de clase, la cantidad de intervalos de clase
no debe de ser menor de 5 ni mayor de 15, entre mas datos se tengan, m´as
intervalos de clases deben considerarse. Si el n´ umero de intervalos es demasiado
peque˜ no pueden estarse ocultando caracter´ısticas importantes de los datos en
esta agrupaci´on. Si se tienen demasiados intervalos de clase se pueden tener
muchos intervalos vac´ıos que resten significado a la distribuci´on.
2. Calcule la amplitud o tama˜ no del intervalo de clase C,
3. Forme los intervalos de clase iniciando por el l´ımite inferior del rango o por el
dato menor. El l´ımite inferior de la clase siguiente ser´a el valor consecutivo al
m´aximo de la clase anterior y as´ı sucesivamente,
4. Fige los l´ımites reales de cada clase,
5. Determine la frecuencia de clase contando el n´ umero de observaciones que caen
dentro de cada intervalo de clase.
Ejemplo 2.3.5. En una universidad de E.U., se sac´o una muestra aleatoria de 25
profesores suministrando informaci´on de los salarios anuales en millones de d´olares.
2.3 Distribuciones de frecuencias 29
Construya una distribuci´on de frecuencia con la muestra siguiente:
12 21 14 22 12 14 18 11 11
20 19 9 26 17 11 12 24 9
21 17 22 13 19 15 11
Soluci´on:
1.- Ordenar del n´ umero menor al n´ umero mayor para saber la frecuencia de cada
n´ umero,
=⇒ 9-2, 11-4| 12-3, 13-1, 14-2| 15-1, 17-2| 18-1, 19-2, 20-1| 21-2, 22-2| 24-1, 26-1.
2.- Sacar el n´ umero y amplitud de clases
=⇒ n
0
= 1 + 3.3 log N = 1 + 3.3 log 25 = 5.6 =⇒ el n´ umero de clases es n
0
= 6.
Ahora C =
V
max
−V
min
n
0
=
26 −9
6
= 2.83, as´ı la amplitud del intervalo de clase es
C = 3.
3.-
Clase LNI −LNS LRI −LRS F F
a
F
r
F
ra
ˆ
X
1 9 −11 8.5 −11.5 6 6 24 % 24 % 10
2 12 −14 11.5 −14.5 6 12 24 % 48 % 13
3 15 −17 14.5 −17.5 3 15 12 % 60 % 16
4 18 −20 17.5 −20.5 4 19 16 % 76 % 19
5 21 −23 20.5 −23.5 4 23 16 % 92 % 22
6 24 −26 23.5 −26.5 2 25 8 % 100 % 25
25
Tabla 2.1: Distribuci´on de frecuencia de la muestra.
donde
F
r
=
F
N
× 100 =⇒ para la primera clase F
r
=
6
25
× 100 = 24 % y as´ı sucesivamente
para las dem´as.
F
ra
=
F
a
N
× 100 =⇒ para la primera clase F
ra
=
6
25
× 100 = 24 %, para la segunda
F
ra
=
12
25
×100 = 48 % y as´ı sucesivamente.
30 Estad´ıstica descriptiva
ˆ x =
LNI + LNS
2
=⇒ para la primera marca ˆ x =
9 + 11
2
= 10, para la segunda
ˆ x =
12 + 14
2
= 13 y as´ı en sucesivamente. Continuando con todos los c´alculos se
obtiene la tabla 2.1.
Los datos son de unidad ⇒
1
2
= 0.5 (lo que se resta y suma a los l´ımites normales
para obtener los l´ımites reales).
Ejemplo 2.3.6. Elabore una distribuci´on de frecuencia para los siguientes datos toma-
dos de una encuesta de la edad de 70 personas.
32 20 20 24 24 18 18 18 25 26 28 40 20 28
41 37 37 37 26 26 26 27 27 32 44 20 22 35
32 32 29 40 40 44 44 18 18 45 35 26 28 26
34 34 30 30 30 28 28 28 35 28 45 32 35 26
42 42 30 22 30 24 30 22 24 20 26 28 22 32
Clase LNI −LNS LRI −LRS F F
a
F
r
F
ra
ˆ
X
1 18−21 .5 − .5
2 22−25 .5 − .5
3 26−29 .5 − .5
4 30−33 .5 − .5
5 34−37 .5 − .5
6 38−41 .5 − .5
7 42−55 .5 − .5
8 56−59 .5 − .5
Tabla 2.2: Distribuci´on de frecuencia de la muestra.
Soluci´on:
n
0
= 1 + 3.3 log 70 = 7.08 =⇒ n
0
= 8. Ahora C =
45 −18
8
= 3.375 =⇒ C = 4.
(Completa la tabla 2.2.)
2.3 Distribuciones de frecuencias 31
Ejercicios
Resuelve los siguientes:
1. Los datos siguientes representan el n´ umero de clientes que visitan una tienda en
un periodo de 22 d´ıas. Construya la distribuci´on de frecuencias para los datos
28 42 52 50 29 31 34 45 48 38 28
33 33 49 32 37 41 43 46 49 34 39
2. Los siguientes datos representan las edades de los empleados de un supermer-
cado. Construye una distribuci´on de frecuencia
20 21 25 28 24 22 38 54 28
23 26 32 20 30 28 42 59 32
25 25 25 26 19 23 46 40 37
21 23 25 36 21 27 46 26 36
24 25 24 24 21 22 29 26 37
22 18 27 30 25 26 30 35 52
29 19 23 21 19 21 35 60 44
3. Los datos siguientes representan los d´ıas de Zafra en cada uno de los ingenios
azucareros de la republica mexicana. Construye una distribuci´on de frecuencia.
151 177 146 150 177 208 166 136 101 152 141
142 142 139 148 149 171 152 137 136 170 141
136 156 163 138 138 155 149 172 161 180 141
116 158 170 147 146 182 150 157 155 122 172
124 177 147 168 136 173 124 153 112 192 178
164 204 135 144 178 160 140 156
4. En la siguiente lista aparecen las calificaciones de 50 alumnos que presentaron
32 Estad´ıstica descriptiva
un examen de matem´aticas. Elabore una tabla de distribuci´on de frecuencia.
57 60 33 85 52 65 77 84 65 74
68 71 81 35 50 35 64 74 47 62
45 80 41 61 100 55 73 59 53 37
76 41 78 55 48 65 85 67 100 60
88 94 69 98 65 73 42 65 92 88
5. El conjunto de datos siguiente representa los totales de efectivo (en d´olares)
gastados en un cierto fin de semana por 25 estudiantes graduados. Construya
una tabla de frecuencias agrupadas
39.78 28.30 28.31 17.95 44.47
46.65 31.47 33.45 29.17 48.39
82.71 43.63 41.17 47.32 52.16
25.94 50.32 35.25 35.70 17.89
60.20 48.14 22.78 38.22 23.25
2.4. Presentaci´on gr´afica de datos
Con frecuencia, el significado de los datos se puede comunicar mas efectivamente por
medio de gr´aficos que por medio de tablas. Existe una gran variedad de formas para
presentar los datos gr´aficamente. En la presente secci´on se describir´an algunos tipos
de gr´aficos que ser´an utilizados en el presente curso.
Gr´afico estad´ıstico
Es la representaci´ on de datos estad´ısticos por medio de figuras geom´etricas (puntos,
l´ıneas, rect´angulos, etc.) cuyas dimensiones son proporcionales de valor num´erico de
los datos. Su fin principal es permitir de un solo vistazo, la captaci´on r´apida del con-
junto de caracter´ısticas presentadas y evidenciar sus variaciones en intensidad.
2.4 Presentaci´on gr´afica de datos 33
Un gr´afico es ´ util para dar una r´apida idea de la situaci´on general que se esta ana-
lizando, permite determinar por simple examen, el m´aximo y m´ınimo de las varia-
ciones de un fen´omeno.
Gr´aficas circulares
Se llama tambi´en gr´afica de pastel, es bastante ´ util para representar proporciones o
porcentajes. Para construir el diagrama se puede usar el comp´as y el transportador:
el primero para trazar el circulo y el segundo para medir los sectores correspondientes
al pastel. Dado que el circulo tiene 360
o
(equivalente al 100 %), se puede utilizar el
transportador para dividir el pastel con base en las “rebanadas”deseadas de porcenta-
je. Esta gr´afica se construye generalmente cuando en la distribuci´on de frecuencia las
clases no se representan de manera cuantitativa. Para representar una gr´afica de sec-
tores circulares se lleva a cabo el siguiente procedimiento:
1.- Calcular F
r
,
2.- Calcular los porcentajes obtenidos de 360
o
para determinar los grados que debe
tener cada sector aplicando la formula
(F
ra
)(360)
100
3.- Marcar en un circulo los sectores con angulos iguales a los obtenidos en el paso 2.
Cuente los grados del primer sector en el sentido conforme a las agujas del reloj y a
partir del radio vertical superior del circulo.
Ejemplo 2.4.1. La tabla 2.3 muestra el ´area de los cinco Grandes Lagos bajo jurisdic-
ci´on de E.U. Grafique los datos:
34 Estad´ıstica descriptiva
Gran Lago
´
Area (en millas cuadradas)
Michigan 22342
Superior 20557
Huron 8800
Erie 5033
Ontario 3446
Total 60178
Tabla 2.3:
´
Areas de los cinco Grandes Lagos bajo la jurisdicci´on de E.U.
Se hace corresponder el ´area total, 60178 millas cuadradas a los 360

del c´ırculo. As´ı,
una milla cuadrada corresponde a
360

60178
. Se deduce que el lago Superior, con 20557
millas cuadradas ocupa un arco de 20557
_
360

60178
_
= 123

y del mismo modo se
deducen los arcos de los otros lagos. Las l´ıneas divisorias se pueden trazar usando un
transportador.
Histograma
El histograma es una representaci´ on gr´afica hecha en un plano cartesiano que consiste
en una serie de rect´angulos que se caracterizan por que la variable aleatoria o el
fen´omeno de inter´es se representa a lo largo del eje horizontal (estando referidos a las
marcas de clase como sus centros); el eje vertical representa el n´ umero, proporci´on o
porcentaje de observaciones por intervalos de clase, dependiendo de que el histograma
particular sea o no, un histograma de porcentaje (de frecuencia relativa).
Caracter´ısticas de un histograma:
1. Los posibles valores de la variable que se est´a considerando se disponen en el
eje horizontal. Las frecuencias con que ocurren los valores de la variable se
representan en el eje vertical.
2. Cada intervalo de clase de la distribuci´on de frecuencia se representa por una
barra del histograma.
2.4 Presentaci´on gr´afica de datos 35
3. Las barras tienen la misma amplitud de los intervalos de clase correspondientes.
4. La altura de una barra dada correspondiente a la frecuencia con que ocurren los
valores en el correspondiente intervalo de clase. Es decir, para un conjunto dado
de datos, los intervalos de clase con frecuencias grandes, se representar´ an en el
histograma con barras altas y los intervalos de clases con frecuencias peque˜ nas
con barras cortas.
5. Las barras de dibujan adyacentes entre s´ı. Esto tiene por objeto dar a entender
gr´aficamente la naturaleza continua de los datos que se est´an considerando.
6. Respecto del ´area total que aparece en el histograma, la proporci´on encerrada
por una barra determinada es igual a la proporci´on que la frecuencia del intervalo
de clase correspondiente tiene del n´ umero total de observaciones.
Ejemplo 2.4.2. x: N´ umero de ni˜ nos en edad escolar, y: Frecuencia.
Pol´ıgono de frecuencias
Aunque de menor uso, los pol´ıgonos de frecuencia son otro medio de representar
gr´aficamente las distribuciones de frecuencia simple como la frecuencia relativa. Para
construir un pol´ıgono de frecuencias marcamos ´estas sobre el eje vertical y los valores
de la variable que vamos a medir, las marcamos sobre el eje horizontal. El siguiente
paso consiste en graficar cada frecuencia de clase dibujando un punto sobre su marca
de clase, o punto medio, y en unir por un trazo continuo a todas las marcas de clase.
Se puede obtener uniendo los puntos medios de las partes superiores de los rect´angulos
del histograma.
Ejemplo 2.4.3. x: Marca de clase, y: Frecuencia.
Ojivas
Representaci´on gr´afica de frecuencias acumuladas. La representaci´ on gr´afica de
la informaci´on contenida en los cuadros de frecuencia acumulada son curvas llamadas
36 Estad´ıstica descriptiva
ojivas. Una ojiva es una curva equivalente a un pol´ıgono de frecuencia acumulada
suavizado. Para representar una ojiva se deben seguir los siguientes pasos:
1.- Localizar en el eje x los l´ımites reales superiores de clase,
2.- Localizar en el eje y las frecuencias acumuladas de cada clase,
3.- Unir por trazos continuos los puntos anteriores.
Ejemplo 2.4.4. x: LRS, y: Frecuencia acumulada.
2.5. Medidas de tendencia central
En una tabla de distribuci´on de frecuencias hay una zona en donde los valores son
mas altos, es decir, hay valores de las variables que son mas frecuentes, en cambio,
existen zonas en donde los valores de las variables son menos frecuentes. Surge as´ı, el
concepto de medida de tendencia central, tambi´en conocida como variable de centra-
lizaci´on, de posici´on o par´ametros poblacionales que indican alrededor de que valor
se agrupa el mayor n´ umero de casos en estudio. Las medidas de tendencia central
son representativas de toda la poblaci´on. Se les llama de tendencia central porque
en torno a ellas parecen agruparse los datos. Sirven para resumir todo un conjunto
de valores, por ello bien, se les puede considerar como sintetizadores. En general,
cualquier medida de tendencia central es un valor medio, ya que ´este por definici´on
es todo valor que se haya entre dos extremos. Las medidas de tendencia central son
principalmente la media aritm´etica, la mediana y la moda.
2.5.1. Datos no agrupados
El an´alisis de datos suele realizarse de diversas maneras, dependiendo de si existe una
cantidad peque˜ na o grande de datos que se deba analizar. Cuando existen, digamos,
30 o menos puntos de datos, se utilizan los m´etodos que se presentan a continuaci´on.
Para mayores cantidades de datos, son m´as practicas las computadoras o t´ecnicas en
las que es necesario llevar a cabo, en primer lugar el agrupamiento de los datos antes
del an´alisis. Tales t´ecnicas se explicar´an con mas detalle mas adelante.
2.5 Medidas de tendencia central 37
Dos caracter´ısticas importantes de los datos que las medidas pueden poner de mani-
fiesto son: 1) el valor central o t´ıpico del conjunto y 2) la dispersi´on de los n´ umeros.
La media aritm´etica
Se define como la suma de un conjunto cantidades dividida entre el n´ umero total de
ellas. Esta medida es la m´as com´ un dentro de las de tendencia central y corresponde
al centro de gravedad de los datos. Por ejemplo, cuando nos preguntamos sobre el
promedio que obtuvimos en un ciclo escolar, estamos hablando de media aritm´etica
o valor medio o simplemente media, se denota por ¯ x y su formula es
¯ x =

N
i=1
x
i
N
(2.5)
para datos no agrupados.
Ejemplo 2.5.1. Los diez puntajes siguientes representan el n´ umero de puntos anotados
en diez juegos de basquetbol por el jugador A: 6,10,3,7,6,6,8,5,9 y 10. La media es:
6 + 10 + 3 + 7 + 6 + 6 + 8 + 5 + 9 + 10
10
=
70
10
= 7
El valor 7 representa, en alg´ un sentido, el n´ umero central o medio de los puntos
anotados en diez juegos por el jugador A.
Ejemplo 2.5.2. Los totales anuales, en miles de millones de d´olares, para las exporta-
ciones agr´ıcolas de M´exico de 2000 a 2010 son:
21.9 21.9 23.0 23.6 29.4 34.7 41.2 43.3 39.1 33.7
Determine la media si los datos constituyen una poblaci´on.
Nota 5. La media tiene una seria desventaja. Se ve afectada por los valores extremos
del final de una distribuci´on. Como depende de cada medida, los valores extremos
pueden llevarla a representar defectuosamente los datos.
Ejemplo 2.5.3. Suponga que un corredor de marat´on ha corrido en seis maratones
m´as grandes del pa´ıs, quedando en las posiciones siguientes (el orden es el de los
maratones):
3 5 4 6 2 85
38 Estad´ıstica descriptiva
En la ´ ultima carrera, en la que ´el ocup´o el 85

lugar, fue todo el tiempo tratando
de ganar la carrera. Corri´o en primer lugar las primeras 22 millas, pero le dieron
calambres y tuvo que caminar parte de las ´ ultimas cuatro millas. Si la media se usa
para describir la habilidad del corredor, entonces debe usarse el valor 17.5, pero como
termin´o a lo m´as en sexto lugar en las cinco primeras carreras, no parece razonable
usar la media para medir su capacidad de correr. Quiz´a la mediana proporcione una
medida mejor, pues en este ejemplo la media se afecta mucho por el valor extremo
85.
La mediana
La mediana es el punto dentro del recorrido de una variable que supera a no mas
de la mitad de los datos y es superado por no mas de la otra mitad. Dicho de otro
manera es un punto dentro de una distribuci´on de datos que tiene la caracter´ıstica
de dividirla en dos partes iguales. La identificaremos con el s´ımbolo M
e
.
Cuando se trata de datos no ordenados no es necesario utilizar formulas, ´ unicamente
tenemos que ordenar los datos de menor a mayor, el concepto de t´ermino medio es
correcto si el n´ umero de datos ordenados es impar, si el n´ umero de datos es par la
mediana es la semisuma de los dos valores intermedios que satisfacen su definici´on.
Ejemplo 2.5.4. En cada uno de los siguientes la mediana est´a dada por el n´ umero
subrayado.
3 5 7 9 10
1 2 5 8 9 10
aqu´ı M
e
=
5+8
2
= 6.5.
Nota 6. El uso de la mediana para datos de intervalo posee tanto ventajas como
desventajas. Una ventaja es que la mediana no se ve afectada por puntajes extremos
al final de la distribuci´on. La desventaja del uso de la mediana reside en que no
es f´acilmente determinable si el conjunto de datos es grande, puesto que las medidas
deben ordenarse primero, ponerse en orden num´erico de menor a mayor o al contrario.
2.6 Medidas de dispersi´on 39
Para conjuntos grandes de datos que han sido organizados la mediana se encuentra
as´ı:
a) Si N es impar, la mediana es la medida que est´a en el lugar
N + 1
2
,
b) Si N es par, la mediana es el promedio de las medidas que estan en los lugares
N
2
y
N
2
+ 1.
La moda
Es el dato que aparece mas veces en una distribuci´on de frecuencia. Es f´acil deter-
minarla por simple inspecci´on, para una distribuci´on de frecuencia es la marca de
clase que se presenta con mayor frecuencia. Cuando en una distribuci´on de frecuencia
existe una sola moda, se dice que es unimodal, con dos modas es bimodal con tres es
trimodal, con mas de tres es multimodal.
Ejemplo 2.5.5.
3 5 8 3 7 4 3 2
2.6. Medidas de dispersi´on
Al grado en que los datos num´ericos tienden a extenderse alrededor de un valor medio
se le llama dispersi´on o variaci´ on de los datos. Una medida de tendencia central por
si sola, no describe ni resume adecuadamente una distribuci´on de datos, es necesario
acompa˜ narla de un indicador que de cuenta del grado de dispersi´on con que se dis-
tribuyen los datos de la variable. Una medida de dispersi´on dice cuanto se desv´ıan los
datos respecto a las tendencias centrales. Las medidas de dispersi´on mas importantes
son: el rango, la desviaci´on media, la varianza, la desviaci´on est´andar y los
porcentajes.
40 Estad´ıstica descriptiva
2.6.1. Datos no agrupados
Rango
Se trata de la mas simple de las medidas de dispersi´on, representa la distancia entre el
mayor y el menor de los datos de una distribuci´on, por lo que puede ser interpretado
como la dispersi´on total de todos ellos. Se obtiene restando el dato menor del mayor,
consecuentemente, es calculable unicamente en variable cardinal.
Desviaci´on media
Mide la desviaci´on promedio de valores con respecto a la media del grupo, sin tomar
en cuenta el signo de la desviaci´on. Se obtiene al restar la media de cada valor del
grupo, eliminando el signo (+ o −) de la desviaci´on, hallando despu´es el promedio.
Al calcular la desviaci´on media es necesario considerar el hecho de que la suma de
las desviaciones positiva y negativa de la media siempre ser´a (por definici´on) igual a
cero. De convertirse las diferencias a valores absolutos (todos los valores se consideran
desviaciones positivas) antes de sumar, se soluciona dicho problema. La desviaci´on
absoluta media se calcula con la f´ormula siguiente
D.M. =

| x
i
− ¯ x |
N
(2.6)
donde N es el n´ umero de observaciones del conjunto.
Varianza
Se obtiene restando a cada uno de los valores el valor de la media de todos los valores,
elevando al cuadrado cada una de las diferencias resultantes, sumando las diferencias
al cuadrado y dividiendo este total por el n´ umero de valores menos 1. La varianza
muestral se puede calcular mediante la f´ormula
S
2
=

(x
i
− ¯ x)
2
N −1
(2.7)
2.6 Medidas de dispersi´on 41
Una f´ormula alternativa para calcular la varianza muestral es
S
2
=

x
2
i

(

x
i
)
2
N
N −1
(2.8)
Tanto mayor sea la varianza de unos datos, m´as dispersos, heterog´eneos o variables
son esos datos. Cuanto m´as peque˜ na sea una varianza de unos datos, m´as agrupados
u homog´eneos son dichos datos.
Ejemplo 2.6.1. La tabla 2.4 muestra los costos por litro, en centavos de d´olar, de la
gasolina de alto octanaje en 19 ciudades del mundo. Determine la varianza muestral.
Ciudad Costo por litro Ciudad Costo por litro
Amsterdam 57 Nairobi 57
Bruselas 53 Nueva York 40
Buenos Aires 38 Oslo 65
Hong Kong 57 Par´ıs 58
Johannesburgo 48 R´ıo de Janeiro 42
Londres 56 Roma 76
Madrid 59 Singapur 59
Manila 46 Sidney 43
M´exico 25 Tokio 79
Montreal 47
Tabla 2.4:
Soluci´on:
Al usar la f´ormula 2.8 se obtiene que S
2
= 167.32. Entonces, la varianza muestral de
los 19 precios de gasolina es 167.32 centavos cuadrados.
Observaci´on 1. Para los datos de los precios por litro de la gasolina, el conocimiento
de que S
2
= 167.32 centavos cuadrados tiene muy poco significado por s´ı mismo,
si es que tiene alguno. Sabemos que si el valor de la varianza es grande, entonces
las medidas est´an muy dispersas, mientras que si el valor es peque˜ no hay muy poca
variabilidad en las medidas.
42 Estad´ıstica descriptiva
Ejemplo 2.6.2. Los datos de la tabla 2.5 indican los precios, en d´olares, por libra, de
asado de cerdo y queso cheddar en 15 capitales del mundo.
Capital Cerdo asado Queso cheddar
Berna $6.61 $4.00
Bonn 2.38 2.74
Brasilia 1.27 1.08
Buenos Aires 1.36 2.03
Camberra 2.06 2.60
Londres 1.56 1.81
Madrid 2.33 3.15
M´exico 1.08 2.29
Ottawa 1.99 3.98
Par´ıs 2.47 2.37
Pretoria 1.95 1.76
Roma 2.46 2.96
Estocolmo 5.35 2.54
Tokio 4.19 2.38
Washington 3.29 2.69
Tabla 2.5:
¿Para cu´al alimento, el asado de cerdo o el queso cheddar, son menos variables y m´as
estables los precios?
Soluci´on:
Ejemplo 2.6.3. Los datos adjuntos representan el promedio de millas por gal´on diario
por cinco d´ıas para los coches A y B, en condiciones similares.
A 20 25 30 15 35
B 15 27 25 23 35
a) Encuentre la media y el rango de millas por gal´on para cada coche.
2.6 Medidas de dispersi´on 43
b) ¿Cu´al coche parece haber logrado un rendimiento m´as consistente si la consisten-
cia se determina examinando las varianzas? Explique.
Soluci´on:
Desviaci´on est´andar
La desviaci´on est´andar es simplemente la ra´ız cuadrada positiva de la varianza. Para
muchos fines es una medida de la variabilidad m´as ´ util que la varianza. Por un lado,
la desviaci´on t´ıpica se expresa en las mismas unidades que las observaciones originales
y la media, mientras que la varianza se expresa en unidades cuadradas. Las siguientes
f´ormulas dan la desviaci´on t´ıpica de la muestra
S =
¸
¸
¸
_

x
2
i

(

x
i
)
2
N
N −1
(2.9)
Coeficiente de variaci´on
Las medidas de dispersi´on son valores absolutos y no resultan adecuados cuando se
lleva a cabo una comparaci´on entre dos distribuciones. As´ı, una desviaci´on de unos
cuantos gramos al medir el peso de un caballo no es importante, pero es de mucha
importancia al medir la dosis de una medicina. Obtenemos una medida relativa de
dispersi´on cuando dividimos la desviaci´on est´andar entre la media aritm´etica, a ´esta
se le llama coeficiente de variaci´ on.
Es la raz´on de la desviaci´on est´andar a la media de una distribuci´on dada. El coefi-
ciente de variabilidad se acostumbra a expresarlo en porcentajes
C.V. =
S
¯ x
(2.10)
La principal ventaja del coeficiente de variaci´ on es que no tiene unidades de medida,
lo que hace m´as f´acil su interpretaci´ on. En general, valores de C.V. menores a 0.1
indican una alta concentraci´ on, entre 0.1 y 0.5 una concentraci´on media y valores
superiores a 0.5 una alta dispersi´on y una media poco o nada representativa.
44 Estad´ıstica descriptiva
Ejemplo 2.6.4. En caso de que C.V. =
S
¯ x
=
0.6831
11.48
= 0.0595. El bajo valor del
coeficiente de variaci´on indica que los valores est´an muy concentrados y que la media
representa aceptablemente al conjunto de la distribuci´on.
Ejemplo 2.6.5. En caso de que C.V. =
S
¯ x
=
9.06
15
= 0.6. Lo que implica que la media
no representa en modo alguno al conjunto de la distribuci´on.
Ejemplo 2.6.6. Supongamos que para los datos de tiempo de procesado en una CPU
de 25 tareas, la varianza es 1.42, luego su desviaci´on estandar es 1.19, y el coeficiente
de variaci´ on
1.19
1.63
= 0.73. Por tanto, la desviaci´on est´andar es algo m´as del 70 % de
la media. Esto indica que los datos no est´an muy concentrados en torno a la media,
probablemente debido a la presencia de los valores altos que hemos comentado antes.
2.7. Medidas de tendencia central y de dispersi´on
para datos agrupados
Las medidas de resumen fundamentales en lo que a datos agrupados se refiere, son
las mismas que para los peque˜ nos conjuntos de datos, principalmente la media, la
mediana y moda como medidas de tendencia central y la desviaci´on est´andar, varianza
y el rango como medidas de dispersi´on.
La media aritm´etica
Para datos agrupados se utiliza
¯ x =
N

i=1
ˆ xF
N
(2.11)
donde F es la frecuencia, ˆ x es la marca de la clase, N es el total de frecuencias y x
i
son los datos.
Ejemplo 2.7.1. Los datos siguientes representan el n´ umero de discos vendidos cada
d´ıa durante un periodo de 25 d´ıas en una tienda de m´ usica localizada en un centro
2.7 Medidas de tendencia central y de dispersi´on para datos agrupados 45
comercial:
60 36 61 56 19 35 51 42 21 28 33 67 30
49 57 54 59 28 63 38 15 24 35 46 53
Ahora, por conveniencia los datos se presentan en la siguiente tabla 2.6 de frecuencia
agrupada
N´ umero de discos vendidos N´ umero de d´ıas
15-25 4
26-36 7
37-47 3
48-58 6
59-69 5
Tabla 2.6:
Encuentre:
a) El n´ umero promedio de discos vendidos por d´ıa, ¯ x.
b) El n´ umero promedio aproximado de discos vendidos por d´ıa, ¯ x
a
.
Soluci´on:
a) Con la ayuda de una calculadora, determinamos que la suma de las 25 medidas
es

x = 1060. En consecuencia, la media muestral es: ¯ x =
Σx
N
=
1060
25
= 42.4.
As´ı, el n´ umero de discos vendidos por d´ıa es 42.4.
b) Encontramos primero las marcas de clase ˆ x. Recuerde que las marcas de clase son
el punto medio de cada intervalo de clase. Cada marca de clase se multiplica
entonces por su frecuencia correspondiente, como lo muestra la tabla siguiente
2.7:
46 Estad´ıstica descriptiva
Clase F ˆ x ˆ xF
15-25 4 20 80
26-36 7 31 217
37-47 3 42 126
48-58 6 53 318
59-69 5 64 320
Tabla 2.7:
Usando la f´ormula (2.11), la media aproximada es ¯ x
a
=
1061
25
= 42.44.
Note que ¯ x
a
= 42.44 es s´olo un valor aproximado para la media de las 25 medidas
muestrales originales; la aproximaci´on se considera buena comparada con el valor
exacto ¯ x = 42.40 obtenido en la parte a).
Mediana
Para datos agrupados la f´ormula a usar es
M
e
= LRI +
_
N
2
−F
a−1
F
m
_
C (2.12)
donde LRI de la clase mediana, N total de datos, F
a−1
es la F
a
anterior a la F
a
de la
clase mediana, F
m
es F de la clase mediana y C es el tama˜ no del intervalo de clase.
Ejemplo 2.7.2. La tabla 2.8 representa las velocidades, en millas por hora, para una
muestra de 37 coches que recorren una zona escolar donde se permite circular hasta
25 millas por hora. Encuentre la mediana aproximada de la velocidad.
Velocidad N´ umero de coches: F F
a
1-5 3 3
6-10 2 5
11-15 5 10
16-20 10 20
21-25 7 27
26-30 10 37
2.7 Medidas de tendencia central y de dispersi´on para datos agrupados 47
Soluci´on:
Como N = 37, queremos localizar el
N
2
=
37
2
= 18.5−´esimo valor. Al observar la
tabla 2.8 notamos que tal valor cae en la clase 16−20, porque las tres primeras clases
contienen un total de 10 valores y la cuarta 10 valores; por lo tanto, debemos contar
(18.5 − 10) = 8.5 valores en la clase 16 − 20, bajo la hip´otesis de que los 10 valores
que caen en esta clase est´an distribuidos homog´eneamente a lo largo de ella; en otras
palabras, estamos buscando la medida en la clase 16 −20 localizada en los
8.5
10
de la
clase. Como el ancho de cada clase es C = 5, para encontrar el valor aproximado de
la mediana M
e
s´olo necesitamos sumar
8.5
10
del ancho C = 5 a la frontera inferior de
la cuarta clase. As´ı el valor aproximado de la mediana es:
M
e
= 15.5 +
_
8.5
10
_
5 = 15.5 + 4.25 = 19.75
Moda
La f´ormula es
M
o
= LRI +
_

1

1
+ ∆
2
_
C (2.13)
donde ∆
1
exceso de F antes de la clase modal (Frecuencia modal menos la frecuencia
antes de la frecuencia modal), ∆
2
exceso de F despu´es de la clase modal (Frecuencia
modal menos la frecuencia despu´es de la frecuencia modal).
La clase modal es el intervalo de clase que contiene al mayor n´ umero de observa-
ciones.
Desviaci´on media
Se define como la desviaci´on promedio de los valores absolutos de las desviaciones de
los datos de una variable con respecto a su media, su formula es la siguiente:
D.M. =

| ˆ x − ¯ x | F
N −1
(2.14)
Tabla 2.8:
48 Estad´ıstica descriptiva
donde ˆ x es la marca de la clase, ¯ x es la media aritm´etica, F es la frecuencia y N es
el total de datos.
La varianza
Se define como la suma de los cuadrados de las desviaciones de las observaciones con
respecto a la media, dividida entre el total de datos N −1
S
2
=

| ˆ x − ¯ x |
2
F
N −1
(2.15)
Desviaci´on est´andar
Es la desviaci´on promedio de los datos de una distribuci´on respecto a su media. La
desviaci´on est´andar es simplemente la ra´ız cuadrada de la varianza.
S =
_

| ˆ x − ¯ x |
2
F
N −1
(2.16)
Ejemplo 2.7.3. Calcule las medidas descriptivas a partir de los datos agrupados de la
siguiente tabla.
Intervalo de Clase Frecuencia
85 −89 9
90 −94 11
95 −99 14
100 −104 20
105 −109 27
110 −114 22
115 −119 19
120 −124 16
125 −129 12
N = 150
2.8 Ejercicios 49
2.8. Ejercicios
1. Los datos anotados en seguida representan los totales, en d´olares, gastados en
golosinas por una muestra de 25 estudiantes durante un periodo de ex´amenes.
57 28 63 38 29 89 77 72 39
47 64 84 88 42 36 72 69
68 41 52 39 72 45 52 84
Construya una tabla de frecuencia agrupada.
2. Los datos siguientes indican los pesos en libras rebajados por grupo de mujeres
en las dos primeras semanas de un programa de ejercicios diarios:
1 2 12 3 15 5 12 11 3 4
3 5 0 7 17 6 17 13 2 5
5 7 1 11 3 9 9 8 18 9
10 9 4 12 1 8 8 7 11 9
15 11 8 4 5 11 3 14 12 10
Use el conjunto de datos para cubrir los siguientes:
Construya una tabla de frecuencia agrupada con 5 clases.
Trace una ojiva usando frecuencias relativas y la tabla construida en el
punto anterior.
Grafique un histograma de frecuencia con cinco barras usando la tabla ya
realizada.
Encuentre el ancho de la clase 10 − 20, donde los 10 y 20 son los l´ımites
de clase.
Si V
max
= 89.7 y V
min
= 32.1, n
0
= 5 y la unidad de medida es 0.1,
determine el l´ımite superior de la primera clase.
3. Se proponen 3 calificaciones para los salarios por hora de un artesano. Critique
usted cada una de las clasificaciones dadas a continuaci´ on:
50 Estad´ıstica descriptiva
Clasificaci´on I Clasificaci´on II Clasificaci´on III
$ 0-3.00 $ 0-3.50 $ 0-menos de 3.00
3.00-6.00 3.51-7.00 4.00-menos de 7.00
6.00-9.00 7.01-10.00 8.00-menos de 11.00
9.00-12.00 10.01-15.00 12.00-menos de 15.00
12.00-15.00 m´as de 15.00 m´as de 15.00
4. La tabla 2.9 muestra una distribuci´on de frecuencias de los salarios semanales
de 65 empleados de la empresa P&R. De acuerdo con esta tabla, determine:
El l´ımite inferior de la sexta clase.
El l´ımite superior de la cuarta clase.
La marca de clase de la tercera clase.
Los l´ımites reales del quinto intervalo.
El tama˜ no del quinto intervalo de clase.
La frecuencia de la tercera clase.
La frecuencia relativa de la tercera clase.
El intervalo de clase con mayor frecuencia.
El porcentaje de empleados que ganan menos de $280.00 a la semana.
El porcentaje de empleados que reciben por semana m´as de $260.00, pero
menos de $300.00.
2.8 Ejercicios 51
Salarios N´ umero de empleados
$ 250.00-259.99 8
260.00-269.99 10
270.00-279.99 16
280.00-289.99 14
290.00-299.99 10
300.00-309.99 5
310.00-319.99 2
Total 65
Tabla 2.9: Distribuci´on de frecuencia de salarios semanales.
5. Como control de la ´etica publicitaria se requiere que el rendimiento, en mi-
llas por gal´on de gasolina, que los fabricantes de autom´oviles usan con fines
publicitarios, est´e basado en un buen n´ umero de pruebas efectuadas en diver-
sas condiciones. Al tomar una muestra de n = 50 autom´oviles se registran las
siguientes observaciones en millas por gal´on:
27.9 29.3 31.8 22.5 34.2 33.5 30.5 30.6 35.1 28.6
34.2 32.7 26.5 26.4 31.6 30.1 30.3 29.6 31.4 32.4
35.6 31.0 28.0 33.7 32.0 28.7 30.4 31.3 32.7 30.3
28.5 27.5 29.8 31.2 28.7 30.5 31.3 24.9 26.8 29.9
30.0 28.7 33.2 30.5 27.9 31.2 29.5 28.7 23.0 30.1
Construya un histograma de frecuencias relativas usando 5 intervalos de
clase de la misma longitud.
Los fabricantes afirman que su autom´ovil est´a dise˜ nado para rendir al
menos 30 millas por gal´on. ¿Qu´e porcentaje de autos en la muestra produce
este rendimiento?.
52 Estad´ıstica descriptiva
6. Las calificaciones finales en matem´aticas de 80 estudiantes universitarios son las
siguientes:
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
Encuentre:
La calificaci´on m´as alta.
La calificaci´on m´as baja.
El rango.
Las cinco calificaciones m´as altas.
Las cinco calificaciones m´as bajas.
La calificaci´on del alumno que obtuvo el d´ecimo lugar m´as alto.
El n´ umero de estudiantes con calificaciones de 75 o m´as.
El n´ umero de estudiantes con calificaciones menores que 85.
El porcentaje de estudiantes con calificaciones mayores que 65, pero menores
a 85.
7. La tabla 2.10 muestra la distribuci´on de frecuencias del n´ umero semanal de mi-
nutos que pasan viendo la televisi´on 400 estudiantes de secundaria. Determine:
El l´ımite superior de la quinta clase.
El l´ımite inferior de la octava clase.
La marca de la s´eptima clase.
2.8 Ejercicios 53
Los l´ımites reales de la ´ ultima clase.
El tama˜ no de los intervalos de clase.
La frecuencia de la cuarta clase.
La frecuencia relativa de la sexta clase.
El porcentaje de estudiantes cuyo tiempo semanal de ver la televisi´on no
excede de 600 minutos.
El porcentaje de estudiantes cuyo tiempo semanal de ver la televisi´on es
mayor o igual de 900 minutos.
El porcentaje de estudiantes cuyo tiempo de ver la televisi´on es mayor de
500 minutos, pero menor que 1000 minutos.
Construir un histograma de frecuencias correpondiente a la distribuci´on de
la tabla 2.10.
Tiempo de ver TV (min.) N´ um. de estudiantes
300-399 14
400-499 46
500-599 58
600-699 76
700-799 68
800-899 62
900-999 48
1000-1099 22
1100-1199 6
Tabla 2.10: Distribuci´on de frecuencia.
8. Con la siguiente lista de n´ umeros realiza la tabla de distribuci´on de frecuencias,
54 Estad´ıstica descriptiva
calcula las medidas de tendencia central y las medidas de dispersi´on.
3.32 3.98 3.23 3.07 3.04 3.85 3.59
3.42 3.89 3.40 3.15 3.49 3.61 3.41
3.05 3.81 3.39 3.54 3.28 3.84 3.34
3.49 3.74 3.00 3.10 3.76 3.71 3.29
9. Con la siguiente lista de n´ umeros realiza la tabla de distribuci´on de frecuencias,
calcula las medidas de tendencia central y las medidas de dispersi´on.
4.32 3.26 4.18 5.21 4.26 8.25
5.16 5.20 4.98 4.48 3.58 4.32
4.96 5.27 4.16 4.29 4.56 5.36
6.28 3.96 5.44 5.36 4.84 5.36
4.72 4.12 5.13 5.65 4.16 5.17
10. Con la siguiente lista de n´ umeros realiza la tabla de distribuci´on de frecuencias,
calcula las medidas de tendencia central y las medidas de dispersi´on.
52 63 92 92 83 74 66
98 68 81 88 77 41 60
46 77 81 82 84 70 76
79 98 82 81 87 70 78
79 88 77 84 70 61 80
78 76 66 77 78 67
11. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:
a) 3, 9, 12, 7, 16, 20, 33, 3
b) 5, 7, 22, 17, 5, 7, 20
c) 8, 6, 0, 17, 12, 7, 5
d) −4, 0, 13, 9, 4, 14, 20, 15
2.8 Ejercicios 55
12. Calcule la media, la mediana y la moda para cada una de las muestras siguientes:
a) 0, 0, 1, 1, 1, 0, 0, 0
b) 3, 3, 3, 2, 2, 2, 4, 5, 3
c) 0, 1, 1, 2, 2, 3, 3, 4, 4
d) −1, 0, 0, 0, −1, 2, −2, 3
13. Un instructor borra accidentalmente la calificaci´on de uno de sus 6 estudiantes;
las 5 calificaciones restantes son 76, 85, 43, 89 y 65, y la media de las seis es 70.
Encuentre la calificaci´on que se borr´o.
14. En un esfuerzo por reducir su consumo de caf´e, un trabajador de oficina registra
los n´ umeros siguientes de tazas de caf´e consumidas durante un periodo de 20
d´ıas:
4 5 3 6 7 1 2 3 0 5
6 5 8 4 0 2 3 7 5 6
¿Qu´e medida de tendencia central le servir´a mejor a su prop´osito?¿Cu´ al es el
valor num´erico?.
15. A continuaci´ on hay una colecci´on de calificaciones del examen de Estad´ıstica
de 25 estudiantes, en un examen de 50 preguntas
38 39 33 37 34 31 38 36 35 5
¿Cu´al medida de tendencia central es m´as ´ util para describir el valor cen-
tral?¿Cu´al es su valor num´erico?.
16. En una investigaci´ on realizada por la secretaria de un m´edico para averiguar los
tiempos de espera en minutos de los pacientes que acuden con el doctor, una
muestra de pacientes de un d´ıa arroj´o los resultados:
35 25 35 50 25 55 30 50 35 35
5 5 60 35 30 30 25 55 30 20
60 25 25 40 80 20 20 5 5 10
56 Estad´ıstica descriptiva
a) Describa un tiempo t´ıpico de espera usando la media.
b) Describa un tiempo t´ıpico de espera usando la mediana.
c) ¿Cu´al medida, media o mediana, considera usted que es m´as representativa
del conjunto de datos? Explique.
17. La tabla siguiente contiene los salarios en cientos de d´olares de 25 trabajadores.
Salario anual Frecuencia
55 7
60 5
70 6
80 4
300 3
a) ¿Cu´al es la moda?
b) ¿Cu´al es la media?
c) ¿Cu´al es la mediana?
18. Se escogi´o una muestra de 705 conductores de autob´ us y se registr´o en la tabla
siguiente el n´ umero de accidentes de tr´ansito que tuvieron durante 4 a˜ nos.
N´ umero de accidentes Frecuencia N´ umero de accidentes Frecuencia
0 114 6 21
1 157 7 7
2 158 8 6
3 115 9 1
4 78 10 3
5 44 11 1
2.8 Ejercicios 57
a) ¿Cu´al es la moda?
b) Se˜ nale la media, la mediana.
c) ¿Cu´al es el rango?
19. La tabla siguiente da una muestra de los tiempos de recorrido, en minutos, de
un camino de 2.5 millas para dos coches, A y B.
A 1.0 0.9 1.0 0.8 0.9 1.0 0.9 1.0
B 1.3 1.3 1.0 0.9 1.1 0.9 1.4 1.3
a) Encuentre el promedio de los tiempos de recorrido para cada uno de los
coches, A y B.
b) Calcule la varianza de los tiempos de recorrido para A y B, respectivamente.
c) ¿Cu´al coche tuvo un tiempo promedio menor de recorrido?
d) ¿Qu´e coche tuvo un desempe˜ no m´as consistente, si la consistencia se mide
por la varianza?
20. La tabla adjunta indica los salarios anuales, en d´olares, para una muestra de 25
trabajadores.
Salario anual Frecuencia
$5,500 7
6,000 5
7,000 6
8,000 4
30,000 3
Encuentre el rango, la media, la desviaci´on est´andar.
58 Estad´ıstica descriptiva
21. Una gran lecher´ıa vigila continuamente el nivel de contenido graso en su produc-
to; el porcentaje de grasa no debe desviarse mucho del 2 % de la leche, siendo
aceptable una desviaci´on est´andar del 10 %; se obtuvo una muestra de 20 car-
tones de leche y se registr´o el porcentaje de grasa en cada uno. Los resultados
se anotan a continuaci´ on.
1.85 2.25 2.01 1.90 1.97
1.80 2.05 2.23 1.65 1.86
2.02 2.09 2.04 2.07 2.14
1.93 2.08 2.17 1.91 1.93
Calcule la media y la desviaci´on est´andar para la muestra de contenidos de grasa.
¿Hay evidencia de que el contenido de grasa es demasiado alto? Explique.
22. La tabla de frecuencias agrupadas exhibe las edades de una muestra de 36
personas asistentes a una pel´ıcula para adultos.
Clase F
8-13 2
14-19 7
20-25 13
26-31 5
32-37 9
Encuentre la media, mediana, moda, varianza y desviaci´on est´andar.
23. La tabla de frecuencia agrupada adjunta indica las edades de compradores de
coches nuevos en una gran distribuidora.
2.8 Ejercicios 59
Clase de edades F
28-32 20
33-37 23
38-42 71
43-47 45
48-52 26
Encuentre la edad media, mediana, moda, varianza y desviaci´on est´andar.
60 Estad´ıstica descriptiva
Autoevaluaci´on
Nombre:
1. Define Estad´ıstica.
2. ¿Cu´al es la diferencia entre una poblaci´on y una muestra?.
3. ¿Cu´al es la diferencia entre las variables discretas y continuas?. De un ejemplo
de cada una.
4. ¿Qu´e es la estad´ıstica y para que la estudiamos?
5. ¿Cu´al es la diferencia entre una variable cualitativa y una cuantitativa?. De dos
ejemplos de cada una.
En los siguientes elige la respuesta correcta y subraya.
6. Es una ciencia que analiza series de datos y trata de extraer conclusiones sobre
el comportamiento de estas variables.
a) La estad´ıstica descriptiva b) La estad´ıstica inferencial c) El muestreo
7. Es la representaci´on estructurada, en forma de tabla, de toda la informaci´on
que se ha recogido sobre la variable que se estudia.
a) La distribuci´on de frecuencia b) La muestra c) La estad´ıstica descriptiva
8. Son las medidas que nos informan sobre los valores medios de la serie de datos.
a) Las MTC b) Las MD c) Las variables.
9. Son las medidas que estudian la distribuci´on de los valores de la serie, analizando
si estos se encuentran m´as o menos concentrados, o m´as o menos dispersos.
a) Las MTC b) Las MD c) Las variables.
10. Es el valor medio ponderado de la serie de datos.
a) La media b) La mediana c) La moda
2.8 Ejercicios 61
11. Es el valor de la serie de datos que se sit´ ua justamente en el centro de la muestra.
a) La media b) La mediana c) La moda
12. Mide la distancia existente entre los valores de la serie y la media. Se calcula
como sumatoria de las diferencias al cuadrado de cada valor y la media, mul-
tiplicadas por el n´ umero de veces que se ha repetido cada valor. La sumatoria
obtenida se divide por el tama˜ no de la muestra.
a) La varianza b) La desviaci´on media c) La desviaci´on est´andar
13. Calcule la media, mediana y moda para cada uno de los siguientes:
a) 12 15 23 7 12 40 22 16
14. La tabla siguiente contiene los salarios en cientos de pesos, de 25 trabajadores.
Salario anual 55 60 70 80 300
Frecuencia 7 5 6 4 3
a)¿Cu´al es la media?, b)¿Cu´al es la moda?, c)¿Cu´al es la mediana?, d)¿Que
medida de tendencia central usar´ıa para determinar el valor central?. Explique.
15. Se inspeccionaron 15 radios antes de enviarlos para su venta. El n´ umero de
defectos por radio es: 1, 0, 3, 4, 2, 1, 0, 3, 1, 2, 0, 1, 1, 0, 1. Obtenga: ¯ x, M
e
y M
o
para el n´ umero de defectos.
16. La generaci´on de energ´ıa resulta costosa para el gobierno federal. Con el fin de
ahorrar por ese concepto, se han propuesto diferentes estrategias, entre ellas
destacan los mensages a la poblaci´on para que economicen energ´ıa apagando
los focos que no est´en utilizando o cambiando los focos convencionales por aho-
rradores. Entre las medidas adoptadas por los gobiernos est´a el uso del horario
de verano. Para contar con una idea m´as clara sobre el consumo de energ´ıa en
los hogares, se requiere de la informaci´on correspondiente. Para obtenerla, se
pidi´o a un grupo de 40 alumnos que cada uno de ellos llevara a la clase su ´ ultimo
62 Estad´ıstica descriptiva
recibo de luz. En la facturaci´on aparece el consumo en KWh. A continuaci´ on
se muestran los 40 consumos:
299 308 335 330 317 330 327 346 315 320 301 312 320 334
319 314 309 326 314 311 322 325 300 322 312 307 311
322 298 308 312 336 314 312 328 305 315 301 327 324
a) Hacer una tabla de distribuci´on de frecuencias usando 8 clases.
b) Trazar un histograma de F
r
, un pol´ıgono de frecuencias y de acuerdo a
estos dos ´ ultimos, diga en cuantos hogares se consumen menos de 310
KWh y a que porcentaje corresponde. Se˜ nale estos datos en las gr´aficas
correspondientes.
17. Considere la tabla de frecuencia agrupada siguiente:
Clases F
4.5-9.4 2
9.5-14.4 3
14.5-19.4 4
19.5-24.4 1
24.5-29.4 8
a) Encuentre la amplitud C de cada clase.
b) Las 5 marcas de clase.
c) Localice las fronteras reales para la primera clase.
d) ¿Que porcentaje hay de datos mayores que 19.45?.
e) ¿Y de los datos menores de 24.5?.
f) ¿Que tanto por ciento cae en la clase 14.5 −19.4?.
2.8 Ejercicios 63
18. Se realiz´o un experimento para determinar el efecto de un cierto
f´armaco en los niveles de colesterol en la sangre, en
mg
100 ml
, en hom-
bres de 30 a˜ nos. Se obtuvieron las siguientes medidas:
245 185 230 225 265 210 235 145 195 215
245 165 195 170 205 225 190 220 210 195
160 240 285 175 260 225 120 185 140
a) Hacer una distribuci´on de frecuencias con 10 clases
b) Trazar un histograma de F
r
.
19. Los datos que a continuaci´on se exhiben representan las razones de
costo beneficio para 25 distintos tipos de acciones de mercado de
valores.
20.5 15.4 16.9 13.4 8.8 19.5 12.7 7.8 14.3 22.1 15.6 5.4 23.3
19.2 20.8 24.1 17.0 11.8 9.2 12.6 9.9 28.6 18.4 16.8 15.9
a) Construya un histograma de frecuencias relativas para describir estos datos.
b) ¿Qu´e proporci´on de las acciones tienen tasas de costo-beneficio de 17.0 o
mayores?.
Cap´ıtulo 3
Muestreo
3.1. Introducci´on
En multitud de ´ambitos de la vida real es evidente que la mejor forma de aprender
algo es a partir de la experiencia. Eso quiere decir que solemos utilizar aquello que
vemos para aprender pautas y conductas que luego generalizamos. En Estad´ıstica
pasa algo muy similar: necesitamos basarnos en muestras de una variable para poder
aprender de ellas y generalizar, inferir, aspectos referentes a las muestras a toda la
poblaci´on. Sin embargo, como en la vida real, en Estad´ıstica tambi´en debemos ser muy
cuidadosos con los datos sobre los que basamos nuestro aprendizaje. ¿Qu´e pasar´ıa si
basamos nuestro aprendizaje en experiencias incorrectas o poco significativas? Para
que esto no ocurra debemos basarnos en muestras donde todos los individuos de la
poblaci´on puedan verse representados. Por otra parte, es evidente que cuanto mayores
sean las muestras m´as fiables deber´ıan ser nuestras inferencias.
Ahora bien, el principal objetivo de la estad´ıstica es hacer inferencias acerca de una
poblaci´on con base en la informaci´on contenida en una parte o muestra de ello. El ob-
jetivo principal de un dise˜ no de muestreo es proporcionar indicaciones para la selecci´on
de una muestra que sea representativa de la poblaci´on bajo estudio, proporcionando
as´ı una cantidad especificada de informaci´on a un costo m´ınimo.
Los t´erminos usados frecuentemente en inferencia son:
3.1 Introducci´on 65
1) Par´ ametros de una poblaci´on: Un par´ametro es una medida usada para describir
algunas caracter´ısticas de una poblaci´on de estudio o variable espec´ıfica de una
poblaci´on de estudio. Por ejemplo,
El ingreso promedio de las familias que habitan en Tabasco.
El porcentaje de mujeres que hay en una ciudad.
El n´ umero de familias con veh´ıculos.
El porcentaje de personas diab´eticas.
2) Estad´ısticos: Son las medidas usadas para describir algunas caracter´ısticas de la
muestra tal como la media, mediana o desviaci´on est´andar de una muestra.
3) Poblaci´ on de estudio: Es el conjunto universal de elementos que tienen en com´ un
la variable de inter´es (par´ametro) para el estudio. Dependiendo del par´ametro
que se quiere investigar se determina la poblaci´on de estudio. Si la poblaci´on
de estudio es uniforme en las caracter´ısticas que ser´an medidas, entonces casi
cualquier muestra produce resultados aceptables.
Por ejemplo, una agencia para la protecci´on del medio ambiente basa su diag-
n´ostico de la calidad del agua de una ciudad en el an´alisis de algunos litros de
agua. Esto es posible debido a que se supone que una gota de agua contiene
aproximadamente la misma cantidad de impurezas que otra.
Las poblaciones de estudio se clasifican en homog´enea y heterog´enea.
PEHo: Los datos num´ericos de los elementos de la poblaci´on no estan muy
dispersos, es decir, los datos son parecidos.
PEHe: Es el conjunto universal de elementos cuyos datos con respecto a una
variable auxiliar num´erica est´an muy dispersos. Por ejemplo:
La poblaci´on de predios agr´ıcolas.
El ingreso econ´omico de las familias de la ciudad.
66 Muestreo
El n´ umero de empleados de un centro de trabajo.
Hay dos formas de generar informaci´on estad´ıstica
1) Censo: Es un inventario (o registro) de todos y cada uno de las unidades (elemen-
tos) que constituyen una poblaci´on.
2) Muestreo: Es un m´etodo probabil´ıstico que consiste en investigar una porci´on de
la poblaci´on de estudio.
Se podr´ıa pensar que la ´ unica forma de garantizar que un conjunto de datos represente
a la poblaci´on es a trav´es del censo pues se registra a cada elemento de la poblaci´on.
Entonces ¿porqu´e llevar a cabo investigaciones muestrales en lugar de censos comple-
tos?.
3.2. Muestra y censo
3.2.1. Ventajas y desventajas del censo
Ventajas
Se obtiene informaci´on completa de todos los par´ametros posibles que se deseen
conocer, es decir, los par´ametros son ilimitados.
Muy ´ util cuando se tiene poblaciones peque˜ nas
Si existe mucha variabilidad entre los elementos de la poblaci´on, puede ser
necesario considerar una muestra muy grande para obtener una que sea repre-
sentativa. Si la poblaci´on no es mas grande que la muestra, entonces es mejor
un censo.
Si se requiere exactitud completa.
Ejemplo 3.2.1. Un gerente bancario no tomar´a una muestra al azar del dinero
en las cajas para saber de cuanto efectivo dispone el banco, sino que contar´ıa
3.2 Muestra y censo 67
todo el dinero depositado en ellas. Esto no hace que no se cometan errores
y fallas aritm´eticas al sumar las cantidades, pero evita los problemas que se
presentar´ıan si se tomara alguna caja como representativas de todas las dem´as.
Desventajas
Es muy costoso.
Los resultados finales se tienen a largo plazo. Por esta raz´on la informaci´on
estad´ıstica ya no es oportuna para la toma de desiciones adecuada.
No se puede contar con un equipo de trabajo altamente capacitado porque en
´el participan miles de personas.
No se puede conocer la dimensi´on del error que se comete en los registros de los
datos.
Es imposible hacer una supervisi´on a un alto porcentaje de las unidades o
elementos censados.
La poblaci´on es infinita. En este caso es imposible efectuar un censo ya que
es un proceso que no termina y ser´ıa evidentemente imposible examinar cada
elemento de la poblaci´on.
3.2.2. Ventajas y desventajas del muestreo
Ventajas
Resultados a corto plazo lo cual es oportuno para la toma de desiciones.
Ejemplo 3.2.2. En el tiempo que se necesita para examinar cada caja de un
cargamento de fresas frescas, la fruta se podr´ıa deteriorar hasta el punto que no
pudiera venderse.
Ejemplo 3.2.3. Encuestar personas de una gran comunidad para descubrir el
porcentaje de individuos que contrajeron cierta enfermedad contagiosa puede
68 Muestreo
tardarse tanto que, cuando se obtengan los resultados y se tomen las medidas de
sanidad convenientes, el padecimiento puede haberse extendido en tal grado que
ser´ıa necesario tomar otras disposiciones. De hecho, los encuestadores pueden
ser un factor que contribuya a la propagaci´on de la enfermedad. As´ı, el estudio
puede indicar que localmente se dispone de suficiente vacuna para hacer frente
a la enfermedad pero, para ese momento, ´esta se encontrar´ a fuera de control y
requerir´a dosis masivas de la vacuna.
Investigaci´ on pr´actica y a bajo costo
Como el n´ umero de los participantes es peque˜ no se puede contar con un equipo
altamente capacitado.
Se puede controlar el error que se comete en el registro de datos.
Alto porcentaje de investigaci´on.
Si el tama˜ no de la muestra es mas peque˜ no que la poblaci´on, entonces se pueden
extraer dos muestras o mas.
Pueden intervenir ensayos destructivos.
Ejemplo 3.2.4. Cuando los datos se obtienen de la destrucci´on de los elementos
de la muestra, el muestreo es mas eficiente que un censo.
En control de calidad por ejemplo, la prueba de bombillas para flash es de tipo
destructivo. En este caso es indispensable el muestreo porque un censo destruir´ıa
todos los elementos de la poblaci´on y no habr´ıa art´ıculos para la venta.
Exactitud cuando la poblaci´on es grande. El muestreo comprende menos obser-
vaciones, y por lo tanto, menos recopiladores de datos, lo que puede dar lugar
a mayor uniformidad en los m´etodos de recopilaci´on.
Desventajas
S´olo se puede conocer un n´ umero limitado de par´ametros.
3.2 Muestra y censo 69
En ocasiones no se cuenta con una poblaci´on completa de los elementos de
estudio.
Si se requiere de exactitud completa no es muy ´ util.
Para que las conclusiones de la teor´ıa del muestreo sean v´alidas es necesario que las
muestras sean representativas y que se satisfaga:
El tama˜ no de la muestra sea suficientemente grande.
La muestra debe ser seleccionada aleatoriamente. Es decir, cada miembro de la
poblaci´on debe tener la misma posibilidad de ser elegido.
Una muestra aleatoria se selecciona de forma que toda combinaci´ on de n mediciones
de la poblaci´on tenga la misma posibilidad de ser seleccionada.
Una t´ecnica de obtenci´on de una muestra aleatoria es la asignaci´on de n´ umeros a tro-
zos de papel, colocarlos en una urna y despu´es sacar n´ umeros de dicha urna teniendo
cuidado de mezclar bien antes de cada extracci´on.
Tipo de selecci´on de los elementos de una muestra
1) Con reemplazo: Consiste en que una vez que se ha seleccionado de manera aleatoria
un elemento, esta se regresa a la poblaci´on. Se observa que un elemento en com´ un
puede ser seleccionado mas de una vez para la muestra y es posible que un s´olo
elemento contribuya a la muestra.
Ejemplo 3.2.5. Un n´ umero en una urna, existe la opci´on de reponer o no el
n´ umero en la urna antes de la segunda extracci´on. En esta caso el n´ umero
puede salir una y otra vez.
Poblaci´ on de estudio de tama˜ no N.
1ra 2da 3ra 4ta · · · (n −1) n
1
N
1
N
1
N
1
N
· · ·
1
N
1
N
70 Muestreo
Entonces, la posibilidad de seleccionar aleatoriamente n elementos con reem-
plazo de una poblaci´on de estudio de tama˜ no N es
_
1
N
_
n
=
1
N
n
.
2) Sin reemplazo: Los elementos que se seleccionan sin reemplazo de una poblaci´on
de estudio consiste en que una vez que se mide un elemento esta ya no se regresa
al conjunto.
Ejemplo 3.2.6. En el caso de la urna, el n´ umero solo sale una vez.
1ra 2da 3ra 4ta · · · (n −1)
1
N
1
N −1
1
N −2
1
N −3
· · ·
1
N −(n −1)
Las poblaciones son finitas o infinitas. Si el muestreo es sin reemplazo entonces es
de poblaci´on finita, pues el conjunto disminuye y la probabilidad de selecci´on del
siguiente elemento aumenta. Si es con reemplazo te´oricamente puede considerarse
como muestreo de poblaci´on infinita ya que es posible extraer cualquier n´ umero de
muestras sin extinguir la poblaci´on.
Ejemplos de poblaci´on infinita son: la producci´on futura de una m´aquina, tiradas
de una moneda y dados no cargados. Ejemplos de procesos aleatorios son: llegadas
de autos a una caseta de cobro, llamadas telef´onicas que se reciben en un enorme
conmutador, los clientes en las cajas de los supermercados.
Otra forma de seleccionar una muestra aleatoria es mediante una tabla de n´ umeros
aleatorios.
3.3. Tabla de n´ umeros aleatorios
En esta secci´on se describir´a la forma de llevar a cabo una encuesta por muestreo con
base en una muestra aleatoria simple.
Definici´on 3.3.1. Al seleccionar una muestra de n mediciones de una poblaci´on
finita de N mediciones, si el muestreo se lleva a cabo de forma que todas las muestras
3.3 Tabla de n´ umeros aleatorios 71
posibles de tama˜ no n tengan la misma probabilidad de ser seleccionadas, el muestreo
se llama aleatorio y el resultado es una muestra aleatoria simple.
En la pr´actica es muy dif´ıcil lograr un muestreo aleatorio perfecto. Si la poblaci´on no
es muy grande, cada una de las N mediciones se puede anotar en un pedazo de papel
que se coloca en una urna. Posteriormente se extrae de la urna una muestra aleatoria
de n mediciones.
La mejor manera de estar seguros de efectuar un muestreo aleatorio es usar una
tabla de n´ umeros aleatorios. Las tablas de n´ umeros aleatorios contienen los 10 d´ıgi-
tos 0, 1, 2, . . . , 7, 8, 9. Tales d´ıgitos se pueden leer individualmente o en grupos y en
cualquier orden, en columnas hacia abajo, columnas hacia arriba, en fila, diagonal-
mente, etc., y es posible considerarlos como aleatorios. Las tablas se caracterizan por
dos cosas que las hacen particularmente ´ utiles para el muestreo al azar. Una carac-
ter´ıstica es que los d´ıgitos est´an ordenados de tal manera que la probabilidad de que
aparezca cualquiera en un punto dado de una secuencia es igual a la probabilidad
de que ocurra cualquier otro. La otra es que las combinaciones de d´ıgitos tienen la
misma probabilidad de ocurrir que las otras combinaciones de un n´ umero igual de
d´ıgitos.
En el siguiente ejemplo se ilustra el uso de una tabla de n´ umeros aleatorios.
Ejemplo 3.3.1. Para las empresas es sumamente inportante tener una administraci´on
adecuada de los flujos de efectivo para presupuestar y controlar en forma eficiente
sus recursos presentes y futuros. Cuando los flujos de efectivos son altos, la empresa
puede adquirir inventarios y bienes de capital en forma inmediata, aprovechando las
rebajas de precio que ofrecen los proveedores. Cuando hay escasez de efectivo, no es
posible comprar al contado y es necesario pagar m´as por bienes y servicios.
Una de las mejores maneras de medir la situaci´on de una compa˜ n´ıa de ventas al
menudeo, en lo que se refiere a efectivo, es a trav´es de las cuentas por cobrar a corto
plazo que tiene la empresa. Al analizar la situaci´on de una tienda, una firma de con-
tadores decide seleccionar una muestra aleatoria simple de n = 15 cuentas mensuales
72 Muestreo
por cobrar de la N = 1000 cuentas de la tienda, para estimar la cantidad total venci-
da en todas las cuentas por cobrar. Se sabe que para obtener una muestra aleatoria
simple se requiere que todas las muestras posibles de n = 15 cuentas tengan la misma
probabilidad de ser seleccionadas. Usando la tabla 3.1, se determinar´a cu´ales son las
cuentas que ser´an incluidas en la muestra de tama˜ no n = 15.
Soluci´on:
Se puede pensar que las N = 1000 cuentas por cobrar est´an numeradas como sigue:
001, 002, . . . , 999, 000. Es decir, se tienen 1000 n´ umeros de tres d´ıgitos, donde 001
representa la primera cuenta, 999 la cuenta n´ umero 999 y 000 la cuenta n´ umero mil.
En la tabla 3.1 se elige un punto de partida arbitrario. Si el punto de partida es el
primer n´ umero de la quinta columna y se eliminan el ´ ultimos d´ıgito de cada n´ umero
de cuatro, se ver´a que el primer n´ umero de tres d´ıgitos que se obtiene es el 700, el
segundo 110, en tercero el 40, etc. Si un n´ umero aleatorio ocurre dos veces, se omite
la segunda ocurrencia y se selecciona otro n´ umero aleatorio para reemplazarlo. Al
tomar una muestra aleatoria que consista en los primeros 15 n´ umeros de tres d´ıgitos
no repetidos de la columna 5, se obtienen los siguientes n´ umeros:
700 078 761
110 795 545
040 513 506
995 250 034
915 957 624
Si las cuentas por cobrar est´an numeradas, simplemente se escogen aquellas cuyos
n´ umeros corresponden a los de la lista anterior y se forma la muestra de n = 15 de
las N = 1000 cuentas por cobrar. Si las cuentas por cobrar no est´an numeradas, se
toma una lista de ellas y se seleccionan aquellas cuyo orden coincide con los n´ umeros
obtenidos anteriormente.
En el ejemplo 3.3.1, el tama˜ no de la poblaci´on N = 1000 hizo posible el asociar en
forma ´ unica cada elemento de la poblaci´on con un n´ umero diferente de tres d´ıgitos.
3.3 Tabla de n´ umeros aleatorios 73
¿Qu´e se puede hacer si N = 964? Est´a claro que se pueden asociar los n´ umeros de
tres d´ıgitos 001, 002, . . . , 964 con los elementos de la poblaci´on. Los n´ umeros de tres
d´ıgitos que restan, 965, 966, . . . , 999, 000. Deben ignorarse al seleccionar la muestra
de n n´ umeros de tres d´ıgitos de la tabla de n´ umeros al azar.
en ocasiones el experimentador usa su propio criterio para seleccionar una muestra
representativa o emplea procedimientos intuitivos para seleccionar la muestra en for-
ma “aleatoria”. Ambos procedimientos est´an sujetos al sesgo del experimentador y
deben evitarse cuando se desea obtener una muestra aleatoria simple.
74 Muestreo
9869 8728 0368 4431 7002 5030 2227 0479 6343
6339 6518 5946 3213 1109 1313 3450 8522 0293
7643 4939 0996 4039 0400 4453 4430 3263 4107
3661 6244 3738 8889 9959 4514 1236 6241 2889
3802 6424 2819 2820 9158 1249 5365 9601 5421
7456 8278 4622 1342 0784 4285 1249 0238 8195
9015 9975 5045 7059 7958 9806 9754 5941 4796
9891 0292 2203 2661 5130 3766 4364 9713 2171
5943 4287 6682 0697 2509 6664 0303 1635 5072
0515 6671 9202 6750 9579 8805 9213 5242 9971
8222 6702 7366 2906 7615 8908 8480 0654 5960
5000 7560 0966 8264 5457 4426 4762 3986 0510
2590 8247 8506 5768 5069 2032 5654 7557 5502
0473 8236 0827 0574 0349 8170 1543 9000 7482
6937 2597 8681 2096 6247 1383 3437 2588 5284
5158 7530 5320 3511 7314 5708 2709 2387 6091
2310 0964 4722 7120 6271 5957 0280 4955 6849
1786 0971 5708 4059 9337 5967 3091 9742 1162
4308 6633 6767 9898 4654 8966 0897 8079 4353
6171 7594 6443 2396 4173 7014 8416 5544 6123
3868 6313 4085 4719 0566 7105 9903 7031 5643
9874 3122 7417 8464 7114 8828 8576 4743 9959
3173 8599 5281 6337 4298 8768 3089 8776 6610
7808 9715 0093 9837 0300 4042 5759 7071 5572
0131 2852 0015 2708 8486 0070 3609 9647 3977
4950 7115 2338 0984 0321 9763 8976 2102 7253
6071 5446 7233 4295 4168 0254 0279 1792 5917
Tabla 3.1: Tabla de n´ umeros aleatorios.
3.4 Estimaci´on basada en una muestra aleatoria simple 75
3.4. Estimaci´on basada en una muestra aleatoria
simple
La selecci´on de una muestra aleatoria simple, es el mas simple de los dise˜ nos de
encuestas, fue presentada en la secci´on 3.3. Una vez recolectadas las observaciones
muestrales, el siguiente objetivo consiste en la estimaci´on de ciertos par´ametros pobla-
cionales de inter´es. Frecuentemente se tiene inter´es es estimar la media poblacional µ
o el total poblacional τ (letra griega tau). Por ejemplo, la firma de contabilidad del
ejemplo 3.3.1 podr´ıa estar interesada en el valor promedio de las cuentas por cobrar
y tambi´en en el valor total de las cuentas.
Las f´ormulas de c´alculo para estimar la media poblacional µ y el total poblacional τ,
basados en un muestreo aleatorio simple, se presentan mas adelante. Es importante
aclarar que una estimaci´on puntual, como ˆ µ y ˆ τ, no proporcionan informaci´on acerca
de la bondad de la estimaci´on. Por lo tanto, se dan las f´ormulas de la varianza con el
prop´osito de establecer cotas para el error de estimaci´on de µ y τ.
Al usar muestreo aleatorio simple para estimar la media poblacional µ, se obtiene el
siguiente estimador:
Estimaci´on de la media poblacional para un muestreo aleatorio simple
Estimador
ˆ µ = ¯ y =
n

i=1
y
i
n
(3.1)
Varianza estimada del estimador
ˆ σ
2
¯ y
=
_
s
2
n
__
N −n
N
_
con s
2
=
n

i=1
(y
i
− ¯ y)
2
n −1
(3.2)
Cotas para el error de estimaci´on
¯ y ±2ˆ σ
¯ y
(3.3)
N´otese que la cantidad 2ˆ σ
¯ y
es una cota aproximada del error de estimaci´on y s´olo
implica que al menos el 75 %, y muy posiblemente el 95 %, de las estimaciones se
76 Muestreo
desviar´an de la media en menos de 2ˆ σ
¯ y
. En el presente cap´ıtulo se usar´a la cota de
dos desviaciones est´andar para describir un intervalo de estimaci´on para µ y τ al usar
cada uno de los diferentes dise˜ nos de muestreo.
Al usar muestreo aleatorio simple para estimar el total poblacional τ, se obtiene el
siguiente estimador:
Estimaci´on del total poblacional para una muestra aleatoria simple
Estimador
ˆ τ = N¯ y (3.4)
Varianza estimada del estimador
ˆ σ
2
ˆ τ
= N
2
ˆ σ
2
ˆ y
(3.5)
Cota para el error de estimaci´on
N¯ y ±2ˆ σ
ˆ τ
(3.6)
Ejemplo 3.4.1. En la tabla 3.2 aparecen los saldos correspondientes a las cuentas de
una muestra de tama˜ no n = 15 de la poblaci´on de cuentas por cobrar del ejemplo
3.3.1
$14.50 $23.40 $42.00
30.20 15.50 13.30
17.80 27.50 23.70
10.00 6.90 18.40
8.50 19.50 12.10
Tabla 3.2: Saldos de cuentas para el ejemplo 3.5.1
a) Estime el saldo promedio para las N = 1000 cuentas por cobrar de la tienda y
establezca una cota para el error de estimaci´on.
b) Estime el total τ de los saldos de todas las cuentas y establezca una cota para el
error de estimaci´on.
3.4 Estimaci´on basada en una muestra aleatoria simple 77
Soluci´on:
Para facilitar los c´alculos es conveniente escribir los datos como se muestran en la
siguiente tabla 3.3
y
i
y
2
i
$14.50 210.25
30.20 912.04
17.80 316.84
10.00 100.00
8.50 72.25
23.40 547.56
15.50 240.25
27.50 756.25
6.90 47.61
19.50 380.25
42.00 1764.00
13.30 176.89
23.70 561.69
18.40 338.56
12.10 146.41
15

i=1
y
i
= 283.30
15

i=1
y
2
i
= 6570.85
Tabla 3.3: Saldos de cuentas para el ejemplo 3.5.1
a) La estimaci´on del saldo promedio µ es
¯ y =
15

i=1
y
i
15
=
283.30
15
= $18.89
78 Muestreo
Para encontrar una cota para el error de estimaci´on de µ, es necesario calcular
s
2
=
15

i=1
(y
i
− ¯ y)
2
14
=
15

i=1
y
2
i

_
15

i=1
y
i
_
2
15
14
=
1
14
_
6570.85 −
(283.30)
2
15
_
=
1
14
[6570.85 −5350.59] = 87.16
Por lo tanto, la varianza estimada de ¯ y es
ˆ σ
2
¯ y
=
_
s
2
n
__
N −n
N
_
=
_
87.16
15
__
1000 −15
1000
_
= 5.72
Una estimaci´on del saldo promedio µ, con una cota para el error de estimaci´on,
es
¯ y ±2ˆ σ
¯ y
= $18.89 ±$4.78
b) Una estimaci´on del total de los saldos corresponde a
ˆ τ = N¯ y = 1, 000($18.89) = $18, 890
Dado que la varianza estimada de ˆ τ es ˆ σ
2
ˆ τ
= N
2
ˆ σ
2
¯ y
, una estimaci´on del total de
los saldos de las N = 1000 cuentas, con una cota para el error de estimaci´on,
corresponde a
ˆ τ ±2ˆ σ
ˆ τ
= N¯ y ±2Nˆ σ
¯ y
= $18, 890 ±2(1, 000)

5.72
= $18, 890 ±$4, 783
En algunas investigaciones experimentales puede ser de inter´es estimar la propor-
ci´on de la poblaci´on que posee determinada caracter´ıstica. Un auditor podr´ıa estar
interesado en la proporci´on de cuentas por cobrar atrasadas; un investigador de mer-
cados podr´ıa estar interesado en la proporci´on del mercado que controla la empresa;
un ejecutivo corporativo puede estar interesado en la proporci´on de accionistas que
est´a a favor de una decisi´on particular.
3.4 Estimaci´on basada en una muestra aleatoria simple 79
Estimaci´on de la proporci´on poblacional para una muestra aleatoria simple
Estimador
ˆ p =
y
n
Varianza estimada del estimador
ˆ σ
2
ˆ p
=
_
ˆ p ˆ q
n −1
__
N −n
N
_
con ˆ q = 1 − ˆ p
Cotas para el error de estimaci´on
ˆ p ±2ˆ σ
ˆ p
En este caso y es el n´ umero total de los elementos de la muestra que tienen determi-
nada caracter´ıstica por la cual se tiene inter´es.
Ejemplo 3.4.2. Es com´ un que las empresas manufactureras establezcan descuentos
durante periodos cortos de tiempo para convencer a sus clientes de que incrementen
y anticipen sus compras, mejorando as´ı la situaci´on de la empresa en lo que se refiere
a efectivo. Siguiendo la pol´ıtica anterior un fabricante y distribuidor de alimentos
congelados pretende establecer un descuento del 20 % en el precio de sus productos
para aquellos compradores que dupliquen sus pedidos mensuales.
Dado que el almacenaje de los alimentos congelados es muy costoso, no se tiene
la seguridad de que los compradores est´en interesados en la oferta de descuento.
Se tom´o una muestra de n = 50 de los N = 430 clientes de la empresa y 15 de
los 50 clientes manifestaron que aceptar´ıan la oferta de descuento y duplicar´ıan sus
pedidos mensuales. Estime la proporci´on p de los N = 430 clientes de la compa˜ n´ıa
que aceptaron la oferta, y determine una cota para el error de estimaci´on.
Soluci´on:
Una estimaci´on de la proporci´on p de los clientes de la empresa que aceptaron la
oferta de descuento es
ˆ p =
y
n
=
15
50
= 0.30
80 Muestreo
Para establecer cota para el error de estimaci´on, es necesario calcular la varianza ˆ σ
2
ˆ p
ˆ σ
2
ˆ p
=
_
ˆ p ˆ q
n −1
__
N −n
N
_
=
_
(0.30)(0.70)
49
_ _
430 −50
430
_
=
_
0.21
49
_
(0.88) = 0.003771
Una estimaci´on de p, con una cota para el error de estimaci´on, corresponde a
ˆ p ±2ˆ σ
ˆ p
= 0.30 ±2

0.003771 ≈ 0.30 ±0.12
Es decir, se estima que la proporci´on de los clientes de la empresa que aceptar´an la
oferta de descuento es 0.30, con una cota para el error de estimaci´on de 0.12.
Ejercicios
1. En vista de la crisis energ´etica y del n´ umero creciente de accidentes de carretera,
el Congreso de los Estados Unidos en 1974 aprob´o una ley que establece un l´ımite
de velocidad de 55 mph en todas las carreteras del pa´ıs. Desde entonces, se han
producido gran cantidad de discusiones sobre la aceptaci´on de esta medida por
parte del p´ ublico. Para estudiar este problema, la polic´ıa de caminos del estado
de California decidi´o seleccionar aleatoriamente n = 25 veh´ıculos que viajaban
en un determinado tramo de una carretera interestatal y medir sus velocidades.
Se encontr´ o que la velocidad promedio de los 25 veh´ıculos fue de 57.5 mph con
una desviaci´on est´andar de 9.4 mph. Estime la velocidad promedio µ de los
veh´ıculos que viajan en esa carretera, y establezca una cota para el error de
estimaci´on.
2. Una agencia gubernamental ha propuesto que se esteblezca una reglamentaci´ on
para permitir a las farmacias que hagan publicidad sobre los precios al menudeo
de las medicinas. Esta reglamentaci´ on permitir´ıa la competencia de los medica-
mentos, permitiendo as´ı a los comunicadores obtener los mejores precios posi-
bles. Para establecer el grado de disparidad de los precios que diferentes far-
macias de determinada zona cobran por un medicamento de uso com´ un, se
3.5 Muestreo aleatorio estratificado 81
seleccion´o una muestra aleatoria de n = 20 farmacias de las N = 152 de la
zona. El precio de 100 tabletas del medicamento en las farmacias seleccionadas
aparece en la lista adjunta
$3.75 $4.10 $10.40 $7.50 $2.95
5.75 7.50 8.90 4.75 11.75
5.85 7.65 8.10 6.50 7.50
5.50 8.00 4.50 10.25 4.95
Estime el precio promedio µ que las 152 farmacias cobran por 100 tabletas del
medicamento, y establezca una cota para el error de estimaci´on.
3. Suponga que una organizaci´on de trabajadores textiles est´a interesada en deter-
minar la proporci´on de los N = 352 trabajadores de una f´abrica textil que est´an
satisfechos con las prestaciones que reciben en lo que se refiere a beneficios de
jubilaci´on y seguro. Usando una tabla de n´ umeros aleatorios, un representante
de la organizaci´on seleccion´o n = 40 de los trabajadores y encontr´o que 23 de
ellos est´an satisfechos con las prestaciones de seguro y jubilaci´on que la empresa
ofrece actualmente. Estime la proporci´on p de los empleados de la empresa tex-
til que est´an de acuerdo con las prestaciones que la empresa ofrece. Establezca
una cota para el error de estimaci´on.
3.5. Muestreo aleatorio estratificado
Un segundo tipo de dise˜ no de muestreo, que frecuentemente proporciona una cantidad
especificada de informaci´on a menor costo que el muestreo aleatorio simple, es el
llamado muestreo aleatorio estratificado. Este dise˜ no se recomienda cuando la
poblaci´on consiste en un conjunto de grupos heterog´eneos (distintos).
Definici´on 3.5.1. Una muestra aleatoria estratificada es una muestra aleatoria
que se obtiene separando los elementos de la poblaci´on en grupos disjuntos, llamados
estratos, y seleccionando una muestra aleatoria simple de cada estrato.
82 Muestreo
El muestreo aleatorio estratificado tiene tres ventajas importantes sobre el muestreo
aleatorio simple. Primera, frecuentemente el costo de recolecci´on y el an´alisis de los
datos se reduce al estratificar en grupos cuyos elementos tienen caracter´ısticas simila-
res pero que difieren de un grupo a otro. Por ejemplo, en una encuesta de compradores
industriales es m´as costoso obtener informaci´on de aquellos que est´an en el extranjero
que de los nacionales. Se debe, por lo tanto, tomar muestras peque˜ nas de los estratos
con altos costos de muestreo para satisfacer el objetivo de minimizar el costo total de
muestreo.
La segunda ventaja est´a relacionada con la varianza del estimador de la media pobla-
cional. Usualmente esta varianza se reduce usando muestreo aleatorio estratificado,
debido a que la varianza dentro de los estratos es generalmente menor que la variabili-
dad de la poblaci´on. Por ejemplo, el consumo de energ´ıa el´ectrica es m´as variable en el
caso de los consumidores industriales que en el de los consumidores residenciales. Por
lo tanto, si se desea estimar el consumo promedio de los usuarios de energ´ıa el´ectrica,
deben seleccionarse muestras mayores de los sectores industriales menos homog´eneos
para obtener mejores estimadores de los par´ametros poblacionales.
La tercera ventaja es que se obtienen estimadores separados para los par´ametros de
cada estrato, sin necesidad de seleccionar otra muestra e incurrir en mayores gastos.
Por ejemplo, podr´ıa ser de mayor utilidad el conocer el consumo promedio de energ´ıa
el´ectrica de los usuarios industriales y de los usuarios residenciales de una ciudad,
que conocer ´ unicamente el consumo promedio de todos los usuarios de esta ciudad.
El muestreo aleatorio estratificado permite analizar las diferencias entre estratos, de
manera que se pueden identificar m´as f´acilmente aquellos grupos que requieren de
una mayor atenci´on.
En esta secci´on se usar´a el procedimiento de afijaci´on proporcional, que parti-
ciona el tama˜ no de la muestra en forma proporcional al tama˜ no de los estratos. La
principal ventaja del uso de la afijaci´on proporcional es que se obtiene una muestra
“auto-ponderada ”, dado que la fracci´on de muestreo es la misma en cada estrato.
Cuando es necesario obtener muchos estimadores se producen ahorros en los costos de
3.5 Muestreo aleatorio estratificado 83
muestreo. En los casos en los que el costo de muestreo y las varianzas difieren mucho
entre estratos, es preferible utilizar una afijaci´on ´optima que particione la muestra de
acuerdo con el costo, la variabilidad y el tama˜ no de los estratos.
El primer paso en la selecci´on de una muestra aleatoria estratificada consiste en la
especificaci´on clara y detallada de cada estrato, asociando a cada elemento de la
poblaci´on con uno y s´olo un estrato. En algunos casos esto no es tan sencillo. En una
encuesta de opini´on, en la que la poblaci´on se divide en urbana y rural, ¿c´omo deben
clasificarse las personas que viven en una unidad de 1000 habitantes?. En el ejemplo
sobre el consumo de energ´ıa, ¿c´omo debe clasificarse la residencia de un contador
cuya oficina est´a en su propia casa?. La resoluci´on que se tome no afecta los resul-
tados siempre y cuando se tenga una pol´ıtica consistente al respecto. Por ejemplo,
podr´ıa establecerse que las poblaciones de menos de 2500 habitantes se consideran
siempre como rurales, y las de m´as de 2500 como urbanas; las unidades comerciales-
residenciales pueden clasificarse seg´ un la actividad para la cual se ocupa una mayor
cantidad de espacio.
Una vez especificados los estratos, se puede usar el m´etodo de la secci´on 3.3 para
seleccionar una muestra aleatoria en cada estrato. El tama˜ no total de la muestra n
depender´a del presupuesto disponible para el muestreo y de la presici´on y exactitud
que se requieran del estimador. Usando afijaci´on proporcional, el tama˜ no de muestra
n se particiona en un tama˜ no de muestra para cada uno de los L estratos de forma que
n = n
1
+n
2
+· · · +n
L
, con cada n
i
dado por la f´ormula que aparece a continuaci´ on.
Afijaci´on de la muestra para los estratos
n
i
= n
_
N
i
N
_
i = 1, 2, . . . , L
donde N
i
es el n´ umero de elementos del estrato i y
N =
L

i=1
N
i
84 Muestreo
es el tama˜ no de la poblaci´on.
De la informaci´on obtenida de los elementos muestrales, se puede calcular la media
estimada ¯ y
i
y la varianza s
2
i
para las observaciones de cada estrato, usando las f´ormulas
que aparecen a continaci´on.
Estimaci´on de la media y la varianza de cada estrato
¯ y
i
=
n
i

j=1
y
ij
n
i
s
2
i
=
n
i

j=1
(y
ij
− ¯ y
i
)
2
n
i
−1
i = 1, 2, . . . , L
donde y
ij
es la j-´esima observaci´on del estrato i.
La varianza s
2
i
es un estimador de la correspondiente varianza del estrato σ
2
i
.
A continuaci´on se define el estimador ¯ y
est
de la media poblacional µ, basado en un
muestreo aleatorio estratificado.
Estimaci´on de la media poblacional para una muestra aleatoria estratifi-
cada
Estimador
¯ y
est
=
1
N
L

i=1
N
i
¯ y
i
Varianza estimada del estimador
ˆ σ
2
¯ y
est
=
1
N
2
L

i=1
N
2
i
_
N
i
−n
i
N
i
__
s
2
i
n
i
_
Cotas para el error de estimaci´on
¯ y
est
±2ˆ σ
¯ y
est
3.5 Muestreo aleatorio estratificado 85
Ejemplo 3.5.1. En el periodo de 1973 a 1975 hubo una r´apida disminuci´on en el
n´ umero de nuevas construcciones de viviendas en los Estados Unidos. La causa prin-
cipal de esta disminuci´on fue la escasez de fondos, en los bancos y otras instituciones
de ahorro, para pr´estamos hipotecarios. Para aumentar la disponibilidad de fondos
para pr´estamos hipotecarios, una gran compa˜ n´ıa manufacturera instituy´o pol´ıticas
para convencer a sus empleados que inviertan regularmente parte de sus ingresos en
las instituciones locales de ahorro. Posteriormente, la compa˜ n´ıa decidi´o llevar a cabo
un estudio de los h´abitos de ahorro de sus empleados para juzgar la efectividad de la
campa˜ na de ahorro de la empresa. Se desea estimar la cantidad promedio invertida
en ahorro por los empleados durante el ´ ultimo mes. Proponga un dise˜ no de encuesta
para este problema.
Soluci´on:
Los empleados de la empresa pueden clasificarse en tres grupos: oficinistas y obreros,
supervisores y gerentes, y ejecutivos de alto nivel. Una muestra aleatoria estratifica-
da, con L = 3 estratos, parece ser el dise˜ no mas apropiado en este caso. Se espera
que en cada uno de los estratos, los h´abitos de consumo e inversi´on de los empleados
sean razonablemente homog´eneos. En cada uno de los estratos se debe seleccionar
una muestra aleatoria simple para preguntar a los empleados acerca de la cantidad
invertida en ahorros durante el ´ ultimo mes.
La compa˜ n´ıa manufacturera emplea un total de 5000 personas, de las cuales 3500 son
oficinistas y obreros, 1000 son supervisores o gerentes, y 500 son ejecutivos. El depar-
tamento de investigaci´ on tiene suficiente tiempo y dinero para entrevistar ´ unicamente
n = 50 empleados. Usando una afijaci´on proporcional, se particiona la muestra como
sigue:
n
1
= n
_
N
1
N
_
= 50
_
3500
5000
_
= 35
n
2
= n
_
N
2
N
_
= 50
_
1000
5000
_
= 10 y n
3
= n
_
N
3
N
_
= 50
_
500
5000
_
= 5
El marco muestral est´a constituido por una lista alfab´etica de los empleados de ca-
da categor´ıa, disponible en la oficina de n´ominas. Empezando arbitrariamente en
86 Muestreo
la columna 4 de la tabla de n´ umeros aleatorios 3.1, se seleccionan los primeros 35
n´ umeros no repetidos de cuatro d´ıgitos entre 0000 y 3499 para identificar los oficinis-
tas y obreros que ser´an incluidos en la muestra. Por lo tanto, el primer elemento de la
muestra debe ser el oficinista u obrero que ocupa el lugar 3213 en el orden alfab´etico,
el siguiente ser´a el que ocupa el lugar 2820, etc. En forma similar, se usan n´ umeros
de tres d´ıgitos entre 000 y 999 para seleccionar la muestra de n
2
= 10 capataces y
gerentes y n´ umeros de tres d´ıgitos entre 001 y 500 para seleccionar n
3
= 5 ejecutivos.
Una vez seleccionados los elementos muestrales (empleados), se procede con la entre-
vista. De las respuestas de los empleados, se calcula la media ¯ y
i
y la varianza s
2
i
de
las observaciones de cada estrato. Los valores obtenidos aparecen en la tabla 3.4
Estrato 1 Estrato 2 Estrato 3
n
1
= 35 n
2
= 10 n
3
= 5
¯ y
1
= $10.16 ¯ y
2
= $25.50 ¯ y
3
= $21.80
s
2
1
= 16.81 s
2
2
= 22.09 s
2
3
= 125.44
N
1
= 3500 N
2
= 1000 N
3
= 500
Tabla 3.4:
A partir de los datos de la tabla 3.4 se estima la inversi´on promedio en ahorros ¯ y
est
como
¯ y
est
=
1
N
L

i=1
N
i
¯ y
i
=
1
5000
[(3500)(10.16) + (1000)(25.50) + (500)(21.80)]
=
1
5000
(71, 960) = $14.39
Por lo tanto, la cantidad promedio estimada que los empleados invirtieron en ahorros
es $14.39.
3.5 Muestreo aleatorio estratificado 87
La varianza estimada es
ˆ σ
2
¯ y
est
=
1
N
2
3

i=1
N
2
i
_
N
i
−n
i
N
i
__
s
2
i
n
i
_
=
1
(5000)
2
_
(3500)
2
(0.99)(16.81)
35
+
(1000)
2
(0.99)(22.09)
10
+
(500)
2
(0.99)(125.44)
5
_
= 0.5688
La estimaci´on de los ahorros promedio, con una cota para el error de estimaci´on,
est´a dada por
¯ y
est
±2ˆ σ
¯ y
est
= $14.39 ±2

0.5688 = $14.39 ±2(0.75) = $14.39 ±$1.50
Si el objetivo de la encuesta es usar el muestreo aleatorio estratificado para estimar
el total poblacional τ, entonces el estimador es el siguiente.
Estimador del total poblacional para una muestra aleatoria estratificada
Estimador
ˆ τ = N¯ y
est
Varianza estimada del estimador
ˆ σ
2
ˆ τ
= N
2
ˆ σ
2
¯ y
est
Cotas para el error de estimaci´on
ˆ τ ±2ˆ σ
ˆ τ
Ejemplo 3.5.2. En el ejercicio 3.5.1, estime el total invertido en ahorros, el ´ ultimo
mes, por los empleados de la compa˜ n´ıa manufacturera. Establezca una cota para el
error de estimaci´on.
Soluci´on:
De los c´alculos anteriores ¯ y
est
= $14.39. Por lo tanto, un estimador del total de ahorros
es
ˆ τ = N¯ y
est
= (5000)($14.39) = $71, 950
88 Muestreo
Para encontrar cotas para el error de estimaci´on de τ, se debe calcular la varianza
estimada ˆ σ
2
ˆ τ
ˆ σ
2
ˆ τ
= N
2
ˆ σ
2
¯ y
est
= (5000)
2
(0.5688) = 14, 220, 000
La estimaci´on del total de ahorros, con una cota para el error de estimaci´on, est´a dada
por
ˆ τ ±2ˆ σ
ˆ τ
= $71, 950 ±2
_
14, 220, 000 = $71, 950 ±2(3, 771)
= $71, 950 ±$7, 542
Po lo tanto, hay una certeza del 95 % de que la inversi´ on total en ahorros de los
empleados est´a contenida en el intervalo de $64, 410 a $79, 490.
Sup´ongase que la empresa manufacturera esta interesada en estimar la proporci´on
de empleados que invirtieron parte de los ingresos del ´ ultimo mes en una cuenta de
ahorros. Usando los mismos estratos definidos anteriormente, el investigador puede
seleccionar una muestra aleatoria de cada estrato y encontrar la proporci´on ˆ p
i
de
empleados en el estrato i que invirtieron parte de sus ingresos del ´ ultimo mes en
cuentas de ahorros. Las proporciones muestrales de los estratos pueden combinarse
para producir un estimador de la proporci´on poblacional.
Estimaci´on de la proporci´on poblacional para una muestra aleatoria es-
tratificada
Estimador
ˆ p
est
=
1
N
L

i=1
N
i
ˆ p
i
Varianza estimada del estimador
ˆ σ
2
ˆ p
est
=
1
N
2
L

i=1
N
2
i
_
N
i
−n
i
N
i
__
ˆ p
i
ˆ q
i
n
i
−1
_
con ˆ q
i
= 1 − ˆ p
i
Cotas para el error de estimaci´on
ˆ p
est
±2ˆ σ
ˆ p
est
3.5 Muestreo aleatorio estratificado 89
Ejemplo 3.5.3. De los n = 50 empleados entrevistados en el estudio sobre inversi´ on
en ahorros, el n´ umero de los que indicaron que hab´ıan participado aparecen en la
siguiente tabla. Estime la proporci´on de empleados que participaron en el programa
de ahorro, y establezca una cota para el error de estimaci´on.
Estrato Tama˜ no de muestra N´ umero de participantes ˆ p
i
1 n
1
= 35 21
21
35
= 0.60
2 n
2
= 10 7
7
10
= 0.70
3 n
3
= 5 4
4
5
= 0.80
Soluci´on:
La estimaci´on deseada est´a dada por ˆ p
est
, de donde
ˆ p
est
=
1
5000
[(3500)(0.60) + (1000)(0.70) + (500)(0.80)] = 0.64
Para obtener la cota para el error de estimaci´on, es necesario calcular la varianza
estimada
ˆ σ
2
ˆ p
est
=
1
(5000)2
_
(3500)
2
_
3500 −35
3500
__
(0.6)(0.4)
34
__
+
1
(1000)2
_
(1000)
2
_
1000 −10
1000
__
(0.7)(0.3)
9
__
+
1
(500)2
_
(500)
2
_
500 −5
500
__
(0.8)(0.2)
4
__
= 0.004744
La estimaci´on de la proporci´on de empleados que participaron en el programa de
ahorros de la compa˜ n´ıa manufacturera, con una cota para el error de estimaci´on,
est´a dada por
ˆ p
est
±2ˆ σ
ˆ p
est
= 0.64 ±2

0.004744 = 0.64 ±2(0.069) = 0.64 ±0.14
Ejercicios
1. Las compa˜ n´ıas manufactureras gastan enormes cantidades de dinero en el de-
sarrollo, promoci´on y mercadotecnia de nuevos productos. Sin embargo, la tasa
de ´exitos de los nuevos productos es m´ınima. La experiencia indica que menos
90 Muestreo
de uno de cada diez nuevos productos satisface los criterios de ´exito de las em-
presas. Uno de los procedimientos mas ´ utiles para medir la aceptaci´on de un
nuevo producto consiste en su introducci´on al mercado en una zona de ventas
representativa. Como un ejemplo, se considera el caso de una compa˜ n´ıa fabri-
cante de implementos agr´ıcolas que est´a interesada en introducir al mercado
un nuevo equipo para riego en tres zonas agr´ıcolas diferentes. Para probar la
aceptaci´on de los equipos de riego, se seleccion´o una muestra de 30 tiendas dis-
tribuidoras, localizadas en las tres zonas agr´ıcolas y se observ´o el n´ umero de
equipos vendidos durante un periodo de 12 meses. Las 30 tiendas fueron selec-
cionadas usando un muestreo aleatorio estratificado con afijaci´on proporcional.
Los resultados aparecen en la siguiente tabla:
Zona 1 Zona 2 Zona 3
n
i
9 6 15
¯ y
i
26 23 39
s
2
i
31.2 19.3 38.5
a) Estime el n´ umero promedio µ de ventas para las 250 tiendas de las tres zonas
agr´ıcolas, y establezca una cota para el error de estimaci´on.
b) Estime el total de ventas que habr´ıa en las tres zonas agr´ıcolas, si el nuevo
equipo estuviera a la venta en las 250 tiendas. Establezca una cota para el
error de estimaci´on.
2. La insatisfacci´on de los empleados en su trabajo puede causar un aumento de
costos a la empresa, debido a la baja calidad de la mano de obra y el aumento en
el ausentismo. En un estudio sobre el ausentismo, un gerente de personal estaba
interesado en determinar el n´ umero de d´ıas laborales perdidos por ausencias de
los trabajadores de la empresa. Por razones de tipo administrativo, se us´o un
muestreo aleatorio estratificado con afijaci´on proporcional para seleccionar una
muestra de n = 27 de los 2700 trabajadores de la empresa. Los estratos estaban
representados por obreros, t´ecnicos, y administradores empleados en la empresa.
3.5 Muestreo aleatorio estratificado 91
Los datos obtenidos del muestreo de 15 obreros, 10 t´ecnicos y 2 administradores
aparecen en la siguiente tabla:
Obreros T´ecnicos Administradores
8 24 0 4 5 1
0 16 32 0 24 8
6 0 16 8 12
7 4 4 3 2
9 5 8 1 8
a) Estime el n´ umero promedio µ de d´ıas perdidos por ausencias de los 2700
empleados de la empresa. Establezca una cota para el error de estimaci´on.
b) Estime el n´ umero total de d´ıas perdidos por los empleados de la empresa.
Establezca una cota para el error de estimaci´on.
3. Generalmente, las cadenas de bancos procesan sus cuentas en una oficina cen-
tral regional, en lugar de hacerlo independientemente en cada sucursal. De
esta manera se logra un control m´as eficiente de las actividades administra-
tivas de las sucursales. El gerente de cr´edito de una cadena est´a interesado
en conocer el volumen de cuentas atrasadas que tiene la organizaci´on. Para
reducir el costo de muestreo, se us´o un muestreo estratificado en el que los es-
tratos est´an constituidos por cada uno de los cuatro bancos. De los registros
que hay en su oficina, el gerente de cr´edito decidi´o usar afijaci´on proporcional
para seleccionar la muestra aleatoria estratificada de n = 50 cuentas de un
total de N = 200. Los resultados obtenidos se muestran en la siguiente tabla:
Bancos
1 2 3 4
N´ umero total de cuentas por cobrar N
1
= 56 N
2
= 68 N
3
= 40 N
4
= 36
Tama˜ no de muestra n
1
= 14 n
2
= 17 n
3
= 10 n
4
= 9
N´ umero de cuestas atrasadas y
1
= 5 y
2
= 7 y
3
= 5 y
4
= 1
92 Muestreo
a) Estime la proporci´on p de cuentas atrasadas y establezca una cota para el
error de estimaci´on.
b) ¿Hay alguna raz´on para pensar que el gerente del banco 3 es demasiado
descuidado al autorizar pr´estamos a sus clientes?. Estime la proporci´on p
3
de cuentas atrasadas del banco 3 y establezca una cota para el error de
estimaci´on.
3.6. Muestreo por conglomerados
Frecuentemente es m´as f´acil obtener muestras de conglomerados de elementos que
muestras de los elementos mismos.
Definici´on 3.6.1. Una muestra por conglomerados se obtiene seleccionando
aleatoriamente un conjunto de m colecciones de elementos muestrales, llamados con-
glomerados, de la poblaci´on y posteriormente llevando a cabo un censo completo en
cada uno de los conglomerados.
El muestreo por conglomerados proporciona una cantidad especificada de informaci´on
a un costo m´ınimo cuando:
1. No existe una lista de todos los elementos de la poblaci´on o ser´ıa muy costoso
obtenerla, o
2. la poblaci´on es grande y est´a dispersa en una regi´on muy extensa.
Como ilustraci´on, sup´ongase que un economista desea estimar la cantidad promedio
empleada en comida por vivienda en una ciudad. Para usar muestreo aleatorio simple
o muestreo aleatorio estratificado, el economista debe tener una lista de todas las
viviendas para poder seleccionar la muestra. Sin embargo, obtener una lista de todas
las viviendas de una ciudad puede ser muy costoso y en algunos casos imposible. Aun
en el caso de tener la lista completa, los costos pueden ser sumamente altos porque,
al usar muestreo aleatorio simple o estratificado, las viviendas escogidas pueden estar
3.6 Muestreo por conglomerados 93
muy alejadas unas de otras. Como resultado de lo anterior, el costo de la encuesta
aumenta debido al tiempo de traslado de los entrevistadores y a otros gastos.
En lugar de seleccionar una muestra distribuida en toda la ciudad, el economista
podr´ıa usar el muestreo por conglomerados dividiendo la ciudad en conglomerados y
obteniendo despu´es una muestra aleatoria de estos. Esto debe poder efectuarse m´as
f´acilmente pues es posible que exista una lista de los diferentes conglomerados. Debe
encuestarse cada una de las viviendas que est´en en cada uno de los conglomerados es-
cogidos. El costo total de la encuesta disminuye dado que se ha eliminado la necesidad
de elaborar una lista de todas las viviendas y, dado que las viviendas que pertenecen
a un conglomerado pueden estar geogr´aficamente cercanas, se reducen los gastos de
los entrevistadores.
El uso del muestreo por conglomerados produce normalmente una disminuci´on de
los costos, pero algunas veces es necesario pagar un precio. En ocasiones el error de
muestreo aumenta debido a que los elementos de un conglomerado tienden a tener
caracter´ısticas com´ unes. Por ejemplo, en encuestas de poblaciones humanas, los con-
glomerados son frecuentemente vecindarios, que son semejantes en lo que se refiere a
edad, ingreso, antecedentes ´etnicos y clase ocupacional. Por lo tanto, al seleccionar
aleatoriamente los conglomerados para la encuesta, se corre el riesgo de que algunas
clases socioecon´omicas no est´en representadas si no se incluyen sus vecindarios. Por
otra parte, otras clases pueden estar representadas en exceso.
Se puede reducir el error de muestreo seleccionando un mayor n´ umero de conglome-
rados peque˜ nos en lugar de unos cuantos conglomerados grandes. Entre m´as peque˜ no
es el tama˜ no de los conglomerados, menor es el riesgo de excluir ciertas clases de
elementos de la muestra. Por lo tanto, seleccionando un mayor n´ umero de conglome-
rados de menor tama˜ no se obtiene mayor informaci´on acerca de la poblaci´on.
Una vez especificados los conglomerados, es necesario contar con una lista de todos
ellos. Para seleccionar una muestra aleatoria de m conglomerados de los M de la
poblaci´on, se usa el muestreo aleatorio simple.
Al usar muestreo por conglomerados, la media poblacional µ se estima utilizando las
94 Muestreo
f´ormulas que a continuaci´on se describir´an.
Estimaci´on de la media poblacional en un muestreo por conglomerados
Estimador
ˆ µ = ¯ y
c
=
m

i=1
t
i
m

i=1
n
i
donde n
i
es el n´ umero de elementos del i-´esimo conglomerado y t
i
es el total de las
mediciones del conglomerado i.
Varianza estimada del estimador
ˆ σ
2
¯ y
c
=
_
M −m
Mm¯ n
2
_
_
_
_
_
_
_
m

i=1
(t
i
− ¯ y
c
n
i
)
2
m−1
_
_
_
_
_
_
donde
¯ n =
1
m
m

i=1
n
i
y
¯
t =
1
m
m

i=1
t
i
Cotas para el error de estimaci´on
¯ y
c
±2ˆ σ
¯ y
c
M es el n´ umero de conglomerados en la poblaci´on y m es el n´ umero de conglomerados
en la muestra.
Estimaci´on del total poblacional en un muestreo por conglomerados
Estimador
ˆ τ =
M
m
m

i=1
t
i
3.6 Muestreo por conglomerados 95
Varianza estimada del estimador
ˆ σ
2
ˆ τ
= M
2
_
M −m
Mm
_
_
_
_
_
_
_
m

i=1
(t
i

¯
t)
2
m−1
_
_
_
_
_
_
Cotas para el error de estimaci´on
ˆ τ ±2ˆ σ
ˆ τ
Como se dijo anteriormente, n
i
es el n´ umero de elementos de i-´esimo conglomerado,
mientras que t
i
es el total de las mediciones que estan en el conglomerado i. Por lo
tanto
t
i
=
n
i

j=1
y
ij
donde y
ij
es la j-´esima observaci´on del conglomerado i. Los t´erminos ¯ n y
¯
t representan,
respectivamente, el tama˜ no promedio y el total promedio de los conglomerados.
Ejemplo 3.6.1. El objetivo de la publicidad es aumentar las ventas o crear inter´es en
los productos de determinada compa˜ n´ıa. Por lo tanto, en publicidad es esencial que los
anuncios aparezcan en los medios adecuados para que lleguen al p´ ublico consumidor.
Un agente de publicidad de una empresa que vende art´ıculos para el hogar, desea
estimar la cantidad mensual que gastan en revistas y peri´odicos las amas de casa de
una ciudad, para determinar si ´estas son suficientes para garantizar el uso de estos
medios en la publicidad. Dado que no existe una lista de amas de casa, y para controlar
los costos directos de las entrevistas, se usar´a el muestreo por conglomerados. De los
50 distritos electorales se selecciona una muestra aleatoria de 10. Los entrevistadores
encuestan a cada una de las amas de casa de los 10 distritos, y se registraran la
cantidad total que gastaron en revistas y per´ıodicos durante el ´ ultimo mes.
96 Muestreo
Distrito N´ um. de amas Gastos tot. Distrito N´ um. de amas Gastos tot.
i de casa n
i
t
i
i de casa n
i
t
i
1 62 $380 6 69 $403
2 55 517 7 58 555
3 49 480 8 74 486
4 71 613 9 57 450
5 70 540 10 54 395
Sumas
10

i=1
n
i
= 630
10

i=1
t
i
= $4819
a) Estime la cantidad promedio mensual que las amas de casa gastan en revistas y
peri´odicos, y establezca una cota para el error de estimaci´on.
b) Estime la cantidad total mensual que las amas de casa gastan en revistas y peri´o-
dicos, y establezca una cota para el error de estimaci´on.
Soluci´on:
a) La media poblacional µ se estima por
¯ y
c
=
10

i=1
t
i
10

i=1
n
i
=
$4819
630
= $7.65
Para calcular ˆ σ
2
¯ y
c
se eval´ ua primero el t´ermino correspondiente a la suma de
cuadrados
m

i=1
(t
i
− ¯ y
c
n
i
)
2
Se puede probar que
m

i=1
(t
i
− ¯ y
c
n
i
)
2
=
m

i=1
t
2
i
−2¯ y
c
m

i=1
t
i
n
i
+ ¯ y
2
c
m

i=1
n
2
i
3.6 Muestreo por conglomerados 97
Tomando cada t´ermino por separado, se tiene
10

i=1
t
2
i
= (380)
2
+ (517)
2
+· · · + (395)
2
= 2, 374, 613
10

i=1
t
i
n
i
= (380)(62) + (517)(55) +· · · + (395)(65) = 304, 124
10

i=1
n
2
i
= (62)
2
+ (55)
2
+· · · + (65)
2
= 40, 286
Sustituyendo estos valores en la ecuaci´on de la suma de cuadrados, se tiene que
m

i=1
(t
i
− ¯ y
c
n
i
)
2
= 2, 374, 613 −2(7.65)(304, 124) + (7.65)
2
(40, 286) = 79, 153.235
El tama˜ no promedio del conglomerado es
¯ n =
1
m
m

i=1
n
i
=
1
10
(630) = 63
Dado que el n´ umero total de conglomerados en la poblaci´on es M = 50,
ˆ σ
2
¯ y
c
=
_
M −m
Mm¯ n
2
_
_
_
_
_
_
_
m

i=1
(t
i
− ¯ y
c
n
i
)
2
m−1
_
_
_
_
_
_
=
_
50 −10
(50)(10)(63)
2
__
79, 153.235
9
_
= 0.1773
Por lo tanto, una estimaci´on de µ, con una cota para el error de estimaci´on es
¯ y
c
± ˆ σ
¯ y
c
= $7.65 ±2

0.1773 = $7.65 ±$0.84
b) Una estimaci´on de los gastos totales mensuales en revistas y peri´odicos es
ˆ τ =
M
m
m

i=1
t
i
=
50
10
($4, 819) = $24, 095
98 Muestreo
que no depende del tama˜ no de la poblaci´on N.
Para establecer una cota superior para el error de estimaci´on, es necesario cal-
cular la expresi´on
m

i=1
(t
i

¯
t)
2
=
m

i=1
t
2
i

1
m
_
m

i=1
t
i
_
2
= 2, 374, 613 −
1
10
(4, 819)
2
= 52, 336.90
La varianza estimada es
ˆ σ
2
ˆ τ
=M
2
_
M −m
Mm
_
_
_
_
_
_
_
m

i=1
(t
i

¯
t)
2
m−1
_
_
_
_
_
_
=(50)
2
_
50 −10
(50)(10)
__
52, 336.90
9
_
= 1, 163, 042.222
La estimaci´on de los gastos totales en revistas y peri´odicos de las amas de casa,
de la ciudad, con una cota para el error de estimaci´on es
ˆ τ ±2ˆ σ
ˆ τ
= $24, 095 ±2
_
1, 163, 042.222
= $24, 095 ±$2, 157
Frecuentemente, un experimentador desea usar el muestreo por conglomerados para
estimar una proporci´on poblacional p. Por ejemplo, en una encuesta pre-electoral
puede ser deseable estimar la proporci´on de habitantes de una comunidad que estan
a favor de determinadas medidas; o podr´ıa ser importante estimar la proporci´on de
autom´oviles en una ciudad que satisfacen los requisitos en lo referente al control de
contaminaci´on, o la proporci´on de miembros de una organizaci´on laboral que est´an de
acuerdo con un nuevo ajuste salarial. Para estimar p cuando se usa el muestreo por
conglomerados, es necesario encontrar a
i
, el n´ umero de elementos de conglomerado i
que tienen la caracter´ıstica de inter´es, para cada conglomerado i = 1, 2, . . . , m. Las
siguientes f´ormulas proporcionan un estimador de la proporci´on de la poblaci´on que
tiene la caracter´ıstica de inter´es a
i
.
3.6 Muestreo por conglomerados 99
Estimaci´on de la proporci´on poblacional en un muestreo por conglomera-
dos
Estimador
ˆ p
c
=
m

i=1
a
i
m

i=1
n
i
Varianza estimada del estimador
ˆ σ
2
ˆ p
c
=
_
M −m
Mm¯ n
2
_
_
_
_
_
_
_
m

i=1
(a
i
− ˆ p
c
n
i
)
2
m−1
_
_
_
_
_
_
Cotas para el error de estimaci´on
ˆ p
c
±2ˆ σ
ˆ p
c
Ejercicios
1. El inspector de una cadena de ferreterias desea estimar la proporci´on de bom-
billas defectuosas enviadas a su almac´en por determinado fabricante. Las bom-
billas se env´ıan en paquetes de 12 cajas, cada una delas cuales contiene 6 bom-
billas. Suponga que el inspector opta por usar las cajas de bombillas como
conglomerados y selecciona aleatoriamente m = 20 cajas de entre los 100 pa-
quetes recibidos en un env´ıo. Los n´ umeros de bombillas defectuosas encontradas
en cada una de las 20 cajas son los siguientes:
0 2 0 0 1 1 0 1 2 1 0 0 0 1 0 0 3 0 2 1
Estime la proporci´on p de bombillas defectuosas en el env´ıo, y establezca una
cota para el error de estimaci´on.
100 Muestreo
2. En un art´ıculo que apareci´o recientemente en la prensa se afirma que la tasa de
incremento de las contribuciones para obras de beneficiencia es mucho menor
que la tasa de inflaci´on, durante los peri´odos de recesi´on. Un director regional de
la Sociedad Contra el C´ancer est´a interesado en estimar la contribuci´ on prome-
dio por familia y la contribuci´ on total de todas las familias de su ciudad. Un
grupo de voluntarios seleccion´o una muestra de 12 de los 47 distritos electorales
de la ciudad y obtuvo los datos que aparecen en la tabla.
Distrito de viviendas Donacion total Distrito de viviendas Donacion total
1 36 $117 7 29 $165
2 42 105 8 52 105
3 40 210 9 44 121
4 47 142 10 40 103
5 39 235 11 45 136
6 50 96 12 36 190
a) Estime la contribuci´on promedio por familia en la ciudad, y establezca una
cota para el error de estimaci´on.
b) Estime la contribuci´on total de todas las familias de la ciudad, y establezca
una cota para el error de estimaci´on.
3.7. Ejercicios
1. Define que es una muestra aleatoria.
2. Escribe las definiciones de cada uno de los siguientes tipos de muestreo.
a) MAS b) MAE c) MAC
3. Diga cu´ales de los siguientes ejemplos constituyen aplicaciones del muestreo
aleatorio, y cu´ales de un muestreo no aleatorio. Explique porqu´e
3.7 Ejercicios 101
a) Las manzanas incluidas en una bolsa de 5 kilos adquiridas en un supermer-
cado local.
b) Una bolsa de 5 kilos de manzanas seleccionadas por una ama de casa de un
dep´osito de manzanas de un supermercado local.
c) Preguntas que una tienda de departamentos hace a cada d´ecimo cliente que
tiene cuenta de cr´edito, acerca de nuevos horarios.
d) Tarjetas de garant´ıa, que proporcionan informaci´on demogr´afica y personal,
recibidas por un fabricante, de personas que compraron recientemente alguno
de los art´ıculos de cocina que fabrican.
4. Discuta las ventajas de efectuar un muestreo en lugar de un censo en cada uno
de los siguientes casos:
a) Un representante de mercadotecnia de una f´abrica de alimentos est´a intere-
sado en determinar el total de ventas del primer a˜ no, de un nuevo producto que
fabrica la compa˜ n´ıa.
b) Un ejecutivo de una compa˜ n´ıa petrolera est´a interesado en determinar el
precio promedio por gal´on de gasolina sin plomo, que las estaciones de servicio
cobran en determinado estado. De una lista de estaciones de servicio, el ejecuti-
vo selecciona aleatoriamente 20 de un total de 249, y obtiene su precio de venta
por tel´efono.
c) Un candidato a la gubernatura de un estado desea conocer la proporci´on de
votantes que est´a a su favor, un semana antes de la elecci´on.
d) Un diario local ha adoptado una pol´ıtica editorial m´as liberal. Para captar la
reacci´on de los lectores al cambio, un agente del diario selecciona aleatoriamente
10 suscriptores locales de una lista de suscripciones, los contacta por tel´efono,
y les pide su opini´on sobre el cambio de pol´ıtica editorial.
5. Explique porque es preferible el uso del muestreo a un censo de poblaci´on.
6. Menciona 3 ventajas y 3 desventajas de un muestreo.
7. Menciona 3 ventajas y 3 desventajas de un censo.
102 Muestreo
8. Describe brevemente la diferencia entre muestreo con reemplazo y muestreo sin
reemplazo.
9. Describe expl´ıcitamente que es una tabla de n´ umeros aleatorios.
10. Para cada una de las siguientes encuestas por muestreo, proponga las unidades
muestrales y el marco muestral apropiados (Un marco muestral es una lista
de unidades muestrales. Las unidades muestrales son colecciones disjuntas de
elementos (objeto del cual se toma una medici´on) de la poblaci´on).
a) Un economista desea efectuar una encuesta para estimar la cantidad promedio
mensual por familia empleada en la compra de comestibles en determinada
ciudad.
b) El asistente administrativo del gobernador de un estado desea estimar la
proporci´on de votantes en el estado que estar´a a favor de la aprobaci´on de una
ley.
c) Una cadena de supermercados desea conocer la opini´on de sus empleados
acerca del plan de seguro m´edico patrocinado por la compa˜ n´ıa.
d) Un ejecutivo de mercadotecnia de una compa˜ n´ıa desea hacer una encuesta
entre los compradores para determinar su actitud hacia una nueva l´ınea de
productos.
11. Explique porqu´e cada uno de los siguientes ejemplos no se puede considerar
como muestra aleatoria:
a) Para conocer la opini´on de la comunidad sobre los planes de estudio de una
escuela, se le da al alumno un breve cuestionario para que lo llenen sus padres.
b) Para determinar el sentimiento p´ ublico respecto al ´ ultimo decreto presiden-
cial, un reportero entrevista a mediod´ıa a 25 personas en la esquina de una
c´entrica calle.
c) Se seleccionan al azar 10 nombres de la lista de representantes de la C´amara
de Diputados en un intento por predecir la opini´on de varios Estados con res-
pecto al aumento de la deuda p´ ublica por tercera vez en una semana.
3.7 Ejercicios 103
12. Proponga una ejemplo donde sea preferible un muestreo a un censo.
13. Una tienda de descuento de una ciudad de 745 familias ha adoptado un nuevo
tema publicitario dise˜ nado para mejorar la imagen de la tienda en lo que se re-
fiere a la calidad de sus productos. De un directorio residencial se seleccion´o una
muestra aleatoria simple de n = 50 familias. Un mes despu´es de iniciada la cam-
pa˜ na publicitaria, se entrevist´ o a los jefes de familia y 13 de ellos afirmaron que
la calidad de la mercancia de la tienda de descuento es aparentemente de infe-
rior calidad a la de las tiendas competidoras. Estime la proporci´on de familias
que piensan que la calidad de la mercancia de la tienda de descuento es inferior
a la de las dem´as tiendas. Establezca una cota para el error de estimaci´on.
14. Un ejecutivo de seguros, preocupado porque la alta tasa de inflaci´on puede
dejar a sus clientes con una cobertura insuficiente en los seguros de incendio
de sus viviendas, ha propuesto una cla´ usula que establece el incremento de la
cobertura (y de las primas anuales) de acuerdo con la tasa de inflaci´on anual.
Para conocer la opini´on de los clientes sobre la pol´ıtica propuesta, el ejecutivo de
seguros decidi´o seleccionar una muestra aleatoria estratificada de los clientes de
su compa˜ n´ıa en los tres municipios de su jurisdicci´on. Los resultados aparececen
en la tabla. Estime la proporci´on p de clientes de los tres municipios que est´an a
favor de la pol´ıtica propuesta, y establezca una cota para el error de estimaci´on.
Municipio
A B C
Total de clientes 231 407 187
Clientes encuestados 21 37 17
N´ umero de los que aprueban la nueva pol´ıtica 8 20 9
15. El gerente de ventas de una f´abrica de m´aquinas de escribir desea saber si existe
la demanda suficiente en determinada ciudad, que justifique agregar un nuevo
104 Muestreo
tipo de m´aquina de escribir port´atil a sus existencias. Actualmente la f´abrica
surte de mercanc´ıa a cuatro cadenas de tiendas que consisten de 25, 20, 30 y 25
tiendas. Por motivos de tipo administrativo se decidi´o usar el muestreo aleatorio
estratificado, con las cadenas de tiendas como estratos.
E1 16 12 10 13 9
E2 10 17 12 6
E3 5 18 13 15 20 12
E4 17 11 12 15 18
El gerente de ventas dispone de tiempo y dinero suficientes para obtener datos
de ventas en 20 tiendas solamente. Usando afijaci´on proporcional, seleccion´o en
forma aleatoria 5 tiendas de la primera cadena, 4 de la segunda, 6 de la tercera,
y 5 de la cuarta. Las ventas efectuadas al cabo de un mes aparecen en la tabla.
Estime las ventas mensuales promedio por tienda, y establezca una cota para
el error de estimaci´on.
16. a)Un fabricante de sierras de cadena ha recibido quejas de los compradores en
relaci´on con los costos de reparaci´on excesivos. Para estudiar el problema, el
fabricante desea estimar el costo de reparaci´on promedio por sierra y por mes,
para las sierras que se han vendido a las campa˜ n´ıas madereras. No es posible
obtener los costos de reparaci´on para cada sierra, pero se pueden determinar
los costos totales de reparaci´on y el n´ umero de sierras que tienen las diferentes
compa˜ n´ıas. El fabricante decidi´o usar un muestreo por conglomerados, usando
las compa˜ n´ıas como conglomerados. De las M = 87 compa˜ n´ıas madereras que
compran sierras de este fabricante, se seleccion´o una muestra aleatoria simple
de m = 12. Los datos de la tabla representan los costos de reparaci´on durante
el ´ ultimo mes para cada compa˜ n´ıa.
3.7 Ejercicios 105
Cia. de sierras C. de Reparacion Cia. . de sierras C. de reparacion
1 4 $55 7 11 $103
2 7 83 8 1 15
3 5 47 9 8 110
4 11 210 10 11 164
5 15 235 11 7 80
6 6 88 12 10 146
b)Para el ejercicio anterior, tambi´en estime la cantidad total que las compa˜ n´ıas
madereras gastaron en reparaciones de las sierras de cadena durante el ´ ultimo
mes, y establezca una cota de error de estimaci´on.
c)Al consultar los registros de ventas, el fabricante mencionado encontr´o que ha
vendido 703 sierras de cada cadena a las 87 compa˜ n´ıas madereras. Usando esta
informaci´on adicional, estime la cantidad total que las 87 compa˜ n´ıas madereras
gastaron en reparaciones, y establezca una cota para el error de estimaci´on.
(Sugerencia: Si y
c
es la media obtenida en el muestreo por conglomerados y
N el n´ umero de elementos de la poblaci´on, entonces ˆ τ = Ny
c
y ˆ σ
2
ˆ τ
= N
2
ˆ σ
2
y
c
).
Compare estos resultados con los obtenidos en el inciso b).
17. El punto de partida, para lograr un mejor entendimiento del comportamiento de
los consumidores, es la demograf´ıa del consumidor; las medidas descriptivas que
caracterizan al p´ ublico comprador. De los registros de la compa˜ n´ıa, la gerente de
una empresa distribuidora de autom´oviles obtuvo una muestra aleatoria simple
de 25 expedientes de los 582 correspondientes a clientes que compraron un
autom´ovil de tipo econ´omico durante el ´ ultimo a˜ no. La media y la varianza
de las edades de los 25 clientes fueron ¯ y = 27.5 y s
2
= 16.81. Estime la edad
promedio de los compradores del autom´ovil econ´omico, y establezca una cota
para el error de estimaci´on.
Cap´ıtulo 4
Regresi´on lineal y multilineal
4.1. Introducci´on
En este cap´ıtulo se describe el modelo de regresi´on lineal simple, que asume que en-
tre dos variables dadas existe una relaci´on de tipo lineal contaminada por un error
aleatorio. Aprenderemos a estimar dicho modelo y, a partir de estas estimaciones y
bajo determinadas hip´otesis, podremos extraer predicciones del modelo e inferir la
fortaleza de dicha relaci´on lineal.
En la pr´actica es com´ un encontrar relaci´on entre dos o m´as variables. Por ejemplo,
1. El peso de un hombre adulto depende de su estatura
2. Las circunferencias de los circulos dependen de su radio
3. La presi´on de una masa de gas depende de su temperatura y volumen
4. La distancia media de frenado de un autom´ovil depende de la velocidad a la que
´este viaja
5. La efectividad media de un antibi´ otico depende del tiempo que ´este lleve almace-
nado.
4.1 Introducci´on 107
Uno de los aspectos m´as relevantes que aborda la Estad´ıstica se refiere al an´alisis
de las relaciones que se dan entre dos variables aleatorias. El an´alisis de estas rela-
ciones est´a muy frecuentemente ligado al an´alisis de una variable, llamada variable
dependiente Y , y del efecto que sobre ella tiene otra (u otras) variable(s), llamada(s)
variable(s) independiente(s) X, y permite responder a dos cuestiones b´asicas:
¿Es significativa la influencia que tiene la variable independiente sobre la vari-
able dependiente?
Si, en efecto, esa relaci´on es significativa, ¿c´omo es? y ¿podemos aprovechar
esa relaci´on para predecir valores de la variable dependiente a partir de valores
observados de la variable independiente?.
La regresi´on lineal simple comprende el intento de desarrollar una l´ınea recta o
ecuaci´on matem´atica que describe la relaci´on entre dos variables, con la finalidad
de estimar los valores de una variable con base en los valores conocidos de la otra.
Para determinar dicha ecuaci´on primero hay que recolectar datos que muestren los
valores de las variables en consideraci´on.
Ejemplo 4.1.1. Sup´ongase que se han reunido datos locales de vendedores de au-
tom´oviles con respecto al kilometraje y precios de los modelos 1975 de cierta marca,
y que tienen determinado equipo (aire acondicionado, direcci´on hidr´aulica, etc.).Los
datos muestrales que pueden provenir de una muestra aleatoria de vendedores de la
regi´on ser´ıan los mostrados en la tabla
Observaci´ on Recorrido Precio de Observaci´ on Recorrido Precio de
i (en miles) x
i
venta y
i
i (en miles) x
i
venta y
i
1 40 $1000 6 60 1000
2 30 1500 7 65 500
3 30 1200 8 10 3000
4 25 1800 9 15 2500
5 50 800 10 20 2000
108 Regresi´on lineal y multilineal
Si dibujamos los datos de x
i
e y
i
en unos ejes cartesianos ya intuimos que, en efecto,
hay una relaci´on latente entre las variables, que parece ser de tipo lineal. A esta
representaci´on en los ejes cartesianos se le denomina diagrama de dispersi´on.
Un modelo de regresi´on lineal simple para una variable, Y (variable dependiente),
dada otra variable, X (variable independiente), es un modelo matem´atico que permite
obtener una f´ormula capaz de relacionar Y con X basada s´olo en relaciones lineales,
del tipo
Y = β
0
+ β
1
X + ε.
donde
Y representa a la variable dependiente, es decir, a aquella variable que deseamos
estudiar en relaci´on con otras.
X representa a la variable independiente, es decir, aquella que creemos que
puede afectar en alguna medida a la variable dependiente. La estamos denotan-
do en may´ uscula, indicando que podr´ıa ser una variable aleatoria, pero habi-
tualmente se considera que es una constante que el investigador puede fijar a
su antojo en distintos valores.
ε representa el error aleatorio, es decir, aquella cantidad (aleatoria) que provoca
que la relaci´on entre la variable dependiente y la variable independiente no sea
perfecta, sino que este sujeta a incertidumbre.
Hay que tener en cuenta que el valor de ε sera siempre desconocido hasta que se
observen los valores de X e Y , de manera que el modelo de predicci´on sera realmente
ˆ
Y = β
0

1
X. Lo que en primer lugar resultar´ıa deseable de un modelo de regresi´on es
que estos errores aleatorios ocurran en la misma medida por exceso que por defecto,
sea cual sea el valor de X, de manera que E[ε/X = x] = E[ε] = 0 y, por tanto,
E[Y/X = x] = β
0

1
x +E[ε/X = x] = β
0

1
x. Es decir, las medias de los valores
de Y para un valor de X dado son una recta. La interpretaci´on de los coeficientes del
modelo es:
4.1 Introducci´on 109
β
0
es la ordenada al origen del modelo, es decir, el punto donde la recta inter-
cepta o corta al eje y.
β
1
representa la pendiente de la l´ınea y, por tanto, puede interpretarse como el
incremento de la variable dependiente por cada incremento en una unidad de
la variable independiente.
Nota 7. Es evidente que la utilidad de un modelo de regresi´on lineal tiene sentido
siempre que la relaci´on hipot´etica entre X e Y sea de tipo lineal, pero ¿qu´e ocurre si
en vez de ser de este tipo es de otro tipo (exponencial, logar´ıtmico, hiperb´olico...)?.
En primer lugar, es absolutamente conveniente dibujar el diagrama de dispersi´on
antes de comenzar a tratar de obtener un modelo de regresi´on lineal, ya que si la
forma de este diagrama sugiere un perfil distinto al de una recta quiz´a deber´ıamos
plantearnos otro tipo de modelo. Y, por otra parte, si se observa que el diagrama de
dispersi´on es de otro tipo conocido, puede optarse por realizar un cambio de variable
para considerar un modelo lineal. Existen t´ecnicas muy sencillas para esta cuesti´on,
pero no las veremos todas aqu´ı.
Algunas curvas de aproximaci´ on y sus ecuaciones
Varios tipos de curvas de aproximaci´on y sus ecuaciones se presentan ahora.
Sean x y y variables independiente y dependiente respectivamente, a
0
, a
1
, . . . , a
n
y
b, p, q, g y h constantes.
y = a
0
+ a
1
x L´ınea recta
y = a
0
+ a
1
x +a
2
x
2
Par´abola o curva cuadr´atica
y = a
0
+ a
1
x +a
2
x
2
+a
3
x
3
Curva c´ ubica
y = a
0
+ a
1
x +a
2
x
2
+a
3
x
3
+ a
4
x
4
Curva cu´artica
y = a
0
+ a
1
x +. . . +a
n
x
n
Curva de grado n
Las ecuaciones anteriores se denominan polinomios de: primero, segundo, tercer, cuar-
to y n-´esimo grados respectivamente.
110 Regresi´on lineal y multilineal
Otras ecuaciones usadas con frecuencia en la pr´actica son:
y =
1
a
0
+a
1
x
o
1
y
= a
0
+ a
1
x Hip´erbola
y = ab
x
o log y = log a + x log b = a
0
+ a
1
x Curva exponencial
y = ax
b
o log y = log a + b log x Curva geom´etrica
y = ab
x
+ g Curva exponencial modificada
y =
1
ab
x
+ g
o
1
y
= ab
x
+ g Curva log´ıstica.
Para decidir cual es la que debe usarse, antes se debe hacer un diagrama de dispersi´on.
El tipo mas simple de curva de aproximaci´ on es una l´ınea recta, pero no en todos lo
casos se puede obtener una aproximaci´ on mediante una ecuaci´on lineal. Para ver si
un modelo lineal ser´a adecuado entonces el procedimiento es:
1. Graficar los datos
2. Determinar por examen si parece existir una relaci´on lineal
Cuando las gr´aficas no siguen un alineamiento entonces hay que buscar en un modelo
no lineal. El modelo lineal y = β
0
+ β
1
x se dice ser un modelo determinista porque
no permite error en la predicci´on de y como funci´on de x (no interviene el azar o
la incertidumbre). En f´ısica, qu´ımica, econom´ıa, etc., describen fen´omenos (explican
y predicen) en los cuales el error de predicci´on es despreciable en la pr´actica. Por
ejemplo 0.1cm de error en la construcci´on de una viga de un puente es peque˜ no, pero
0.1 cm en una pieza de relojeria es absurdamente grande.
4.2. Estimaci´on de los coeficientes del modelo por
m´ınimos cuadrados
Si queremos obtener el modelo de regresi´on lineal que mejor se ajuste a los datos
de la muestra, deberemos estimar los coeficientes β
0
y β
1
del modelo. Para obtener
estimadores de estos coeficientes vamos a considerar un nuevo m´etodo de estimaci´on,
4.2 Estimaci´on de los coeficientes del modelo por m´ınimos cuadrados 111
conocido como m´etodo de m´ınimos cuadrados. Hay que decir que bajo determinados
supuestos que veremos en breve, los estimadores de m´ınimos cuadrados coinciden con
los estimadores m´aximo-verosimiles de β
0
y β
1
.
El razonamiento que motiva el m´etodo de m´ınimos cuadrados es el siguiente: si tene-
mos una muestra de valores de las variables independiente y dependiente, (x
1
, y
1
), . . . ,
(x
n
, y
n
), buscaremos valores estimados de β
0
y β
1
, que notaremos por
ˆ
β
0
y
ˆ
β
1
, de ma-
nera que en el modelo ajustado, ˆ y =
ˆ
β
0
+
ˆ
β
1
x minimice la suma de los cuadrados de
los errores observados. Es decir, usando m´ınimos cuadrados para ajustar una recta
al conjunto de datos queremos que las desviaciones entre los valores observados y los
puntos correspondientes sean “peque˜ nos ”.
Entonces si ˆ y
i
=
ˆ
β
0
+
ˆ
β
1
x
i
es el valor de y (cuando x = x
i
) entonces la desviaci´on del
valor observado y, a partir de la recta ˆ y es y
i
− ˆ y
i
(desviaci´on del i-´esimo punto).
Ahora debemos escoger como la recta de mejor ajuste, a la que minimice la suma de
los cuadrados de las desviaciones entre los valores observados y los pronosticados.
SSE =
n

i=1
(y
i
− ˆ y
i
)
2
=
n

i=1
_
y
i
−[
ˆ
β
0
+
ˆ
β
1
x
i
]
_
2
(Suma de los cuadrados de los errores)
Es decir, buscamos (
ˆ
β
0
,
ˆ
β
1
) = arg [min
β
0

1
SSE].
Se llama recta de regresi´on por m´ınimos cuadrados (o simplemente recta de regresi´on)
de Y dada X a la l´ınea que tiene la SSE mas peque˜ na de entre todos los modelos
lineales. La soluci´on de ese problema de m´ınimo se obtiene por el mecanismo habitual:
se deriva SSE respecto de
ˆ
β
0
y
ˆ
β
1
, se iguala a cero y se despejan estos. Entonces
112 Regresi´on lineal y multilineal
∂SSE

ˆ
β
0
=


ˆ
β
0
_
n

i=1
_
y
i
−[
ˆ
β
0
+
ˆ
β
1
x
i
]
_
2
_
=

_
2(y
i
−(
ˆ
β
0
+
ˆ
β
1
x
i
))(−1)
_
= −

2(y
i

ˆ
β
0

ˆ
β
1
x
i
)
= −2
_

y
i

ˆ
β
0

ˆ
β
1

x
i
_
= −2
_

y
i
−n
ˆ
β
0

ˆ
β
1

x
i
_
= 0
=⇒−2

y
i
+ 2n
ˆ
β
0
+ 2
ˆ
β
1

x
i
= 0
=⇒
ˆ
β
0
=

y
i

ˆ
β
1

x
i
n

ˆ
β
0
= ¯ y −
ˆ
β
1
¯ x
∂SSE

ˆ
β
1
=


ˆ
β
1
_
n

i=1
_
y
i
−[
ˆ
β
0
+
ˆ
β
1
x
i
]
_
2
_
=

_
2(y
i
−(
ˆ
β
0
+
ˆ
β
1
x
i
))(−x
i
)
_
= −

2(x
i
y
i

ˆ
β
0
x
i

ˆ
β
1
x
2
i
)
= −2
_

x
i
y
i

ˆ
β
0

x
i

ˆ
β
1

x
2
i
_
= 0
= −

x
i
y
i
+
ˆ
β
0

x
i
+
ˆ
β
1

x
2
i
= 0
=⇒
ˆ
β
1
=

x
i
y
i

ˆ
β
0

x
i

x
2
i
4.2 Estimaci´on de los coeficientes del modelo por m´ınimos cuadrados 113
Sustituyendo
ˆ
β
0
= ¯ y −
ˆ
β
1
¯ x en la ecuaci´on anterior se obtiene
ˆ
β
1
=

x
i
y
i
−(¯ y −
ˆ
β
1
¯ x)

x
i

x
2
i
=

x
i
y
i

_
y
i
n

ˆ
β
1
x
i
n
_

x
i

x
2
i
=

x
i
y
i

1
n

y
i

x
i
+
ˆ
β
1
n
(

x
i
)
2

x
2
i
=⇒

x
2
i
ˆ
β
1

ˆ
β
1
n
_

x
i
_
2
=

x
i
y
i

1
n

y
i

x
i
=⇒
ˆ
β
1
=

x
i
y
i

1
n

y
i

x
i

x
2
i

1
n
(

x
i
)
2
=
n

i=1
(x
i
− ¯ x)(y
i
− ¯ y)
n

i=1
(x
i
− ¯ x)
2
Por lo tanto los estimadores de m´ınimos cuadrados de β
0
y β
1
son:
ˆ
β
1
=
SS
xy
SS
xx
donde SS
xy
=
n

i=1
(x
i
− ¯ x)(y
i
− ¯ y) y SS
xx
=
n

i=1
(x
i
− ¯ x)
2
ˆ
β
0
= ¯ y −
ˆ
β
1
Ejemplo 4.2.1. En la siguiente tabla se muestran los gastos publicitarios y vol´ umenes
de ventas de una compan´ıa durante 10 meses elegidos al azar.
y
i
x
i
y
i
x
i
101 1.2 82 0.8
92 0.8 93 1.0
110 1.0 75 0.6
120 1.3 91 0.9
90 0.7 105 1.1
114 Regresi´on lineal y multilineal
a) ¿Cu´al es la l´ınea recta de mejor ajuste que relaciona los gastos en publicidad con
volumen de ventas?
b) Si se tienen $10, 000 para publicidad este mes ¿Cu´al es el volumen de ventas
pronosticado?
Soluci´on:
Para los datos del ejemplo, vamos a calcular e interpretar la recta de regresi´on.
SS
xy
= 23.34, SS
xx
= 0.444, ¯ y = 95.9 y ¯ x = 0.94
luego
ˆ
β
1
=
SS
xy
SS
xx
=
23.34
0.444
= 52.57
ˆ
β
0
= ¯ y −
ˆ
β
1
¯ x = 95.9 −(52.57)(0.94) = 46.49
as´ı que la recta de regresi´on ajustada es
ˆ y = 46.49 + 52.57x
Se puede predecir un y para un x dado. Por ejemplo, si se usan x = $10, 000 para
publicidad este mes, el volumen de ventas pronosticados para este mes es
ˆ y = 46.49 + 52.57(1.0) = 99.06
o bien $990600.
Ahora, debemos encontrar las cotas para el error de estimaci´on. Para eso estimamos
σ
2
, la varianza de y dado un valor de x. Entonces
σ
2
= s
2
=
SCE
n −2
donde SCE =
n

i=1
(y
i
−ˆ y
i
)
2
y n−2 son los grados de libertad (n´ umero de par´ametros
estimados en el modelo).
4.3 Supuestos adicionales para los estimadores de m´ınimos cuadrados 115
Una forma m´as f´acil para calcular SCE es:
SCE = SC
yy

ˆ
β
1
SC
xy
donde
SC
yy
=
n

i=1
y
2
i

1
n
_
n

i=1
y
i
_
2
SC
xy
=
n

i=1
x
i
y
i

1
n
n

i=1
x
i
n

i=1
y
i
Ejercicio 4.2.1. Calcule σ
2
para el ejemplo anterior 4.2.1.
4.3. Supuestos adicionales para los estimadores de
m´ınimos cuadrados
Hasta ahora lo ´ unico que le hemos exigido a la recta de regresi´on es:
1. Que las medias de Y para cada valor de X se ajusten m´as o menos a una l´ınea
recta, algo f´acilmente comprobable con un diagrama de puntos. Si el aspecto
de este diagrama no recuerda a una l´ınea recta sino a otro tipo de funci´on,
l´ogicamente no haremos regresi´on lineal.
2. Que los errores tengan media cero, independientemente del valor de X, lo que,
por otra parte, no es una hip´otesis sino m´as bien un requerimiento l´ogico al
modelo.
Lo que ahora vamos a hacer es a˜ nadir algunos supuestos al modelo de manera que
cuando ´estos se cumplan, las propiedades de los estimadores de los coeficientes del
modelo sean muy buenas. Esto nos va a permitir hacer inferencia sobre estos coeficien-
tes y sobre las estimaciones que pueden darse de los valores de la variable dependiente.
116 Regresi´on lineal y multilineal
4.4. Inferencias relativas a la pendiente β
1
de una
recta
La primera inferencia que debe hacerse cuando se estudia la relaci´on entre x e y
concierne a la existencia misma de dicha relaci´on. Entonces surgen dos preguntas:
1) ¿Muestran los datos suficiente evidencia como que para pensar que el conocimiento
de x contribuye para predecir y en alguna regi´on de observaci´on?
2) ¿Podemos pensar que a´ un no habiendo relaci´on entre x y y los puntos observados
forman un diagrama como el de la figura?
Las cuestiones anteriores se refieren al valor de β
1
, el cambio medio que se experimenta
en y por unidad de cambio en x (la pendiente).
Si x no proporciona informaci´on para predecir y, entonces β
1
= 0. Que β
1
= 0 significa
que y siempre es el mismo para cualquier valor de x.
Ejemplo 4.4.1. Suponga que un ingeniero ajust´o el modelo y = β
0
+ β
1
x + ε, donde:
y =resistencia del concreto despu´es de 28 d´ıas
x =proporci´on agua/cemento que se us´o para producir el concreto
Si la resistencia del concreto y, no cambia con la proporci´on agua/cemento x, entonces
β
1
= 0 (la pendiente es cero). Por lo tanto, el ingeniero intentar´ a realizar una prueba
H
0
: β
1
= 0 contra H
a
: β
1
= 0 para verificar si la variable independiente influye sobre
la variable dependiente. O bien, estimar la raz´on media de cambio β
1
en E[y] para
un cambio de una unidad en la proporci´on de agua/cemento, x.
Al hacer inferencia lo que se quiere probar es la hip´otesis de que:
H
0
: β
i
= 0 contra H
a
: β
i
= 0
ˆ
β
i
es un estimador insesgado de β
i
con una distribuci´on normal que tiene el valor
esperado E[
ˆ
β
i
].
4.4 Inferencias relativas a la pendiente β
1
de una recta 117
Para cada uno de los par´ametros β
0
y β
1
se tiene:
E[
ˆ
β
0
] = β
0
y σ
2
ˆ
β
0
= σ
2
C
00
E[
ˆ
β
1
] = β
1
y σ
2
ˆ
β
1
= σ
2
C
11
donde : C
00
=
n

i=1
x
2
i
nSC
xx
y C
11
=
1
SC
xx
Podemos construir una prueba de hip´otesis H
0
: β
i
= β
i0

i0
es un valor espec´ıfico
para β
i
). Usando el estad´ıstico de prueba:
Z =
ˆ
β
i
−β
i0
σ

C
ii
Distribuci´on normal est´andar
La regi´on de rechazo para una prueba de dos colas
1
est´a dado por:
| z | ≥ z
α/2
Como σ
2
es desconocido, entonces se puede obtener un estimador de ´el
S
ˆ
β
i
= S
_
C
ii
Entonces
t =
ˆ
β
i
−β
i0
S

C
ii
,
estad´ıstico que se distribuye con una t de Student con n − 2 grados de libertad
(varianza desconocida y n peque˜ na).
Prueba de hip´otesis para β
i
H
0

i
= β
i0
H
a
:
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_
β
i
> β
i0
regi´on de rechazo de cola superior,
β
i
< β
i0
regi´on de rechazo de cola inferior,
β
i
= β
i0
regi´on de rechazo de dos colas.
1
Prueba estad´ıstica en la cual la regi´on de rechazo est´a separada por la regi´on de aceptaci´on y
se localiza en ´ambos extremos de la distribuci´on de la estad´ıstica de prueba
118 Regresi´on lineal y multilineal
Estad´ıstico de prueba:
t =
ˆ
β
i
−β
i0
S

C
ii
Regi´on de rechazo:
t > t
α
alternativa de cola superior
t > −t
α
alternativa de cola inferior
| t | > t
α/2
alternativa de dos colas
donde:
C
00
=

x
2
i
nSC
xx
y C
11
=
1
SC
xx
Nota 8. t
α
se basa en n −2 grados de libertad
2
.
Ejemplo 4.4.2. Use los datos del ejemplo 4.2.1 para determinar si existe evidencia que
indique que β
1
difiere de cero al usar una relaci´on lineal entre el gasto publicitario x
y el volumen mensual medio, y, de ventas.
Soluci´on:
Se quiere probar
H
0
: β
1
= 0 contra H
a
: β
1
= 0
Entonces t =
ˆ
β
1
−0
S

C
11
. Usando α = 0.05 se rechaza H
0
si t > 2.306 o t < −2.306
con n − 2 = 8 grados de libertad. Entonces t =
52.87
6.84

2.25
= 5.15. Como 5.15 >
2.306, entonces se rechaza H
0
. Hay evidencia que indica que los gastos publicitarios
proporcionan informaci´on para la predicci´on de los vol´ umenes mensuales de ventas.
Ahora si x aumenta una unidad ¿Cu´al ser´a el cambio estimado para y?,¿qu´e confianza
se puede tener en dicha estimaci´on?.
Debemos investigar la amplitud de un intervalo de confianza para β
1
y verificar si
es lo bastante peque˜ no para detectar una desviaci´on de cero que sea de significancia
pr´actica.
2
N´ umero de observaciones linealmente independientes de un conjunto de n observaciones
4.4 Inferencias relativas a la pendiente β
1
de una recta 119
Intervalo de confianza de (1 −α)100 % para β
i
ˆ
β
i
± t
α/2
S
_
C
ii
Ejemplo 4.4.3. Encuentre el intervalo de confianza del 95 % para β
1
usando los datos
del ejercicio 4.2.1.
Soluci´on:
1 −α =95 % =⇒ 1 −α = 0.95
despejando α = 1 −0.95 =⇒ α/2 = 0.025
asi, 52.57 ± 23.67
Por lo tanto, si se aumenta en una unidad x, por ejemplo, $10, 000 en gasto publici-
tario, se estima que los vol´ umenes de ventas mensuales correspondientes ser´a 28.90 y
76.24.
Ejercicio 4.4.1. Ajuste una recta a los 5 datos siguientes. Obtenga las estimaciones de
β
0
y β
1
. Trace una gr´afica de los puntos y represente la recta ajustada para verificar
los c´alculos. ¿Presentan los datos suficiente evidencia para indicar que la pendiente
β
1
difiere de cero? (Haga la prueba con un nivel de significancia de 5 %). Encuentre
un intervalo de confianza de 95 % para β
1
.
y x
3 -2
2 -1
1 0
1 1
0.5 2
120 Regresi´on lineal y multilineal
Estimaci´on de E[y/x].
Ejemplo 4.4.4. El encargado se seguridad industrial en una empresa puede estar
interesado en estimar el n´ umero medio de alg´ un tipo de accidentes dado el
n´ umero de horas que cada empleado ha estado sujeto a entrenamiento especial
para seguridad.
Si en una empresa, la ganacia y, se encuentra linealmente relacionada a los
gastos publicitarios x, el gerente de ventas querr´a estimar la ganancia media
para un cierto nivel de publicidad x. entonces si la compa˜ n´ıa invierte $10, 000 en
publicidad, ¿Cuanto debe esperar que sea E[y/x]?. Entonces, debemos encontrar
un intervalo de confianza para E[y/x].
Prueba de hip´otesis relativa al valor esperado
Hip´otesis nula H
0
:E[y/x = x
p
] = E
0
Hip´otesis alternativa H
a
:La da el experimentador y depende de los valores de E[y/x]
que desea detectar
Estad´ıstico de prueba:
t =
ˆ y −E
0
S
_
1
n
+
(x
p
− ¯ x)
2
SC
xx
Regi´on de rechazo:
t > t
α
alternativa de cola superior
t > −t
α
alternativa de cola inferior
| t | > t
α/2
alternativa de dos colas
4.4 Inferencias relativas a la pendiente β
1
de una recta 121
Intervalo de confianza del (1 −α)100 % para E[y/x]
ˆ y ± t
α/2
S
¸
1
n
+
(x
p
− ¯ x)
2
SC
xx
(4.1)
Predicci´on de y dado un valor particular de x
ˆ y ± t
α/2,n−2
S
¸
1 +
1
n
+
(x
p
− ¯ x)
2
SC
xx
(4.2)
Ejemplo 4.4.5. Considere los datos del ejercicio 4.2.1 para
a) Encontrar un intervalo de confianza del 99 % para el volumen mensual esperado
de ventas cuando los gastos en publicidad son x
p
= 1.0 ($10, 000)
b) Calcular S
2
c) Probar la hip´otesis nula contra la alternativa usando un nivel se significancia de
α = 0.01
Soluci´on:
x
p
= 1.0, entonces ˆ y =
ˆ
β
0
+
ˆ
β
1
x = 46.49 + (52.57)(1.0) = 99.06, entonces, multipli-
camos por $10, 000 y se obtiene $990, 600.
El intervalo de confianza de 95 % para el volumen mensual medio asociado al gasto
de publicidad es
ˆ y ± t
0.025
S
¸
1
n
+
(x
p
− ¯ x)
2
SC
xx
99.06 ± (2.306)(6.84)
_
1
10
+
(1.0 −0.94)
2
0.444
99.06 ± 5.19, es decir, (93.87,104.25)
Como cada unidad representa $10, 000 en unidades monetarias, se estima que las
ventas mensuales esperadas sobre la poblaci´on de los meses en los que la compa˜ n´ıa
gasta $10, 000 estan entre $938, 700 y $1042, 500.
122 Regresi´on lineal y multilineal
Ejemplo 4.4.6. Un equipo de investigadores de un hospital psiqui´atrico realiz´o un
experimento para estudiar la relaci´on que existe en pacientes esquizofr´enicos, entre
el tiempo de reacci´on a un est´ımulo particular y el nivel de la dosis de una dro-
ga. Espec´ıficamente los investigadores deseaban hacer el experimento con dosis de
0.5, 1.0, 1.5, 2.0, 2.5 y 3.0 mg. Seleccionaron una muestra aleatoria de 18 pacientes
en una poblaci´on hospitalaria de esquizofr´enicos y asignaron al azar a cada paciente
una de las dosis. As´ı pues cada dosis fue administrada a un total de tres pacientes.
Tiempo de Tiempo de
Paciente Dosificaci´on x reacci´on y Paciente Dosificaci´on x reacci´on y
(mg) (mseg) (mg) (mseg)
1 0.5 12 10 2.0 40
2 0.5 22 11 2.0 44
3 0.5 30 12 2.0 50
4 1.0 18 13 2.5 44
5 1.0 32 14 2.5 60
6 1.0 36 15 2.5 64
7 1.5 30 16 3.0 64
8 1.5 34 17 3.0 68
9 1.5 46 18 3.0 76
Soluci´on:
El modelo de predicci´on obtenido hal hacer los calculos es:
ˆ y =
ˆ
β
0
+
ˆ
β
1
x = 9.77 + 18.85x
Observaci´on 2. La suma de los valores ajustados es igual a la suma de los valores
observados,

ˆ y
i
=

y
i
.
Ahora bien, usaremos la prueba de hip´otesis para probar si uno de los coeficientes de
regresi´on toma valor particular o si puede ser excluido del modelo.
Si el que se quiere escluir es β
1
entonces la prueba es:
H
0
: β
1
= 0 vs H
a
: β
1
= 0
4.4 Inferencias relativas a la pendiente β
1
de una recta 123
As´ı, el estad´ıstico es
t =
18.85 −0
(7.51)(0.28)
= 8.96
de acuerdo a la tabla de la t de Student, la hip´otesis H
0
se rechaza con un nivel de
significancia de 0.05 ya que
t
0.05/2,16
= t
0.025,16
= 2.120
y como
| t | > t
α/2,n−2
es decir, 8.96 > 2.120
entonces rechazamos H
0
. Esto indica que la variable independiente es significativa o
ayuda a predecir el comportamiento de y. Por cada incremento de una unidad en la
variable independiente x, habr´a un incremento de β
1
unidades en la variable depen-
diente y.
Para saber la cantidad en que var´ıa en promedio la variable dependiente cuando la
variable independiente var´ıa una unidad, calculamos el intervalo de confianza para
ˆ
β
1
.
En nuestro ejemplo
ˆ
β
1
nos dar´a la informaci´on acerca de la cantidad en que var´ıa
en promedio, el tiempo de reacci´on cuando se produce un aumento en una unidad la
dosis de la droga. Entonces
ˆ
β
1
± t
α/2,n−2
S
_
C
11
18.86 ± (2.120)(7.51)(0.28)
18.86 ± 4.46
14.4 ≤
ˆ
β
1
≤ 23.42
As´ı, tenemos en 95 % de confianza al afirmar que la cantidad promedio de aumento
en el tiempo de reacci´on para cada aumento de 1 mg var´ıa entre 14.4 y 23.42 mseg.
Teniendo un sujeto nuevo cuyo valor x es un puntaje determinado x
p
¿qu´e valor
asumir´a ˆ y?.
124 Regresi´on lineal y multilineal
Predicci´on de y dado un valor de x en particular
Supongamos que a un esquizofr´enico recientemente admitido en el hospital se le ad-
ministran 2 mg de la droga ¿cu´al ser´a el tiempo de reacci´on de est´a persona?.
Estimando puntualmente en un valor x = x
p
= 2 se tiene
ˆ y = 9.77 + 18.86(2) = 47.49
Cuando σ
2
es desconocida podemos obtener el intervalo de predicci´on del (1−α)100 %
mediante la ecuaci´on (4.2). Entonces:
47.49 ± (2.120)(7.51)
_
1 +
1
18
+
(2 −1.75)
2
13.13
47.49 ± 16.39
31.1 ≤ˆ y ≤ 63.88
As´ı, podemos afirmar con un 95 % de confianza que el tiempo de reacci´on de una
persona esquizofr´enica que recibe 2 mg de la dosis est´a entre 31 y 64 mseg.
En lo anterior estamos prediciendo el tiempo de reacci´on de la persona antes de ad-
ministrarle la droga. Para descubrir con certeza el tiempo de reacci´on de una persona,
en relaci´on a una determinada dosis de droga, tenemos que darle al paciente la droga
y luego medir su tiempo de reacci´on.
Ahora bien, dada una poblaci´on de sujetos y dado un puntaje determinado de x di-
gamos x
p
¿Cu´al es el valor promedio de la variable dependiente ˆ y m´as probable para
esta poblaci´on?.
Supongamos entonces que tenemos una poblaci´on de personas esquizofr´enicas y a to-
das se les han administrado 2mg de la dosis ¿Cu´al ser´a el tiempo de reacci´on promedio
de esta poblaci´on?.
Un intervalo de confianza para el (1 − α)100 % es el dado por la ecuaci´on (4.1).
4.4 Inferencias relativas a la pendiente β
1
de una recta 125
Entonces, como ˆ y = 47.49 para x = 2 mg se tiene que
47.49 ± (2.120)(7.51)
_
1
18
+
(2 −1.75)
2
13.13
47.49 ± 3.9101
43.58 ≤ˆ y ≤ 51.40
Por lo tanto, podemos afirmar con un 95 % de confianza que el tiempo de reacci´on
promedio de una poblaci´on de esquizofr´enicos que recibi´o la dosis de 2mg estar´a entre
44 y 51 mg.
Si el experimento se repite muchas veces, aproximadamente el 95 % de los intervalos
de confianza calculados en la forma anterior incluir´an a E[y/x] y el otro 5 % no.
Ejemplo 4.4.7. En su tesis para obtener el doctorado, H. Behbahani estudi´o el efecto
de la variaci´ on agua/cemento en la resistencia del concreto despu´es de 28 d´ıas. Para
el concreto que contiene 200 libras por yarda c´ ubica de cemento obtuvo los datos que
se presentan en la tabla 4.1. Sea y la resistencia y x la raz´on de agua/cemento.
Raz´on agua/cemento Resistencia (100 pies/libra)
1.21 1.302
1.29 1.231
1.37 1.061
1.46 1.040
1.62 0.803
1.79 0.711
Tabla 4.1: Datos.
a) Ajuste el modelo.
b) Pruebe H
0
: β
1
= 0 vs H
a
: β
1
< 0 con α = 0.05 (si rechazamos H
0
entonces
concluimos β
1
< 0, y que la resistencia tiende a disminuir con un incremento
en la raz´on agua/cemento).
126 Regresi´on lineal y multilineal
c) Encuentre un intervalo de confianza de 90 % de la resistencia esperada del concreto
cuando la raz´on agua/cemento es de 1.5. ¿Qu´e pasar´a con el intervalo de con-
fianza si tratamos de estimar la resistencia media para razones de agua/cemento
de 0.3 o 2.7?.
Soluci´on:
a)
ˆ
β
1
=
SC
xy
SC
xx
=
−0.247
0.234
= −1.056
ˆ
β
0
=2.563
=⇒ ˆ y =2.563 −1.056x
b)
H
0

1
= 0 vs H
a
: β
1
< 0 con α = 0.05
t =
−1.056 −0
0.045
_
1
0.234
= −11.355 (En este caso debemos probar si t < −t
α
)
t
α,n−2
=t
0.05,4
= 2.132
=⇒−11.355 < −2.132.
Se rechaza H
0
, hay evidencia para indicar que la resistencia disminuye con un incre-
mento en la raz´on agua/cemento en la regi´on donde se hizo el experimento.
En la pr´actica, la raz´on agua/cemento debe ser lo suficientemente para humedecer el
cemento, la arena y los otros elementos que forman el concreto; pero si la raz´on es
muy grande no servir´a.
c)
ˆ y = 2.563 −1.056(1.5) = 0.979
0.979 ±(2.132)(0.045)
_
1
6
+
(1.5 −1.457)
2
0.234
=⇒(0.938, 1.020)
4.5 Correlaci´on lineal 127
La resistencia media de la raz´on agua/cemento de 1.5 est´a entre 0.938 y 1.020.
x

= 0.3 y x

= 2.7 son valores lejanos a los experimentados, quiz´as producir´ıan
concreto completamente inservible.
4.5. Correlaci´on lineal
En la secci´on anterior se estableci´o que la regresi´on lineal estudia la natutaleza de la
relaci´on entre dos (o mas variables si no es lineal). En esta secci´on vamos a definir
el llamado coeficiente de correlaci´on lineal, que ofrece una medida cuantitativa de
la fortaleza de la relaci´on lineal entre x e y en la muestra, pero que a diferencia de
β
1
, es adimensional, ya que sus valores siempre estan entre -1 y 1, sean cuales sean
las unidades de medida de las variables. En otras palabras, la correlaci´on mide la
fuerza de la relaci´on entre variables. Si est´an relacionadas las variables dependiente e
independiente, entonces hay que averiguar que tan fuerte es la relaci´on.
Dada una muestra de valores de dos variables (x
1
, y
1
), . . . , (x
n
, y
n
), el coeficiente de
correlaci´on lineal muestral r se define como
r =
SC
xy
_
SC
xx
SC
yy
Como digimos antes, la interpretaci´ on del valor de r es la siguiente:
r cercano o igual a 0 implica poca o ninguna relaci´on lineal entre x e y.
Cuanto m´as se acerque a 1 ´o −1, m´as fuerte ser´a la relaci´on lineal entre x e y.
Si r = ±1, todos los puntos caer´an exactamente en la recta de regresi´on.
Un valor positivo de r implica que y tiende a aumentar cuando x aumenta, y
esa tendencia es m´as acusada cuanto m´as cercano est´a r de 1.
Un valor negativo de r implica que y disminuye cuando x aumenta, y esa ten-
dencia es m´as acusada cuanto m´as cercano est´a r de −1.
Si r = 0, no hay relaci´on.
128 Regresi´on lineal y multilineal
¿C´omo determinar que tan bueno es el modelo ajustado?
El coeficiente de determinaci´on lineal r
2
proporciona una medida de la bondad de
ajuste del modelo de regresi´on
r
2
= 1 −
SCE
SC
yy
0 ≤ r
2
≤ 1
Si el modelo es correcto, entonces SCE = 0 y r
2
= 1. Si r
2
est´a cerca de cero (Cuando
SCE puede ir a SC
yy
), el ajuste no es el adecuado.
N´otese que la notaci´on es r al cuadrado, ya que, en efecto, en una regresi´on lineal
simple coincide con el coeficiente de correlaci´on lineal al cuadrado. Por lo tanto, la
interpretaci´on de r
2
es la medida en que x contribuye a la predicci´on de y en una
escala de 0 a 1, donde el 0 indica que el error es el total de la variaci´on de los valores
de y y el 1 es la precisi´on total, el error 0. La medida suele darse en porcentaje.
Intervalo de confianza para r
Se quiere probar la hip´otesis de que el coeficiente de correlaci´on es cero, es decir,
H
0
: r = 0 vs H
a
: r = 0
lo anterior es equivalente a probar
H
0
: β
1
= 0 vs H
a
: β
1
= 0
con su estad´ıstico t =
ˆ
β
1
−0
S

C
11
.
Dejando el estad´ıstico anterior en t´erminos de r se obtiene
t =
r

n −2

1 −r
2
Para probar la hip´otesis nula H
0
= r = r
0
r
0
= 0 contra H
a
= r = r
0
se utiliza el
estad´ıstico
1
2
ln
_
1 + r
1 −r
_
4.5 Correlaci´on lineal 129
que sigue una distribuci´on normal con media
1
2
ln
_
1 + r
1 −r
_
y varianza
1
n −3
. En-
tonces, usaremos
z =
1
2
ln
_
1 + r
1 −r
_

1
2
ln
_
1 + r
0
1 −r
0
_
_
1
n −3
lo anterior es equivalente a
z =

n −3
2
ln
_
(1 + r)(1 −r
0
)
(1 −r)(1 + r
0
)
_
H
0
se rechaza si | z | > z
α/2
, donde α es el nivel de significancia.
H
a
:
_
¸
¸
¸
¸
_
¸
¸
¸
¸
_
r > r
0
regi´on de rechazo:z > z
α
,
r < r
0
regi´on de rechazo:z < −z
α
,
r = r
0
regi´on de rechazo:| z | > z
α/2
,
Ejercicio 4.5.1. Los siguientes datos representan las calificaciones de qu´ımica para
una muestra aleatoria de 12 estudiantes de primer a˜ no de determinada instituci´on de
ense˜ nanza superior, junto con sus calificaciones en un examen de inteligencia aplicado
cuando a´ un cursaban el ´ ultimo a˜ no de secundaria.
Calif. Examen Calif. Qu´ımica Calif. Examen Calif. Qu´ımica
65 85 65 94
50 74 70 98
55 76 55 81
65 90 70 91
55 85 50 76
70 87 55 74
a) Calcule e interprete el coeficiente de correlaci´on muestral,
b) Pruebe la hip´otesis de que r = 0.5 contra r > 0.5.
130 Regresi´on lineal y multilineal
Soluci´on:
a) r =
ˆ
β
1
_
SC
xx
SC
yy
, entonces
SC
xx
=

x
2
i

1
n
_

x
i
_
2
= 44475 −
1
12
(725)
2
= 672.92
SC
yy
=

y
2
i

1
n
_

y
i
_
2
= 85905 −
1
12
(1011)
2
= 728.25
ˆ
β
1
=
SC
xy
SC
xx
=⇒SC
xy
=

x
i
y
i

1
n

x
i

y
i
= 61685 −
1
12
(725)(1011) = 603.75
=⇒
ˆ
β
1
=
603.75
672.92
= 0.897 o 0.9
As´ı, el coeficiente de correlaci´on es
r = 0.897
_
672.92
728.25
= 0.862.
Note que, el coeficiente est´a cerca de 1, entonces hay una fuerte asociaci´on entre x e
y, como se podr´a esperar.
b)
H
0
: r = 0.5 vs H
a
: r > 0.5
z =

n −3
2
ln
_
(1 + 0.862)(1 −0.5)
(1 −0.862)(1 + 0.5)
_
=
3
2
ln
_
0.931
0.207
_
= 2.255
Ahora veamos si se cumple que z > z
α
, para esto usamos α = 0.05. Entonces, z
0.05
=
1.645 (buscamos α = 0.05 en la tabla de la distribuci´on normal y cae en
1.64 + 1.65
2
=
1.645).
As´ı, 2.255 > 1.645, por lo cual se rechaza la hip´otesis nula H
0
.
Ejercicio 4.5.2. En un estudio acerca de la cantidad de precipitaci´on pluvial y la
cantidad de contaminaci´ on de aire eliminada, se obtuvieron los siguientes datos:
4.6 Ejercicios 131
Lluvia diaria (0.01 cm) x Part´ıculas eliminadas (mg por metro c´ ubico) y
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108
a) Calcule r,
b) Prueba H
0
: r = −0.5 vs H
a
: r < −0.5 con un nivel de significancia de 0.025,
c) Determine el porcentaje de variaci´on en que la cantidad de part´ıculas eliminadas
que se deben a los cambios en la cantidad diaria de precipitaci´on pluvial.
Soluci´on:
4.6. Ejercicios
1. Los auditores a menudo necesitan comparar el valor revisado (o actual de un
art´ıculo) del cat´alogo de inventario con el valor en los libros (o nominal). Si una
compa˜ n´ıa tiene su inventario y sus libros al d´ıa, debe existir una relaci´on lineal
muy estrecha entre los valores revisados y los nominales. Una muestra de 10
art´ıculos del cat´alogo de cierta compa˜ n´ıa dio los datos que contiene la tabla 4.2
acerca de los valores revisados y los nominales. Ajuste el modelo y = β
0

1
x+ε
a esos datos. ¿Cu´al es su estimaci´on para el cambio que se espera en el valor
revisado para un cambio de una unidad en el valor nominal? Si el valor nominal
es x = 100, ¿qu´e utilizar´ıa para estimar el valor revisado?
132 Regresi´on lineal y multilineal
Art´ıculo Valor revisado (y
i
) Valor nominal (x
i
)
1 9 10
2 14 12
3 7 9
4 29 27
5 45 47
6 109 112
7 40 36
8 238 241
9 60 59
10 170 167
Tabla 4.2: Datos.
2. En la tabla 4.3 se muestra la clasificaci´on combinada del n´ umero de millas y
el volumen del motor establecidos por la EPA en estados de la Uni´on Ameri-
cana en 1980 (todos menos California) de nueve autom´oviles subcompactos con
transmisi´on est´andar, de cuatro cilindros, que utilizan gasolina. El tama˜ no del
motor se da en pulgadas c´ ubicas totales del cilindraje.
Autom´ovil Cilindraje (x) mpg combinado (y)
VW Rabitt 97 24
Datsun 210 85 29
Chevrolet Chevette 98 26
Dodge Omni 105 24
Mazda 626 120 24
Oldsmobile Starfire 151 22
Mercury Capri 140 23
Toyota Celica 134 23
Datsun 810 146 21
4.6 Ejercicios 133
a) Localice los datos en una gr´afica.
b) Encuentra la recta de m´ınimos cuadrados para los datos.
c) Trace una gr´afica de la recta de m´ınimos cuadrados para ver cu´anto se ajusta
a los datos.
d) Utilice la recta de m´ınimos cuadrados para estimar el promedio de millas por
gal´on (mpg) para un autom´ovil subcompacto con un volumen de motor de 125
pulgadas c´ ubicas.
3. En un estudio de distintos fondos para inversi´on se desarroll´o un procedimien-
to consistente en construir la llamada “recta caracter´ıstica”para cada posible
fondo. Dicha recta no es otra cosa m´as que la recta de regresi´on de la re-
dituabilidad del fondo considerado sobre la redituabilidad promedio del mer-
cado burs´atil. Si para un fondo de inversi´ on la pendiente de su recta carac-
ter´ıstica es significativamente distinta de cero, se dice que ese fondo es muy
sensible a las fluctuaciones de la bolsa de valores y por ende es una inver-
si´on riesgosa. Si el fondo tiene una recta caracter´ıstica con pendiente cercana
a cero se dice que es una inversi´on estable y de poco riesgo. La redituabili-
dad tanto del fondo “Penn Square Mutual”como la promedio en el mercado
burs´atil se observ´o en el peri´odo 1964 a 1973 y se dan en la tabla siguiente.
A˜ no 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973
P. Square 18.4 29.7 -12.3 10.8 23.6 -16.2 5.8 7.2 7.7 -8.8
p. en m. 12.9 9.1 -13.1 20.1 7.7 -11.4 .1 10.8 15.6 -17.4
a) Encuentre la “recta caracter´ıstica”del fondo “Penn Square Mutual”(esto es,
la recta de regresi´on de la redituabilidad del fondo sobre la redituabilidad prome-
dio).
b) Grafique los puntos y la recta de regresi´on para verificar sus c´alculos.
c) Describa el tipo de riesgo asociado a invertir en el “Penn Square Mutual”(esto
es, pruebe la hip´otesis β
1
= 0; use α = 0.05).
Tabla 4.3: Datos.
134 Regresi´on lineal y multilineal
d) Encuentre un intervalo confidencial del 95 % para la pendiente de la recta
caracter´ıstica del fondo “Penn Square Mutual”.
4. Un experimento de mercados se realiz´o para estudiar la relaci´on entre el tiempo
que requiere un comprador para decidirse en su compra y el n´ umero de pre-
sentaciones distintas del producto exhibidas. Las marcas se eliminaron de los
productos para reducir el efecto de las preferencias a determinadas marcas. Los
compradores seleccionaron los art´ıculos basados exclusivamente en las descrip-
ciones y dise˜ nos de las presentaciones de cada producto. El tiempo utilizado
hasta llegar a una selecci´on fue registrado para los 15 participantes en el estu-
dio.
Tiempo requerido (en seg.) 5,8,8,7,9 7,9,8,9,10 10,11,10,12,9
Numero de laternativas (presentaciones) 2 3 4
a) Encuentre la recta de m´ınimos cuadrados para esos datos.
b) Grafique los puntos y la recta para verificar sus c´alculos.
c) Calcule s
2
.
d)¿Presentan los datos suficiente evidencia evidencia que indique que el tiem-
po requerido para decidir est´a linealmente relacionado al n´ umero de presenta-
ciones? (Pruebe al nivel α = 0.05).
5. La siguiente tabla contiene la lista del n´ umero de casos de tuberculosis (por
cada 100000 habitantes) en el estado de Florida durante la d´ecada que va de
1967 a 1976. ¿Hay suficiente evidencia para afirmar que la tasa de tuberculosis
decrece en tal periodo? Utilice α = 0.05. (Se pueden codificar los a˜ nos de la
manera que se considere conveniente.)
6. Las medianas de los precios de ventas de casas nuevas para una s´ola familia
durante un periodo de 8 a˜ nos se indican en la tabla siguiente. Sea y la mediana
de los precios de venta y x el a˜ no (representado con n´ umeros enteros, 1,2,...,8),
4.6 Ejercicios 135
ajuste el modelo y = β
0
+ β
1
x + ε. ¿Qu´e se puede concluir con los resultados?.
A˜ no Mediana del precio de venta (x 1000)
1972 (1) $27.6
1973 (2) 32.6
1974 (3) 35.9
1975 (4) 39.3
1976 (5) 44.2
1977 (6) 48.8
1978 (7) 55.7
1979 (8) 62.9
Conteste lo siguiente:
a) ¿Hay suficiente evidencia que permita afirmar que la mediana de los precios
de venta de casas nuevas para una sola familia se ha incrementado durante el
periodo de 1972 a 1979, con un nivel de significancia de 0.01?
b) Estime el incremento anual esperado en la mediana de los precios de venta
al construir un intervalo de confianza de 99 %.
7. Se llev´o a cabo un estudio de la cantidad de az´ ucar refinada mediante un cierto
proceso a varias temperaturas diferentes. Los datos se codificaron y registraron
136 Regresi´on lineal y multilineal
en el siguiente cuadro:
Temperatura Az´ ucar refinada
1.0 8.1
1.1 7.8
1.2 8.5
1.3 9.8
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5
a) Determine el modelo de regresi´on lineal simple.
b) Calcule la cantidad promedio de az´ ucar refinada que se produce cuando la
temperatura codificada es 1.75.
c) Determine un intervalo de confianza del 95 % para el par´ametro
ˆ
β
1
.
d) Prueba H
0
:
ˆ
β
1
= 0 vs H
a
:
ˆ
β
1
= 0.
e) Encuentre un intervalo de predicci´on del 95 % para un valor particular de
az´ ucar refinada cuando la temperatura es 1.75.
8. Los siguientes datos presentan el n´ umero promedio de bacterias que sobreviven
4.6 Ejercicios 137
en un producto alimenticio enlatado y los minutos de exposici´on a una tempe-
ratura de 300

F.
N´ umero de bacterias Minutos de exposici´on
175 1
108 2
95 3
82 4
71 5
50 6
49 7
31 8
28 9
17 10
16 11
11 12
a) Dibuje el diagrama de dispersi´on de los datos.
b) Identifique el modelo apropiado para estos datos (es lineal o exponencial) y
estime los par´ametros de dicho modelo.
9. La empresa Bradford Electric Illuminating Co., estudia las relaciones entre los
consumos de energ´ıa (en miles de kilowatts-hora, kwh) y el n´ umero de habita-
ciones en una residencia privada unifamiliar. Una muestra aleatoria de 10 casas
produjo lo siguiente:
138 Regresi´on lineal y multilineal
Num.de habitaciones Consumo
12 9
9 7
14 10
6 5
10 8
8 6
10 8
10 10
5 4
7 7
a) Dibuje el diagrama de dispersi´on. Explique,
b) Ajuste un modelo de regresi´on lineal simple a estos datos,
c) Estime el consumo promedio para una casa con 11 habitaciones,
d) Pruebe la significancia del modelo con α = 0.05,
c) Determine un intervalo de confianza del 95 % para el consumo promedio
cuando una casa tiene 11 habitaciones.
4.7. Regresi´on lineal multiple
Un modelo de regresi´on que involucre mas de una variable independiente se llama
modelo de regresi´on multiple.
El modelo de regresi´on lineal m´ ultiple con k variables est´a dado por:
y = β
0

1
x
1
+ β
2
x
2
+ . . . + β
k
x
k
+ ε (4.3)
Los β
i
i = 0, . . . , k se llaman coeficientes de regresi´on.
Ajuste del modelo de regresi´on lineal mediante matrices.
4.7 Regresi´on lineal multiple 139
Supongamos que tenemos el modelo de regresi´on lineal (4.3) y hacemos n observa-
ciones y
1
, y
2
, . . . , y
n
. Entonces, cada observaci´on y
i
se escribe como
y
i
= β
0
+ β
1
x
i1
+ β
2
x
i2
+ . . . + β
k
x
ik
+ ε
i
x
ij
es la j-´esima variable independiente para la i-´esima observaci´ on (i = 1, . . . , n).
Ahora, definimos las matrices
Y =
_
_
_
_
_
_
_
y
1
y
2
.
.
.
y
n
_
_
_
_
_
_
_
y X =
_
_
_
_
_
_
_
_
_
_
x
0
x
11
x
12
· · · x
1k
x
0
x
21
x
23
· · · x
2k
x
0
x
31
x
33
· · · x
3k
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
0
x
n1
x
n2
· · · x
nk
_
_
_
_
_
_
_
_
_
_
con x
0
= 1
β =
_
_
_
_
_
_
_
β
0
β
1
.
.
.
β
k
_
_
_
_
_
_
_
y ε =
_
_
_
_
_
_
_
ε
1
ε
2
.
.
.
ε
k
_
_
_
_
_
_
_
Las n ecuaciones que representan a las n observaciones y
i
se pueden escribir como:
Y = Xβ + ε
Ahora, las ecuaciones de m´ınimos cuadrados ordinarios est´an dadas por
X
t
X
ˆ
β = X
t
Y
donde
ˆ
β =
_
_
_
_
_
_
_
ˆ
β
0
ˆ
β
1
.
.
.
ˆ
β
k
_
_
_
_
_
_
_
Entonces
ˆ
β = (X
t
X)
−1
X
t
Y .
Por lo tanto, el modelo ajustado es
ˆ y = X
ˆ
β = X(X
t
X)
−1
X
t
Y
140 Regresi´on lineal y multilineal
Ejercicio 4.7.1. Dados los siguientes datos
x 0 1 2 3 4 5 6
y 1 4 5 3 2 3 4
a) Ajuste el modelo cuadr´atico
E(y/x) = β
0
+ β
1
x + β
2
x
2
b) Estime y cuando x = 2
Soluci´on:
a) Sea x
1
= x y x
2
= x
2
, entonces y = β
0
+ β
1
x
1
+ β
2
x
2
. Ahora,
X =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0
1 1 1
1 2 4
1 3 9
1 4 16
1 5 25
1 6 36
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
y X
t
=
_
_
_
_
1 1 1 1 1 1 1
0 1 2 3 4 5 6
0 1 4 9 16 25 36
_
_
_
_
entonces
X
t
X =
_
_
_
_
1 1 1 1 1 1 1
0 1 2 3 4 5 6
0 1 4 9 16 25 36
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 0 0
1 1 1
1 2 4
1 3 9
1 4 16
1 5 25
1 6 36
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
=
_
_
_
_
7 21 91
21 91 441
91 441 2275
_
_
_
_
4.7 Regresi´on lineal multiple 141
Calculando la inversa de X
t
X
(X
t
X)
−1
=
_
_
_
_
7 21 91 | 1 0 0
21 91 441 | 0 1 0
91 441 2275 | 0 0 1
_
_
_
_
_
_
_
Pant = 1
Pact = 7

_
_
_
_
7 21 91 | 1 0 0
0 196 1176 | −21 7 0
0 1176 7644 | −91 0 7
_
_
_
_
_
_
_
Pant = 7
Pact = 196

_
_
_
_
196 0 −980 | 91 −21 0
0 196 1176 | −21 7 0
0 0 16464 | 980 −1176 196
_
_
_
_
_
_
_
Pant = 196
Pact = 16464

_
_
_
_
16464 0 0 | 12544 −7644 980
0 16464 0 | −7644 7644 −1176
0 0 16464 | 980 −1176 196
_
_
_
_
dividiendo todo el arreglo anterior entre el ´ ultimo Pact
_
_
_
_
1 0 0 | 16/21 −13/28 5/84
0 1 0 | −13/28 13/28 −1/14
0 0 1 | 5/84 −1/14 1/84
_
_
_
_
Por lo tanto,
(X
t
X)
−1
=
_
_
_
_
16/21 −13/28 5/84
−13/28 13/28 −1/14
5/84 −1/14 1/84
_
_
_
_
142 Regresi´on lineal y multilineal
Ahora bien,
ˆ
β = (X
t
X)
−1
X
t
Y =
_
_
_
_
16/21 −13/28 5/84
−13/28 13/28 −1/14
5/84 −1/14 1/84
_
_
_
_
_
_
_
_
1 1 1 1 1 1 1
0 1 2 3 4 5 6
0 1 4 9 16 25 36
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1
4
5
3
2
3
4
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
=
_
_
_
_
2.4062
0.7143
−0.09524
_
_
_
_
Por lo tanto,
ˆ
β
0
= 2.4062,
ˆ
β
1
= 0.7143 y
ˆ
β
3
= −0.09524. Entonces, el modelo de
predicci´on es
ˆ y = 2.4062 + 0.7143x −0.09524x
2
.
b) E(y/x = 2) = 2.4062 + 0.7143(2) −0.09524(2)
2
= 3.4538.
Ejercicio 4.7.2. Se llev´o a cabo un experimento para determinar la distancia de fre-
nado a diferentes velocidades de un modelo nuevo de autom´ovil. Se registraron los
siguientes datos:
Velocidad 35 50 65 80 95 110
Distancia de frenado 16 26 41 62 88 119
a) Ajuste una curva de regresi´on m´ ultiple de la forma E(y/x) = β
0
+ β
1
x + β
2
x
2
b) Estime la distancia de frenado cuando el veh´ıculo viaja a la velocidad de 70 kmh
Soluci´on:
Cap´ıtulo 5
Habilidades b´asicas
I.- Complete los siguientes:
1. Comprende las t´ecnicas que se emplean para resumir y describir datos num´eri-
cos, de tipo grafico, o que requieren an´alisis computacional.
2. En base a que, en una muestra sometida a observaci´ on sirven para tomar deci-
siones.
3. Si cuento como observaciones el n´ umero de alumnos del grupo, se refiere a
variable:
4. Si tomo el promedio de peso de los integrantes del grupo, hablo de una variable:
5. Los m´etodos de muestreo aleatorio son:
6. ¿Cu´ando aplico muestreo de juicio?
7. ¿Cu´ando aplico muestreo por conveniencia?
8. ¿Cu´ando aplico muestreo por subgrupos racionales?
9. ¿Cu´ando aplico muestreo sistem´atico?
144 Habilidades b´asicas
10. ¿Cu´ando aplico muestreo estratificado?
II.- Instrucciones: Realiza los siguientes ejercicios
11. Con los siguientes datos Datos:
1, 4, 5, 6, 6, 8, 9, 10, 10, 10, 11, 12, 13, 14, 15, 16, 24, 28, 29, 49, 58, 67, 77, 94
a) Construye una tabla de distribuci´on de frecuencias.
b) Encuentra las medidas de tendencia central y de dispersi´on.
c) Realiza las gr´aficas de: histograma (o gr´afica de barras seg´ un convenga),
pastel, pol´ıgono de frecuencias.
12. Con los siguientes datos
10, 20, 30, 30, 20, 20, 2040, 60, 60, 60, 60, 70, 90, 80, 100
a) Construye una tabla de distribuci´on de frecuencias.
b) Encuentra las medidas de tendencia central y de dispersi´on.
c) Realiza las gr´aficas de: histograma (o gr´afica de barras seg´ un convenga),
pastel, pol´ıgono de frecuencias.
13. Con los siguientes datos
50, 44, 47, 47, 47, 32, 33, 34, 45, 28, 10, 12, 14, 15, 27, 50, 33, 22, 22, 11
a) Construye una tabla de distribuci´on de frecuencias.
b) Encuentra las medidas de tendencia central y de dispersi´on.
c) Realiza las gr´aficas de: histograma (o gr´afica de barras seg´ un convenga),
pastel, pol´ıgono de frecuencias.
III.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los
conocimientos adquiridos en estadistica descriptiva
145
14. Se ocupa una vez hecha la recopilaci´on de los datos, ordenarlos y clasificarlos
para extraer conclusiones:
15. Estudia las t´ecnicas de ordenaci´on, clasificaci´on, recuento y presentaci´on de
datos en tablas y gr´aficas, y de obtener valores que resuman la informaci´on:
16. Es el conjunto de elementos que poseen una determinada caracter´ıstica que
deseamos medir o estudiar:
17. Es la selecci´on de un subconjunto de la poblaci´on:
18. Al n
0
de elementos de una muestra se le denomina:
19. Es la caracter´ıstica que se va a estudiar en la poblaci´on:
20. Son aquellas que se pueden cuantificar, como la edad, peso, n
0
de hijos, etc.
Adem´as es una de las divisiones de car´acter:
21. Es el conjunto de valores que toma un car´acter estad´ıstico:
22. Son las representaciones que se hacen cuando la variable es continua:
23. Es la representaci´on que se usa cuando la variable es cualitativa, por ejemplo
color del coche, aunque tambi´en se puede usar en variable discreta:
IV.- Instrucciones: Conteste el siguiente cuestionario de acuerdo a los
conocimientos adquiridos en Regresi´on.
24. ¿Qu´e es una l´ınea de regresi´on?
25. ¿C´omo se utilizan las l´ıneas de regresi´on?
26. Compare los t´erminos “variable dependiente”y “variable independiente”.
27. ¿Qu´e mide r
2
?
146 Habilidades b´asicas
28. ¿Qu´e ventaja tiene la regresi´on m´ ultiple con respecto a la regresi´on lineal?¿Qu´e desven-
tajas?
29. ¿C´omo determinar´ıa cu´al de las dos t´ecnicas: la de regresi´on lineal o la m´ ultiple
ser´ıa la m´as apropiada para una situaci´on determinada?
30. Compare la finalidad del an´alisis de regresi´on con la del an´alisis de correlaci´on.
31. ¿Porqu´e es importante trazar un diagrama de dispersi´on para t´ecnicas de regre-
si´on o correlaci´on de dos variables?
32. ¿Qu´e significa un signo − antes de r?¿Antes de β
1
?
33. En la mayor´ıa de las aplicaciones en negocios, ¿qu´e t´ecnica es m´as ´ util la de
correlaci´on o la de regresi´on?¿Por qu´e?
V.- Usando las t´ecnicas de Regresi´on Lineal, resuelve los siguientes:
34. Dada la siguiente distribuci´on:
X 2 2 2 4 7 7 10 10
Y 3 4 5 5 4 5 3 5
Determina la recta de regresi´on de Y sobre X.
35. En el servicio central de turismo del pa´ıs se ha observado que el n´ umero de plazas
hoteleras ocupadas es diferente seg´ un sea el precio de la habitaci´on. Sobre el
total de plazas ocupadas en un a˜ no se tiene:
Precio (US$/noche) 250 650 1000 1400 2100 2500 2700 3300 4000
N
0
hab. ocup. 4725 2610 1872 943 750 700 700 580 500
a) Representa los datos gr´aficamente, para comprobar que existe cierta depen-
dencia lineal entre las variables.
147
b) Halla la ecuaci´on de la recta de regresi´on del n´ umero de habitaciones sobre
el precio. Halla la ecuaci´on de la recta de regresi´on del precio sobre el
n´ umero de habitaciones.
c) ¿Cu´antas habitaciones se llenar´ıan a 1500 US$?
36. El volumen de ahorro y la renta del sector familiar en billones de pesos, para el
periodo 77 −86 fueron:
A˜ no 77 78 79 80 81 82 83 84 85 86
Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5
a) Recta de regresi´on considerando el ahorro como variable independiente.
b) Recta de regresi´on considerando la renta como variable independiente
c) Para el a˜ no 87 se supone una renta de 24.1 billones de pesos. ¿Cu´al ser´a el
ahorro esperado para el a˜ no 87?
37. Los datos de la tabla adjunta muestran el tiempo en horas de impresi´on de tra-
bajos que se han imprimido en una impresora l´aser de la marca HP. Se est´a in-
teresado en estudiar la relaci´on existente entre la variable de inter´es “tiempo
de impresi´on de un trabajo ”y la variable explicativa “n´ umero de p´aginas del
trabajo ”.
Tiempo 1 2 3 4 5 6 7 8
N
0
P´aginas 600 900 1400 1800 2500 3200 3400 4500
a) Encuentre la recta de regresi´on considerando el tiempo como variable inde-
pendiente.
b) Encuentre la recta de regresi´on considerando el n´ umero de p´aginas como
variable independiente
c) Estime cu´antas paginas se imprimir´ıan en 12 horas.
148 Habilidades b´asicas
VI.- Usando las t´ecnicas de Regresi´on M´ ultiple, resuelve los sigu-
ientes:
[?]
Bibliograf´ıa

Sign up to vote on this title
UsefulNot useful