Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadstica
Un Enfoque Descriptivo.
Tercera Edicin
Estadstica,UnEnfoqueDescriptivo
ISBN9586700682
RobertoBeharG.1996,2007
MarioYepesA.
Tel:57233349035723212167
FAX5723398462
emailrobehar@univalle.edu.co
robehar@yahoo.com
TalleresGrficos
DeImpresoraFERIVAS.A.
Cali,Colombia
Prlogo
El gran mrito de la Estadstica como disciplina, es proporcionar las herramientas
necesarias para obtener conclusiones sobre una poblacin, a partir de una observacin de tan slo
una muestra de la misma. La incertidumbre inherente al proceso de generalizacin es estudiada y
medida con base en la teora de la probabilidad la cual permite tener la informacin acerca de la
confianza asociada con las conclusiones resultantes de la inferencia realizada.
Existen varias maneras de adquirir el conocimiento de los instrumentos que proporciona la
inferencia estadstica y la habilidad para su aplicacin; una de ellas, la tradicional consiste en
estudiar en primer lugar, la teora de la probabilidad y enseguida estudiar la inferencia estadstica
propiamente dicha; este es el enfoque que involucran la casi totalidad de los libros que circulan
en nuestro mercado.
Una segunda manera de visualizar el proceso de aprendizaje, consiste en el desarrollo de una fase
exploratoria de los datos que constituyen una muestra o una poblacin si fuera el caso. En esta
fase se trata de definir algunos indicadores de rasgos del conjunto que constituye la muestra y
luego de procesar los datos, obtener ideas sobre sus propiedades y posiblemente establecer
algunas hiptesis sobre el comportamiento de estos rasgos, o sus relaciones en la poblacin.
En esta fase se produce la maduracin de muy buena parte de los conceptos bsicos que es
necesario estudiar con todo el rigor, no slo en la etapa de inferencia estadstica, sino
previamente en el estudio de la teora de la probabilidad; as por ejemplo se trabaja con la funcin
Roberto Behar y Mario Yepes
Captulo 1
Por el contenido, por la metodologa y por el nivel de prerrequisitos puede ser usado por todos
aquellos estudiantes que vayan a introducirse en la disciplina estadstica. En algunos temas se
requiere el conocimiento de los rudimentos del clculo diferencial, aunque no son indispensables
para el entendimiento de los conceptos bsicos.
En lo que respecta a la metodologa para el logro de objetivos planteados, sta trata en lo posible
de mantener la siguiente estructura: en primer lugar el planteamiento de la situacin problema
que ser resuelta por la herramienta que se pretende presentar enseguida; luego se plantea un
ejemplo, el cual se utiliza para introducir elementos que permitirn definir la notacin simblica
y presentar para el caso concreto del ejemplo, la ilustracin de la solucin al problema general
planteado; por ltimo la presentacin general de la herramienta usando la notacin definida. Al
final de cada captulo se proponen ejercicios con el objeto de que el lector pueda evaluarse y
retomar algunos temas que no hayan quedado suficientemente entendidos.
El contenido del texto es el siguiente: el primer captulo es una introduccin, en la cual se
pretende precisar los alcances y la utilidad de la Estadstica y ubicar la temtica que trata este
trabajo, en el contexto de la metodologa estadstica.
En el segundo captulo se presenta el tratamiento de los datos provenientes de la observacin de
una caracterstica en los elementos de una muestra, definiendo algunos rasgos que pueden ser de
inters. En el tercer captulo se hace tratamiento de datos provenientes de la observacin de dos
caractersticas a cada uno de los elementos de una muestra, con el propsito de estudiar su
distribucin, indicadores de asociacin y se desarrolla el concepto de anlisis de la varianza. En
el cuarto captulo se trata el modelo de regresin simple, su construccin, su interpretacin y sus
limitaciones.
Con respecto al uso del texto en el desarrollo formal de un primer curso de Estadstica, el docente
segn los objetivos y de acuerdo con el grupo especfico de estudiantes, podr omitir o no los
10
desarrollos que impliquen procedimientos matemticos que no estn al alcance de sus alumnos
o no los considere pertinentes, haciendo nfasis en la interpretacin de los resultados.
No obstante que este texto es el producto del desarrollo de numerosos cursos, damos excusas por
los errores que pudiera presentar y agradecemos las sugerencias o rectificaciones que puedan
hacernos con el propsito de mejorarlo con base en la valiosa retroalimentacin que debe generar
su uso.
Captulo 1
11
Hoy despus de 10 aos de uso masivo de esta obra, que ha servido a centenares de
estudiantes de las ms variadas disciplinas que van desde los propios estudiantes de la carrera de
Estadstica de la Universidad del Valle, estudiantes de Administracin de Empresas, Contadura,
Matemticas, Ciencias Sociales y Econmicas y muchas ms, de casi todas las Universidades de
la regin, estamos entregando a usted, esta segunda edicin, en la que se incluyen algunas
modificaciones, resultado de las sugerencias de muchos colegas que han visto en el texto un buen
instrumento para el logro de sus objetivos.
Se han incluido algunos temas nuevos, se ha profundizado y ampliado el tratamiento de otros, se
han aumentado el nmero de problemas de final de captulo y se han adicionado explicaciones a
algunos tpicos. Conscientes de la gran variedad de disciplinas que son usuarias del texto hemos
incluido una gran variedad de referencias bibliogrficas.
El gran valor del texto, contina siendo darle vida a los resultados, no quedarse en las fras cifras,
no conformarse con clculos con base en formulas. Se abunda en interpretacin, se enfatiza en
los conceptos, que es lo que garantiza en ultimas el desarrollo de criterios para enfrentar futuros
problemas y situaciones reales.
Queremos agradecer las valiosas sugerencias de nuestros queridos colegas que durante todos
estos aos han sido usuarios de esta obra, honrando nuestro esfuerzo, sugerencias que en su
mayora han quedado plasmadas en esta segunda edicin. Profesores como: Rafael A. Klinger A.,
Roberto Behar y Mario Yepes
12
Francisco A. Quiroga Z., Jorge E. Delgado, Javier Olaya, Jorge Payn, Robby Nelson Daz,
Hernando Solano H., Guillermo Valds, Libardo Farfn, Oscar Gamboa, Jaime E. Prez, Ana
Mara Sanabria, Jorge Rodrguez, Gustavo Vargas, Alexander Taborda, Marco Fidel Suarez,
Marco A. Triana, Clara Ins Perea, Antonio Escudero A., Omar Rada B., Huber Ramos, Olga
Arias, Viviana Vargas, Mercedes Andrade, William Snchez, Gabriel Conde, Edwin Rengifo,
Heberth Muriel, Reynaldo Carvajal, Hugo Hurtado, Rodrigo Izquierdo, Luis Eduardo Girn,
entre muchos otros.
Deseamos agradecer de manera muy particular al ingeniero Jaime Felipe Mnera quien puso todo
su profesionalismo y su cario en el diseo de la nueva edicin.
Expresamos nuestro reconocimiento a nuestra querida ex alumna Virginia Cabrera, por la labor
de transcripcin y edicin de este libro, la cual desarroll no solo con gran profesionalismo sino
tambin con mucho tesn y gran afecto.
Agradecemos a los cientos de alumnos nuestros, muchos de los cuales son ahora profesionales de
xito, quienes compartieron en forma directa la experiencia de ingresar al mundo de la
estadstica, teniendo en muchas de sus noches este texto como interlocutor y compaero, quienes
en su momento nos hicieron notar algunos errores tipogrficos, algunos clculos errados y en no
pocas veces sesudas sugerencias.
14
Ingeniera, que corresponde casi textualmente a un artculo que los profesores del rea de
estadstica de la Escuela de Ingeniera Industrial, publicamos en la revista Ingeniera y
Competitividad de la facultad de ingeniera de la Universidad del Valle.
Captulo 1
INTRODUCCION
1.1
En su sentido actual, las palabras estadstica y estadstico (esta ultima como sustantivo o como
adjetivo) tienen menos de un siglo de existencia, pero se emplean desde hace ms tiempo, siendo
interesante estudiar el proceso por el que han llegado a adquirir la significacin que hoy tienen.
1Yule-Kendall:
16
Las palabras estadista, estadstica, estadstico, parece que derivan ms o menos indirectamente
del latn STATUS, en el sentido adquirido en el latn medioeval, de un estado poltico.
La primera de las tres palabras citadas es mucho ms antigua que las otras dos. La palabra
estadista se encuentra, por ejemplo en "Hamlet" (1602), en "Cimbelino" (1610 1611) y en "El
paraso recobrado" (1617).
Segn parece, la palabra estadstica se emple por primera vez en "Elementos de erudicin
universal" del barn J.F. Von Bielfeld, traducido al ingls por W. Hooper M.D. (vol.3, Londres
1770), uno de sus captulos se titula "estadstica" y en l se define sta como "La ciencia que nos
ensea la situacin poltica de los estados modernos del mundo conocido".
La palabra
estadstica aparece de nuevo con una definicin quizs ms amplia, en el prefacio de "Una visin
poltica del estado actual de Europa" por E.A.W. Zimmermann publicada en 1787.
"Hace aproximadamente cuarenta aos -dice Zimmermann- que esta rama del conocimiento
poltico, que tiene por objeto estudiar la potencia real y relativa de los distintos estados
modernos, de la capacidad derivada de sus condiciones naturales, la industria y la civilizacin de
sus habitantes y la sabidura de sus gobernantes, se ha constituido, principalmente por parte de
los escritores alemanes, en una ciencia independiente... por la forma mas conveniente que ahora
ha tomado... esta ciencia conocida por el recin inventado nombre de estadstica, ha llegado a ser
un estudio favorito en Alemania" ; y el adjetivo aparece tambin: "A los diversos artculos
contenidos en esta obra, algunos acreditados escritores estadsticos han aadido un resumen de
las principales pocas de la historia de cada pas".
En pocos aos estos vocablos fueron aceptados por diversos escritores, especialmente por Sir
John Sinclair, el editor y organizador de la primera "Informacin estadstica de Escocia" al cual
se ha atribuido frecuentemente su introduccin. En la carta circular dirigida al clero de la iglesia
de Escocia en mayo de 1790, indica que en Alemania las llamadas "investigaciones estadsticas"
han alcanzado gran extensin, y aade una nota explicativa de la frase "investigaciones
17
18
Una vez realizado este primer cambio de significacin, siguieron otros. La palabra Estadstica
utilizada primero como el nombre de una ciencia, fue aplicada despus para designar las series de
cifras sobre las que aquellas operaba y as se habl de estadsticas vitales, estadsticas de
beneficencia y otras. La misma palabra se aplic luego a datos numricos similares referentes a
otras ciencias, como la Antropologa y la Meteorologa. A fines del siglo XIX hallamos
"estadsticas de nios clasificados en listos, medianos y torpes", "estadsticas de caracteres
mentales en el hombre" y hasta "un examen estadstico de las caractersticas del hexmetro de
Virgilio.
La evolucin del significado del adjetivo "estadstico" (statistical) y del nombre "estadstico"
(statician) fue naturalmente anloga.
No hace falta multiplicar los ejemplos para hacer ver que la palabra estadstica no est hoy
vinculada en forma principal a las "cosas del estado".
1.2
La estadstica ha tenido un desarrollo extraordinario, que ha hecho que muchos problemas que
antes no tenan una clara solucin, hoy la tengan.
Para que podamos hacernos a una idea de la diversidad de campos en los que la Estadstica juega
un papel importante, se presentan a continuacin algunas situaciones.
1. Prueba de una vacuna
Se quiere determinar la efectividad de una vacuna; para ello se disea un experimento en el cual
participa un gran conjunto de nios de cierta edad, los cuales son clasificados al azar en 2 grupos.
Al primer grupo se le aplica una vacuna y al segundo grupo no. Se les hace un seguimiento
durante un perodo adecuado de tiempo para comparar la incidencia de la enfermedad problema
en cada grupo. Cul debe ser la diferencia mnima en el nmero de afectados para aceptar que la
vacuna es efectiva?
Roberto Behar y Mario Yepes
19
20
21
8. Produccin agrcola
Se van a sembrar grandes reas de terreno con papa china, se requiere por tanto disear un
experimento para determinar entre otras cosas: cul debe ser la distancia entre plntulas?,
cules deben ser los niveles de agua y de nutrientes a usar?, hay o no interaccin entre la
distancia entre las plantas y los niveles de nutrientes?
produccin.
9. Econometra
Determinacin de las principales caractersticas socioeconmicas que generan la inflacin y
cmo influye cada una de ellas, presentado esto a travs de un modelo de regresin.
10. Anlisis actuarial
Una empresa de seguros de vida, desea determinar cuanto debe cobrar al ao por una pliza,
segn la edad. Para ello, debe realizar un estudio estadstico sobre los riesgos y las frecuencias de
muertes por grupos de edad.
22
...Por el mtodo de Ingeniera quiero decir la estrategia para causar el mejor cambio
posible, con los recursos disponibles, en una situacin incierta o pobremente estudiada
Aqu queda implcito que el ingeniero debe tomar decisiones con informacin incompleta, en
ambiente de incertidumbre, asumiendo riesgos, pero no de manera aventurera o irresponsable: lo
har con criterio y guindose por heursticas, muchas de las cuales tienen como propsito hacerse
buenas ideas sobre la magnitud de los riesgos que asume y saber cual es el lado que lo pone
conservadoramente cerca de la seguridad.
El mismo autor, dedica el captulo 3 de su libro a definir algunos heurismos usados por el mtodo
de Ingeniera y los divide en 5 categoras, una de las cuales es:
Algunos heurismos que usan los ingenieros para mantener el riesgo dentro de los
lmites permitidos.
...nunca ser posible desarrollar del todo algunos problemas complicados, debido a la
incertidumbre inherente al Mtodo de Ingeniera.
23
Basados en Koen (1985), queda claro que el mtodo de ingeniera y la profesin de ingeniero,
estarn limitados en su eficiencia y eficacia, si en un sitio privilegiado de su maletn de
heursticas, no tienen algunas que le permitan resolver y decidir en ambientes de riesgo e
incertidumbre, que constituyen su condicin natural de operacin.
En no pocas ocasiones, el ingeniero deber inferir informacin de otros situaciones que a su
parecer se han producido en circunstancias similares a la de su inters, generndose as posibles
errores, cuyo magnitud deber ser considerada por l, en la toma de decisiones. Por otro lado
muchos problemas en ingeniera involucran procesos y fenmenos naturales que presentan
variabilidad y aleatoriedad inherentes, haciendo que ellos no puedan ser descritos o
caracterizados de manera exacta. Por estas razones los procesos de planeacin y de diseo en
ingeniera deben tomar en consideracin, casi obligatoriamente, estas consideraciones de
aleatoriedad y de incertidumbre.
Cuando Koen se refiere a que no todos los niveles de riesgo son aceptables, est sugiriendo que
el ingeniero en su responsabilidad, deber cuantificar el riesgo para decidir con base en un juicio
sobre la magnitud de incertidumbre razonable. De esta manera la formulacin de decisiones
relacionadas con procesos inciertos, requerirn valoraciones del tipo riesgo-beneficio.
Cul es la naturaleza de aquellas heursticas que le permiten al ingeniero cuantificar el tamao
del riesgo?
Cmo obtener una estimacin de la magnitud de un efecto de particular importancia en un
proyecto, que garantice al ingeniero que acta hacia el lado de la seguridad en cuanto al riesgo,
pero sin perder de vista la racionalidad econmica o prctica?
24
25
usando
informacin incompleta?
Koen (1985) en su intento por caracterizar el trabajo del ingeniero, expresa cmo el ingeniero
inicia su trabajo saliendo de un punto de partida que corresponde a una situacin de
incertidumbre o pobremente estudiada y que su punto de llegada es incierto. En el camino,
deber ir resolviendo las dificultades y obstculos y tomando decisiones cuando existan varios
caminos alternativos.
Cmo poder hacer comparaciones y tomar decisiones ante diversos cursos alternativos de
decisin, en un ambiente de incertidumbre?
En esta problemtica, la probabilidad y la estadstica se constituyen en una verdadera mina, de la
cual el ingeniero puede dotarse de las heursticas apropiadas para enfrentar con muy buenas
posibilidades de xito la situacin de comparar alternativas, con informacin parcial,
cuantificando el riesgo de tomar una mala decisin. Este yacimiento de heursticas, se conoce en
estadstica como Contraste de hiptesis. Cmo decidir entre varios posibles cursos de accin
en ambiente de incertidumbre?
Koen plantea de manera muy pedaggica la diferencia entre los dominios de la Ciencia y de la
Ingeniera. Uno de los elementos conceptuales que marca esta diferencia, es la restriccin en los
26
27
deber tomarse una decisin que ser aplicada a las mezclas que con las mismas especificaciones
se realicen para construir la obra en cuestin. Conociendo la existencia de la mencionada
variabilidad cmo estar seguros de que las mezclas que se produzcan se comportarn de la
misma manera que la muestra estudiada?.
Cmo realizar estos ensayos? Cmo concluir con base en la informacin obtenida en los
ensayos, si se sabe que esa informacin parcial, no es reproducible en forma exacta si se
repitieran los ensayos?.
Cmo puede comparar la resistencia de varios diseos de mezclas?.
En esta situacin, un excelente socavn, rico en las mejores fuentes para producir heursticas, lo
constituye el diseo estadstico de experimentos, el cual no solo plantea muy buenas guas para la
ejecucin de los ensayos, para garantizar la validez de las conclusiones que se obtengan, sino
que permite controlar el riesgo, definiendo a priori, la magnitud de los riesgos que el ingeniero
est dispuesto asumir, en el sentido de tomar decisiones equivocadas. Adems incluye relaciones
esenciales que conectan los recursos a invertir con la calidad de las decisiones. En todo anlisis
de un diseo estadstico de experimentos, arrojar informacin de tipo probabilstico.
Cuando se trata de la valoracin del impacto de alguna medida o poltica gubernamental sobre el
medio ambiente, generalmente se compara la situacin antes y despus de la intervencin.
Cmo saber si las diferencias observadas no se deben tan slo al azar, sino que pueden atribuirse
a la intervencin estudiada?.
Ya se dijo que una condicin inherente al trabajo de un ingeniero, y que por tanto caracteriza el
Mtodo de Ingeniera, es la restriccin en la disponibilidad de recursos. Entre varias heursticas
comparables en su eficiencia, el ingeniero podra escoger aquella que exija menos insumos de
informacin y en general que implique menos recursos.
Proteger los recursos, es una de sus misiones permanentes. En este sentido poder predecir el
estado final resultante de un curso de accin tomando en consideracin caractersticas de su
28
punto de partida, le permitir disminuir los riesgos de invertir recursos en rectificaciones por
deficientes predicciones.
Un indicador importante de contaminacin de las aguas con materia orgnica, es la llamada
demanda bioqumica de oxgeno, DBO, cuyo proceso de medicin en el laboratorio, puede tardar
20 das. Para agilizar este proceso de medicin, sera de mucha utilidad asociar medidas ms
tempranas de este mismo parmetro, con las que resultaran al final del proceso, midiendo por
supuesto el riesgo de cometer errores de cierta magnitud. De hecho, este es el sentido del
parmetro DBO5, que representa la medicin de la demanda bioqumica de oxgeno a los cinco
das.
Algo similar ocurre con la resistencia del concreto, que puede alcanzar su valor mximo a los 28
das.
Estos ejemplos de aplicacin, podran generalizarse a situaciones problema donde se requiere el
conocimiento de magnitud de F, para tomar una decisin, pero en lugar de conocer F, se
conocen X, Y, Z y W, que son mucho ms baratas y prcticas de medir que la propia F, surge la
pregunta: Cules heursticas permiten al ingeniero tomar decisiones equivalentes con stas
ltimas en lugar de F? Entre las caractersticas disponibles (X, Y, Z y W), Cul es el
subconjunto mnimo que se requiere y cual es la calidad de las decisiones que se tomen con base
en dicho subconjunto? Cmo predecir el valor F correspondiente a un conjunto de valores
especfico de las caractersticas (X, Y, Z y W)?
En esta problemtica, la Estadstica vuelve a salir a la palestra, poniendo a disposicin del
ingeniero, los modelos para predecir la magnitud de una caracterstica mediante el conocimiento
de otras, a travs de los llamados modelos de regresin, midiendo en todo caso, en trminos de
probabilidad los riesgos de equivocarse en las predicciones o estimaciones.
29
Si una de las condiciones del punto de partida del ingeniero es la disponibilidad de informacin
sobre un conjunto de caractersticas relacionadas con la situacin problema, Cmo explorar esta
informacin, para plantear a partir de ella algunas hiptesis que permitan orientar el prximo
curso de accin?
En esta fase la Estadstica entrega en las manos del ingeniero, algunas estrategias para hacer
tiles sus datos, dndoles sentido en el contexto de su problema a travs del llamado Anlisis
Exploratorio de Datos.
30
Si se quiere abordar la calidad desde el propio diseo del producto, intentando conocer la
interaccin entre los parmetros de diseo del producto o de la operacin de un proceso, con
caractersticas de preferencias o del ambiente del usuario final, se requiere usar la Estadstica a
travs de los llamados Mtodos estadsticos para el logro de la calidad por diseo.
Esta distincin, indica que la lgica formal, no ser el instrumento, que usar el ingeniero para
definir sus cursos de accin y para tomar sus decisiones sobre lo que funciona o no funciona,
pues como lo explica el propio Koen en su caracterizacin de heurismos, no se garantiza que la
aplicacin de un heurismo sea siempre vlida. Adems heurismos diferentes disponibles en el
maletn del ingeniero pueden conducir a resultados contradictorios.
En este estado de cosas Cmo decidir sobre la plausibilidad de una heurstica o de alguna
estrategia, en ambiente de incertidumbre, si no es la lgica formal la que nos rige?
Esta situacin se identifica extraordinariamente con lo que se conoce como Pensamiento
Estadstico, el cual da pautas y guas para valorar un conjunto de datos, con base en la naturaleza
Roberto Behar y Mario Yepes
31
del proceso que los gener, sin comprometerse con la validez categrica de los mismos. Es decir,
que unos datos sern tan buenos como el proceso que les dio origen.
Igualmente cuando se requiere comparar cursos de accin, la Estadstica proporciona unas guas,
que han de seguirse, y hacen plausibles la conclusiones que se obtengan al aplicar unos
procedimientos consistentes con dichas guas, aunque no las garantiza al cien por ciento, siempre
ofrece informacin sobre el riesgo de equivocarse en la magnitud establecida.
El pensamiento estadstico, es una dimensin transversal a toda heurstica que intente obtener
informacin o tomar decisiones en ambientes de variabilidad e incertidumbre.
Para finalizar, podemos plantear la pregunta Cmo comparar la eficiencia de varias heursticas
en ambientes de incertidumbre o en situaciones pobremente estudiadas?
Una posible estrategia para lograr este propsito, como ya lo discutimos anteriormente, puede
darse con base en la simulacin, la cual permite a costos relativamente bajos predecir el
comportamiento de una heurstica, en diferentes ambientes y condiciones de partida. Conociendo
comportamientos aproximados de las componentes de un sistema y de sus complejas relaciones,
puede hacerse uso de las herramientas que proporciona la simulacin para obtener resultados
empricos del comportamiento del sistema completo, pudindose evaluar la sensibilidad o
robustez a ciertas condiciones y ambientes.
1.3
32
El mecanismo de generacin de los datos bsicos, que han de servir de cimientos o de materia
prima para la elaboracin de informacin. En este primer elemento, la atencin se centra en
valorar si el mecanismo o instrumento usado registra confiablemente los rasgos que se pretenden
observar o medir en el objeto de estudio. As pues en el caso del astrnomo, quien pretende
registrar sus datos, usando un sofisticado telescopio, para estimar algunas distancias entre
cuerpos celestes, la pregunta clave es si las distancias registradas por su aparato corresponden a
las verdaderas distancias en la realidad, deber estar razonablemente seguro que a travs de su
instrumento, no se producen desviaciones significativas2 pues de no ser asi, el astrnomo deber
estimar la magnitud de estas desviaciones o deformaciones, con el propsito de construir ajustes
que corrijan las deficiencias de su instrumento. Es razonable pensar que si lo que mide el
astrnomo no se corresponde con la realidad, sus elaboraciones conceptuales, aunque plausibles,
Significativo, en el contexto de la astronoma y de la problemtica especfica que se aborda. Esto deber ser
33
Una vez se dispone de las observaciones, obtenidas con un proceso o instrumento que posee
validez externa, puede decirse que tenemos materia prima con calidad adecuada, que se tiene un
punto de partida, unas condiciones iniciales, a partir de las cuales se elaborara un nuevo
producto, se generaran afirmaciones simples o muy complejas sobre el objeto de observacin,
que constituyen nuevos hallazgos.
La valoracin de ese nuevo producto, de ese cuerpo de afirmaciones, tiene varias aristas. Una de
ellas es la compatibilidad con el conjunto de proposiciones aceptadas como validas, en el campo
que se trata. Si se encuentran contradicciones, se est frente a un nuevo problema a resolver: o se
rechazan las nuevas afirmaciones y se buscan razones que justifiquen su invalidez o se replantean
las proposiciones aceptadas y dadas como vlidas hasta ese momento, buscando una explicacin
plausible para ese nuevo comportamiento registrado. La otra arista, no excluyente con la primera,
es juzgar el producto, es decir el nuevo conjunto de afirmaciones generadas, con base en un
Entre otras, que mas tarde abordaremos en forma especfica, como lo es la representatividad de la muestra objeto
34
juicio sobre el proceso de elaboracin, es decir haciendo una valoracin crtica de la lgica4
utilizada, partiendo de las observaciones vlidas, y usando el universo de proposiciones
aceptadas como vlidas.
Cuando el resultado de esta valoracin crtica del proceso de construccin de las conclusiones, es
positivo se dice que el estudio tiene validez interna.
Los conceptos de validez externa y validez interna, adoptan formas muy especiales, cuando la
naturaleza de la investigacin, hace que la observacin se realice con base en muestras de
individuos de una poblacin que tiene variabilidad en cuanto a las caractersticas objeto de la
investigacin y por tal razn las conclusiones son obtenidas mediante un proceso inductivo, en el
cual estn presentes ingredientes como el azar y la incertidumbre.
1.4
LA
VALIDEZ
EN
INVESTIGACIONES
QUE
USAN
MTODOS ESTADSTICOS
1.4.1
La caracterstica esencial de los estudios que usan mtodos estadsticos, radica en la observacin
con base en muestras probabilsticas5 y las inferencias de naturaleza probabilstica, que permiten
asociar a sus conclusiones o hallazgos niveles de confianza, como resultado de la componente de
aleatoriedad o azar que involucra.
Muestra probabilstica, para diferenciarla del muestreo intencional, en el que es el juicio del investigador el que
decide sobre los elementos a estudiar y por lo tanto las inferencias no son de naturaleza estadstica. En adelante
siempre que se haga referencia a muestra o a muestreo, entenderemos muestreo probabilstico.
35
Se puede ver que en esta situacin una componente adicional al instrumento de observacin
propiamente dicho, es la representatividad de la muestra.
Sobre la representatividad de una muestra, se ha especulado mucho y es motivo de serias
controversias, algunas de las cuales aun tienen vigencia.
Aqu, el criterio para valorar la representatividad de una muestra, tiene dos dimensiones
esenciales: el mecanismo mediante el cual se seleccionan las unidades a incluir en la muestra y
el nmero de elementos a incluir en la misma. En resumen: la forma y la cantidad.
La forma de muestrear, es decir el mecanismo para seleccionar la muestra, debe ser tal que se
procure plausiblemente conservar la estructura de las caractersticas y las relaciones que se
quieren observar, que los alejamientos se deban solamente a la accin del azar. Esta afirmacin, a
veces se operacionaliza con afirmaciones como: ..Todos las unidades de la poblacin deben
tener la misma probabilidad de ser seleccionadas en la muestra algo as como la democracia en
la seleccin de la muestra. aunque podra funcionar algo ms flexible, como: ..El mecanismo de
seleccin6 debe ser tal que se conozca la probabilidad que tiene cada unidad de la poblacin de
ser incluida en la muestra.., esta segunda afirmacin, mas general que la primera, exige conocer
los ponderadores o pesos que ms tarde, en el anlisis deber darse a cada una de las unidades de
la muestra para conservar la mencionada estructura de la poblacin.
De hecho cada uno de los llamados modelos de muestreo7, tiene asociado el conocimiento de la
probabilidad que cada unidad de la poblacin tiene de ser seleccionada, as por ejemplo en
Ntese que la representatividad de una muestra, se juzga ms que por si misma, por el mecanismo que le di
orgen.
7
En las llamadas poblacines finitas, es decir que la poblacin esta conformada por un nmero conocido N de
unidades.
36
37
Existe la falsa creencia de que para que la muestra sea representativa debe contener el 10% de las
unidades de una poblacin, lo cual se contradice con un sencillo ejemplo: para saber el tipo de
sangre de una persona, no es necesario extraerle el 10% de la sangre, basta con una sola gota,
puesto que se sabe que todas las gotas de sangre de su cuerpo son del mismo tipo. Aqu se nota
como el grado de homogeneidad de las unidades toma un papel importante en la definicin del
tamao de la muestra. Podra traerse tambin el caso de la sabia ama de casa que solo prueba una
sola cucharadilla de su rica sopa, para tomar con base en ella la decisin de ponerle o no mas sal,
eso si, asegurndose de antemano en garantizar la homogeneidad al menear con maestra por
todos los rincones de la olla. El tamao de la muestra si se relaciona con el tamao de la
poblacin a muestrear, pero la heterogeneidad, es decir la variabilidad de la caracterstica de
inters, pesa mucho ms en su determinacin, a tal punto que en poblaciones muy grandes9, el
tamao de la poblacin no tiene ninguna importancia, es decir que las frmulas para el clculo
del tamao de la muestra no toman en cuenta el tamao de la poblacin,
En todo caso el criterio que define si una muestra de un tamao determinado, puede considerarse
representativa, tiene relacin con el nivel de precisin requerido. Puede intuirse que entre mas
precisin se exija, ms grande se requerir la muestra.
La precisin de una estimacin puede expresarse generalmente a travs de dos elementos: el
error tolerable () y la confianza () o confiabilidad. El error tolerable es la diferencia que
estamos dispuestos a aceptar entre el verdadero valor poblacional ()10 y el calculado con la
muestra ( n )11 . La probabilidad de que el error tolerable no sea sobrepasado debe ser mayor o
10
11
A la expresion para calcular este valor con base en la muestra se le conoce como estadstico y cuando se usa
como instrumento para conocer la magnitud del parametro, se le llama estimador
38
igual que el nivel de confianza (). De esta manera la expresin de donde se despeja el tamao
de muestra es :
P n
1.4.2
39
12
Una suerte es un lote de terreno, que se maneja como una unidad, para la siembra, el arreglo, el corte, etc.
13
Normalmente el terreno se va empobreciendo con el nmero de siembras (cortes) hasta el punto de que se hace
necesario arreglar (Remover y abonar) el terreno despus de un cierto nmero de cortes, generalmente
cuatro(4).
40
A esta solucin, para lograr validez interna, se le llama construccin de bloques14. No obstante
existen otras soluciones para este mismo problema de falta de comparabilidad, como por
ejemplo, la aleatorizacin o involucrar en el modelo de anlisis al factor de confusin como una
variable, que permite hacer las comparaciones para cada nivel del factor, cuando se da este caso,
al factor de confusin en el modelo se le conoce como covariable.
Ntese que la identificacin de potenciales factores de confusin, no es tarea de un estadstico,
sino del investigador que conoce el campo de su disciplina especfica.
1.5
ESTADSTICA Y MEDICION
La materia prima de la Estadstica son los datos, los cuales son el resultado de la "observacin"
de alguna(s) caracterstica(s) de los elementos de inters en cierto estudio. La naturaleza de la
caracterstica y el instrumento que dispone para registrar la misma, definir el tipo de escala de
medicin que se ajuste a la situacin dada.
Escalas de medicin. Cuando se hace referencia a las escalas se trata de asociar nmeros a las
caractersticas con el propsito de manipularlas y obtener nuevo conocimiento sobre las
caractersticas del estudio.
Se consideran generalmente cuatro escalas de medicin: escala nominal, escala ordinal, escala de
intervalo y escala de razn.
La escala nominal, hace uso de los nmeros para dar nombre a los elementos que han sido
clasificados en distintos grupos, clases o categoras de acuerdo con alguna propiedad cualitativa.
El nmero asignado a una clase slo acta como un rtulo o cdigo para diferenciar los
elementos de esa clase con los de otra. Por ejemplo si se clasifica un conjunto de objetos por su
14
41
color, las categoras pueden ser: azul, amarillo, rojo, verde, a las cuales podemos asociar respectivamente los nmeros 1,2,3,4 y se hablar de la categora 1 para hacer referencia al grupo de
objetos de color azul o 4 para el verde, pero los nmeros aqu, slo son cdigos para nombrar los
elementos de una clase.
La escala ordinal, hace uso de los nmeros para clasificar los elementos de un conjunto en
categoras en los cuales los nmeros no slo sirven para nombrar sino que son base para
comparaciones de la forma: "ms grande", "igual", "menor", es decir, que el valor numrico de la
medida se usa para indicar el orden que ocupa un elemento al comparar el tamao relativo de sus
medidas, del ms grande al ms pequeo, de all el nombre de escala. Un ejemplo, cuando a una
persona se le pide ordenar de la ms importante a la menos importante, asignando nmeros de 1 a
4, a las siguientes necesidades: empleo, salud, vivienda, servicios pblicos. Aqu el nmero se
usa para representar la prioridad de las necesidades; de esta manera si un individuo asigna el
nmero 1 a la vivienda y el 4 al empleo, indicar que para l es "ms importante" la vivienda que
el empleo.
La escala de intervalo, considera pertinente informacin no slo sobre el orden relativo de las
necesidades, como en la escala ordinal, sino tambin del tamao del intervalo entre mediciones,
esto es, el tamao de la diferencia (resta) entre dos medidas. La escala de intervalo involucra el
concepto de una unidad de distancia. Por ejemplo la escala con la cual casualmente
representamos la temperatura; un incremento en una unidad (grado) de la temperatura est definido por cambio particular en el volumen de mercurio en el interior del termmetro, de esta
manera, la diferencia entre dos temperaturas puede ser medida en unidades (grados). El valor
numrico de una temperatura es meramente una comparacin con un punto arbitrario llamado
"cero grados". La escala de intervalo requiere un punto cero, como tambin, una unidad de
distancia, pero no importa cual punto se define como cero ni cual unidad es la unidad de distancia. La temperatura ha sido medida adecuadamente por mucho tiempo en las escalas
Fahrenheit y centgrada, las cuales tienen diferente temperatura cero y diferentes definiciones de
1 grado o unidad. El principio de la medida de intervalo no es violado por cambios en la escala o
en la localizacin.
Roberto Behar y Mario Yepes
42
La escala de razn, es usada cuando no solamente el orden y el tamao del intervalo ente
medidas son importantes, sino tambin la razn (o cociente) entre dos medidas. Si es razonable
hablar de que una cantidad es "dos veces" otra cantidad, entonces la escala de razn es apropiada
para la medicin, como cuando medimos distancias, pesos, alturas, etc. Realmente la nica
diferencia entre la escala de razn y la escala de intervalo, es que la escala de razn tiene un
punto cero natural, mientras que en la escala de intervalo ste es arbitrario. En ambas escalas la
unidad de distancia es arbitrariamente definida.
Es muy importante tener presente la escala de medicin cuando se realiza un estudio, puesto que
las pruebas estadsticas varan dependiendo de la escala de medicin de las caractersticas en
referencia.
En general puede decirse que la escala de razn es la que tiene a su disposicin una mayor
cantidad de herramientas estadsticas para su tratamiento.
1.5.1
donde M es finito
Otros ejemplos son los siguientes: nmero de consultas al mdico durante un ao, nmero de
clientes que llegan a un banco durante una hora, nmero de ensayos realizados hasta obtener el
primer xito.
Roberto Behar y Mario Yepes
43
Variable continua, es aquella, cuya naturaleza hace que exista un intervalo de puntos, los cuales
son valores que puede tomar la variable. Por ejemplo, la estatura de una persona, esta variable
puede tomar cualquier valor en el intervalo (1.50 m, 1.60m). El tiempo entre dos llegadas
consecutivas al servicio de urgencias de un hospital. El rea cultivada de trigo en las fincas del
valle del Ro Cauca .
Esta clasificacin no tiene en cuenta la poblacin en la cual va a ser observada la variable, es
decir, no interesa en la clasificacin, si la poblacin es finita o infinita, puesto que de acuerdo con
la definicin una variable es discreta o continua por si misma. Tampoco juega papel alguno el
instrumento de medicin que se use.
Las definiciones como son presentadas son de utilidad en el tratamiento descriptivo de los datos,
como se ver ms adelante.
1.6
Se definen a continuacin algunos trminos que se usarn con frecuencia en el presente escrito.
1.6.1 Poblacin
Se identificar con este nombre al conjunto de elementos de inters en un estudio, sobre los
cuales se desea informacin y hacia los cuales se extendern las conclusiones. El trmino
poblacin no debe asociarse exclusivamente con poblacin humana; tiene sentido hablar de la
poblacin de tornillos que se producen durante un da en una determinada fbrica, o de la
poblacin constituida por todas las fincas de un pas o una regin.
En todo estudio, la poblacin debe estar definida en forma muy precisa, de tal manera que pueda
determinarse en algn momento si un elemento dado pertenece o no a la poblacin. Por ejemplo
supngase que se va a realizar un estudio para determinar el porcentaje de desempleo en Cali a
abril 4 de 1995; algunas reflexiones tendientes a caracterizar a la poblacin que concierne a dicho
estudio son las siguientes:
El estudio hace referencia a los caleos o a los residentes en Cali?.
Roberto Behar y Mario Yepes
44
Que significa ser residente en Cali? una persona que lleg a Cali en abril 3 de 1995, pertenece
a la poblacin? o una persona que se fue de Cali en la misma fecha?
Por la naturaleza del estudio los elementos de inters son las personas que "deberan estar
empleadas" (de la observacin de estas se definir quienes lo estn y quienes no, para determinar
el porcentaje de desempleo), entonces cabe la pregunta: cmo se caracterizan los que "deberan
estar empleados? (edad, condiciones de salud, incapacidad, etc.).
Estas reflexiones sugieren definiciones precisas que conducen a una determinacin adecuada de
la poblacin.
1.6.2 Muestra
En muchas ocasiones se requiere conocer una caracterstica medible de la poblacin, para ello se
puede observar, uno a uno, todos los elementos de la poblacin (Censo), lo cual casi siempre es
impracticable o muy costoso; en estos casos puede "hacerse una idea" sobre la caracterstica
poblacional, observando slo algunos elementos de la poblacin, stos constituyen una muestra
de esa poblacin.
1.6.3 Parmetro
Se llamar parmetro a una caracterstica medible de la poblacin. Por ejemplo, la edad
promedio de los estudiantes de una escuela, el porcentaje de varones; el dimetro promedio de
los tornillos que se producen en una fbrica, la tasa de crecimiento promedio de la tilapia roja, el
tiempo promedio entre fallas de una maquina etc. Un parmetro es una constante para la
poblacin.
1.6.4 Estadstica
Se denominar estadstica a una caracterstica medible en la muestra por ejemplo la edad
promedio de una muestra de estudiantes de una escuela, o el porcentaje de varones en la muestra;
Roberto Behar y Mario Yepes
45
el dimetro promedio de los tornillos de una muestra de la poblacin de una fbrica, etc. En
general una estadstica es una funcin de los datos de una muestra; como puede intuirse el valor
que asume una estadstica depende de la muestra que se haya tomado. Generalmente se usan las
estadsticas para hacerse una idea de los parmetros, cuando esto sucede se llaman estimadores.
Ntese que una estadstica en general varia de una muestra a otra, en este sentido puede mirarse
como una variable y drsele el tratamiento que expondremos para las variables.
1.7
A continuacin se presentan las principales actividades que es necesario realizar cuando se hace
un estudio estadstico.
1.7.1.
Consiste en la justificacin del estudio, la determinacin de los objetivos del estudio, revisin
bibliogrfica, planteamiento de las hiptesis que se desea probar o rechazar o definicin de los
parmetros que se desea estimar, incluyendo la precisin que se requiere en la estimacin.
1.7.2.
Definicin de la poblacin
En esta etapa se realiza el plan de anlisis, se define una ruta preliminar de ataque al problema.
Se seleccionan, si es del caso, algunas tcnicas estadsticas que podran ayudar a esclarecer
preliminarmente la situacin. Es razonable, que el plan preliminar sufra modificaciones, en la,
medida en que se van valorando los hallazgos. Sin embargo tener un plan permite definir un
camino de accin, una valiosa gua de accin.
46
1.7.4.
Algunos llaman a esta etapa "diseo del experimento" ( o diseo de la muestra) y consiste en
definir si se observar la poblacin completa (censo) o slo parte de ella (muestreo). En este
ltimo caso deber determinarse el tipo de muestreo a utilizar y el tamao de la muestra para
unas especificaciones de precisin deseadas (error tolerable y nivel de confianza), igualmente
debe definirse la logstica de la recoleccin de la informacin.
1.7.6.
Recoleccin de la informacin
Esta es una etapa muy importante, pues de ella depende la calidad de la informacin. Los errores
en este sentido no los miden las herramientas estadsticas, por esta razn la recoleccin de la
informacin requiere mucho control sobre los instrumentos como tambin sobre el proceso de
medicin.
La dificultad para disear un control eficiente sobre la calidad de los datos recogidos, en algunas
ocasiones, hace ms confiable una muestra que un censo, puesto que se requiere controlar un
menor volumen de recursos, garantizando de esta manera una mejor calidad de los datos.
1.7.7.
Esta etapa la constituye la aplicacin de las tcnicas que proporciona la estadstica descriptiva y
que consiste en la organizacin de la informacin en forma til y comprensible, mediante la
elaboracin de cuadros, tablas, grficos y reduciendo los datos recolectados por medio de algunos
indicadores que faciliten su interpretacin; esta etapa es una fase exploratoria, no obstante
constituye un medio para hacerse una idea de los rasgos poblacionales. El anlisis de la muestra,
Roberto Behar y Mario Yepes
47
pocas veces tiene inters en s mismo, siempre se usa la muestra como un instrumento para
conocer la poblacin. Por esa razn la caracterstica de Representatividad de la muestra debe
garantizarse siempre, independientemente de que se realice anlisis exploratorio (descriptivo) o
se utilicen herramientas probabilsticas para hacer inferencia estadstica.
1.7.8.
Inferencia estadstica
Se denomina as, al proceso inductivo que permite inferir a toda la poblacin proposiciones,
basadas en las observaciones y resultados proporcionados por una muestra. Como puede intuirse
en este proceso de inferencia, aparece un factor de incertidumbre, y de error, puesto que muestras
distintas pueden arrojar resultados distintos; es precisamente esto lo que hace que la teora de la
probabilidad sea la herramienta bsica de la inferencia estadstica, sta no evita los errores que
por azar se cometen, pero si los cuantifica y les asocia una medida que indica el nivel de
confianza de los resultados obtenidos, lo cual constituye su principal mrito.
1.7.9.
En esta ltima etapa se plantean las conclusiones en forma clara, indicando sus alcances y
limitaciones, igualmente se plantean nuevas hiptesis que pudieran surgir en la propia
exploracin de los datos.
1.8
ESTADSTICA DESCRIPTIVA
Cuando se habla de estadstica descriptiva, da la impresin que es una de las varias "estadsticas"
que existen. En realidad es una etapa de la metodologa estadstica, en la que no se involucra la
teora de la probabilidad como herramienta para realizar inferencias a toda la poblacin, sin
embargo se construyen indicadores, se hacen grficos, se realizan comparaciones, siempre con el
inters de conocer sobre la poblacin de donde fue tomada la muestra.
La estadstica descriptiva permite procesar los datos de una muestra y obtener informacin que
puede ser usada con fines exploratorios, para plantear hiptesis o como materia prima de la etapa
de inferencia estadstica.
Roberto Behar y Mario Yepes
48
49
Captulo 2
Distribuciones Unidimensionales de Frecuencia
50
Como puede observarse, la suma de las frecuencias absolutas de todos los datos, debe
coincidir con el nmero total de datos (tamao de la muestra).
No obstante que la muestra consta de 25 datos, slo hay 8 datos distintos: 4, 5, 6, 7,
8, 9, 10, 11 que es posible representarlos, sin prdida de generalidad, como x1, x2,...,
xm. En nuestro caso n = 25 y m = 8, de esta manera la frecuencia absoluta del dato xi ,
se denotar por ni, as por ejemplo el dato x3 = 6 aparece 3 veces en la muestra, por tanto
n3 = 3.
Se puede tambin expresar la frecuencia absoluta como una fraccin o porcentaje del nmero de datos y surge as lo que se conoce como frecuencia relativa del dato xi que se
denota por fi, as pues:
n
3
f i = i ; en el ejemplo f 3 =
= 0.12
n
25
51
que indica que el dato x3 = 6 representa el 12% de toda la muestra, es decir que de
acuerdo con la muestra, en la hora pico, el 12% de las veces llegan al banco 6 clientes por
minuto.
Tambin se podra calcular el nmero de datos que son menores o iguales que xi, que se
denomina frecuencia absoluta acumulada hasta xi , y se denota por Ni; si x1, x2, ... ,
xm estn ordenadas en forma creciente, entonces:
Ni = n1 + n2 + ... + ni
En nuestro ejemplo N4 es el nmero de datos que son menores o iguales que x4 = 7, es
decir,
N4 = 11.
Ni
= f1 + f 2 +...+ f i
n
52
Si se toma una muestra de n datos, de los cuales hay m distintos, que ordenados en forma
creciente son x1, x2, ... , xm, entonces:
0 ni n ;
n1 + n2 + ... + nm = n ; es decir
i = 1, 2, 3, ..., m
m
= n
i= 1
ni
; 0 fi 1
n
fi =
f1 + f 2 +...+ f m = 1 ; es decir
fi = 1
i =1
N j = n1 + n2 + ... + n j ; es decir N j = ni
i= 1
Nm = n
n1 = N1 N 2 ... N m = n
j
F j = f1 + f 2 +...+ f j ; es decir F j =
fi
i =1
f1 = F1 F2 ... Fm = 1
En realidad las frecuencias acumuladas pueden definirse como funciones sobre todos los
nmeros reales, as:
Roberto Behar y Mario Yepes
53
As pues :
F(4.32) = la fraccin del total de datos que son menores o iguales que 4.32.
= 0.04
N(4.32) = 1
54
55
Fig. 2.1. Diagrama de frecuencias del nmero de clientes que llegan a un banco en un minuto, en la
hora pico.
Fig. 2.2. Grfico de frecuencias acumuladas para la variable "nmero de clientes que llegan a un
banco en un minuto en la hora pico"
Roberto Behar y Mario Yepes
56
Como puede notarse el grfico corresponde a una funcin escalonada, lo cual indica que slo hay
datos en los puntos de discontinuidad, cuya frecuencia est representada por el valor del salto
correspondiente.
2.2
Supngase que se tienen observaciones sobre la estatura de las personas que conforman una
muestra de tamao 25 y que el instrumento de medicin usado tiene precisin hasta las
centsimas de milmetro, as pues un valor podra ser 1.74325 metros; si se pretendiera aplicar el
procedimiento que se us para las variables discretas, habra varios problemas, uno de ellos es
que seguramente, todos los datos son distintos, lo cual generara una tabla de frecuencias
absolutas con el mismo nivel de informacin que la muestra bruta; adems, no es de inters
conocer con ese nivel de detalle la informacin, por ejemplo, no es de inters conocer cuntas
personas tienen una estatura de 1.74325 metros.
En estos casos, es ms fcil agrupar la informacin en los llamados intervalos de clase. Para
ilustrar sobre su construccin, se plantea el siguiente ejemplo.
Ejemplo 2.2
Los datos que a continuacin se presentan corresponden a los tiempos de atencin (en minutos)
de pacientes en el "filtro" del servicio de urgencias de un hospital:
13.1, 7.1, 14.8, 19.0, 10.2, 18.0, 19.8, 15.0, 17.3, 10.8, 22.3, 14.5, 17.1, 14.9, 12.0, 14.0, 18.4, 10.2, 15.8,
16.5, 15.0, 17.6, 4.2, 13.4, 21.2, 14.7, 13.8, 21.0, 14.3, 11.1, 18.9, 8.3, 16.6, 11.2, 20.2, 14.4, 13.5, 18.2,
12.4, 17.0, 26.7, 15.5, 22.0, 12.9, 17.9, 7.4, 18.0, 19.8, 16.0, 21.2.
Generalmente se empieza por determinar las observaciones extremas (mnima y mxima), que en
el ejemplo aparecen marcadas: min (xi) = 4.2; max (xi) = 26.7.
Estos valores extremos definen el rango de la muestra:
57
min (xi)
Se debe determinar los valores L0, L1, L2, ...,Lm que constituirn los lmites de los m intervalos de
clase que se van a construir, con longitudes C1, C2, ..., Cm; de esta manera:
L1 = L0 + C1
L2 = L1 + C2
Li = Li-1 + Ci
Lm = Lm-1 + Cm
El primer lmite inferior, L0, debe escogerse de tal manera que sea un poco menor que el dato ms
pequeo; un criterio para definirlo es el siguiente:
Como los datos estn registrados con una cifra decimal, se entiende que el instrumento de
medicin usado tiene una precisin de hasta las dcimas de minuto. Puede decirse que los datos
tienen (3) cifras significativas, lo cual indica que el registro "4.2 minutos" est representando
cualquier valor real en el intervalo: (4.15 , 4.25), de esta manera puede definirse L0 = 4.15.
Si se quiere que todos los intervalos de clase sean igual longitud, es decir C1 = C2 = ... = Cm =
C , se deber adoptar un valor C, que puede ser arbitrario o estimado con base en el rango de los
Rango
m
Para el ejemplo 2.2 se construirn intervalos de diferente tamao, por ser la situacin ms
general.
Comenzando con L0 = 4.15 podemos definir los otros lmites como:
L1 = 7.15, L2 = 11.15, L3 = 13.15, L4 = 16.15, L5 = 18.15, L6 = 21.15, L7 = 27.15, en este
58
Para determinar la frecuencia asociada con cada intervalo, deben contarse los datos que
pertenecen a cada uno; las definiciones de las frecuencias dadas anteriormente siguen vigentes
para el caso de variables continuas, lo mismo que sus propiedades.
Se determina el punto medio de cada intervalo, que se denomina marca de clase y se representa
por x'i as:
x i' =
Li 1 + Li
59
OBSERVACIONES
1.
Se puede apreciar en el cuadro 2.3. que el lmite superior de un intervalo coincide con el
lmite inferior del siguiente, lo cual podra originar un problema de indefinicin en caso de que
un dato coincidiera con un lmite, no se sabra donde clasificarlo. En el ejemplo no puede existir
este problema puesto que todos los lmites se han construido con una cifra decimal adicional a la
que tienen los datos; cuando aquella posibilidad exista, se recomienda la convencin: (Li-1 , Li]
que significa que en cualquier intervalo de clase, el lmite inferior no pertenece a l, pero s, su
lmite superior.
2.
puesto que no se dispone de los datos en forma individual sino una caracterizacin ms global,
por ejemplo cuando se dice que en el intervalo 4.15 - 7.15 hay 2 datos, con ello no se sabe que
valor tienen los dos datos, por tal razn cuando se reduce el nmero de intervalos se est
globalizando ms los datos y por tanto perdiendo ms informacin. Por otro lado si se construyen
demasiados intervalos se desvirta el objetivo de la estadstica descriptiva, puesto que su
manipulacin se hace compleja y su presentacin poco comprensible. Por tanto se recomienda
que, en caso de que no exista una razn especial, se tome un nmero de intervalos mayor que
cinco (5) y menor que veinte (20).
3.
Cuando sea posible debe procurarse que todos los intervalos sean de igual longitud, lo
cual en ocasiones simplifica algunos clculos y sobre todo facilita la interpretacin, puesto que
comparando directamente las frecuencias, se est comparando la densidad (concentracin) en
cada intervalo.
En algunas veces no es posible construir intervalos de igual longitud, por ejemplo, cuando la
variable "salario" toma un rango amplio de valores, para bajos salarios, clases de $100.000 de
longitud pueden considerarse, por ser esta diferencia importante, pero para altos salarios esta
Roberto Behar y Mario Yepes
60
longitud resulta pequea. En estas situaciones la longitud de los intervalos crece con los valores
de la variable, incluso a veces los intervalos extremos pueden ser abiertos ("los que ganan menos
de $500.000" o los que ganan $1000.000 o ms).
Cuando los intervalos de clase son de diferente tamao como en el ejemplo presentado, se
dificulta conocer donde hay mayor concentracin de los datos, esta situacin se soluciona
calculando la densidad de frecuencia relativa de cada intervalo, que consiste en expresar el
porcentaje (o fraccin) promedia de datos que hay por cada unidad de intervalo de clase.
As por ejemplo el intervalo 13.15 - 16.15 contiene el 30% de los datos. Como el intervalo tiene
una longitud de 3 minutos, se puede decir que dicho intervalo tiene una densidad promedio de
10% por cada minuto, que es el resultado de plantear: "si el 30% de los datos estn en una
longitud de 3 minutos, en un minuto que porcentaje habr?
De esta manera si se asume que los datos en cada intervalo estn uniformemente distribuidos, se
puede definir la densidad f*i en el i-simo intervalo, como:
f
f i* = i
Ci
Si se expresa la densidad como una funcin para cualquier nmero real x, se obtiene la llamada
funcin emprica de densidad, que para el ejemplo 2.2 estar dada por:
f *(x) =
61
0
si x <4.15 x >27.15
0,04 3 1,33% /min
si 4.15 < x 7.15
0,10 4 2,5%/min
si 7.15 < x 11.15
0,12 2 6%/min
si 11.15 < x 13.15
0,30 3 10%/min
si 13.15 < x 16.15
0,18 2 9%/min
16.15 < x 18.15
5.33% /min
si 18.15 < x 21.15
1.66% /min
21.15 < x 27.15
La palabra "emprica" es para resaltar que proviene de una muestra, pero pretende indicar
el comportamiento de la variable en la poblacin (funcin de densidad de probabilidad).
La expresin general para la funcin emprica de densidad, est dada por:^
0
f ( x ) = fi
C
i
*
x L0 x > Lm
Li-1 < x Li , i = 1, 2, ..., m
Este grfico es conocido con el nombre de histograma y consiste en una serie de rectngulos,
cuya base son los intervalos de clase y su altura la densidad correspondiente.
62
Al observar la figura 2.3 se puede apreciar que el rea de uno de los rectngulos, por ejemplo el i-
simo es:
Ai = base x altura
= Ci x f*i
f
como f i* = i , entonces :
Ci
f
Ai = Ci x i = f i
Ci
Lo cual significa que el rea de cada rectngulo es equivalente con su frecuencia relativa; de esta
manera si un rectngulo tiene el doble de rea que otro significa que contiene el doble de datos.
La suma de todas las reas debe dar 100% 1.00.
Roberto Behar y Mario Yepes
63
La funcin emprica de densidad puede usarse para calcular en forma aproximada el porcentaje
de datos que hay en un intervalo cualquiera. Si en el ejemplo 2.2 se deseara estimar el porcentaje
total de consultas que duran 20 minutos o menos, se procede de la siguiente manera:
(
18.15
20
]
21.15
El porcentaje de datos menores o iguales que 20 puede calcularse al sumar el porcentaje de datos
menores iguales a 18.15 (74%) ms el porcentaje de datos que hay entre 18.15 y 20, el cual
puede obtenerse mediante el siguiente razonamiento: "si en el intervalo 18.15 - 21.15 se tiene una
densidad de 5.33 %/min entonces que porcentaje de los datos habr en una longitud de (20 18.15) minutos?
5.33%
( 20 1815
. )min = 9.86%
min
As pues que el porcentaje de datos que son menores o iguales que 20 es:
Supngase que x pertenece al intervalo (Li-1 , Li] el cual tiene una longitud Ci y una frecuencia
relativa fi, e interesa conocer la frecuencia relativa acumulada hasta x.
64
En virtud del supuesto sobre la homogeneidad en la distribucin de los datos en cada intervalo, se
puede plantear la siguiente regla de tres: "si en Ci unidades hay una frecuencia fi, en (x - Li-1)
unidades, qu frecuencia habr ?", la respuesta es:
fi
( x Li 1 )
Ci
Por lo tanto:
f
F ( x) = F ( Li 1 ) + i ( x Li 1 )
Ci
f
Si se reemplaza f i* = i , se puede escribir:
Ci
si x 4.15
Si se desea estimar el porcentaje de datos que son menores o iguales que 15 minutos, es decir:
F (15) = 0.26 +
0.30
(15 13.15)
3
65
66
De la funcin F(x) en el ejemplo 2.2, se observa que en cada intervalo, F(x), representa un
segmento de la recta, cuya pendiente es la densidad del intervalo respectivo. Esto da origen al
siguiente grfico con el nombre de ojiva.
67
Estas mismas ideas que se han desarrollado hasta ahora a partir de los datos de una muestra,
tienen sus respectivos homlogos cuando se
estadstica y las variables continuas con las que trabajamos recibiran el nombre de variables
aleatorias, anlogamente las funciones de densidad empricas f*(x) y la Funcin de distribucin
acumulada F(x), reciben los nombres de funcin de densidad de probabilidad y Funcion de
distribucin acumulativa de probabilidad. Aqu intentaremos dar el paso de una manera natural
de los conceptos de las muestras a los conceptos de las poblaciones, es decir, de las frecuencias
relativas a la probabilidad y de las reas de los rectngulos en el histograma a las reas bajo
curvas o funciones y en los clculos pasaremos de las suma de reas de rectngulos al calculo de
intergrales. Ilustraremos este proceso con el siguiente ejemplo.
Ejemplo 2.2 B. (Del Histograma a funcin de densidad de Probabilidad)
1
2
3
4
5
Intervalo
(Aos de
Antigedad)
Frecuencia
Relativa
0-2
2-3
3-5
5-10
10-20
TOTAL
10%
5%
40%
40%
5%
100%
%(
fi
68
Un histograma es una serie de rectngulos construidos cada uno de los cuales tiene como base el
intervalo correspondiente y cuya rea representa la frecuencia relativa fi de su intervalo
respectivo. De tal manera que un intervalo que contiene el doble de datos que otro, deber estar
representado por rectngulo que tiene el doble del rea. (Ojo que se dice el doble de rea y no de
altura). Observe del cuadro de frecuencias de nuestro ejemplo, que el primer rectngulo, deber
tener el doble de rea que el segundo. El Tercero deber tener la misma rea del cuarto y adems
debe tener 4 veces el rea del primero, pues esa es la relacin de las reas.
Con estos criterios construyamos nuestro histograma.
Vamos a construir el primer rectngulo de un rea arbitraria, pero las dems reas debern
guardar proporcionalidad de acuerdo con las frecuencias relativas fi .
Si vemos el grfico de la Figura, se aprecia muy claramente la proporcionalidad de las reas de
acuerdo con la frecuencia relativa de cada intervalo. Observe por ejemplo que el primer
rectngulo tiene el doble de rea que el segundo, no obstante que tienen la misma altura. Note
como los intervalos tercero y cuarto tienen rectngulos con la misma rea, no obstante que las
alturas son distintas. Tambin el primero y el ltimo tienen la misma rea, pues en ambos hay el
5% de los datos.
Interpretacindelaaltura f i * delosrectngulosdeunhistograma.
69
Por lo pronto denotemos la altura del rectngulo i-esimo, por fi * , observe que le hemos colocado
un (*) para diferenciarlo de fi .
Llamemos Ci al ancho del intervalo i. De esta manera C1 = 2 , C2 = 1 , C3 = 2 , C4 = 5 , C5 = 10
De la definicin de histograma qued establecido que las reas representan las frecuencias
relativas respectivas, es decir que si llamamos Ai al rea correspondiente, entonces estamos
diciendo que: Ai = fi , pero como el rea de un rectngulo es base por altura, entonces:
fi
. Observe que se divide la frecuencia relativa entre el nmero de unidades que tenga el
Ci
intervalo correspondiente, entonces las unidades de fi * son (% de datos por cada unidad de la
variable en dicho intervalo). Veamos por ejemplo para el primer intervalo: f1 = 10% y C1 = 2 , as
70
f1
10%
=
= 5% / ao , que escrito en forma decimal
C1 2 aos
f4
40%
=
= 8% / ao 0, 08 / ao
C4 5 aos
Es decir que las unidades del eje Y en el grfico de la Figura.2.4B, es 1/unidad o %/unidad, por
eso se le conoce como densidad de frecuencia ( fi * ).
i
1
2
3
4
5
Intervalo
(Aos de
Antigedad)
Frecuencia
Relativa
0-2
2-3
3-5
5-10
10-20
TOTAL
10%
5%
40%
40%
5%
100%
%(
fi
Densidad de
Frecuencia
(
fi* )
5%/ao
5%/ao
20%/ao
8%/ao
0,5%/ao
71
Figura 2.4C. Representacin del porcentaje de trabajadores con antigedad de 4 aos o menos.
Observe que el rea sombreada se calcula sumando por un lado las reas de los primeros
rectngulos (10%+5%) y por otro lado la parte del tercer rectngulo comprendida entre 3 y 4,
que resulta ser la mitad de 40%, es decir 20%. As que el porcentaje de trabajadores con
antigedad de 4 aos o menos se estima en:
72
Figura2.4D. Representacin en el Histograma del porcentaje de trabajadores con Antigedad entre 4 y 7,5
aos.
Rec
73
0, 05* x
0< x2
0,10 + 0, 05* ( x 2 )
2< x3
F ( x ) = P ( X x ) = 0,15 + 0, 20*( x 3)
3< x 5
0,55 + 0, 08*( x 5)
5 < x 10
x > 20
1
74
Usando dicha expresin podemos estimar por ejemplo el porcentaje F(4), es decir el porcentaje
de trabajadores con 4 aos de antigedad o menos: Observe que x=4, se encuentra en el intervalo
3 < x 5 , por lo tanto:
F (4) = P( X 4) = 0,15 + 0, 20*(4 3) = 0,35 35%
Ahora imaginemos que disponemos de un nmero muy grande de datos de tal manera que sea
posible construir muchos intervalos de pequea anchura y a tal punto que el conjunto de
rectngulos del histograma se convierte en una curva suave f * ( x ) como se muestra en la Figura .
El rea sombreada ilustra a F(x)= P ( X x ) .
Note que si ahora conociramos la expresin para f * ( x ) , el rea sombreada podra calcularse
como:
F ( x) = P ( X x ) =
f ( x ).dx
*
la curva.
A esta funcin suave f * ( x ) que se supone ahora describe la poblacin completa y no una muestra
le llamaramos funcin de densidad de probabilidad de la variable aleatoria antigedad.
75
b)
f ( x) 0 x
f ( x ).dx = 1
P ( a X b ) = f ( x ).dx
a
76
Ejemplo 2.2C.
Cual deber ser la ecuacin que defina las dos rectas que conforman el triangulo equiltero y
que definen la funcin de densidad de probabilidad estimada?.
Pues como el rea debe ser igual a la unidad, esto significa que la altura h del triangulo, debe
ser tal que el rea valga 1.
Area = 1 =
base * altura 2* h
=
=1
2
2
De donde se deduce que la altura h=1. Por lo tanto la ecuacin de la recta de pendiente positiva
es f(x)=x. la ecuacin de la recta con pendiente negativa ser: f(x)=2 x, as pues:
77
0 < x 1
x
f ( x) =
2 x 1 < x 2
1,5
f ( x ).dx
0,5
P ( 0,5 X 1,5 ) =
1,0
1,5
x.dx +
0,5
P ( 0,5 X 1,5 ) =
1,0
1,5
x.dx +
0,5
x2
P ( 0,5 X 1,5 ) =
2
P ( 0,5 X 1,5 ) =
( 2 x ).dx =
1,0
( 2 x ).dx =
1,0
1,0
1,5
x2
+ 2x =
2 1,0
0,5
3
4
Observe que el rea, en este caso, se hubiera podido calcular como el rea de dos trapecios, con
base mayor la altura del triangulo.
Ejemplo 2.2D
El tiempo, en horas, que tarda un autobs urbano en completar su recorrido se puede representar
mediante una variable aleatoria X con la siguiente funcin de densidad:
kx ; 0 x 1
f (x) =
0 ; resto
78
De acuerdo a las propiedades de una funcin de densidad para variables aleatorias continuas se
tiene que: f ( x) 0 y adems
Es decir que
f ( x)dx = 1
1 2 1 k
k
k
kxdx = k xdx = k x = (1) 2 (0) 2 = (1) =
0
0
2
2
2 0 2
1
k
=1 k = 2
2
0 x 1
en otra parte
F ( X ) = P( X x) = f (t )dt
0
F(x)=P ( X x ) =
1
1
2
2tdt = 2 tdt = 2 t 2 = 2 ( x 2 (0) 2 ) = ( x 2 ) = x 2
0
2 0
2
2
x
x<0
0
2
F(x)=P ( X x ) = x 0 x 1
1
x >1
79
La probabilidad de que el autobs efecte su recorrido como mucho en 3/4 de hora se obtiene as:
2
9
3
F (3 / 4) = P ( X 3 / 4 ) = = = 0.5625
4 16
Lo cual significa que aproximadamente el 56% de las veces el autobs se tarda de hora o
menos.
La probabilidad de que tarde ms de 3/4 de hora es: 1 F ( X = 3 / 4) = 1 0.5625 = 0.4375
Calcular la probabilidad de que el autobs tarde entre 20 minutos (1/3 de hora) y 1 hora
en completar su recorrido.
Observe que P ( a X b ) = P ( X b ) P ( X a ) = F (b) F (a)
1
1
1
Por lo tanto: P X 1 = P ( X 1) P X = F (1) F ( )
3
3
3
1 1
F (1/ 3) = P ( X 1/ 3) = = = 0.1111
3 9
F (1) = P ( X 1) = (1) = 1
2
Por lo tanto la probabilidad de que el autobs tarde entre 20 minutos (1/3 de hora) y 1 hora en
completar su recorrido es de 0.8888. Es decir que se espera que aproximadamente el 88,9% de las
veces el autobs tarde un tiempo comprendido entre 20 minutos y una hora.
Ejemplo 2.2E
80
1 x
Es decir que f ( x) = e 3
3
x>0
Cierto constructor trabaja con avales bancarios para cada una de sus obras, de forma que los
intereses que debe pagar empiezan a resultarle muy gravosos cuando las licencias sufren retrasos
superiores a 4 meses. En estos momentos, el constructor tiene en proyecto un total de 12 obras.
Calcule:
P( X > 4) =
f ( x)dx =
1
1 3x
3
dx
x
1 3 x
1 x
e dx = e 3 dx = e 3
3
3 4
= e
1
()
3
+e
1
( 4)
3
= ( 0) + e
4
3
= 0.2635
Es decir que un poco ms de la cuarta parte de las veces que se hace un trmite de licencia, sta
tarda ms de 4 meses y resulta gravosa para el constructor
Ejemplo 2.2F
El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una variable
aleatoria donde X, con la siguiente funcin de densidad de probabilidad:
f ( x) = 20 x 3 (1 x)
; 0 x 1.
F ( x) = P ( X x ) = f ( x)dx
0
0
x<0
x
1
1
F ( x) = 20 x3 (1 x)dx = 20 x 4 x 5 0 x 1
5
4
0
1
x >1
0
x<0
4
5
F ( x) = 20 ( 14 x 15 x ) 0 x 1
1
x >1
81
82
ser el rea bajo la funcin de densidad, o por lo menos no disminuye. Adems note que est
definida para todos los nmeros reales.
b) Calcule la probabilidad de que el compuesto contenga las dos terceras partes o menos de
alcohol.
1 4 1 5
P ( X 23 ) = F ( 23 ) = 20 ( 23 ) ( 23 ) =0,469
5
4
83
Ya sabemos que la mediana es aquel valor x , tal que P ( X x ) = 50% , es decir aquel valor para
el cual F ( x ) = 0,50 , con lo cual:
1
1
20 x 4 x5 = 0,50
5
4
Lo cual significa que la mediana del contenido de alcohol es 0,687, es decir que la mitad de
las veces el compuesto resulta con 68,7% de alcohol o menos.
d) Supngase que el precio de venta del compuesto anterior depende del contenido de
alcohol. Especficamente si 1/3 X 2/3, el compuesto se vende a 50 dlares/galn, de
otro modo se vende a 30 dlares /galn. Si el costo por galn del compuesto es 20
dlares /galn, entonces a la larga, cuanta es en promedio la utilidad por galn?
Definamos una nueva variable aleatoria que represente la Utilidad U, por galn.
Roberto Behar y Mario Yepes
84
$ 30 Si 13 X 23
U =
$ 10 En Otro caso
1 2 4 1 2 5 1 1 4 1 1 5
P(U = $ 30) = 20 + = 0, 4156
4 3 5 3 4 3 5 3
Probabilida
d
0,4156
0,5844
1,0000
85
86
Con base en este gran conjunto de datos, se construy un histograma que nos permite tener una
estimacin emprica de la funcin densidad, la cual est representada por las alturas de los
rectngulos. Con base en la densidad emprica se ajust el modelo que muestra la Figura que
result ser f ( x) =
100
x2
x > 100 .
Figura 2.4 L. Ilustracin del ajuste de un modelo para funcin de densidad de probabilidad
Con base en dicha funcin de densidad ajustada: a) Verifique que f(x) es una verdadera funcin
de densidad b) Construya la Funcin de distribucin acumulada de probabilidad para la duracin.
c) Estime la probabilidad de que un dispositivo dure menos de 200 horas. d) Estime la
probabilidad de que un dispositivo dure ms de 200 horas, si se sabe que todava funciona
despus de 150 horas. e) De acuerdo con los resultados anteriores, decida si es razonable pensar
que los dos eventos son independientes. f) Si se instalan 3 de estos dispositivos en un sistema y la
duracin de cada dispositivo es independiente de las de los otros, estime la probabilidad de que al
menos uno de ellos dure ms de 150 horas. g) Cul es el nmero mximo n de dispositivos que
debern ponerse en un conjunto de modo que haya una probabilidad 0,50 de que despus de 150
horas todos estn funcionando
Roberto Behar y Mario Yepes
87
Ejemplo 2. 2G.
Si un instrumento electrnico tiene una duracin X (en unidades de 1000 horas) que se considera
una variable aleatoria continua con funcin de densidad de probabilidad.
f ( x) = e x Para valores positivos de x.
El costo del artculo es $2, sin embargo el fabricante vende el artculo en $5, con la condicin de
que devuelve todo el dinero si el instrumento dura 900 horas o menos , es decir si X 0,900.
F ( x) = P ( X x ) = f ( x)dx
0
0
Si x 0
x x
0
x
F ( x) = P ( X x ) = e dx = e x dx + e x dx
x>0
0
0
0
F ( x) = P ( X x ) =
x
1 e
Si x 0
x>0
88
89
2.3
Unas medidas cada vez mas utilizadas, son los cuartiles, que son tres valores Q1, Q2, Q3 que
dividen la muestra ordenada en cuatro partes que contienen aproximadamente el mismo numero
de datos (de all su nombre), es decir que el 25% de los datos son menores que Q1, el 50% de los
datos son menores que Q2 y el 75% de los datos son menores que Q3. Estos tres valores producen
una muy buena sntesis de la distribucin de frecuencias.
Ntese que siempre entre los valores Q1 y Q3, se encuentra el 50% central de los datos.
Calculemos los cuartiles para el ejemplo anterior, del tiempo de espera en un servicio de
urgencias.
Primer cuartil Q1
Note que el primer cuartil Q1, se encuentra en el intervalo 11.15 a 13.15, puesto que la frecuencia
acumulada hasta 11.15 es F(11.15)= 14%
Q1, en dicho intervalo, tal que su frecuencia acumulada sea el 25%, es decir:
F (Q1)=25%.
90
0.12
(Q1 11.15)
2
De donde puede despejarse Q1, obtenindose el primer cuartil Q1 = 12.98 minutos. Es decir que el
25% de las personas son atendidas en 12.98 minutos o menos.
Segundo cuartil Q2. (Mediana)
Se desea encontrar el tiempo Q2, tal que el 50% de las personas son atendidas en ese tiempo o
menos, es decir: F(Q2) = 50%.
Al observar el cuadro o la funcin F(x), encontramos que F(13.15)=26% Y F(16.15)=56%, lo
cual nos indica que el segundo cuartil Q2, se encuentra entre 13.15 y 16.15, Si revisamos la
funcin F(x) para este intervalo y reemplazamos x por Q2, se obtienen
F (Q 2) = 0.26 +
0.30
(Q 2 13.15) = 0.50
3
Despejando Q2, resulta Q2 = 15.55 minutos. Es decir que la mitad de la gente (50%), espera
15.55 minutos o menos.
Tercer cuartil
F (Q3) = 0.74 +
0.16
(Q3 18.15) = 0.75
3
De donde al despejar resulta Q3= 18.35 minutos. Lo cual se interpreta como que el 75% de las
personas esperan 18.35 minutos o menos.
91
Los cuartiles proporcionan una muy buena idea de la forma como estn distribuidos los datos,
pues entre un par de cuartiles consecutivos siempre est el 25% de los datos. Esta interpretacin
de la informacin que se obtiene de los cuartiles se har ms evidente en los diagramas de cajas y
alambres, que se presentar ms adelante.
Ntese que entre los cuartiles Q1 y Q3 siempre se encuentra el 50% central de los datos, pues
abajo de Q1 esta el 25% y arriba de Q3 esta el 25%.
En el ejemplo anterior diramos que la mitad de las personas esperan entre 12.98 y 18.35
minutos.
A la distancia entre los cuartiles Q1 y Q3, se le llama rango intercuartlico.
Rango intercuartlico (RIC) = Q3 - Q1. Para el ejemplo tendramos que RIC= 5.37 minutos
2.3.1 Diagrama de caja y Alambres15
Este diagrama constituye una sntesis muy buena de la distribucin de frecuencias y su sencillez
la hace ms til, sobre todo en aquellas situaciones donde se hace necesario comparar dos o ms
distribuciones (poblaciones o tratamientos).
En la figura, se ilustra un diagrama de caja y alambres para el caso del ejemplo de los tiempos de
espera.
Veamos cmo fue construido y cul es su interpretacin.
Se calculan los siguientes puntos:
Q1, Q2, Q3, Q1 - 1.5 RIC, Q3 + 1.5RIC.
15
Estos grficos son una contribucin del gran estadstico Jhon Tukey.
92
interno inferior
: Q1 = 12.98 (primer cuartil)
: Q2 = 15.55 (segundo cuartil = mediana)
: Q3 = 18.35 (tercer cuartil)
: Q3 + 1.5RIC = 18.35 + 1.5(5.37) = 26.40 cerco interno superior.
Entre los cercos interiores, generalmente se encuentra un porcentaje alto de los datos, de tal
manera que los puntos que se salen de los cercos, son puntos sospechosos de ser OUTLIERS16
(Puntos atpicos).
16
Los datos caracterizados como OUTLIERS tienen gran importancia, pues son puntos que tienen magnitudes
raras con respecto al conjunto de datos. Es muy importante sealar que lo raro, supone un criterio de lo que es
normal, de tal manera que se supedita a esa definicin. Un punto puede ser raro, si se supone que la distribucin
de la cual proviene es Gaussiana (campana de Gauss), pero puede no serlo si su poblacin de origen es una
Weibull (forma de baera).
El sealar algunos puntos como OUTLIERS obliga a poner especial atencin sobre
ellos, puede ser desde una mala medicin, hasta un verdadero hallazgo. En no pocas ocasiones los OUTLIERS se
convierten en los puntos mas valiosos de una
investigacin. Imagnese
un
93
Fig. 2.5. Diagrama de caja y alambres para la distribucin de los tiempos de espera en el servicio de
urgencias de un hospital.
Con esta informacin se procede as: la caja se construye entre los cuartiles Q1 y Q3, con un
ancho arbitrario. Dentro de la caja se marca Q2, con trazo. Los alambres que salen de Q1 y Q3,
van hasta el dato ms prximo al cerco interno (sin cruzar el cerco.). Note que en este caso
dichos puntos son 10.2 (que es el dato mas prximo al cerco interno inferior, que esta en 4.92) y
por arriba esta el punto 22.3 (El dato mas prximo al cerco interno superior que es 26.4). Los
puntos que se salen del cerco son marcados sobre el grfico.
Se marcan (dibujan) los puntos que se han salido del cerco, en este caso son: 4.2 por abajo y el
dato 26.7 que se sali del cerco interno superior.
Roberto Behar y Mario Yepes
94
Tambin suele definirse un cerco externo ubicado a 3RIC de Q1 y Q3. Los puntos que quedan
fuera de este cerco externo se conocen como OUTLIERS y son puntos que pueden ser atpicos,
comparados con el cuerpo de datos. (En nuestro caso el cerco externo estara entre los puntos 3.13 y 34.46, fuera de los cuales no se encuentra ningn dato.)
2.3.2 Como calcular los cuartiles, cuando los datos no estn agrupados
Ejemplo 2.3
Los siguientes datos corresponden a las edades de 14 personas seleccionadas al azar, entre cierta
clase de empleados de la poblacin objetivo de un estudio.
25, 38, 29, 42, 39, 54, 23, 33, 45, 45, 26, 34, 30, 31.
Pas #1; Ordenar los datos de menor a mayor:
Observe que cuando los nmeros indican posicin, los colocamos entre parntesis.
Los cuartiles los descubrimos calculando la posicin que ocupan; es conveniente empezar por
el segundo cuartil
Segundo cuartil Q2. (Mediana)
95
Para calcular la posicin que ocupa el segundo cuartil, promediamos las posiciones extremas
ocupa la posicin (14)+(1) / 2 = (7.5). Como existe la posicin 7.5, porque un dato queda en la
posicin 7 o en la 8, entonces que interpretaremos que queda en el medio de los datos que
estn de 7 y 8 , para evitar esta ria, hacemos el promedio de los dos datos que ocupan esas
posiciones:
Primer Cuartil17, Q1. El primer cuartil se obtiene considerando solo los datos que quedan
antes de la mediana. Para este grupo de datos se calcula la media .Se trata pues de encontrar la
posicin de la mitad de la mitad.
La posicin que ocupara el primer cuartil ser la mediana de este primer grupo de datos: que es
el que ocupe la posicin
(7) +(1)/2 = (4.)
17
Note que si el nmero de datos es impar, el segundo cuartil Q2, resultara ser un dato de la muestra. En este caso,
para calcular la ubicacin del primer cuartil Q1, se toman en cuenta los datos que quedaron antes del segundo
cuartil, excluyendo el dato que resulto ser el segundo cuartil Q2. Anlogamente para el tercer cuartil Q3.
Roberto Behar y Mario Yepes
96
La posicin que ocupara el tercer cuartil ser la mediana de este segundogrupo de datos: que es
el que ocupe la posicin
(8) +(14)/2 = (11.)
La posicin once la ocupa el dato 42. Este es el tercer cuartil.
Q3 = 42 Aos
97
18
Note que en este caso particular, todos los puntos quedaron dentro de los dos (2) cercos, lo cual no ocurre
siempre, por esta razn los puntos interiores mas cercanos al cerco son el mnimo y el mximo de los datos, que
definen la longitud de los alambres que van pegados a la caja.
98
En resumen puede decirse que los diagramas de cajas y alambres son tiles, entre otros para los
siguientes propsitos:
1.
2.
Para hacerse una muy buena idea de la dispersin de los datos, basndose en la longitud
de la caja (rango intercuartlico), pues siempre la caja, corresponde al 50% de los datos que estn
en la parte central. Adems se aprecia el rango de los datos, el cual corresponde a la distancia
entre las observaciones ms extremas.
3.
El diagrama de cajas y alambres, nos permite hacernos una muy buena idea sobre el grado
El diagrama es til para identificar posibles OUTLIERS ( fuera de los cercos internos
Una utilidad grande de los diagramas de caja y alambres, es comparar varias poblaciones,
a travs de sus distribuciones. En este caso se construye un diagrama para cada distribucin y se
dibujan en una misma escala (sobre un mismo plano), lo cual permite muy fcilmente hacerse
una idea de las semejanzas y las diferencias de los rasgos ms importantes de las distribuciones.
Como se ilustrara en un ejemplo ms adelante.
Ejemplo 2.4
En el cultivo de la caa de azcar, se llama una suerte a un lote de terreno, en el cual hay
varias parcelas del cultivo, a las cuales se les da el mismo tratamiento, es decir cuando se
cosecha, se hace en todas las parcelas de la suerte, cuando se arregla el terreno igualmente o
cuando se siembra o se riega. El terreno de una suerte puede llegar a ser usado hasta para cuatro
Roberto Behar y Mario Yepes
99
siembras consecutivas antes de ser acondicionado de nuevo (remover tierra, agregar abono,
fertilizantes, etc.). Se supone que con cada siembra el terreno se fatiga y que eso se ver reflejado
en la produccin de caa (o en la de azcar).
Se han tomado datos de produccin de varias suertes, que han estado sometidas a diferente
nmero de cortes (o de siembras), que tienen diferente procedencia (caa propia (1) o de
proveedor externo (0), edad de corte (meses). Use un diagrama de cajas para comparar las
distribuciones de frecuencias de los rendimientos para las suertes de acuerdo con los diferentes
criterios, que se menciona en el problema.
PREGUNTA 1: El nmero de cortes que se haya hecho sobre un terreno, desde su ltimo
100
En la Figura 2.7, puede notarse que las distribuciones, para los cortes 1, 2, 3 tienen variabilidad
muy parecida, mientras que la variabilidad de la distribucin del rendimiento para las de cuatro
(4) cortes es mayor.
Ntese tambin que en esta situacin se han considerado en forma conjunta la produccin propia
del ingenio y la de los proveedores externos, por eso surge de manera natural la pregunta
siguiente.
PREGUNTA 2.
101
figura 2.7. De esta manera estamos valorando la procedencia como un posible factor de
confusin.
Fig. 2.7. Diagrama de cajas de la comparacin del rendimiento de acuerdo con el origen de la caa y
el nmero de cortes en la suerte
Observe en la grfica las cajas sombreadas corresponden a las distribuciones del rendimiento,
para caa del ingenio, mientras la blanca corresponde a proveedor externo. Se nota un
comportamiento bastante similar, es decir, no parece existir diferencia en la caa con respecto a
su origen. Los rendimientos medianos, son consistentes con los del primer grfico, al igual que
su variabilidad.
La edad de corte, parece tener bastante importancia, averigemos ahora por su distribucin:
PREGUNTA 3: Cul es la distribucin de la edad de corte, de acuerdo con el origen de la caa y
de su nmero de cortes?
102
Para dar respuesta a este interrogante, se construyen cajas para la variable edad de corte
(meses), para cada una de las distintas subpoblaciones que resultan de la combinacin de nmero
de cortes y origen (procedencia).
Fig. 2.8. Comparacin de la edad de Corte segn el numero de cortes que se han practicado en la
suerte
En esta situacin, sera muy conveniente conocer un poco ms sobre el fenmeno, para tener
claridad acerca de cul es la edad ptima de corte, aunque depende de la variedad de caa que se
siembre. Supongamos que para nuestro caso, la edad de corte recomendada est entre 12.5 y 13.5
meses. A medida que la caa envejece va empobreciendo su contenido de sacarosa, que es en
realidad lo que interesa. En estas condiciones podra decirse que en casi todos los casos se corta
despus de 12,5 meses, sin embargo, un porcentaje muy grande de las veces se est cortando por
encima de los 13.5 meses. Se sugiere averiguar las razones para que esto est ocurriendo.
103
de caa cosechado? (Note que aqu no sabremos el impacto en trminos del contenido de
sacarosa, solo del rendimiento en trminos de la cantidad de caa colectada).
Dado que ya conocemos que el nmero de cortes, es una variable importante, debemos
involucrarla en el anlisis, para que no se convierta en un factor de confusin. De esta manera
debe construirse las cajas para la distribucin del rendimiento, para cada categora de nmero de
cortes y de edad. Aqu, la edad se ha categorizado, en tres grupos: joven, madura y vieja.
Veamos el resultado.
Obsrvese en la figura 2.9, que para cada nmero de cortes hay tres grficos que corresponden
a diferentes grados de madurez de la caa al cortarse, pero sistemticamente, en cada uno de los
grupos de tres grficos, la distribucin de la caa joven, tiene un rendimiento mediano mas alto,
seguido por la madura y por ltimo por la vieja, presentndose diferencias relativamente mas
grandes en la caa de cuatro (4) cortes.
En esta comparacin se ve muy claro el impacto de la edad de corte.
Queda pendiente un estudio, en el que se evale el contenido de sacarosa y podra repetirse el
anlisis, teniendo como variable de respuesta Ton de azcar/Fa.
104
2.4
REDUCCION DE DATOS
105
La media aritmtica de una muestra de datos: x1, x2,..., xn, se define como:
n
x + x 2 + ... + x n
x= 1
=
n
1 n
= xi
n i= 1
i= 1
Si los datos corresponden a una variable discreta que est organizada en un cuadro de frecuencias, se puede escribir:
m
ni x i
x = i =1
m
ni
xi =
f i xi
n
i =1
i =1
Ejemplo 2.5
2 + 3+ 2 + 2 + 2 + 3+ 1+ 3+ 3+ 4
=
10
ni
1
4
4
1
fi
0.1
0.4
0.4
0.1
2.5
106
x=
n x
i
i= 1
1 1+ 4 2 + 3 4 + 1 4
= 2.5
10
x=
f i xi =
i =1
1.
= xi - a
(x
x) = 0
i= 1
i= 1
i= 1
i= 1
( xi x ) = xi x = xi nx
i= 1
= xi n (
i= 1
x )=
i
107
Como puede apreciarse, las desviaciones de los datos que estn a la izquierda de la media tienen
signo negativo y las de la derecha signo positivo, por esta razn, para que la suma de todas sea
cero, debe suceder que la suma de las distancias a la media de los datos de la izquierda de ella,
debe ser igual a la suma de las distancias a la media de los datos de la derecha, lo cual convierte a
la media en el centro de gravedad.
Si quisiramos visualizar esta propiedad a partir de una distribucin expresada en trminos de su
funcin densidad :
La interpretacin fsica nos dice que si justo donde se ubica la media aritmtica se colocara un
punto de apoyo y se colgara de los puntos donde se ubican los datos, el mismo peso en cada uno,
entonces el sistema quedara en equilibrio.
2.
La media de los cuadrados de las desviaciones de los datos con respecto a un valor "a" es
108
f(a)=
( x a)
i =1
tiene su mnimo en a= x
Demostracin:
) (
1 n
f(a)= xi x + x a
n i =1
Desarrollando el cuadrado:
f (a ) =
)(
) ( x x) +
1 n
1
= xi x + 2 x a
n i =1
n
(x
n
Como
i= 1
) (
2
2
1 n
xi x + 2 xi x x a + x a
n i =1
x = 0
n xa
i =1
(propiedad 1)
Entonces:
(
n
f (a ) =
i =1
xi x + n x a
n
) ( x x)
n
i =1
+ xa
Como puede apreciarse el primer trmino no depende de "a" y adems n( x - a)2 0, por tanto
f(a) es mnimo cuando n( x - a)2 = 0 y esto ocurre cuando a = x .
3.
Si xi = k, para todo i, o sea que si todos los datos son iguales a k, entonces: x = k.
Veamos:
4.
xi
i= 1
x=
109
k
i= 1
nk
= k
n
Si todos los datos de una muestra se multiplican por una constante, el promedio de dicha
y=
5.
y
i= 1
ax
i= 1
= a
i= 1
= ax
Z = ax + by
Veamos:
n
Z=
Zi
i =1
n
Z = ax + b y
( ax + by )
i =1
=a
xi
yi
+b
n
n
110
Si se define la variable ingreso familiar Z, como la suma de los ingresos de los esposos, entonces
el ingreso familiar de la pareja i ser: Zi = Xi + Yi y el ingreso familiar promedio ser:
tienen n1, n2,..., nk, elementos (n1 + n2 + ... + nk = n), con promedios x 1, x 2,..., x k
respectivamente, entonces el promedio de la muestra global estar dado por:
x=
n1 x 1 + n2 x 2 + ... + nk x k
n
k
n x
i
x=
es decir:
i= 1
xi =
por tanto:
Gi
ni
= ni x i
Gi
x
j= 1
x
G1
+ ... +
G2
x
Gk
= n1 x 1 + n2 x 2 + ... + nk x k
111
Entonces:
x=
j= 1
n1 x1 + n2 x 2 + ... + nk x k
n
Ejemplo 2.7
Una muestra de 500 trabajadores tienen un salario promedio de $108.000, si el salario promedio
de los hombres es $120.000, y el de las mujeres $100.000, cuntos hombres y mujeres hay?
Si n1 es el nmero de hombres y n2 el de mujeres, entonces:
n1 + n2 = 500
(1)
Adems:
$108.000 =
n1 120.000 + n2 100.000
500
(2)
Se sabe que cuando los datos estn agrupados en clases, se pierde la individualidad de la
informacin, as por ejemplo puede conocerse que en el intervalo (10,20] hay 3 datos, pero no conocemos cul es el valor de cada uno de estos datos; esto plantea una dificultad para el clculo de
la media usando la definicin presentada.
Se puede calcular en este caso la media, en forma aproximada, usando la propiedad 6 y el
supuesto de que los datos en cada intervalo estn uniformemente distribuidos, puesto que si esto
sucede , la media aritmtica de los datos del intervalo i, coincide con el punto medio del intervalo
(marca de clase), de esta manera se puede considerar la muestra total, dividida en "m"
submuestras constituidas por los datos que pertenecen a cada uno de los intervalos, as aplicando
la propiedad 6, se obtiene que:
112
x=
Como:
n1 x 1 + n2 x 2 + ... + nm x m
n
x xi' ; entonces :
m
x=
n x
'
i i
i =1
= hi xi'
i =1
Ejemplo 2.8
x=
12 15 + 16 30 + 42 50 + 25 65 + 5 85
= 481
.
100
O en forma equivalente:
x = 0.12 x 15 + 0.16 x 30 + 0.42 x 50 + 0.25 x 65 + 0.05 x 85
x
= 48.1
113
La mediana ya fue tratada cuando tocamos el tema de los cuartiles, pues la mediana corresponde
con el segundo cuartil. En sntesis la definimos de la siguiente manera.
Si
de una variable X y
ordenamos dichos valores de la forma: X (1) , X ( 2) ,..., X ( n ) . Ahora hemos colocado los subndices
entre parntesis para indicar las nuevas posiciones de los datos, es decir que el menor de los datos
ahora se llama X (1) van en secuencia no decreciente, hasta llegar a X ( n ) que es el mayor de
todos. As las cosas la mediana se halla con la siguiente expresin:
X n +1
Me = X n + X n
+1
2
2
n impar
n par
Si quisiramos definir la mediana con solo palabras, deberamos decir que es un valor Me, tal que
supera no ms de la mitad de los datos y es superado por no ms de la mitad de los datos. (parece
un trabalenguas, pero es una definicin vlida) A continuacin se presentan algunos ejemplos:
supngase que se tiene la siguiente muestra ordenada en forma no decreciente: 2, 5, 7, 9, 11,
veamos si 5 cumple la definicin: 5 supera un dato (no ms de la mitad de los datos) y es
superado por 3 datos (ms de la mitad), esto implica que 5 no es la mediana.
Probemos con el 7; ste supera dos datos (no ms de la mitad) y es superado por dos datos (no
ms de la mitad), as que Me = 7, se puede intuir que siempre que el nmero de datos sea impar,
al ordenar la muestra, existir un valor nico tal que supera y es superado por el mismo nmero
de datos, ste ser la mediana.
Cuando el nmero de datos es par por ejemplo, sea la muestra 2, 5, 7, 9, 11, 15, ordenada en
forma no decreciente, al aplicar la definicin al valor 7; ste supera a 2 datos (no ms de la
mitad) y es superado por 3 datos (no ms de la mitad) esto implica que 7 es mediana.
114
Al ensayar con el valor 9; ste supera tres datos (no ms de la mitad) y es superado por dos datos
(no ms de la mitad), es decir que tambin 9 es mediana; ntese adems que cualquier punto de la
recta real, que se encuentre entre 7 y 9, cumple con la definicin, en estos casos cundo el
nmero de datos es par, se ha convenido definir la mediana como el promedio de los dos datos
que son medianos as pues:
Me =
7+ 9
= 8
2
Supngase que se tienen m intervalos: (L0 , L1] , (L1 , L2] , ..., (Lm-1 , Lm] , la mediana es
el punto cuya frecuencia absoluta acumulada es n/2 la relativa acumulada es 0.50, es
decir la mediana es el valor x tal que:
N(x) =
n
2
o en forma equivalente:
F(x) = 0.50
De acuerdo con esto el intervalo (Li-1 , Li] que contiene la mediana es tal que:
N(Li-1) <
n
2
y N(Li)
n
2
o lo que es equivalente:
Me = N-1 (
115
n
) = F-1 (0.50)
2
fi
(Me - Li-1)
Ci
0.50 F (Li 1 )
Ci
fi
(2.7)
n
N ( Li 1 )
M e = Li 1 + 2
Ci
ni
(2.8)
116
Ejemplo 2.9
Si se observan las frecuencias acumuladas puede notarse que el 28% de los datos son menores o
iguales que 40 y que el 70% son menores que 60, lo cual implica que debe existir un punto en el
intervalo (40 , 60] tal que el 50% de los datos sean menores o iguales que l; lo cual indica que el
intervalo (40 , 60] contiene la mediana. De acuerdo con la expresin (2.7), se tiene que:
Li-1 = 40
Me = 40 +
F(Li-1) = 0.28
0.50 0.28
20 = 50.5
0.42
fi = 0.42
Ci = 20
Propiedad de la mediana
La suma de las distancias de los datos a un punto "a" es mnima cuando ese punto es la mediana,
es decir:
n
Si f(a) =
i= 1
a = Me .
Roberto Behar y Mario Yepes
117
Figura 2.10.
118
indicador puede ser contraproducente, puesto que cambios irrelevantes en la muestra pueden
producir grandes cambios en el indicador, lo cual puede prestarse para interpretaciones
equivocadas, esto ocurre con la media aritmtica, cuando la distribucin es asimtrica, es decir
cuando hay unos pocos valores muy grandes o muy pequeos, la media es muy afectada por
ellos.
Ejemplo 2.11
Si se pretende formar una idea de la magnitud de los salarios de dicha empresa, usando la media
aritmtica se tiene:
x=
119
Como puede apreciarse, un 5% de valores muy grandes influyen tanto en la media, que su valor
$184.500, es superior al 95% de los salarios por esta razn, en este caso, la media aritmtica, mal
podra representar la muestra.
La mediana en cambio es ms resistente a los valores extremos, en este caso, la mediana
corresponde al valor Me = $130.000.
2.4.1.3 La moda
120
Los tres puntos que muestra la figura 2.11, son puntos de mxima densidad en sus entornos
respectivos. Si se conociera la funcin de densidad en forma analtica, podramos encontrar la(s)
moda(s), por derivacin de la funcin f(x); pero como slo se dispone de la funcin de densidad
emprica que se construy a partir de la muestra, se debe definir un procedimiento que permita
acercarse a la determinacin de los mencionados mximos relativos, para ello se hace referencia
a la figura 2.12.
Fig. 2.12: Funcin emprica de densidad. Elementos que intervienen en le clculo de la moda
Se supone que la moda de mayor densidad se encuentra en el intervalo (Li-1 , Li] que posee la
mayor densidad de frecuencia (el rectngulo ms alto). Si las dos clases adyacentes: la anterior y
la siguiente, tienen igual densidad de frecuencias, se puede suponer que la moda (mximo
relativo) se encuentra en el punto medio de la clase que contiene la moda; en caso contrario la
moda estar desplazada un poco hacia la clase adyacente de mayor densidad de frecuencia.
(suena razonable este criterio).
Por esta razn se conviene que la moda corresponde a la proyeccin del punto 0, ver la figura
2.12, observe que con este procedimiento la moda estar siempre ms cerca de la clase adyacente
con mayor densidad de frecuencia.
121
Con la notacin que aparece en el grfico y sabiendo que los tringulos AOB y DOE son
semejantes, se puede escribir:
M0 = Li-1 + r
Adems
OG
1
r
=
=
, de donde :
OF
Ci r
2
1
Ci
r=
1 + 2
De esta manera
M 0 = Li 1 +
1
Ci
1 + 2
(*)
f
f
1 = i i 1
Ci Ci 1
f
f
2 = i i +1
C i C i +1
Reemplazando 1 y 2 en la expresin (*) tenemos:
M 0 = Li 1 +
2 fi
Ci
fi
f
i 1
Ci Ci 1
C
f i 1 f i +1 i
Ci 1 Ci +1
fj
122
Cj
Como puede apreciarse la clase de mayor densidad de frecuencia es (40, 70] as pues que:
M 0 = 40 +
15%
. 1%
30
0.5%)
(15%
. 1%) + (15%
.
M0
= 50
La moda se usa con mucha frecuencia como indicador de centralidad en caractersticas que tienen
escala nominal dbil, como la escala nominal u ordinal, no obstante tiene grandes aplicaciones en
variables continuas de escala fuerte, por ejemplo en biologa, cuando se quiere asociar por
ejemplo edad y longitud de peces, seguir el comportamiento de la moda en el tiempo, es una
manera de hacer seguimiento a una cohorte de peces. Una aplicacin extraordinariamente
importante de la moda, la constituye el llamado mtodo de la mxima verosimilitud para
Roberto Behar y Mario Yepes
123
construir estimadores, que es muy usado por sus importantes propiedades asintticas. El
resultado de estos mtodos es el hallazgo de la moda de una funcin de probabilidad o de
densidad, llamada funcin de verosimilitud.
2.4.1.4 La media geomtrica
Una poblacin que tena 10.000 habitantes en el ao cero, creci el primer ao a una tasa del 2%,
el segundo ao creci a una tasa del 4% y el tercer ao al 10%. Cul es el factor de expansin
promedio de la poblacin en los 3 aos?
Veamos el siguiente esquema:
Lo cual significa que al final del ao 1, la poblacin era de 10.200 habitantes, es decir se
multiplic por el factor de expansin f1 = (1 + 0.02) = 1.02 , al siguiente ao, los 10.200
crecieron en un 4% para quedar al final del ao 2 una poblacin de 10.608, es decir que los
10.200 se multiplicaron por el factor de expansin f2 = (1 + 0.04) = 1.04; por ltimo los 10.608
se multiplicaron por el factor de expansin f3 = (1 + 0.10) = 1.10 para resultar al final del tercer
ao, una poblacin de 11.669 habitantes es decir que:
Roberto Behar y Mario Yepes
124
P3 = P0 . f1 . f2 . f3
= 11.669
El factor f de expansin promedio debe ser tal que comenzando con la misma poblacin P0 y
expandindose por el mismo factor f todos los aos, al final del tercer ao debe obtenerse la
misma poblacin P3 que producen los factores f1, f2, y f3.
Veamos como actuara f promedio, en el siguiente esquema:
Es decir que si la poblacin se expandiera cada ao por el mismo factor f, la poblacin al final del
tercer ao ser: P0 f3 que debe ser equivalente con la aplicacin de los factores f1, f2, f3, o sea:
P0 . f3 = P0 . f1 . f2 . f3
f =
As que:
f1 f 2 f 3
102
. 104
. 110
. = 10527
.
125
Generalizando se dir que la media geomtrica M.G. de los datos x1, x2, ...,xn es:
M.G.=
x1 x 2 ... x n
M.G. =
(x ) (x )
' n1
1
' n2
2
( )
... x m'
nm
Indicadores de dispersin
126
D. M. =
Me
i= 1
Si se dispone de una distribucin de frecuencias, donde cada xi aparece asociado con su frecuencia ni, entonces puede escribirse:
m
ni x i x
D.M. = i =1
f i xi x
i =1
continuacin:
Si los datos estn agrupados en intervalos de clase, una expresin aproximada para el clculo de
la desviacin media es:
Roberto Behar y Mario Yepes
D.M. =
ni xi' x
n
i =1
127
f i xi' x
i =1
2 4 + 5 4 + 8 4 + 1 4 + 4 4
= 2
5
Lo cual indica que en promedio los datos estn separados de la mediana Me en 2 unidades.
La desviacin media es un indicador de fcil interpretacin directa, pero su estructura matemtica
(valor absoluto) ha hecho difcil su uso en los desarrollos inferenciales de la estadstica, en
cambio existen otros que superan esta dificultad y por tal razn estn asociados con muchos
procedimientos de la inferencia, como por ejemplo:
2.4.2.3 La varianza (S2)
1 n
S = xi x
n i= 1
2
1
2
2
S =
ni (xi x ) =
f i (x i x )
n i =1
i =1
Si los datos estn agrupados en intervalos de clase, una expresin aproximada para la varianza es:
S2 =
) (
m
m
2
2
1
ni xi' x =
f i xi' x
n i =1
i =1
128
No obstante que la varianza est dada por una expresin cuadrtica, que ofrece muchas ventajas
en la manipulacin matemtica, tiene algunas desventajas, entre las cuales estn: su no fcil
interpretacin directa y que sus unidades no coinciden con las unidades de la variable en estudio,
as por ejemplo si x est en metros, su varianza estar dada en metros cuadrados. Esta ltima
desventaja se pretende remediar extrayendo la raz cuadrada a la varianza para obtener la que se
conoce como desviacin estndar (S), que ser:
S=
1
xi x
n
un intervalo con centro en la media y con extremos ubicados a una distancia de k veces la
desviacin estndar S, en dicho intervalo est por lo menos (1 -
1
) x 100% de los datos; escrito
k2
en smbolos ser:
f (x ks, x + ks ) 1
k2
f ( x 2 s, x + 2 s ) 1
1
22
= 0.75
Es decir que en el intervalo construido a 2 desviaciones estndar a cada lado de la media est por
lo menos el 75% de los datos. Para k = 3, se dice que est por lo menos el 88.8% de los datos.
Este principio proporciona cotas para la frecuencia, en trminos de la desviacin estndar, lo cual
ayuda a su interpretacin, pero como es muy general, dichas cotas pueden ser muy bajas, se
Roberto Behar y Mario Yepes
129
observa que para k = 1 el principio dice que en el intervalo ( x s , x + s ) hay por los menos el
0% de los datos, lo cual es obvio.
Propiedades de la varianza
Las propiedades que se presentan a continuacin pueden ser heredadas por la desviacin estndar
con las limitaciones que genera la funcin raz cuadrada.
n
1.
S2 =
x
i
2
i
()
Esta, ms que una propiedad es una forma alternativa de calcular la varianza, realizando menos
clculos numricos que con la expresin que proporciona la definicin. Su demostracin es la
siguiente:
S2 =
1 n
xi x
n i= 1
()
2
1 n 2
x i 2 xx i + x
n i= 1
()
n
1
1
1 n
= x i2 2 x x i + x
n
n
n i= 1
i= 1
1
i= 1
= x i2 2 x
n
n
=
S2 =
()
1
x i2 2 x
()
1
xi2 x
n
()
+ x
()
1
n x
n
130
2.
constante,
3.
1
, que siempre es positiva.
n
Sx2 = 0
S x2 =
2
1 n
x i x , pero se sabe que si xi = C entonces x = C , de este modo:
n i= 1
1 n
(C C ) 2 = 0
n i= 1
S x2 =
4.
Si yi = kxi, entonces S y2 = k 2 S x2
i = 1, 2, ..., n
Es decir: si se tiene una muestra x1, x2, ...,xn, que tiene varianza S2x y cada dato se multiplica por
la constante k, la varianza de esta nueva muestra:
Kx1, Kx2, ..., Kxn, ser k 2 S x2
S y2 =
1 n
yi y
n i= 1
1 n
kxi k x
n i= 1
1 n 2
K xi x
n i= 1
= K2
K 2 S x2
1
xi x
n
5.
131
Si yi = xi + C, entonces S y2 = S x2
i = 1, 2, ..., n
Es decir: que si todos los datos se trasladan la misma distancia C, la varianza no cambia,
lo cual puede verificarse as:
S y2 =
=
=
1
yi y
n
1
( xi + C) x + C
n
1
xi + C x C
n
1
xi x
n
)]
S x2
Ejemplo 2.14
n
D. M.=
x i' M e
i= 1
132
M e = 40 +
0.50 H (Li 1 )
Ci
fi
0.50 0.45
30 = 46
0.25
Entonces
D.M.=
2015 46 + 70 30 46 + 50 55 46 + 40 75 46 + 20 90 46
200
D.M. 21.15
Lo cual indica que en promedio los datos estn separados de la mediana en 21.15
unidades
b) Calcule la varianza
Usando la forma simplificada:
S2 = Promedio de los cuadrados, menos, promedio al cuadrado
( )
ni x i'
( x)
133
c) La desviacin estndar
S=
553.7 = 235
.
1
22
=0.7575%
x 2 s =49.75 2(23.5)=2.75
x + 2 s =49.75 + 2(23.5)=96.75
.
010
16.75
20
134
S
100%
x
Entonces, si una muestra tiene una media aritmtica x = 40.000 metros y una desviacin
estndar S = 500 metros entonces:
C.V. =
500
.
100% = 125%
40.000
135
En el rea de la agricultura, una determinada variedad de maz puede tener asociado (por la
experiencia) como natural, un coeficiente de variacin en su rendimiento por hectrea, cual es
distinto (generalmente menor) si el cultivo est bajo riego, que si esta bajo temporal.
El coeficiente de variacin, puede ser caracterstica de un fenmeno en especial. Se sabe por
ejemplo que si la funcin de densidad de frecuencia de una caracterstica tiene forma
exponencial, siempre su coeficiente de variacin es de 100%, como consecuencia de que la media
y la desviacin estndar son iguales en esta familia de distribuciones.
EJERCICIOS PROPUESTOS
1. Una entidad encargada del control de contaminacin de cierto ro, lleva registros sobre el
oxgeno disuelto, X, expresado en mg/l; stos se presentan a continuacin:
2.6, 3.6, 3.1, 2.6, 2.7, 3.9, 2.4, 2.7, 2.5, 2.3, 4.0, 3.2, 2.5, 1.7, 0.3, 3.1, 2.6, 1.3, 4.3, 1.5, 2.8,
1.8, 4.2, 3.5, 2.4, 2.2, 3.4, 3.7, 0.8, 2.3, 1.9, 4.5, 1.2, 2.2, 2.2, 3.0, 2.1, 1.8, 2.9, 3.8, 3.5, 1.6,
3.2, 4.4, 1.4, 0.7, 2.8, 3.3, 0.5, 2.3 .
a) Agrupe la informacin en intervalos de clase y construya un cuadro de frecuencias
completo.
b) Grafique el histograma, y la ojiva.
c) Calcule el porcentaje de registros que son inferiores a 3.1 mg/l.
c.1
Usando la ojiva
c.2
c.3
136
Verifique si:
Zi =
Xi X
Sx
i = 1, 2, . . . , n
Entonces: Z = 0 y S z2 = 1
137
f)
n1S12 + n2 S 22
n1 + n2
Si a los datos: x1, x2, ..., xn, de una muestra se aplica la transformacin
yi = axi + b, con a > 0 y b > 0, entonces "y" tiene menor dispersin relativa que
"x" (en trminos del coeficiente de variacin).
6. Si P1, P2, ...,Pn representa la poblacin (nmero de habitantes) de una regin en los aos
1, 2, ...,n
expresin para estimar la tasa de crecimiento. Obsrvela y comente las ventajas que
presenta.
138
7. En una poblacin del Cauca se tom una muestra de 50 familias para observar el nmero
de personas menores de 12 aos con el propsito de estimar algunos indicadores sobre
demanda potencial de educacin escolar. Esta arroj los siguientes resultados:
4
7.2 Determine qu porcentaje de las familias tienen 3 personas o menos que son
menores de 12 aos.
7.3 Si la poblacin consta de 1.200 familias estime usted, el nmero de personas
menores de 12 aos.
7.4 Usted est seguro del resultado obtenido en el numeral 7.3 ? qu supuesto
est implcito en la estimacin?
139
140
a) La media aritmtica
b) La mediana
c) La moda
8.7 Calcule con base en los datos agrupados la desviacin estndar.
8.8 Le parece grande la dispersin? Justifique.
8.9 Si se entera que el equipo de medicin de resistencia tiene un error sistemtico, en el sentido que muestra una lectura superior en 5 kg/cm2 al verdadero
valor, entonces calcule la media aritmtica, la mediana, la moda y la
desviacin estndar reales, a partir de los puntos 8.6 y 8.7.
8.10 Si el error sistemtico consistiera en amplificar el valor real en un 10%. Calcule la media y desviacin estndar reales.
8.11 Si se aumenta la muestra con 10 cilindros ms que se prueban con los
siguientes resultados: 232, 256, 287, 228, 295, 226, 277, 233, 247, 277.
Calcule la nueva media y la nueva varianza, usando los resultados
encontrados en 8.6 y 8.7.
8.12 Construya un diagrama de cajas y alambres para los datos originales e
Interprete.
9. Si la caracterstica X de una poblacin tiene la siguiente funcin de densidad:
141
142
Captulo 3
INTRODUCCIN
En el captulo anterior nos ocupamos del tratamiento descriptivo de datos correspondientes a la observacin de una caracterstica en los elementos que constituan
el objeto de estudio. En ocasiones es de inters hacer el tratamiento conjunto de dos
caractersticas o variables observadas en los elementos de una muestra o de una
poblacin, por ejemplo, puede ser importante considerar en forma simultnea las
caractersticas: "costos" y "produccin" por hectrea cultivada de pltano, en las
fincas del Valle del Cauca. En otra situacin podra ser til considerar conjuntamente
las variables: "nmero de personas que habitan" y "rea de dormitorio" para las
viviendas de la poblacin de Guachen. En el campo industrial por ejemplo: "hora
del da" y "nmero de artculos defectuosos producidos". En el rea de la salud:
"edad" y "peso" de los nios de cierta comunidad. En Biologa: "consumo de
alimento" y "ganancia de peso" de los pollos de una granja experimental. En
ingeniera: "caudal" y "profundidad" en cierto punto del cauce de un ro. En
142
3.2
Captulo 3
143
Anlogamente Y1, Y2, ... Yj, ..,Ys, representan las "s" categoras a considerar para
clasificar los elementos de la muestra con respecto a la variable Y.
Cuando los elementos de una muestra se clasifican simultneamente por dos (2)
caractersticas X e Y, surge para su representacin las llamadas "tablas de doble
entrada" que se construirn ms adelante.
Se entiende que un elemento de la muestra se clasifica en slo una categora de X y
en slo una categora de Y.
Si se llama al conjunto de todos los elementos de la muestra y se llama Xi al
conjunto de los elementos de la muestra que pertenecen a la i- sima categora de X y
anlogamente para Y entonces:
Xi Xk = si i k
X1 U X2 U ... U Xm =
Yj Yt = si j t
Y1 U Y2 U ... U Ys =
(Xi Y1) U (Xi Y2) U ... U (Xi Ys) = Xi
(X1 Yj) U (X2 Yj) U ... U (Xm Yj) = Yj
( X i Yj ) =
i= 1 j = 1
m
144
Los datos anteriores pueden ser organizados haciendo conteos en forma anloga a
como se hizo en el caso unidimensionales como se muestra a continuacin:
CUADRO 3.1
DISTRIBUCION CONJUNTA DE FRECUENCIAS ABSOLUTAS DE LAS VARIABLES
"NUMERO DE PERSONAS QUE COMPONEN LA FAMILIA" (X) Y "NUMERO DE
PERSONAS QUE PRODUCEN ALGUN INGRESO" (Y)
Y1
Y2
X1
n11
X2
n12
...
...
n21
n21
Xi
:
ni1
:
Xm
Yj
Ys
n1 j
...
...
n1s
n1.
...
n2 j
...
n2s
:
ni2
:
...
:
nij
:
...
:
nis
n2.
:
nm2
:
...
nm1
:
...
n. 1
n.2
...
nmj
n. j
...
nms
n.s
ni.
:
nm.
n
Y
X
1
2
3
4
5
6
1
2
4
2
0
3
3
14
2
0
1
4
5*
2
5
17*
3
0
0
1
3
0
2
6
4
0
0
0
5
4
2
11
5
0
0
0
0
1
1
2
2
5
7
13
10*
13
50
El dato (6,3) indica que la familia observada est compuesta por 6 personas de las
cuales 3 producen algn tipo de ingreso.
Con respecto a los valores que figuran en el cuadro 3.1, con * pueden interpretarse de
la siguiente manera:
Captulo 3
145
Fig. 3.1: Distribucin conjunta de frecuencias absolutas y relativas de las variables "nmero de
personas/familia" (X) y "nmero de personas que producen algn ingreso en la familia" (Y).
146
No. de Familias
(Frec. Absoluta)
Xi
ni.
1
2
3
4
5
6
2
5
7
13
10
13
50
X1
n1.
n2.
:
ni.
:
nm.
n
X2
:
Xi
:
Xm
Y
X
1
2
3
4
5
0.04
0.00
0.00
0.00
0.00
0.04
0.08
0.02
0.00
0.00
0.00
0.10
0.04
0.08*
0.02
0.00
0.00 0.14*
0.00
0.10
0.06
0.10
0.00
0.26
0.06
0.04
0.00
0.08
0.02
0.20
0.06
0.10
0.04
0.04
0.02
0.26
0.28
0.34*
0.12
0.22
0.04
1.00
En forma general se representa la distribucin conjunta de frecuencias relativas de la
siguiente manera:
1
2
3
4
5
6
Captulo 3
Y1
Y2
X1
f11
X2
donde f ij =
f12
...
...
f21
f21
Xi
:
fi1
v:
Xm
Yj
147
Ys
f1j
...
...
f1s
f1.
...
f2j
...
f2s
:
fi2
:
...
:
fij
:
...
:
fis
f2.
:
:
fm2
:
fmj
:
...
fm1
:
...
fi.
:
fms
fm.
f.1
f.2
...
f.j
...
f.s
1.00
nij
n
; f i. = i.
n
n
relativa
de
la
variable
"nmero
de
148
Yj
f.j
0.28
Y1
f.1
0.34
Y2
3
4
0.12
0.22
Yj
0.04
1.00
f.2
:
f.j
:
Ys
:
:
f.s
1.00
El cuadro 3.4, muestra la distribucin relativa de las familias si slo se observa "el
nmero de personas que producen algn ingreso a la familia".
Puede determinarse el nmero de familias que tienen 4 miembros o menos y de los
cuales trabajan 2 personas o menos, en el ejemplo cumplen con esto, 18 familias, que
representan el 36% del nmero total de familias muestreadas.
Esta situacin introduce el concepto de distribucin conjunta de frecuencias
acumuladas, que puede denotarse como N(x,y) o como F(x,y) segn se trate de
frecuencias absolutas o relativas acumuladas, como se muestra en el cuadro 3.5.
CUADRO 3.5
DISTRIBUCION CONJUNTA DE FRECUENCIAS RELATIVAS ACUMULADAS DE
LAS VARIABLES "NUMERO DE PERSONAS QUE COMPONEN LA FAMILIA" (X) Y
"NUMERO DE PERSONAS QUE PRODUCEN ALGUN INGRESO A LA FAMILIA (Y).
Y
X
1
2
3
4
5
6
1
0.04
0.12
0.16
0.16
0.22
0.28
2
0.04
0.14
0.26
0.36
0.46
0.62
3
0.04
0.14
0.28
0.44
0.54*
0.74
4
0.04
0.14
0.28
0.54
0.72
0.96
5
0.04
0.14
0.28
0.54
0.74
1.00
El valor 0.54 marcado en el cuadro 3.5 indica que el 54% de las familias estn
compuestas por 5 menos personas de las cuales 3 menos aportan algn ingreso a
la familia. Con smbolos se escribira : F(5,3) = 0.54
Roberto Behar y Mario Yepes
Captulo 3
149
NOTACION Y PROPIEDADES
N ( x, y )
n
Como puede deducirse del ejemplo 3.1, se cumplen las siguientes propiedades:
150
m
1.
nij
= n11 + n12 + ... + n1s + n21 + n22 + ... + n2s+ ... + nm1
i= 1 j = 1
+ nm2 + nms = n
m
2.
nij =
nij =
i= 1
s
3.
j=1
m
4.
ni. = n
i= 1
s
5.
n. j = n
j=1
De las anteriores propiedades, al dividir por "n" se obtiene para las frecuencias
relativas:
m
6.
f ij = 1.00
i =1 j =1
m
7.
f ij
= f.j
f ij
= fi.
i =1
s
8.
j =1
m
9.
f i. = 1.00
i =1
s
10.
f. j = 1.00
j =1
Captulo 3
151
Si x Xm , y Ys F(x,y) = 1.00
12. Si x < x* ; y < y* F(x,y) F(x*, y*)
OBSERVACIN
En este caso, las categoras a considerar para cada variable estn representadas por
intervalos de clase, que se construyen de la forma propuesta en el captulo 2.
Casi todos los conceptos desarrollados para la situacin en que ambas variables son
discretas son vlidos aqu, incluyendo las propiedades de las distribuciones de
frecuencia. Sin embargo, es particular en el tratamiento de variables continuas, por su
naturaleza, el concepto de funcin emprica de densidad conjunta de las variables X e
Y. Esta temtica se desarrolla a travs del ejemplo que se presenta a continuacin:
Ejemplo 3.2
152
CUADRO 3.6
Y
X
(0 ; 10]
X1
(10 ; 40]
X2
(40 ; 90]
X3
(90 ; 150]
X4
(0 ; 25]
Y1
(25 ; 60]
Y2
34
30
14
80
23
12
20*
60*
13
24
50
10
70
50
60
15
5*
200
Captulo 3
153
CUADRO 3.7
DISTRIBUCION CONJUNTA DE FRECUENCIAS RELATIVAS PARA EL AREA
CULTIVADA (X) Y LA PRODUCCION ANUAL DE MAIZ (Y)
Y
X
(0 ; 10]
X1
(10 ; 40]
X2
(40 ; 90]
X3
(90 ; 150]
X4
(0 ; 25]
Y1
(25 ; 60]
Y2
0.170
0.150
0.070
0.010
0.40
0.115
0.060
0.100*
0.020
0.005
0.30*
0.065
0.040
0.120
0.020
0.005
0.25
0.010
0.025
0.015
0.05
0.35
0.25
0.30
0.075
0.025*
1.00
Los valores fij de este cuadro se obtienen expresando el nmero de datos, como una
fraccin (o porcentaje) del total de 200 datos, es decir:
nij
f ij =
n
La interpretacin de las cifras del cuadro 3.7, es la de un porcentaje, de esta manera:
0.100 indica que el 10% de las fincas tienen rea cultivada de maz entre 10 y 40
hectreas y a la vez tienen produccin anual entre 60 y 180 Ton. f23 = 0.100.
0.30 indica que el 30% de las fincas de la muestra tienen rea cultivada de maz
entre 10 y 40 hectreas, es decir f2. = 0.30
0.025 indica que el 2.5% de las fincas producen al ao entre 250 Ton. y 350 Ton.
de maz, o sea f.5 = 0.025.
Observe que de igual manera que en el caso discreto, pueden construirse las distribuciones marginales tanto para el rea cultivada (X), como para la produccin
anual de maz (Y).
Los porcentajes o fracciones que aparecen en el cuadro 3.7, no son directamente
comparables puesto que los intervalos de clase construidos tanto para X como para Y
son de longitudes o anchos distintos, en realidad podra decirse que las regiones que
estn determinadas por la doble particin:
154
(X1 Y1),(X1 Y2), ... , (X1 Y5), (X2 Y1), ... , (X2 Y5), ... , (X4 Y5)
tienen reas diferentes. De manera anloga como se resolvi la situacin en el caso
unidimensional, definiendo el concepto de densidad por unidad de intervalo, se
plantea la estandarizacin de las frecuencias relativas definiendo el concepto de
densidad por unidad de rea, de esta forma si se denota por:
f ij
Aij
para la regin Xi Yj
con el supuesto de que los datos en cada regin estn uniformemente distribudos.
Al definir f*ij para cualquier punto del plano X - Y, se obtiene la llamada funcin
emprica de densidad conjunta de X e Y.
Para el ejemplo 3.2, las reas de las distintas regiones definidas por los intervalos de
clase en X e Y se muestran en el cuadro 3.8.
Los valores del cuadro se calcularon con base en los productos de las longitudes de
los intervalos correspondientes. Dado que X est en hectreas e Y est dado en Ton.,
las unidades del rea calculada son hectreas x toneladas.
CUADRO 3.8
AREAS DE LAS REGIONES DEFINIDAS SOBRE EL PLANO X-Y, POR LOS
INTERVALOS DE CLASE RESPECTIVOS.
(0 ; 25]
Y1
(25 ; 60]
Y2
250
350
1200
700
1000
750
1050
3600
2100
3000
1250
1750
6000
3500
5000
1500
2100
7200
4200
6000
f ij* =
f ij
Aij
Captulo 3
155
CUADRO 3.9
FUNCION EMPIRICA DE DENSIDAD CONJUNTA PARA LAS VARIABLES AREA
CULTIVADA (Ha) Y PRODUCCION ANUAL DE MAIZ (Ton), EN LAS FINCAS DE LA
REGION DE OMAIT.
(0 ; 25]
Y1
(25 ; 60]
Y2
(60 ; 180]
Y3
(180 ; 250]
Y4
(250 ; 350]
Y5
0
Si se calcula el volumen del paraleleppedo que est sobre la regin definida por
(Xi Yj), se obtiene:
156
FIG. 3.3. Funcin emprica de densidad conjunta para las variables "rea cultivada" y
"produccin anual de maz"
f ij
Aij
, entonces
Vij = fij
Lo cual significa que el volumen de un prisma representa la frecuencia relativa
(porcentaje de datos) que pertenecen a la regin definida por la base del mismo, por
tal razn al calcular el volumen total del grfico debe arrojar como resultado 100%
Aplicando estos conceptos, puede estimarse el porcentaje de datos que pertenecen a
cualquier regin del plano X - Y, tan slo calculando el volumen que se levanta sobre
la mencionada regin como se presenta en el siguiente ejemplo.
Captulo 3
157
Ejemplo 3.3
Rij = rea del "pedazo" de la regin sombreada que pertenece a la regin definida
por (Xi Yj), la cual tiene densidad f*ij
Por tanto el volumen total sobre la zona sombreada y que corresponde a la solucin
del problema es:
f(regin sombreada) = V(Rij es la regin sombreada que esta incluida en (Xi Yj) y que
por lo tanto tiene densidad constante f*ij) = R23 . f*23 + R33 . f*33 + R24 . f*24 +
158
R23
800
R33
1600
R24
700
R34
1400
R25
500
R35
1000
Por tanto el porcentaje de fincas con reas cultivada de maz entre 30 Fa. y 60 Fa. y
con produccin anual entre 100 Ton. y 300 Ton., est dado por
= 800 x 0.0000277 + 1600 x 0.0000200 + 700 x 0.0000095 + 1400 x 0.0000057 +
500 x 0.0000016 + 1000 x 0.00000100 0.08 8%
Puede definirse la funcin emprica de distribucin conjunta acumulada para las
variables X e Y, que se representa por F(x,y) y se obtiene del clculo del volumen
correspondiente a la regin comprendida por X x e Y y, haciendo las
consideraciones de que el punto (x,y) pertenezca a cada una de las distintas regiones
que determinan los (Xi Yj), de forma que si (x,y) (X2 Y3), entonces
Captulo 3
159
Ejemplo 3.4
Se tom una muestra de 500 hogares en los cuales se observ las caractersticas:
X1 = 1;
X2 = 2;
X3 = 3;
X4 = 5
Para la variable Y, ingresos del hogar (en miles de pesos) se construyeron los siguientes intervalos de clase:
Y
X
X1=1
X2=2
X3=3
X4=5
(50 ; 75]
Y1
36
38
86
15
175
(75 ;125]
Y2
15
20
60
30
125
75
100
200
125
500
Al expresar las frecuencias absolutas como una fraccin con respecto al nmero total
de elementos obtenemos el cuadro 3.11.
Dado que en la pareja (X,Y), slo Y es una variable continua, la convenida funcin
emprica de densidad conjunta, resulta de estandarizar la frecuencia relativa fij por
unidad de intervalo de Yj
f ij
f ij* =
Cj
160
Y
X
X1=1
X2=2
X3=3
X4=5
(50 ; 75]
Y1
0.072
0.076
0.172
0.030
0.35
(75 ; 125]
Y2
0.030
0.040
0.120
0.060
0.25
0.15
0.20
0.40
0.25
1.00
De esta manera f*ij es una densidad por unidad lineal y no por rea.
Con este proceso se da origen al cuadro 3.12, donde la funcin emprica de densidad
conjunta de X e Y puede definirse como:
f*(x,y) =
j = 1, 2, ..., s
0 en cualquier otra parte
CUADRO 3.12
(50 ; 75]
Y1
0.00288000
0.00304000
0.00688000
0.00120000
(75 ; 125]
Y2
0.00060000
0.00080000
0.00240000
0.00120000
(125 ; 200]
Y3
0.00032000
0.00061333
0.00066666
0.00106666
(200 ; 300]
Y4
0.00018000
0.00028000
0.00044000
0.00060000
(300 ; 550]
Y5
0.00002400
0.00004000
0.00005600
0.00008000
Captulo 3
161
Como es lgico la suma de las reas de todas las "lminas" es 1.0 ( 100%)
Ejemplo 3.5
Con base en la funcin emprica de densidad conjunta para el nmero de personas por
hogar y el ingreso del hogar estime:
a) El porcentaje de hogares que tienen 3 personas e ingresos entre $90.000 y
$275.000.
Observando la figura 3.4, se trata de calcular el rea comprendida entre Y = 90 y
Y = 275 en la "lmina" correspondiente a X = 3.
162
El porcentaje pedido es:
3.3
Captulo 3
163
Ejemplo 3.6
n()
n(A)
n(C)
n(A C)
=
=
=
=
C
120
180
1320
f(A/C) =
120
= 0.24, lo cual significa, que de las viviendas con agua potable, el 24%
500
tienen energa elctrica.
f(C/A) =
164
120
= 0.06, lo cual significa que de todas las viviendas observadas, el
2000
6% tienen simultneamente agua y energa. (Note que esta frecuencia no es
condicional).
f(A C) =
Puede calcularse:
380
= 0.2235; significa que de las viviendas que no tienen energa elc1700
trica, el 22.35% de ellas, tienen agua potable.
f(A/ C ) =
180
= 0.60; significa que de las viviendas que tienen energa elctrica, el
300
60% no tienen servicio de agua potable.
f( A /C) =
180
= 0.12; significa que de las viviendas que no tienen agua, el 12% de
1500
ellas tienen energa.
f(C/ A ) =
1320
= 0.88; significa que de las viviendas que no tienen agua, el 88% de
1500
ellas no tienen energa.
f( C / A ) =
1320
= 0.66; significa que de todas las viviendas observadas, el 66% no
2000
tienen agua ni energa. (No es una frecuencia condicional)
f( A C ) =
500
= 0.25; significa que de todas las viviendas observadas el 25% tienen
2000
servicio de agua. (No es una frecuencia condicional).
f(A) =
300
= 0.15; de todas las viviendas observadas, el 15% tienen servicio de
2000
energa elctrica.
f(C) =
Del ejemplo anterior puede obtenerse una definicin para la frecuencia condicional
Captulo 3
de A dado C, as:
f (A / C ) =
165
n( A C )
n(C )
f (A / C ) =
f (A C )
f (C )
) n(Xni(Y )Y j ) = nnij
j
.j
f (X i Y j )
f (Y j )
f Xi /Yj =
=
f ij
f. j
Tambin:
f Yj / Xi =
f ij
f i.
nij n
n. j n
f Xi Yj
f (X i )
ii)
f (X i / Y j ) = 1
i =1
166
f * Yj / Xi =
f Yj Xi
CY j
Ejemplo 3.7
Haciendo referencia al ejemplo 3.2, en el cual se observa una muestra de 200 fincas,
las variables rea cultivada de maz (X) en Ha, y produccin anual (Y) en Ton. se
presenta a continuacin la distribucin conjunta de frecuencias absolutas
Y
X
(0 ; 10]
X1
(10 ; 40]
X2
(40 ; 90]
X3
(90 ; 150]
X4
(0 ; 25]
Y1
(25 ; 60]
Y2
34
30
14
80
23
12
20
60
13
24
50
10
70
50
60
15
200
a) Construir la distribucin condicional del rea cultivada, para las fincas con
produccin anual entre (60; 180), dicha distribucin se denota por {Xi ; f(Xi/Y3)}
Area Cultivada (Xi)
X1: (0 ; 10]
X2 : (10 ; 40]
X3 : (40 ; 90]
X4 : (90 ; 150]
f(Xi/Y3)
14/60
20/60
24/60
2/60
1.00
En el cuadro anterior:
Roberto Behar y Mario Yepes
Captulo 3
167
f(X2/Y3) = 20/60 = 0.33 significa que de las fincas que producen entre 60 y 180 Ton.
de maz al ao, el 33% de ellas tienen rea cultivada entre 10 Ha. y 40 Ha.
b) Construir la funcin emprica de densidad condicional del rea cultivada, para las
fincas con produccin anual entre 60 Ton. y 180 Ton.
f * ( X i Y3 ) =
f ( X i Y3 )
CXi
como ejemplo:
f * ( X 1 Y3 ) =
f ( X 1 Y3 ) 14 60 14
=
=
= 0.023
C X1
10
600
f*(x/y3 ) =
0.0000
0.0233
0.0110
0.0080
0.0006
si
si
si
si
si
x<0
x
x
x
x
x > 150
(0;10]
(10;40]
(40;90]
(90;150]
c) Calcule qu porcentaje de las fincas que producen anualmente entre 60 y 180 Ton.
de maz tienen reas cultivadas entre 18 Ha. y 70 Ha.
f(18 X 70/Y3 ) = f*(X2/Y3)(40-18) + f*(X3 /Y3)(70-40)
= 0.011 x 22 + 0.008 x 30
= 0.482 = 48.2%
d) Calcule e interprete f (X1/Y3), f (Y3 / X1), f (X1 Y3)
14
= 0.233, significa que de las fincas que producen anualmente entre 60 y
60
180 Ton. de maz, el 23,3% de ellas, tienen rea cultivada entre 0 y 10 hectreas.
f(X1/Y3) =
14
= 0.175, significa que de las fincas con rea cultivada de maz entre 0 y
80
10 hectreas, el 17.5% de ellas producen anualmente entre 60 y 180 Ton. de maz.
f(Y3/X1) =
168
f(X1 Y3) =
f Xi Yj =
f Xi Yj
f Yj
( )
f Yj Xi =
f Xi Yj
f (X i )
condicionales.
Captulo 3
169
- Ntese que en el planteamiento anterior no hay ninguna afirmacin que proporcione informacin acerca de si las consultas son "muchas" o son "pocas" con
respecto al nmero de habitantes de la poblacin. La afirmacin sobre el 50%, es
vlida aun en el caso en que en una poblacin de un milln de habitantes se hayan
hecho dos (2) consultas al ao, una de las cuales por afecciones respiratorias. En
este caso se estara confundiendo f(R/C) con f(R) donde: f(R/C) = porcentaje que
representan las consultas por enfermedades respiratorias con respecto al nmero
total de consultas realizadas y f(R) = porcentaje de consultas por enfermedades
respiratorias, con respecto a toda la poblacin.
2. Una encuesta realizada por un peridico entre los intoxicados que haban asistido
a una boda, mostr que el 90% de ellos haba comido pollo. Esto es una clara
indicacin de la fuente de contagio.
De nuevo en este caso, no se presenta informacin sobre si los intoxicados son
"muchos" o "pocos" comparados con todos los que comieron pollo.
La frecuencia que menciona el enunciado es:
f(P/I) = 0.90
Sera de ms valor comparar el porcentaje de intoxicados entre los que comieron
pollo con el porcentaje de intoxicados que no comieron pollo, es decir:
f(I/P) con f( I/ P )
Aunque tampoco sera del todo concluyente, vase por qu : supngase que en el
peor de los casos:
f(I/P) = 100% y f( I/ P ) = 0%
Es decir, todos los que comieron pollo se intoxicaron y de los que no comieron
pollo ninguno se intoxic, aun as, no puede atribuirse la culpa al pollo con absoluta seguridad, puesto que pudo pasar lo siguiente:
Todos los que comieron pollo, tomaron sobremesa y los que no comieron pollo no
tomaron sobremesa y, puede haber sido sta la causa, puesto que en estas
circunstancias tambin se obtienen los mismos resultados numricos.
Esta situacin permite visualizar que las asociaciones estadsticas entre eventos no
guardan necesariamente una relacin de causa a efecto.
3. Una encuesta entre prostitutas realizada en Cali mostr que un elevado porcentaje
de ellas, ms del 80%, haban nacido en el Valle del Cauca. Se piensa que quizs
la constitucin de la familia y los patrones educativos de esta zona del pas
predispongan a esta situacin.
- Como primera medida un porcentaje alto como el que se menciona no indica si
hay "muchas" o "pocas" prostitutas, slo dice que de las que hay (cuntas?) el 80%
Roberto Behar y Mario Yepes
170
Captulo 3
171
3.3.2
Es imposible referirse a la independencia de dos caractersticas, sin pensar en la dependencia. En muchas ocasiones las personas pueden haber notado cierto tipo de
asociacin entre dos variables, por ejemplo: refirindose a las personas "adultas" de
cierta ciudad, pinsese en la "dependencia" entre las caractersticas: "tener carro
propio" y "saber leer", una distribucin que seguramente podra aceptarse como
ejemplo es la siguiente, con base en una poblacin de 100000 "adultos".
LEE
CARRO
PROPIO
SI
NO
SI
NO
9.900
60.100
70.000
100
29.900
30.000
10.000
90.000
Analizando la estructura del cuadro anterior, pueden deducirse los siguientes resultados:
- La poblacin tiene un 30% de personas analfabetas.
- El porcentaje de analfabetas entre los que tienen carro es:
f(A/C) =
100
= 1%
10. 000
29. 900
= 33.2%
90. 000
Con los clculos realizados puede notarse que la distribucin porcentual de los
analfabetas es distinta para la subpoblacin de los que tienen carro que para los que
no tienen carro, es decir:
f(A/C) f(A/ C ) y
Lgicamente:
Roberto Behar y Mario Yepes
172
Captulo 3
173
Ejemplo 3.8
Y1
75
100
75
250
X1
X2
X3
Y2
90
120
90
300
Y3
120
160
120
400
Y4
15
20
15
50
300
400
300
1000
Y1
0.075
0.100
0.075
0.25
Y2
0.090
0.120
0.090
0.30
Y3
0.120
0.160
0.120
0.40
Y4
0.015
0.020
0.015
0.05
0.30
0.40
0.30
174
Captulo 3
175
Ejemplo 3.9
Y1
8
2
10
0
20
Y2
11
12
12
5
40
Y3
10
14
24
12
60
Y4
1
30
17
2
50
Y5
0
2
7
21
30
30
60
70
40
Si aplicamos la definicin a dicha distribucin, concluimos que no son independientes, puesto que:
f(x1 y1) =
f(x1) f(y1) =
8
= 0.04
200
30
20
= 0.015
200 200
176
ni. n. j
, de donde
n
n
n
ni nij
nij* =
n
=
n1. n.3
30 60
=
= 9
n
200
De esta manera podemos construir la siguiente distribucin:
*
n13
=
CUADRO 3.14
Y1
3
6
7
4
20
Y2
6
12
14
8
40
Y3
9
18
21
12
60
Y4
7.5
15
17.5
10
50
Y5
4.5
9
10.5
6
30
30
60
70
40
nij* =
j=1
ni .
nij* =
i= 1
n. j
ni. n. j
n
as que:
Captulo 3
s
nij* =
j= 1
ni. n. j
j= 1
ni.
n
n. j =
j= 1
177
ni.
n = ni.
n
( nij
m
i= 1 j = 1
( nij
m
i= 1 j = 1
nij*
) = n
m
i= 1 j = 1
nij* = n n = 0
ij
i= 1 j= 1
esto nos dice que la suma no puede usarse como indicador del grado de dependencia
debido a que su valor es siempre cero, esto puede remediarse, haciendo la suma de
los cuadrados de las diferencias, es decir:
( nij
m
i= 1 j= 1
nij*
esta suma ser mayor entre mayores sean las diferencias, y ser cero slo cuando
todas las casillas coincidan, es decir cuando se cumple la definicin de independencia; esto hace que pueda usarse como un indicador de dependencia, pero an as,
presenta algunos inconvenientes como por ejemplo el hecho de dar la misma importancia a diferencias iguales, no importando la magnitud de los valores que se
restan, as pues si nij = 2 y n*ij = 5 es considerado de la misma manera que si nij =
300 y n*ij = 303 y como puede apreciarse aunque en ambos casos hay una diferencia
de 3 unidades, sta es relativamente mayor en el primer caso que en el segundo, de
esta manera puede corregirse el indicador expresando la diferencia al cuadrado como
una fraccin de n*ij , con lo cual resulta el llamado cuadrado de contingencia.
m
x2 =
i= 1 j= 1
(n
ij
nij*
nij*
2
x = n
1
i = 1 j = 1 ni.n. j
Roberto Behar y Mario Yepes
178
Aunque x2 = 0 slo cuando las variables son independientes y crece cuando crecen
las diferencias, tiene el inconveniente de que est afectado por el nmero n de
observaciones, lo cual no es conveniente, puesto que el grado de dependencia debe
medir la diferencia entre f(xi yj) y f(xi).f(yj) es decir entre
nij
n. j
n
y i.
que como puede apreciarse no vara si multiplicamos todas las
n
n
n
casillas nij por una constante k, lo cual es equivalente a multiplicar el nmero de
observaciones por ese mismo factor; este aspecto puede corregirse definiendo el
llamado cuadrado medio de contingencia f 2 .
f
x2
=
=
n
i= 1 j= 1
nij2
ni. n. j
f2 al igual que x2 , es siempre mayor o igual que cero y no est acotado en forma
general, pero si tiene cota superior para cada problema especfico en funcin del
nmero m de categoras de X y el nmero s de categoras de la variable Y, esto puede
deducirse del hecho:
nij ni.
nij n.j
de donde resulta que:
nij2
1
ni. n. j
se puede demostrar que:
0 f2 min(m-1; s-1)
f2
, con lo cual siempre se garantiza que
min(m - 1 ; s - 1)
0 H2 1
Captulo 3
n = 200 ;
m=4 ;
179
s=5
El cuadrado de contingencia
x =
2
nij nij*
nij*
i= 1 j= 1
... +
(2
10)
10
(8 3) 2
3
(20 6) 2
6
(11 6) 2
6
(10 9) 2
9
+ ...
= 92.26
x2
92.26
=
=
= 0.46
n
200
H2 =
f2
0.46
0.46
=
=
= 015
.
min( m - 1 ; s - 1)
min(3 ; 4)
3
Todos los indicadores de dependencia que se han presentado, estn definidos bajo el
supuesto de que se calculan con base en informacin poblacional.
En otras palabras, tratan de medir el grado de dependencia de las caractersticas sin
contemplar el efecto producido por la incertidumbre, cuando se trabaja con una
muestra para hacerse una idea sobre la poblacin. No obstante existen pruebas que
tienen en cuenta esta incertidumbre.
3.3.3 Media y varianza de distribuciones condicionales
180
i1
ni 2
...
nij
Y
1
Y2
...
Y
j
...
...
ni s
Conjuntodeloselementos
cuyacaractersticaXvalex i
(constaden i elementos)
Ys
SubconjuntodeElementoscuya
caractersticaYvaley j
(constaden i jelementos)
De acuerdo con sto la media aritmtica de Y para los que satisfacen la condicin
X = xi , que denotaremos por M(Y/x = xi) M(Y/xi), ser :
M (Y xi ) =
ni1
n
n
Y1 + i 2 Y2 + ... + is Ys
ni.
ni.
ni.
Recordando que :
f (Y j xi ) =
nij
ni.
Entonces:
M(Y/xi) = f(y1/xi).y1 + f(y2/xi).y2 + ... + f(ys/xi).ys
que en representacin abreviada es :
M (Y xi ) =
f (Y j xi ). y j
j =1
Captulo 3
181
O lo que es lo mismo:
y=
M (Y
xi ). fi.
i =1
1
=
n
( y j y)
j=1
. n. j
Si se va a calcular la varianza, slo para los ni. elementos que satisfacen la condicin
X = xi y cuya media aritmtica es M (Y/xi), entonces se escribir:
[ y j
1
ni.
S 2y / x i =
M (Y x i )
j= 1
. nij
[ y j
S 2y / x i =
M (Y x i )
j= 1
nij
ni.
f y j xi =
nij
ni.
Puede escribirse
S y2 / x =
i
[y j M (Y xi )]2. f (y j xi )
s
j =1
182
i =1
Ntese que tanto las distribuciones condicionales de frecuencias como sus rasgos
asociados (media condicional y varianza condicional, etc.), no son conceptos nuevos,
son exactamente los mismos elementos conocidos, solo que aplicados a un
subconjunto de la muestra que satisface una determinada condicin. Por lo tanto
todas, absolutamente todas las propiedades deducidas para el caso unidimensional se
satisfacen en las distribuciones condicionales.
Ejemplo 3.10
Se tom una muestra de 500 viviendas de la poblacin de Igor y entre otras se observaron las siguientes caractersticas: nmero de personas que duermen en la
vivienda (x) y rea de dormitorio (Y), en m2.
Al tratar la informacin se construyeron las siguientes categoras:
Para la variable X
(Nmero de personas)
Captulo 3
X
X1
X2
X3
X4
X5
Y1
10
4
3
1
2
20
Y2
4
40
35
18
3
100
Y3
2
20
61
59
8
150
Y4
5
15
10
14
6
50
Y5
3
17
40
34
16
110
Y6
1
4
26
24
15
70
183
25
100
175
150
50
500
Estime:
a) El rea de dormitorio promedia para las viviendas en que duermen dos personas.
M (Y x2 ) =
Y j' f (y j
6
j =1
j
1
2
3
4
5
6
f(yj / x2)
0.04
0.40
0.20
0.15
0.17
0.04
De esta manera:
M(Y/x2) = 3.5 x 0.04 + 5.0 x 0.40 + ... + 20.5 x 0.04 = 8.415 m2.
Es decir que las viviendas en que duermen dos personas tienen en promedio un rea
de dormitorio de 8.415 m2.
b) La varianza del rea de dormitorio, en las viviendas en que duermen dos personas.
SY2 x
2
[
6
y 'j
j =1
] (
2
M (Y x2 ) f y j x2
184
M(X/y2) =
i
1
2
3
4
5
xi . f(xi/y2)
i= 1
Xj
1
2
3
4
5
f(xj / y2)
0.04
0.40
0.35
0.18
0.03
De esta manera:
M(X/Y2) = 1 x 0.04 + 2 x 0.40 + 3 x 0.35 + 4 x 0.18 + 5 x 0.03 = 2.76
Es decir que en las viviendas con rea de dormitorio entre 4.0 y 6.0 m2, en promedio
duermen 2.76 personas.
d) La varianza del nmero de personas que duermen en viviendas con rea de
dormitorio entre 4.0 y 6.0 m2.
5
S x2 y2 =
[ Xi - M(X/Y2)]2 . f(xi/y2)
i= 1
y=
y 'j f. j
i =1
= 3.5 x 0.04 + 5.0 x 0.20 + 7.5 x 0.30 + 10.5 x 0.10 + 14.0 x 0.22 + 20.5 x 0.14
= 10.39 m2
S y2
(y 'j y )
6
f. j = 27.4 m 2
i =1
Captulo 3
X =
185
xi fi.
i =1
(xi x )
f i.
i =1
=
=
186
X=x
11
n12
...
Y
1
Y2
...
Y
j
21
n22
...
Y
1
Y2
...
Y
j
...
i1
ni2
..
.
...
...
Y
1
Y2
...
m1
nm2
..
.
...
Y2
...
Y
j
X=x
..
.
X=x
..
.
X=x
Y
1
...
1j
2j
ij
Y
j
mj
n1s
...
Ys
...
n1s
Ys
nis
...
Ys
...
nms
...
Ys
MEDIA
M( Y/x 1 )
M( Y/x 2)
VARIANZA
S 2Y/X 1
S 2Y/X 2
..
.
..
.
M( Y/x )
i
S 2Y/X i
..
.
M( Y/x m)
..
.
S 2Y/X m
2
Sby
[M (Y
xi ) y ] fi.
INTERVARIANZA DE Y.
[Varianza de las Medias]
i =1
Captulo 3
187
De otro lado cuando interesa formarse una idea sobre la magnitud de la varianza de Y
al interior de cada subconjunto de datos, es decir cuando se quiere tener una idea
sobre la magnitud de las varianzas:
S2Y/x1, S2Y/x2, ... , S2Y/xm.
Puede calcularse la media aritmtica de estas varianzas, la cual se conoce como
intravarianza, simbolizndola por S2wy(x)
as pues:
INTRAVARIANZA DE Y
m
2
2
[Media
de las Varianzas]
S wy =
SY x fi.
i =1
Interesante expresin que representa una versin del conocido anlisis de varianza,
que en palabras dira: la varianza de la distribucin marginal de una variable Y, se
puede siempre expresar como la varianza de las medias condicionadas por alguna
caracterstica X=x, ms la media de las varianzas condicionales por la misma X=x.
Antes de probar la expresin base del anlisis de la varianza, se presentan algunas
observaciones:
1. S2y es la varianza de la distribucin marginal de la variable Y, es decir que no
importa si se observaron otras caractersticas X, Z, W, la varianza de la caracterstica Y es S2Y , en otras palabras si a los elementos de la muestra no se hubiera
observado las caractersticas (X, Y) sino (Z, Y) o (W,Y) la varianza de Y sera la
misma pues se estara determinando sobre los mismos elementos.
2. S2bY(x) es la varianza de las medias de Y condicionadas por los distintos valores de
X, que en general depende de la caracterstica condicionante, es decir si las
caractersticas de inters hubieran sido (Z,Y), tambin podramos plantear la
expresin base del anlisis de la varianza:
S2Y = S2byYz) + S2wY(z)
Pero en este caso S2bY(z) representara la varianza de las medias de Y, condicionadas por valores de Z; puesto que en general el conjunto de elementos que satisRoberto Behar y Mario Yepes
188
Captulo 3
189
Este hecho permite expresar la intervarianza como fraccin de la varianza total S2Y,
as se define la razn de correlacin:
2
S by
2
e y. x = 2
Sy
De esta manera se tiene que:
0 e2y.x 1
e2
S2
by =
S2
y en consecuencia
2
S wy
fi. S y2 xi = 0
, lo
i =1
S 2y x i
En general entre mayor sea el valor de e2y.x ms importante ser el factor (variable)
X, en la explicacin de la variacin de la caracterstica Y.
Recuerde que en la notacin e2y.x se quiere indicar que es de inters la variacin de Y,
cuando la variable X est condicionando.
Roberto Behar y Mario Yepes
190
2
Sby
[M (Y
xi ) y ] fi.
i =1
y la intravarianza : S2wy(x)
2
Sby
=
S y2 xi fi.
i =1
Esto significa que se debe calcular previamente M(Y/xi), fi , S2y/xi para cada i.
Sabiendo que:
M (Y xi ) =
y 'j f (y j xi )
j =1
S y2 x =
i
[y j M (Y xi )] f (y j xi )
m
j =1
xi
1
2
3
4
5
M(Y/xi)
7.400
8.415
10.520
11.006
13.53
y = 10.39
S2y/xi
21.02
17.60
27.68
26.01
29.95
La intervarianza
fi.
0.05
0.20
0.35
0.30
0.10
Captulo 3
191
la intravarianza
Ejemplo 3.12
[M (X y j ) x]2 f. j
s
j =1
La intravarianza
2
S wx
=
S x2 y f. j
j =1
192
) xi f (xi
M X yj =
yj
i =1
Para j = 1, 2, ... , 5
S x2 y =
j
yj
i =1
Y1
10
4
3
1
2
20
Y2
4
40
35
18
3
100
Y3
2
20
61
59
8
150
Y4
5
15
10
14
6
50
Y5
3
17
40
34
16
110
Y6
1
4
26
24
15
70
CUADRO 3.16
j
1
Intervalo
(Lj-1 , Lj]
(3.0 , 4.0]
fj.
M(Y/xj)
0.04
2.05
S2x
yj
1.7475
25
100
175
150
50
500
Captulo 3
2
3
4
5
6
X =
(4.0 , 6.0]
(6.0 , 9.0]
(9.0 , 12.0]
(12.0 , 16.0]
(16.0 , 25.0]
0.20
0.30
0.10
0.22
0.14
2.76
3.34
3.02
3.39
3.69
193
0.8024
0.6777
1.4596
1.0079
0.8125
fi.xi =
i =1
As que :
LA INTERVARIANZA
LA INTRAVARIANZA
Si se calcula S x2 =
S 2bx
= 0132
.
S 2x
194
2
Sby
=
[M (Y
xi ) y ] fi.
2
i =1
2
S wy
=
(y j M (Y xi ))2 f (y j xi )
S y2 x fi. ; S y2 x =
i
i
j =1
Se sabe que
S y2 =
(y j y )2 f. j ,
j =1
f. j =
fij
i =1
(y j y ) fij
i =1 j =1
{y j M (Y
}2
xi )+ M (Y xi ) y fij
i =1 j =1
i =1 j =1
+2
i =1 j =1
[y j M (Y xi )][M (Y
m
(E 3.1)
xi ) y ] fij
i =1 j =1
Captulo 3
195
[y j M (Y xi )]2 f (y j xi ) fi. =
m
i =1 j =1
S 2y xi
Entonces
=
S y2 x fi.
i =1
i =1
j =1
[M (Y xi ) y ]2 fij = [M (Y xi ) y ]2 fij
i =1 j =1
[M (Y
2
xi ) y ] fi. = Sby
2
i =1
Por ltimo se prueba que el tercer trmino de la expresin (E 3.1) vale siempre cero:
[y j M (Y xi )][M (Y
xi ) y ] f ij =
[y j M (Y xi )][M (Y
xi ) y ] f y j xi f i.
i =1 j =1
m
i =1 j =1
=2
[M (Y
i =1
xi ) y ] f i.
[y j M (Y xi )]f (y j xi )
s
j =1
196
i =1
i =1
[M (Y xi ) y ] f j. = M (Y xi ) Y = 0
de esta manera se ha probado que
S2y = S2by + S2wy
3.3.5 La covarianza y el coeficiente de correlacin entre dos variables.
Captulo 3
S T2 =
1 n
ti T
n i= 1
es decir que:
[(
) ( yi y )]
1 n
( xi + yi ) x + y
n i= 1
S(2x + y ) =
1 n
xi x +
n i= 1
197
)]
1
n
(
n
i= 1
xi x
1
n
(
n
i= 1
yi y
+ 2
1
n
(x i
n
i= 1
)(
x yi y
o sea que
S(2x + y ) = S x2 + S y2 + 2
al trmino
variables
1
n
(x i
n
i= 1
)(
x yi y
1
n
(x i
)(
x yi y
i= 1
i= 1
(x
)(
x yi y
(E 3.2)
198
en el cuadrante II
. .. ....... I
. ......
. . .. .
.. ............... .
.
.
.
.
.
..
.
. . . .... . .
........ .. . ..
....................
. . .. .
........... .... ... ..
......
......
IV
III .. . .
II
Fig. 3.5
en el cuadrante III
y en el cuadrante IV
II. ....
I
............. .
.................. ..
. . ................ . .
. ..... . .. ..
.. ...... ...... . .
. . .... .. ... . .
. . ... ........
...... ....
. .. ..
III
IV
x
Fig. 3.6
Captulo 3
199
II
.
.... .............. .....
................................
. ... ... .....
...........
.. .. ...... ..
y
III
IV
x
x
Fig. 3.7
Sx . Sy
Con base en esta propiedad, podremos juzgar si la covarianza entre dos variables es
"grande" o "pequea", comparndola con el producto Sx . Sy .
Mirndolo de otra manera:
COV ( x , y )
Sx S y
es decir que:
1
COV ( x , y )
1
Sx S y
200
r=
COV ( x , y )
Sx S y
-1 r 1
a este indicador se le conoce como coeficiente de correlacin lineal.
1 n
xi x yi y
n i= 1
r=
)(
Sx S y
)
=
) (
yi y
1 n xi x
n i= 1 Sx
Sy
De esta forma si |r| = 1 indica que todos los puntos en el diagrama de dispersin
tienen una conformacin rectilnea perfecta que tendr pendiente positiva o negativa
dependiendo del signo del coeficiente de correlacin lineal r; por tanto entre ms
cerca del valor 1 (uno) est |r|, ms cercano est el diagrama de dispersin a una
conformacin rectilnea y entre ms cerca a cero est |r|, ms lejos estar el diagrama
de dispersin a una conformacin rectilnea. A continuacin se presentan diagramas
de dispersin y sus correspondientes coeficientes de correlacin lineal.
Captulo 3
201
.
..
.
.
r=1
r = -1
..
..
(a)
(b)
y
........ .
...... .. .
... . . ...
....... ........................ ....
.. .... ....... ... . .. ....
. . ... .............. . .......
..... ... .... ....... .. ...... .
. .. .. .. . .. . .. .........
. . .... ..........
.. ..
r = -0.68
.......
.
.. .........
.
... . .
.............
.
.
.
. . ..
.......... .
. . ..
............. .. .
.. ..
r = 0.90
x
(d)
(c)
y
.......... ....... . . .
...... .. . ......... ....... .
.. . . ... .. ... . ... . .
... .... .....................................................
... ..... ............ ... .......... ...........
. . ... ............... ............ ........
..... ... .... .. .... .. .......... .. ..
. .. .. .. .. .. . .. . ......
. . ... ...........
.. ..
r = -0.1
x
(e)
FIG 3.8
Vase ahora, que efectivamente el valor del coeficiente de correlacin r est siempre
en el intervalo [ -1, +1 ]
202
Sean:
Z=
x x
Sx
W=
y y
Sx
x x
COV ( z , w ) = COV
SX
COV ( x , y )
=
Sx S y
coeficiente de correlacin
por tanto
-1 r 1
y y
SX
Captulo 3
203
OBSERVACIONES
(xi x )(y j y ) f ij
COV ( x, y ) =
i =1 j =1
Si los datos estn agrupados en intervalos de clase, entonces los xi y/o yj sern las
marcas de clase correspondientes.
2. Si X e Y son variables estadsticamente independientes, entonces:
(xi x )(y j y ) f ij
COV (x, y ) =
=
(xi x )(y j y ) f i. f. j
m
j =1
(x i x ) f i . ( y j y ) f . j
m
s
= xi f i. x
y j f . j y
i =1
j =1
=00
COV (x, y )= 0
Como
rxy =
COV ( x , y )
=
Sx S y
0
= 0
Sx S y
204
(125 , 175)
(175 , 225)
(225 , 275)
5
15
10
5
35
10
15
16
9
50
0
10
4
1
15
(15 , 25)
(25 , 35)
(35 , 45)
(45 , 55)
COV ( x, y ) =
15
40
30
15
100
(xi x )( yi y ) f ij
i =1 j =1
xi y j f ij x y
x = 34.5; y = 19.000
COV ( x, y ) = 655.500 (34.5)(19.000)
= 655.500 655.500 = 0
COV ( x, y )
0
rxy =
=
=0
Sx S y
SxS y
X e Y estn no correlacionadas sin embargo, no son independientes, puesto que no
cumple que fij = fi. f.j para todo i, j, por ejemplo:
f12 = 0.10
f1. = 0.15
f.2 = 0.5
Captulo 3
205
..
.. .
.
.
.
..
..
.. ... . . . ... .. ..
..
..
..
..
.
.
.
EJERCICIOS PROPUESTOS
Famili
a No.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Nmero
de
personas
4
2
1
4
3
2
2
4
3
3
4
2
2
4
Ingreso
familiar (miles
Famili
a No.
de pesos)
5110
4600
3050
3920
3510
3170
3860
2450
2120
2040
2050
2350
1980
1520
15
16
17
18
19
20
21
22
23
24
25
26
27
28
206
Familia
No.
29
30
31
32
33
34
35
36
37
38
39
Nmero
de
personas
3
1
1
4
4
4
4
1
2
2
4
Ingreso
familiar (miles
Familia
No.
de pesos)
1120
1500
1100
920
1210
870
1190
1560
840
960
810
40
41
42
43
44
45
46
47
48
49
50
Nmero
de
personas
2
2
2
4
2
2
4
2
4
2
2
Ingreso familiar
(miles de pesos)
850
930
1000
850
1190
1150
1690
1010
1100
1180
1190
f3.
F(2; $1500.000)
Captulo 3
207
Calcule:
1.10 El ingreso promedio por familia y su desviacin estndar.
1.11 El ingreso promedio por familia, para las familias con 2 personas, y su
desviacin estndar.
1.12 El nmero promedio de personas por familia y su desviacin estndar.
1.13 El nmero promedio de personas por familia, para las familias con ingresos
entre $2500.000 y $4000.000 y su desviacin estndar.
1.14 En cul grupo de familias hay relativamente mayor homogeneidad en el
ingreso.
1.15 Son independientes estadsticamente las variables: nmero de personas por
familia y su ingreso. Justifique.
1.16 Si la informacin en el ejercicio fuera poblacional, cual es el grado de
dependencia de las variables.
1.17 Compruebe para la variable ingreso familiar la expresin fundamental del
anlisis de la varianza:
S2y = S2by(x) + S2wy(x)
compare la magnitud de las dos componentes de la varianza, calcule la razn
de correlacin y comente.
1.18 Con base en diagrama de cajas y alambres, compare la distribucin del
ingreso para las subpoblaciones definidas por el nmero de personas en la
familia.
2. Se estn estudiando las variables continuas X e Y a los elementos de cierta
poblacin, en la cual el rango de la variable X es el intervalo (0,1) y el rango de la
variable Y es el intervalo (0,4). Si la funcin de densidad conjunta f*(x,y), puede
expresarse por la funcin analtica.
f*(x,y) =
axy si (x,y) D
0
en cualquier otra parte
208
3. Suponga que las variables X e Y que se observaron en una poblacin son discretas
y sus rangos son respectivamente
Rx = { 0,1,2 }
Ry = { 2,3,4 }
Donde :
Y
X
X1
X2
X3
Y1
5
12
3
Y2
20
38
12
Y3
8
30
32
Y4
7
20
13
X1 : (45;55]
X2 : (55;70]
X3 : (70;85]
Y1 : (150;160]
Y2 : (160;165]
Y3 : (165;175]
Y4 : (175;190]
Captulo 3
209
4.6 Qu porcentaje de las personas tienen estatura entre 162 y 170 cms. y peso
entre 48 y 75 kg.
4.7 De las personas que tienen estatura entre 162 y 170 cms., qu porcentaje de
ellas tienen peso entre 48 y 75 kg.
4.8 De las personas que tienen peso entre 48 y 75 kg., qu porcentaje tienen
estatura entre 162 y 170 cm.
4.9 Si F(60, Y0) = 0.20; cul es el valor de Y0.
4.10 Estime la mediana del "peso".
4.11 Estime la moda de la "estatura"
4.12 Estime el peso promedio y su varianza para las personas con estatura 160 y
175 cm.
4.13 Estime el peso promedio y su varianza para las personas con peso entre 48 y
75 kg.
4.14 Estime el porcentaje de personas para las cuales: su estatura es menor que
2.5 veces su peso.
4.15 Descomponga la varianza de la estatura, con base en los grupos definidos por
la variable peso, de acuerdo con la expresin del anlisis de la varianza.
Comente.
4.16 Compare las distribuciones de la estatura para las subpoblaciones definidas
por el peso X, con base en diagramas de caja.
5. Muestre que:
COV ( X , Y ) =
X iYi
n
X Y
210
Y1
Y2
Y3
Y4
7
3
15
25
15
7
8
30
3
10
4
17
5
20
3
28
X
X1
X2
X3
30
40
30
100
Calcule:
a) M(Y/X1) , M(Y/X2) , M(Y/X3) , Y
b) S Y2
x1
, S Y2
x2
, S Y2 x 3 , S Y2
Captulo 3
211
EL MODELO DE REGRESION
ORIGEN1 DE LA PALABRA REGRESION .
Sir Francis Galton fu la primera persona en trabajar con estadstica en lo que se
refiere a relaciones. A finales del siglo pasado, Galton condujo muchas
investigaciones concernientes con la influencia de la herencia sobre varios atributos
humanos tanto mentales como fsicos. En varios de estos estudios involucr la
relacin padre-hijo. En particular, Galton (1889) report hallazgos acerca de las
relaciones entre las estaturas de los padres e hijos. El observo que los padres altos
tienden a tener hijos altos y padres bajos tiendes a tener hijos bajos. Sin embargo l
tambin observ lo que llamo efecto de regresin en sta relacin. El not por
ejemplo que la estatura de los hijos tienden a regresar a la media de su grupo.
Padres muy altos tienden a tener hijos mas altos, pero no tan altos como el promedio
de sus padres. Padres de muy baja estatura tienden a tener hijos de baja estatura, pero
no tan bajos como el promedio de sus padres. Para aquellos padres en el rango
medio, los promedios de las estaturas de sus hijos corresponden mas estrechamente
al promedio de la estatura de sus padres.
De esta manera, conociendo la estatura del padre, podra predecirse razonablemente
bien, la estatura de su hijo y viceversa. Galton2 se refiri a este fenmeno como
regresin filial.
El denot la relacin entre la estatura de padres e hijos por la letra r (por regresin).
Los trminos lnea de regresin y ecuacin de regresin corresponden al inters
del trabajo especfico de Galton. En la actualidad se refieren a una funcin que es
empleada para la prediccin estadstica. Luego la ecuacin puede ser referida
como ecuacin de prediccin.
4.1
INTRODUCCIN
En algunas ocasiones es de inters explorar el nivel de asociacin estadstica entre las
mediciones X e Y de dos rasgos de elementos de una poblacin de estudio, con el
propsito de usar la informacin que proporciona una de ellas para tratar de conocer
212
Son muchas las motivaciones para usar el anlisis de regresin, entre las cuales se
presentan algunas que no son excluyentes entre s:
Aplicacin # 1.
Captulo 3
213
Se desea encontrar una frmula cuantitativa o ecuacin para describir (por ejemplo
predecir) una variable dependiente Y como una funcin de variables independientes
X1, X2 , ..., Xn . La estructura de una cartera en trminos del monto por tiempo de
atraso influye en el valor mensual del recaudo (Y). Se desea predecir el recaudo que
se lograr de una cartera con $ X0 de clientes al da, $ X1 de clientes con un mes de
atraso, $ X2 con 2 meses de atraso, $ X3 con 3 meses de atraso, $ X4 con cuatro (4) o
mas meses de atraso.
Aplicacin # 3.
Se desea saber, entre las variables independientes cules son importantes y cules no
para describir o predecir una variable dependiente. Puede necesitar controlar otras
variables.
Ejemplo: una empresa que vende a crdito, desea conocer cuales variables son
importantes para el establecimiento del monto a aprobar de un crdito (Y). Las
variables a considerar son ingreso mensual (X1), profesin u oficio (X2), antigedad
en el actual empleo (X3), vivienda propia (X4), cuenta bancaria (X5), barrio de
residencia (X6), nmero de personas a su cargo (X7). El estudio se realiza con base a
una muestra aleatoria de 1000 clientes, a los cuales se les mide un indicador de
cumplimiento (factor de amplificacin del plazo), el cual se toma como variable de
respuesta.
Roberto Behar y Mario Yepes
214
Aplicacin # 5.
Captulo 3
215
tambin una herramienta que permite calificar la bondad del modelo; igualmente se
destacarn las limitaciones en la aplicacin de los instrumentos que se definen.
Se ha puesto de presente que se va a usar una sola caracterstica en el proceso de
prediccin de otra, este procedimiento puede generalizarse, de tal manera que pueda
involucrarse varias variables como base para la prediccin.
4.2
y
216
4.3
Captulo 3
217
dy
= k
dx
Entonces la familia a considerar ser y = kx + c sea la familia de los modelos
rectilneos.
De esta manera ser el agrnomo, el salubrista, el mdico, el bilogo, etc. la persona
que en primera instancia recomendar la familia de modelos a considerar, segn sea
el rea de estudio, o proporcionar las pistas necesarias para proponer familias de
modelos que sean razonables.
Si no se tuviera informacin sobre el fenmeno y se est en una etapa exploratoria, la
forma del diagrama de dispersin puede sugerir el tipo de familia a considerar.
De esta manera y tomando el ejemplo de la familia de modelos rectilneos, la
preocupacin sera entonces, encontrar entre las rectas la que "mejor" se ajuste a la
nube de puntos.
El criterio que se usar para definir lo que se entiende por "el mejor modelo de la
familia" es el criterio de los mnimos cuadrados y al modelo que satisfaga ese
criterio se lo llamar lnea de regresin mnimo cuadrtica.
4.3.1 Criterio de los mnimos cuadrados
El esfuerzo cortante del suelo en un cierto estrato arcilloso, parece estar relacionado
con la profundidad.
En la regin de Igor se toman 10 muestras de suelo a diferentes profundidades y se
mide a cada una el esfuerzo cortante, en miles de libras por pie cuadrado [Klb/pie2].
Se desea construir un modelo que permita hacer estimaciones del esfuerzo promedio
del suelo que se encuentra a una profundidad de x pies.
CUADRO DE DATOS
OBSERVACION (i)
10
218
6
8
14 14 18 20 20 24 28 30
0.28 0.58 0.50 0.83 0.71 1.01 1.29 1.50 1.29 1.58
Se sabe que no existe una asociacin funcional perfecta entre profundidad y esfuerzo,
es decir que puede suceder que diferente muestras que estn a la misma profundidad,
pueden tener distintas fuerzas cortantes, de hecho si miramos los datos esto se revela
en las dos muestras que se tomaron a 14 pies y tambin en las que se tomaron a 20
pies de profundidad.
Sin embargo, las distribuciones de frecuencia del esfuerzo y, puede ser bien
especfica para el suelo que se encuentra a la misma profundidad x. En especial es de
mucho inters encontrar un modelo que permita estimar la media M(y/x) para dicha
distribucin condicional de frecuencia.
M(y/x) es una funcin de x. Para hacerse una idea de la naturaleza de dicha funcin,
de su forma, puede ser de mucha utilidad graficar en los puntos (x,y) en un plano
cartesiano, dando origen al llamado diagrama de dispersin , como se muestra en
el siguiente grafico:
2.25
2
M(y/x) = a + bx
1.75
1.5
Esfuerzo
(KLb/pie2)
1.25
1
0.75
0.5
0.25
0
Profundidad
Fig. 4.2 a:
x (pies)
A partir del diagrama de dispersin se puede se puede observar una cierta tendencia
rectilnea de la nube de puntos, lo cual hace razonable pensar que el promedio M(y/x)
tenga la forma de una lnea recta, como se insina en el grafico:
M(y/x) = a + b x
Roberto Behar y Mario Yepes
Captulo 3
219
(x i
n
rxy =
i= 1
) (y
Sx Sy
para la situacin del ejemplo se tiene que :
x = 18.2 pies
Sx = 7.50733 pies
y = 0.957 Klb/pie2
Sy = 0.44385 Klb/pie2
as que:
rxy = 0.914
Es un valor alto, que significa que es muy razonable la propuesta de un modelo
rectilneo para M(y/x).
Queda ahora la tarea de hallar cual recta es. Es decir que cuales deben ser los valores
de a y b que definen la mejor recta.
220
M(y/x) = a + bx
1.29
eg
M(y/x= 28 ) = a + b(28 )
28
Fig. 4.2 b:
Asi como muestra el grfico: para el punto (28 , 1.29), el error asociado es
e g = yg
M(y/xg)
= 1.29 - [a + b * 28]
note que si consideramos un modelo particular, a y b serian nmeros conocidos y
el error e, tendra por lo tanto un valor concreto.
Si hacemos este planteamiento para cada uno de los datos, se obtiene:
e1 = 0.28 - [a + b(6)]
e2 = 0.58 - [a + b(8)]
e3 = 0.50 - [a + b(14)]
e4 = 0.83 - [a + b(14)]
e5 = 0.71 - [a + b(18)]
Roberto Behar y Mario Yepes
Captulo 3
221
e6 = 1.01 - [a + b(20)]
e7 = 1.29 - [a + b(20)]
e8 = 1.50 - [a + b(24)]
e9 = 1.29 - [a + b(28)]
e10 = 1.58 - [a + b(30)]
El modelo queda perfectamente definido cuando se encuentren los numeros a y
b. De todos los posibles, nos quedamos con aquellos que produzcan la menor suma:
2
e12 + e22 + e32 + ... + e10
note que dicha suma solo depende de los parmetros a y b del modelo, es decir que:
10
ei2
= f ( a, b)
funcin de a y b.
i= 1
n
na + x i b =
i= 1
yi
i= 1
a
+
x
b +
i
i
i= 1
xi yi
i= 1
Por ahora no se preocupe mucho por saber de donde salieron las ecuaciones.
Expresemos el sistema de acuerdo a los datos concretos obtenidos en el problema.
222
CUADRO 4.2
Observacion i
profundidad xi
esfuerzo cortante yi
1
2
3
4
5
6
7
8
9
10
6
8
14
14
18
20
20
24
28
30
182
0.28
0.58
0.50
0.83
0.71
1.01
1.29
1.50
1.29
1.58
9.57
xi
yi
x2i
xi yi
y2i
1.68
36
0.078
4.64
64
0.336
7.00
196 0.250
11.63 196 0.689
12.78 324 0.504
20.20 400 1.020
25.80 400 1.662
36.00 576 2.250
36.10 784 1.662
47.40 900 2.495
203.23 3876 10.946
xi yi
2
xi
2
yi
M(y/xi)
ei
e2i
0.325
0.429
0.739
0.739
0.946
1.049
1.049
1.257
1.463
1.566
9.57
-0.045
0.151
-0.239
0.091
-0.236
-0.039
0.241
0.243
-0.173
0.014
0
0.0020
0.0228
0.0571
0.0083
0.0557
0.0015
0.0580
0.0590
0.0299
0.0002
0.2945
ei
Un sistema de dos ecuaciones lineales, con dos incgnitas, que al resolverlo resulta:
a = 0.015
b = 0.0517
ei
Captulo 3
223
Lo cual significa que para el suelo que se encuentra a una profundidad de 10 pies, se
espera aproximadamente un esfuerzo cortante promedio de 0.532 Klb/pie2.
El modelo permite hacer predicciones sobre el esfuerzo cortante promedio para la
profundidad que se pida (dentro del rango de los valores observados para x, en este
caso entre 6 y 30 pies).
ALGUNAS OBSERVACIONES IMPORTANTES
M(y/x) = a + b x
M ( y x)
= b
x
lo que es lo mismo:
M(y/xo + 1) - M(y/xo ) = b
Lo cual significa que la pendiente del modelo rectilneo, puede interpretarse, como la
diferencia del esfuerzo cortante promedio de suelos con un pie de diferencia en
profundidad.
En otras palabras, para el caso del ejemplo, se dira que el esfuerzo cortante promedio
del suelo aumenta en 0.0517 Klb/pie2 por cada pie que aumenta la profundidad.
2. Ntese que:
( xi x ) ( yi y )
2
( xi x )
S xy
S x2
Sy
Sx
Cov( x , y )
S x2
224
xi yi n x y
xi2 n( x )2
a = y - bx
Ntese que lo desarrollado en el ejemplo slo es vlido para la familia de modelos
rectilneos M(y/x) = a + bx , sin embargo, las ideas que se usaron para obtener los
resultados siguen siendo vlidos para cualquier otra familia de modelos, adaptando
los criterios a las especificidades pertinentes.
En el ejemplo anterior, de antemano, se pudo obtener una idea de la calidad del
modelo, usando como indicador de la expresin del coeficiente de correlacin lineal,
es importante resaltar que este indicador funcionara solamente para la familia de
modelos rectilneos, M(y/x) = a + bx , para familias de modelos naturaleza distinta, se
deber desarrollar nuevos indicadores de la bondad de ajuste del modelo estimado.
A continuacin se desarrolla en forma general el proceso de estimacin de mnimos
cuadrados, se explican sus alcances y limitaciones. Posteriormente se construye un
indicador de bondad de ajuste de un modelo, aplicndole a un amplio espectro de
modelos.
Con el propsito de simplificar la escritura, en algunas ocasiones se usar:
M (y/x) = y* = f(x, )
Donde puede representar un conjunto de parmetros 0, 1, 2, ..., k
4.3.1.2 Generalizacin de la estimacin de parmetros de una familia de modelos usando el
criterio de mnimos cuadrados
Captulo 3
225
En general, estas predicciones no coinciden necesariamente con los valores observados de Y en la muestra y1, y2,...,yn; esto implica que existen unos errores de
prediccin que para los distintos elementos de la muestra pueden escribirse como:
e 1 = y1 - y * 1
e 2 = y2 - y * 2
.
.
.
e n = yn - y * n
La magnitud de estos errores depende del modelo que se escoja, es decir, depende del
juego de parmetros = (0, 1, 2, ...,k) que se seleccione, como puede apreciarse
en el grfico de la figura 4.3.
y
x
x
x
x
Se i
x
x
yi
y* = f(x,I)
y*
i
Si se parte del hecho, de que los datos (x1, y1), (x2, y2), ...,(xn, yn) son conocidos
entonces, la suma de los ei2 es una funcin de los .
i= 1
i= 1
2
e12 = [ yi f ( xi , 0 , 1, ... , k )] = G( 0 , 1, ... , k )
226
i= 1
Resolviendo el sistema:
G ( )
= 0
0
G ( )
= 0
1
Sistema de (k+1) ecuaciones con (k+1) incgnitas.
.
.
.
G ( )
= 0
k
( )
=
j
2 [y
n
i= 1
f ( x i , 0 , 1 , ... , k ) .
f ( x i )
, j = 0, 1,... ,k
j
Captulo 3
227
n
f ( x i , )
G
= 2 [ y i f ( x i , 0 , 1 , ... , k )] .
= 0
0
0
i= 1
n
f ( x i , )
G
= 2 [ y i f ( x i , 0 , 1 , ... , k )] .
= 0
1
1
i= 1
.
.
n
f ( xi , )
G
= 2 [ y i f ( x i , 0 , 1 , ... , k )] .
= 0
k
k
i= 1
(0) ei
i= 1
n
(1) ei
i= 1
f ( x i , )
= 0
0
f ( x i , )
= 0
1
.
.
ECUACIONES NORMALES
( k ) ei
i= 1
(E 4.1)
f ( x i , )
= 0
k
228
Es decir cuando f(x ,0, 1, 2, ... , k) es una funcin lineal en los parmetros.
Recurdese que en las ecuaciones normales, se est considerando como variables a
0, 1, 2, ... , k puesto que (x1, y1), (x2, y2), ...,(xn, yn) son datos conocidos, entonces
la linealidad hace referencia a 0, 1, 2, ..., k. As pues que en forma general una
funcin lineal en los parmetros puede expresarse como:
f(x, 0, 1, ..., k) = 0 + 1 f1(x) + ... + kfk(x)
donde f1(x), f2(x), ..., fk(x) son funciones que slo dependen de x y no de los .
Obsrvese que las fj(x) no tienen que ser necesariamente funciones lineales en x,
pueden ser cualquier funcin; la nica restriccin es que no involucre los parmetros
j en su expresin, de esta manera, por ejemplo, la funcin:
f(x, 0, 1, 2) = 0 + 1x2 + 2 lnx
Vase que ocurre entonces, con las ecuaciones normales, cuando f(x,) es lineal en
los parmetros, es decir cuando es de la forma:
f(x, 0, 1,...,k) = 0 + 1 f1(x) + ... +kfk(x)
f
f
f
= 1;
= f1 ( x ) , ... ,
= f k ( x)
0
1
k
Captulo 3
229
(0) ei =
i= 1
n
(1) ei f1 ( xi ) =
i= 1
.
.
(k )
(E 4.2)
n
e f (x ) =
i
i= 1
Ejemplo 4.1
Resistencia a los 10
das de "curado"
X(psi)
Resistencia a los 28
das de "curado"
Y(psi)
1800
2135
1450
2140
1870
1945
1720
2800
2750
2640
2530
2740
2300
2270
Los resultados y las funciones propuestas en el ejemplo 4.1 no son reales sino hipotticas.
230
2230
3040
Resistencia a los 10
das de "curado"
X(psi)
Resistencia a los 28
das de "curado"
Y(psi)
1540
2100
2400
2650
1765
1280
1350
1980
2000
2380
2070
1990
1775
1748
2135
1534
2320
2188
1831
1302
2005
1434
3120
2850
3235
3000
2720
2005
1900
2700
3010
3140
2870
2740
2180
2320
2980
2650
3000
3102
2930
2740
2955
2328
Estudios anteriores permiten pensar que la familia de modelos que pueden explicar
estadsticamente el fenmeno es de la forma:
f(x) = 0 + 1x + 2x2
Con base en el mtodo de los mnimos cuadrados, plantee las ecuaciones normales y
haga las estimaciones para 0, 1, 2, que corresponden al mejor modelo de la familia
en estudio.
Como puede apreciarse la familia de modelos propuesta es lineal en los parmetros;
de acuerdo con la expresin general de este tipo de modelos:
f(x, 0, 1, k) = 0 + 1f1(x) + 2f2(x) + ... + kfk(x)
Captulo 3
231
f1(x) = x ; f2(x) = x2
(0) ei =
i= 1
n
(1) ei f1 ( xi ) =
i= 1
n
(2) ei f 2 ( xi ) =
i= 1
Si se reemplaza ei = y i y i* , donde:
y i* = f ( x i ) = 0 + 1 x i + 2 x i2 , es decir:
ei = y i 0 1 x i 2 x i2
(y
(0)
i= 1
n
(1)
i= 1
(y
(2)
i= 1
0 1 x i 2 x i2 x i = 0
(y
0 1 x i 2 x i2 = 0
0 1 x i 2 x i2 x i2 = 0
(0) y i
i =1
n
(1) y i x i
i =1
n
(2) y i x i2
i =1
= n 0 + 1 x i + 2 x i2
n
= 0 x i + 1 x i2 + 2 x i3
n
(E 4.3)
= 0 x i2 + 1 x i3 + 2 x i4
Como se dispone de los datos (xi,yi), entonces las incgnitas en la ecuaciones (E 4.3),
slo son 0, 1, 2.
232
n = 30 ;
30
30
yi = 81545 ;
i= 1
30
2
i
30
= 112
. 108 ;
i= 1
= 57067
i= 1
3
i
= 2.26 1011 ;
i= 1
30
yx
i
2
i
= 313
. 1011 ;
i= 1
30
4
i
= 4.69 1014
i= 1
30
yx
i
= 157
. 108
i= 1
De acuerdo con esto, para el ejemplo, las ecuaciones normales quedan expresadas de
la siguiente manera:
(E 4.4)
(0)
81545
(1)
1.57 x 108 =
(2)
3.13 x 1011 =
0 = 4002
1 = -2.00936
2 = 0.00067994
Lo cual significa que se espera que para los ensayos en los cuales la resistencia a los
10 das es de 1900 psi, la resistencia promedia a los 28 das sea 2638.8 psi.
Captulo 3
233
Con los mismos datos del ejemplo 4.1, se desea ajustar un modelo de la familia de los
modelos rectilneos, es decir, de la forma:
f(x) = 0 + 1x
Como puede apreciarse tambin es una modelo lineal en los parmetros 0,
1,(aunque en este caso en especial, tambin es lineal en x).
En este caso f1(x) = x, as que las ecuaciones normales de acuerdo con (E 4.2)
n
(0) ei =
i= 1
n
(1) ei x =
i= 1
Como ei = y i y i* = y i f ( x i )
ei = y i 0 1 x i
haciendo el reemplazo de ei, las ecuaciones normales quedan:
n
( 0) ( y i
0 1 xi ) = 0
i= 1
n
(1) ( yi
0 1 xi ) xi = 0
i= 1
( 0) y i =
n 0 + 1 x i
i= 1
n
(1) yi xi =
(E 4.5)
0 xi + 1 x
2
i
i= 1
234
De nuevo, al lado izquierdo quedan las constantes y las sumas del lado derecho
representan los coeficientes de las incgnitas.
1 = 0.54637
Ejemplo 4.3
Con los mismos datos del ejemplo 4.1, sobre resistencia de cierto tipo de concreto, se
desea ajustar un modelo de la familia de la forma:
f ( x ) = 0 + 1 ln x + 2 x
Captulo 3
235
f2(x) =
(0) e i
=0
(1) e i
f1 ( x i ) = 0
( 2) e i
f2 ( x i ) = 0
i =1
n
i =1
n
i =1
(E 4.2)
(0)
yi = n 0 + 1 ln xi + 2 xi
Al
calc
i= 1
i= 1
i= 1
ular
n
n
n
n
2
las
(1) yi ln xi = 0 ln xi + 1 (ln xi ) + 2 xi ln xi
dife
i= 1
i= 1
i= 1
i= 1
rent
n
n
n
n
es
(2) yi xi = 0 xi + 1 xi ln xi + 2 xi xi
sum
i= 1
i= 1
i= 1
i= 1
ator
ias con base en el siguiente cuadro, que contiene respectivamente: el nmero de la
observacin, la resistencia a los 10 das (X), la raz cuadrada de X, el logaritmo
natural de X, y por ltimo la resistencia a los 28 das (Y) que constituye la
caracterstica a predecir.
236
Observacin #
Resist. a los
diez das
Ln (x)
Resistencia a los
28 dias (y)
[ Ln ( x ) ] 2
( x)
x Lnx
y i Lnx i
M ( y / xi )
yi xi
ei
e i2
1800
7.5000
42.4300
2800
56.2500
1800.3050
318.2250
21000.0000
118804.0000
2680.4580
119.5422
14290.3500
2135
7.6700
46.2100
2750
58.8289
2135.3640
354.4307
21092.5000
127077.5000
2792.2940
-42.2937
1788.7600
1450
7.2800
38.0800
2640
52.9984
1450.0860
277.2224
19219.2000
100531.2000
2569.5060
70.4941
4969.4100
2140
7.6700
46.2600
2530
58.8289
2139.9880
354.8142
19405.1000
117037.8000
2795.4110
-265.4110
70443.0100
1870
7.5300
43.2400
2740
56.7009
1869.6980
325.5972
20632.2000
118477.6000
2709.1050
30.8946
954.4800
1945
7.5700
44.1000
2180
57.3049
1944.8100
333.8370
16502.6000
96138.0000
2733.5860
-553.5860
306457.5000
1720
7.4500
41.4700
2270
55.5025
1719.7610
308.9515
16911.5000
94136.9000
2657.0270
-387.0270
149789.8000
2230
7.7100
47.2200
3040
59.4441
2229.7280
364.0662
23438.4000
143548.8000
2826.1260
213.8737
45741.9600
1540
7.3400
39.2400
3120
53.8756
1539.7780
288.0216
22900.8000
122428.8000
2598.1220
521.8781
272356.8000
10
2070
7.6400
45.5000
2870
58.3696
2070.2500
347.6200
21926.8000
130585.0000
2769.8810
100.1193
10023.8700
11
1990
7.6000
44.6100
2740
57.7600
1990.0520
339.0360
20824.0000
122231.4000
2743.5300
-3.5297
12.4600
12
1775
7.4800
42.1300
2180
55.9504
1774.9370
315.1324
16306.4000
91843.4000
2676.3220
-496.3220
246336.0000
13
2100
7.6500
45.8300
2850
58.5225
2100.3890
350.5995
21802.5000
130615.5000
2783.1710
66.8293
4466.1500
14
2400
7.7800
48.9900
3235
60.5284
2400.0200
381.1422
25168.3000
158482.7000
2885.4890
349.5108
122157.8000
15
2650
7.8800
51.4800
3000
62.0944
2650.1900
405.6624
23640.0000
154440.0000
2967.8890
32.1115
1031.1500
16
1765
7.4800
42.0100
2720
55.9504
1764.8400
314.2348
20345.6000
114267.2000
2668.8410
51.1591
2617.2500
17
1280
7.1500
35.7800
2005
51.1225
1280.2080
255.8270
14335.8000
71738.9000
2520.8050
-515.8050
266055.2000
18
1350
7.2100
36.7400
1900
51.9841
1349.8280
264.8954
13699.0000
69806.0000
2536.9520
-636.9520
405707.9000
19
1980
7.5900
44.5000
2700
57.6081
1980.2500
337.7550
20493.0000
120150.0000
2743.9560
-43.9559
1932.1230
20
2000
7.6000
44.7200
3010
57.7600
1999.8780
339.8720
22876.0000
134607.2000
2750.3880
259.6122
67398.4900
21
2380
7.7700
48.7900
3140
60.3729
2380.4640
379.0983
24397.8000
153200.6000
2880.3040
259.6958
67441.9000
22
1748
7.4700
41.8100
2320
55.8009
1748.0760
312.3207
17330.4000
96999.2000
2663.6560
-343.6560
118099.4000
23
2135
7.6700
46.2100
2980
58.8289
2135.3640
354.4307
22856.6000
137705.8000
2792.2940
187.7063
35233.6500
24
1534
7.3400
39.1700
2650
53.8756
1534.2890
287.5078
19451.0000
103800.5000
2593.7580
56.2424
3163.2070
25
2320
7.7500
48.1700
3000
60.0625
2320.3490
373.3175
23250.0000
144510.0000
2856.2180
143.7819
20673.2400
26
2188
7.6900
46.7800
3102
59.1361
2188.3680
359.7382
23854.4000
145111.6000
2813.2630
288.7375
83369.3400
27
1831
7.5100
42.7900
2930
56.4001
1830.9840
321.3529
22004.3000
125374.7000
2695.6180
234.3819
54934.8600
28
1302
7.1700
36.0800
2740
51.4089
1301.7660
258.6936
19645.8000
98859.2000
2524.9410
215.0593
46250.5100
29
2005
7.6000
44.7800
2955
57.7600
2005.2480
340.3280
22458.0000
132324.9000
2754.1290
200.8714
40349.3200
30
1434
7.2700
37.8700
2328
52.8529
1434.1370
275.3149
16924.6000
88161.3600
2563.6980
-235.6980
55553.3200
(E 4.7)
1 = - 728.432
2 = 62.3464
Captulo 3
237
4.4
2
ei2 = [ yi f ( xi , )]
238
Se espera que el peor de los casos, ocurra cuando la informacin que aporta la
caracterstica X, no ayude nada en la prediccin de Y, lo cual significa que
y* = M(y/x) = C
constante
En este caso, como de acuerdo con las ecuaciones normales, para modelos lineales en
los parmetros debe cumplirse que
ei2 = ( yi y )
, de donde se
( yi y )
(E 4.8)
( yi y )
depende de la familia de modelos que se desee estudiar, por tanto la expresin (E 4.8)
constituye una escala que permite interpretar la magnitud de ei2 . De acuerdo con
esto y teniendo en cuenta que cuando ei2 = 0 el modelo se ajusta perfectamente a
los datos observados y sabiendo que por (E 4.8):
0
ei2
yi y
ei2
( yi y )
De esta manera:
0 R2 1
Captulo 3
Siendo R2 = 0
cuando
ei2 = ( yi y )
239
( yi y )
i= 1
ei2 =
[ yi
i= 1
R = 1
2
ei2
( yi y )
= 1
2079642
3521162
R 2 = 0.4094
240
( yi y )
i= 1
ei2 =
[ yi
i= 1
R = 1
2
ei2
( yi y )
= 1
2401138
3521162
R 2 = 0.318
( yi y )
i= 1
ei2 + [ M ( y / xi )
n
i= 1
i= 1
(E 4.9)
Donde:
( yi y )
i= 1
Captulo 3
241
depende del modelo que se quiere ajustar, es decir que para un conjunto de datos
dado, la variacin total es una constante (el numerador de la varianza de y).
n
2
i
i= 1
[ M ( y / xi )
n
i= 1
Para probar la expresin (E 4.9), se parte del supuesto de que la familia de modelos
que se estudia es lineal en los parmetros, es decir de la forma :
f ( x ) = 0 + 1 f1 ( x ) + 2 f 2 ( x ) + ... + k f k ( x )
n
i= 1
yi y
( yi
i= 1
[( yi
n
M ( y / xi ) + M ( y / xi ) y
M ( y / xi ) + M ( y / xi ) y
i= 1
)]
i= 1
yi y
[ ei + ( M ( y / xi ) y )]
n
i= 1
elevando al cuadrado del binomio que est dentro de los corchetes se obtiene
distribuyendo la sumatoria:
( yi y )
i= 1
i= 1
ei2
[ M ( y / xi )
n
i= 1
+ 2 ei M ( y / x i ) y
i= 1
242
para obtener la expresin (E 4.9) que se desea probar, slo restara mostrar que el
doble producto es cero, lo cual se logra recordando que las ecuaciones normales que
dieron origen al modelo mnimo cuadrtico M(y/x) son:
n
(0) ei =
i= 1
n
(1) ei M i ( y / xi ) =
i= 1
.
.
n
( k ) ei M k ( y / xi ) =
i= 1
Por lo tanto:
2 ei M ( y / x i ) y = 2
[ ei M ( y / xi ) y ei ]
Pero
e M( y / x ) = e [
n
i= 1
+ 1 M 1 ( y / x i ) + ... + k M k ( y / x i )
= 0 e i + 1 e i M i ( y / x i ) + ... + k e i M k ( y / x i )
= 0
i= 1
yi y
ei2 +
i= 1
[ M ( y / xi ) y ]
n
i= 1
Captulo 3
R2 =
243
R =
2
[ M ( y / xi ) y ]
2
( yi y )
O en forma equivalente
Variacin Residual
variacin total
R2 = 1
R = 1
2
Obviamente
ei2
( yi y )
0 R2 1
Ejemplo 4.4
xi(psi)
yi(psi)
ei
ei2
1800
2135
1450
2588.158
2811.336
2518.002
2800
2750
2640
211.842
-61.336
121.998
44877.200
3762.093
14883.550
244
2815.823
2622.179
2666.025
2557.435
2902.401
2520.131
2756.099
2696.004
2577.622
2780.880
3095.990
3452.075
2573.646
2544.033
2528.555
2689.104
2703.040
3071.175
2567.198
2811.336
2519.646
2999.994
2860.627
2602.402
2538.450
2706.609
2518.777
2530
2740
2300
2270
3040
3120
2870
2740
2180
2850
3235
3000
2720
2005
1900
2700
3010
3140
2320
2980
2650
3000
3102
2930
2740
2955
2328
-285.823
117.821
-486.025
-287.435
137.599
599.869
113.900
43.996
-397.622
69.121
139.010
-452.075
146.354
-539.033
-628.555
10.896
306.960
68.825
-247.198
168.664
130.353
0.006
241.373
327.5978
201.550
248.391
-190.776
81694.690
13881.790
236220.100
82619.050
18933.530
359842.500
12973.280
1935.649
158103.200
4777.657
19323.670
204371.500
21419.590
290556.500
395080.900
118.723
94224.440
4736.834
61106.910
28447.58
16992.000
0.000038
58260.930
107320.300
40622.29
61698.090
36395.660
De acuerdo con el cuadro anterior y con los datos obtenidos se obtiene que:
30
( yi y )
i= 1
ei2 =
[ yi
i= 1
As:
R = 1
2
( y
2
i
= 1
R 2 = 0.326
Roberto Behar y Mario Yepes
2372934
3521162
Captulo 3
245
Cuando se trat el mtodo de los mnimos cuadrados, como una tcnica para obtener
el modelo de una familia que mejor se ajuste a un conjunto de puntos dados, se
desarroll en forma general para cualquier familia de modelos f(x) y se plantearon en
forma general las llamadas ecuaciones normales.
Se hizo notar que las ecuaciones normales tomaban la forma de un sistema de
ecuaciones, de fcil solucin cuando la familia de modelos a estudiar, es lineal en los
parmetros. Se mencion que cuando esto no ocurre la solucin del sistema de
ecuaciones normales es ms complicado y que inclusive puede llegar a ser necesario
el uso de mtodos numricos iterativos con ayuda del computador.
No obstante las dificultades que precedan el hallazgo del modelo mnimo cuadrtico
de una familia de modelos no lineales en los parmetros, existe un problema
adicional: el juicio sobre su bondad, porque la expresin del anlisis de la varianza
asociado a la regresin se satisface cuando los modelos son lineales en los parmetros
y como se vio, sta expresin es la base para la definicin del coeficiente de
determinacin. Resumiendo, este indicador no aplica en modelos no lineales en los
parmetros.
Roberto Behar y Mario Yepes
246
se tiene:
puede aplicarse:
ln M(y/x) = ln0 + (ln1)x + Ln ei
W = 0 + x + ei*
Si se hace:
LnM(y/x) = W
Roberto Behar y Mario Yepes
Captulo 3
247
Ln0 = B0
Ln1 = B1
se tiene: M(w/x) = B0 + B1x que corresponde a un modelo lineal en B0 y B1.
4.4.2.1 OTROS MODELOS NO LINEALES EN LOS PARAMETROS
Forma lineal :
1/y = a - b/x
248
Funciones exponenciales
Y = a ebx
Forma Lineal :
LnY = Ln a + b X
Funciones potenciales
Forma Lineal :
Y = a xb
LnY = Ln a + b Ln x
Captulo 3
Funciones logartmicas
En forma lineal : y = a + b Ln x
Funciones especiales
Y = a e b/ x
Forma Lineal :
LnY = Ln a + b / x
249
250
= 1 (a + b e x )
Forma Lineal :
1/ Y
= a + b e x
Funciones polinomicas
Forma Lineal :
= a + b e x
Captulo 3
251
Los anlisis de regresin son usados de modo muy prctico en todas las ramas de la
ingeniera para obtener relaciones empricas entre dos (o ms) variables. Algunas
veces la relacin entre dos variables en ingeniera no puede deducirse con base en
consideraciones tericas; en estos casos la relacin requerida entre las variables
puede ser obtenida empricamente con base en las observaciones experimentales.
Por ejemplo para graficar el logaritmo de las observaciones de fatiga N de un material
versus el logaritmo aplicado al rango de stress S, se observa una tendencia lineal asi
como se muestra en la siguiente figura.
100
10
1
100
135
151
180
245
299
350
450
600
800
1050
1500
2000
252
Captulo 3
253
Homogeneidad de Varianza.
La varianza de la distribucin condicional de
variable dependiente Y, debe ser constante, para cualquier valor de la variable
independiente o predictora X. Cuando esto no se cumple, los estimadores de
mnimos cuadrados ordinarios, no producen los mejores estimadores, razn por la
cual deben realizarse algunas ponderaciones que corrijan este efecto. En el caso
que ilustra en la figura, se nota que a medida que la variable X toma valores mas
grandes, la variabilidad de la variable Y se hace mayor, es decir No se cumple la
condicin de homogeneidad de varianza y por el contrario se dice que hay
heterocedasticidad.
Modelo adecuado.
Otra condicin que se exige, es que el modelo propuesto
sea el adecuado, lo cual significa que en realidad el modelo poblacional,
contenga las medias condicionales M(Y/x), para todos los valores de la variable
predictora X. A continuacin se muestran algunos casos en los que esta condicin
aparentemente obvia, no se satisface.
a) parece que
el modelo es
apropiado
...
..... .
....
...
.
......
.
.... ...
.
. ..
....... .
.
. ..
........
.
...
..
...
....
. ...
.....
254
b) parece
que el
modelo
rectilneo es
incorrecto,
sugiere un
modelo
cuadrtico
.......
.........
.
..
.
.
.
.
.......
.
.
...
.......
c) parece
que
el
modelo
rectilneo
es correcto
para buena
parte de los
puntos;:
..
..
..
..
..
.
d)No hay
informacin
para juzgar
el modelo,
la pendiente
est total y
definida por
el punto
lejano
DISTRIBUCIONNORMAL
0.5
Captulo 3
255
Regla emprica sobre la relacin n/p. Como una gua emprica puede decirse que si
existen aproximadamente 10 datos por cada parmetro que se desea estimar en el
modelo, el valor del coeficiente de determinacin que se calcule es confiable
(creble).
(y
2
i
( n p)
y)2 (n 1)
n 1
1 R2
n p
Ejemplo 1.
256
RA2 = 1
10 1
(1 0.90)= 0.1
10 9
!!!! Tremenda Sorpresa !!!! Nos indica que en esas condiciones el valor creble del
coeficiente de determinacin es el 10%.
Ejemplo 2
Supongamos la misma situacin anterior pero donde lo nico distinto es que todos
los clculos y estimaciones se realizaron con n=90 datos. Veamos que pasa:
RA2 = 1
90 1
1 0.90)= 0.89
(
90 9
Paso de 90% a 89%, es decir que tuvo un cambio casi despreciable. Note que en esta
ocasin se cumple la recomendacin emprica de que hayan 10 datos por cada
parmetro, es decir la razon n/p = 10.
EJERCICIOS PROPUESTOS
x y
i
1 =
X .Y
S X2
0 = Y 1 X
Captulo 3
257
4. Plantee las ecuaciones normales, si en lugar de conocer los puntos (x1, y1),
(x2, y2), ...,(xn, yn) slo se conociera la distribucin conjunta de frecuencias absolutas: {(xi, yi), nij}.
5. El "costo del mantenimiento" (Y) de cierto tipo de tractores parece incrementar
con la "edad del tractor" (X). Con el propsito de encontrar un modelo que
explique esta relacin, se tomaron los siguientes registros:
4.5
1.0
4.0
4.5
4.5
5.0
4.0
4.0
5.0
0.5
0.5
6.0
6.0
1.0
1.0
Roberto Behar y Mario Yepes
258
M ( y / x ) = 0 + 1 x1.5 + 2 e x
5.3
M( y / x) = 0 x 1
b. Cul de los tres modelos encontrados le parece mejor, desde el punto de vista
del ajuste. Use el coeficiente de determinacin ajustado. Justifique.
c. El modelo mencionado en b. le parece bueno ? Comente.
d. Con base en el modelo encontrado en b. Haga la prediccin para X = 3.5 aos.
Interprete muy claramente el valor obtenido.
1
Peso inicial 50
2
64
3
76
Rata Nmero
4
5
6
7
64 74 60 69
X (gramos)
Aumento 128 159 158 119
Y
133 112
96
8
68
9
56
10
48
Captulo 3
Precio
(X)
100
$/ lbs.
Cantidad
vendida 55
lbs. (Y)
90
80
70
70
70
70
65
60
60
55
70
259
50
a. Ajuste un modelo rectilneo para predecir la demanda (Y) con base en el precio.
b. Hgase una idea de la bondad del modelo a travs del coeficiente de
determinacin.
c. Haga una estimacin de la demanda cuando el precio por libra sea de $75, e
interprete claramente el resultado.
(x,y)
No. de
Observaciones
(6,50)
(6,70)
(6,90)
(8,50)
(8,70)
2
5
10
5
30
(x,y)
No. de
Observaciones
(8,90)
(10,50)
(10,70)
(10,90)
(12,50)
(12,70)
(12,90)
25
8
25
11
10
6
2
260
Precipitacin
Y (pulg.)
1.11
1.17
1.79
5.62
1.13
1.54
3.19
1.73
2.09
2.75
1.20
1.01
1.64
1.57
Precipitacin
Y (pulg.)
Filtracin
X (pulg.)
0.52
0.40
0.97
2.92
0.17
0.19
0.76
0.66
0.78
1.24
0.39
0.30
0.70
0.77
Filtracin
X (pulg.)
Captulo 3
15
16
17
18
19
20
21
22
23
24
25
1.54
2.09
3.54
1.17
1.15
2.57
3.57
5.11
1.52
2.93
1.16
261
0.59
0.95
1.02
0.39
0.23
0.45
1.59
1.74
0.56
1.12
0.64
b. Ajuste por mnimos cuadrados los modelos propuestos por usted, y valore con
base en el coeficiente de determinacin ajustado.
c. Con base en el modelo que Ud. considero ms adecuado haga la prediccin
correspondiente para una precipitacin x = 2.3 pulg., interprete su respuesta en
el contexto del problema
Estacin metereolgica
elevacin
(pies)
latitud
(grados)
temperatura
media anual
Bayard
Buckhannon
Charleston
Flat Top
Kearneysville
Madison
New Martinsville
Pickens
Rainelle
Wheeling
2375
1459
604
3242
550
675
635
2727
2424
659
39.27
39.00
38.35
37.58
39.38
38.05
39.65
38.66
37.97
40.10
47.5
52.3
56.8
48.4
54.2
55.1
54.4
48.8
50.5
52.7
262
Nmero de
golpes Ni
fuerza de compresin
qi
4
8
11
16
17
19
21
25
32
34
187
0.33
0.90
1.41
1.99
1.70
2.25
2.60
2.71
3.33
4.01
21.23
slidos disueltos
turbidez
Captulo 3
1
2
3
4
5
(mg/l)
(JTU)
400
550
700
800
500
5
30
32
58
20
263
Ya que la turbidez es fcil de medir se puede usar una ecuacin de regresin para
predecir la concentracin de slidos disueltos con base en la turbidez. Suponga
que la varianza de concentracin de slidos es constante.
a. Ajuste una lnea recta a estos datos. Que valores se obtuvo para el intercepto y
la pendiente (parmetros de la recta de regresin).
b. Estime la desviacin estndar de la concentracin de slidos disueltos a lo
largo de la recta de regresin
c. Si no lo convence el modelo de lnea recta, haga propuestas que le parezcan
razonables.
13. Suponga que los datos del consumo de agua individual por da se acumularon para
4 barrios en Igor-City, tal como presenta la siguiente tabla.
a. Si el efecto del tamao poblacional de un barrio, sobre el consumo individual
es despreciable, determine la varianza muestral.
264
Ao
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
Habitantes
240100
245400
247500
251000
253400
258200
261000
262000
265000
268000
274500
REFERENCIAS BIBLIOGRAFICAS
Captulo 3
265
266
Captulo 3
267
American
LARSEN, R., F. (1976). Stroup Statistics in the real world . Ed. Collier
MacMillan. N.Y.
LEIK, Robert; and GOVE, Walter (1971). Integrated approach to measuring
association page 279 - 301 in Hebert L. Costner (Editor) Sociological
methodology, 1971. San Francisco: Jossey-Bass.
268
Captulo 3
269
UNGER LEIDER H, SMITH C.C., (Febrero 1967) Use and abuse of Statistics,
geriatrics, 22, 112 - 120.
WALKER, Helen. (1929). Studies in the history of statstical method, with special
reference to artain educational problems. Baltimore: Williams and Wilkins.
WESOLOWSKY, G. (1979). Multiple regression and analysis of variance .
Wiley and Sons, N.Y.
WESTERGAARD, Harold. (1932). Contributions to the history of Statistics .
London: King.
YULLE-KENDALL. (1967). Introduccin a la estadstica matemtica. Ed.
Aguilar, Madrid.
270