Está en la página 1de 334

A mi hermano Beni in memoriam.

A mis
hijos.
Cuqui
Para Julia y Cristina.
Javier
El desarrollo y el nivel de aplicacin que la Bioestad
dudable que este progreso en el conocimiento y aplicacin de la Estad
hardare! ha hecho posible! a su ve"! la reali"acin de pruebas estad
humano as # como manejar vol$menes de in%ormacin que habr
to estad
adquiridos! hemos evolucionado a una &ociedad Cient
inmersos en la %ormacin y aprendi"aje de t'cnicas b(sicas de metodolog
Bioestad#stica para el (mbito de &alud y Biolog
cuanti%icacin y en el estudio emp
cient
)o se trata de hacer e*pertos en Estad
+
Prlogo
#stica! como herra,
mienta $til y rigurosa en el campo de la investigacin en todas las Ciencias
&ociales! ha e*perimentado en los $ltimos a-os! ha sido espectacular. Es in,
#stica
ha venido estrechamente vinculado al que ha e*perimentado el (rea de la
computacin! que nos ha llevado a una sociedad absolutamente in%orma,
ti"ada donde el ordenador se ha convertido en un utensilio personal de
uso habitual. Este auge y progreso de la in%orm(tica! a nivel de so%tare y
#sticas
que! de %orma habitual! hubiesen sido muy costosas desde el punto de vista
#an resultado
absolutamente impensables.
.n segundo %actor asociado a este progreso del conocimiento en el (mbi,
#stico! ha sido el cambio de actitud e*perimentado por todos los pro,
%esionales de las (reas de Ciencias &ociales y especialmente! en el (mbito de
las Ciencias de la &alud. /e una sociedad en la que los roles y el desempe-o
de la pro%esin estaban ajustados a la mera aplicacin de los conocimientos
#%ica donde la investi,
gacin ha pasado a %ormar parte esencial de su labor diaria. El inter's por
descubrir nuevos procedimientos a trav's de la e*periencia acumulada! ha
sido determinante en la necesidad de que todos estos pro%esionales se vean
#a
de la investigacin y de algunas m(s concretas como el an(lisis de datos.
Este cambio en la dimensin del ejercicio pro%esional! determina que los
planes de estudio de todas las licenciaturas y diplomaturas incluyan la
#a! como materia troncal
con entidad propia y de aut'ntica necesidad. &e pretende! con ello! que un
pro%esional de la &alud! o de cualquier ciencia &ocial! que se apoye en la
#rico de lo que observa a diario! entienda
y cono"ca los conceptos b(sicos de la ciencia que le va a permitir!
abandonando conductas pragm(ticas! pro%undi"ar y comprender el
%undamento
#%ico de su (rea de trabajo.
#stica. El principal objetivo de
los docentes de esta materia se centra en generar! en los discentes! una
actitud cr#tica ante cualquier lectura cient
con estad
y los elementos imprescindibles en cualquier investigacin emp
Ajena a esta trans%ormacin social se encuentran la gran mayor
la Bioestad#stica en su curr
intr
Bioestad
darse cuenta de qu' manera la Bioestad
mientos de otros colegas de su (mbito pro%esional! es el lenguaje estad
nolog #a si se pretende tener una actitud cr
de cualquier literatura cient
libro que podr#a de%inirse como un 0anual de Estad
la Estad
1
#%ica! adquirir un lenguaje com$n
#sticos y otros pro%esionales del (rea y conocer a priori los
pasos
#rica que se
apoye en el manejo de vol$menes grandes de datos y cuyo propsito %inal
sea
condensar dicha in%ormacin para que pueda ser transmitida o
e*trapolar
las conclusiones a las poblaciones de las que %ueron tomadas las
medidas. Es
importante saber que no e*iste investigacin si no e*isten objetivos
previos2
no puede descartarse ni con%irmarse lo que no se ha planteado.
#a de
nuestros alumnos que cursan los primeros cursos de alguna de estas
licen,
ciaturas o diplomaturas de Ciencias &ociales o Ciencias de la &alud.
&us
$nicos objetivos se centran en llegar a ser m'dicos! bilogos! psiclogos. .
. y
no alcan"an a entender que utilidad les puede reportar una materia como
#culo. Es por ello que al margen de la di%icultad
#nseca que genera el entendimiento de la materia! la ense-an"a de
la
#stica en estos cursos se ve agravada por la imposibilidad de
usar
cualquier tipo de motivacin.
En muy distinta situacin se encuentran los alumnos de postgrado
que ya han comen"ado su vida pro%esional y han tenido! por tanto!
ocasin de
#stica les puede resultar $til y
nece,
saria. Aunque no sea su deseo adentrarse en el mundo de la
investigacin!
una parte importante en la transmisin de los nuevos halla"gos y
conoci,
#stico.
Es por ello que han de estar absolutamente %amiliari"ados con dicha
termi,
#tica y objetiva ante la lectura
#%ica.
3ruto del trabajo reali"ado con estos sectores de estudiantes e
investigadores es nuestra e*periencia! que nos ha animado a escribir el
presente
#stica b(sica aplicada al
(mbito de la &alud. &u contenido abarca desde los aspectos m(s
b(sicos de
#stica descriptiva! en su %uncin de resumir! presentar y
comunicar
los resultados de cualquier estudio a las di%erentes t'cnicas de
e*trapolacin
de las conclusiones a una poblacin! a partir de lo veri%icado en una
mues,
tra representativa de 'sta. 4bviamente! para ello! se hace necesario
revisar
las nociones m(s b(sicas de aspectos como probabilidad! 5ariable
aleatoria!
/istribuciones de probabilidad! as
toda la 6n%erencia Estad
la Estad
tribucin gaussiana as
tad#stica que se imparten en la mayor
teor
trav's de sus opiniones sinceras! sobre nuestra metodolog
de ayuda! apoyo y consulta entre nuestros disc
7
# como los elementos imprescindibles de
#stica2 t'cnicas de muestreo! conceptos
%undamen,
tales! estimacin con%idencial y contrastes de hiptesis m(s importantes
de
#stica .nivariante! abordando los test usados bajo supuesto de
dis,
# como los de distribucin libre. 8a variabilidad que
han generado los nuevos planes de estudio no %acilita la seleccin de
unos
contenidos que abarque la totalidad de los programas de todas las
.niver,
sidades! sin embargo hay una parte troncal que constituye un
porcentaje
amplio del conjunto de todos ellos. Esta es la parte que hemos
selecciona,
do! para nuestro contenido! de manera que podamos acercarnos lo
m(*imo
posible a lo que pudiera ser un libro de te*to para las asignaturas de
Bioes,
#a de las 3acultades de 0edicina y
Escuelas de Ciencias de la &alud.
En lo que concierne al modo y la %orma! la e*periencia
acumulada a
trav's de los a-os de docencia y el apoyo en el (rea de la
investigacin
de los pro%esionales de la salud de nuestro entorno! nos condiciona a
que
#a y pr(ctica avancen de manera simult(nea! en este manual!
comple,
ment(ndose la una a la otra y apoy(ndose mutuamente! con
numerosos
ejemplos que puedan acercar al lector a situaciones m(s cotidianas de
su
entorno. Pretendemos con ello ayudarles a entender las nociones m(s
abs,
tractas y a relacionarlas con un %uturo no lejano como pro%esional del
mundo
de la salud. )o obstante! no hemos querido evitar tratar algunos temas
con
algo m(s de rigor! para que el lector que est' interesado en pro%undi"ar
algo
m(s! pueda hacerlo9 siempre teniendo en cuenta que la lectura de
dichas
partes es algo optativo y que depender( de las necesidades
individuales.
A todos esos alumnos y compa-eros queremos dedicarle nuestro
m(s sincero agradecimiento! por su inestimable colaboracin al
orientarnos! a
#a docente y haber
podido observar cual ha sido su evolucin a lo largo de los a-os y de
las di%erentes etapas que se han ido sucediendo.
Esperamos que la ilusin puesta en la reali"acin de este te*to nos
ha,
ya permitido suavi"ar! en la medida de lo posible! la aride" del tema
que
tratamos! y slo comprobar que realmente pueda ser un elemento
e%ica"
#pulos y compa-eros! justi%i,
car( todas las horas que hay detr(s de estas lineas.
:;u' es la estad
<.7.<. 5ariables estad
<.7.+. =ablas estad
+.+. Estad
+.1. Estad
>ndice general
<. Conceptos previos <1
<.<. 6ntroduccin . . . <1
<.+. #stica? <7
<.1. Elementos. Poblacin. Caracteres . . . <@
<.7. 4rgani"acin de los datos <A
#sticas . <A
#sticas <B
<.@. Cepresentaciones Dr(%icas +<
<.@.<. Dr(%icos para variables cualitativas . . ++
<.@.+. Dr(%icos para variables cuantitativas +E
<.E. Problemas . . . 1E
+. 0edidas descriptivas 1B
+.<. 6ntroduccin . . . 1B
#sticos de tendencia central 7F
+.+.<. 8a media 7<
+.+.+. 8a mediana 71
+.+.1. 8a moda . . . 7E
+.+.7. Celacin entre media! mediana y moda 7A
#sticos de posicin 7G
@
+.7.1. /esviacin t
+.@. Asimetr
+.@.<. Estad#sticos de asimetr
+.@.+. Estad
E
>
)/6CE DE)ECA8
+.7. 0edidas de variabilidad o dispersin @@
+.7.<. Cango @@
+.7.+. 5arian"a . . . @@
#pica o est(ndar . . . @E
+.7.7. Ejemplo de c(lculo de medidas de dispersin @E
+.7.@. Coe%iciente de variacin @A
#a y apuntamiento . . . @B
#a . EF
#sticos de apuntamiento EE
+.E. Problemas . . . EG
1. 5ariables bidimensionales A1
1.<. introduccin . . . A1
1.+. =ablas de doble entrada A@
1.+.<. /istribuciones condicionadas AE
1.1. /ependencia %uncional e independencia . . . AA
1.1.<. /ependencia %uncional . . . AA
1.1.+. 6ndependencia AG
1.7. Covarian"a AG
1.@. Coe%iciente de correlacin lineal de Pearson G<
1.E. Cegresin G<
1.E.<. Bondad de un ajuste . . . G7
1.E.+. Cegresin lineal GE
1.A. Problemas . . . B7
7. C(lculo de probabilidades y variables aleatorias BB
7.<. introduccin . . . BB
7.+. E*perimentos y sucesos aleatorios . . . <FF
7.+.<. 4peraciones b(sicas con sucesos aleatorios . <F<
>
)/6CE DE)ECA8 A
7.1. E*perimentos aleatorios y probabilidad <F+
7.1.<. )ocin %recuentista de probabilidad <F+
7.1.+. Probabilidad de 8aplace . . . <F@
7.1.1. /e%inicin a*iom(tica de probabilidad <F@
7.7. Probabilidad condicionada e independencia de sucesos <FE
7.@. =eoremas %undamentales del c(lculo de probabilidades <FB
7.@.<. =eorema de la probabilidad compuesta . . . <<F
7.@.+. &istema e*haustivo y e*cluyente de sucesos <<F
7.@.1. =eorema de la probabilidad total <<<
7.@.7. =eorema de Bayes <<+
7.E. =ests diagnsticos <<@
7.A. Problemas . . . <<B
@. 5ariables aleatorias <+1
@.<. 6ntroduccin . . . <+1
@.+. 5ariables aleatorias discretas <+@
@.1. 5ariables aleatorias continuas <+E
@.7. 0edidas de tendencia central y dispersin de v.a. . . <+B
@.7.<. 5alor esperado o esperan"a matem(tica <1F
@.7.+. 5arian"a . . . <1F
E. Principales leyes de distribucin de variables aleatorias <1<
E.<. 6ntroduccin . . . <1<
E.+. /istribuciones discretas <1+
E.+.<. /istribucin de Bernoulli <1+
E.+.+. /istribucin binomial <11
E.+.1. /istribucin geom'trica H o de %racasosI <1A
E.+.7. /istribucin binomial negativa <1B
E.+.@. /istribucin hipergeom'trica <7<
G
>
)/6CE DE)ECA8
E.+.E. /istribucin de Poisson o de los sucesos raros <71
E.1. /istribuciones continuas <77
E.1.<. /istribucin uni%orme o rectangular <77
E.1.+. /istribucin e*ponencial . . . <7E
E.1.1. /istribucin normal o gaussiana <@F
E.1.7. /istribucin J
+
<@1
E.1.@. /istribucin t de &tudent <@@
E.1.E. 8a distribucin 3 de &nedecor <@A
E.7. Problemas . . . <@B
A. 6ntroduccin a la in%erencia <E1
A.<. 6ntroduccin . . . <E1
A.+. ='cnicas de muestreo sobre una poblacin . . <E7
A.+.<. 0uestreo aleatorio <E@
A.+.+. 0uestreo aleatorio estrati%icado . . . <EE
A.+.1. 0uestreo sistem(tico . . . <EG
A.+.7. 0uestreo por conglomerados <EB
A.1. Propiedades deseables de un estimador . . . <EB
A.1.<. Estimadores de m(*ima verosimilitud <AF
A.1.+. Algunos estimadores %undamentales <A+
G. Estimacin con%idencial <A@
G.<. 6ntroduccin . . . <A@
G.+. 6ntervalos de con%ian"a para la distribucin normal <AA
G.+.<. 6ntervalo para la media si se conoce la varian"a <AG
G.+.+. 6ntervalo para la media Hcaso generalI <G+
G.+.1. 6ntervalo de con%ian"a para la varian"a <GE
G.+.7. Estimacin del tama-o muestral <GA
<F.Contrastes basados en el estad
<F.+. El estad
>
)/6CE DE)ECA8 B
G.+.@. 6ntervalos para la di%erencia de medias de dos pobla,
ciones <GB
G.1. 6ntervalos de con%ian"a para variables dicotmicas <B@
G.1.<. 6ntervalo para una proporcin <B@
G.1.+. Eleccin del tama-o muestral para una proporcin <BA
G.1.1. 6ntervalo para la di%erencia de dos proporciones . . <BG
G.7. Problemas . . . +FF
B. Contrastes de hiptesis +F1
B.<. 6ntroduccin . . . +F1
B.<.<. 4bservaciones . . . +FE
B.+. Contrastes param'tricos en una poblacin normal . . . +<F
B.+.<. Contrastes para la media +<F
B.+.+. Contrastes para la varian"a +<G
B.1. Contrastes de una proporcin +<B
B.7. Contrastes para la di%erencia de medias apareadas ++7
B.@. Contrastes de dos distribuciones normales independientes ++G
B.@.<. Contraste de medias con varian"as conocidas ++G
B.@.+. Contraste de medias homoced(ticas +1<
B.@.1. Contraste de medias no homoced(ticas . . . +1+
B.@.7. Contrastes de la ra"n de varian"as . . . +17
B.@.@. Caso particular2 Contraste de homocedasticidad +1E
B.E. Contrastes sobre la di%erencia de proporciones +77
B.A. Problemas . . . +7E
#stico Ji,Cuadrado +@@
<F.<. 6ntroduccin . . . +@@
#stico J
+
y su distribucin +@E
<F.1. Contraste de bondad de ajuste para distribuciones +E7
<F
>
)/6CE DE)ECA8
<F.1.<. /istribuciones de par(metros conocidos +E@
<F.1.+. /istribuciones con par(metros desconocidos . . . +EG
<F.7. Contraste de homogeneidad de muestras cualitativas +EB
<F.@. Contraste de independencia de variables cualitativas +A+
<F.E. Problemas . . . +AG
<<.An(lisis de la varian"a +G1
<<.<. 6ntroduccin . . . +G1
<<.+. A)45A con un %actor +G@
<<.+.<. Especi%icacin del modelo +GA
<<.+.+. Algo de notacin relativa al modelo +GB
<<.+.1. 3orma de e%ectuar el contraste +B<
<<.+.7. 0'todo reducido para el an(lisis de un %actor +B+
<<.+.@. An(lisis de los resultados del A)45A2 Comparacio,
nes m$ltiples +B@
<<.1. Consideraciones sobre las hiptesis subyacentes en el modelo
%actorial +BA
<<.1.<. Contraste de homocedasticidad de Cochran +BG
<<.1.+. Contraste de homocedasticidad de Bartlett +BB
<<.7. Problemas . . . 1F<
<+.Contrastes no param'tricos 1F@
<+.<. 6ntroduccin . . . 1F@
<+.+. Aleatoriedad de una muestra2 =est de rachas 1FE
<+.1. )ormalidad de una muestra2 =est de /KAgostino 1FG
<+.7. Equidistribucin de dos poblaciones 1FB
<+.7.<. Contraste de rachas de LaldMLol%oit" 1FB
<+.7.+. Contraste de 0annMLithney 1<F
<+.@. Contraste de Lilco*on para muestras apareadas 1<<
Bibliogra%
>
)/6CE DE)ECA8 <<
<+.E. Contraste de NrusOal,Lallis . . . 1<1
<+.A. Problemas . . . 1<7
#a 1+<
<+
>
)/6CE DE)ECA8
Cap
6niciamos este cap
de lo que es la Bioestad
clasi%icar las caracter
(mbito de la estad
ellas son pertinentes! correctas o v(lidas. )uestro objetivo! en este cap
consiste en establecer los criterios y normas m
estad
#tulo <
Conceptos previos
<.<. 6ntroduccin
#tulo con la de%inicin de algunos conceptos elementales
y b(sicos! y sin embargo pilares! para una comprensin intuitiva y real
#stica. Pretendemos introducir al estudiante en los
primeros pasos sobre el uso y manejos de datos num'ricos2 distinguir y
#sticas en estudio! ense-arle a organi"ar y tabular las
medidas obtenidas mediante la construccin de tablas de %recuencia y por
$ltimo los m'todos para elaborar una imagen que sea capa" de mostrar
gr(%icamente unos resultados.
El aserto Puna imagen vale m(s que mil palabrasQ se puede aplicar al
#stica descriptiva diciendo que Pun gr(%ico bien elaborado
vale m(s que mil tablas de %recuenciasQ. Cada ve" es m(s habitual el uso de
gr(%icos o im(genes para representar la in%ormacin obtenida. )o obstante!
debemos ser prudente al con%eccionar o interpretar gr(%icos! puesto que unas
misma in%ormacin se puede representar de %ormas muy diversas! y no todas
#tulo!
#nimas que deben veri%icarse
para construir y presentar adecuadamente los gr(%icos en el (mbito de la
#stica descriptiva.
<1
Bioestad
:;u' es la estad
Cuando coloquialmente se habla de estad
ya que hoy d
in%ormacin estad#stica sobre accidentes de tr(%ico!
de poblacin! turismo! tendencias pol
&lo cuando nos adentramos en un mundo m(s espec
campo de la investigacin de las Ciencias &ociales2 0edicina! Biolog
colog #a! ... empe"amos a percibir que la Estad
estudio! cuyos movimientos y relaciones! por su variabilidad intr
dr #amos! desde un punto de vista m(s amplio! de%inir la estad
gu
8a Estad
cuando la variabilidad e incertidumbre sea una causa intr
mismos9 as
Podr#amos por tanto clasi%icar la Estad
<7 #stica2 0'todos y Aplicaciones
<.+. #stica?
#stica! se suele pensar en una rela,
cin de datos num'ricos presentada de %orma ordenada y sistem(tica. Esta
idea es la consecuencia del concepto popular que e*iste sobre el t'rmino y
que cada ve" est( m(s e*tendido debido a la in%luencia de nuestro entorno!
#a es casi imposible que cualquier medio de di%usin! peridico!
radio! televisin! etc! no nos aborde diariamente con cualquier tipo de
#ndices de crecimiento
#ticas! etc.
#%ico como es el
#a! Psi,
#stica no slo es algo m(s!
sino que se convierte en la $nica herramienta que! hoy por hoy! permite
dar lu" y obtener resultados! y por tanto bene%icios! en cualquier tipo de
#nseca! no
puedan ser abordadas desde la perspectiva de las leyes determistas. Po,
#stica como
la ciencia que estudia cmo debe emplearse la in%ormacin y cmo dar una
#a de accin en situaciones pr(cticas que entra-an incertidumbre.
#stica se ocupa de los m'todos y procedimientos para recoger!
clasi%icar! resumir! hallar regularidades y anali"ar los datos! siempre y
#nseca de los
# como de reali"ar in%erencias a partir de ellos! con la %inalidad de
ayudar a la toma de decisiones y en su caso %ormular predicciones.
#stica en descriptiva! cuando los
resultados del an(lisis no pretenden ir m(s all( del conjunto de datos! e
in%erencial cuando el objetivo del estudio es derivar las conclusiones obtenidas a
un conjunto de datos m(s amplio.
Estad
Estad
ter
Estad
<.1. E8E0E)=4&. P4B8AC64). CACAC=ECE& <@
#stica descriptiva2 /escribe! anali"a y representa un grupo
de datos utili"ando m'todos num'ricos y gr(%icos que resumen y
presentan la in%ormacin contenida en ellos.
#stica in%erencial2 Apoy(ndose en el c(lculo de
probabilida,
des y a partir de datos muestrales! e%ect$a estimaciones!
decisiones!
predicciones u otras generali"aciones sobre un conjunto mayor de
datos.
<.1. Elementos. Poblacin. Caracteres
Establecemos a continuacin algunas de%iniciones de conceptos b(sicos y
%undamentales b(sicas como son2 elemento! poblacin! muestra! car(cte,
res! variables! etc.! a las cuales haremos re%erencia continuamente a lo largo
del te*to
6ndividuos o elementos2 personas u objetos que contienen cierta
in%ormacin que se desea estudiar.
Poblacin2 conjunto de individuos o elementos que cumplen ciertas
propiedades comunes.
0uestra2 subconjunto representativo de una poblacin.
Par(metro2 %uncin de%inida sobre los valores num'ricos de carac,
#sticas medibles de una poblacin.
#stico2 %uncin de%inida sobre los valores num'ricos de una
muestra.
Bioestad
de urgencia de un hospital en un d
<E #stica2 0'todos y Aplicaciones
En relacin al tama-o de la poblacin! 'sta puede ser2
3inita! como es el caso del n$mero de personas que llegan al
servicio
#a9
6n%inita! si por ejemplo estudiamos el mecanismo aleatorio que
describe la secuencia de caras y cruces obtenida en el lan"amiento
repetido de una moneda al aire.
Caracteres2 propiedades! rasgos o cualidades de los elementos de la
po,
blacin. Estos caracteres pueden dividirse en cualitativos y
cuantitativos.
0odalidades2 di%erentes situaciones posibles de un car(cter.
8as modalidades deben ser a la ve" e*haustivas y mutuamente
e*cluyentes Mcada elemento posee una y slo una de las modalidades
posibles.
Clases2 conjunto de una o m(s modalidades en el que se
veri%ica que cada modalidad pertenece a una y slo una de las
clases.
<.7.<. 5ariables estad
Cuando hablemos de variable haremos re%erencia a un s
minal. Por ejemplo! el grupo sangu
Drupos &angu
<.7. 4CDA)6RAC64) /E 84& /A=4& <A
<.7. 4rgani"acin de los datos
#sticas
#mbolo HS!T!A!B!. . . I
que puede tomar cualquier modalidad HvalorI de un conjunto determinado!
que llamaremos dominio de la variable o rango. En %uncin del tipo de
dominio! las variables las clasi%icamos del siguiente modo2
5ariables cualitativas! cuando las modalidades posibles son de tipo no,
#neo tiene por modalidades2
#neos posibles2 A! B! AB! 4
5ariables cuasicuantitativas u ordinales son las que! aunque sus mo,
dalidades son de tipo nominal! es posible establecer un orden entre
ellas. Por ejemplo! si estudiamos el grado de recuperacin de un pa,
ciente al aplicarle un tratamiento! podemos tener como modalidades2
Drado de recuperacin2 )ada! Poco! 0oderado! Bueno! 0uy Bueno.
A veces se representan este tipo de variables en escalas num'ricas! por
ejemplo! puntuar el dolor en una escala de < a @. /ebemos evitar sin
embargo reali"ar operaciones algebr(icas con estas cantidades. U.n
dolor de intensidad 7 no duele el dobleque otro de intensidad +V
5ariables cuantitativas o num'ricas son las que tienen por modali,
dades cantidades num'ricas con las que podemos hacer operaciones
aritm'ticas. /entro de este tipo de variables podemos distinguir dos
grupos2
/iscretas! cuando no admiten siempre una modalidad intermedia
entre dos cualesquiera de sus modalidades. .n ejemplo es el
n$mero de hijos en una poblacin de %amilias2
)$mero de hijos posibles2 F! <! +! 1! 7! @! . . .
Continuas! cuando admiten una modalidad intermedia entre dos
cualesquiera de sus modalidades! v.g. el peso S de un ni-o al
nacer.
4curre a veces que una variable cuantitativa continua por naturale"a!
aparece como discreta. Este es el caso en que hay limitaciones en lo
Bioestad
<G #stica2 0'todos y Aplicaciones
que concierne a la precisin del aparato de medida de esa variable!
v.g. si medimos la altura en metros de personas con una regla
que o%rece dos decimales de precisin! podemos obtener
Alturas medidas en cm2 <.@F! <.@<! <.@+! <.@1!...
En realidad lo que ocurre es que con cada una de esas
mediciones e*presamos que el verdadero valor de la misma se
encuentra en un intervalo de radio F!FF@. Por tanto cada una de
las observaciones de S representa m(s bien un intervalo que un
valor concreto.
=al como hemos citado anteriormente! las modalidades son las
di%erentes situaciones posibles que puede presentar la variable. A veces
'stas son muy numerosas Hv.g. cuando una variable es continuaI y
conviene reducir su n$mero! agrup(ndolas en una cantidad in%erior de
clases. Estas clases deben ser construidas! tal como hemos citado
anteriormente! de modo que sean e*haustivas y e*cluyentes! es decir!
cada modalidad debe pertenecer a una y slo una de las clases.
5ariable cualitativa2 Aquella cuyas modalidades son de tipo nominal.
5ariable cuasicuantitativa2 0odalidades de tipo nominal! en
las que e*iste un orden.
5ariable cuantitativa discreta2 &us modalidades son valores
ente,
ros.
5ariable cuantitativa continua2 &us modalidades son valores
rea,
les.
<.7.+. =ablas estad
Consideremos una poblacin estad
i
las %recuencias correspondientes a cada una de ellas. .na tabla estad
<.7. 4CDA)6RAC64) /E 84& /A=4& <B
#sticas
#stica de n individuos! descrita seg$n un
car(cter o variable C cuyas modalidades han sido agrupadas en un n$mero O
de clases! que denotamos mediante c
<
! c
+
! . . . ! c
O
. Para cada una de las
clases c
i
! i W <! . . . ! O! introducimos las siguientes magnitudes2
3recuencia absoluta de la clase c
i
es el n$mero n
i
! de observaciones que
presentan una modalidad perteneciente a esa clase.
3recuencia relativa de la clase c
i
es el cociente %
i
! entre las %recuencias
absolutas de dicha clase y el n$mero total de observaciones! es decir
%i W n
i
n
4bs'rvese que %
i
es el tanto por uno de observaciones que est(n en la
clase c
i
. 0ultiplicado por <FF X representa el porcentaje de la poblacin
que comprende esa clase.
3recuencia absoluta acumulada )
i
! se calcula sobre variables cuanti,
tativas o cuasicuantitativas! y es el n$mero de elementos de la pobla,
cin cuya modalidad es in%erior o equivalente a la modalidad c
i
2
Y
)
i
W n
<
Z n
+
Z . . . Z n
i
W n
j
j W<
3recuencia relativa acumulada ! 3
i
! se calcula sobre variables cuanti,
tativas o cuasicuantitativas! siendo el tanto por uno de los elementos
de la poblacin que est(n en alguna de las clases y que presentan una
modalidad in%erior o igual a la c
i
! es decir!
3
i
W )
i
n W n
<
Z .n. . Z n
i
W %
<
Z . . . Z %
i
W

Yi j
W<
%j
8lamaremos distribucin de %recuencias al conjunto de clases junto a
#stica
Bioestad
%
<
W
n
<
%j W
n
j
%O
W
n
O
+F #stica2 0'todos y Aplicaciones
sirve para presentar de %orma ordenada las distribuciones de %recuencias.
&u %orma general es la siguiente2
0odali. 3rec. Abs. 3rec. Cel. 3rec. Abs. Acumu. 3rec. Cel. Acumu.
C n
i
%i
)
i
3
i
c
<
n
< n
)
<
W n
<
3
<
W
)
<
n
W %
<
cj n
j
cO n
O
n <
n
n
)
j
W n
<
Z . . . Z n
j
3
j
W
)
j
W %
<
Z . . . Z %
j
n
)
O
W n 3
O
W <
Ejemplo de c(lculo con %recuencias
Calcular los datos que %altan en la siguiente tabla2
l
i[<
M l
i
n
i
%
i
)
i
F M <F EF %
<
EF
<F M +F n
+
F!7 )
+
+F M 1F 1F %
1
<AF
1F M <FF n
7
F!< )
7
<FF M +FF n
@
%
@
+FF
n
&olucin2
&abemos que la $ltima %recuencia acumulada es igual al total de
observaciones! luego n W +FF.
Como )
1
W <AF y n
1
W 1F! entonces
)
+
W )
1
[ n
1
W <AF [ 1F W <7F.
Adem(s al ser n
<
W EF! tenemos que
n
+
W )
+
[ n
<
W <7F [ EF W GF.
As
n W +EF
n W +1F
n W +<F
\emos visto que la tabla estad
<.@. CEPCE&E)=AC64)E& DCA36CA& +<
Por otro lado podemos calcular n
7
teniendo en cuenta que conocemos la
%recuencia relativa correspondiente2
%
7
W n
7
n
#2
W n
7
W %
7
] n W F! < ^ +FF W +F
)
7
W n
7
Z )
1
W +F Z <AF W <BF.
Este $ltimo c(lculo nos permite obtener
n
@
W )
@
[ )
7
W +FF [ <BF W <F.
Al haber calculado todas las %recuencias absolutas! es inmediato obtener
las relativas2
%
<
W n
<
%
1
W n
1
%
@
W n
@
Escribimos entonces la tabla completa2
l
i[<
M l
i
n
i
F M <F EF
<F M +F GF
+F M 1F 1F
1F M <FF +F
<FF M +FF <F
+FF
FF W F! 1
FF W F! <@
FF W F! F@
%i )
i
F!1 EF
F!7 <7F
F!<@ <AF
F!< <BF
F!F@ +FF
<.@. Cepresentaciones Dr(%icas
#stica resume los datos que disponemos de
una poblacin! de %orma que 'sta se puede anali"ar de una manera m(s
Bioestad
racter
parar varias poblaciones entre s
en otro caso podr
++ #stica2 0'todos y Aplicaciones
sistem(tica y resumida . Para darnos cuenta de un slo vista"o de las
ca,
#sticas de la poblacin resulta a$n m(s esclarecedor el uso de
gr(%icos
y diagramas! cuya construccin abordamos en esta seccin.
<.@.<. Dr(%icos para variables cualitativas
8os gr(%icos m(s usuales para representar variables de tipo nominal son los
siguientes2
/iagramas de barras2 &iguiendo la %igura <.<! representamos en el eje de
ordenadas las modalidades y en abscisas las %recuencias absolutas o
bien! las %recuencias relativas. &i! mediante el gr(%ico! se intenta com,
#! e*isten otras modalidades! como las
mostradas en la %igura <.+. Cuando los tama-os de las dos poblaciones son
di%erentes! es conveniente utili"ar las %recuencias relativas! ya que
#an resultar enga-osas.
frecuencias
8
6
4
2
Solteros Casados Viudos
Divorciados
3igura <.<2 /iagrama de barras para una variable cualitativa.
<.@. CEPCE&E)=AC64)E& DCA36CA& +1
frecuencias
relativas autocar 1
autocar 2
Solteros Casados Viudos
Divorciados
3igura <.+2 /iagramas de barras para comparar una variable cualitativa en
di%erentes poblaciones. &e ha de tener en cuenta que la altura de cada barra es
proporcional al n$mero de observaciones H%recuencias relativasI.
Bioestad
/iagramas de sectores Htambi'n llamados tartasI. &e divide un c
corresponde un arco de c
m(s peque-a se representa con un semic
+7 #stica2 0'todos y Aplicaciones
#rculo
en tantas porciones como clases e*istan! de modo que a cada clase
le
#rculo proporcional a su %recuencia absoluta
o relativa H%igura <.1I.
Grupo A
375 individuos
37,5
Grupo D
125 individuos
12,5
Grupo ! Grupo C
25" individuos 25" individuos
25
25
3igura <.12 /iagrama de sectores.
El arco de cada porcin se calcula usando la regla de tres2
n [_ 1EF
`
n
i
[_ *
i
W 1EF ] n
i
n
Como en la situacin anterior! puede interesar comparar dos pobla,
ciones. En este caso tambi'n es aconsejable el uso de las %recuencias
relativas HporcentajesI de ambas sobre gr(%icos como los anteriores.
4tra posibilidad es comparar las + poblaciones usando para cada una
de ellas un diagrama semicircular! al igual que en la %igura <.7. &ean
n
<
a n
+
los tama-os respectivos de las + poblaciones. 8a poblacin
#rculo de radio r
<
y la mayor
con otro de radio r
+
.
<
Es un error hacer la representacin con una escala tal que el per
proporcional a la %recuencia! ya que a %recuencia doble! corresponder
<.@. CEPCE&E)=AC64)E& DCA36CA& +@
8a relacin e*istente entre los radios! es la que se obtiene de suponer
que la relacin entre las areas de las circun%erencias es igual a la de los
tama-os de las poblaciones respectivas! es decir2
r
+ +
r
<
W n
b
r
+
W r
<
]
<
n
+
n
<
#o$lac% A
1""" individuos
&o fu'adores
75" individuos%
(u'adores
75
25" ind%
25
&o fu'adores (u'adores
#o$lac% !
125 ind% 125 ind%
25" individuos
5" 5"
3igura <.72 /iagrama de sectores para comparar dos poblaciones
Pictogramas E*presan con dibujos alusivo al tema de estudio las %re,
cuencias de las modalidades de la variable. Estos gr(%icos se hacen
representado a di%erentes escalas un mismo dibujo! como vemos en la
%igura <.@.
El escalamiento de los dibujos debe ser tal que el (rea
<
de cada uno de
ellos sea proporcional a la %recuencia de la modalidad que representa.
Este tipo de gr(%icos suele usarse en los medios de comunicacin! para que
sean comprendidos por el p$blico no especiali"ado! sin que sea
necesaria una e*plicacin compleja.
#metro del dibujo sea
#a un dibujo de (rea
cuadruple! lo que da un e%ecto visual enga-oso.
Bioestad
que pueden reali"arse para cada una de ellas as# como los nombres espec
+E #stica2 0'todos y Aplicaciones
3igura <.@2 Pictograma. 8as (reas son proporcionales a las %recuencias.
<.@.+. Dr(%icos para variables cuantitativas
Para las variables cuantitativas! consideraremos dos tipos de gr(%icos! en
%uncin de que para reali"arlos se usen las %recuencias Habsolutas o relativasI o
las %recuencias acumuladas2
/iagramas di%erenciales2 &on aquellos en los que se representan %re,
cuencias absolutas o relativas. En ellos se representa el n$mero o
porcentaje de elementos que presenta una modalidad dada.
/iagramas integrales2 &on aquellos en los que se representan el n$mero
de elementos que presentan una modalidad in%erior o igual a una dada.
&e reali"an a partir de las %recuencias acumuladas! lo que da lugar a
gr(%icos crecientes! y es obvio que este tipo de gr(%icos no tiene sentido
para variables cualitativas.
&eg$n hemos visto e*isten dos tipos de variables cuantitativas2 discretas
y continuas. 5emos a continuacin las di%erentes representaciones gr(%icas
#%i,
cos que reciben.
%orma de escalera. .n ejemplo de diagrama de barras as
4rdenamos a continuacin los datos en una tabla estad
<.@. CEPCE&E)=AC64)E& DCA36CA& +A
Dr(%icos para variables discretas
Cuando representamos una variable discreta! usamos el diagrama de
barras
cuando pretendemos hacer una gr(%ica di%erencial. 8as barras deben ser
es,
trechas para representar el que los valores que toma la variable son
discretos.
El diagrama integral o acumulado tiene! por la naturale"a de la variable!
# como su diagrama
integral correspondiente est(n representados en la %igura <.E.
Ejemplo de variable discreta
&e lan"an tres monedas al aire en G ocasiones y se contabili"a el
n$mero de caras! S ! obteniendose los siguientes resultados2
+!<!F!<!1!+!<!+
Cepresentar gr(%icamente el resultado.
&olucin2 En primer lugar observamos que la variable S es
cuantitativa discreta! presentando las modalidades2 F!<!+!1
#stica! y se representa
la misma en la %igura <.E.
*i
n
i %i
)
i
3
i
F < <cG < <cG
< 1 1cG 7 7cG
+ 1 1cG A AcG
1 < <cG G GcG
n W G <
Ejemplo de regresentacin gr(%ica
Clasi%icadas <+ %amilias por su n$mero de hijos se obtuvo2
)$mero de hijos H*
i
I < + 1 7
3recuencias Hn
i
I < 1 @ 1
Bioestad +G
frecuencias
a$solutas
8
7
4
3
1 1
" 1 2 3
#stica2 0'todos y Aplicaciones
frecuencias
a$solutas
acu'uladas
" 1 2 3
3igura <.E2 /iagrama di%erencial HbarrasI e integral para una variable dis,
creta. 4bs'rvese que el diagrama integral HcrecienteI contabili"a el n$mero
de observaciones de la variable in%eriores o iguales a cada punto del eje de
abcisas.
Comparar los diagramas de barras para %recuencias absolutas y relativas.
Ceali"ar el diagrama acumulativo creciente.
&olucin2 En primer lugar! escribimos la tabla de %recuencias en el modo
habitual2
5ariable 3. Absolutas 3. Celativas 3. Acumuladas
*i
n
i %i
)
i
< < F!FG1 <
+ 1 F!+@F 7
1 @ F!7<E B
7 1 F!+@F <+
<+ <
Con las columnas relativas a *
i
y n
i
reali"amos el diagrama de barras
para %recuencias absolutas! lo que se muestra en la %igura <.A. Como pue,
de verse es identico Hsalvo un cambio de escala en el eje de ordenadasI
al diagrama de barras para %recuencias relativas y que ha sido calculado
les los histogramas y los pol
.n histograma se construye a partir de la tabla estad
El pol
Para representar el pol
<.@. CEPCE&E)=AC64)E& DCA36CA& +B
usando las columnas de *
i
y %
i
. El diagrama escalonado HacumuladoI se ha
construido con la in%ormacin procedente de las columnas *
i
y )
i
.
frecuencias
5 a$solutas
12
3
)
1
1 2 3 4
frecuencias 4
5*12 relativas
3*12 1
1*12
1 2 3 4
frecuencias
a$solutas
acu'uladas
1 2 3 4
3igura <.A2 /iagramas de %recuencias para una variable discreta
Dr(%icos para variables continuas
Cuando las variables son continuas! utili"amos como diagramas di%erencia,
#gonos de %recuencias.
#stica! represen,
tando sobre cada intervalo! un rect(ngulo que tiene a este segmento como
base. El criterio para calcular la altura de cada rect(ngulo es el de mantener
la proporcionalidad entre las %recuencias absolutas Ho relativasI de cada
intervalo y el (rea de los mismos. 5'ase la %igura <.G.
#gono de %recuencias se construye %(cilmente si tenemos represen,
tado previamente el histograma! ya que consiste en unir mediante lineas
rectas los puntos del histograma que corresponden a las marcas de clase.
#gono de %recuencias en el primer y $ltimo interva,
Bioestad
amplitud y %recuencia nula! y se unen por una l
te modo! el pol
pol
porcionales a las %recuencias acumuladas. /icho de otro modo! el pol
1F #stica2 0'todos y Aplicaciones
Peso de 20 individuos
7F @F EF AF GF
Peso
3igura <.G2 \istograma para una variable continua.
lo! suponemos que adyacentes a ellos e*isten otros intervalos de la misma
#nea recta los puntos del
histograma que corresponden a sus marcas de clase. 4bs'rvese que de es,
#gono de %recuencias tiene en com$n con el histograma el
que las (reas de la gr(%icas sobre un intervalo son id'nticas. 5eanse ambas
gr(%icas di%erenciales representadas en la parte superior de la %igura <.B.
El diagrama integral para una variable continua se denomina tambi'n
#gono de %recuencias acumulado! y se obtiene como la poligonal de,
%inida en abcisas a partir de los e*tremos de los intervalos en los que hemos
organi"ado la tabla de la variable! y en ordenadas por alturas que son pro,
#gono
de %recuencias absolutas es una primitiva del histograma. 5'ase la parte
in%erior de la %igura <.B! en la que se representa a modo de ilustracin los
diagramas correspondientes a la variable cuantitativa continua e*presada
en la tabla siguiente2
<.@. CEPCE&E)=AC64)E& DCA36CA& 1<
6ntervalos c
i
n
i
)
i
F M + < + +
+ M 7 1 < 1
7 M E @ 7 A
E M G A 1 <F
G, <F B + <+
<+
4 n Dia+ra'as diferenciales
i
3
2
1
" 2 4 6 8 1"
12 &i
1"
8
6 Dia+ra'a acu'ulado
4
2
" 2 4 6 8 1"
3igura <.B2 /iagramas di%erenciales e integrales para una variable continua.
Bioestad
Cepresentar el histograma de %recuencias relativas y el pol
/eterminar el n$mero m
El $ltimo intervalo est( abierto por el l
+FF horas! luego podr
+
Cualquier otra eleccin para el l
comunQ ser
1+ #stica2 0'todos y Aplicaciones
Ejemplo
8a siguiente distribucin se re%iere a la duracin en horas HcompletasI de
un lote de @FF tubos2
/uracin en horas )$mero de tubos
1FF M @FF @F
@FF M AFF <@F
AFF M <.<FF +A@
m(s de <.<FF +@
=otal @FF
#gono de
%recuencias.
=ra"ar la curva de %recuencias relativas acumuladas.
#nimo de tubos que tienen una duracin in,
%erior a BFF horas.
&olucin2 En primer lugar observamos que la variable en estudio es discreta
Hhoras completasI! pero al tener un rango tan amplio de valores resulta m(s
conveniente agruparla en intervalos! como si de una variable continua se
tratase. 8a consecuencia es una ligera perdida de precisin.
#mite superior. /ado que en
'l hay +@ observaciones puede ser conveniente cerrarlo con una amplitud
Pra"onableQ. =odos los intervalos e*cepto el tercero tienen una amplitud de
#amos cerrar el $ltimo intervalo en <.1FF horas
+
.
Antes de reali"ar el histograma conviene hacer una observacin impor,
tante. El histograma representa las %recuencias de los intervalos mediante
(reas y no mediante alturas. &in embargo nos es mucho m(s %(cil hacer
representaciones gr(%icas teniendo en cuenta estas $ltimas. &i todos los
intervalos tienen la misma amplitud no es necesario di%erenciar entre los
#mite superior del intervalo que sea de Psentido
#a v(lida.
As
<.@. CEPCE&E)=AC64)E& DCA36CA& 11
conceptos de (rea y altura! pero en este caso el tercer intervalo tiene
una amplitud doble a los dem(s! y por tanto hay que repartir su
(rea en un rect(ngulo de base doble Hlo que reduce su (ltura a la
mitadI.
# ser( conveniente a-adir a la habitual tabla de %recuencias una
columna que represente a las amplitudes a
i
de cada intervalo! y otra de
%recuencias relativas recti%icadas! %
id
! para representar la altura del histograma.
8os gr(%icos requeridos se representan en las %iguras <.<F y <.<<.
6ntervalos ai
1FF M @FF +FF
@FF M AFF +FF
AFF M <.<FF 7FF
<.<FF M <.1FF +FF
",3
f i
",1
n
i
%i %id 3
i
@F F!<F F!<F F!<F
<@F F!1F F!1F F!7F
+A@ F!@@ F!+A@ F!B@
+@ F!F@ F!F@ <!FF
nW@FF
",275
)"" ","5
3"" 5"" 7"" 11"" 13""
3igura <.<F2 \istograma. 4bs'rvese que la altura del histograma en cada
intervalo es %
id
que coincide en todos con %
i
salvo en el intervalo AFF M <.<FF
en el que %
i d
W <c+ %
i
ya que la amplitud de ese intervalo es doble a la de
los dem(s.
Por otro lado! mirando la %igura <.<F se ve que sumando %recuencias relati,
Bioestad
17 #stica2 0'todos y Aplicaciones
1
",)5
",675
",4
",1
)""
3"" 5"" 7"" 11"" 13""
3igura <.<<2 /iagrama acumulativo de %recuencias relativas
vas! hasta las BFF horas de duracin hay
F!<F Z F!1F Z F!+A@ W F!EA@ W EA!@ X de los tubos.
Esta cantidad se obtiene de modo m(s directo viendo a qu' altura corres,
ponde al valor BFF en el diagrama de %recuencias acumuladas H%igura <.<<I.
Como en total son @FF tubos! el n$mero de tubos con una duracin igual o
menor que BFF horas es F!EA@ ^ @FFW 11A!@. Cedondeando! 11G tubos.
/i%erencial Hhistograma! pol
<.@. CEPCE&E)=AC64)E& DCA36CA& 1@
Cuadro <.<2 Principales diagramas seg$n el tipo de variable.
=ipo de variable /iagrama
5. Cualitativa Barras! sectores! pictogramas
5. /iscreta /i%erencial HbarrasI
6ntegral Hen escaleraI
5. Continua #gono de %recuenciasI
6ntegral Hdiagramas acumuladosI
Bioestad
<. Pre%erencias pol
1E #stica2 0'todos y Aplicaciones
<.E. Problemas
Ejercicio <.<. Clasi%icar las siguientes variables2
#ticas Hi"quierda! derecha o centroI.
+. 0arcas de cerve"a.
1. 5elocidad en Nmch.
7. El peso en Ng.
@. &igno del "odiaco.
E. )ivel educativo Hprimario secundario! superiorI.
A. A-os de estudios completados.
G. =ipo de ense-an"a Hprivada o p$blicaI.
B. )$mero de empleados de una empresa.
<F. 8a temperatura de un en%ermo en grados Celsius.
<<. 8a clase social Hbaja! media o altaI.
<+. 8a presin de un neum(tico en )ccm
+
Ejercicio <.+. Clasi%ique las variables que aparecen en el siguiente
cuestionario.
<. :Cu(l es su edad?
+. Estado civil2
a I &oltero
b I Casado
c I &eparado
d I /ivorciado
e I 5iudo
<.E. PC4B8E0A& 1A
1. :Cuanto tiempo emplea para despla"arse a su trabajo?
7. =ama-o de su municipio de residencia2
a I 0unicipio peque-o Hmenos de +.FFF habitantesI
b I 0unicipio mediano Hde +.FFF a <F.FFF hab.I
c I 0unicipio grande Hde <F.FFF a @F.FFF hab.I
d I Ciudad peque-a Hde @F.FFF a <FF.FFF hab.I
e I Ciudad grande Hm(s de <FF.FFF hab.I
@. :Est( a%iliado a la seguridad social?
Ejercicio <.1.
En el siguiente conjunto de datos! se proporcionan los pesos Hredondeados
a librasI de ni-os nacidos en cierto intervalo de tiempo2
7!G!7!E!G!E!A!A!A!G!<F!B!A!E!<F! G! @! B! E! 1! A! E! 7! A! E! B! A! 7! A!
E!G!G!B!<<!G!A!<F!G!@!A!A!E!@! <F! G! B! A! @! E! @.
<. Construir una distribucin de %recuencia de estos pesos.
+. Encontrar las %recuencias relativas.
1. Encontrar las %recuencias acumuladas.
7. Encontrar las %recuencias relativas acumuladas.
@. /ibujar un histograma con los datos del apartado a.
E. :Por qu' se ha utili"ado un histograma para representar estos datos!
en lugar de una gr(%ica de barras?
Bioestad
1G #stica2 0'todos y Aplicaciones
Cap
En el cap
nidos del estudio de una muestra Ho una poblacinI en una tabla estad
gr(%ica! en la mayor
Por tanto el siguiente paso y objeto de este cap
algunos tipos de medidas Hestad
En este sentido pueden e*aminarse varias caracter
#tulo +
0edidas descriptivas
+.<. 6ntroduccin
#tulo anterior hemos visto cmo se pueden resumir los datos obte,
#stica
o un gr(%ico. )o obstante! tras la elaboracin de la tabla y su representacin
#a de las ocasiones resulta m(s e%ica" PcondensarQ dicha
in%ormacin en algunos n$meros que la e*presen de %orma clara y concisa.
8os %enmenos biolgicos no suelen ser constantes! por lo que ser(
necesario que junto a una medida que indique el valor alrededor del cual se
agrupan los datos! se asocie una medida que haga re%erencia a la variabilidad
que re%leje dicha %luctuacin.
#tulo consistir( en de%inir
#sticos o par(metrosI que los sinteti"an a$n
m(s.
Es decir! dado un grupo de datos organi"ados en una distribucin de
%recuencias Ho bien una serie de observaciones sin ordenarI! pretendemos
describirlos mediante dos o tres cantidades sint'ticas.
#sticas! siendo las m(s
comunes2
8a tendencia central de los datos9
1B
Bioestad
8a simetr
3igura +.<2 0edidas representativas de un conjunto de datos estad
A lo largo de este cap
los estad
ciertos valores que marcan posiciones caracter
%recuencias as# como su simetr
+.+. Estad
7F #stica2 0'todos y Aplicaciones
8a dispersin o variacin con respecto a este centro9 8os
datos que ocupan ciertas posiciones.
#a de los datos.
8a %orma en la que los datos se agrupan.
,
Centro
,
Posicion
1/2
1/4
Dispersion
,
Asimetria
1/4
#sticos
#tulo! y siguiendo este orden! iremos estudiando
#sticos que nos van a orientar sobre cada uno de estos niveles
de in%ormacin2 valores alrededor de los cuales se agrupa la muestra! la
mayor o menor %luctuacin alrededor de esos valores! nos interesaremos en
#sticas de una distribucin de
#a y su %orma.
#sticos de tendencia central
8as tres medidas m(s usuales de tendencia central son2
la media!
la mediana!
la moda.
En ciertas ocasiones estos tres estad
ralmente no es as
8a media aritm'tica de una variable estad
O
+.+. E&=A/>&=6C4& /E =E)/E)C6A CE)=CA8 7<
#sticos suelen coincidir! aunque gene,
#. Cada uno de ellos presenta ventajas e inconvenientesque
precisaremos m(s adelante. En primer lugar vamos a de%inir los conceptos
anteriores.
+.+.<. 8a media
#stica es la suma de todos sus
posibles valores! ponderada por las %recuencias de los mismos. Es decir! si la
tabla de valores de una variable S es
S n
i
%
i
*
<
n
<
%
<
*O
n
O
%
O
la media es el valor que podemos escribir de las siguientes %ormas equiva,
lentes2
* W *
<
%
<
Z . . . Z *
O
%
O
<
W
n H*<
n
<
Z . . . *
O
n
O
I
< Y
W
n iW<
*i ni
&i los datos no est(n ordenados en una tabla! entonces
* W *
<
Z . . . Z *
n
n
Algunos inconvenientes de la media
8a media presenta inconvenientes en algunas situaciones2
H+.<I
Bioestad
ser consideradas. \e aqu
8a media armnica *
a
! se de%ine como el rec
ca de los rec
7+ #stica2 0'todos y Aplicaciones
.no de ellos es que es muy sensible a los valores e*tremos de
la variable2 ya que todas las observaciones intervienen en el
c(lculo de la media! la aparicin de una observacin e*trema! har(
que la media se desplace en esa direccin. En consecuencia!
no es recomendable usar la media como medida central en las
distribuciones muy asim'tricas9
&i consideramos una variable discreta! por ejemplo! el n$mero de
hijos en las %amilias espa-olas el valor de la media puede no
pertenecer al conjunto de valores de la variable9 Por ejemplo * W <!
+ hijos.
4tras medias2 0edias generali"adas
En %uncin del tipo de problema varias generali"aciones de la media
pueden
# algunas de ellas aplicadas a unas
observaciones
*
<
! . . . ! *
n
2
8a media geom'trica *
g
! es la media de los logaritmos de los valores de
la variable2
log *
g
W log *
<
Z . . . Z log *
n
n
8uego
*g W
n
b*
< *+ . . . *n
&i los datos est(n agrupados en una tabla! entonces se tiene2
b
*g W
n
#procos! es decir!
*<
<
*
+
+ . . . *
O
O
#proco de la media aritm'ti,
< <
<
*
<
Z
... Z
*n
*a
W n
8a media cuadr(tica *
c
! es la ra
estad
0
ed
al primer valor de la variable que deja por debajo de s
y aqu
+.+. E&=A/>&=6C4& /E =E)/E)C6A CE)=CA8 71
Por tanto!
n
*
a W
<
*< Z ... Z
<
*n
#" cuadrada de la media aritm'tica de
los cuadrados2
b
*c W
+.+.+. 8a mediana
*
<
Z . . . Z *
n
n
Consideramos una variable discreta S cuyas observaciones en una tabla
#stica han sido ordenadas de menor a mayor. 8lamaremos mediana!
# al @F X de las
observaciones.
n
100%
N i C'
n/2 50%
B'
Triang. Semejantes
N
i1
A B C
0 0%
l i Med l
i1
3igura +.+2 C(lculo geom'trico de la mediana
En el caso de variables continuas! las clases vienen dadas por intervalos!
# la %rmula de la mediana se complica un poco m(s Hpero no demasia,
doI2 &ea Hl
i[<
! l
i
e el intervalo donde hemos encontrado que por debajo est(n
Bioestad
AC W BB d
77 #stica2 0'todos y Aplicaciones
el @F X de las observaciones. Entonces se obtiene la mediana a partir de las
%recuencias absolutas acumuladas! mediante interpolacin lineal Hteorema de
=halesI como sigue H%igura +.+I2
n
CC
d
AB
W n
i
ai
W
+ [ )
i[<
0
ed
[ l
i[<
n
W 0
ed
W l
i[<
Z
+ [ )
i[<
n
i
] a
i
H+.+I
Esto equivale a decir que la mediana divide al histograma en dos partes de
(reas iguales a
+
.
Propiedades de la mediana
Entre las propiedades de la mediana! vamos a destacar las siguientes2
Como medida descriptiva! tiene la ventaja de no estar a%ectada por las
observaciones e*tremas! ya que no depende de los valores que toma la
variable! sino del orden de las mismas. Por ello es adecuado su uso en
distribuciones asim'tricas.
Es de c(lculo r(pido y de interpretacin sencilla.
A di%erencia de la media! la mediana de una variable discreta es siempre
un valor de la variable que estudiamos Hej. 8a mediana de una variable
n$mero de hijos toma siempre valores enterosI.
.n ejemplo de c(lculo de mediana
&ea S una variable discreta que ha presentado sobre una muestra las
modalidades
S +! @! A! B! <+ W * W A! 0
ed
W A
es )
i
W <7F. Por ello el intervalo mediano es f<F9 +FI. As
+.+. E&=A/>&=6C4& /E =E)/E)C6A CE)=CA8 7@
&i cambiamos la $ltima observacin por otra anormalmente grande!
esto no a%ecta a la mediana! pero si a la media2
S +! @! A! B! <+@ W * W +B! E9 0
ed
W A
En este caso la media no es un posible valor de la variable HdiscretaI! y se ha
visto muy a%ectada por la observacin e*trema. Este no ha sido el caso para
la mediana.
.n ejemplo de c(lculo de media y mediana
4btener la media aritm'tica y la mediana en la distribucin adjunta.
/eterminar gr(%icamente cu(l de los dos promedios es m(s signi%icativo.
&olucin2
l
i[<
, l
i
n
i
F, <F EF
<F, +F GF
+F, 1F 1F
1F, <FF +F
<FF, @FF <F
n W +FF
8a media aritm'tica es2
* W <
l
i[<
, l
i
n
i
F, <F EF
<F, +F GF
+F, 1F 1F
1F, <FF +F
<FF, @FF <F
ai *i *ini )
i
n
i d
<F @ 1FF EF EF
<F <@ <.+FF <7F GF
<F +@ A@F <AF 1F
AF E@ <.1FF <BF +!B
7FF 1FF Y 1.FFF +FF F!+@
*ini W E!@@F
Y
*i W E!@@F W 1+! A@
n +FF
8a primera %recuencia absoluta acumulada que supera el valor nc+ W <FF
#2
Bioestad
como estad
7E
0
ed
W l
i[<
Z nc+ [ )
i[<
#stica2 0'todos y Aplicaciones
] a
i
W <F Z <FF [ EF ^ <F W <@
n
i
GF
Para ver la representatividad de ambos promedios! reali"amos el histograma de
la %igura +.1! y observamos que dada la %orma de la distribucin! la
mediana es m(s representativa que la media.
80
60
Mediana
Media
30
5
0 10 20 30 100
3igura +.12 Para esta distribucin de %recuencias es m(s representativo usar
#stico de tendencia central la mediana que la media.
+.+.1. 8a moda
8lamaremos moda a cualquier m(*imo relativo de la distribucin de
%recuencias! es decir! cualquier valor de la variable que posea una %recuencia
mayor que su anterior y su posterior.
4bservacin
/e la moda destacamos las siguientes propiedades2 Es
muy %(cil de calcular.
Puede no ser $nica.
deja debajo de s
estad
+.+. E&=A/>&=6C4& /E =E)/E)C6A CE)=CA8 7A
Cuadro +.<2 Cesumen de las medidas de posicin centrales.
0edidas de tendencia central
0edia
0ediana
/atos sin agrupar
HordenadosI
*
<
! *
+
! . . . ! *
)
* W *
<
Z ] ] ] Z *
n
)
Primera observacin que
# estricta,
/atos agrupados
6nterv. *i ni )i
l
F
Ml
<
*
<
n
<
)
<
l
<
Ml
+
*
+
n
+
)
+
l
O[<
Ml
O
*
O
n
O
)
O
* W n
<
*
<
Z ] ] ] Z n
O
*
O
)
)
0
ed
W l
i[<
Z + [ )i[< ] a
i
mente a las f)c+e observa,
ciones menores2 *
f)c+eZ<
0oda 0
oda
W *
i
de mayor %recuencia 0
oda
WW l
i[<
Z
+.+.7. Celacin entre media! mediana y moda
n
i
n
i [n
i [<
Hn
i
[n
i [<
IZHn
i
[n
i Z<
I ai
En el caso de distribuciones unimodales! la mediana est( con %recuencia
comprendida entre la media y la moda Hincluso m(s cerca de la mediaI.
En distribuciones que presentan cierta inclinacin! es m(s aconsejable el
uso de la mediana. &in embargo en estudios relacionados con propsitos
#sticos y de in%erencia suele ser m(s apta la media.
Bioestad
+.1. Estad
8os estad
7G #stica2 0'todos y Aplicaciones
#sticos de posicin
#sticos de posicin van a ser valores de la variable caracte,
ri"ados por superar a cierto porcentaje de observaciones en la poblacin
Ho muestraI. =enemos %undamentalmente a los percentiles como medidas
de posicin! y asociados a ellos veremos tambi'n los cuartiles! deciles y
cuartiles.
Percentiles
Para una variable discreta! se de%ine el percentil de orden O! como la
observacin! P
O
! que deja por debajo de si el O X de la poblacin. 5'ase la
%igura +.7. Esta de%inicin nos recuerda a la mediana! pues como
consecuencia de la de%inicin es evidente que
0
ed
W P
@F
Peso de 100 individuos
P+@ P@F PA@
7F @F EF AF GF BF
Peso
3igura +.72 Percentiles +@! @F y A@ de una variable. 8os que se muestran
dividen a la muestra en cuatro intervalos con similar n$mero de individuos y
reciben tambi'n el nombre de cuartiles.
+.1. E&=A/>&=6C4& /E P4&6C64) 7B
En el caso de una variable continua! el intervalo donde se encuentra P
O
Hl
i[<
! l
i
e! se calcula buscando el que deja debajo de si al O X de las
observaciones. /entro de 'l! P
O
se obtiene seg$n la relacin2
n O
PO
W l
i[<
Z
Cuartiles
<FF [ )
i[<
n
i
] a
i
H+.1I
8os cuartiles! ;
l
! son un caso particular de los percentiles. \ay 1! y se
de%inen como2
;
<
W P
+@
H+.7I
;
+
W P
@F
W 0
ed
H+.@I
;
1
W P
A@
H+.EI
/eciles
&e de%inen los deciles como los valores de la variable que dividen a las
observaciones en <F grupos de igual tama-o. 0(s precisamente! de%inimos
/
<
!/
+
! . . . ! /
B
como2
/i W P<F i
i W <! . . . ! B
Ejemplo de c(lculo de cuartiles con una variable discreta
/ada la siguiente distribucin en el n$mero de hijos de cien %amilias!
calcular sus cuartiles.
Bioestad @F
&olucin2
<. Primer cuartil2
n
7 W
+@9
+. &egundo cuartil2
#stica2 0'todos y Aplicaciones
*i n
i
)
i
F <7 <7
< <F +7
+ <@ 1B
1 +E E@
7 +F G@
@ <@ <FF
nW<FF
Primera )
i
g nc7 W 1B9 luego ;
<
W +.
+ n
7
W @F9 Primera )
i
g + nc7 W E@9 luego ;
+
W 1.
1. =ercer cuartil2
1 n
7
Ejemplo
W A@9 Primera )
i
g 1 nc7 W G@9 luego ;
1
W 7.
Calcular los cuartiles en la siguiente distribucin de una variable conti,
nua2
l
i[<
, l
i
n
i
)
i
F, < <F <F
<, + <+ ++
+, 1 <+ 17
1, 7 <F 77
7, @ A @<
n W @<
7 W <+! A@9 Primera )
i
g nc7 W ++9 8a l
W +@! @9 Primera )
i
g + nc7 W 179 8a l
W 1G! +@9 Primera )
i
g 1 nc7 W 779 8a l
+.1. E&=A/>&=6C4& /E P4&6C64)
&olucin2
<. Primer cuartil
)
n
@<
#nea i es la del intervalo f<9 +I
;
<
W l
i[<
Z
+. &egundo cuartil2
+ n
7
7 [ )
i[<
n
i
ai W < Z <+! A@ [ <F ^ < W <! +1
<+
#nea i es la del intervalo f+9 1I
+ n
;
+
W l
i[<
Z 7
1. =ercer cuartil
1 n
7
[ )
i[<
n
i
ai W + Z +@! @ [ ++ ^ < W +! +B
<+
#nea i es la del intervalo f19 7I
1 n
;
1
W l
i[<
Z 7
[ )
i[<
n
i
ai W 1 Z 1G! +@ [ 17 ^ < W 1! 77@
<F
Ejemplo de c(lculo de cuartiles con una variable continua
\an sido ordenados los pesos de +< personas en la siguiente tabla2
Bioestad
As
@+ #stica2 0'todos y Aplicaciones
6ntervalos %.a.
l
i[<
M l
i
n
i
1G M 7@ 1
7@ M @+ +
@+ M @B A
@B M EE 1
EE M A1 E
+<
Encontrar aquellos valores que dividen a los datos en 7 partes con el
mismo n$mero de observaciones.
&olucin2 8as cantidades que buscamos son los tres cuartiles2 ;
<
! ;
+
y ;
1
. Para calcularlos! le a-adimos a la tabla las columnas con las %recuencias
acumuladas! para locali"ar qu' intervalos son los que contienen a los
cuartiles buscados2
l
i[<
M l
i
n
i
)
i
1G M 7@ 1 1
7@ M @+ + @
@+ M @B A <+ ;
<
! ;
+
@B M EE 1 <@
EE M A1 E +< ;
1
+<
# se tiene que2
<
;
<
y ;
+
se encuentran en el intervalo
@+M@B! ya que )
1
W <+ es la primera
%.a.a. que supera a +< ] <c7 y +< ] +c7.
;
1
est( en EEMA1! pues )
@
W +< es el
primer )
i
mayor que +< ] 1c7.
<
7 n [ )
i[<
7 ] +< W @! +@ i W 1 ;
<
W l
i[<
n
i
W @+ Z @! +@ [ @
A
+
] a
i
] A W @+! +@
+
7 ] +< W <F! @ i W 1 ;
+
W l
i[<
Z
7 n [ )
i[<
] a
i
n
i
W @+ Z <F! @ [ @
A
] A W @A! @
8a distribucin de una variable tiene por pol
<. Elaborar una tabla estad
+.1. E&=A/>&=6C4& /E P4&6C64)
1
@1
1
7 n [ )
i[<
7 ] +< W <@! A@ i W @ ;
1
W l
i[<
Z
n
i
W EE Z <@! A@ [ <@
E
] a
i
] A W EE! GA@
4bs'rvese que ;
+
W 0
ed
. Esto es lgico! ya que la mediana divide a la
distribucin en dos partes con el mismo n$mero de observaciones! y ;
+
! hace
lo mismo! pues es deja a dos cuartos de los datos por arriba y otros dos
cuartos por abajo.
Ejemplo
#gono acumulativo de %re,
cuencias el de la %igura +.@. &i el n$mero total de observaciones es @F2
#stica con los siguientes elementos2 intervalos!
marcas de clase! %recuencia absoluta! %recuencia absoluta acumulada!
%recuencias relativa y %recuencias relativa acumulada.
+. Cu(ntas observaciones tuvieron un valor in%erior a <F! cu(ntas in%erior
a G y cu(ntas %ueron superior a <<.
1. /etermine los cuartiles.
&olucin2
<. En la siguiente tabla se proporciona la in%ormacin pedida y algunos
c(lculos au*iliares que nos permitir(n responder a otras cuestiones.
6ntervalos n
i
)
i
%
i
3
i
*i ai
n
i d
F, @ <F <F F!+ F!1 +!@ @ +
@, A +@ 1@ F!@ F!A E + <+!@
A, <+ @ 7F F!< F!G B!@ @ <
<+, <@ <F @F F!+ < <1!@ A 1!11
+. Calculemos el n$mero de observaciones pedido2
Bioestad
@7 #stica2 0'todos y Aplicaciones
1
",8
",7
",2
" 5 7 12 15
3igura +.@2 /iagrama acumulado de %recuencias relativas.
A a <+ @ @ @
A a <F *
* W 1 ^ @ W 1
1 * @
<F Z +@Z1 W 1G observaciones tomaron un valor in%erior a <F
A a <+ @
A a G *

@ @
* W < ^ @ W <
< * @
<F Z +@Z< W 1E observaciones tomaron un valor in%erior a G
A a <+ @
A a << *

@ @
* W 7 ^ @ W 7
7 * @
@F,H<F Z +@Z7I W @F,1BW<< observaciones tomaron un valor superior a <<
1. Cuartiles2
;
<
W l
i[<
Z nc7 [ )
i[<
n
i
] a
i
W @ Z <+! @ [ <F ] + W @! +
+@
;
+
W l
i[<
Z + nc7 [ )
i[<
n
i
] a
i
W @ Z +@ [ <F ] + W E! +
+@
8os estad
si esas puntuaciones o valores est(n pr*imas entre s
.na medida ra"onable de la variabilidad podr
n
+.7. 0E/6/A& /E 5AC6AB686/A/ 4 /6&PEC&64) @@
;
1
W l
i[<
Z 1 nc7 [ )
i[<
] a
i
W A Z 1A! @ [ 1@ ] @ W B! @
n
i
@
+.7. 0edidas de variabilidad o dispersin
#sticos de tendencia central o posicin nos indican donde se
sit$a un grupo de puntuaciones. 8os de variabilidad o dispersin nos indican
# o si por el contrario
est(n o muy dispersas.
+.7.<. Cango
#a ser la amplitud o ran,
go! que se obtiene restando el valor m(s bajo de un conjunto de
observaciones del valor m(s alto.
Propiedades del rango
Es %(cil de calcular y sus unidades son las mismas que las de la varia,
ble.
)o utili"a todas las observaciones Hslo dos de ellasI9
&e puede ver muy a%ectada por alguna observacin e*trema9
El rango aumenta con el n$mero de observaciones! o bien se queda
igual. En cualquier caso nunca disminuye.
+.7.+. 5arian"a
8a varian"a! &
+
! se de%ine como la media de las di%erencias cuadr(ticas de
n puntuaciones con respecto a su media aritm'tica! es decir
Y
&
+
W <
n H*
i
[ *I
+
H+.AI
iW<
Bioestad
sante para la reali"acin de in%erencia estad
las del cuadrado de la variable! es m(s sencillo usar su ra
+.7.1. /esviacin t
que las observaciones bastar( con tomar su ra
la desviacin t
Calcular el rango! varian"a y desviacin t
n
siendo la desviacin t#pica su ra
@E #stica2 0'todos y Aplicaciones
Esta medida es siempre una cantidad positiva! con propiedades
intere,
#stica. Como sus unidades son
#" cuadrada! que
es la que vemos en la siguiente seccin.
#pica o est(ndar
8a varian"a no tiene la misma magnitud que las observaciones Hej. si las
observaciones se miden en metros! la varian"a lo hace en metros cuadrados.
&i queremos que la medida de dispersin sea de la misma dimensionalidad
#" cuadrada. Por ello se de%ine
#pica! & ! como
b
& W &
+
+.7.7. Ejemplo de c(lculo de medidas de dispersin
#pica de las siguientes canti,
dades medidas en metros2
1!1!7!7!@
&olucin2 El rango de esas observaciones es la di%erencia entre la mayor y
menor de ellas! es decir! @ [ 1 W +. Para calcular las restantes medidas de
dispersin es necesario calcular previamente el valor con respecto al cual
vamos a medir las di%erencias. hste es la media2
* W H1 Z 1 Z 7 Z 7 Z @Ic@ W 1! G metros
8a varian"a es2
&
+
W <
n
Y H
*
i
[ *
+
W < 1
+
Z 1
+
Z 7
+
Z 7
+
Z @
+
iW<
@
#" cuadrada2
b b
I
[ 1! G
+
W F! @E metros
+
& W &
+
W F!@E W F! A7G metros
Propiedades de la varian"a y desviacion t
8a desviacin t
H* [ + & ! * Z + & I
de%
con respecto a su peso? =anto la media como la desviacin t
+.7. 0E/6/A& /E 5AC6AB686/A/ 4 /6&PEC&64) @A
#pica
Ambas son sensibles a la variacin de cada una de las
puntuaciones! es decir! si una puntuacin cambia! cambia con
ella la varian"a. 8a ra"n es que si miramos su de%inicin! la
varian"a es %uncin de cada una de las puntuaciones.
#pica tiene la propiedad de que en el intervalo
* i + &
se encuentra! al menos! el A@ X de las observaciones 6ncluso si
tenemos muchos datos y estos provienen de una distribucin
normal Hse de%inir( este concepto m(s adelanteI! podremos llegar
al B@ X.
)o es recomendable el uso de ellas! cuando tampoco lo sea el de
la media como medida de tendencia central.
+.7.@. Coe%iciente de variacin
\emos visto que las medidas de centrali"acin y dispersin nos dan
in%ormacin sobre una muestra. )os podemos preguntar si tiene sentido usar
estas magnitudes para comparar dos poblaciones. Por ejemplo! si nos piden
comparar la dispersin de los pesos de las poblaciones de ele%antes de dos
circos di%erentes! & nos dar( in%ormacin $til.
:Pero qu' ocurre si lo que comparamos es la altura de unos ele%antes
#pica! * y & !
se e*presan en las mismas unidades que la variable. Por ejemplo! en la
variable altura podemos usar como unidad de longitud el metro y en la
variable peso! el Oilogramo. Comparar una desviacin Hcon respecto a la
mediaI medida en metros con otra en Oilogramos no tiene ning$n sentido.
El problema no deriva slo de que una de las medidas sea de longitud y la
otra sea de masa. El mismo problema se plantea si medimos cierta cantidad!
por ejemplo la masa! de dos poblaciones! pero con distintas unidades. Este
es el caso en que comparamos el peso en toneladas de una poblacin de
<FF ele%antes con el correspondiente en miligramos de una poblacin de @F
hormigas.
Bioestad
mismas unidades que los ele%antes HtoneladasI. &i la ingerier
t
=odo
ser siempre positiva. /e ah
Es invariante a cambios de escala. As
sional que no cambia si la medicin se reali"a en cent
desviacin t
@G #stica2 0'todos y Aplicaciones
El problema no se resuelve tomando las mismas escalas para
ambas poblaciones. Por ejemplo! se nos puede ocurrir medir a las
hormigas con las
#a gen'tica no
nos sorprende con alguna barbaridad! lo lgico es que la dispersin de
la variable peso de las hormigas sea practicamente nula HUAunque haya
algunas que sean <.FFF veces mayores que otrasVI
En los dos primeros casos mencionados anteriormente! el problema
viene
de la dimensionalidad de las variables! y en el tercero de la di%erencia
enorme
entre las medias de ambas poblaciones. El coe%iciente de variacin es lo
que
nos permite evitar estos problemas! pues elimina la dimensionalidad de
las
variables y tiene en cuenta la proporcin e*istente entre medias y
desviacin
#pica. &e de%ine del siguiente modo2
C5 W &
S
*
Propiedades del coe%iciente de variacin
H+.GI
&lo se debe calcular para variables con todos los valores positivos.
#ndice de variabilidad es esencialmente no negativo. 8as ob,
servaciones pueden ser positivas o nulas! pero su variabilidad debe
# que slo debemos trabajar con variables
positivas! para la que tenemos con seguridad que * g F.
)o es invariante ante cambios de origen. Es decir! si a los resultados de
una medida le sumamos una cantidad positiva! b g F! para tener T W S
Z b! entonces C5
T
j C5
S
.
# por ejemplo el coe%iciente de
variacin de una variable medida en metros es una cantidad adimen,
#metros.
=ipi%icacin
&e conoce por tipi%icacin al proceso de restar la media y dividir por su
#pica a una variable S . /e este modo se obtiene una nueva
de media " W F y desviacin t
dos medidas que en un principio no lo son. As
.niversidades para la concesin de una beca de estudios! en principio ser
por las medias y desviaciones t
%recuente entre estudiantes de bioestad
+.@. Asimetr
+.@. A&60E=C>A T AP.)=A06E)=4
variable
R W S [ *
&
@B
H+.BI
#pica &
R
W <! que denominamos variable
tipi%icada.
Esta nueva variable carece de unidades y permite hacer comparables
# por ejemplo nos podemos
preguntar si un ele%ante es m(s grueso que una hormiga determinada! cada
uno en relacin a su poblacin. =ambi'n es aplicable al caso en que se quie,
ran comparar individuos semejantes de poblaciones di%erentes. Por ejemplo
si deseamos comparar el nivel acad'mico de dos estudiantes de di%erentes
#a
injusto concederla directamente al que posea una nota media m(s elevada!
ya que la di%icultad para conseguir una buena cali%icacin puede ser mucho
mayor en un centro que en el otro! lo que limita las posibilidades de uno de
los estudiante y %avorece al otro. En este caso! lo m(s correcto es comparar
las cali%icaciones de ambos estudiantes! pero tipi%icadas cada una de ellas
#picas respectivas de las notas de los alumnos
de cada .niversidad.
)o con%undir coe%iciente de variacin y tipi%icacin
8os coe%ientes de variacin sirven para comparar las variabilidades de
dos conjuntos de valores Hmuestras o poblacionesI! mientras que si deseamos
comparar a dos individuos de cada uno de esos conjuntos! es necesario
usar los valores tipi%icados. )inguno de ellos posee unidades y es un error
#stica con%undirlos.
#a y apuntamiento
&abemos cmo calcular valores alrededor de los cuales se distribuyen las
observaciones de una variable sobre una muestra y sabemos cmo calcular
la dispersin que o%recen los mismos con respecto al valor de central. )os
Bioestad
&i la simetr
Estas ideas son las que vamos a desarrollar en lo que resta del cap
+.@.<. Estad#sticos de asimetr
/entro de los tipos de asimetr
Asimetr
Asimetr
EF #stica2 0'todos y Aplicaciones
proponemos dar un paso m(s all( en el an(lisis de la variable. En
primer lugar! nos vamos a plantear el saber si los datos se distribuyen
de %orma sim'trica con respecto a un valor central! o si bien la gr(%ica
que representa la distribucin de %recuencias es de una %orma
di%erente del lado derecho que del lado i"quierdo.
#a ha sido determinada! podemos preguntarnos si la
curva
es m(s o menos apuntada Hlarga y estrechaI. Este apuntamiento habr(
que
medirlo comparado a cierta distribucin de %recuencias que
consideramos
normal Hno por casualidad es 'ste el nombre que recibe la distribucin
de
re%erenciaI.
#tulo.
#a
Para saber si una distribucin de %recuencias es sim'trica! hay que precisar
con respecto a qu'. .n buen candidato es la mediana! ya que para variables
continuas! divide al histograma de %recuencias en dos partes de igual (rea.
Podemos basarnos en ella para! de %orma natural! decir que una distri,
bucin de %recuencias es sim'trica si el lado derecho de la gr(%ica Ha
partir de la medianaI es la imagen por un espejo del lado
i"quierdoH%igura
+.EI.
Cuando la variable es discreta! decimos que es sim'trica! si lo es con
respecto a la media.
#a posible! vamos a destacar los dos %un,
damentales2
#a positiva2 &i las %recuencias m(s altas se encuentran en el lado
i"quierdo de la media! mientras que en derecho hay %recuencias m(s
peque-as HcolaI.
#a negativa2 Cuando la cola est( en el lado i"quierdo.
Cuando reali"amos un estudio descriptivo es altamente improbable que
la distribucin de %recuencias sea totalmente sim'trica. En la pr(ctica di,
remos que la distribucin de %recuencias es sim'trica si lo es de un modo
entonces toda una %amilia de estad
metr#a! denominados #ndices de asimetr
n
+.@. A&60E=C>A T AP.)=A06E)=4 E<
Asim. Positiva
Coa
50! 50! 50! 50!
Mediana Mediana
Asim. "e#ativa
Coa
50! 50!
50! 50!
Mediana Mediana
3igura +.E2 /istribuciones de %recuencias sim'tricas y asim'tricas
apro*imado. Por otro lado! a$n observando cuidadosamente la gr(%ica!
podemos no ver claro de qu' lado est(n las %recuencias m(s altas. &e de%inen
#sticos que ayuden a interpretar la asi,
#a. El principal de ellos es el
momento central de tercer orden que de%inimos a continuacin.
0omento central de tercer orden
&ea S una variable cuantitativa y p 6) . 8lamamos momento de orden
p a2
kp W <
n
Y
*i H+.<FI
iW<
&e denomina momento central de orden p a la cantidad
Bioestad
n
1 impar positivas estar
nos indica que un #ndice de asimetr
elegir como estad #stico de asimetr
Apoyandonos en este #ndice! diremos que hay asimetr
F! y que la asimetr
vaciones entre la que deja por debajo de s
de s
Por analog
E+
m
p
W <
n
#stica2 0'todos y Aplicaciones
Y
H*
i
[ *I
p
H+.<<I
iW<
8os momentos de orden p impar! son siempre nulos en el caso de
variables sim'tricas! ya que para cada i que est' a un lado de la media! con
H*
i
[ *I j F! le corresponde una observacin j del otro lado de la media tal
que H*
j
[ *I W [H*
i
[ *I. Elevando cada una de esas cantidades a p impar! y
sumando se tiene que
m
p
W F si la distribucin es sim'trica.
&i la distribucin %uese asim'trica positiva! las cantidades H*
i
[*I
p
! con p l
#an muy aumentadas al elevarse a p. Esta propiedad
#a posible consiste en tomar p W 1 y
#a al momento central de tercer orden.
#a positiva si a
1
g
#a es negativa si a
1
j F.
>ndice basado en los tres cuartiles HTule,BoleyI
&i una distribucin es sim'trica! es claro que deben haber tantas obser,
# las tres cuartas partes de la
distribucin y la mediana! como entre la mediana y la que deja por debajo
# un quarto de todas las observaciones. /e %orma abreviada esto es!
;
1
[ ;
+
W ;
+
[ ;
<
.na pista para saber si una distribucin de %recuencias es asim'trica
positiva la descubrimos observando la %igura +.AI2
;
1
[ ;
+
g ;
+
[ ;
<
#a! si es asim'trica negativa! se tendr(
;
1
[ ;
+
j ;
+
[ ;
<
Para quitar dimensionalidad al problema! utili"amos como
metr
3igura +.A2 .so de los cuartiles para medir la asimetr
4tros #ndices de asimetr
otras medidas de asimetr
+.@. A&60E=C>A T AP.)=A06E)=4
#a la cantidad2
As
W H;1
[ ;
+
I [ H;+
[ ;
<
I
;
1
[ ;
<
Es claro que
[< a A
s
W H;1
[ ;
+
I [ H;+
[ ;
<
I
H;
1
[ ;
+
I Z H;
+
[ ;
<
I a <
E1
#ndice de asi,
H+.<+I
H+.<1I
El n$mero obtenido! A
s
! es invariante ante cambios de origen de re%erencia
y de escala.
,
, ,
1 2 3
#a
#a
Bas(ndonos en que si una distribucin de %recuencias es sim'trica y unimodal!
entonces la media! la mediana y la moda coinciden! podemos de%inir
#a! como son2
A
s
W * [ 0
oda
&
o bien!
H+.<7I
Bioestad
/iremos que hay asimetr
las distancias entre cuartiles consecutivos indican asimetr
E7 #stica2 0'todos y Aplicaciones
A
s
W 1H* [ 0
ed
I H+.<@I
&
#a positiva si A
s
g F y negativa si A
s
j F
Coe$. Asim. % 0 Coe$. Asim.&0
;< ;+ ;1 ;< ;+ ;1
*
*
3igura +.G2 /i%erencias entre las medidas de tendencia central! o bien entre
#a.
Ejemplo
8as edades de un grupo de personas se re%lejan en la tabla siguiente2
6ntervalos n
i
A M B 7
B M << <G
<< M <+ <7
<+ M <1 +A
<1 M <7 7+
<7 M <@ 1<
<@ M <A +F
<A M <B <
/eterminar la variabilidad de la edad mediante los estad
desviacin t#pica! coe%iciente de variacin y rango intercuart
la simetr
En lo que concierne a la simetr#a podemos utili"ar el coe%iciente de asimetr
+.@. A&60E=C>A T AP.)=A06E)=4 E@
#sticos varian"a!
#lico. Estudie
#a de la variable.
&olucin2
En primer lugar reali"amos los c(lculos necesarios a partir de la tabla
de %recuencias2
6ntervalos n
i
*i
)
i
*
i
n
i
*
i
n
i
A M B 7 G 7 1+ +@E
B M << <G <F ++ <GF <.GFF
<< M <+ <7 <<!@ 1E <E< <.G@<!@
<+ M <1 +A <+!@ E1 11A!@ 7.+<G!A@
<1 M <7 7+ <1!@ <F@ @EA A.E@7!@
<7 M <@ 1< <7!@ <1E 77B!@ E.@<A!A@
<@ M <A +F <E <@E 1+F @.<+F
<A M <B < <G <@A <G 1+7
<@A +.FE@ +A.A7+!+@
8a media es * W +!FE@c<@A W <1! <@ a-os. 8a varian"a la calculamos a
partir de la columna de la *
i
n
i
como sigue2
&
+
W +A!A7+! +@c<@A [ <1! <@
+
W 1! AG a-os
+
& W
El coe%iciente de variacin no posee unidades y es2
C5 W <! B7
b
1!AG W <! B7 a-os
<1!<@ W F! <@ W <@ X de variabilidad.
#a
de Tule,Boley! para el cual es preciso el c(lculo de los cuartiles2
;
<
W <+ Z 1B! +@ [ 1E
+A
^ < W <+! <+
0
ed
W ;
+
W <1 Z AG! @ [ E1
7+
^ < W <1! 1A
Bioestad
Este resultado nos indica que e*iste una ligera asimetr
+.@.+. Estad
donde m
7
es el momento emp
rango intercuart
EE
;
1
W <7 Z <<A! A@ [ <F@
1<
#stica2 0'todos y Aplicaciones
^ < W <7! 7<
8o que nos dice que apro*imadamente en un rango de ;
1
[;
<
W +! +B a-os
se encuentra el @F X central del total de observaciones
<
Adem(s2
W A
s
W H;1
[ ;
+
I [ H;+
[ ;
<
I
;
1
[ ;
<
W H<7! 7< [ <1! 1AI [ H<1! 1A [ <+! <+I W [F! FB
<7!7< [ <+! <+
#a a la i"quierda
HnegativaI. .n resultado similar se obtiene si observamos H3igura +.BI que la
distribucin de %recuencias es unimodal! siendo la moda2
0
oda
WW <1 Z
7+ [ +A
H7+ [ +AI Z H7+ [ 1<I ^ < W <1! @A
en cuyo caso podemos usar como medida del sesgo2
A
s
W * [ 0
oda
&
W <1! <@ [ <1! @A W [F! +<
<!B7
#sticos de apuntamiento
&e de%ine el coe%iciente de aplastamiento de 3isher HcurtosisI como2
m
+
W m
7
n
7
[ 1
#rico de cuarto orden. Es 'ste un coe%iciente
adimensional! invariante ante c(mbios de escala y de origen. &irve para
medir si una distribucin de %recuencias es muy apuntada o no. Para decir
si la distribucin es larga y estrecha! hay que tener un patrn de re%erencia.
El patrn de re%erencia es la distribucin normal o gaussiana
+
para la que
se tiene
<
Eso hace que dicha cantidad sea usada como medida de dispersin! denomin(ndose
#lico.
+
&er( introducida posteriormente.
asimetr
+.@. A&60E=C>A T AP.)=A06E)=4 EA
4"
35
3"
25
2"
15
1"
5
'oda-13,57
7 8 ) 1" 11 12 13 14 15 16 17 18 1)
edad
'edia-13,15
3igura +.B2 8a distribucin de %recuencias de la edad presenta una ligera
#a negativa.
m
7
n
7
W 1 W m
+
W F
/e este modo! atendiendo a m
+
! se clasi%ican las distribuciones de %recuencias
en
8eptoc$rtica2 Cuando m
+
g F! o sea! si la distribucin de %recuencias es
m(s apuntada que la normal9
0esoc$rtica2 Cuando m
+
W F! es decir! cuando la distribucin de %recuen,
cias es tan apuntada como la normal9
Platic$rtica2 Cuando m
+
j F! o sea! si la distribucin de %recuencias es
menos apuntada que la normal9
Bioestad
EG #stica2 0'todos y Aplicaciones
curtosis'0 curtosis(0 curtosis&0
3igura +.<F2 Apuntamiento de distribuciones de %recuencias
+.E. Problemas
Ejercicio +.<. En el siguiente conjunto de n$meros! se proporcionan los
pesos Hredondeados a la libra m(s pr*imaI de los beb's nacidos durante un
cierto intervalo de tiempo en un hospital2
7!G!7!E!G!E!A!A!A!G!<F!B!A!E!<F! G! @! B! E! 1! A! E! 7! A! E! B! A! 7! A!
E!G!G!B!<<!G!A!<F!G!@!A!A!E!@! <F! G! B! A! @! E! @.
<. Construir una distribucin de %recuencias de estos pesos.
+. Encontrar las %recuencias relativas.
1. Encontrar las %recuencias acumuladas.
7. Encontrar las %recuencias relativas acumuladas.
@. /ibujar un histograma con los datos de la parte a.
E. :Por qu' se ha utili"ado un histograma para representar estos datos!
en lugar de una gr(%ica de barras?
A. Calcular las medidas de tendencia central.
<F. :Es esta una distribucin sesgada? /e ser as
muestra de @F universitarios. la caracter
un est
una tabla estad
@. /ibuje el pol
E. /ibuje el pol
+.E. PC4B8E0A&
G. Calcular las medidas de
dispersin. B. Calcular las medidas
de %orma.
<<. Encontrar el percentil +7.
EB
#! :en qu' direccin?
Ejercicio +.+. A continuacin se dan los resultados obtenidos con
una
#stica es el tiempo de reaccin
ante
#mulo auditivo2
F!<<F F!<<F F!<+E F!<<+ F!<<A F!<<1 F!<1@ F!<FA F!<++
F!<<1 F!FBG F!<++ F!<F@ F!<F1 F!<<B F!<FF F!<<A F!<<1
F!<+7 F!<<G F!<1+ F!<FG F!<<@ F!<+F F!<FA F!<+1 F!<FB
F!<<A F!<<< F!<<+ F!<F< F!<<+ F!<<< F!<<B F!<F1 F!<FF
F!<FG F!<+F F!FBB F!<F+ F!<+B F!<<@ F!<+< F!<1F F!<17
F!<<G F!<FE F!<+G F!FB7 F!<<<7
<. :Cu(l es la amplitud total de la distribucin de los datos?
+. 4btenga la distribucin de %recuencias absolutas y relativas.
1. 4btenga la distribucin de %recuencias acumuladas! absolutas y
rela,
tivas! con los intervalos anteriores.
7. Calcular la media y la varian"a con los intervalos del apartado b
y
despu's calculense las mismas magnitudes sin ordenar los datos
en
#stica.:Con qu' m'todo se obtiene mayor precisin?
#gono de %recuencias relativas.
#gono de %recuencias relativas acumuladas.
Ejercicio +.1. Con el %in de observar la relacin entre la inteligencia
y el
nivel socioeconmico Hmedido por el salario mensual %amiliarI se
tomaron
dos grupos! uno %ormado con sujetos de cociente intelectual in%erior a
B@
Bioestad
Ejercicio +.7. .n estudio consisti en anotar el n$mero de palabras le
)
`
de palabras le
AF #stica2 0'todos y Aplicaciones
y otro %ormado por los dem(s9 /e cada sujeto se anot el salario mensual
%amiliar. =eniendo en cuenta los resultados que se indican en la tabla2
)ivel socioeconmico &ujetos con C6 j B@&ujetos con C6 l B@
6ntervalos 3recuencia 3recuencia
<F o menos oH7!<Fe A@ <B
<F, <E 1@ +E
<E, ++ +F +@
++, +G 1F 1F
+G, 17 +@ @7
m(s de 17 oH17!7Fe <@ 7E
<. /ibuje un gr(%ico que permita comparar ambos grupos.
+. Calcule las medidas de tendencia central para aquellos sujetos con
C6 j B@.
1. Calcular las medidas de dispersin para aquellos sujetos con C6 l B@.
#das
en <@ segundos por un grupo de <+F sujetos disl'*icos y <+F individuos
normales. =eniendo en cuenta los resultados de la tabla
#das /isl'*icos n
/
)ormales n
)
+@ o menos o+@ @E <
+E +7 B
+A <E +<
+G <+ +B
+B <F +G
1F o m(s o1F + 1+
calcule2
<. 8as medias aritm'ticas de ambos grupos.
+. 8as medianas de ambos grupos.
trabajan los varones? :T las mujeres? /eterminar as
4btener la media! mediana y desviacin t
Estudiar la asimetr
+.E. PC4B8E0A& A<
1. El porcentaje de sujetos disl'*icos que superaron la mediana de
los
normales.
7. Compare la variabilidad relativa de ambos grupos.
Ejercicio +.@. 8a tabla siguiente muestra la composicin por edad!
se*o y trabajo de un grupo de personas con tuberculosis pulmonar en
la provincia de 5i"caya en el a-o <BAB2
Edad =rabajadores )o trabajadores =otales
5arn 0ujer =otal 5arn 0ujer =otal 5arn 0ujer =otal
<7,<B + < 1 +@ 7F E@ +A 7< EG
<B,+7 <F 7 <7 +F 1E @E 1F 7F AF
+7,+B 1+ <F 7+ <@ @F E@ 7A EF <FA
+B,17 7A <+ @B <1 17 7A EF 7E <FE
17,1B 1G G 7E <F +@ 1@ 7G 11 G<
1B,77 ++ 7 +E A <G +@ +B ++ @<
<. Cepresentar gr(%icamente la distribucin de %recuencias de
aquellas
personas trabajadoras que padecen tuberculosis.
+. Cepresentar gr(%icamente la distribucin de %recuencias de los
varones
no trabajadores que padecen tuberculosis.
1. Cepresentar gr(%icamente la distribucin de %recuencias del
n$mero
total de mujeres que padecen tuberculosis.
7. :Cu(l es la edad en la que se observa con mayor %recuencia que no
#mismo la edad
m(s %recuente Hsin distincin de se*os ni ocupacinI.
@. :Por debajo de qu' edad est( el @F X de los varones?
E. :Por encima de qu' edad se encuentra el GF X de las mujeres?
A. #pica de la distribucin de
las edades de la muestra total.
G. #a de las tres distribuciones.
Bioestad
de muertos en 7F ciudades de un pa
7. Calcular la varian"a y la desviacin t
A+ #stica2 0'todos y Aplicaciones
Ejercicio +.E. En una epidemia de escarlatina! se ha recogido el n$mero
#s! obteni'ndose la siguiente tabla2
)
`
de muertos F < + 1 7 @ E A
Ciudades A << <F A < + < <
<. Cepresentar gr(%icamente estos datos.
+. 4btener la distribucin acumulada y representarla.
1. Calcular media! mediana y moda.
#pica.
@. Porcentaje de ciudades con al menos + muertos.
E. Porcentaje de ciudades con m(s de 1 muertos.
A. Porcentaje de ciudades con a lo sumo @ muertos.
Cap
sis! son los estad
tienden a agruparse los datos Hen el caso en que lo haganI! y los estad
En este cap
#tulo 1
5ariables bidimensionales
1.<. introduccin
En lo estudiado anteriormente hemos podido aprender cmo a partir de
la gran cantidad de datos que describen una muestra mediante una varia,
ble! S ! se representan gr(%icamente los mismos de modo que resulta m(s
intuitivo hacerse una idea de como se distribuyen las observaciones.
4tros conceptos que seg$n hemos visto! tambi'n nos ayudan en el an(li,
#sticos de tendencia central! que nos indican hacia donde
#sticos
de dispersin! que nos indican si las di%erentes modalidades que presenta la
variable est(n muy agrupadas alrededor de cierto valor central! o si por el
contrario las variaciones que presentan las modalidades con respecto al valor
central son grandes.
=ambi'n sabemos determinar ya si los datos se distribuyen de %orma
sim'trica a un lado y a otro de un valor central.
#tulo pretendemos estudiar una situacin muy usual y por
tanto de gran inter's en la pr(ctica2
&i T es otra variable de%inida sobre la misma poblacin que S !
:ser( posible determinar si e*iste alguna relacin entre las
modalidades de S y de T ?
A1
Bioestad
S o altura medida en cent
S o altura medida en cent
gradable! el lector podr( comprobar! al %inal del cap
A7 #stica2 0'todos y Aplicaciones
.n ejemplo trivial consiste en considerar una poblacin %ormada
por alumnos de primero de 0edicina y de%inir sobre ella las variables
#metros!
T o altura medida en metros!
ya que la relacin es determinista y clara2 T W Sc<FF. 4bs'rvese que
aunque la variable T ! como tal puede tener cierta dispersin! vista
como %uncin de S ! su dispersin es nula.
.n ejemplo m(s parecido a lo que nos interesa realmente lo
tenemos cuando sobre la misma poblacin de%inimos las variables
#metros!
T o peso medida en Oilogramos.
6ntuitivamente esperamos que e*ista cierta relacin entre ambas
variables! por ejemplo!
T W S [ <<Fi dispersin
que nos e*presa que Hen mediaI a mayor altura se espera mayor peso.
8a relacin no es e*acta y por ello ser( necesario introducir alg$n
termino que e*prese la dispersin de T con respecto a la variable S .
Es %undamental de cara a reali"ar un trabajo de investigacin
e*perimental! conocer muy bien las t'cnicas de estudio de variables
bidimensionales Hy n,dimensionales en generalI. Baste para ello
pensar que normalmente las relaciones entre las variables no son tan
evidentes como se mencion arriba. Por ejemplo2
:&e puede decir que en un grupo de personas e*iste alguna
relacin entre S W tensin arterial e T W edad?
Aunque en un principio la notacin pueda resultar a veces algo
desa,
#tulo! que es bastante
general mediante el sub
1.+. =AB8A& /E /4B8E E)=CA/A A@
accesible. Por ello le pedimos que no se asuste. Al %inal ver( que no
son para tanto.
1.+. =ablas de doble entrada
Consideramos una poblacin de n individuos! donde cada uno de ellos
presenta dos caracteres que representamos mediante las variables S e T .
Cepresentamos mediante
S *
<
! *
+
! . . . ! *
i
! . . . ! *
O
las O modalidades que presenta la variable S ! y mediante
T y
<
! y
+
! . . . ! y
j
! . . . ! y
p
las p modalidades de T .
Con la intencin de reunir en una sla estructura toda la in%ormacin
disponible! creamos una tabla %ormada por O ] p casillas! organi"adas de
%orma que se tengan O %ilas y p columnas. 8a casilla denotada de %orma
#ndice
ij
har( re%erencia a los elementos de la muestra
que presentan simult(neamente las modalidades *
i
e y
j
.
T y
<
y
+
y
j
y
p
S
*
<
n
<<
n
<+
n
<j
n
<p
n
<
p
*
+
n
+<
n
++
n
+j
n
+p
n
+
p
*i
n
i<
n
i+
n
ij nip nip
*O
n
O<
n
O+
n
Oj nOp nOp
np< np+ npj npp npp
/e este modo! para i W <! . . . ! O! j W <! . . . ! p! se tiene que n
ij
es el n$mero de
individuos o %recuencia absoluta! que presentan a la ve" las modalidades *
i
e y
j
.
Bioestad
p
4bs'rvese que hemos escrito un s
O
O p O p
AE #stica2 0'todos y Aplicaciones
El n$mero de individuos que presentan la modalidad *
i
! es lo que
llamamos %recuencia absoluta marginal de *
i
y se representa como n
i
p
.
Es evidente la igualdad
Y
nip
W n
i< Z ni+ Z ] ] ] Z nip W
n
ij
j W<
#mbolo PpQ en la Pparte de las jotasQ que
simboli"a que estamos considerando los elemento que presentan la modali,
dad *
i
! independientemente de las modalidades que presente la variable T .
/e %orma an(loga se de%ine la %recuencia absoluta marginal de la modalidad
y
j
como
Y
npj W n<j Z n+j Z ] ] ] Z nOj
W n
ij
iW<
Estas dos distribuciones de %recuencias n
i
p
para i W <! . . . ! O! y n
pj para j W
<! . . . ! p reciben el nombre de distribuciones marginales de S e T
respectivamente.
El n$mero total de elementos de la poblacin Ho de la muestraI! n lo
obtenemos de cualquiera de las siguientes %ormas! que son equivalentes2
Y Y Y Y
n W npp W
nip
W n
pj W
n
ij
iW< j W< iW< j W<
1.+.<. /istribuciones condicionadas
/e todos los elementos de la poblacin! n! podemos estar interesados! en un
momento dado! en un conjunto m(s peque-o y que est( %ormado por aque,
llos elementos que han presentado la modalidad y
j
! para alg$n j W <! . . . ! p.
El n$mero de elementos de este conjunto sabemos que es npj . 8a variable
S de%inida sobre este conjunto se denomina variable condicionada y se
suele denotar mediante S
qy
j
o bien S
qT Wyj
. 8a distribucin de %recuencias
absolutas de esta nueva variable es e*actamente la columna j de la tabla.
%
i
8a relacin entre las variables S e T ! parte del objetivo de este cap
%
cap
de%in
S o altura medida en cent
1.1. /EPE)/E)C6A 3.)C64)A8 E 6)/EPE)/E)C6A AA
/e la misma %orma! es posible dividir la poblacin inicial en O subconjuntos!
cada uno de ellos caracteri"ados por la propiedad de que el i,'simo conjunto
todos los elementos veri%ican la propiedad de presentar la modalidad *
i
.
&obre cada uno de estos conjuntos tenemos la variable condicionada T
q*
i
o T
qS
W*i ! cuya distribucin de %recuencias relativas condicionadas es2
j W n
ij
j W <! . . . ! p
ip
1.1. /ependencia %uncional e independencia
#tu,
lo y en general de un n$mero importante de los estudios de las Ciencias
&ociales! puede ser m(s o menos acentuada! pudiendo llegar 'sta desde la
dependencia total o dependencia %uncional hasta la independencia.
1.1.<. /ependencia %uncional
8a dependencia %uncional! que nos re%leja cualquier %rmula matem(tica o
#sica! es a la que estamos normalmente m(s habituados. Al principio del
#tulo consideramos un ejemplo en el que sobre una poblacin de alumnos
#amos las variables
#metros!
T o altura medida en metros!
Al tomar a uno de los alumnos! hasta que no se realice una medida sobre el
mismo! no tendremos claro cual ser( su altura. Podemos tener cierta
intuicin sobre qu' valor es m(s probable que tome Halrededor de la media!
con cierta dispersinI. &in embargo! si la medida S ha sido reali"ada! no es
necesario practicar la de T ! pues la relacin entre ambas es e*acta
Hdependencia %uncionalI2
T W Sc<FF
Bioestad
proporcionales entre s
n
H*! yI. ;ueda as
&i hay mayor
AG #stica2 0'todos y Aplicaciones
1.1.+. 6ndependencia
E*iste un concepto que es radicalmente opuesto a la dependencia %uncional!
que es el de independencia. &e dice que dos variables S e T son
independientes si la distibucin marginal de una de ellas es la misma que la
condicionada por cualquier valor de la otra.
Esta es una de entre muchas maneras de e*presar el concepto de in,
dependencia! y va a implicar una estructura muy particular de la tabla
bidimensional! en el que todas las %ilas y todas las columnas van a ser
#.
1.7. Covarian"a
8a covarian"a &
ST
! es una medida que nos hablar( de la variabilidad
conjunta de dos variables num'ricas HcuantitativasI. &e de%ine como2
&ST W <
n
Y
H*
i
[ *IHy
i
[ yI
iW<
.na interpretacin geom'trica de la covarian"a
Consideremos la nube de puntos %ormadas por las n parejas de datos H*
i
! y
i
I.
El centro de gravedad de esta nube de puntos es H*! yI! o bien podemos
escribir simplemente H*! yI si los datos no est(n ordenados en una tabla de
doble entrada. =rasladamos los ejes ST al nuevo centro de coordenadas
# dividida la nube de puntos en cuatro cuadrantes como
se observa en la %igura 1.<. 8os puntos que se encuentran en el primer y
tercer cuadrante contribuyen positivamente al valor de &
ST
! y los que se
encuentran en el segundo y el cuarto lo hacen negativamente.
/e este modo2
#a de puntos en el tercer y primer cuadrante! ocurrir( que
&ST l F! lo que se puede interpretar como que la variable T tiende a
aumentar cuando lo hace S 9
&i la mayor
1.7. C45AC6A)RA AB
.
/
0 .
/
0
1
2
,
34
1 2 , 3 4
. .
5 5
0
.
0 .
Cuando ) crece, * crece Cuando ) crece, * decrece
Casi todos os puntos pertenecen Casi todos os puntos pertenecen
a os cuadrantes primero + tercero
a os cuadrantes se#undo + cuarto
3igura 1.<2 6nterpretacin geom'trica de &
ST
#a de puntos est(n repartidos entre el segundo y cuarto
cuadrante entonces &
ST
a F! es decir! las observaciones T tienen
tendencia a disminuir cuando las de S aumentan9
&i los puntos se reparten con igual intensidad alrededor de H*! yI!
entonces se tendr( que &
ST
W F. 5'ase la %igura 1.+ como ilustracin.
Bioestad
GF #stica2 0'todos y Aplicaciones
S 23-"
S
23 -"
,as dos varia-es son
independientes.
.a+ dependencia entre
as dos varia-es, aun/ue a
covarian0a sea nua.
3igura 1.+2 Cuando los puntos se reparte de modo m(s o menos homog'neo
entre los cuadrantes primero y tercero! y segundo y cuarto! se tiene que
&ST r F. Eso no quiere decir de ning$n modo que no pueda e*istir ninguna
relacin entre las dos variables! ya que 'sta puede e*istir como se aprecia en
la %igura de la derecha.
8a Covarian"a
p &i &
ST
g F las dos variables crecen o decrecen a la ve" Hnube de
puntos crecienteI.
p &i &
ST
j F cuando una variable crece! la otra tiene tendencia a
decrecer Hnube de puntos decrecienteI.
p &i los puntos se reparten con igual intensidad alrededor de H*! yI!
&ST W F Hno hay relacin linealI.
se mide. As
las desviaciones t#picas de cada variable! ya que as
1.@. C4E36C6E)=E /E C4CCE8AC64) 86)EA8 /E PEAC&4)G<
1.@. Coe%iciente de correlacin lineal de Pearson
8a covarian"a es una medida de la variabilidad com$n de dos variables
Hcrecimiento de ambas al tiempo o crecimiento de una y decremimiento
de la otraI! pero est( a%ectada por las unidades en las que cada variable
# pues! es necesario de%inir una medida de la relacin entre dos
variables! y que no est' a%ectada por los cambios de unidad de medida. .na
%orma de conseguir este objetivo es dividir la covarian"a por el producto de
# se obtiene un coe%iciente
adimensional! r! que se denomina coe%iciente de correlacin lineal de
Pearson
r W &
ST
&S &T
Propiedades del coe%iciente de correlacin lineal
Carece de unidades de medida HadimensionalI.
H1.<I
Es invariante para trans%ormaciones lineales Hcambio de origen y escalaI
de las variables.
&lo toma valores comprendidos entre [< y <!
Cuando qrq est' pr*imo a uno! se tiene que e*iste una relacin lineal muy
%uerte entre las variables.
Cuando r r F! puede a%irmarse que no e*iste relacin lineal entre am,
bas variables. &e dice en este caso que las variables son incorreladas.
1.E. Cegresin
8as t'cnicas de regresin permiten hacer predicciones sobre los valores de
cierta variable T HdependienteI! a partir de los de otra S HindependienteI!
entre las que intuimos que e*iste una relacin. Para ilustrarlo retomemos
Bioestad
los ejemplos mencionados al principio del cap
S o altura medida en cent
G+ #stica2 0'todos y Aplicaciones
r(1 r(0,12 r(0,53
r(31 r(30,12 r(0
3igura 1.12 r W i< es lo mismo que decir que las observaciones de ambas
variables est(n per%ectamente alineadas. El signo de r! es el mismo que el de
&
ST
! por tanto nos indica el crecimiento o decrecimiento de la recta. 8a
relacin lineal es tanto m(s per%ecta cuanto r est( cercano a i<.
#tulo. &i sobre un grupo de
personas observamos los valores que toman las variables
#metros! H1.+I
T o altura medida en metros! H1.1I
no es necesario hacer grandes es%uer"os para intuir que la relacin que hay
entre ambas es2
T W S
<FF.
4btener esta relacin es menos evidente cuando lo que medimos sobre el
mismo grupo de personas es
S o altura medida en cent
s
s
s
s
1.E. CEDCE&64) G1
#metros!
T o peso en Oilogramos.
8a ra"n es que no es cierto que conocida la altura *
i
de un
individuo!
podamos determinar de modo e*acto su peso y
i
Hv.g. dos personas que
miden <! AFm pueden tener pesos de EF y E@ OilosI. &in embargo! alguna
relacin entre ellas debe e*istir! pues parece mucho m(s probable que un
individuo de +m pese m(s que otro que mida <! +Fm. Es m(s! nos puede
parecer m(s o menos apro*imada una relacin entre ambas variables como
la siguiente
T W S [ <<F i error.
A la deduccin! a partir de una serie de datos! de este tipo de relaciones
entre variables! es lo que denominamos regresin.
0ediante las t'cnicas de regresin inventamos una variable T como
%uncin de otra variable S Ho viceversaI!
T W % HS I.
Esto es lo que denominamos relacin %uncional. El criterio para construir T !
tal como citamos anteriormente! es que la di%erencia entre T e Ts sea
peque-a.
T W % HS I! T [Ts W error!
El t'rmino que hemos denominado error debe ser tan peque-o como sea
posible H%igura 1.7I. El objetivo ser( buscar la %uncin Htambi'n denominada
modelo de regresinI Ts W % HS I que lo minimice. 5'ase la %igura 1.@.
Bioestad
s
s
G7
/
,
Apro2i'acion
1 2 i , 3 i4
#stica2 0'todos y Aplicaciones
,
6$servacion
1 2 i , 3 i 4
3-f124
5
3igura 1.72 0ediante las t'cnicas de regresin de una variable T sobre una
variable S ! buscamos una %uncin que sea una buena apro*imacin de una
nube de puntos H*
i
! y
i
I! mediante una curva del tipo Ts W % HS I. Para ello
hemos de asegurarnos de que la di%erencia entre los valores y
i
e t
i
sea tan
peque-a como sea posible.
1.E.<. Bondad de un ajuste
Consideremos un conjunto de observaciones sobre n individuos de una
poblacin! en los que se miden ciertas variables S e T 2
S *
<
! *
+
! . . . ! *
n
T y
<
! y
+
! . . . ! y
n
Estamos interesamos en hacer regresin para determinar! de modo apro*i,
mado! los valores de T conocidos los de S ! debemos de%inir cierta variable
T W % HS I! que debe tomar los valores
T t
<
W % H*
<
I! t
+
W % H*
+
I! . . . ! t
n
W % H*
n
I
de modo que2
1.E. CEDCE&64) G@
7odelo lineal 7odelo lineal 7odelo no lineal
!uen a8uste
7al a8uste
!uen a8uste
Cuando 2 crece,
3 crece
Cuando 2 crece, Cuando 2 crece,
3 crece 3 crece
7odelo lineal 7odelo no lineal Varia$les no relacionadas
!uen a8uste !uen a8uste
&in+una curva de re+resion
es adecuada
Cuando 2 crece, Cuando 2 crece,
3 decrece 3 decrece
3igura 1.@2 /i%erentes nubes de puntos y modelos de regresin para ellas.
T [Ts y
<
[ t
<
r F! y
+
[ t
+
r F! . . . ! y
n
[ t
n
r F
Ello se puede e*presar de%iniendo una nueva variable E que mida las di%e,
rencias entre los aut'nticos valores de T y los tericos suministrados por la
regresin!
E W T [Ts e
<
W y
<
[ t
<
! e
+
W y
+
[ t
+
! . . . ! e
n
W y
n
[ t
n
y calculando Ts de modo que E tome valores cercanos a F. /icho de otro
modo! E debe ser una variable cuya media debe ser F ! y cuya varian"a
&
E
debe ser peque-a Hen comparacin con la de T I. Por ello se de%ine el
Bioestad
s
GE #stica2 0'todos y Aplicaciones
coe%iciente de determinacin de la regresin de T sobre S ! C
T
qS
!
como
C
T
qS
W < [ &
+
H1.7I
&T
&i el ajuste de T mediante la curva de regresin Ts W % HS I es bueno! cabe
esperar que la cantidad C
T
qS
tome un valor pr*imo a <.
8a cantidad C
T
qS
sirve entonces para medir de qu' modo las di%eren,
cias entre los verdaderos valores de una variable y los de su apro*imacin
mediante una curva de regresin son peque-os en relacin con los de la variabilidad de la
variable que intentamos apro*imar. Por esta ra"n estas cantidades miden el grado de
bondad del ajuste.
1.E.+. Cegresin lineal
8a regresin lineal consiste en encontrar apro*imar los valores de una
variable a partir de los de otra! usando una relacin %uncional de tipo lineal! es
decir! buscamos cantidades a y b tales que se pueda escribir
T W a Z b ] S H1.@I
con el menor error posible entre Ts e T .
8as cantidades a y b que minimi"an dicho error son los llamados
coe%icientes de regresin2
a W y [ b *
b W &
S+T
&S
8a cantidad b se denomina coe%iciente de regresin de T sobre S .
En el modelo lineal de regresin la bondad del ajuste es simplemente
r
+
. Con lo cual el modelo lineal dar( mejores predicciones cuando r sea
pr*imo a < ,<.
4bs'rvese que la relacin 1.@ e*plica cosas como que si S var
unidad! Ts var
siguientes estad
de T Hseg$n el criterio de los m
As
s
1.E. CEDCE&64) GA
6nterpretacin de los coe%icientes de regresin
#a en <
#a la cantidad b. Por tanto2
&i b g F! las dos variables aumentan o disminuyen a la
ve"9
&i b j F! cuando una variable aumenta! la otra disminuye.
Ejemplo de c(lculo con un modelo de regresin lineal
En una muestra de <.@FF individuos se recogen datos sobre dos
medi,
das antropom'tricas S e T . 8os resultados se muestran resumidos en
los
#sticos2
* W <7
&S W +
&ST W 7@
y W <FF
&T W +@
4btener el modelo de regresin lineal que mejor apro*ima T en %uncin de
S . .tili"ando este modelo! calcular de modo apro*imado la cantidad T
esperada cuando S W <@.
&olucin2
8o que se busca es la recta! Ts W a Z b ] S ! que mejor apro*ima los valores
#nimos cuadradosI en la nube de puntos
que resulta de representar en un plano HS! T I las <.@FF observaciones. 8os
coe%icientes de esta recta son2
b W &
S+T
&S
W 7@ W <<! +@
7
a W y [ b ] * W <FF [ <<! +@ ^ <7 W [@A! @
#! el modelo lineal consiste en2
T W [@A! @ Z <<! +@ ] S
Bioestad
s
)os gustar#a tener que r W <! pues en ese caso ambas variables tendr
GG #stica2 0'todos y Aplicaciones
Por tanto! si * W <@! el modelo lineal predice un valor de T
de2
t W [@A! @ Z <<! +@ ] * W [@A! @ Z <<! +@ ^ <@ W <<<!
+@
Propiedades de la regresin lineal
.na ve" que ya tenemos per%ectamente de%inida Ts ! Ho bien Ss I nos
pre,
guntamos las relaciones que hay entre la media y la varian"a de esta y
la
de T Ho la de S I. 8a respuesta nos la o%rece la siguiente proposicin2
Proposicin
En los ajustes lineales se conservan las medias! es decir
t W y H1.EI
* W * H1.AI
En cuanto a la varian"a! no necesariamente son las mismas para los
verdaderos valores de las variables S e T y sus apro*imaciones S y Ts !
pues slo se mantienen en un %actor de r
+
! es decir!
&
+Ts
W r
+
&
T
H1.GI
&
+Ss
W r
+
&
+ S
H1.BI
4bservacin
Como consecuencia de este resultado! podemos decir que la proporcin de
varian"a e*plicada por la regresin lineal es del r
+
] <FF X.
#an
la misma varian"a! pero esto no es cierto en general. =odo lo que se puede
a%irmar! como sabemos! es que
[< a r a <
y por tanto
1.E. CEDCE&64) GB
F a &
s
T
a &
T
8a cantidad que le %alta a la varian"a de regresin! &
+Ts
! para llegar hasta
la varian"a total de T ! &
T
! es lo que se denomina varian"a residual!
Proposicin
8a varian"a residual del modelo de regresin es de T sobre S es la
varian"a de la variable E W T [Ts .
4bs'rvese que entonces 8a bondad del ajuste es
C
T
qS W < [ &
+
&T
W < [ H< [ r
+
I W r
+
Para el ajuste contrario se de%ine el error como E W S [Ss ! y an(logamente su
varian"a residual es tambi'n proporcional a < [ r
+
. =odo esto se puede
resumir como sigue2
Proposicin
Para los ajustes de tipo lineal se tiene que los dos coe%icientes de
determinacin son iguales a r
+
! y por tanto representan adem(s la
proporcin de varian"a e*plicada por la regresin lineal2
C
+ S
qT W r
+
W C
T
qS
Por ello2
&i q r qr < el ajuste es bueno HT se puede calcular de modo bastante
apro*imado a partir de S y viceversaI.
&i q r qr F las variables S e T no est(n relacionadas Hlinealmente al
menosI! por tanto no tiene sentido hacer un ajuste lineal. &in embargo
Bioestad
tal ve" otro tipo de ajuste s
BF #stica2 0'todos y Aplicaciones
no es seguro que las dos variables no posean ninguna relacin en
el
caso r W F! ya que si bien el ajuste lineal puede no ser
procentente!
# lo sea.
Ejemplo
/e una muestra de ocho observaciones conjuntas de valores de dos
variables S e T ! se obtiene la siguiente in%ormacin2
Y Y Y
*i W +79 *iyi W E79
y
i
W 7F9
&
T
W <+9 &
S
W E.
Calcule2
<. 8a recta de regresin de T sobre S . E*plique el signi%icado de los
par(metros.
+. El coe%iciente de determinacin. Comente el resultado e indique el
tanto por ciento de la variacin de T que no est( e*plicada por el
modelo lineal de regresin.
1. &i el modelo es adecuado! :cu(l es la prediccin t para * W 7.
&olucin2
<. En primer lugar calculamos las medias y las covarian"a entre ambas
variables2
Y
* W
*i cn W +7cG W 1
Y
* W y
i
cn W 7FcG W @
Y
&ST
W H
*iyi Icn [ *y W E7cG [ 1 ^ @ W [A
H1.<FI
As
s
1.E. CEDCE&64) B<
Con estas cantidades podemos determinar los par(metros a y b de la
recta. 8a pendiente de la misma es b! y mide la variacin de T cuando
S aumenta en una unidad2
b W &
S+T
&S
W [A W [<! EEA
E
Al ser esta cantidad negativa! tenemos que la pendiente de la recta
es negativa! es decir! a medida que S aumenta! la tendencia es a la
disminucin de T . En cuanto al valor de la ordenada en el origen! a!
tenemos2
a W y [ b ] * W @ [ H [A
E I ^ 1 W G! @
#! la recta de regresin de T como %uncin de S es2
T W G! @ [ <! <EEA ] S
+. El grado de bondad del ajuste lo obtenemos a partir del coe%iciente
de determinacin2
H I
+
C
T cS
W r
+
W
&ST
&S ] &T
W H[AI+
E ^ <+ W F! EGF@ W EG! F@ X
Es decir! el modelo de regresin lineal e*plica el EG X de la variabilidad de
T en %uncin de la de S . Por tanto queda un 1+ X de variabilidad no
e*plicada.
1. 8a prediccin que reali"a el modelo lineal de regresin para * W 7 es2
t W G! @ [ <! <EEA ] * W G! @ [ <! EEEA ^ 7 W 1! G11
la cual hay que considerar con ciertas reservas! pues como hemos visto en
el apartado anterior!hay una ra"onable cantidad de variabilidad que no
es e*plicada por el modelo.
Bioestad
var
G
G
G
G
G
B+ #stica2 0'todos y Aplicaciones
Ejemplo de c(lculo en regresin lineal
En un grupo de G pacientes se miden las cantidades antropom'tricas
peso y edad! obteni'ndose los siguientes resultados2
Cesultado de las mediciones
S o edad <+ G <F << A A <F <7
T o peso @G 7+ @< @7 7F 1B 7B @E
:E*iste una relacin lineal importante entre ambas variables? Calcular la
recta de regresin de la edad en %uncin del peso y la del peso en %uncin de
la edad. Calcular la bondad del ajuste :En qu' medida! por t'rmino medio!
#a el peso cada a-o? :En cu(nto aumenta la edad por cada Oilo de peso?
&olucin2
Para saber si e*iste una relacin lineal entre ambas variables se calcula el
coe%iciente de correlacin lineal! que vale2
r W &
ST
&S &T
W
ya que
Y
*i W AB W * W AB
iW< G
Y
<@!+F1<
+!1<@F ^ E! BE1< W F! B71<
W B! GA@ a-os
y
i
W 1GB W y W 1GB W 7G! E+@ Ng
iW<
G
Y
*
i
W G+1 W &
+S
W GG1 [ B! GA@+
W @! 1@B7 a-os
+
iW<
W &
S
W +! 1<@F a-os
Y
y
i
W <B!1F1
iW<
Y
*iyi W 1!BE1
W &
T
W <B!1F1 [ 7G! E+@
+
W 7G! 7G77 Ng
+
G
W &
T
W E! BE1< Ng
W &
ST
W 1!BE1 [ B! GA@ ^ 7G! E+@ W <@! +F1< Ng ] a-o
iW< G
s
s
1.E. CEDCE&64) B1
Por tanto el ajuste lineal es muy bueno. &e puede decir que el (ngulo entre
el vector %ormado por las desviaciones del peso con respecto a su valor
medio y el de la edad con respecto a su valor medio! u! es2
r W cos u W u W arc cos r r <B
`
es decir! entre esos vectores hay un buen grado de paralelismo Hslo unos
<B grados de desviacinI.
8a recta de regresin del peso en %uncin de la edad es
T W a
<
Z b
<
S W +F! E<+E Z +! G1EA ] S
a
<
W y [ b
<
* W +F! E<+E Ng
b
<
W &
S+T
W +! G1EA Ngca-o H1.<<I
&S
8a recta de regresin de la edad como %uncin del peso es
S W a
+
Z b
+
T W [@! 1A1G Z F! 1<1E ] T
a
+
W * [ b
+
y W [@! 1A1G a-os
b
+
W &
S+T
W F! 1<1E a-oscNg
&T
que como se puede comprobar! no resulta de despejar en la recta de regresin
de T sobre S .
8a bondad del ajuste es
C
+ S
qT W C
T
qS
W r
+
W F! GGB7
por tanto podemos decir que el GG! B7 X de la variabilidad del peso
en %uncin de la edad es e*plicada mediante la recta de regresin corres,
pondiente. 8o mismo podemos decir en cuanto a la variabilidad de la
edad en %uncin del peso. /el mismo modo puede decirse que hay un
<FF [ GG! B7 X W <<! FE X de varian"a que no es e*plicada por las rectas
Bioestad
Por $ltimo la cantidad en que var
B7 #stica2 0'todos y Aplicaciones
de regresin. Por tanto la varian"a residual de la regresin del peso
en %uncin de la edad es
&
E
W H< [ r
+
I ] &
T
W F! <<FE ^ 7G! 7G77 W @! 11 Ng
+
y la de la edad en %uncin del peso2
&
E
W H< [ r
+
I ] &
S
W F! <<FE ^ @! 1@B7 W F! @B a-os
+
#a el peso de un paciente cada a-o es!
seg$n la recta de regresin del peso en %uncin de la edad! la pendiente de
esta recta! es decir! b
<
W +! G1EA Ngca-o. Cuando dos personas di%ieren en
peso! en promedio la di%erencia de edad entre ambas se rige por la cantidad b
+
W F! 1<1E a-oscNg de di%erencia.
1.A. Problemas
Ejercicio 1.<. &e reali"a un estudio para establecer una ecuacin mediante la
cual se pueda utili"ar la concentracin de estrona en salivaHS I para
predecir la concentracin del esteroide en plasma libre HT I. &e e*trajeron los
siguientes datos de <7 varones sanos2
S <!7 A!@ G!@ B B << <1 <7 <7!@ <E <A <G +F +1
T 1F +@ 1<!@ +A!@ 1B!@ 1G 71 7B @@ 7G!@ @< E7!@ E1 EG
<. Est$diese la posible relacin lineal entre ambas variables.
+. 4btener la ecuacin que se menciona en el enunciado del problema.
1. /eterminar la variacin de la concentracin de estrona en plasma por
unidad de estrona en saliva.
Ejercicio 1.+. 8os investigadores est(n estudiando la correlacin entre
obesidad y la respuesta individual al dolor. 8a obesidad se mide como por,
centaje sobre el peso ideal HS I. 8a respuesta al dolor se mide utili"ando el
y plomo. /espu's de <+ d
1.A. PC4B8E0A& B@
umbral de re%lejo de %le*in nociceptiva HT I! que es una medida de sensacin
de pun"ada. &e obtienen los siguientes datos2
S GB BF A@ 1F @< A@ E+ 7@ BF +F
T + 1 7 7!@ @!@ A B <1 <@ <7
<. :;u' porcentaje de la varian"a del peso es e*plicada mediante
un
modelo de regesein lineal por la variacin del umbral de re%lejo?
+. Est$diese la posible relacin lineal entre ambas variables!
obteniendo
su grado de ajuste.
1. :;u' porcentaje de sobrepeso podemos esperar para un umbral de
re%lejo de <F?
Ejercicio 1.1. &e lleva a cabo un estudio! por medio de detectores
radioac,
tivos! de la capacidad corporal para absorber hierro y plomo. Participan
en
el estudio <F sujetos. A cada uno se le da una dosis oral id'ntica de
hierro
#as se mide la cantidad de cada componente rete,
nida en el sistema corporal y! a partir de 'sta! se determina el
porcentaje absorbido por el cuerpo. &e obtuvieron los siguientes
datos2
Porcentaje de hierro o S <A ++ 1@ 71 GF G@ B< B+ BE <FF
Porcentaje de plomo o T G <A <G +@ @G @B 7< 1F 71 @G
<. Comprobar la idoneidad del modelo lineal de regresin.
+. 4btener la recta de regresin! si el modelo lineal es adecuado.
1. Predecir el porcentaje de hierro absorbido por un individuo cuyo
sis,
tema corporal absorbe el <@ X del plomo ingerido.
Bioestad
predecir la lectura que se obtendr
s
s
s
s
s
s
BE #stica2 0'todos y Aplicaciones
Ejercicio 1.7. Para estudiar el e%ecto de las aguas residuales de las
alcantarillas que a%luyen a un lago! se toman medidas de la concentracin
de nitrato en el agua. Para monitori"ar la variable se ha utili"ado un antiguo
m'todo manual. &e idea un nuevo m'todo autom(tico. &i se pone de
mani%iesto una alta correlacin positiva entre las medidas tomadas
empleando los dos m'todos! entonces se har( uso habitual del m'todo
autom(tico. 8os datos obtenidos son los siguientes2
0anual o S +@ 7F <+F A@ <@F 1FF +AF 7FF 7@F @A@
Autom(tico o T 1F GF <@F GF +FF 1@F +7F 1+F 7AF @G1
<. \allar el coe%iciente de determinacin para ambas variables.
+. Comprobar la idoneidad del modelo lineal de regresin. &i el modelo es
apropiado! hallar la recta de regresin de T sobre S y utili"arla para
#a empleando la t'cnica autom(tica
con una muestra de agua cuya lectura manual es de <FF.
1. Para cada una de las observaciones! halle las predicciones que o%rece
el modelo lineal de regresin para S en %uncin de T ! e T en %uncin
de S ! es decir! S e Ts .
7. Calcule los errores para cada una de dichas predicciones! es decir! las
variables S [ Ss e T [Ts .
@. :;ue relacin hay entre las medias de S y S ? :T entre las de T e
T ?
E. Calcule las medias de S [ S e T [ Ts . :Era de esperar el valor
obtenido?
A. Calcule las varian"as de S ! S ! T ! Ts ! S [ Ss e T [Ts .
G.
B.
:;u' relacin e*iste entre &
S
y &
+
S
:T entre &
T
y &
v
?
:;ue relacin ecuentra entre &
S
y &
+
S [Ss
? :=ambi'n es v(lida para
&
T
y &
+
T [Ts
?
/
di(lisis! as
Ejercicio 1.E. En un ensayo cl
1.A. PC4B8E0A& BA
<F. Justi%ique a partir de todo lo anterior porqu' se denomina r
+

como
grado de bondad del ajuste lineal.
Ejercicio 1.@. &e ha medido el aclaramiento de creatinina en pacientes
tratados con Captopril tras la suspensin del tratamiento con di(lisis!
resultando la siguiente tabla2
#as tras la di(lisis o S < @ <F <@ +F +@ 1@
Creatinina HmgcdlI o T @!A @!+ 7!G 7!@ 7!+ 7 1!G
<. \(llese la e*presin de la ecuacin lineal que mejor e*prese la va,
riacin de la creatinina! en %uncin de los dias transcurridos tras la
# como el grado de bondad de ajuste y la varian"a residual.
+. :En qu' porcentaje la variacin de la creatinina es e*plicada por el
tiempo transcurrido desde la di(lisis?
1. &i un individuo presenta 7
d
< mgcdl de creatinina! :cu(nto tiempo es
de esperar que haya transcurrido desde la suspensin de la di(lisis?
#nico reali"ado tras el posible e%ecto hipo,
tensor de un %(rmaco! se eval$a la tensin arterial diastlica H=A/I en
condiciones basales HS I! y tras 7 semanas de tratamiento HT I! en un total
de <7 pacientes hipertensos. &e obtienen los siguiente valores de =A/2
S B@ <FF <F+ <F7 <FF B@ B@ BG <F+ BE <FF BE <<F BB
T G@ B7 G7 GG G@ GF GF B+ BF AE BF GA <F+ GB
<. :E*iste relacin lineal entre la =A/ basal y la que se observa tras el
tratamiento?
+. :Cu(l es el valor de =A/ esperado tras el tratamiento! en un paciente
que present una =A/ basal de B@ mm de \g?
Bioestad
BG #stica2 0'todos y Aplicaciones
Ejercicio 1.A. &e han reali"ado B tomas de presin intracraneal en
animales
de laboratorio! por un m'todo est(ndar directo y por una nueva
t'cnica
e*perimental indirecta! obteni'ndose los resultados siguientes en mm
de
\g2
0'todo est(ndar o S B <+ +G A+ 1F 1G AE +E @+
0'todo e*perimental o T E <F +A EA +@ 1@ A@ +A @1
<. \allar la ecuacin lineal que e*prese la relacin e*istente entre
las
presiones intracraneales! determinadas por los dos m'todos.
+. :;u' tanto por ciento de la variabilidad de T es e*plicada por
la
regresin? \(llese el grado de dependencia entre las dos variables
y
la varian"a residual del mismo.
Cap
perimento concreto! los m'todos anali"ados en los cap
in%erencia estad#stica! los cuales implican el uso inteligente de la teor
terminolog
lidad constituye por s
#tulo 7
C(lculo de probabilidades y
variables aleatorias
7.<. introduccin
&i el $nico propsito del investigador es describir los resultados de un e*,
#tulos anteriores pue,
den considerarse su%icientes. )o obstante! si lo que se pretende es utili"ar la
in%ormacin obtenida para e*traer conclusiones generales sobre todos aque,
llos objetos del tipo de los que han sido estudiados! entonces estos m'todos
constituyen slo el principio del an(lisis! y debe recurrirse a m'todos de
#a de
la probabilidad.
Comen"amos este bloque interpretando la nocin de probabilidad y la
#a subyacente a esta (rea de las matem(ticas! ya que la probabi,
# misma un concepto b(sico que re%leja su relacin con
la %aceta del mundo e*terior que pretende estudiar2 los %enmenos aleatorios!
los cuales obedecen unas ciertas reglas de comportamiento. /e alguna
manera! el concepto de probabilidad! se relaciona o nos recuerda las
propiedades de la %recuencia relativa.
A partir de ella! y junto con las de%iniciones de probabilidad condiciona,
da y la de sucesos independientes! se deducen los teoremas %undamentales
BB
Bioestad
)os centraremos posteriormente en el eslabn que une la teor
probabilidad y la estad
trando de esta manera! como puede emplearse la teor
muestra e*tra#da de ella! y que muchos de los estudios estad
par(metros. 8legamos as# al estudio de las caracter
variable estad
estad
mente cierta terminolog
l
<FF #stica2 0'todos y Aplicaciones
del C(lculo de Probabilidades.
#a de la
#stica aplicada2 la nocin de variable aleatoria!
mos,
#a de la probabilidad
para sacar conclusiones precisas acerca de una poblacin en base a
una
#sticos son de
hecho! estudio de las propiedades de una o m(s variables aleatorias.
=al como hemos citado anteriormente! en las aplicaciones pr(cticas
es
importante poder describir los rasgos principales de una distribucin!
es
decir! caracteri"ar los resultados del e*perimento aleatorio mediante
unos
#sticas asociadas a una
variable aleatoria introduciendo los conceptos de esperan"a y varian"a
ma,
tem(tica! relacion(ndolos con los conceptos de media y varian"a de
una
#stica.
El c(lculo de probabilidades nos suministra las reglas para el
estudio de los e*perimentos aleatorios o de a"ar! constituyendo la
base para la
#stica inductiva o in%erencial.
Para trabajar con el c(lculo de probabilidades es necesario %ijar
previa,
#a. 5amos a introducir parte de ella en las
pr*imas
#neas.
7.+. E*perimentos y sucesos aleatorios
/iremos que un e*perimento es aleatorio si se veri%ican las siguientes
condiciones2
<. &e puede repetir inde%inidamente! siempre en las mismas condiciones9
+. Antes de reali"arlo! no se puede predecir el resultado que se va a
obtener9
1. El resultado que se obtenga! e! pertenece a un conjunto conocido
7.+. ESPEC60E)=4& T &.CE&4& A8EA=4C64& <F<
previamente de resultados posibles. A este conjunto! de resultados
posibles! lo denominaremos espacio muestral y lo denotaremos
normalmente mediante la letra E . 8os elementos del espacio muestral se
denominan sucesos elementales.
e
<
! e
+
E W e
<
! e
+
son sucesos elementales.
Cualquier subconjunto de E ser( denominado suceso aleatorio! y se
denotar( normalmente con las letras A! B !. . .
A! B E W A! B son sucesos aleatorios.
7.+.<. 4peraciones b(sicas con sucesos aleatorios
Al ser los sucesos aleatorios nada m(s que subconjuntos de un conjunto E
Mespacio muestralM! podemos aplicarles las conocidas operaciones con
conjuntos! como son la unin! interseccin y di%erencia2
.nin2
/ados dos sucesos aleatorios A! B E ! se denomina suceso unin de A y
B al conjunto %ormado por todos los sucesos elementales que pertenecen a
A o bien que pertenecen a B Hincluyendo los que est(n en ambos
simult(neamenteI! es decir
A B W we E 2 e A e B x H7.<I
6nterseccin2
/ados dos sucesos aleatorios A! B E ! se denomina suceso intersec cin
de A y B al conjunto %ormado por todos los sucesos elementales que
pertenecen a A y B a la ve"! es decir!
AyB W we E 2 e A y adem(s e B x H7.+I
Bioestad
masa partiendo de un estado inicial de reposo! y dejado caer al vac
<F+ #stica2 0'todos y Aplicaciones
/i%erencia2
/ados dos sucesos aleatorios A! B E ! se llama suceso di%erencia
de
A y B ! y se representa mediante AzB ! o bien A [ B ! al suceso
aleatorio
%ormado por todos los sucesos elementales que pertenecen a A! pero
no a
B 2
AzB o A [ B W we E 2 e A y adem(s e B x W AyB H7.1I
/i%erencia sim'trica2
&i A! B E ! se denomina suceso di%erencia sim'trica de A y B ! y
se
representa mediante A B ! al suceso aleatorio %ormado por todos los
sucesos
elementales que pertenecen a A y no a B ! y los que est(n en B y no en A2
A B W HAzB I HB zAI W HA B IzHAyB I H7.7I
7.1. E*perimentos aleatorios y probabilidad
&e denominan e*perimentos deterministas aquellos que reali"ados
de una misma %orma y con las mismas condiciones iniciales! o%recen siempre
el mismo resultado. Como ejemplo! tenemos que un objeto de cualquier
una torre! llega siempre al suelo con la misma velocidad2 v W
b #o desde
+ g h.
Cuando en un e*perimento no se puede predecir el resultado %inal!
hablamos de e*perimento aleatorio. Este es el caso cuando lan"amos un
dado y observamos su resultado.
7.1.<. )ocin %recuentista de probabilidad
En los e*perimentos aleatorios se observa que cuando el n$mero de
e*perimentos aumenta! las %recuencias relativas con las que ocurre cierto
suceso e! %
n
HeI!
Prob
fee W l
7.1. ESPEC60E)=4& A8EA=4C64& T PC4BAB686/A/ <F1
1a4 1$4
9
A
9
A
9
! !
A
1c4 1d4
9
! !
A
3igura 7.<2 /ados dos sucesos aleatorios A! B E se representa2 en HaI
A B 9 en HbI AyB 9 en HcI A [ B 9 en HdI A B .
%n HeI W n$mero de ocurrencias de e
n
tiende a converger hacia cierta cantidad que denominamos probabilidad de
e. Esta es la nocin %recuentista de probabilidad.
#m
n_
{
%n HeI
En la 3igura 7.+ se presenta la evolucin de la %recuencia relativa del
n$mero de caras obtenido en el lan"amiento de una moneda en <FF
ocasiones
Bioestad
<F7 #stica2 0'todos y Aplicaciones
Hsimulado por un ordenadorI. En principio la evolucin de las
%recuencias relativas es err(tica! pero a medida que el n$mero de
tiradas aumenta! tiende a lo que entendemos por probabilidad de
cara.
F.E
F.@
F.7
F.1
F.+
F.<
F F
<F +F 1F 7F @F EF AF GF BF <FF
8an"amientos de moneda
3igura 7.+2 Convergencia a <c+ de la %recuencia relativa del n$mero de
caras obtenido en lan"amientos sucesivos de una moneda Hsimulacin en
ordenadorI.
Problemas de la nocin %recuentista de probabilidad
8a nocin %recuentista de probabilidad no puede usarse en la pr(ctica
como de%inicin de la probabilidad por que22
se requiere reali"ar un n$mero in%inito de veces un e*perimento pa,
ra calcular una probabilidad. Por ejemplo! lan"ar in%initas veces un
7.1. ESPEC60E)=4& A8EA=4C64& T PC4BAB686/A/ <F@
dado para ver que las %recuencias relativas de la aparicin de cada
cara convergen a <cE. Esto puede suplirse en la pr(ctica reali"ando el
e*perimento un n$mero su%icientemente elevado de veces! hasta que
tengamos la precisin que requieran nuestros c(lculos. &in embargo!
los e*perimentos aleatorios a veces no pueden ser reali"ados! como
es el caso de calcular la probabilidad de morir jugando a la ruleta
rusa con un revolver2 no es posible Ho no se debeI calcular esta pro,
babilidad repitiendo el e*perimento un n$mero inde%inidamente alto
de veces para apro*imarla mediante la %recuencia relativaI. Para ello
e*isten m'todos mucho m(s seguros! como los que mencionaremos a
continuacin.
7.1.+. Probabilidad de 8aplace
&i un e*perimento cualquiera puede dar lugar a un n$mero %inito de
resultados posibles! y no e*iste ninguna ra"n que privilegie unos resultados
en contra de otros! se calcula la probabilidad de un suceso aleatorio A! seg$n
la regla de 8aplace como el cociente entre el n$mero de casos %avorables a
A! y el de todos los posibles resultados del e*perimento2
P fAe W n$mero de casos %avorables a A
n$mero de casos posibles
7.1.1. /e%inicin a*iom(tica de probabilidad
Para hacer una de%inicin rigurosa de la probabilidad! necesitamos precisar
ciertas leyes o a*iomas que deba cumplir una %uncin de probabilidad. Con la
de%inicin a*iom(tica de la probabilidad pretendemos dar el menor
conjunto posible de estas reglas! para que las dem(s se dedu"can como una
simple consecuencia de ellas.
Concepto a*iom(tico de probabilidad
/ado un espacio muestral E ! diremos que P es una probabilidad sobre A si
las siguientes propiedades Ha*iomasI son veri%icadas2
Bioestad
{ {
<FE #stica2 0'todos y Aplicaciones
A*,<. 8a probabilidad es una %uncin de%inida sobre A y que slo
toma valores positivos comprendidos entre F y <
P 2 A [_ fF! <e 6C
A E ! A A [_ F a P fAe a <
A*,+. 8a probabilidad del suceso seguro es <
P fE e W <
A*,1. 8a probabilidad de la unin numerable de sucesos disjuntos es la
suma de sus probabilidades H%igura 7.1I2
f e
Y
A
<
! A
+
! . . . ! A
n
! . . . A W P A
i
W P fA
i
e
iW< iW<
A
A1 A2 A
3
A
5
A
4
3igura 7.12 El tercer a*ioma de probabilidad indica que si A W A
<
A
+
] ] ]
con A
i
yA
j
W ! entonces P fAe W P fA
<
e Z P fA
+
e Z ] ] ]
7.7. Probabilidad condicionada e independencia
de sucesos
&ea B E un suceso aleatorio de probabilidad no nula! P fB e g F. Para
cualquier otro suceso A E ! llamamos probabilidad condicionada de
probabilidad de 8aplace tendr
7.7. PC4BAB686/A/ C4)/6C64)A/A E 6)/EPE)/E)C6A /E &.CE&4&<FA
A a B a la cantidad que representamos mediante P fA
qB
e o bien P
B
fAe
y que se calcula como2
P fA
qB
e W P fAyB e
P fB e
Ejemplo de c(lculo de probabilidades condicionadas
&e lan"a un dado al aire :Cu(l es la probabilidad de que salga el n$mero 7?
&i sabemos que el resultado ha sido un n$mero par! :se ha modi%icado esta
probabilidad?
&olucin2
El espacio muestral que corresponde a este e*perimento es
E W w<! +! 1! 7! @! Ex
y se ha de calcular la probabilidad del suceso A W w7x. &i el dado no
est( trucado! todos los n$meros tienen la misma probabilidad de salir! y
siguiendo la de%inicin de probabilidad de 8aplace!
P fAe W casos %avorables
casos posibles
n$mero de elementos en w7x
W
W
n$mero de elementos en w<! +! 1! 7! @! Ex
<
E
H7.@I
4bs'rvese que para calcular la probabilidad de A seg$n la de%inicin de
8aplace hemos tenido que suponer previamente que todos los elementos del
espacio muestral tienen la misma probabilidad de salir! es decir2
P f<e W P f+e W P f1e W P f7e W P f@e W P fEe
Por otro lado! si ha salido un n$mero par! de nuevo por la de%inicin de
#amos
Bioestad
Esta misma probabilidad se podr
Pparf7e W PB fAe W P fAqB
e W P PABB e
<FG
Pparf7e
#stica2 0'todos y Aplicaciones
W casos %avorables
casos posibles
W n$mero de elementos en w7x
n$mero de elementos en w+! 7! Ex
<
W
1
#a haber calculado siguiendo la de%inicin
de la probabilidad condicionada! ya que si escribimos
A W w7x
B W w+! 7! Ex
AyB W w7x
y entonces
P fAe W <
E
P fB e W <
E Z E Z E W E W +
P fAyB e W <
E
W <cE
H7.EI
f e <c+ W 1
que por supuesto coincide con el mismo valor que calculamos
usando la de%inicin de probabilidad de 8aplace.
6ndependencia
4bs'rvese que seg$n la de%inicin de probabilidad condicionada! se
puede escribir la probabilidad de la interseccin de dos sucesos de
probabilidad no nula como
|
|
P fAyB e W |
P fAe ] P fB
qA
e
P fB e ] P fA
qB
e
7.@. =E4CE0A& 3.)/A0E)=A8E& /E8 CA8C.84 /E PC4BAB686/A/E&<FB
4 sea! la probabilidad de la interseccin de dos sucesos! es la probabilidad de
uno cualquiera de ellos! multiplicada por la probabilidad del segundo
sabiendo que ha ocurrido el primero.
&i entre dos sucesos no e*iste ninguna relacin cabe esperar que la
e*presin Psabiendo queQ no aporte ninguna in%ormacin. /e este modo
introducimos el concepto de independencia de dos sucesos A y B como2
A es independiente de B P fAyB e W P fAe ] P fB e
7.@. =eoremas %undamentales del c(lculo de pro,
babilidades
\ay algunos resultados importantes del c(lculo de probabilidades que son
conocidos bajo los nombres de teorema de la probabilidad compuesta!
teorema de la probabilidad total y teorema de Bayes. 5eamos cuales son estos
teoremas! pero previamente vamos a enunciar a modo de recopilacin! una
serie de resultados elementales.
Ceglas de c(lculo de probabilidades b(sicas
&ean A! B E no necesariamente disjuntos. &e veri%ican entonces las
siguientes propiedades2
<. Probabilidad de la unin de sucesos2
P fA B e W P fAe Z P fB e [ P fAyB e H7.AI
+. Probabilidad de la interseccin de sucesos2
|
|
P fAe ] P fBqA e
P fAyB e W
|
H7.GI
P fB e ] P fA
qB
e
Bioestad
As
<<F #stica2 0'todos y Aplicaciones
1. Probabilidad del suceso contrario2
P fAe W < [ P fAe H7.BI
7. Probabilidad condicionada del suceso contrario2
P fA
qB
e W < [ P fA
qB
e H7.<FI
Ejemplo de c(lculo de probabilidades con intersecciones
En una universidad el @F X de los alumnos habla ingl's! el +F X %ranc's y el
@ X los dos idiomas :Cu(l es la probabilidad de encontrar alumnos que
hablen alguna lengua e*tranjera?
&olucin2
&ea A el suceso hablar ingl's2 P fAe W F! @.
&ea B el suceso hablar %ranc's2 P fB e W F! +.
El suceso hablar %ranc's e ingl's es AyB 2 P fAyB e W F! F@.
#2
P fA B e W P fAe Z P fB e [ P fAyB e W F! @ Z F! + [ F! F@ W F! E@
7.@.<. =eorema de la probabilidad compuesta
&ea A
<
! A
+
! . . . ! A
n
E una coleccin de sucesos aleatorios. Entonces2
P fA
<
A
+
] ] ] A
n
e W P fA
<
e ] P fA
+
q A
<
e ] P fA
1
q A
<
A
+
e ] ] ] P fA
n
q A
<
A
+
] ] ] A
n[<
e
7.@.+. &istema e*haustivo y e*cluyente de sucesos
8os teoremas que restan nos dicen como calcular las probabilidades de
sucesos cuando tenemos que el suceso seguro est( descompuesto en una
serie de sucesos incompatibles de los que conocemos su probabilidad. Para
ello necesitamos introducir un nuevo concepto2 &e dice que la coleccin
n
n
7.@. =E4CE0A& 3.)/A0E)=A8E& /E8 CA8C.84 /E PC4BAB686/A/E&<<<
4
A 1 A
2
A 3
A 4
3igura 7.72 A
<
! A
+
! A
1
! A
7
%orman un sistema e*haustivo y e*cluyente se
sucesos.
A
<
! A
+
! . . . ! A
n
E es un sistema e*haustivo y e*cluyente de sucesos si
se veri%ican las relaciones Hv'ase la %igura 7.7I2

Ai W E
iW<
A
i
yA
j
W i W j
7.@.1. =eorema de la probabilidad total
&ea A
<
! A
+
! . . . ! A
n
E un sistema e*haustivo y e*cluyente de sucesos.
Entonces
Y
B E ! P fB e W
P fB
qA
i
e ] P fA
i
e H7.<<I
iW<
Bioestad
<<+ #stica2 0'todos y Aplicaciones
Ejemplo de c(lculo usando el teorema de la probabilidad total
&e tienen dos urnas! y cada una de ellas contiene un n$mero
di%erente de bolas blancas y rojas2
Primera urna! .
<
2 1 bolas blancas y + rojas9
&egunda urna! .
+
2 7 bolas blancas y + rojas.
&e reali"a el siguiente e*perimento aleatorio2
&e tira una moneda al aire y si sale cara se elige una bola de la
primera urna! y si sale cru" de la segunda.
:Cu(l es la probabilidad de que salga una bola blanca?
&olucin2 8a situacin que tenemos puede ser esquemati"ada como
1 B 7 B
+ C + C
.
<
.
+
P f.
<
e W <c+ P f.
+
e W <c+
P fB
q.
<
e W 1c@ P fB
q.
+
e W 7cE
Como .
<
y .
+
%orman un sistema incompatible y e*cluyente de sucesos Hla
bola resultado debe provenir de una de esas dos urnas y de una slo de
ellasI! el teorema de la probabilidad total nos permite a%irmar entonces que
P fB e W P fB
q.
<
e ] P f.
<
e Z P fB
q.+
e ] P f.
+
e W @ ] + Z E ] + W 1F
7.@.7. =eorema de Bayes
&ea A
<
! A
+
! . . . ! A
n
E un sistema e*haustivo y e*cluyente de sucesos.
&ea B E un suceso del que conocemos todas las cantidades P fB
qA
i
e!
i W <! . . . ! n! a las que denominamos verosimilitudes. entonces se veri%ica2
n
7.@. =E4CE0A& 3.)/A0E)=A8E& /E8 CA8C.84 /E PC4BAB686/A/E&<<1
j W <! . . . ! n! P fA
j qB
e W
P fB
qA
j
e ] P fA
j
e
Y H7.<+I
P fB
qA
i
e ] P fA
i
e
iW<
Ejemplo de c(lculo con el teorema de Bayes
&e tienen tres urnas. Cada una de ellas contiene un n$mero di%erente de
bolas blancas y rojas2
Primera urna! .
<
2 1 bolas blancas y + rojas9
&egunda urna! .
+
2 7 bolas blancas y + rojas9
=ercera urna! .
1
2 1 bolas rojas.
&e reali"a el siguiente e*perimento aleatorio2
Alguien elije al a"ar y con la misma probabilidad una de las tres
urnas! y saca una bola.
&i el resultado del e*perimento es que ha salido una bola blanca! :cu(l es la
probabilidad de que provenga de la primera urna? Calcular lo mismo para las
otras dos urnas.
&olucin2
5amos a representar en un esquema los datos de que disponemos2
1 B 7 B F B
+ C + C 1 C
.
<
.
+
.
1
P f.
<
e W <c1 P f.
+
e W <c1 P f.
1
e W <c1
P fB
q.
<
e W 1c@ P fB
q.
+
e W 7cE P fB
q.
1
e W F
En este caso .
<
! .
+
y .
1
%orman un sistema incompatible y e*cluyente de
sucesos Hla bola resultado debe provenir de una de esas tres urnas y de una
Bioestad
aleatorio de e*traer una bola para ver su resultado! ten
<<7 #stica2 0'todos y Aplicaciones
slo de ellasI! por tanto es posible aplicar el teorema de Bayes2
P f.
< qB
e W
W
P fB
q.
<
e ] P f.
<
e
P fB
q.
<
e ] P f.
<
e Z P fB
q.+
e ] P f.
+
e Z P fB
q.1 e ] P f.
1
e
1
@ ] 1
1
W
@ ] 1
B
<B
Z 7
E ] 1 Z F ] 1
Con respecto a las dem(s urnas hacemos lo mismo2
P f.
+ qB
e W
W
P fB
q.
+
e ] P f.
+
e
P fB
q.
<
e ] P f.
<
e Z P fB
q.+
e ] P f.
+
e Z P fB
q.1 e ] P f.
1
e
7
E ] 1
1
W
@ ] 1
<F
<B
Z 7
E ] 1 Z F ] 1
P fB
q.
1
e ] P f.
1
e
P f.
1 qB
e W
W
P fB
q.
<
e ] P f.
<
e Z P fB
q.+
e ] P f.
+
e Z P fB
q.1 e ] P f.
1
e
F ] <
1
1
@ ] 1
W F
Z 7
E ] 1 Z F ] 1
Comentario sobre el teorema de Bayes
4bs'rvese que en el ejemplo anterior! antes de reali"ar el e*perimento
#amos que la pro,
babilidad de elegir una urna i cualquiera es P f.
i
e. Estas probabilidades se
tienen dos teor#as cient
las probabilidades de verosimilitud de cada teor
As # la e*perimentacin puede hacer que una teor
7.E. =E&=& /6AD)4&=6C4& <<@
denominan probabilidades a priori. &in embargo! despu's de reali"ar
el e*perimento! y observar que el resultado del mismo ha sido la
e*traccin de una bola blanca! las probabilidades de cada urna han
cambiado a P f.
i qB
e. Estas cantidades se denominan probabilidades a
posteriori. 5amos a representar en una tabla la di%erencia entre ambas2
a priori a posteriori
8as probabilidades a priori cambian de tal
P f.
<
e W <c1 P f.
< qB
e W Bc<B modo de las a posteriori que una ve" obser,
P f.
+
e W <c1 P f.
+ qB
e W <Fc<B W vado el resultado del e*perimento aleatorio!
P f.
1
e W <c1 P f.
1 qB
e W F se puede a%irmar con certe"a que no %ue ele,
< <
gida la tercera urna.
Esta %enmeno tiene aplicaciones %undamentales en Ciencia2 Cuando se
#%icas di%erentes! =
<
y =
+
! que pretenden e*plicar
cierto %enmeno! y a las que asociamos unas probabilidades a priori de ser
ciertas!
P f=
<
e ! P f=
+
e
podemos llevar a cabo la e*perimentacin que se considere m(s conveniente!
para una ve" obtenido el cuerpo de evidencia! B ! calcular como se modi%ican
#a mediante el teorema de
Bayes2
P f=
< qB
e ! P f=
+ qB
e
#a sea descartada si P f=
i qB
e r
F o re%or"ada si P f=
i qB
e r <. .na aplicacin b(sica de esta t'cnica la
tenemos en 0edicina para decidir si un paciente padece cierta en%ermedad o
no! en %uncin de los resultados de un test diagnstico.
7.E. =ests diagnsticos
8os tests diagnsticos son una aplicacin del teorema de Bayes a la
0edicina! y se basan en lo siguiente2
Bioestad
no! y estimando los porcentajes correspondientes. =
do para el cl
<<E #stica2 0'todos y Aplicaciones
<. &e sospecha que un paciente puede padecer cierta en%ermedad!
que
tiene una incidencia de la en%ermedad en la poblacin
Hproba,
bilidad de que la en%ermedad la pade"ca una persona elegida al
a"arI
de P fE e9
+. Como ayuda al diagnstico de la en%ermedad! se le hace pasar
una
serie de pruebas HtestsI! que dan como resultado2
Positivo! =
Z
! si la evidencia a %avor de que el paciente est'
en%ermo es alta en %uncin de estas pruebas9
)egativo! =
[
! en caso contrario.
Previamente! sobre el test diagnstico a utili"ar! han debido ser
estimadas las cantidades2
&ensibilidad2 Es la probabilidad de el test de positivo sobre una
persona que sabemos que padece la en%ermedad! P f=
Z qE
e.
Especi%icidad2 Es la probabilidad que el test de negativo sobre una
persona que no la padece! P f=
[ qE
e.
8o que interesa saber en la pr(ctica es! predecir si una persona est( sa,
na o en%erma! a partir del resultado del test diagnstico! es decir! las
cantidades2
6ndice predictivo positivo2 Es la probabilidad de que un indivi,
duo est' en%ermo si el test di resultado positivo! P fE
q=
Z e.
Especi%icidad2 Es la probabilidad que el test de negativo sobre una
persona que no la padece! E
qP f=
[ e.
8a sensibilidad y especi%icidad se denominan tambi'n respectivamen,
te tasa de verdaderos positivos y tasa de verdaderos negati,
vos. Estas cantidades son calculadas de modo apro*imado! antes de
utili"ar el test diagnstico! considerando grupos su%icientemente nu,
merosos de personas de las que sabemos si padecen la en%ermedad o
#picamente esta
labor es reali"ada por un laboratorio que quiere probar la e%icacia de un
test diagnstico. 8os indices predictivos son interesantes sobre to,
#nico que e%ectivamente desea evaluar la probabilidad de
probabilidad de que realmente est' en%ermo si le dio positivo H
o la de que est' sano si le dio negativo H
7.E. =E&=& /6AD)4&=6C4& <<A
que un individuo est' o no en%ermo! en %uncion de los resultados
de las pruebas qu se reali"an sobre el mismo.
Ejemplo de c(lculo en tests diagnsticos
&e toman <FF personas sanas y <FF en%ermas! y se observa
que
E E
=
Z
GB 1 =asa de verdaderos positivos2 GBX
=asa de %alsos positivos2 1X
=asa de verdaderos negativos2 BAX
=
[
<< BA =asa de %alsos negativos2 <<X
<FF <FF
1. teniendo en cuenta el resultado del test diagnstico! se utili"a el teore,
ma de Bayes para ver cual es! a la vista de los resultados obtenidos! la
#ndice
predictivo de verdaderos positivosI!
P f=
Z qE
e ] P fE e
P fE
q=
Z e W
daderos negativosI2
P fE
q=
[ e W
P f=
Z qE
e ] P fE e Z P f=
Z qE
e ] P fE e !
#ndice predictivo de ver,
P f=
[ qE
e ] P fE e
P f=
[ qE
e ] P fE e Z P f=
[ qE
e ] P fE e
4tro ejemplo de c(lculo con tests diagnsticos
Con el objeto de diagnosticar la colelietasis se usan los ultrasonidos. =al
t'cnica tiene una sensibilidad del B< X y una especi%icidad del BG X. En la
poblacin que nos ocupa! la probabilidad de colelietasis es de F! +.
Bioestad
+. &i el resultado %uese negativo! :cu(l ser
<<G #stica2 0'todos y Aplicaciones
<. &i a un individuo de tal poblacin se le aplican los ultrasonidos y
dan
positivos! :cu(l es la probabilidad de que su%ra la colelietasis?
#a la probabilidad de que no
tenga la en%ermedad?
&olucin2
5amos a utili"ar la siguiente notacin2
E o Padecer la en%ermedad
HcolelietasisI9
E o )o padecer la en%ermedad9
=
Z
o El resultado del test es positivo9
=
[
o El resultado del test es negativo9
8os datos de que disponemos son las probabilidades condicionadas
&ensibilidad o =asa de 5erdaderos Positivos o P f=
Z qE
e W FB<!
Especi%icidad o =asa de verdaderos )egativos o P f=
[ qE
e W F! BG
y la incidencia de la en%ermedad en la poblacin
P fE e W F! +F
En el primer apartado se pide calcular el P>ndice Predictivo de 5erdaderos
PositivosQ! P fE
q=
Z e! que por el teorema de Bayes es2
P fE
q=
Z e W
P f=
Z qE
e ] P fE e
P f=
Z qE
e ] P fE e Z P f=
Z qE
e
q w" x
<[P f=
[ qE
e
F!B< ] F! +
W
] P fE e F!B< ] F! + Z F! F+ ] F! G W F! B<B+
q w" x
<[P fE e
ha contra
los m'dicos de la &eguridad &ocial di%
co de alcoholismo. Aparecen sin embargo diagnosticados de hepatopat
cohlicos y el A X de los no alcohlicos su%r#an tales patolog
saber cu(l es la probabilidad de que un individuo con esas patolog
7.A. PC4B8E0A& <<B
En el segundo apartado! se ha de calcular el P>ndice Predictivo de 5er,
daderos )egativosQ! P fE
q=
[ e!
P fE
q=
[ e W
P f=
[ qE
e ] P fE e
P f=
[ qE
e ] P fE e Z P f=
[ qE
e ]P fE e W
q w" x
<[P f=
Z qE
e
F!BG ] F! G
F!BG ] F! G Z F! FB ] F! + W F! BAA@
7.A. Problemas
Ejercicio 7.<. .na mujer portadora de hemo%ilia cl(sica da a lu" tres hijos.
<. :Cual es la probabilidad de que de los tres hijos! ninguno est' a%ectado
por la en%ermedad?
+. :Cual es la probabilidad de que e*actamente dos de los tres ni-os
est' a%ectado?
Ejercicio 7.+. El EF X de los individuos de una poblacin est(n vacunados
contra una cierta en%ermedad. /urante una epidemia se sabe que el +F X la
#do y que + de cada <FF individuos est(n vacunados y son en%ermos.
Calcular el porcentaje de vacunados que en%erma y el de vacunados entre los
que est(n en%ermos..
Ejercicio 7.1. 8a proporcin de alcohlicos que e*iste en la poblacin de
0(laga es! apro*imadamente! un <F X9 no obstante! en las bajas que dan
#cilmente se encuentra el diagnsti,
#as!
lumbalgias! etc.! que pueden hacer sospechar alcoholismo subyacente. &e
reali" un estudio que puso de mani%iesto que el G@ X de los individuos al,
#as. &e desea
#as sea
realmente alcohlico.
Bioestad
"ar
Ejercicio 7.G. Entre los estudiantes de una 3acultad de 3iloso%
<+F #stica2 0'todos y Aplicaciones
Ejercicio 7.7. /os tratamientos A y B curan una determinada
en%erme,
dad en el +F X y 1F X de los casos! respectivamente. &uponiendo que
ambos
act$an de modo independiente! cu(l de las dos siguientes estrategias utili,
#a para curar a un individuo con tal en%ermedad2
<. Aplicar ambos tratamientos a la ve".
+. Aplicar primero el tratamiento B y! si no surte e%ecto! aplicar el A.
Ejercicio 7.@. &e eligen al a"ar 1 deportistas de un equipo de <F
integrantes para reali"ar un control antidopaje9 &e sabe que + de los
jugadores del equipo han tomado sustancias prohibidas. :Cu(l es la
probabilidad de elegir para el an(lisis a alguno de los in%ractores?
Ejercicio 7.E. Estamos interesados en saber cu(l de dos an(lisis A y B
es
mejor para el diagnstico de una determinada en%ermedad! de la cual
sabe,
mos que la presentan un <F X de individuos de la poblacin. El
porcentaje
de resultados %alsos positivos del an(lisis A es del <@ X y el de B es
del
++X. El porcentaje de %alsos negativos de A es del A X y de B es del 1
X.
:Cu(l es la probabilidad de acertar en el diagnstico con cada m'todo?
Ejercicio 7.A. Con objeto de diagnosticar la colelitiasis se usan los
ultra,
sonidos. =al t'cnica tiene una sensibilidad del B< X y una especi%icidad
del
BGX. En la poblacin que nos ocupa la probabilidad de colelitiasis es
del
+FX.
<. &i a un individuo de tal poblacin se le aplican los ultrasonidos y
dan
positivos! :cu(l es la probabilidad de que su%ra la colelitiasis?
+. &i el resultado %uese negativo! :cu(l es la probabilidad de que no
tenga
la en%ermedad?
#a y 8etras
se dan las siguientes proporciones2 el 7F X son hombres. El AF X de los
ancianos su%ren un deterioro neuropsicolgico. &abemos que la tomogra%
mente entre esas categor
4btenga las probabilidades de que e*tra
7.A. PC4B8E0A& <+<
varones %uman! mientras que entre las mujeres slo %uman el +F X.
Escogido un estudiante al a"ar! calc$lese la probabilidad de que %ume.
Ejercicio 7.B. 8os estudios epidemiolgicos indican que el +F X de
los
#a
a*ial computeri"ada H=ACI es capa" de detectar este trastorno en el GF
X de los que lo su%ren! pero que tambi'n da un 1 X de %alsos positivos
entre personas sanas. &i tomamos un anciano al a"ar y da positivo en
el =AC! :cu(l es la probabilidad de que est' realmente en%ermo?
Ejercicio 7.<F. &abemos que tiene estudios superiores el <@ X de la
po,
blacin espa-ola! estudios medios el 7F X! estudios primarios el 1@ X y
no
tiene estudios el <F X. 8os desempleados no se distribuyen
proporcional,
#as! dado que de entre los de estudios superiores
est(n sin trabajo el <F X! entre los de estudios medios el 1@ X! entre
los de estudios primarios el <G X! y entre los que no tienen estudios el
1A X.
#do uno al a"ar! 'ste sea2
<. =itulado superior! sabiendo que est( parado.
+. .n sujeto sin estudios que est( en paro.
1. .n sujeto con estudios primarios o que est( trabajando.
Ejercicio 7.<<. .na en%ermedad puede estar producida por tres virus
A!
B! y C. En el laboratorio hay 1 tubos de ensayo con el virus A! +
tubos
con el virus B y @ tubos con el virus C. 8a probabilidad de que el virus
A
produ"ca la en%ermedad es de <c1! que la produ"ca B es de +c1 y que
la
produ"ca el virus C es de <cA. &e inocula un virus a un animal y
contrae
la en%ermedad. :Cu(l es la probabilidad de que el virus que se inocule
sea
el C?
Ejercicio 7.<+. El AF X de los estudiantes aprueba una asignatura A
y un
EFX aprueba otra asignatura B. &abemos! adem(s! que un 1@ X del
total
Bioestad
&e sabe que el @F X cursan estudios de En%ermer
<++ #stica2 0'todos y Aplicaciones
aprueba ambas. Elegido un estudiante al a"ar! calcular las
probabilidades de las siguientes situaciones2
<. \aya aprobado la asignatura B! sabiendo que ha aprobado la A.
+. \aya aprobado la asignatura B! sabiendo que no no ha aprobado la
A.
1. )o haya aprobado la asignatura B! sabiendo que ha aprobado la A.
7. )o haya aprobado la asignatura B! sabiendo que no ha aprobado la
A.
Ejercicio 7.<1. 8a cuarta parte de los conductores de coche son
mujeres. 8a probabilidad de que una mujer su%ra un accidente en un
a-o es de @c<F.FFF! y para los hombres es de <c<F.FFF. Calc$lese la
probabilidad de que si acaece un accidente! el accidentado sea
hombre.
Ejercicio 7.<7. En un campus universitario e*isten 1 carreras sanitarias.
#a! el 1FX 0edicina y
el +F X 5eterinaria. 8os que %inali"aron sus estudios son el +F! <F y
@ X respectivamente. Elegido un estudiante al a"ar! h(llese la
probabilidad de que haya acabado la carrera.
Cap
asociado a dicho e*perimento aleatorio ser
En estad
anterior. As
#tulo @
5ariables aleatorias
@.<. 6ntroduccin
)ormalmente! los resultados posibles Hespacio muestral E I de un e*pe,
rimento aleatorio no son valores num'ricos. Por ejemplo! si el e*perimento
consiste en lan"ar de modo ordenado tres monedas al aire! para observar
el n$mero de caras HC I y cruces HCI que se obtienen! el espacio muestral
#a2
E W wCCC ! CCC! CCC ! CCC! CCC ! CCC! CCC ! CCCx
#stica resulta m(s %(cil utili"ar valores num'ricos en lugar de
trabajar directamente con los elementos de un espacio muestral como el
# pre%erimos identi%icar los sucesos wCCC! CCC! CCC x con el
valor num'rico < que representa el n$mero de caras obtenidas al reali"ar el
e*perimento. /e este modo aparece el concepto de variable aleatoria
unidimensional como el de toda %uncin
S 2 E [_ 6C
e [_ S HeI W *
e
que atribuye un $nico n$mero real *
e
! a cada suceso elemental e! del espacio
muestral E
<+1
Bioestad
<+7 #stica2 0'todos y Aplicaciones
Por ejemplo! en el ejemplo anterior! se de%ine la variable aleatoria Hv.a.
en adelanteI
S o n$mero de caras
del siguiente modo2
S 2 E [_ 6C
S HCCC I W 1
S HCCCI W S HCCC I W S HCCC I W +
S HCCC I W S HCCCI W S HCCCI W <
S HCCCI W F
En %uncin de los valores que tome la variable! esta puede ser
clasi%icada en discreta o continua del siguiente modo2
v.a. discreta es aquella que slo puede tomar un n$mero %inito o
in%inito
numerable de valores. Por ejemplo!
S 2 E [_ 6)
v.a. continua es la que puede tomar un n$mero in%inito no
numerable de
valores.
S 2 E [_ 6C
5amos a estudiar los conceptos m(s importantes relacionados
con la
distribucin de probabilidad de una v.a.! di%erenciando entre los
casos de
v.a. discreta y v.a. continua.
@.+. 5AC6AB8E& A8EA=4C6A& /6&CCE=A& <+@
@.+. 5ariables aleatorias discretas
/ada una v.a. discreta S 2 E [_ 6) ! su %uncin de probabilidad % ! se
de%ine de modo que % H*
i
I es la probabilidad de que S tome ese valor2
% 2 6) [_ fF! <e
*i
[_ % H*
i
I W P fS W *
i
e W P fwe! t.q. S HeI W *
i
xe
&i *
i
no es uno de los valores que puede tomar S ! entonces % H*
i
I W F. 8a
representacin gr(%ica de la %uncin de probabilidad se reali"a mediante un
diagrama de barras an(logo al de distribucin de %recuencias relativas para
variables discretas. Por ejemplo! si retomamos el caso del lan"amiento de
1 monedas de %orma que cada una de ellas tenga probabilidad <c+ de dar
como resultado cara o cru"! se tiene que Hv'ase la %igura @.<I2
% H1I W P fS W 1e W P fwCCC xe W <
+ ] + ] + W G
% H+I W P fS W +e W P fwCCC ! CCC! CCC xe W <
G Z G Z G W G
% H<I W P fS W 1e W P fwCCC ! CCC! CCCxe W <
G Z G Z G W G
% HFI W P fS W Fe W P fwCCCxe W <
+ ] + ] + W G
4tro concepto importante es el de %uncin de distribucin de una
variable aleatoria discreta! 3 ! que se de%ine de modo que si *
i
6C! 3 H*
i
I
es igual a la probabilidad de que S tome un valor in%erior o igual a *
i
2
3 2 6) [_ fF! <e
*i
[_ 3 H*
i
I W P fS a *
i
e W P fwe! t.q. S HeI a *
i
xe
Bioestad
<+E #stica2 0'todos y Aplicaciones
3igura @.<2 Equivalencia entre las probabilidades calculadas
directamente
sobre el espacio muestral E de resultados del e*perimento aleatorio! y
las
calculadas sobre el subconjunto wF! <! +! 1x 6) 6C mediante la v.a.
S .
Esta %uncin se representa gr(%icamente del mismo modo que la
distribucin de %recuencias relativas acumuladas H%igura @.+I. 5olviendo
al ejemplo de las tres monedas! se tiene que
3 HFI W P fS a Fe W P fS W Fe W % HFI W
<
G
3 H<I W P fS a <e W % HFI Z % H<I W <
G Z G W G
3 H+I W P fS a +e W % HFI Z % H<I Z % H+I W <
G Z G Z G W G
3 H1I W P fS a 1e W % HFI Z % H<I Z % H+I Z % H1I W <
G Z G Z G Z G W G W <
@.1. 5ariables aleatorias continuas
&i una variable discreta toma los valores *
<
! . . . ! *
O
! la probabilidad de que al
hacer un e*perimento! S tome uno de esos valores es <! de modo que cada
posible valor *
i
contribuye con una cantidad % H*
i
I al total2
O O
{ {
@.1. 5AC6AB8E& A8EA=4C6A& C4)=6).A& <+A
1
5unc. Pro-a-iidad 5unc. Distri-ucio6
$ 2/8 5
4/8
3/8
1/8 1/8
0 1 2 3
3igura @.+2 3uncin de probabilidad a la i"quierda! y %uncin de distribucin
a la derecha de una v.a. discreta
Y Y
% H*
i
I W P fS W *
i
e W <
iW< iW<
Aun cuando la variable tomase un n$mero in%inito de valores! *
<
! *
+
! . . . !
no hay ning$n problema en comprobar que cada *
i
contribuye con una
cantidad % H*
i
I al total de modo que
Y Y
% H*
i
I W P fS W *
i
e W <
iW< iW<
Cuando la variable es continua! no tiene sentido hacer una suma de las
probabilidades de cada uno de los t'rminos en el sentido anterior! ya que el
conjunto de valores que puede tomar la variable es no numerable. En este
caso! lo que generali"a de modo natural el concepto de suma H
Y
I es el de
integral H
}
I. Por otro lado! para variables continuas no tiene inter's hablar de
la probabilidad de que S W * 6C! ya que esta debe de valer siempre F! para
que la suma in%inita no numerable de las probabilidades de todos los valores
de la variable no sea in%inita.
Bioestad
2 6
<+G #stica2 0'todos y Aplicaciones
/e este modo es necesario introducir un nuevo concepto que
sustituya
en v.a. continuas! al de %uncin de probabilidad de una v.a. discreta.
Este
concepto es el de %uncin de densidad de una v.a. continua! que se
de%ine como una %uncin
%
propiedades siguientes2
|
|
|
C [_ 6C integrable! que veri%ica las dos
% H*I l F
H@.<I
|
} Z{
|
% H*I d* W <
[{
y que adem(s veri%ica que dado a j b! se tiene que
} b
P fa a S a be W % H*I d* H@.+I
a
$
P7a')'-8
a - )
3igura @.12 3uncin de densidad % . 8a probabilidad de un intervalo! es el
(rea que e*iste entre la %uncin y el eje de abscisas.
8a %uncin de distribucin de la v.a. continua! 3 ! se de%ine de
modo que dado * 6C! 3H*I es la probabilidad de que S sea menor o igual
que *! es decir
3 2 6C [_ fF! <e
} *
H@.1I
* [_ 3 H*I W P fS a *e W % HtI dt
[{
/e %orma an(loga a lo que se se hi"o en el cap #tulo + sobre estad
"acin! dispersin! simetr
@.7. 0E/6/A& /E =E)/E)C6A CE)=CA8 T /6&PEC&64) /E 5.A.<+B
59:;
$9:;
Area(59:;
:
3igura @.72 3uncin de distribucin 3 ! calculada a partir de la %uncin de
densidad % .
@.7. 0edidas de tendencia central y dispersin de
v.a.
#stica
descriptiva podemos de%inir para variables aleatorias medidas de centrali,
#a y %orma. Por su inter's nos vamos a centrar en
dos medidas sobre v.a. que son la esperan"a matem(tica que desempe-a un
papel equivalente al de la media y el momento central de segundo orden!
tambi'n denominado varian"a.
Bioestad
donde 66 es el conjunto numerable de
<1F #stica2 0'todos y Aplicaciones
@.7.<. 5alor esperado o esperan"a matem(tica
8a esperan"a matem(tica o valor esperado de una variable aleatoria es
el concepto equivalente al de media aritm'tica.
Como las variables aleatorias se e*presan de modo di%erente en el caso
discreto que en el continuo! tratemos a cada una de llas por separado.
&ea S una v.a. discreta. &e denomina esperan"a matem(tica de S o
valor esperado! y se denota bien E fS e o bien k! a la cantidad que se
e*presa como2
Y
E fS e W
*i% H*i I
H@.7I
i 66
#ndices de los valores que puede tomar
la variable Hpor ejemplo 66 W w<! +! . . . ! Ox para un n$mero %inito de valores
de la v.a. o bien 66 W 6) para una cantidad in%inita numerable de los mismos.
&i S es una v.a. continua! se de%ine su esperan"a a partir de la %uncin de
densidad como sigue2
} Z{
E fS e W * ] % H*I d*
[{
@.7.+. 5arian"a
8a varian"a la denotamos mediante 5ar fS e o bien n
+
2
| Y
H@.@I
f e
5ar fS e W E HS [ E fS eI
+
W
| | H*
i
[ E fS eI
+
% H*
i
I si S disc.
| i 66
| | } Z{
| H* [ E fS eI
+
] % H*I d* si S cont.
[{
Cap
Como complemento al cap
ellas! las cuales constituir(n el soporte subyacente de la in%erencia estad
6niciamos este cap
#tulo E
Principales leyes de
distribucin de variables
aleatorias
E.<. 6ntroduccin
#tulo anterior en el que de%inimos todos los con,
ceptos relativos a variables aleatorias! describimos en 'ste las principales
leyes de probabilidad que encontramos en las aplicaciones del c(lculo de
probabilidades. Atendiendo a la clasi%icacin de las v.a. en discretas y con,
tinuas describiremos las principales leyes de probabilidad de cada una de
#sti,
ca y a las que ser( necesario hacer re%erencia en el estudio de dicho bloque.
#tulo con el estudio de las distribuciones para v.a. discre,
tas.
<1<
Bioestad
cierto suceso ocurre o no! siendo p la probabilidad de que esto sea as
las v.a.! que a la situacin real que pueda derivarse del resultado. Podr
.n ejemplo t
<1+ #stica2 0'todos y Aplicaciones
E.+. /istribuciones discretas
E.+.<. /istribucin de Bernoulli
Consiste en reali"ar un e*perimento aleatorio una sla ve" y observar si
# H'*itoI
y q W < [p el que no lo sea H%racasoI. En realidad no se trata m(s que de una
variable dicotmica! es decir que $nicamente puede tomar dos modalidades!
es por ello que el hecho de llamar '*ito o %racaso a los posibles resultados de
las pruebas obedece m(s una tradicin literaria o histrica! en el estudio de
#amos
por tanto de%inir este e*perimento mediante una v.a. discreta S que toma
los valores S W F si el suceso no ocurre! y S W < en caso contrario! y que
se denota S Ber HpI
|
S Ber HpI S W
|
|
F [_ q W < [ p W P fS W Fe
HE.<I
< [_ p W P fS W <e
#pico de este tipo de variables aleatorias consiste en lan"ar una
moneda al aire y considerar la v.a.
|
| |
S o n$mero de caras obtenidas W |
|
F
<
[_ q W <
+
[_ p W <
+
Para una v.a. de Bernouilli! tenemos que su %uncin de probabilidad es2
|
|
% H*I W |
q si * W F
p si * W <
F en cualquier otro caso9
8os principales momentos de S son2
E.+. /6&=C6B.C64)E& /6&CCE=A& <11
E fS e W p HE.+I
5ar fS e W p ] q HE.1I
E.+.+. /istribucin binomial
&e dice que una v.a. S sigue una ley binomial de par(metros n y p! S
B Hn! pI! si es la suma de n v.a. independientes de Bernouilli con el
mismo par(metro! p2
S B Hn! pI S W S
<
Z ] ] ] ZS
n
! donde S
i
Ber HpI! i W <! . . . ! n
HE.7I
Esta de%inicin puede interpretarse en el siguiente sentido2 &upongamos que
reali"amos n pruebas de Bernouilli! S
i
! donde en todas ellas! la probabili,
dad de '*ito es la misma HpI! y queremos calcular el n$mero de '*itos! S !
obtenidos el el total de las n pruebas. &u ley de probabilidad es
<
En la 3i,
gura E.< se representa la %uncin de probabilidad de una variable binomial.
H
% HOI W P fS W Oe W
I
n
O p
O
q
n[O
O W F! <! . . . ! n HE.@I
El valor esperado y la varian"a de esta variable son2
E fS e W np
5ar fS e W npq
Ejemplo de uso de la distribucin binomial
.n m'dico aplica un test a <F alumnos de un colegio para detectar
una en%ermedad cuya incidencia sobre una poblacin de ni-os es del <F X.
<
8os valores % HOI los podemos encontrar tabulados para ciertos valores peque-os de n!
y ciertos valores usuales de p en la tabla < Hal %inal del libroI.
Bioestad
<17 #stica2 0'todos y Aplicaciones
F.1@
BinH@9F!@I
F.1
F.+@
F.+
F.<@
F.<
F.F@
F
,< F < + 1 7 @ E
3igura E.<2 3uncin de probabilidad de una variable binomial cunado n es
peque-o.
8a sensibilidad del test es del GF X y la especi%icidad del A@ X. :Cual es
la probabilidad de que e*actamente a cuatro personas le de un resultado
positivo? &i en la muestra hay cuatro personas a las que el test le da positivo!
:cu(l es la probabilidad de que entre estas! e*actamente dos est'n sanas?
Calcular la probabilidad de que el test suministre un resultado incorrecto
para dos personas. Calcular la probabilidad de que el resultado sea correcto
para m(s de A personas.
&olucin2
8os datos de que disponemos son2
P fE e W F! <
P f=
Z qE
e W F! G
P f=
[ qE
e W F! A@
prevalencia de la en%ermedad en la poblacin
q w" x
Probabilidad a priori de estar en%ermo
sensibilidad Hverdaderos positivosI
especi%icidad Hverdaderos negativosI HE.EI
E.+. /6&=C6B.C64)E& /6&CCE=A& <1@
F.<G
BinH+F9F!@I
F.<E
F.<7
F.<+
F.<
F.FG
F.FE
F.F7
F.F+
F
F @ <F <@ +F
3igura E.+2 3uncin de probabilidad de una variable binomial cuando n es
grande.
donde E ! =
Z
! y =
[
tienen el sentido que es obvio. &i queremos saber a
cuantas personas el test le dar( un resultado positivo! tendremos que cal,
cular P f=
Z
e! para lo que podemos usar el teorema de la probabilidad total
Hestar en%ermo y no estarlo %orman una coleccin e*haustiva y e*cluyente
de sucesosI2
P f=
Z
e W P f=
Z qE
e ] P fE e Z P f=
Z qE
e ] P fE e
q w" x
q w" x
<[P f=
[ qE
e
<[P fE e
W F! G ^ F! < Z F! +@ ^ F! B W F! 1F@
&ea S
<
la v.a. que contabili"a el n$mero de resultados positivos. Es claro
que llamando p
<
W P f=
Z
e! se tiene que S sigue una distribucin binomial
S
<
B Hn
<
W <F! p
<
W F! 1F@I P fS
<
W Oe W
H I
n
<
O p
<
q
<
<
[O
Bioestad
o sea! el
<1E #stica2 0'todos y Aplicaciones
Por ello la probabilidad de que a cuatro personas le de el resultado del test positivo es2
H
P fS
<
W 7e W
I
<F
7
F!1F@
7
] F! EB@
E
W F! +F7G
&i queremos calcular a cuantas personas les dar( el test un resultado positivo
aunque en realidad est'n sanas! hemos de calcular previamente P fE
q=
Z e!
#ndice predictivo de %alsos positivos2
P fE
q=
Z e W P fE y= Z
e
<[P f=
[ qE
e
" xq w
P f=
Z qE
e ]
W
<[P fE e
" xq w
P fE e
W F! A1AA
P f=
Z
e P f=
Z
e
Es importante observar este resultado. Antes de hacer los c(lculos no era
previsible que si a una persona el test le da positivo! en realidad tiene una
probabilidad apro*imadamente del A7 X de estar sana. &ea S
+
la variable
aleatoria que contabili"a al n$mero de personas al que el test le da positivo!
pero que est(n sanas en realidad. Entonces
S
+
B Hn
+
W 7! p
+
W F! A1AAI P fS
+
W Oe W
y
H I
7
H I
n
+
O
p
+
q
+
+
[O
P fS
+
W +e W
+
F!A1AA
+
] F! +E+1
+
W F! ++7E@
Por $ltimo vamos a calcular la probabilidad p
1
de que el test de un
resultado errneo! que es2
p
1
W P fH=
Z
yE I H=
[
yE Ie
q w"
incompatibles
x
+
primer '*ito en la sucesin wS
i
x
i
E.+. /6&=C6B.C64)E& /6&CCE=A& <1A
W P f=
Z
yE e Z P f=
[
yE e
W P f=
Z qE
e ] P fE e Z P f=
[ qE
e ] P fE e
W F! +@ ^ F! B Z F! + ^ F! < W F! +7@
8a variable aleatoria que contabili"a el n$mero de resultados errneos del
test es
S
1
B Hn
1
W <F! p
1
W F! +7@I P fS
1
W Oe W
H I
n
1
O
p
1
q
1
1
[O
Como la probabilidad de que el test sea correcto para m(s de siete personas! es
la de que sea incorrecto para menos de 1! se tiene
P fS
1
j 1e W P fS
1
a +e
q w" x
3S1 H+I
H I
W
W
Y
iWF
H
<F
F
n
1
i p
i 1
q
1
1
[i
I
F!+7@
F
] F! A@@
<F
Z
H I
<F
F!+7@
<
^ F! A@@
B
Z
<
H I
<F
F!+7@
+
^ F! A@@
G
+
W F! @7FA
E.+.1. /istribucin geom'trica H o de %racasosI
Consideramos una sucesin de v.a. independientes de Bernouilli!
S
<
! S
+
! . . . ! S
i
! . . . donde S
i
Ber HpI! i W <! +! . . . ! {
.na v.a. S sigue posee una distribucin geom'trica! S Deo HpI! si
esta es la suma del n$mero de %racasos obtenidos hasta la aparicin
del
W< . Por ejemplo
Bioestad <1G
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S
<
S
+
S
1
S
7
S
@
] ] ]
~ ~ ~ ~ ~
< F F < < ] ] ]
F < F < < ] ] ]
F F < F < ] ] ]
F F F < < ] ] ]
#stica2 0'todos y Aplicaciones
S
~
W S W F % HFI W p
W S W < % H<I W qp
W S W + % H+I W qqp
W S W 1 % H1I W qqqp
/e este modo tenemos que la ley de probabilidad de S es
% HOI W P fS W Oe W pq
O
! O W F! <! +! . . . ! { HE.AI
8a media y varian"a de esta variable aleatoria son2
E fS e W q
p
5ar fS e W q
p
+
Ejemplo de uso de la distribucin geom'trica
.n matrimonio quiere tener una hija! y por ello deciden tener hijos
hasta el nacimiento de una hija. Calcular el n$mero esperado de hijos Hentre
varones y hembrasI que tendr( el matrimonio. Calcular la probabilidad de
que la pareja acabe teniendo tres hijos o m(s.
&olucin2 Este es un ejemplo de variable geom'trica. 5amos a suponer
que la probabilidad de tener un hijo varn es la misma que la de tener una
hija hembra. &ea S la v.a.
S W n$mero de hijos varones antes de nacer la ni-a Es
claro que
plementario! ya que ser
{
de r '*itos en la sucesin wS
i
x
i
E.+. /6&=C6B.C64)E& /6&CCE=A&
H I
<1B
S Deo
p W <
+
P fS W Oe W q
O[<
] p W <
+O
&abemos que el n$mero esperado de hijos varones es E fS e W q
p W <! por
tanto el n$mero esperado en total entre hijos varones y la ni-a es +.
8a probabilidad de que la pareja acabe teniendo tres o m(s hijos! es la
de que tenga + o m(s hijos varones Hla ni-a est( del tercer lugar en
adelanteI! es decir!
S discr.
" xq w
P fS l +e W < [ P fS j +e
W < [ P fS a <e
W < [ P fS W Fe [ P fS W <e W < [ p [ q p W <
7
\emos pre%erido calcular la probabilidad pedida mediante el suceso com,
#a m(s complicado hacerlo mediante la suma in%inita
Y
P fS l +e W q
i
p.
iW+
E.+.7. /istribucin binomial negativa
&obre una sucesin de v.a. de Bernouilli independientes!
S
<
! S
+
! . . . ! S
i
! . . . donde S
i
Ber HpI! i W <! +! . . . ! {
se de%ine la v.a. S como el n$mero de %racasos obtenidos hasta la aparicin
W< . En este caso se dice que S sigue una
ley de distribucin binomial negativa de par(metros r y p y se denota
del modo2 S Bn Hr! pI. &u ley de probabilidad es2
Bioestad
el lbulo queda de%initivamente sano! pero si no es as
cirug
<7F
H I
O Z r [ <
#stica2 0'todos y Aplicaciones
H I
O Z r [ <
% HOI W P fS W Oe W
q
r [ <
w"
p
r[<
q
O
p ] p W p
r
q
O
qw"x O
x '*ito %inal
O Z r [ <
primeros e*perimentos
HE.GI
E fS e
5ar fS e
W r q
p
W r q
p
+
HE.BI
HE.<FI
Ejemplo de variable binomial negativa
Para tratar a un paciente de una a%eccin de pulmn han de ser opera,
dos en operaciones independientes sus @ lbulos pulmonares. 8a t'cnica a
utili"ar es tal que si todo va bien! lo que ocurre con probabilidad de Ac<<!
# se deber( esperar el
tiempo su%iciente para intentarlo posteriormente de nuevo. &e practicar( la
#a hasta que 7 de sus @ lbulos %uncionen correctamente. :Cu(l es el va,
lor esperado de intervenciones que se espera que deba padecer el paciente?
:Cu(l es la probabilidad de que se necesiten <F intervenciones?
&olucin2 Este es un ejemplo claro de e*perimento aleatorio regido por
una ley binomial negativa! ya que se reali"an intervenciones hasta que se
obtengan 7 lbulos sanos! y 'ste es el criterio que se utili"a para detener el
proceso. 6denti%icando los par(metros se tiene2
S W n$mero de operaciones hasta obtener r W 7 con resultado positivo
H I
H I
O Z r [ <
S Bn r W 7! p W A P fS W Oe W q
O
p
r
<<
O
8o que nos interesa es medir el n$mero de intervenciones! T ! m(s que
el n$mero de '*itos hasta el r,'simo %racaso. 8a relacin entre ambas v.a.
E.+. /6&=C6B.C64)E& /6&CCE=A&
es muy simple2
T W S Z r
8uego
E fT e W E fS Z re W E fS e Z r W r p
q
<7<
Z r W 7 ] Ac<< Z 7 W <<
7c<<
8uego el n$mero esperado de intervenciones que deber( su%rir el paciente
es de <<. 8a probabilidad de que el n$mero de intervenciones sea T W <F!
es la de que S W <F [ 7 W E. Por tanto2
P fT W <Fe W P fS W Ee W
H I
E Z 7 [ <
E
H I
E
H I
7
7 A
q
E
p
7
W G7] W F! F1<G@
<< <<
E.+.@. /istribucin hipergeom'trica
Por claridad! consideremos el siguiente ejemplo2 =enemos una baraja de
cartas espa-olas H) W 7F naipesI! de las cuales nos vamos a interesar en el
palo de oros H/ W <F naipes de un mismo tipoI. &upongamos que de esa
baraja e*traemos n W G cartas de una ve" Hsin reempla"amientoI y se nos
plantea el problema de calcular la probabilidad de que hayan O W + oros
He*actamenteI en esa e*traccin. 8a respuesta a este problema es
Prob
f+ oros en un grupo de G cartase
W casos %avorables
casos posibles
+ naipes E naipes
W entre los oros ^ de otros palos
G naipes
cualesquiera
H I H I H I H I
<F 1F / ) [ /
+
W H
] ]
E O n [ O
I W H I
7F )
G n
Bioestad
si m(*wF! n [ )qx a O a m
\Deo H) ! n! pI
) _{
<7+ #stica2 0'todos y Aplicaciones
En lugar de usar como dato / es posible que tengamos la proporcin e*is,
tente! p! entre el n$mero total de oros y el n$mero de cartas de la baraja
|
p W / ) W 7F W 7
W
|
|
/ W ) ] p
) [ / W ) ] q Hq W < [ pI
de modo que podemos decir que
H I
) ] p
O
Prob
fO oros en un grupo de n cartase W
H
]
H I
) ] q
n [ O
I
)
n
Este ejemplo sirve para representar el tipo de %enmenos que siguen una
ley de distribucin hipergeom'trica. /iremos en general que una v.a. S
sigue una distribucin hipergeom'trica de par(metros! ) ! n y p! lo que
representamos del modo S \Deo H) ! n! pI! si su %uncin de probabilidad
es
H I
) ] p
O
P fS W Oe W H
]
H I
) ] q
n [ O
I #nwn! )P x
)
n
HE.<<I
Cuando el tama-o de la poblacin H) I es muy grande! la ley
hipergeom'trica tiende a apro*imarse a la binomial2
[_ B Hn! pI
El valor esperado de la hipergeom'trica es el mismo que el de la bino,
mial!
E fS e W np
obteni'ndose como la distribucin l
E.+. /6&=C6B.C64)E& /6&CCE=A& <71
sin embargo su varian"a
5ar fS e W npq ] ) [ n
) [ <
no es e*actamente la de la binomial! pues est( corregida por un %actor!
) [n
) [< ! que tiende a < cuando ) _ {. A este %actor se le denomina %actor
de correccin para poblacin %inita.
E.+.E. /istribucin de Poisson o de los sucesos raros
.na v.a. S posee una ley de distribucin de probabilidades del tipo
Poisson cuando
% HOI W P fS W Oe W e
[

O
!
OV
O W F! <! +! . . . HE.<+I
Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir!
#mite de una sucesin de variable bino,
miales! B Hn! pI! donde n ] p W ! y n _ { Hpor tanto p _ F
Z
I.
En general utili"aremos la distribucin de Poisson como apro*imacin de
e*perimentos binomiales donde el n$mero de pruebas es muy alto! pero la
probabilidad de '*ito muy baja. A veces se suele utili"ar como criterio de
apro*imacin2
n g 1F! p a F! < B Hn! pI W Poi Hn ] pI &u
valor esperado y varian"a coinciden2
E fS e W 5ar fS e W HE.<1I
Ejemplo de distribucin de Poisson
Cierta en%ermedad tiene una probabilidad muy baja de ocurrir! p W
<c<FF!FFF. Calcular la probabilidad de que en una ciudad con @FF!FFF
habitantes haya m(s de 1 personas con dicha en%ermedad. Calcular el n$mero
esperado de habitantes que la padecen.
Bioestad
W S
r
As
@. Como 5ar fS e W @! e*iste una gran dispersin! y no ser
<77 #stica2 0'todos y Aplicaciones
&olucin2 &i consideramos la v.a. S que contabili"a el n$mero de
personas
que padecen la en%ermedad! es claro que sigue un modelo binomial!
pero
que puede ser muy bien apro*imado por un modelo de Poisson! de
modo
que
H
S B n W @FF!FFF! p W
<
<FF!FFF
I
Poi H W @I
# el n$mero esperado de personas que padecen la en%ermedad es E fS e W
#a e*tra-o encon,
trar que en realidad hay muchas m(s personas o menos que est(n en%ermas. 8a
probabilidad de que haya m(s de tres personas en%ermas es2
P fS g 1e W < [ P fS a 1e
W < [ P fS W Fe [ P fS W <e [ P fS W +e [ P fS W 1e
W < [ e
[@]F
[ e
[@]<
[ e
[@]+
[ e
[@]1
FV <V +V 1V
W F! A1@
E.1. /istribuciones continuas
En esta seccin estudiaremos las distribuciones m(s importantes de v.a.
continuas unidimensionales. El soporte de una v.a. continua se de%ine como
aquella regin de 6C donde su densidad es no nula! % H*I W F. Para las
distribuciones que enunciaremos! podr( ser bien todo 6C! 6C
Z
W HF! Z{I o
bien un segmento de la %orma fa! be 6C.
E.1.<. /istribucin uni%orme o rectangular
&e dice que una v.a. S posee una distribucin uni%orme en el intervalo
fa! be!
S . Ha! bI
nua! ya que para ellas la probabilidad de cualquier punto es nula. &er
E.1. /6&=C6B.C64)E& C4)=6).A& <7@
si su %uncin de densidad es la siguiente2
<
% H*I W
b [ a si a a * a b
HE.<7I
Con esta ley de probabilidad! la probabilidad de que al hacer un e*,
perimento aleatorio! el valor de S este comprendido en cierto subintervalo
de fa! be depende $nicamente de la longitud del mismo! no de su posicin.
Cometiendo un peque-o abuso en el lenguaje! podemos decir que en una
distribucin uni%orme la probabilidad de todos los puntos del soporte es la
misma
+
.
3(*)
%(*)
.ni%(a = F, b = +)
[F.@ F.F F.@ <.F <.@ +.F +.@ 1.F
3igura E.12 3uncin de densidad y de distribucin de . Ha! bI
E fS e W b Z a
+
5ar fS e W Hb [ aI+
<+
+
\ay que observar que en principio esa a%irmacin es cierta para cualquier v.a. conti,
#a m(s preciso decir
que la densidad de todos los puntos es constante en fa! be.
Bioestad
El tiempo que tarda una part
ocurrencia de dos sucesos consecutivos sigue un modelo probabil
<7E #stica2 0'todos y Aplicaciones
E.1.+. /istribucin e*ponencial
8a distribucin e*ponencial es el equivalente continuo de la distribucin
geom'trica discreta. Esta ley de distribucin describe procesos en los que2
)os interesa saber el tiempo hasta que ocurre determinado evento!
sabiendo que!
el tiempo que pueda ocurrir desde cualquier instante dado t! hasta que
ello ocurra en un instante t
%
! no depende del tiempo transcurrido
anteriormente en el que no ha pasado nada.
Ejemplos de este tipo de distribuciones son2
#cula radiactiva en desintegrarse. El
conocimiento de la ley que sigue este evento se utili"a en Ciencia
para! por ejemplo! la datacin de %siles o cualquier materia org(nica
mediante la t'cnica del carbono <7! C
<7
9
El tiempo que puede transcurrir en un servicio de urgencias! para la
llegada de un paciente9
En un proceso de Poisson donde se repite sucesivamente un e*peri,
mento a intervalos de tiempo iguales! el tiempo que transcurre entre la
#stico
e*ponencial. Por ejemplo! el tiempo que transcurre entre que su%rimos dos
veces una herida importante.
Concretando! si una v.a. continua S distribuida a lo largo de 6C
Z
! es tal
que su %uncin de densidad es
% H*I W e
[*
si F j * HE.<@I
se dice que sigue una distribucin e*ponencial de par(metro ! S E*p HI.
.n c(lculo inmediato nos dice que si * g F!
} * e
*
e
[t
dt W [e
[t
W < [ e
[*
F F
biendo que la duracin media de un (tomo de esta materia es de <7F d
E.1. /6&=C6B.C64)E& C4)=6).A& <7A
%(*) = e
*
para = <
F < + 1 7
3igura E.72 3uncin de densidad! % ! de una E*p HI.
luego la %uncin de distribucin es2
|
|
< [ e
[*
si F j *
3 H*I W
|
F en otro caso.
E fS e W <

5ar fS e W <

+
Ejemplo de variable e*ponencial
En un e*perimento de laboratorio se utili"an <F gramos de
G7F
P o. &a,
#as!
Bioestad
que deja por debajo de s
mente apro*imado a la curva de densidad! % . /el mismo modo! el pol
<7G #stica2 0'todos y Aplicaciones
3(*) = <
< e

%(*) = e
*
F < + 1 7
3igura E.@2 3uncin de distribucin! 3 ! de E*p HI! calculada como el (rea
# la %uncin de densidad.
:cuantos idas transcurrir(n hasta que haya desaparecido el BF X de este
material?
&olucin2 El tiempo = de desintegracin de un (tomo de
G7F
P o es una
v.a. de distribucin e*ponencial2
H
= E*p W
<
<7F
I
% HtI W e
[ t
si t l F
3 HtI W < [ e
[ t
Como el n$mero de (tomos de
G7F
P o e*istentes en una muestra de <F
gramos es enorme! el histograma de %recuencias relativas %ormado por los
tiempos de desintegracin de cada uno de estos (tomos debe ser e*tremada,
#gono
de %recuencias relativas acumuladas debe ser muy apro*imado a la curva
de su %uncin de distribucin 3 . Entonces el tiempo que transcurre hasta
ln F! < r 1++ d
E.1. /6&=C6B.C64)E& C4)=6).A& <7B
que el BF X del material radiactivo se desintegra es el percentil BF! t
BF
!
de la distribucin e*ponencial! es decir
3 Ht
BF
I W F! B e
[ t
BF
W < [ F! B t
BF
W [ < #as
4tro ejemplo de variable e*ponencial
&e ha comprobado que el tiempo de vida de cierto tipo de marcapasos
sigue una distribucin e*ponencial con media de <E a-os. :Cu(l es la
probabilidad de que a una persona a la que se le ha implantado este
marcapasos se le deba reimplantar otro antes de +F a-os? &i el marcapasos
lleva %uncionando correctamente @ a-os en un paciente! :cu(l es la
probabilidad de que haya que cambiarlo antes de +@ X a-os?
&olucin2 &ea = la variable aleatoria que mide la duracin de un
marcapasos en una persona. =enemos que
H
I
= E*p
Entonces
W <
<E
}
+F
% HtI W e
[ t
si t l F
3 HtI W < [ e
[ t
P f= a +Fe W % HtI dt W 3 H+FI W < [ e
[
<E W F! A<1@
F
En segundo lugar
P f= a +@
q= l@
e W P f@ a = a +@e W F! @++
P f@ a = a +@e W
P f= l @e F!A1<E W F! A<1@
HE.<EI
}
+@
% HtI dt W 3 H+@I [ 3 H@I W z [ e
[
<E [ z Z e
[
<@E W F! @++
@
} Z{
P f= l @e W % HtI dt W 3 HZ{I [ 3 H@I W z [ z Z e
[
<@E W F! A1<E
@
Bioestad
ya que una gran mayor
<@F #stica2 0'todos y Aplicaciones
8uego como era de esperar! por ser propio a un mecanismo
e*ponencial!
P f= a +@
q= l@
e W P f= a +Fe
o sea! en la duracin que se espera que tenga el objeto! no in%luye en nada el
tiempo que en la actualidad lleva %uncionando. Es por ello que se dice que
Pla distribucin e*ponencial no tiene memoriaQ.
E.1.1. /istribucin normal o gaussiana
8a distribucin gaussiana! recibe tambi'n el nombre de distribucin normal!
#a de las v.a continuas
1
de la naturale"a siguen esta
distribucin. &e dice que una v.a. S sigue una distribucin normal de
par(metros k y n
+
! lo que representamos del modo S )
H
k! n
+
I si su
%uncin de densidad es2
% H*I W
< b
e[
+
H
*nk
I
+
! * 6C HE.<AI
n +
4bservacin
Estos dos par(metros k y n
+
coinciden adem(s con la media Hesperan"aI
y la varian"a respectivamente de la distribucin como se demostrar( m(s
adelante
7
2
E fS e W k HE.<GI
5ar fS e W n
+
HE.<BI
8a %orma de la %uncin de densidad es la llamada campana de Dauss.
Para el lector es un ejercicio interesante comprobar que 'sta alcan"a un
$nico m(*imo HmodaI en k! que es sim'trica con respecto al mismo! y por
1
6ncluso v.a discretas pueden ser apro*imadas por la ley gaussiana.
7
\emos adelantado al lector el signi%icado de k y n
+
pues esta es una distribucin que
queda de%inida en primera instancia por su media y varian"a.
E.1. /6&=C6B.C64)E& C4)=6).A& <@<
)( = F, = <)


[1 [+ [< F < + 1
3igura E.E2 Campana de Dauss o %uncin de densidad de una v.a. de
distribucin normal. E8 par(metro k indica el centro y n la dispersin. 8a
distancia del centro a los puntos de in%le*in es precisamente n.
tanto P fS a ke W P fS l ke W <c+! con lo cual en k coinciden la media! la
mediana y la moda! y por $ltimo!calcular sus puntos de in%le*in.
El soporte de la distribucin es todo 6C! de modo que la mayor parte de
la masa de probabilidad H(rea comprendida entre la curva y el eje de
abcisasI se encuentra concentrado alrededor de la media! y las ramas de la
curva se e*tienden asintticamente a los ejes! de modo que cualquier valor
Pmuy alejadoQde la media es posible Haunque poco probableI.
8a %orma de la campana de Dauss depende de los par(metros k y n2
k indica la posicin de la campana Hpar(metro de centrali"acinI9
n
+
Ho equivalentemente! nI ser( el par(metro de dispersin. Cuanto
menor sea! mayor cantidad de masa de probabilidad habr(
concentrada alrededor de la media Hgra%o de % muy apuntado cerca de
kI y cuanto mayor sea Pm(s aplastadoQser(.
Bioestad
en decir que S
r
W S
r
<@+ #stica2 0'todos y Aplicaciones
)( = F, = <)
P(* ) = F.EG
P(* +) = F.B@
[1 [+ [< F < + 1
3igura E.A2 A una distancia que no supera en una desviacin de la media
tenemos una probabilidad del EG X. A dos desviaciones tenemos el B@ X.
Apro*imacin a la normal de la ley binomial
&e demuestra que una v.a. discreta con distribucin binomial! S B Hn! pI
se puede apro*imar mediante una distribucin normal si n es su%icientemen,
te grande y p no est( ni muy pr*imo a F ni a <. Como el valor esperado y
la varian"a de S son respectivamente n p y n p q! la apro*imacin consiste
) Hn p! n p qI. El convenio que se suele utili"ar para poder
reali"ar esta apro*imacin es2
|
| | n g 1F
|
S B Hn! pI donde
|
n p g 7 ) Hn p! n p qI
|
|
n q g 7
aunque en realidad esta no da resultados muy precisos a menos que realmente n
sea un valor muy grande o p r q r <c+. Como ilustracin obs'rvense las
%iguras E.<F y E.<<.
n
R
+
E.1. /6&=C6B.C64)E& C4)=6).A& <@1
)HF!<I
)H1!<I
)H,1!<I
F.@
F.7
F.1
F.+
F.<
F
,7 ,+ F + 7
3igura E.G2 /istribuciones gaussianas con di%erentes medias e igual disper,
sin.
E.1.7. /istribucin J
+
&i consideramos una v.a. R ) HF! <I! la v.a. S W R
+
se distribuye seg$n
una ley de probabilidad distribucin J
+
con un grado de libertad! lo que
se representa como
S J
<
&i tenemos n v.a. independientes R
i
) HF! <I! la suma de sus cuadrados
respectivos es una distribucin que denominaremos ley de distribucin J
+
con n grados de libertad! J
n
.
wR
i
x
iW<
) HF! <I W
Y
i J n HE.+FI
iW<
Bioestad
n
<@7 #stica2 0'todos y Aplicaciones
)HF!<I
)HF!+I
)HF!7I
F.@
F.7
F.1
F.+
F.<
F
,7 ,1 ,+ ,< F < + 1 7
3igura E.B2 /istribuciones gaussianas con igual media pero varian"a di%e,
rente.
8a media y varian"a de esta variable son respectivamente2
E fS e W n HE.+<I
5ar fS e W +n HE.++I
En consecuencia! si tenemos S
<
! . . . ! S
n
! v.a. independientes! donde ca,
da S
i
)
H
k
i
! n
i
I! se tiene
Y
iW<
H I
+
S
i
[ k
i
n
i
J
n
la ra
E.1. /6&=C6B.C64)E& C4)=6).A& <@@
F.<E BinH<FF9F!<@I
)Hnp!npqI
F.<7
F.<+
F.<
F.FG
F.FE
F.F7
F.F+
F
F +F 7F EF GF <FF
3igura E.<F2 Comparacin entre la %uncin de densidad de una v.a. continua
con distribucin ) Hn p! n p qI y el diagrama de barras de una v.a. discreta de
distribucin B Hn! pI para casos en que la apro*imacin normal de la
binomial es v(lida. Es peor esta apro*imacin cuando p est( pr*imo a los
bordes del intervalo fF! <e.
E.1.@. /istribucin t de &tudent
8a distribucin t,&tudent se construye como un cociente entre una normal y
#" de una J
+
independientes. /e modo preciso! llamamos distribucin
t,&tudent con n grados de libertad! t
n
a la de una v.a. = !
= W b R
<
n J
t
n
HE.+1I
+
n
donde R ) HF! <I! J
n
J
n
. Este tipo de distribuciones aparece cuando
tenemos n Z < v.a. independientes
H I
S ) k! n
+
Bioestad
n
<@E #stica2 0'todos y Aplicaciones
BinH<FF9F!@I
)Hnp!npqI
F.<
F.FG
F.FE
F.F7
F.F+
F
F +F 7F EF GF <FF
3igura E.<<2 8a misma comparacin que en la %igura anterior! pero reali"ada
con par(metros con los que damos la apro*imacin normal de la binomial
es mejor.
H I
S
i
) ki ! n
i
y nos interesa la distribucin de
S [ k
= W v n
i W <! . . . ! n
u
u b
<
n
Y H I
+
t n
S
i
[ k
i
iW<
n
i
8a distribucin t de &tudent tiene propiedades parecidas a ) HF! <I2 Es
de media cero! y sim'trica con respecto a la misma9
Es algo m(s dispersa que la normal! pero la varian"a decrece hasta <
cuando el n$mero de grados de libertad aumenta9
t
n n_{
E.1. /6&=C6B.C64)E& C4)=6).A& <@A
+
+
+
F + 7 E G
3igura E.<+2 3uncin de densidad de J
n
para valores peque-os de n.
Para un n$mero alto de grados de libertad se puede apro*imar la
distribucin de &tudent por la normal! es decir!
[_ ) HF! <I
E.1.E. 8a distribucin 3 de &nedecor
4tra de la distribuciones importantes asociadas a la normal es la que se
de%ine como cociente de distribuciones J
+
independientes. &ean S J
n
e T
J
+ m
v.a. independientes. /ecimos entonces que la variable
3 W
< n S
<
m T
S
W m HE.+7I
n T 3 n!m
sigue una distribucin de probabilidad de &nedecor! con Hn! mI grados
de libertad. 4bs'rvese que 3
n!m
W 3
m!n
.
Bioestad
y as
n
m
<@G #stica2 0'todos y Aplicaciones
t1F t = )(F, <)
t1
t<
[7 [+ F + 7
3igura E.<12 Cuando aumentan los grados de libertad! la distribucin de
&tudent se apro*ima a la distribucin normal tipi%icada.
8a %orma m(s habitual en que nos encontraremos esta distribucin
ser( en el caso en que tengamos n Z m v.a. independientes
H I
S
i
)
ki ! n
i
i W <! . . . ! n
H I
Tj ) mj ! s
j
i W <! . . . ! m
#
H I
+
<
Y
S
i
[ k
i
n
iW<
n
i
3 W
H I+ 3 n!m
<
Y
Tj [ mj
m
j W<
sj
Es claro que la distribucin de &nedecor no es sim'trica! pues slo tienen
densidad de probabilidad distinta de cero! los punto de 6C
Z
. 4tra propiedad
interesante de la distribucin de &nedecor es2
Ejercicio E.<. Para estudiar la regulacin hormonal de una l
ca se inyectan ratas albinas con un %(rmaco que inhibe la s
te
E.7. PC4B8E0A& <@B
3<F, +F
3<F, <F
3<F, @
F.F F.@ <.F <.@ +.F +.@ 1.F
3igura E.<72 3uncines de densidad para la distribucin 3 de &nedecor.
3 3
n!m
<
3 3 m!n
E.7. Problemas
#nea metabli,
#ntesis de pro,
#nas del organismo. En general! 7 de cada +F ratas mueren a causa del
%(rmaco antes de que el e*perimento haya concluido. &i se trata a <F
animales con el %(rmaco! :cu(l es la probabilidad de que al menos G
lleguen vivas al %inal del e*perimento?
Ejercicio E.+. En una cierta poblacin se ha observado un n$mero medio
anual de muertes por c(ncer de pulmn de <+. &i el n$mero de muertes
causadas por la en%ermedad sigue una distribucin de Poisson! :cu(l es la
probabilidad de que durante el a-o en curso2
Bioestad
sadas por cromosomas da-ados! :cu(ntas se esperar
media <FE mgc<FF ml y desviacin t
Ejercicio E.@. .na prueba de laboratorio para detectar hero
<EF #stica2 0'todos y Aplicaciones
<. \aya e*actamente <F muertes por c(ncer de pulmn?
+. <@ o m(s personas mueran a causa de la en%ermedad?
1. <F o menos personas mueran a causa de la
en%ermedad?
Ejercicio E.1. /a-ando los cromosomas del vulo o del
espermato"oide!
pueden causarse mutaciones que conducen a abortos! de%ectos de
nacimien,
to! u otras de%iciencias gen'ticas. 8a probabilidad de que tal mutacin
se
produ"ca por radiacin es del <F X. /e las siguientes <@F mutaciones
cau,
#a que se debiesen a
radiaciones? :Cu(l es la probabilidad de que solamente <F se
debiesen a radiaciones?
Ejercicio E.7. Entre los diab'ticos! el nivel de glucosa en sangre
S ! en ayunas! puede suponerse de distribucin apro*imadamente
normal! con
#pica G mgc<FF ml! es decir
H I
S ) k W <FE! n
+
W E7
<. \allar P fS a <+Fe
+. :;u' porcentaje de diab'ticos tienen niveles comprendidos entre BF
y <+F ?
1. \allar P f<FE a S a <<Fe.
7. \allar P fS a <+<e.
@. \allar el punto * caracteri"ado por la propiedad de que el +@ X de
todos los diab'ticos tiene un nivel de glucosa en ayunas in%erior o
igual a *.
#na en sangre
tiene un B+ X de precisin. &i se anali"an A+ muestras en un mes! :cu(l es la
probabilidad de que2
Ejercicio E.A. 8a probabilidad de muerte resultante del uso de p
Ejercicio E.G. 8a probabilidad de presentar una caracter
que 1 individuos presenten la caracter
que apare"can m(s de @ individuos con la caracter
Ejercicio E.B. &e supone que en una cierta poblacin humana el
E.7. PC4B8E0A& <E<
<. EF o menos est'n correctamente evaluadas?
+. menos de EF est'n correctamente evaluadas?
1. e*actamente EF est'n correctamente evaluadas?
Ejercicio E.E. El <F X de las personas tiene alg$n tipo de alergia.
&e seleccionan aleatoriamente <FF individuos y se les entrevista. \allar
la probabilidad de que! al menos! <+ tengan alg$n tipo de alergia.
\allar la probabilidad de que! como m(*imo! G sean al'rgicos a algo.
#ldoras
anticonceptivas es de 1c<FF!FFF. /e <!FFF!FFF de mujeres que utili"an
este medio de control de natalidad2
<. :Cu(ntas muertes debidas a esta causa se esperan?
+. :Cu(l es la probabilidad de que haya! como m(*imo! +@ de estas
muertes?
1. :Cu(l es la probabilidad de que el n$mero de muertes debidas a esta
causa est' entre +@ y 1@! inclusive?
#stica gen'tica
es de <c+F.
<. =omando una muestra de G individuos! calcular la probabilidad
de
#stica.
+. =omando una muestra de GF personas! :cu(l ser( la probabilidad
de
#stica?
#ndice
ce%(lico i! Hcociente entre el di(metro transversal y el longitudinal
e*pre,
sado en tanto por cientoI! se distribuye seg$n una )ormal. El @G X
de los
Bioestad
y el 7 X son braquic'%alos Hi g GFI. \(llese la media y la desviacin t
del
<E+ #stica2 0'todos y Aplicaciones
habitantes son dolicoc'%alos Hi a A@I! el 1G X son mesoc'%alos HA@ j i a
GFI
#pica
#ndice ce%(lico en esa poblacin.
Ejercicio E.<F. &e supone que la glucemia basal en individuos
sanos! S
s
sigue una distribucin
S
s
) Hk W GF! n W <FI!
mientras que en los diab'ticos S
d
! sigue una distribucin
S
d
) Hk W <EF! n W 1<! 7I.
&i se conviene en clasi%icar como sanos al + X de los diab'ticos2
<. :Por debajo de qu' valor se considera sano a un individuo? :Cu(ntos
sanos ser(n clasi%icados como diab'ticos?
+. &e sabe que en la poblacin en general el <F X de los individuos son
diab'ticos :cu(l es la probabilidad de que un individuo elegido al a"ar
y diagnosticado como diab'tico! realmente lo sea?
Ejercicio E.<<. &upngase que se van a utili"ar +F ratas en un estudio
de agentes coagulantes de la sangre. Como primera e*periencia! se dio un
anticoagulante a <F de ellos! pero por inadvertencia se pusieron todas sin
marcas en el mismo recinto. &e necesitaron <+ ratas para la segunda %ase del
estudio y se les tom al a"ar sin reempla"amiento. :Cu(l es la probabilidad
de que de las <+ elegidas E tengan la droga y E no la tengan?
Cap
El propsito de un estudio estad
poblacin grande y no poder ser estudiada en su integridad en la mayor
de%inidos en el primer cap#tulo! ser(n los de estad
/entro de este conte*to! ser( necesario asumir un estad
ser( la pie"a clave en las dos amplias categor#as de la in%erencia estad
PmejorQpara un determinado par(metro de una poblacin! as
En el cap
#tulo A
6ntroduccin a la in%erencia
A.<. 6ntroduccin
#stico suele ser! como hemos venido citan,
do! e*traer conclusiones acerca de la naturale"a de una poblacin. Al ser la
#a
de los casos! las conclusiones obtenidas deben basarse en el e*amen de
solamente una parte de 'sta! lo que nos lleva! en primer lugar a la justi%icacin!
necesidad y de%inicin de las di%erentes t'cnicas de muestreo.
8os primeros t'rminos obligados a los que debemos hacer re%erencia!
#stico y estimador.
#stico o estima,
dor como una variable aleatoria con una determinada distribucin! y que
#stica2
la estimacin y el contraste de hiptesis.
El concepto de estimador! como herramienta %undamental! lo
caracteri"amos mediante una serie de propiedades que nos servir(n para
elegir el
# como algunos
m'todos para la obtencin de ellos! tanto en la estimacin puntual como
por intervalos.
#tulo anterior dedujimos ciertas leyes de probabilidad mediante
un m'todo deductivo a partir del conocimiento del mecanismo generador
<E1
Bioestad
bilidad binomial o hipergeom'trica por ejemplo. As
determinada la ley probabil
8a tarea %undamental de la estad
acerca de la poblacin a partir de una muestra e*tra
8a teor
<E7 #stica2 0'todos y Aplicaciones
de los sucesos aleatorios. /e este modo pudimos deducir las leyes de
proba,
# una ve" precisamente
#stica que subyace en el e*perimento aleatorio!
podemos obtener muestras de la v.a. siguiendo esa ley de probabilidad.
En este momento nos interesamos por el proceso contrario! es decir2
:Cmo deducir la ley de probabilidad sobre determinado car(cter
de una poblacin cuando slo conocemos una muestra?
Este es un problema al que nos en%rentamos cuando por ejemplo
tratamos de estudiar la relacin entre el %umar y el c(ncer de pulmn
e intentamos e*tender las conclusiones obtenidas sobre una muestra
al resto de individuos de la poblacin.
#stica in%erencial! es hacer
in%erencias
#da de la misma.
A.+. ='cnicas de muestreo sobre una poblacin
#a del muestreo tiene por objetivo! el estudio de las relaciones
e*istentes entre la distribucin de un car(cter en dicha poblacin y las
distribuciones de dicho car(cter en todas sus muestras.
8as ventajas de estudiar una poblacin a partir de sus muestras son
principalmente2
Coste reducido2 &i los datos que buscamos los podemos obtener a partir
de una peque-a parte del total de la poblacin! los gastos de recogida
y tratamiento de los datos ser(n menores. Por ejemplo! cuando se
reali"an encuestas previas a un re%er'ndum! es m(s barato preguntar
a 7!FFF personas su intencin de voto! que a 1F!FFF!FFF9
0ayor rapide"2 Estamos acostumbrados a ver cmo con los resultados
del escrutinio de las primeras mesas electorales! se obtiene una apro*i,
macin bastante buena del resultado %inal de unas elecciones! muchas
horas antes de que el recuento %inal de votos haya %inali"ado9
0(s posibilidades2 Para hacer cierto tipo de estudios! por ejemplo el
de duracin de cierto tipo de bombillas! no es posible en la
pr(ctica
destruirlas todas para conocer su vida media! ya que no quedar
/e este modo se ve que al hacer estad
en este cap
e*tra
A.+. = hC)6CA& /E 0.E&=CE4 &4BCE .)A P4B8AC64) <E@
#a nada
que vender. Es mejor destruir slo una peque-a parte de ellas y sacar
conclusiones sobre las dem(s.
#stica in%erencial debemos en%ren,
tarnos con dos problemas2
Eleccin de la muestra HmuestreoI! que es a lo que nos
dedicaremos
#tulo.
E*trapolacin de las conclusiones obtenidas sobre la muestra! al
resto de la poblacin Hin%erenciaI.
El tipo de muestreo m(s importante es el muestreo aleatorio! en el
que
todos los elementos de la poblacin tienen la misma probabilidad de
ser
#dos9 Aunque dependiendo del problema y con el objetivo de
reducir
los costes o aumentar la precisin! otros tipos de muestreo pueden ser
con,
siderados como veremos m(s adelante2 muestreo sistem(tico!
estrati%icado
y por conglomerados.
A.+.<. 0uestreo aleatorio
Consideremos una poblacin %inita! de la que deseamos e*traer una
muestra. Cuando el proceso de e*traccin es tal que garanti"a a cada uno
de los elementos de la poblacin la misma oportunidad de ser incluidos en
dicha muestra! denominamos al proceso de seleccin muestreo aleatorio.
El muestreo aleatorio se puede plantear bajo dos puntos de vista2
&in reposicin de los elementos9
Con reposicin.
0uestreo aleatorio sin reposicin
Consideremos una poblacin E %ormada por ) elementos. &i observamos un
elemento particular! e E ! en un muestreo aleatorio sin reposicin se da la
siguiente circunstancia2
Bioestad
elementos! pero de modo que cada ve" el elemento e*tra
total de la poblacin. /e esta %orma un elemento puede ser e*tra
<EE #stica2 0'todos y Aplicaciones
8a probabilidad de que e sea elegido en primer lugar es
< ) 9
&i no ha sido elegido en primer lugar Hlo que ocurre con una probabili,
dad de
))[<
I! la probabilidad de que sea elegido en el segundo intento
es de
<
) [< .
en el Hi Z <I,'simo intento! la poblacin consta de ) [ i elementos!
con lo cual si e no ha sido seleccionado previamente! la probabilidad
de que lo sea en este momento es de
0uestreo aleatorio con reposicin
<
) [i .
&obre una poblacin E de tama-o ) podemos reali"ar e*tracciones de n
#do es repuesto al
#do varias
veces.
El muestreo aleatorio con reposicin es tambi'n denominado muestreo
aleatorio simple! y se caracteri"a porque cada elemento de la poblacin
tiene la misma probabilidad de ser elegido! y las observaciones se reali"an
con reempla"amiento. /e este modo! cada observacin es reali"ada sobre la
misma poblacin Hque no disminuye con las e*tracciones sucesivasI.
A.+.+. 0uestreo aleatorio estrati%icado
.n muestreo aleatorio estrati%icado es aquel en el que se divide la
poblacin de ) individuos! en O subpoblaciones o estratos! atendiendo a
criterios que puedan ser importantes en el estudio! de tama-os respectivos
)
<
! . . . ! )
O
!
) W )
<
Z )
+
Z ] ] ] Z )
O
y reali"ando en cada una de estas subpoblaciones muestreos aleatorios simples
de tama-o n
i
i W <! . . . ! O.
A continuacin nos planteamos el problema de cuantos elementos de
muestra se han de elegir de cada uno de los estratos. Para ello tenemos
As
A.+. = hC)6CA& /E 0.E&=CE4 &4BCE .)A P4B8AC64) <EA
%undamentalmente dos t'cnicas2 la asignacin proporcional y la
asignacin
optima.
Asignacin proporcional
&ea n el n$mero de individuos de la poblacin total que %orman
parte de alguna muestra2
n W n
<
Z n
+
Z ] ] ] Z n
O
Cuando la asignacin es proporcional el tama-o de la muestra de cada
estrato es proporcional al tama-o del estrato correspondiente con respecto a la
poblacin total2
n
i
W n ] )
i
)
Asignacin ptima
Cuando se reali"a un muestreo estrati%icado! los tama-os muestrales en
cada uno de los estratos! n
i
! los elige quien hace el muestreo! y para ello
puede basarse en alguno de los siguientes criterios2
Elegir los n
i
de tal modo que se minimice la varian"a del estimador!
para un coste especi%icado! o bien!
habiendo %ijado la varian"a que podemos admitir para el estimador!
minimi"ar el coste en la obtencin de las muestras.
# en un estrato dado! se tiende a tomar una muestra m(s grande
cuando2
El estrato es m(s grande9
El estrato posee mayor variabilidad interna Hvarian"aI9 El
muestreo es m(s barato en ese estrato.
Bioestad
El m'todo tal como se ha de%inido anteriormente es sesgado si )
&ea O el entero m(s cercano a )
<EG #stica2 0'todos y Aplicaciones
A.+.1. 0uestreo sistem(tico
Cuando los elementos de la poblacin est(n ordenados en %ichas o en
una lista! una manera de muestrear consiste en
f e
&ea O W
) n
9
Elegir aleatoriamente un n$mero m! entre < y O9
=omar como muestra los elementos de la lista2
w x
em ! emZO
! e
mZ+O
! . . . ! e
mZHn[<IO
Esto es lo que se denomina muestreo sistem(tico. Cuando el criterio de
ordenacin de los elementos en la lista es tal que los elementos m(s
parecidos tienden a estar m(s cercanos! el muestreo sistem(tico suele ser
m(s preciso que el aleatorio simple! ya que recorre la poblacin de un modo
m(s uni%orme. Por otro lado! es a menudo m(s %(cil no cometer errores con un
muestreo sistem(tico que con este $ltimo.
n no es
entero! ya que los $ltimos elementos de la lista nunca pueden ser escogidos.
.n modo de evitar este problema consiste en considerar la lista como si
%uese circular Hel elemento ) Z < coincide con el primeroI y2
n 9
&e selecciona un n$mero al a"ar m! entre < y ) 9
&e toma como muestra los elementos de la lista que consisten en ir
saltando de O elementos en O! a partir de m! teniendo en cuenta que la
lista es circular.
&e puede comprobar que con este m'todo todos los elementos de la lista
tienen la misma probabilidad de seleccin.
aleatoria! ya que aunque depende un
A.1. PC4P6E/A/E& /E&EAB8E& /E .) E&=60A/4C <EB
A.+.7. 0uestreo por conglomerados
&i intentamos hacer un estudio sobre los habitantes de una ciudad! el
muestreo aleatorio simple puede resultar muy costoso! ya que estudiar una
muestra de tama-o n implica enviar a los encuestadores a n puntos distintos de
la misma! de modo que en cada uno de ellos slo se reali"a una entrevista. En
esta situacin es m(s econmico reali"ar el denominado muestreo por
conglomerados! que consiste en elegir aleatoriamente ciertos barrios dentro
de la ciudad! para despu's elegir calles y edi%icios. .na ve" elegido el edi%icio!
se entrevista a todos los vecinos.
A.1. Propiedades deseables de un estimador
&ea S una v.a. cuya %uncin de probabilidad Ho densidad de probabili,
dad si es continuaI depende de unos par(metros u
<
! . . . ! u
O
desconocidos.
% H*9 u
<
! u
+
! . . . ! u
O
I
Cepresentamos mediante S
<
! . . . ! S
n
una muestra aleatoria simple de la
variable. /enotamos mediante %
c
a la %uncin de densidad conjunta de la
muestra! que por estar %ormada por observaciones independientes! puede
%actori"arse del siguiente modo2
%c H*< ! *+ ! . . . ! *n 9 u< ! . . . ! uO
I W % H*
<
9 u
<
! . . . ! u
O
I]% H*
+
9 u
<
! . . . ! u
O
I ] ] ] % H*
n
9 u
<
! . . . ! u
O
I
&e denomina estimador de un par(metro u
i
! a cualquier v.a. u
i
que se
e*prese en %uncin de la muestra aleatoria y que tenga por objetivo
apro*imar el valor de u
i
!
ui HS< ! . . . ! Sn I
[ estimador de u
i
. HA.<I
4bs'rvese que el estimador no es un valor concreto sino una variable
#vocamente de los valores de la muestra
observados HS
i
W *
i
I! la eleccin de la muestra es un proceso aleatorio.
.na ve" que la muestra ha sido elegida! se denomina estimacin el valor
num'rico que toma el estimador sobre esa muestra.
Bioestad
6ntuitivamente! las caracter#sticas que ser
E%iciencia2 Al estimador! al ser v.a.! no puede e*ig
&u%iciencia2 El estimador deber
<AF #stica2 0'todos y Aplicaciones
#an deseables para esta nueva
variable aleatoria Hque usaremos para estimar el par(metro
desconocidoI deben ser2
Consistencia2 Cuando el tama-o de la muestra crece arbitrariamente! el valor
esti,
mado se apro*ima al par(metro desconocido.
Carencia de sesgo2 El valor medio que se obtiene de la estimacin para di%erentes
mues,
tras debe ser el valor del par(metro.
#rsele que para una muestra
cualquiera se obtenga como estimacin el valor e*acto del
par(metro. &in embargo podemos pedirle que su dispersin con
respecto al valor central Hvarian"aI sea tan peque-a como sea
posible.
#a aprovechar toda la in%ormacin e*istente en la
muestra.
A.1.<. Estimadores de m(*ima verosimilitud
&ea S una v.a. con %uncin de probabilidad
% H*9 uI
8as muestras aleatorias simples de tama-o n! S
<
! S
+
! . . . ! S
n
tienen por
distribucin de probabilidad conjunta
%c H*< ! *+ ! . . . ! *n 9 uI W % H*< ! *+ ! . . . ! *n 9 uI% H*< 9 uI ] % H*+ 9 uI ] ] ] % H*n 9 uI
Esta %uncin que depende de n Z < cantidades podemos considerarla de dos
maneras2
3ijando u! es una %uncin de las n cantidades *
i
. Esto es la %uncin de
probabilidad o densidad.
3ijados los *
i
como consecuencia de los resultados de elegir una mues,
tra mediante un e*perimento aleatorio! es $nicamente %uncin de u.
A esta %uncin de u la denominamos %uncin de verosimilitud.
tomar
u. El estimador m(*imo veros
y tomando como estimador m(*imo veros
/e modo m(s preciso! se de%ine el estimador m(*imo veros
A.1. PC4P6E/A/E& /E&EAB8E& /E .) E&=60A/4C <A<
En este punto podemos plantearnos el que dado una muestra sobre
la que se ha observado los valores *
i
! una posible estimacin del par(metro
es aquella que ma*imi"a la %uncin de verosimilitud. Hc%. %igura A.<I
*
<
! . . . ! *
n
%ijados W 5erosimilitud o 5 HuI W % H*
<
! *
+
! . . . ! *
n
9 uI
3igura A.<2 8a %uncin de verosimilitud se obtiene a partir de la %uncin
de densidad! intercambiando los papeles entre par(metro y estimador. En
una %uncin de verosimilitud consideramos que las observaciones *
<
! . . . !
*n !est(n %ijadas! y se representa la gr(%ica con el valor de los valores que
#a la %uncin de densidad para todos los posibles valores del par(metro
#mil del par(metro buscado! u
05
! es aquel
que ma*imi"a su %uncin de verosimilitud! 5 HuI.
Como es lo mismo ma*imi"ar una %uncin que su logaritmo Hal ser
este una %uncin estrictamente crecienteI! este m(*imo puede calcularse
derivando con respecto a u la %uncin de verosimilitud H bien su logaritmoI
#mil al que haga la derivada nula2
log 5
H
u
u05
I
W F.
#mil como
la v.a.
u05 W m(*
% HS
<
! S
+
! . . . ! S
n
9 uI
u
6C
Bioestad
+. &on invariantes %rente a trans%ormaciones biun
es el estimador m(*imo veros
#mil de u y gH uI es una %uncin biun
de u! entonces gH u
05
I es el estimador m(*imo veros
1. &i u es un estimador su%iciente de u! su estimador m(*imo veros
de varian"a m
<A+ #stica2 0'todos y Aplicaciones
8os estimadores de m(*ima verosimilitud tienen ciertas propiedades
en general que a continuacin enunciamos2
<. &on consistentes9
#vocas! es decir! si u
05
#voca
#mil de gHuI.
#mil!
u05 es %uncin de la muestra a trav's de u9
7. &on asintticamente normales9
@. &on asintticamente e%icientes! es decir! entre todos los estimadores
consistentes de un par(metro u! los de m(*ima verosimilitud son los
#nima.
E. )o siempre son insesgados.
A.1.+. Algunos estimadores %undamentales
5amos a estudiar las propiedades de ciertos estimadores que por su
importancia en las aplicaciones resultan %undamentales2 estimadores de la
esperan"a matem(tica y varian"a de una distribucin de probabilidad.
Estimador de la esperan"a matem(tica
Consideremos las muestras de tama-o n! S
<
! S
+
! . . . ! S
n
! de un car(cter
sobre una poblacin que viene e*presado a trav's de una v.a. S que posee
momentos de primer y segundo orden! es decir! e*isten E fS e y 5ar fS e2
|
|
S
<
! S
+
! . . . ! S
n
! |
E fS
i
e W k
5ar fS
i
e W n
+
El estimador media muestral que denotaremos normalmente como S Hen
lugar de k es
n
s
A.1. PC4P6E/A/E& /E&EAB8E& /E .) E&=60A/4C <A1
S W <
n HS<
Z S
+
Z ] ] ] Z S
n
I
veri%ica2
f e
E S
f e
5ar S
W k
W n
+
n
Por tanto es un estimador insesgado. &i adem(s sabemos que S se distribuye
seg$n una ley gaussiana! se puede comprobar que coincide con el estimador de
m(*ima verosimilitud2
Proposicin
S
i
) Hk! nI W S o k
05
)
Estimador de la varian"a
H I
k! n
+
n
Al elegir un estimador de n
+
W 5ar fS e! podemos comen"ar con el
estimador m(s natural Hque es el estimador m(*imo verosimilI sin embargo
'ste no es insesgado! ya que el valor esperado del estimador
Y
&
+
W <
n HS
i
[ S I
+
iW<
se demuestra que es Hn [ <Icn ] n
+
. /e esta manera! para conseguir un
estimador insesgado de la varian"a se introduce la cuasivarian"a muestral2
&
+
W n
n [ < &
+
HA.+I
la cual presenta como valor esperado n
+
. &e puede comprobar adem(s que
Hn [ <I&s
+
n
+
J
n[<
Bioestad
<A7 #stica2 0'todos y Aplicaciones
Cap
En el cap#tulo anterior establecimos toda la teor
cin y concepto de un estimador puntual! as
valor del par(metro se encuentra dentro de esos l
de la estad#stica 6n%erencial bajo el t
llo! as
tivo de este cap
cualquiera )uestro objetivo ser( determinar los l
#tulo G
Estimacin con%idencial
G.<. 6ntroduccin
#a que concierne a la de%ini,
# como las propiedades deseables
que debe veri%icar para considerar el producto una Pbuena.
es
timacin del
par(metro.
E*isten! no obstante! multitud de circunstancias en las que el inter's
de un estudio no estriba tanto en obtener una estimacin puntual para un
par(metro! como determinar un posible PrangoQde valores o Pintervalo.
en
los
que pueda precisarse! con una determinada probabilidad! que el verdadero
#mites.
8as t'cnicas que abordan este tipo de situaciones! se encuadran dentro
#tulo de PEstimacin Con%idencial.
o
PEstimacin por 6ntervalos de Con%ian"aQ. El desarrollo terico de como
llega a constituirse un intervalo! reali"ado en el caso m(s intuitivo y senci,
# como los intervalos de con%ian"a para los par(metros m(s usuales2
medias! varian"as y proporciones! para una y dos poblaciones! son el obje,
#tulo. Para ello empe"amos bajo el supuesto de que nuestra
variable en estudio es una variable aleatoria que sigue una distribucin
#mites del intervalo de
con%ian"a para 'stos.
<A@
Bioestad

S de%
<AE #stica2 0'todos y Aplicaciones
&ea S 3am HuI una v.a. de cierta %amilia! que se distribuye seg$n
un par(metro u que desconocemos. Para estimar dicho par(metro a
partir de una muestra aleatoria simple
o S
<
! S
+
! . . . ! S
n
hemos de%inido lo que es un estimador uHS I y hemos enunciado las buenas
propiedades que es deseable que posea. Cuando se reali"a el e*perimento
aleatorio de e*traer una muestra concreta de la poblacin! el estimador
Hque a veces denominaremos estimador puntualI nos da una apro*imacin
de u.
S
<
W *
<
S
+
W *
+
S
n
W *
n
|
|
| |
| |
|
W uH*
<
! *
+
! . . . ! *
n
I r u
q w" x
* WH*< !*+ !...!*n I
Esto es lo que se denomina estimacin puntual! pues se asigna un punto
como estimacin del valor del par(metro.
8a estimacin con%idencial o estimacin por intervalos de
con%ian"a asigna un conjunto de valores como estimacin del par(metro! que
generalmente tiene %orma de intervalo2 6 HS I.
/iremos que 6 HS I es un intervalo aleatorio al nivel de signi%icacin
! o equivalentemente! intervalo aleatorio al nivel de con%ian"a < [
si
o lo que es lo mismo
f e
P u 6 HS I l < [ !
f e
P u z6 HS I j .
\e aqu
G.+. 6)=EC5A84& /E C4)36A)RA PACA 8A /6&=C6B.C64) )4C0A8 <AA
Cuando un intervalo aleatorio 6 HS I tiene una probabilidad menor
del <FF ] X de que el par(metro no est' en el intervalo decimos
que el intervalo es de con%ian"a < [ ! o de signi%icacin .
Es importante comprender correctamente esta idea2 6 HS I es un
con,
junto aleatorio que depende de la muestra elegida. Por tanto para
cada
muestra tenemos un intervalo de con%ian"a di%erente. &i elegimos un
nivel
de con%ian"a por ejemplo de W B@ X! y encontramos Hmediante la
t'cnica
que seaI intervalos de con%ian"a al B@ X que se correspondan con cada
una
de las muestras! lo que sabemos es que en el B@ X de los casos los
intervalos
de con%ian"a dieron una respuesta correcta. En el @ X restante se
obtuvo
una respuesta incorrecta.
Cuando una muestra ha sido elegida mediante un muestreo
aleatorio
simple! no tiene sentido decir u 6 H* I con probabilidad < [ ! pues
slo
puede ocurrir que H%ijada la muestraI el par(metro est' o que no est'
dentro
del intervalo. &in embargo por comodidad a veces se utili"a esa
e*presin!
donde lo que queremos con esa %rase es e*presar la idea de que Psi
hu,
bi'semos tomados muestras del mismo tama-o en una gran cantidad
de
ocasiones! hubi'semos acertado por lo menos en un <FF ] H< [ I X de
las
ocasiones al decir que el par(metro estaba en el intervalo que cada
muestra
suministraQ.
G.+. 6ntervalos de con%ian"a para la distribucin
normal
/ada una variable aleatoria de distribucin gaussiana S )
H
k! n
+
I! nos
interesamos en primer lugar! en calcular intervalos de con%ian"a para sus
dos par(metros! k y n
+
.
# un resumen de las situaciones que consideraremos2
la media si se conoce la varian"a2 Este no es un caso pr(ctico Hno se puede conocer n
+
sin conocer
previamente kI! pero sirve para introducirnos en el problema de la
estimacin con%idencial de la media9
Bioestad
Este caso que planteamos es m(s a nivel terico que pr(ctico2 di%
Para estimar k! el estad
<AG #stica2 0'todos y Aplicaciones
n"a para la media Hcaso generalI2 Este se trata del caso con verdadero inter's pr(ctico. Por
ejemplo
sirve para estimar intervalos que contenga la media del
colesterol en
sangre en una poblacin! la altura! el peso! etc! cuando
disponemos de una muestra de la variable.
alo de con%ian"a para la varian"a2
h
ste es otro caso de inter's en las aplicaciones. El objetivo es calcular
un intervalo de con%ian"a para n
+
! cuando slo se dispone de una
muestra.
Estimacin de tama-o muestral 8a utilidad consiste en decidir cu(l deber( ser el tama-o necesario
de una muestra para obtener intervalos de con%ian"a para una media!
con precisin y signi%icacin dadas de antemano. Para que esto sea
posible es necesario poseer cierta in%ormacin previa! que se obtiene a
partir de las denominadas muestras piloto.
0(s adelante! consideramos el caso en que tenemos dos poblaciones
donde cada una sigue su propia ley de distribucin )
H
k
<
! n
<
I y )
H
k
+
! n
+
I. 8os
problemas asociados a este caso son
erencia de medias homoced(sticas &e reali"a el c(lculo del intervalo de con%ian"a suponiendo que ambas
variables tienen la misma varian"a! es decir son homoced(sticas.
En la pr(ctica se usa este c(lculo! cuando ambas variables tienen
parecida dispersin.
i%erencia de medias Hcaso generalI Es el mismo caso que el anterior! pero se reali"a cuando se observa
que hay di%erencia notable en la dispersin de ambas variables.
G.+.<. 6ntervalo para la media si se conoce la varian"a
#cilmen,
te vamos a poder conocer con e*actitud n
+
mientras que k es desconocido.
&in embargo nos apro*ima del modo m(s simple a la estimacin con%idencial
de medias.
#stico que mejor nos va a ayudar es S ! del que
n
es tomarlo sim'trico con respecto a la media HFI! ya que all
acumula m(s masa Hv'ase la %igura G.<I. As
G.+. 6)=EC5A84& /E C4)36A)RA PACA 8A /6&=C6B.C64) )4C0A8 <AB
conocemos su ley de distribucin2
S
)
q
H I
k! n
+
n
w" x
un par(metro
desconocido
Esa ley de distribucin depende de k HdesconocidaI. 8o m(s conveniente es
hacer que la ley de distribucin no dependa de ning$n par(metro desconocido!
para ello tipi%icamos2
R W
S [ k
b
q w" n x
par. desconocido
Z
estimador
Z
cosas conocidas
) HF! <I
q w" x
tabulada
Este es el modo en que haremos siempre la estimacin puntual2
buscaremos una relacin en la que intervengan el par(metro desconocido
junto con su estimador y de modo que estos se distribuyan seg$n una ley de
probabilidad que es bien conocida y a ser posible tabulada.
/e este modo! %ijado HF! <I! consideramos la v.a. R ) HF! <I y
tomamos un intervalo que contenga una masa de probabilidad de < [ .
Este intervalo lo queremos tan peque-o como sea posible. Por ello lo mejor
# es donde se
# las dos colas de la distribucin
H"onas m(s alejadas de la mediaI se repartir(n a partes iguales el resto de la
masa de probabilidad! .
5amos a precisar cmo calcular el intervalo de con%ian"a2
&ea "
c+
el percentil <FF ]
+
de R ! es decir! aquel valor de 6C que deja
por debajo de si la cantidad
+
de la masa de probabilidad de R ! es
decir2
Bioestad
probabilidad es < [ . Por simetr
&ea "
<[c+
el percentil <FF ]
<[
Es $til considerar en este punto la simetr
<GF #stica2 0'todos y Aplicaciones
6ntervalo de con%ian"a <
" + "< +
[1 [+ [< F < + 1
3igura G.<2 8a distribucin ) HF! <I y el intervalo m(s peque-o posible cuya
#a! los cuantiles "
c+
y "
<[c+
slo di%ieren
en el signo.
P fR a "
c+
e W
+
+
! es decir!
P fR a "
<[c+
e W < [
+
#a de la distribucin normal!
y observar que los percentiles anteriores son los mismos aunque con el
signo cambiado2
"
c+
W ["
<[c+
El intervalo alrededor del origen que contiene la mayor parte de la
masa de probabilidad H< [ I es el intervalo siguiente Hc%. 3igura G.<I2
n
con una desviacin t
G.+. 6)=EC5A84& /E C4)36A)RA PACA 8A /6&=C6B.C64) )4C0A8 <G<
f e f e
"
c+
! "
<[c+
W ["
<[c+
! "
<[c+
lo que habitualmente escribiremos como2
qR q a "
<[c+
/e este modo podemos a%irmar que e*iste una probabilidad de < [
de que al e*traer una muestra aleatoria de la variable en estudio!
ocurra2
qR q a "
<[c+

|
|
|S
|
|
[ k |

b
a "
<[c+

|
|
|S
n
|
|
[ k | a "
<[c+
] bnn
/e este modo un intervalo de con%ian"a al nivel < [ para la esperan"a
de una normal de varian"a conocida es el comprendido entre los valores
*c+
W S [ "
<[c+
] bnn
*
<[c+
W S Z "
<[c+
] bnn
k W S i "
<[c+
] bnn HG.<I
Ejemplo
&e sabe que el peso de los reci'n nacidos sigue una distribucin normal
#pica de F!A@ Og. &i en una muestra aleatoria simple de
Bioestad
<FF de ellos se obtiene una media muestral de 1 Og! y una desviacin t
Para calcular k usamos el estad
opuesto por simetr
<G+ #stica2 0'todos y Aplicaciones
#pica
de F!@ Og! calcular un intervalo de con%ian"a para la media poblacional
que presente una con%ian"a del B@ X.
&olucin2 En primer lugar hay que mencionar que la situacin
planteada no es habitual! ya que si somos capaces de obtener n W F!
A@! es natural que hayamos podido calcular tambien k! y no
necesitariamos una muestra aleatoria para estimar k
con%idencialmente. Esto ocurre porque el ejemplo tiene utilidad
puramente acad'mica.
#stico2
R W S b k
nc n ) HF! <I
que como se observa no depende de la dispersin de la muestra! ya
que tenemos la P%ortunaQ de disponer de la dispersin e*acta de la
poblacin. Esto no es lo habitual en una situacin pr(ctica! y como
veremos m(s adelante! el papel del la dispersin e*acta de la
poblacin HdesconocidoI ser( sustituido por el de la dispersin de la
muestra.
.n intervalo de con%ian"a al B@ X se calcula teniendo en cuenta
que
R ) HF! <I! y dicha distribucin presenta un B@ X de probabilidad
de
ocurrir entre sus cuantiles "
F!F+@
W [<! BE y "
F!BA@
W <! BE Hson de signo
#a de la distribucin normalI. 8uego con una con%ian"a
del B@ X ocurre2
[<! BE a R a Z<! BE qR q a Z<! BE q*[kq a Z<! BE bnn qk[1q a F! <7A
Es decir con una con%ian"a del B@ X tenemos que k W 1iF! <7AOg. Esto debe
ser interpretado como que la t'cnica que se usa para el calcular el intervalo
de con%ian"a da una respuesta correcta en B@ de cada <FF estudios basados
en una muestra aleatoria simple di%erente sobre la misma poblacin.
G.+.+. 6ntervalo para la media Hcaso generalI
El intervalo de con%ian"a al nivel < [ para la esperan"a de una
distribucin gaussiana cuando sus par(metros son desconocidos es2
como el que corresponder
s
&
muestral de 1 Og! y una desviacin t
&olucin2 Para calcular k usamos el estad
s
G.+. 6)=EC5A84& /E C4)36A)RA PACA 8A /6&=C6B.C64) )4C0A8 <G1
distrib. media muestral
distrib. muestra
+.F +.@ 1.F 1.@ 7.F
3igura G.+2 .n intervalo de con%ian"a para la media podemos visuali"arlo
#a a una distribucin normal con el mismo centro
que la de la poblacin! pero cuya desviacin est( reducida en bn.
k W S i tn[<!<[c+ ]
b
n
Ejemplo
&e sabe que el peso de los reci'n nacidos sigue una distribucin normal. &i
en una muestra aleatoria simple de <FF de ellos se obtiene una media
#pica de F!@ Og! calcular un intervalo de
con%ian"a para la media poblacional que presente una con%ian"a del B@ X.
#stico2
= W S b k t
n[<
& c n
que a di%erencia del ejemplo mencionado anteriormente! no depende se n
Bioestad
s
simetr
s
En primer lugar! en estad#stica in%erencial! los estad
lado la desviacin t#pica muestral! para utili"ar la cuasidesviacin t
<G7 #stica2 0'todos y Aplicaciones
HdesconocidoI si no de su estimacin puntual insesgada2
b b
& W ncHn [ <I & W <FFcBB F! @ W F!@F1
.n intervalo de con%ian"a al B@ X se calcula teniendo en cuenta que = t
n[<
!
y dicha distribucin presenta un B@ X de probabilidad de ocurrir entre sus
cuantiles =
n[<9F!F+@
W [<! BG y =
n[<9F!BA@
W <! BG Hson de signo opuesto por
#a de la distribucin de &tudentI. 8uego con una con%ian"a del B@ X
ocurre2
q* [ kq a Z<! BG
&
b
n qk [ 1q a F! <
Es decir con una con%ian"a del B@ X tenemos que k W 1 i F! <Og.
Ejemplo
&e quiere estimar un intervalo de con%ian"a al nivel de signi%icacin
W F! F@ para la altura media k de los individuos de una ciudad. En
principio slo sabemos que la distribucin de las alturas es una v.a. S de
distribucin normal. Para ello se toma una muestra de n W +@ personas y
se obtiene
* W <AF cm
& W <F cm
&olucin2
Este ejemplo es similar al anterior! pero vamos a resolverlo de una manera
m(s detallada.
#sticos para medir
la dispersin m(s convenientes son los insesgados. Por ello vamos a dejar de
#pica2
b
& W <F W &s W &
b
n +@
n [ < W <F +7 W <Fd
+FE
s
68 deber
porte del mismo modo que en los ni-os normales. Por tanto deber
de la muestra deber
la poblacin de ni-os normales. &i no %uese as# habr
s
simetr
G.+. 6)=EC5A84& /E C4)36A)RA PACA 8A /6&=C6B.C64) )4C0A8 <G@
k W <AF i +! FE ] <F! +FE
@
W <AF i 7! +F7
o dicho de %orma m(s precisa2 Con un nivel de con%ian"a del B@ X podemos decir que la media poblacional est( en el intervalo
siguiente2
k f<E@! ABE 9 <A7! +F7e
Ejemplo
Este ejemplo se puede considerar como una introduccin a los contrastes
de hiptesis. 8a variable 68 se presenta en los ni-os reci'n nacidos con una
distribucin normal de media +!@. En un grupo de 1< ni-os con sepsis
neonatal se encuentra que el valor medio de 68 es de * W <! G y & W F! +.
:Cree que presenta la presencia de sepsis neonatal a%ecta el valor de 68?
&olucin2 &i no hubiese relacin entre la sepsis neonatal y el valor de
#a ocurrir que el valor de 68 en ni-os nacidos con sepsis se com,
#a seguir
una distribucin normal. Adem(s un intervalo de con%ian"a al B@ X para la media de la poblacin de ni-os s'pticos!
calculado a partir de los datos
#a contener Hcon una con%ian"a del B@ XI a la media de
#a que pensar que la
variable 68 est( relacionada con la presencia de sepsis.
Calculemos el intervalo de con%ian"a para la media de los ni-os con
sepsis. Para ello elegimos el estadistico m(s adecuado a los datos que po,
seemos2
= W * b k t
1F
& c 1<
.n intervalo de con%ian"a al B@ X se calcula teniendo en cuenta que = t
1F
!
y dicha distribucin presenta un B@ X de probabilidad de ocurrir entre sus
cuantiles =
1F9F!F+@
W [+! F7 y =
1F9F!BA@
W +! F7 Hson de signo opuesto por
#a de la distribucin de &tudentI. 8uego con una con%ian"a del B@ X
ocurre2
Bioestad
poblacional de los ni-os con sepsis estar
Por tanto! para el valor poblacional de la desviacin t
<GE #stica2 0'todos y Aplicaciones
q<! G [ kq a Z+! F7bF! + qk [ <! Gq a F! FA
1<
Por tanto podemos a%irmar Hcon una con%ian"a del B@ XI que la
media
#a comprendida entre los valores
<!A1
y <!GA! que est(n muy alejados de +!@ Hmedia de los ni-os normalesI.
Por tanto! podemos a%irmar con una con%ian"a del B@ X que est(n
relacionados la 68 y la s'psis en ni-os recien nacidos.
G.+.1. 6ntervalo de con%ian"a para la varian"a
.n intervalo de con%ian"a al nivel < [ para la varian"a de una distri,
bucin gaussiana Hcuyos par(metros desconocemosI lo obtenemos como
f
n
+

Ejemplo
Hn [ <I&s
+
Hn [ <I&s
+
!
J
n [<!<[c+
J
n [<!c+
e
&e estudia la altura de los individuos de una ciudad! obteni'ndose en
una muestra de tama-o +@ los siguientes valores2
* W <AF cm
& W <F cm
Calcular un intervalo de con%ian"a con W F! F@ para la varian"a n
+
de
la altura de los individuos de la ciudad.
&olucin2
n
+
fE1! 7@ 9 +F<! EFe
#pica tenemos que
Antes de reali"ar un estudio de in%erencia estad
s
s
G.+. 6)=EC5A84& /E C4)36A)RA PACA 8A /6&=C6B.C64) )4C0A8 <GA
A!BE a n a <7! <BB
con una con%ian"a del B@ X! que por supuesto contiene a las
estimaciones puntuales & W <F y &s W <F! +FE calculados sobre la
muestra.
G.+.7. Estimacin del tama-o muestral
#stica sobre una variable!
lo primero es decidir el n$mero de elementos! n! a elegir en la muestra
aleatoria. Para ello consideremos que el estudio se basara en una variable de
distribucin normal! y nos interesa obtener para un nivel de signi%icacin
dado! una precisin HerrorI d.
Para ello! recordemos que un intervalo de con%ian"a para una media en el
caso general se escribe como2
k W S i t
n[<!<[c+
]
&
b
q w"
precisin d
n
x
&i n es su%icientemente grande! la distribucin t de &tudent se apro*ima a
la distribucin normal. 8uego una manera de obtener la precisin buscada
consiste en elegir n con el siguiente criterio2
n l
"
<[c+
d
+
&
+
/onde &s
+
es una estimacin puntual a priori de la varian"a de la mues,
tra. Para obtenerla nos podemos basar en una cota superior conocida por
nuestra e*periencia previa! o simplemente! tomando una muestra piloto
que sirve para dar una idea previa de los par(metros que describen una
poblacin.
Ejemplo
En los $ltimos ejemplos se ha estudiado la variable altura de los in,
dividuos de una poblacin! considerando que 'sta es una variable que se
Bioestad
w
s
s
<GG
?
" H xq I
S ) k! n
+
#stica2 0'todos y Aplicaciones
|
|
| |
poblacin normal | |
S media de la muestra
&
+
cuasivarian"a de la muestra
n tama-o de la muestra
6ntervalos de con%ian"a
| |
| |
|
Para k cuando n
+
se conoce k S i "
<[c+
] bn
n
&
Para k cuando n
+
no se conoce k S i t
n[<!<[c+
] b
n
f
Para n
+
con k desconocido n
+

Hn [ <I&s
+
J
n [<!<[c+
e
Hn [ <I&s
+
!
J
n [<!c+
Cuadro G.<2 6ntervalos de con%ian"a para los par(metros de una poblacin
normal! a partir de una muestra aleatoria simple de la misma.
Calcular el tama-o que deber
en el enunciado se deber
G.+. 6)=EC5A84& /E C4)36A)RA PACA 8A /6&=C6B.C64) )4C0A8 <GB
distribuye de modo gaussiana.
Para ello se tom una muestra de +@ individuos Hque podemos
considerar pilotoI! que o%reci los siguientes resultados2
* W <AF cm
& W <F cm
#a tener una muestra para que se obtu,
viese un intervalo de con%ian"a para la media poblacional con un
nivel de signi%icacin W F! F< Hal BB XI y con una precisin de d W <
cm.
&olucin2
4bs'rvese que sobre la muestra piloto! el error cometido al estimar
el intervalo al B@ X %ue apro*imadamente de 7
d
+ cm por lo que si buscamos
un intervalo de con%ian"a tan preciso! el tama-o de la muestra! n! deber( ser
bastante mayor. En este caso se obtiene2
n r
"
F!BB@
] <F! +FE
+
<
+
W +! @G
+
] <F! +FE
+
r EB7
Por tanto! si queremos reali"ar un estudio con toda la precisin requerida
#a tomar una muestra de EB7 individuos. Esto es
una indicacin de gran utilidad antes de comen"ar el estudio. .na ve" que
el muestreo haya sido reali"ado! debemos con%irmar que el error para el
nivel de signi%icacin dado es in%erior o igual a < cm! utili"ando la muestra
obtenida.
G.+.@. 6ntervalos para la di%erencia de medias de dos pobla,
ciones
Consideremos el caso en que tenemos dos poblaciones de modo que el
car(cter que estudiamos en ambas HS
<
y S
+
I son v.a. distribuidas seg$n
leyes gaussianas
H I
S
<
) k
<
! n
<
Bioestad

W HS <
[ S
+
I [ Hk
<
[ k
+
I
<BF #stica2 0'todos y Aplicaciones
H I
S
+
) k
+
! n
+
En cada una de estas poblaciones se e*trae mediante muestreo aleato,
rio simple! muestras que no tienen por que ser necesariamente del mismo
tama-o Hrespectivamente n
<
y n
+
I
S
<
o S
<<
! S
<+
! . . . ! S
<n
<
S
+ o S+< ! S++ ! . . . ! S+n+
Podemos plantearnos a partir de las muestras el saber qu' di%erencias
e*isten entre las medias de ambas poblaciones! o por ejemplo estudiar las
relacin e*istente entre sus dispersiones respectivas. A ello vamos a dedicar los
siguientes puntos.
6ntervalo para la di%erencia de medias homoced(ticas
&upongamos que dos poblaciones tengan varian"as id'nticas HhomocedasticidadI!n
+
.
Es decir
n
+
W n
<
W n
+
.
Por ra"ones an(logas a las e*puestas en el caso de una poblacin una
poblacin! se tiene que
J
n
< [<
W Hn
<
[ <I&s
<
n
J
n
+ [<
W Hn
+
[ <I&s
+
n
|
J
n
| |
< [< |
|
J
n
| |
+ [<
J
+
reprod.
W J
n
< Zn+ [+ W J
n
< [<
ZJ
n + [<
J
n < Zn+ [+
/e manera similar al caso de la media de una poblacin! si las varian"as
%uesen conocidas! podemos de%inir la v.a.
R W HS <
[b
S
+
I [ Hk
<
[ k
+
I
n
<
n
<
Z n
+
b H
n
+
I ) HF! <I
<
n
<
Z n< +
asumir que al menos son iguales! el siguiente estad
W HS <
[ S
+
I [ Hk
<
[ k
+
I
s
s
s
G.+. 6)=EC5A84& /E C4)36A)RA PACA 8A /6&=C6B.C64) )4C0A8 <B<
Cuando las varian"as de las poblaciones son desconocidas! pero
podemos
#stico se distribuye como
una t de &tudent con n
<
Z n
+
[ + grados de libertad2
=
n
< Zn+ [+
W
b
R
b
< &
n
<
Z n
+
[ + J
n
<
Zn
+
[+
< <
t
n
< Zn+ [+
n< Z n+
HG.+I
donde se ha de%inido a &s
+
como la cuasivarian"a muestral ponderada de
&s
<
y &s
+
&
+
W Hn<
[ <I&s
<
Z Hn+
[ <I&s
+
n
<
Z n
+
[ +
&i <[ es el nivel de signi%icacin con el que deseamos establecer el inter,
valo para la di%erencia de las dos medias! calculamos el valor t
n
< Zn+ [<!<[c+
que deja por encima de si c+ de la masa de probabilidad de =
n
< Zn+ [+
P f=
n
< Zn+ [+
g t
n< Zn+ [+!<[c+
e W + P fq=
n<
Zn
+
[+
q a t
n< Zn+ [+!<[c+
e W <[
Cepitiendo un proceso que ya hemos reali"ado en ocasiones anteriores! tenemos una
probabilidad de < [ de que a e*traer una muestra aleatoria simple ocurra2
q=
n
< Zn+ [+
q a t
n< Zn+ [+!<[c+

| |
| |
|HS
<
[ S
+
I [ Hk
<
[ k
+
I|
b
&
<
n< Z
< a t
n
< Zn+ [+!<[c+
n+
b
qk
<
[ k
+
q a HS
<
[ S
+
I Z t
n
<Zn+[+!<[c+
] &s
8uego el intervalo de con%ian"a al nivel <[ para la di%erencia de esperan"as
de dos poblaciones con la misma varian"a Haunque esta sea desconocidaI
es2
<
n
<
<
Z
n
+
Bioestad
s
s
y otro del segundo. El estad
s
<B+ #stica2 0'todos y Aplicaciones
b
<
k
<
[ k
+
W HS
<
[ S
+
I i t
n
< Zn+ [+!<[c+
] &s n
< Z n< +
Ejemplo
;ueremos estudiar la in%luencia que puede tener el tabaco con el peso de
los ni-os al nacer. Para ello se consideran dos grupos de mujeres
embara"adas Hunas que %uman y otras que noI y se obtienen los siguientes
datos sobre el peso S ! de sus hijos2
|
|
|
0adres %umadoras
0adres no %umadoras
_ n
<
W 1@ mujeres! *
<
W 1! E Ng &
<
W F! @ Ng
_ n
+
W +A mujeres! *
+
W 1! + Ng &
+
W F! G Ng
En ambos grupos los pesos de los reci'n nacidos provienen de sendas
distribuciones normales de medias desconocidas! y con varian"as que si bien
son desconocidas! podemos suponer que son las mismas. Calcular en cuanto
in%luye el que la madre sea %umadora en el peso de su hijo.
&olucin2
&i S
<
es la v.a. que describe el peso de un ni-o que nace de madre no
%umadora! y S
+
el de un hijo de madre %umadora! se tiene por hiptesis que
|
|
k
<
! k
+
! n
+
! tales que |
S
<
)
H
k
<
! n
+
I
S
+
)
H
k
+
! n
+
I
&i queremos estimar en cuanto in%luye el que la madre sea %umadora en el
peso de su hijo! podemos estimar un intervalo de con%ian"a para k
<
[ k
+
! lo
que nos dar( la di%erencia de peso esperado entre un ni-o del primer grupo
#stico que se ha de aplicar para esta cuestin
es2
H*
<
[ *
+
I [ Hk
<
[ k
+
I
b
< <
t
n
< Zn+ [+
W t
1@Z+A[+
W t
EF
&
n< Z
n+
s
G.+. 6)=EC5A84& /E C4)36A)RA PACA 8A /6&=C6B.C64) )4C0A8 <B1
donde
&
+
W Hn<
[ <I&s
<
Z Hn+
[ <I&s
+
n
<
Z n
+
[ +
W 17 ] F! @
+
Z +E ] F! G
+
EF
W F! 7<B W &s W F! E7A1
Consideramos un nivel de signi%icacin que nos pare"ca aceptable! por ejem,
plo W F! F@! y el intervalo buscado se obtiene a partir de2
q
F!7
" xq w
H1!E [ 1! +I [Hk
<
[ k
+
I q
b
<
a t
EF9<[F!F@c+
W t
EF9F!BA@
W +
F!E7A1 1@ Z +< A
q w" x
F!<E@G
W k
<
[ k
+
W F! 7 i + ] F! <E@G W k
<
[ k
+
W F! 7 i F! 11<E
con lo cual se puede decir que un intervalo de con%ian"a para el peso
esperado en que supera un hijo de madre no %umadora al de otro de madre
%umadora est( comprendido con un nivel de con%ian"a del B@ X entre los
F!FEG Ng y los F! A1< Ng.
Bioestad
w
s s
s s
s
s s
s s
<B7
|
| |
|
| S
<

#stica2 0'todos y Aplicaciones
? |
" H xq I | |
|
) k
<
! n
<
|
poblaciones normales | |
|
| | S
+
)
| q
H I | |
k
+
! n
+
|
w" x
? | |
| |
S
<
! S
+
medias de las muestras
&
<
! &
+
cuasivarian"as de las muestras
n
<
! n
+
tama-os de las muestras
6ntervalos de con%ian"a para k
<
[ k
+
| |
| |
|
b
<
&i n
<
W n
+
HdesconocidosI
k
<
[ k
+
HS
<
[ S
+
I i t
n
< Zn+ [+!<[c+
] &s
b
&
<
n
<
Z n< +
&
+
&i n
<
W n
+
HdesconocidosI
|
k
<
[ k
+
HS
<
[ S
+
I i t
% !<[c+
]
n
<
Z n
+
| |
| |
|
|
|
|
|
donde
&
+
W Hn<
[ <I&s
<
Z Hn+
[ <I&s
+
n
<
Z n
+
[ +
H I
+
| |
| |
| | % W H
&
<
&
+
n
<
Z n
+
I
+
H I
+
[ + Lelch.
| |
|
< &
<
n
<
Z < n
<
< &
+
Z
n
+
Z < n
+
Cuadro G.+2 6ntervalos de con%ian"a para la di%erencia de las medias de dos
poblaciones normales! calculados a partir de sendas muestras independientes
de cada una de ellas.8os resultados dependen de que podamos suponer cierta
o no la condicin de homocedasticidad.
S B Hn! pI S
r
G.1. 6)=EC5A84& /E C4)36A)RA PACA 5AC6AB8E& /6C4=406CA& <B@
G.1. 6ntervalos de con%ian"a para variables dicotmi,
cas
Cuando tenemos una variable dicotmica Ho de BernoulliI a menudo
interesa saber en qu' proporcin de casos! p ocurre el '*ito en la reali"acin
de un e*perimento. =ambi'n nos puede interesar el comparar la di%erencia
e*istente entre las proporciones en distintas poblaciones. =ambi'n es de
inter's calcular para un nivel de signi%icacin dado! el tama-o muestral
necesario para calcular un intervalo de con%ian"a de cuyo radio sea menor
que cierta cantidad.
G.1.<. 6ntervalo para una proporcin
&ean S
<
! . . . ! S
n
Ber HpI. &i queremos estimar el par(metro p! la ma nera
m(s natural de hacerlo consiste en de%inir la suma de estas Mlo que nos
proporciona una distribucin Binomial
S W S
<
Z ] ] ] Z S
n
B Hn! pI
y tomar como estimador suyo la v.a.
p W S
n .
Es decir! tomamos como estimacin de p la proporcin de '*itos obtenidos en
las n pruebas. p.
8a distribucin del n$mero de '*itos es binomial! y puede ser
apro*imada a la normal cuando el tama-o de la muestra n es grande! y p no
es una cantidad muy cercana a cero o uno2
) Hnp! npqI
El estimador p no es m(s que un cambio de escala de S ! por tanto
H I
r
p [ p
p W S )
n p! pq W b r R ) HF! <I
n pq
n
Bioestad
e*tremos son los cuantiles c+ y < [ c+. As
<BE #stica2 0'todos y Aplicaciones
Esta e*presin presenta di%icultades para el c(lculo! siendo m(s
cmodo sustituirla por la siguiente apro*imacin2
p [ p
b r R ) HF! <I
pq
n
Para encontrar el intervalo de con%ian"a al nivel de signi%icacin para
p se considera el intervalo que hace que la distribucin de R ) HF! <I deje
la probabilidad %uera del mismo. Es decir! se considera el intervalo cuyos
# se puede a%irmar con una
con%ian"a de < [ que2
p W p i "
<[c+
Ejemplo
b
pq
n con una con%ian"a de < [
&e quiere estimar el resultado de un re%er'ndum mediante un sondeo.
Para ello se reali"a un muestreo aleatorio simple con n W <FF personas y se
obtienen 1@ X que votar(n a %avor y E@ X que votar(n en contra
Hsuponemos que no hay indecisos para simpli%icar el problema a una variable
dicotmicaI. Con un nivel de signi%icacin del @ X! calcule un intervalo de
con%ian"a para el verdadero resultado de las elecciones.
&olucin2 /ada una persona cualquiera HiI de la poblacin! el resultado
de su voto es una variable dicotmica2
S
i
Ber HpI
El par(metro a estimar en un intervalo de con%ian"a con W F! F@ es p! y
tenemos sobre una muestra de tama-o n W <FF! la siguiente estimacin
puntual de p2
p W 1@
<FF W F! 1@ W q W F! E@
El intervalo de con%ian"a buscado es2
p W F! E@ i F! FB1@
Por tanto! tenemos con esa muestra un error apro*imado de B! 1 puntos al
nivel de con%ian"a del B@ X.
el tama-o muestral cuando p W q W <c+. As
As
G.1. 6)=EC5A84& /E C4)36A)RA PACA 5AC6AB8E& /6C4=406CA& <BA
G.1.+. Eleccin del tama-o muestral para una proporcin
En unejemplo previo con una muestra de <FF individuos se reali" una
estimacin con%idencial! con un B@ X de con%ian"a! del porcentaje de votan,
tes a una cuestin en un re%er'ndum! obteni'ndose un margen de error de
B!1 puntos.
&i pretendemos reducir el error a < punto y queremos aumentar el ni vel
de con%ian"a hasta el BA X H W F
d
F1I hemos de tomar una muestra
lgicamente de mayor tama-o! ) .
.n valor de ) que satis%ace nuestros requerimientos con respecto al
error es2
"
<[c+
) l pq
error
+
&i en un principio no tenemos una idea sobre que valores puede tomar
p! debemos considerar el peor caso posible! que es en el que se ha de estimar
#2
) l <
7
Ejemplo
"
<[c+
cuando no se tiene estimacin de p
error
+
&e quiere estimar el resultado de un re%er'ndum mediante un sondeo! y sin
tener una idea sobre el posible resultado del mismo! se desea conocer el
tama-o de muestra que se ha de tomar para obtener un intervalo al BA X de
con%ian"a! con un error del <
&olucin2
Como no se tiene una idea previa del posible resultado del re%er'ndum! hay
que tomar un tama-o de muestra! ) ! que se calcula mediante2
) l <
7
"
F!BG@
!+@ ] +! <A
+
W <<!AA1
F!F<
+
W F F!F<
+
# para tener un resultado tan %iable! el n$mero de personas a entre,
vistar debe ser muy elevado Mlo que puede volver e*cesivamente costoso
Bioestad

n<
n+
s
<BG #stica2 0'todos y Aplicaciones
el sondeo.
G.1.1. 6ntervalo para la di%erencia de dos proporciones
5amos a considerar que tenemos dos poblaciones de modo que en cada
una de ellas estudiamos una v.a. dicotmica HBernoulliI de par(metros res,
pectivos p
<
y p
+
. /e cada poblacin vamos a e*traer muestras de tama-o
n
<
y n
+
S
<
o S
<<
! S
<+
! . . . ! S
<n
<
S
+ o S+< ! S++ ! . . . ! S+n+
Entonces
Y
S
<
W S
<i
B Hn
<
! p
<
I
iW<
Y
S
+
W S
+i
B Hn
+
! p
+
I
iW<
&i las muestras son su%icientemente grandes ocurre que una apro*imacin
para un intervalo de con%ian"a al nivel < [ para la di%erencia de
proporciones de dos poblaciones es2
b
p
<
[ p
+
Hps
<
[ ps
+
I i "
<[c+
]
Ejemplo
p
<
qs
<
n
<
Z ps
+
qs
+
n
+
&e cree que la osteoporosis est( relacionada con el se*o. Para ello se
elige una muestra de <FF hombres de m(s de @F a-os y una muestra de +FF
mujeres en las mismas condiciones. &e obtiene que <F hombres y 7F mujeres
con alg$n grado de osteoporosis. :;u' podemos concluir con una con%ian"a del
B@ X? &olucin2
s
s
G.1. 6)=EC5A84& /E C4)36A)RA PACA 5AC6AB8E& /6C4=406CA& <BB
8lamamos p
<
a la incidencia de la osteoporosis en las mujeress de m(s de
@F a-os y p
+
a la de los hombres. Calculemos un intervalo de con%ian"a para
la di%erencia Hp
<
[ p
+
I. &i F no %orma parte de dicho intervalo con una
con%ian"a del B@ X podemos decir que p
<
es di%erente a p
+
Hcon tal grado de
con%ian"a! por supuestoI.
8a estimacin puntual insesgada que podemos hacer de ambos par(metros
a partir de los datos muestrales son2
p
<
W 7Fc+FF W F! +
p
+
W <Fc<FF W F! <
b
F!+ ^ F! G
Hp
<
[ p
+
I W HF! + [ F! <I i
+FF
Z F! < ^ F! B W F! FG
<FF
Es decir! enemos una con%ian"a del B@ X en la a%irmacin de que la
di%erencia entre la incidencia de osteoporosis en mujeres y hombres est( entre
F!F+ H+XI y F!<G H<G XI.
4bs'rvese que como F X no es un valor de dicho intervalo puede
concluirse con una con%ian"a del B@ X que hay di%erente incidencia de
osteoporosis en hombres que en mujeres para las personas de m(s de @F a-os.
Esta conclusin es algo m(s pobre de lo que hemos obtenido con el intervalo
de con%ian"a! pero visto de esta manera! este ejemplo puede considerarse como
una introduccin a los contrastes de hiptesis.
Bioestad
Ejercicio G.+. 8a cantidad m
una desviacin t
tra %ue e*tra
ciones por cualquier tipo de neoplasia. &u e*periencia le indica que ser
<F< ni-os al a"ar! entre todos los que re$nen las caracter
Ejercicio G.@. .n cardilogo se encuentra interesado en encontrar l
de con%ian"a al BF X! para la presin sistlica tras un cierto ejercicio %
+FF #stica2 0'todos y Aplicaciones
G.7. Problemas
Ejercicio G.<. &e ha medido el volumen diario de bilis! e*presado en litros! en
<F individuos sanos! obteni'ndose
F!BG9 F!G@9 F!AA9 F!B+9 <!<+9 <!FE9 F!GB9 <!F<9 <!+<9 F!AA.
:Cuanto vale la produccin diaria media de bilis en individuos sanos
suponiendo que la muestra ha sido obtenida por muestreo aleatorio simple
sobre una poblacin normal?
#nima requerida para que un anest'sico surta
e%ecto en una intervencin quir$rgica %ue por t'rmino medio de @F mg! con
#pica de <F!+ mg! en una muestra de EF pacientes. 4btener
un intervalo de con%ian"a para la media al BB X! suponiendo que la mues,
#da mediante muestreo aleatorio simple sobre una poblacin
normal.
Ejercicio G.1. .n investigador est( interesado en estimar la proporcin de
muertes debidas a c(ncer de estmago en relacin con el n$mero de de%un,
#a
sorprendente que tal proporcin supere el valor de <c1. :;u' tama-o de
muestra debe tomar para estimar la anterior proporcin! con una con%ian"a
del BB X! para que el valor estimado no di%iera del valor real en m(s de
F!F1?.
Ejercicio G.7. &e desea reali"ar una estimacin con%idencial de la varian"a
de la estatura de los ni-os varones de <F a-os de una ciudad con una
con%ian"a del B@ X. :Cu(l ser( dicho intervalo si se toma una muestra de
#sticas deseadas! y
medimos sus estaturas! y se obtienen las siguientes estimaciones puntuales2 * W
<1G! E cm! &
+
W +B! <E cm
+
?
#mites
#sico.
4btenerlos si en @F individuos se obtuvo * W <1! & W 1 y suponemos que el
comportamiento de la v.a. es normal.
se obtuvo un peso medio de @.BFF gr y una desviacin t
:Cu(ntos ni-os habr
Ejercicio G.A. En un determinado servicio de odontolog
s
de la proporcin de los que sanan. :;u' n$mero de en%ermos habr
Ejercicio G.B. &e desea estimar el tiempo medio de sangr
acerca de la variabilidad del tiempo de sangr
/eterminar el tama-o m
de <+@ individuos! de los cuales <+ padec
G.7. PC4B8E0A& +F<
Ejercicio G.E. En una muestra de +@ beb's varones de <+ semanas de
vida!
#pica de B7 gr.
<. 4btener un intervalo de con%ian"a Hal B@ XI para el peso medio
po,
blacional.
+. #a que tomar para estimar dicha media con una
precisin de <@ gr?
#a se sabe que el
++X de las visitas llevan consigo una e*traccin dentaria inmediata.
En
cierto a-o! de +.1EE visitas! 7BG dieron lugar a una e*traccin
inmediata.
:Entran en contradiccin las ci%ras de ese a-o con el porcentaje
establecido
de siempre?
Ejercicio G.G. &lo una parte de los pacientes que su%ren un
determinado
#ndrome neurolgico consiguen una curacin completa9 &i de E7
pacientes
observados se han curado 7<! dar una estimaciones puntual y un
intervalos
#a que
observar para estimar la proporcin de curados con un error in%erior a
F!F@ y una con%ian"a del B@ X?
#a en %umadores de
m(s de +F cigarrillos diarios! con edades comprendidas entre 1@ y 7F
a-os! con una precisin de @ segundos. Ante la ausencia de cualquier
in%ormacin
#a es este tipo de individuos!
se tom una muestra preliminar de @ individuos! en los que se
obtuvieron los siguientes tiempos Hen segundosI2
BA!GF!EA!B<!A1.
#nimo de muestra! al B@ X! para cumplir el objetivo
anterior.
Ejercicio G.<F. En una determinada regin se tom una muestra
aleatoria
#an a%ecciones pulmonares.
Bioestad
<. Est
+F+ #stica2 0'todos y Aplicaciones
#mese la proporcin de a%ecciones pulmonares en dicha regin.
+. &i queremos estimar dicha proporcin con un error m(*imo del 7
X!
para una con%ian"a del B@ X! :qu' tama-o de muestra debemos
to,
mar?
Ejercicio G.<<. En una muestra de tabletas de aspirinas! de las
cuales observamos su peso e*presado en gramos! obtenemos2
<!<B9 <!+19 <!<G9 <!+<9 <!+A9 <!<A9 <!<@9 <!<79 <!<B9 <!+
&uponiendo la )ormalidad para esta distribucin de pesos!
determinar un intervalo al GF X de con%ian"a para la varian"a.
Ejercicio G.<+. &e quiere estimar la incidencia de la hipertensin
arterial en el embara"o. :Cuantas embara"adas tenemos que
observar para! con una con%ian"a del B@ X! estimar dicha incidencia con
un error del + X en los siguientes casos2
<. &abiendo que un sondeo previo se ha observado un B X de hipertensas.
+. &in ninguna in%ormacin previa.
Cap
teor #a preconcebida relativa a la caracter
a estudio. =al ser
nuevo puede tener un porcentaje de mejor
al estudio de la parcela de la Estad
t
gacin! la e*istencia de dos teor#as o hiptesis impl
lidadQ. /e la misma manera aparecen! impl
#tulo B
Contrastes de hiptesis
B.<. 6ntroduccin
\asta ahora hemos estudiado cmo a partir de una muestra de una
poblacin podemos obtener una estimacin puntual o bien establecer un
intervalo m(s o menos apro*imado para encontrar los par(metros que ri,
gen la ley de probabilidad de una v.a. de%inida sobre la poblacin. Es lo
que denomin(bamos estimacin puntual y estimacin con%idencial respec,
tivamente.
Pueden presentarse en la pr(ctica! situaciones en las que e*ista una
#stica de la poblacin sometida
#a el caso! por ejemplo si pensamos que un tratamiento
#a mayor que otro est(ndar! o
cuando nos planteamos si los ni-os de las distintas comunidades espa-olas
tienen la misma altura. Este tipo de circunstancias son las que nos llevan
#stica 6n%erencial que se recoge bajo el
#tulo gen'rico de Contraste de \iptesis. 6mplica! en cualquier investi,
#citas! que denominare,
mos hiptesis nula e hiptesis alternativa! que de alguna manera re%lejar(n esa
idea a priori que tenemos y que pretendemos contrastar con la Prea,
#citamente! di%erentes tipos de
errores que podemos cometer durante el procedimiento. )o podemos olvi,
+F1
Bioestad
querida. /esarrollamos en este cap
par(metros m(s usuales que venimos estudiando en los cap
tes desarrollados en este cap
\
F
2 8a altura media no di%iere de la del resto del pa
Al obtener una muestra de tama-o n W G! podr
+F7 #stica2 0'todos y Aplicaciones
dar que! habitualmente! el estudio y las conclusiones que obtengamos
para
una poblacin cualquiera! se habr(n apoyado e*clusivamente en el
an(lisis
de slo una parte de 'sta. /e la probabilidad con la que estemos
dispuestos
a asumir estos errores! depender(! por ejemplo! el tama-o de la muestra
re,
#tulo los contrastes de hiptesis para los
#tulos anteriores2
medias! varian"as y proporciones! para una o dos poblaciones. 8os
contras,
#tulo se apoyan en que los datos de partida
siguen una distribucin normal.
8os contrastes de signi%icacin se reali"an2
p suponiendo a priori que la ley de distribucin de la poblacin es conocida.
p &e e*trae una muestra aleatoria de dicha poblacin.
p &i la distribucin de la muestra es Pdi%erenteQ de la distribucin
de probabilidad que hemos asignado a priori a la poblacin!
concluimos que probablemente sea errnea la suposicin inicial.
Ejemplo
&upongamos que debemos reali"ar un estudio sobre la altura media
de los habitantes de cierto pueblo de Espa-a. Antes de tomar una
muestra! lo lgico es hacer la siguiente suposicin a priori! Hhiptesis
que se desea contrastar y que denotamos \
F
I2
#s.
#amos encontrarnos ante
uno de los siguientes casos2
<. 0uestra W w<!@F 9<!@+9 <!7G9 <!@@9 <!EF9 <!7B9 <!@@9 <!E1x
6ntuitivamente! en el caso a ser
con rotundidad que la hiptesis \
F
sea cierta! sin embargo no podr
es necesariamente as
El procedimiento general consiste en de%inir un estad
estad
estad #stico del contraste tome un valor %uera del mismo M regin cr
regin cr
B.<. 6)=C4/.CC64) +F@
+. 0uestra W w<!E@9 <!GF9 <!A19 <!@+9 <!A@9 <!E@9 <!A@9 <!AGx
#a lgico suponer que salvo que la muestra
obtenida sobre los habitantes del pueblo sea muy poco
representativa
<
! la
hiptesis \
F
debe ser recha"ada. En el caso b tal ve" no podamos a%irmar
#amos
descartarla y la admitimos por una cuestin de simplicidad.
Este ejemplo sirve como introduccin de los siguientes conceptos2 En un
contraste de hiptesis Htambi'n denominado test de hiptesis o Contraste de
signi%icacinI se decide si cierta hiptesis \
F
que denominamos hiptesis
nula puede ser recha"ada o no a la vista de los datos suministrados por una
muestra de la poblacin. Para reali"ar el contraste es necesario establecer
previamente una hiptesis alternativa H\
<
I que ser( admitida cuando
\
F
sea recha"ada. )ormalmente \
<
es la negacin de \
F
! aunque esto
no
#.
#stico = relacio,
nado con la hiptesis que deseamos contrastar. A 'ste lo denominamos
#stico del contraste. A continuacin suponiendo que \
F
es verda,
dera se calcula un intervalo de denominado intervalo de aceptacin
+
de la
hiptesis nula! H=
i
! =
s
I de manera que al calcular sobre la muestra = W =
e*p
el
criterio a seguir sea2
|
|
|
&i =
e*p
H=
i
! =
s
I W no recha"amos \
F
H zrecha"amos \
<
I9
&i =
e*p
H=
i
! =
s
I W recha"amos \
F
y aceptamos \
<
El intervalo de aceptacin o m(s precisamente! de no recha"o de la
hiptesis nula! se establece %ijando una cantidad su%icientemente peque-a
denominada nivel de signi%icacin! de modo que la probabilidad de que el
#ticaM
#tica o C W 6C z H=
i
! =
s
I
<
Esto ocurre con muy baja probabilidad en un muestreo aleatorio simple cuando el
n$mero de observaciones es alto
+
&e entiende la palabra Paceptacinomo en el sentido de Pno recha"oQ.
Bioestad
que es la probabilidad de que una muestra o%re"ca un valor del estad
del contraste e*tra-o Hen la regin cr
+FE #stica2 0'todos y Aplicaciones
cuando la hiptesis nula es cierta sea in%erior o al <FF ] X9 Esto se ha
de entender como sigue2
&i \
F
es correcta el criterio de recha"o slo se equivoca con probabilidad !
#stico
#ticaI.
8a decisin de recha"ar o no la hiptesis nula est( al %in y al cabo basado en
la eleccin de una muestra tomada al a"ar! y por tanto es posible cometer
decisiones errneas. 8os errores que se pueden cometer se clasi%ican como
sigue2
Error de tipo 6 2 Es el error que consiste en recha"ar \
F
cuando es cierta. 8a probabili,
dad de cometer este error es lo que anteriormente hemos denominado
nivel de signi%icacin. Es una costumbre establecida el denotarlo siem,
pre con la letra
f e f e
W P
recha"ar \
F q\
F es cierta
W P
aceptar \
< q\
F es cierta
Error de tipo 66 2 Es el error que consiste en no recha"ar \
F
cuando es %alsa. 8a proba,
bilidad de cometer este error la denotamos con la letra
f
W P no recha"ar \
F q\
e H f e I
W P
F es %alsa no recha"ar \
F q\
< es cierta
B.<.<. 4bservaciones
<. 8os errores de tipo 6 y 66 no est(n relacionados m(s que del si,
guiente modo2 Cuando decrece crece. Por tanto no es posible
encontrar tests que hagan tan peque-os como queramos ambos erro,
res simult(neamente. /e este modo es siempre necesario privilegiar
a una de las hiptesis! de manera que no ser( recha"ada! a menos
que su %alsedad se haga muy evidente. En los contrastes! la hiptesis
privilegiada es \
F
que slo ser( recha"ada cuando la evidencia de su
%alsedad supere el umbral del <FF ] H< [ I X.
+. Al tomar muy peque-o tendremos que se puede apro*imar a uno.
8o ideal a la hora de de%inir un test es encontrar un compromiso sa,
&implicidad cient
cient
caer( o no al vac
B.<. 6)=C4/.CC64) +FA
tis%actorio entre y Haunque siempre a %avor de \
F
I. /enominamos
potencia de un contraste a la cantidad < [ ! es decir
potencia del contraste
f e
o < [ W P recha"ar \
F q\
F es %alsa
no recha"ar \
F
recha"ar \
F
\
F
es cierta Correcto Error tipo 6
Probabilidad < [ Probabilidad
\
F
es %alsa Error tipo 66 Correcto
Probabilidad Probabilidad < [
1. En el momento de elegir una hiptesis privilegiada podemos en prin,
cipio dudar entre si elegir una dada o bien su contraria. Criterios a
tener en cuenta en estos casos son los siguientes2
#%ica2 A la hora de elegir entre dos hiptesis
#%icamente ra"onables! tomaremos como \
F
aquella que sea
m(s simple.
8as consecuencias de equivocarnos2 Por ejemplo al ju"gar el
e%ecto que puede causar cierto tratamiento m'dico que est( en %a,
se de e*perimentacin! en principio se ha de tomar como hipte,
sis nula aquella cuyas consecuencias por no recha"arla siendo
%alsa son menos graves! y como hiptesis alternativa aquella en
la que el aceptarla siendo %alsa trae peores consecuencias. Es
decir!
|
|
\F 2 el paciente empeora o queda igual ante el tratamiento
|
\
<
2 el paciente mejora con el tratamiento
4tro ejemplo claro es cuando acaban de instalar un nuevo ascensor
en el edi%icio que habitamos y queremos saber si el ascensor
#o cuando nosotros estemos dentro. .na persona
prudente es la que espera a que un n$mero su%iciente de vecinos
suyos hayan usado el ascensor Hmuestra aleatoriaI y reali"a un test
del tipo
Bioestad
basta con elegir la m(s probable Hnadie dir
estad
tendr
alejado de k W <! A7 Hregin cr
1
Estos valores de la media y la desviacin t
+FG
|
|
|
#stica2 0'todos y Aplicaciones
\
F
2 el ascensor se caer(
\
<
2 el ascensor no se caer(
y slo aceptar( la hiptesis alternativa para r F aunque para
ello tenga que ocurrir que r <! ya que las consecuencias del
error de tipo 6 Hir al hospitalI son mucho m(s graves que las del
error del tipo 66 Hsubir a pie varios pisosI.
Es decir a la hora de decidirse por una de las dos hiptesis no
#a Pvoy a tomar el
ascensor pues la probabilidad de que no se caiga es del EF XQI. \ay
que elegir siempre la hiptesis \
F
a menos que la evidencia a %avor
de \
<
sea muy signi%icativa.
5olviendo al ejemplo de la estatura de los habitantes de un pueblo! un
#stico de contraste adecuado es S . &i la hiptesis \
F
%uese cierta se
#a que
S )
H I
k! n
+
n
Hsuponiendo claro est( que la distribucin de las alturas de los espa-oles
siga una distribucin normal de par(metros conocidos! por ejemplo
1
H I
) k W <! A7! n
+
W <F
+
/enotemos mediante k
F
el verdadero valor de la media en el pueblo que
estudiamos. Como la varian"a de S es peque-a para grandes valores de n!
lo lgico es pensar que si el valor obtenido con la muestra S W * est( muy
#ticaI! entonces
o bien la muestra es muy e*tra-a si \
F
es cierta Hprobabilidad I9
#pica no han sido tomados de ning$n
estudio.
a un contraste unilateral! que son aquellos en los que la regin cr
Cegin cr
el contraste de hiptesis que deber
Como vemos! ahora s
es un contraste bilateral! que son aquellos en los que la regin cr
Cegin cr
B.<. 6)=C4/.CC64) +FB
o bien la hiptesis \
F
no es cierta.
Concretamente en el caso a! donde la muestra es
0uestra W w<! @F9 <! @+9 <! 7G9 <! @@9 <! EF9 <! 7B9 <! @@9 <! E1x
el contraste de hiptesis conveniente es2
|
|
\F 2 k W kF
|
\
<
2 k g k
F
En este caso \
<
no es estrictamente la negacin de \
F
. Esto dar( lugar
#tica
est( %ormada por un slo intervalo2
6ntervalo de no recha"o de \
F
o H=
i
! Z{I
#tica o H[{! =
i
e
En el caso b! donde la muestra es
0uestra W w<! E@9 <! GF9 <! A19 <! @+9 <! A@9 <! E@9 <! A@9 <! AGx
#amos reali"ar es2
|
|
|
\
F
2 k W k
F
\
<
2 k W k
F
# se puede decir que \
<
es la negacin de \
F
. Esto
#tica
est( %ormada por dos intervalos separados2
6ntervalo donde no se recha"a \
F
o H=
i
! =
s
I
#tica o H[{! =
i
e f=
s
! Z{I
8os $ltimos conceptos que introducimos son2
Bioestad
&upongamos que la caracter

las varian"as y desviaciones t


s
s
&
+<F #stica2 0'todos y Aplicaciones
\iptesis simple2 Aquella en la que se especi%ica un $nico valor del par(metro. Este es el
caso de las hiptesis nulas en los dos $ltimos contrastes mencionados.
\iptesis compuesta2 Aquella en la que se especi%ica m(s de un posible valor del par(metro.
Por ejemplo tenemos que son compuestas las hiptesis alternativas de
esos mismos contrastes.
B.+. Contrastes param'tricos en una poblacin nor,
mal
#stica S que estudiamos sobre la poblacin
sigue una distribucin normal y tomamos una muestra de tama-o n
S o S
<
! . . . ! S
n
mediante muestreo aleatorio simple. 5amos a ver cuales son las t'cnicas
para contrastar hiptesis sobre los par(metros que rigen S . 5amos a co,
men"ar haciendo di%erentes tipos de contrastes para medias y despu's sobre
#picas.
B.+.<. Contrastes para la media
=est de dos colas con varian"a desconocida
&ea S )
H
k! n
+
I donde ni k ni n
+
son conocidos y queremos reali"ar
el contraste |
|
|
\
F
2 k W k
F
\
<
2 k W k
F
Al no conocer n
+
va a ser necesario estimarlo a partir de su estimador inses,
gado2 la cuasivarian"a muestral! &
+
. Por ello la distribucin del estimador
del contraste ser( una t de &tudent! que ha perdido un grado de libertad2
\
F
cierta =
e*p
W S [ k
F
t
n[<
b
n
Consideramos como regin cr
costumbre denominar al valor del estad
la muestra como valor e*perimental y a los e*tremos de la regin cr
s
&
por analog
s
&
B.+. C4)=CA&=E& PACA0 h=C6C4& E) .)A P4B8AC64) )4C0A8+<<
#tica C ! a las observaciones de =
e*p
e*tremas
w x
C W =
e*p
j [t
n[<!<[c+
t
n[<!<[c+
j =
e*p
4bservacin
Para dar una %orma homog'nea a todos los contrastes de hiptesis es
#stico del contraste calculado sobre
#tica!
como valores tericos. /e%iniendo entonces
=
e*p
W S [ k
F
b
n
=
teo
W t
n[<!<[c+
el resultado del contraste es el siguiente2
|
|
|
si q=
e*p
q a =
teo
W no recha"amos \
F
9
si q=
e*p
q g =
teo
W recha"amos \
F
y aceptamos \
<
.
=ests de una cola con varian"a desconocida
&i reali"amos el contraste
|
|
|
|
\
F
2 k W k
F
|
|o
\
<
2 k j k
F
| |
| \
F
2 k l k
F
|
bien |
|
\
<
2 k j k
F
#a con el contraste bilateral! de%iniremos
=
e*p
W S [ k
F
b
n
=
teo
W t
n[<!<[
Bioestad
3igura B.<2 &ombreada apreciamos la regin cr
+<+ #stica2 0'todos y Aplicaciones
)o hay evidencia contra \F
tn<, + tn<, < +
[1 [+ [< F < + 1
#tica sombreada para el con,
traste bilateral de una media.
y el criterio para contrastar al nivel de signi%icacin es
|
|
|
si =
e*p
l [=
teo
W no recha"amos \
F
9
si =
e*p
a [=
teo
W recha"amos \
F
y aceptamos \
<
.
Para el contraste contrario!
|
|
|
|
\
F
2 k W k
F
|
|o
\
<
2 k g k
F
| |
| \
F
2 k a k
F
|
bien |
|
\
<
2 k g k
F
de%inimos =
e*p
y =
teo
como anteriormente y el criterio a aplicar es Hv'ase la
%igura B.1I2
|
|
|
si =
e*p
a =
teo
W no recha"amos \
F
9
si =
e*p
g =
teo
W recha"amos \
F
y aceptamos \
<
.
3igura B.+2 Cegin cr
B.+. C4)=CA&=E& PACA0 h=C6C4& E) .)A P4B8AC64) )4C0A8+<1
)o hay evidencia contra \F
tn<, <
[1 [+ [< F < + 1
#tica a la derechapara el contrastes unilaterales de una
media.
Ejemplo
Conocemos que las alturas S de los individuos de una ciudad! se distri,
buyen de modo gaussiano. /eseamos contrastar con un nivel de signi%icacin
de W F! F@ si la altura media es di%erente de <A7 cm. Para ello nos basamos
en un estudio en el que con una muestra de n W +@ personas se obtuvo2
* W <AF cm
& W <F cm
&olucin2
El contraste que se plantea es2
|
|
|
\
F
2 k W <A7 cm
\
<
2 k W <A7 cm
Bioestad
3igura B.12 Cegin cr
que toma el estad
s
&
+<7 #stica2 0'todos y Aplicaciones
)o hay evidencia contra \F
tn<,
[1 [+ [< F < + 1
#tica a la i"quierda para el contrastes unilateral de una
media.
8a t'cnica a utili"ar consiste en suponer que \
F
es cierta y ver si el valor
#stico
=
e*p
W * [ <A7 t
n[<
W t
+7
b
n
es Pra"onable.
o
no bajo esta hiptesis! para el nivel de signi%icacin dado.
Aceptaremos la hiptesis alternativa Hy en consecuencia se recha"ar( la
hiptesis nulaI si no lo es! es decir! si
q=
e*p
q l t
+79<[c+
W t
+7!F!BA@
W +! FE
Para ello procedemos al c(lculo de =
e*p
2
b
& W <F W &s W &
b
n +@
n [ < W <F +7 W <Fd
+FE
q=
e*p
q W q<A
<F
[ <A7q
3igura B.72 El valor de =
e*p
no est( en la regin cr
B.+. C4)=CA&=E& PACA0 h=C6C4& E) .)A P4B8AC64) )4C0A8+<@
!+FE
W q[<! B@Bq a t
+79F!BA@
W +! FE
b
+@
8uego! aunque podamos pensar que ciertamente el verdadero valor de k no es
<A7! no hay una evidencia su%iciente para recha"ar esta hiptesis al nivel de
con%ian"a del B@ X. Es decir! no se recha"a \
F
.
#tica Haunque ha quedado
muy cercaI! por tanto al no ser la evidencia en contra de \
F
su%icientemente
signi%icativa! 'sta hiptesis no se recha"a.
Ejemplo
Consideramos el mismo ejemplo de antes. 5isto que no hemos podido
recha"ar el que la altura media de la poblacin sea igual a <A7 cm! deseamos
reali"ar el contraste sobre si la altura media es menor de <A7 cm.
&olucin2
Ahora el contraste es
Bioestad
Para reali"ar este contraste! consideramos el caso l
el valor que toma el estad
s
&
anterior no e*ist
+<E
|
|
|
#stica2 0'todos y Aplicaciones
\
F
2 k l <A7 cm
\
<
2 k j <A7 cm
#mite y observamos si la
hiptesis nula debe ser recha"ada o no. Este es2
|
|
|
\
d F
2 k W <A7 cm
\
<
2 k j <A7 cm
/e nuevo la t'cnica a utili"ar consiste en suponer que \
dF
es cierta y ver si
#stico
=
e*p
W * [ <A7 t
n[<
W t
+7
b
n
es aceptable bajo esta hiptesis! con un nivel de con%ian"a del B@ X. &e
aceptar( la hiptesis alternativa Hy en consecuencia se recha"ar( la hiptesis
nulaI si
=
e*p
a t
+79
W [t
+79<[
W [t
+79F!B@
W [<! A<
Cecordamos que el valor de =
e*p
obtenido %ue de
=
e*p
W [<! B@B j t
+79F!F@
W [t
+79F!B@
W [<! A<
Por ello hemos de aceptar la hiptesis alternativa
Es importante observar este hecho curioso2 0ientras que en el ejemplo
#a una evidencia signi%icativa para decir que k W <A7 cm!
el Psimple hechoQde plantearnos un contraste que parece el mismo pero en
versin unilateral nos conduce a recha"ar de modo signi%icativo que k W <A7
y aceptamos que k j <A7 cm. Es por ello que podemos decir que no slo
3igura B.@2 El valor te =
e*p
est( en la regin cr
B.+. C4)=CA&=E& PACA0 h=C6C4& E) .)A P4B8AC64) )4C0A8+<A
#tica! por tanto e*iste una
evidencia signi%icativa en contra de \
F
! y a %avor de \
<
.
\
dF
es recha"ada! sino tambi'n \F
. Es en este sentido en el que los tests
con \
F
y \
dF
los consideramos equivalentes2
| |
|
\
dF
2 k W <A7 cm
|
\F 2 k l <A7 cm

| |
\
<
2 k j <A7 cm \
<
2 k j <A7 cm
Bioestad
para observar que el siguiente estad
s
Entonces construimos las regiones cr
s
+<G #stica2 0'todos y Aplicaciones
B.+.+. Contrastes para la varian"a
Consideremos que el car(cter que estudiamos sobre la poblacin sea una
v.a. normal cuya media y varian"a son desconocidas. 5amos a contrastar la
hiptesis
\
F
2 n
+
W n
F
! donde n
F
es un valor pre%ijado
%rente a otras hiptesis alternativas que podr(n dar lugar a contrastes
bilaterales o unilaterales. 8a t'cnica consiste en utili"ar el teorema de Cochran!
#stico e*perimental que utili"a el esti,
mador insesgado de la varian"a! posee una distribucin J
+
! con n [ < grados de
libertad2
\
F
cierta W J
e*p
W Hn [ <I ]
&
+
n
F
J n [<
#ticas que correspondan a las hiptesis
alternativas que se %ormulen en cada caso atendiendo a la ley de distribucin
J
+
.
Contraste bilateral
Cuando el contraste a reali"ar es
|
|
|
de%inimos
J
e*p
ateo
\
F
2 n
+
W n
F
\
<
2 n
+
W n
F
W Hn [ <I ]
W J
n [<!c+
&
+
n
F
b
teo
W J
n [<!<[c+
calculamos el e*tremo in%erior de la regin cr
B.1. C4)=CA&=E& /E .)A PC4P4CC64)
y el criterio que suministra el contraste es
|
+<B
|
|
si a
teo
a J
e*p
a b
teo
si J
e*p
j a
teo
J
e*p
g b
teo
W no recha"amos \
F
9
W recha"amos \
F
y aceptamos \
<
.
Contrastes unilaterales
Para un contraste de signi%icacin al nivel del tipo
|
|
|
|
\
F
2 n
+
W n
F
|
|o
\
<
2 n
+
j n
F
| |
| \
F
2 n
+
l n
F
|
bien |
|
\
<
2 n
+
j n
F
se tiene que el resultado del mismo es2
|
|
ateo W J
n [<!
[_ |
si a
teo
a J
e*p
W no recha"amos \
F
9
si J
e*p
j a
teo
W recha"amos \
F
y aceptamos \
<
.
Para el contraste contrario tenemos la %ormulacin an(loga
|
|
|
bucin J
n [<
|
\
F
2 n
+
W n
F
|
|o
\
<
2 n
+
g n
F
|
| si J
e*p
a b
teo
| |
| \
F
2 n
+
a n
F
|
bien |
|
\
<
2 n
+
g n
F
#tica en una tabla de la distri,
W no recha"amos \
F
9
b
teo
W J
n [<!<[
[_
|
si b
teo
j J
e*p
W recha"amos \
F
y aceptamos \
<
B.1. Contrastes de una proporcin
&upongamos que poseemos una sucesin de observaciones independientes!
de modo que cada una de ellas se comporta como una distribucin de
Bernoulli de par(metro p2
Bioestad

n
s
%rente a otras hiptesis alternativas. Para ello nos basamos en un estad
s
s
s
W R
e*p r
++F #stica2 0'todos y Aplicaciones
S o S
<
! . . . ! S
i
! . . . ! S
n
! donde S
i
Ber HpI
8a v.a. S ! de%inida como el n$mero de '*itos obtenidos en una muestra de
tama-o n es por de%inicin una v.a. de distribucin binomial2
Y
S W S
i
B Hn! pI
iW<
8a proporcin muestral Hestimador del verdadero par(metro p a partir de la
muestraI es
P W S
n
)os interesamos en el contraste de signi%icacin de
\
F
2 p W p
F
! donde p
F
es un valor pre%ijado
#sti,
co Hde contrasteI que ya %ue considerado anteriormente en la construccin
de intervalos de con%ian"a para proporciones y que sigue una distribucin
apro*imadamente normal para tama-os muestrales su%icientemente gran,
des2
r
H
I
P W S
n
) p! pq
n
&i la hiptesis \
F
es cierta se tiene
H I
r
P [ p
F
P W S )
n p
F
! p
F
q
F
b ) HF! <I
n p
F
q
F
n
Re*p W bp [ p
F
B.1. C4)=CA&=E& /E .)A PC4P4CC64) ++<
Contraste bilateral
Para el contraste
|
|
\F 2 p W pF
|
\
<
2 p W p
F
e*traemos una muestra y observamos el valor S W * p W
n
. Entonces
se de%ine
W b
p [ p
F
Re*p
p
F
q
F
n
Rteo
W "
<[c+
siendo el criterio de aceptacin o recha"o de la hiptesis nula el que re%leja
la%igura B.E2
|
|
|
si qR
e*p
q a R
teo
W aceptamos \
F
9
si qR
e*p
q g R
teo
W recha"amos \
F
y aceptamos \
<
.
Contrastes unilaterales
Consideremos un contraste del tipo
|
|
|
|
| |
|
\
F
2 p W p
F
|
|o
\
<
2 p j p
F
|
| |
| \
F
2 p l p
F
|
bien |
|
\
<
2 p j p
F
|
|
| |
Rteo W "
p
F
q
F
| si R
e*p
a R
teo
n _
|
si R
e*p
g R
teo
W recha"amos \
F
y aceptamos \
<
9
W no recha"amos \
F
.
Bioestad
Re*p W bp [ p
F
+++ #stica2 0'todos y Aplicaciones
)(F, <)
)o hay evidencia contra \F
" +
"< +
[1 [+ [< F < + 1
3igura B.E2 Contraste bilateral de una proporcin.
Para el test unilateral contrario! se tiene la e*presin sim'trica
| | | |
|
\F 2 p W pF
|
\F 2 p a pF
| |
|
8uego
|
|
|o
\
<
2 p g p
F
|
bien |
|
\
<
2 p g p
F
| |
|
| |
p
F
q
F
| si R
e*p
a R
teo
n _
|
si R
e*p
g R
teo
Rteo W "<[
W no recha"amos \
F
9
W recha"amos \
F
y aceptamos \
<
.
Ejemplo
&e cree que determinada en%ermedad se presenta en mayor medida en
hombres que en mujeres. Para ello se elige una muestra aleatoria de <FF de
8a estimacin puntual de p es p W AFc<FF W F! A. El estad
grandeQ. /icho de otro modo! los valores cr
B.1. C4)=CA&=E& /E .)A PC4P4CC64) ++1
)(F, <)
)o hay evidencia contra \F
"
[1 [+ [< F < + 1
3igura B.A2 Contraste unilateral cuando se tiene \
F
2 p l p
F
estos en%ermos y se observa que AF son hombres. :;u' podemos concluir?
&olucin2 &ea p la proporcin de hombres que e*isten entre los en%ermos.
;ueremos encontrar evidencia a %avor H\
<
I de que p g <c+! pero nuestra
hiptesis de partida Hmientras no tengamos evidencia en contraI es que
p W <c+ H\
F
I. Es decir! plantemos el siguiente contraste unilateral para
una proporcin2 |
|
|
usamos para el contraste es2
\
F
2 p W <c+
\
<
2 p g <c+
#stico que
R W b p [ p
pqcn
) HF! <I
Est( claro que se obtien mayor evidencia a %avor de \
<
cuando los valores de
p se acercan a <! o lo que es lo mismo! cuando R se hace Psu%icientemente
#ticos de R Hlos que nos conducen
Bioestad
&i elegimos W @ X! los valores cr
5eamos si el valor e*perimental del estad
Como se aprecia! R
e
*p entra ampliamente dentro de la regin cr
cierta! deber#amos esperar que el valor del estad
++7 #stica2 0'todos y Aplicaciones
a recha"ar \
F
y aceptar \
<
son los de la cola de la derecha de la distribucin )
HF! <I.
#ticos son los que est(n situados a la
derecha del percentil B@ de esta distribucin! es decir! los valores superiores a
"
teo
W "
<[
W <! BE.
#stico Hel calculado a partir de
la muestra si suponemos cierta \
F
I supera o no dicho valor2
Re*p W
p [ p
b
pqcn
F!A [ F! @
W b W 7
F!@ ^ F! @c<FF
#tica! por
tanto hemos de concluir con el recha"o de la hiptesis nula y la aceptacin de
la hiptesis alternativa.
Cesumamos el ejemplo con otras palabras2 &i la hiptesis nula %uese
#stico R no %uese Pdemasia,
do grandeQ. Por tanto como hemos obtenido un valor PgrandeQ del mismo!
debemos concluir que la hiptesis de partida H\
F
I ha de ser recha"ada. El
valor "
teo
se calcula e*clusivamente a partir de ! y nos sirve para saber a
que nos re%erimos por un valor Pdemasiado grandeQ para R .
B.7. Contrastes para la di%erencia de medias apa,
readas
8as muestras apareadas aparecen como distintas observaciones reali"adas
sobre los mismos individuos. .n ejemplo de observaciones apareadas consiste
en considerar a un conjunto de n personas a las que se le aplica un tratamiento
m'dico y se mide por ejemplo el nivel de insulina en la sangre antes HS I y
despu's del mismo HT I
Paciente *
i
y
i
d
i
< <@F <+F 1F
+ <GF <1F @F
n <7F BF @F
contrastar el que los pacientes han e*perimentado o no una mejor
en el caso en que \
F
%uese cierta tendr#amos que el estad
s
muestral de las mismas. El tipo de contraste ser
B.7. C4)=CA&=E& PACA 8A /63ECE)C6A /E 0E/6A& APACEA/A&++@
)o es posible considerar a S e T como variables independientes
ya
que va a e*istir una dependencia clara entre las dos variables. &i
queremos
#a con
el tratamiento! llamemos d
i
a la di%erencia entre las observaciones antes y
despu's del tratamiento
d
i
W *
i
[ y
i
&upongamos que la v.a. que de%ine la di%erencia entre el antes y despu's del
tratamiento es una v.a. d que se distribuye normalmente! pero cuyas media y
varian"a son desconocidas
H I
d )
kd
! n
d
&i queremos contrastar la hiptesis de que el tratamiento ha producido
cierto e%ecto
que nos conviene es
\
F
2 kd
W !
=
e*p
W d [ < t
n[<
#stico de contraste
b
n &d
donde d es la media muestral de las di%erencias d
i
y &s
d
es la cuasivarian"a
#a entonces del mismo tipo
que el reali"ado para la media con varian"a desconocida.
Contraste bilateral
Consideramos el contraste de tipo
|
|
|
\
F
2 k
d
W
\
<
2 k
d
W
Bioestad
s
++E
Entonces se de%ine
=
e*p
W d [
<
#stica2 0'todos y Aplicaciones
b
n &d
y se recha"a la hiptesis nula cuando =
e*p
j [t
n[<!<[c+
=
e*p
g t
n[<!<[c+
.
Contrastes unilaterales
&i el contraste es
|
|
|
|
\
F
2 k
d
W
|
|o
\
<
2 k
d
j
| |
| \
F
2 k
d
l
|
bien |
|
\
<
2 k
d
j
entonces se recha"a \
F
si =
e*p
j [t
n[<!<[
. Para el test contrario
|
|
|
|
\
F
2 k
d
W
|
|o
\
<
2 k
d
g
| |
| \
F
2 k
d
a
|
bien |
|
\
<
2 k
d
g
se recha"a \
F
si =
e*p
g t
n[<!<[
.
Ejemplo
&e pretende demostrar que cierto tratamiento practicado durante un
mes! ayuda a reducir el colesterol. Para ello se reli"a un estudio con una
muestra aleatoria simple de <F personas. 8os resultados se muestran a con,
tinuacin.
Antes +FF +<F 11F +7F +EF 1FF +7@ +<F <BF ++@
/espu's <@F +FF +A@ +@F +FF +@F +FF <GF <BF +F@
:;ue podemos concluir de estos datos.
&olucin2 4bs'rvese que las mediciones se reali"an sobre las mismas
personas! por tanto no tenemos dos muestras aleatorias independientes!
sino una sola! en la cual lo que nos interesa es la di%erencia producida
entre el colesterol antes del tratamiento y despu's del mismo. Para ello
do Hbaja el colesterolI es lo mismo que encontrar evidencia estad
variable di%erencia. El estad
s
lo que equivale a decir que la regin cr
W F! F@! los valores cr
t
s
B.7. C4)=CA&=E& PACA 8A /63ECE)C6A /E 0E/6A& APACEA/A&++A
introducimos una nueva variable que e*presa la di%erencia e*istente
entre el colesterol antes del tratamiento y despu's del mismo2
d W S
ant
[ S
des
Antes +FF +<F 11F +7F +EF 1FF +7@ +<F <BF ++@
/espu's <@F +FF +A@ +@F +FF +@F +FF <GF <BF +F@
/i%erencia @F <F @@ ,<F EF @F 7@ 1F F +F
Encontrar evidencia a %avor de que el tratamiento surgen el e%ecto desea,
#sticamente
signi%icativa en el contraste2
|
|
|
\
F
2 k
d
W F
\
<
2 k
d
g F
Esto es de nuevo un contraste para una media! que se reali"a sobre la
#stico que usamos es2
=
e*p
W d [ k
d
t
n[<
W t
B
bd
n
&i d es Pmuy grandeQ deberemos concluir que la hiptesis \
<
es correcta!
#tica del contraste est( en la cola
de la derecha de la distribucin t
B
. &i elegimos un nivel de signi%icacin
#ticos del contraste son los que superan al percentil
B@ de la distribucin mencionada! es decir! son los que superan la cantidad =
teo
W =
B9F!B@
W <! G11<.
Para ver si =
e*p
supera el valor terico hemos de calcular previamente a
partir de la muestra las estimaciones insesgadas de la media y la desviacin
#pica2
d W 1<
&d
W A! 71
Bioestad
El valor e*perimental se encuentra claramente en la regin cr
contraste H=
e*p
g =
teo
I por tanto concluimos que e*iste evidencia estad
del siguiente estad
++G #stica2 0'todos y Aplicaciones
8uego si suponemos que la hiptesis nula es cierta y que la variable di%e,
rencia sigue una distribucin normal de par(metros desconocidos! tenemos2
=
e*p
W
1< [ F
b W <1! <B
A!71c <F
#tica del
#sti,
camente signi%icativa en contra de la hiptesis nula y a %avor de la hiptesis
alternativa Hal menos con un nivel de signi%icacin del @ XI.
B.@. Contrastes de dos distribuciones normales in,
dependientes
Consideramos a lo largo de toda esta seccin a dos poblaciones normales
que representamos mediante
H I
S
<
) k
<
! n
<
H I
S
+
) k
+
! n
+
/e las que de modo independiente se e*traen muestras de tama-o respectivo n
<
y n
+
. 8os tests que vamos a reali"ar est(n relacionados con la di%erencias
e*istentes entre ambas medias o los cocientes de sus varian"as.
B.@.<. Contraste de medias con varian"as conocidas
/e manera similar al caso del contraste para una media! queremos en
esta ocasin contrastar la hiptesis de que las dos poblaciones Hcuyas
varian"as suponemos conocidasI slo di%ieren en una cantidad
\
F
2 k
<
[ k
+
W
%rente a hiptesis alternativas que dar(n lugar a contrastes unilaterales o
bilaterales como veremos m(s tarde. Para ello nos basamos en la distribucin
#stico de contraste2
R W HS <
[ S
+
I [
B.@. C4)=CA&=E& /E /4& /6&=C6B.C64)E& )4C0A8E& 6)/EPE)/6E)=E&
++B
|
H I
\
F
cierta W
| |
| |
|
S
<
) k
<
! n
<
n
<
H I
| | | S
+
)
k
+
! n
+
n
+
H I
Contraste bilateral
W S
<
[ S
+
)
b
n
<
n< Z
! n
<
n
<
Z n
+
) HF! <I
n
+
n+
Consideremos en primer lugar el contraste de dos colas
|
|
|
&e de%ine entonces
\
F
2 k
<
[ k
+
W
\
<
2 k
<
[ k
+
W
HS
<
[ S
+
I [
Re*p
W b
n
<
n
+
n< Z n+
Rteo
W "
<[c+
y el test consiste en
|
|
si qRe*p q a Rteo W no recha"amos \ F 9
|
si qR
e*p
q g R
teo
W recha"amos \
F
y aceptamos \
<
.
Bioestad +1F
Contrastes unilaterales
Para el test
| |
| \
F
2 k
<
[ k
+
W
|
|o bien
#stica2 0'todos y Aplicaciones
| |
| \
F
2 k
<
[ k
+
l
|
|
| \
<
2 k
<
[ k
+
j |
\
<
2 k
<
[ k
+
j
el contraste consiste en
|
|
Rteo W " W ["<[ _ |
si R
e*p
l R
teo
W no recha"amos \
F
9
si R
e*p
j R
teo
W recha"amos \
F
y aceptamos \
<
.
y para el contraste de signi%icacin contrario
|
|
|
se tiene
\
F
2 k
<
[ k
+
W
\
<
2 k
<
[ k
+
g
|
| si R
e*p
a R
teo
| |
| \
F
2 k
<
[ k
+
a
|
|o bien
|
\
<
2 k
<
[ k
+
g
W no recha"amos \
F
9
|
|
|
Rteo W "<[ _ |
si R
e*p
g R
teo
W recha"amos \
F
y aceptamos \
<
.
pero desconocidas. El estad
=
e*p
W HS <
[ S
+
I [ Hk
<
[ k
+
I
s
s
s
B.@. C4)=CA&=E& /E /4& /6&=C6B.C64)E& )4C0A8E& 6)/EPE)/6E)=E&
+1<
B.@.+. Contraste de medias homoced(ticas
Ahora consideramos el problema de contrastar
\
F
2 k
<
[ k
+
W
cuando slo conocemos que las varian"as de ambas poblaciones son iguales!
#stico que usaremos para el contraste %ue ya
introducido en la relacin HG.+I! pues si suponemos que \
F
es cierta se
tiene
b
< <
& n< Z n+
t
n
< Zn+ [+
donde &s
+
es la cuasivarian"a muestral ponderada de &s
<
y &s
+
&
+
W Hn<
[ <I&s
<
Z Hn+
[ <I&s
+
n
<
Z n
+
[ +
4bs'rvese que se han perdido dos grados de libertad a causa de la estimacin
de n
<
W n
+
mediante &s
<
y &s
+
.
Contraste bilateral
Para el contraste de signi%icacin
|
|
|
\
F
2 k
<
[ k
+
W
\
<
2 k
<
[ k
+
W
se tiene como en casos anteriores que el contraste adecuado consiste en
de%inir
=
e*p
W
HS
<
[ S
+
I [ Hk
<
[ k
+
I
b
< <
=
teo
& n< Z
W t
n
<Zn+ [+!<[c+
n+
Bioestad
+1+ #stica2 0'todos y Aplicaciones
y recha"ar o admitir la hiptesis nula siguiendo el criterio
|
|
|
si q=
e*p
q a =
teo
W no recha"amos \
F
9
si q=
e*p
q g =
teo
W recha"amos \
F
y aceptamos \
<
.
Contrastes unilaterales
Cuando el contraste es unilateral del modo
|
|
|
|
\
F
2 k
<
[ k
+
W
|
|o
\
<
2 k
<
[ k
+
j
| |
| \
F
2 k
<
[ k
+
l
|
bien |
|
\
<
2 k
<
[ k
+
j
el contraste se reali"a siguiendo el mismo proceso que en otros reali"ados
anteriormente! lo que nos lleva a
|
|
=
teo
W [t
n
< Zn+ [+!<[
_
|
si =
e*p
l =
teo
W no recha"amos \
F
9
si =
e*p
j =
teo
W recha"amos \
F
y aceptamos \
<
.
y cuando el contraste de signi%icacin es el contrario
|
|
|
|
\
F
2 k
<
[ k
+
W
|
|o
\
<
2 k
<
[ k
+
g
| |
| \
F
2 k
<
[ k
+
a
|
bien |
|
\
<
2 k
<
[ k
+
g
del mismo modo
|
|
=
teo
W t
n
< Zn+ [+!<[
_
|
si =
e*p
a =
teo
W no recha"amos \
F
9
si =
e*p
g =
teo
W recha"amos \
F
y aceptamos \
<
.
B.@.1. Contraste de medias no homoced(ticas
Consideramos el contraste
cidas y signi%icativamente di%erentes. En este caso el estad
tamente! el estad
s s
s s
s s
B.@. C4)=CA&=E& /E /4& /6&=C6B.C64)E& )4C0A8E& 6)/EPE)/6E)=E&
+11
\
F
2 k
<
[ k
+
W
en el caso m(s problem(tico! es decir cuando slo conocemos de las dos
poblaciones que su distribucin es normal! y que sus varian"as no son cono,
#stico de contraste
tendr( una ley de distribucin muy particular. Consistir( en una distribu,
cin t de &tudent! con un n$mero de grados de libertad que en lugar de
depender de modo determinista de la muestra Ha trav's de su tama-oI!
depende de un modo aleatorio mediante las varian"as muestrales. Concre,
#stico que nos interesa es
= W HSb<
[ S
+
I [ t
%
&
<
&
+
n
<
Z n
+
donde % es el n$mero de grados de libertad que se calcula mediante la
%rmula de Lelch
H
% W H
&
<
n
<
Z
I
+
I
+
&
+
n
+
H I
+
[ +
< &
<
n
<
Z < n
<
Z
< &
+
n
+
Z < n
+
)o desarrollamos en detalle los c(lculos a reali"ar! pues la t'cnica para
e%ectuar los contrastes son an(logos a los vistos anteriormente cuando las
varian"as son desconocidas e iguales.
4bservacin
&i lo que pretendemos contrastar es si las medias poblacionales de dos
muestras independientes obtenidas de poblaciones normales son id'nticas!
esto se reduce a los casos anteriores tomando W F! es decir! reali"ando el
contraste2
Bioestad
Hn
<
[ <I
Hn
<
[ <I
s
Hn
+
[ <I
Hn
+
[ <I
s
s
s
+17
|
|
|
#stica2 0'todos y Aplicaciones
\
F
2 k
<
[ k
+
W F
\
<
2 k
<
[ k
+
W F
B.@.7. Contrastes de la ra"n de varian"as
Consideramos dos muestras independientes de dos poblaciones que se
distribuyen normalmente Hcuyas medias y varian"as son desconocidasI. 5a,
mos a abordar cuestiones relacionadas con saber si las varian"as de ambas
poblaciones son las mismas! o si la ra"n HcocienteI entre ambas es una
cantidad conocida! C. 8a igualdad entre las dos varian"as puede escribirse
n
<
[ n
+
W F o bien! la e*istencia de una di%erencia entre ambas HI! del
modo n
<
[ n
+
W . Este modo de escribir la di%erencia entre varian"as Hque
era el adecuado para las mediasI no es sin embargo %(cil de utili"ar para las
varian"as! de modo que nos ser( m(s %(cil sacarle partido a las e*presiones
de las relaciones entre varian"as como
n
<
n
+
W C.
Por ejemplo! si C W < tenemos que ambas varian"as son iguales.
Consideramos entonces la hiptesis nula
\
F
2 n
+
n
+
W C
la cual vamos a contrastar teniendo en cuenta que2
|
Hn
<
[ <I&s
<
|
J
n
|
n
<
< [< |
| |
Hn
+
[ <I&s
+
|
J
n
+ [<
n
+
< z
z n
<
W
< z
z n
+
&
<
&
<
W n
+
3
n
<[<!n+ [<
&
+
n
<
&
+
Por tanto el estad
s
s
que tome el estad
muy cercano a cero! o bien! muy grande. Es decir! se de%ine el estad
e*perimental y los l#mites de la regin cr
s
s
B.@. C4)=CA&=E& /E /4& /6&=C6B.C64)E& )4C0A8E& 6)/EPE)/6E)=E& +1@
#stico del contraste que nos conviene tiene una distribucin
conocida cuando \
F
es cierta Mv'ase la de%inicin de la distribucin de
&nedecor2
3 W <
C
Contraste bilateral
&
<
3
n
<[<!n+ [<
&
+
El contraste bilateral para el cociente de varian"as se escribe como2
|
| |
|
|
|
|
\
F
2 n
+
n
+
W C
\
<
2 n
+
n
+
W C
\abida cuenta que la distribucin 3 de &nedecor no es sim'trica sino que
slo toma valores positivos! se recha"ar( la hiptesis nula cuando el el valor
#stico del contraste al aplicarlo sobre una muestra sea
#stico
#tica como2
3
e*p
W
< &
<
C &
+
ateo
W 3n<[<!n+ [<!c+
b
teo
W 3
n
<[<!n+ [<!<[c+
y el criterio de aceptacin o recha"o es2
|
|
|
si a
teo
a 3
e*p
a b
teo
si 3
e*p
j a
teo
3
e*p
g b
teo
W no recha"amos \
F
9
W recha"amos \
F
.
Bioestad
si tienen la misma varian"a. El test de homocedasticidad ser
+1E #stica2 0'todos y Aplicaciones
B.@.@. Caso particular2 Contraste de homocedasticidad
En la pr(ctica un contraste de gran inter's es el de la homocedasticidad o
igualdad de varian"as. /ecimos que dos poblaciones son homoced(ticas
#a entonces el
mismo que el de un cociente de varian"as! donde C W <! es decir2
|
|
|
4bservacin
\
F
2 n
<
W n
+

\
<
2 n
<
W n
+
|
|
|
|
|
|
|
\
F
2 n
+
n
+
W <
\
<
2 n
+
n
+
W <
.na de las ra"ones de la importancia de este contraste es la siguiente2 &i
queremos estudiar la di%erencia entre las medias de dos poblaciones normales!
el caso m(s realista es considerar un contraste donde las varian"as de las
poblaciones son desconocidas. Ante esta situacin podemos encontrarnos dos
situaciones2
<. 8as dos varian"as son iguales. Este es el caso m(s %avorable pues
utili"amos la distribucin de &tudent para el contraste con un n$mero
de grados de libertad que slo depende del tama-o de la muestra.
+. 8as varian"as son distintas. En este caso el n$mero de grados de
libertad es una v.a. H%rmula de LelchI y por tanto al reali"ar el
contraste se pierde cierta precisin.
En esta situacin lo recomendable es
En primer lugar reali"ar un test de homocedasticidad.
&i la igualdad de varian"as no puede ser recha"ada de modo
signi%icativo! aplicamos un test de di%erencia de medias suponiendo que
las varian"as son desconocidas pero iguales. En otro caso se utili"a la
apro*imacin de Lelch.
s
s
s
s
s
s
ya que as
s
s
B.@. C4)=CA&=E& /E /4& /6&=C6B.C64)E& )4C0A8E& 6)/EPE)/6E)=E&
+1A
4bservacin
Al reali"ar el contraste bilateral sobre la igualdad de varian"as
podemos tambi'n economi"ar parte de trabajo de%iniendo 3
e*p
como el
cociente entre la mayor varian"a muestral y la menor
|
|
| |
|
3
e*p
W |
| |
|
&
<
&
+
&
+
&
<
si &
<
l &s
+
W 3
e*p
l <
si &
+
g &s
<
# no es necesario calcular el e*tremo in%erior para la regin donde
no se recha"a \
F
! pues 3
e*p
nunca estar( pr*ima a F. Con esta de%inicin
de 3
e*p
el criterio a seguir %rente al contraste de signi%icacin para un valor
dado es2
|
|
3
teo
W |
|
|
W |
Ejemplo
3
n
< [<!n+ [<!<[ si &
<
l &s
+
3
n
+ [<!n< [<!<[ si &
+
g &s
<
si 3
e*p
a b
teo
W no recha"amos \
F
9
si 3
e*p
g b
teo
W recha"amos \
F
.
&e desea comparar la actividad motora espont(nea de un grupo de +@
ratas control y otro de 1E ratas desnutridas. &e midi el n$mero de veces que
pasaban delante de una c'lula %otoel'ctrica durante +7 horas. 8os datos
obtenidos %ueron los siguientes2
Catas de control n
<
W +@ *
<
W GEB! G &
<
W <FE! A
Catas desnutridas n
+
W 1E *
+
W 7E@ &
+
W <@1! A
:&e observan di%erencias signi%icativas entre el grupo control y el grupo
desnutrido?
Bioestad
En primer lugar! por tratarse de un problema de in%erencia estad
s
s
estad
&uponiendo \
F
cierta! tenemos que el estad
s
s
s
s
s
s
ya que as
s
s
+1G #stica2 0'todos y Aplicaciones
&olucin2
#stica!
nos ser(n m(s $tiles las cuasivarian"as que las varian"as. Por ello
calcula,
mos2
&
<
&
+
W n
<
n
<
[ < &
<
W +7 <FE! A
+
W <<!G@B! +E
W n
+
n
+
[ < &
+
W 1@ <@1! A
+
W +7!+BG! E@1
El contraste que debemos reali"ar est( basado en el de la t de &tudent
para la di%erencia de medias de dos poblaciones. Para ello conocemos dos
#sticos posibles! seg$n que las varian"as poblacionales de ambos gru,
pos de ratas puedan ser supuestas iguales HhomocedasticidadI o distintas
HheterocedasticidadI. Para ello reali"amos previamente el contraste2
|
|
|
es
\
F
2 n
<
W n
+

\
<
2 n
<
W n
+
|
|
|
|
|
|
|
|
\
F
2 n
+
n
+
W <
\
<
2 n
+
n
+
W <
#stico del contraste conveniente
3
e*p
W
|
| |
|
| |
| |
&
<
&
+
&
+
&
<
si &
<
l &s
+
W 3
e*p
l <
si &
+
g &s
<
# no es necesario calcular el e*tremo in%erior para la regin donde no
se recha"a \
F
. En este caso2
3
e*p
W
&
+
&
<
W +
d
F7GB 3
n
+ [<!n< [<
3
teo
W 3
1@!+7!F
d
B@
r +
d
BA
dad. El estad
utili"ando el estad
s
B.@. C4)=CA&=E& /E /4& /6&=C6B.C64)E& )4C0A8E& 6)/EPE)/6E)=E&
+1B
Como 3
e*p
a 3
teo
! no podemos concluir Hal menos al nivel de signi%icacin
W F
d
F@I que \
F
deba ser recha"ada H%igura B.GI.
3igura B.G2 )o hay evidencia signi%icativa para recha"ar la homocedastici,
#stico del contraste ha sido elegido modo que el numerador de
3
e*p
sea mayor que el denominador! es decir! 3
e*p
g <.
Por lo tanto no recha"amos la hiptesis de homocedasticidad de ambas
poblaciones! y pasamos a contrastar la igualdad de las medias
|
|
|
\
F
2 k
<
[ k
+
W F
\
<
2 k
<
[ k
+
W F
#stico m(s sencillo Hel que no necesita apro*imar los gra,
dos de libertad mediante la %rmula de LelchI. Para ello calculamos en
primer lugar la cuasivarian"a muestral ponderada2
&
+
W Hn<
[ <I&s
<
Z Hn+
[ <I&s
+
n
<
Z n
+
[ +
y posteriormente
W <B!+1G
d
E
Bioestad
s
+7F
=
e*p
W b
<
[ *
+
& ] < <
#stica2 0'todos y Aplicaciones
W <<
d
+<F< t
n
< Zn+ [+ W t@B
n< Z n+
=
teo
W t
n
<Zn+ [+!<[c+
W t
@B!F
d
BA@
r +
Como q=
teo
q a =
e*p
concluimos que se ha de recha"ar la hiptesis de igual,
dad de las medias! y por tanto aceptamos que las medias son di%erentes.
3igura B.B2 \ay una gran evidencia en contra de la hiptesis de que ambas
medias poblacionales coincidan! y a %avor de que la de la primera poblacin es
mayor que la de la segunda.
Ejemplo
&upongamos que cierta variable num'rica se comporta de modo gaus,
siano sobre dos poblaciones! de las que se han e*traido respectivamente una
muestra aleatoria simple. 8os resultados se muestran a continuacin2
0uestra < <F 1F 1+ +1 +1 +7 +F <G <B 7@
0uestra + 1+ 1B 1@ 1F 1A +G 17 11 +@ 1F 1A 11
:Cree que las distribuciones normales que describen a ambas poblaciones!
poseen los mismos par(metros?
&olucin2 8a distribucin normal est( descrita por dos par(metros2 8a
media y la varian"a. 5amos a reali"ar entonces el contraste adecuado
para
s s
El estad
mayor est' en el numerador! pues de este modo tenemos que la regin cr
s
s
s
s
&i elegimos un nivel de signi%icacin W @ X! el valor cr
estad
B.@. C4)=CA&=E& /E /4& /6&=C6B.C64)E& )4C0A8E& 6)/EPE)/6E)=E&
+7<
cada uno de estos par(metros. Como el contraste de igualdad de
medias depende de que las varian"as sean iguales o distintas! vamos
a comen"ar por el contraste de homocedasticidad Higualdad de
varian"asI.
Previamente! resumimos la in%ormacin e*istente en las muestras
con los estimadores insesgados de los par(metros2
Primera muestra
S
<
)
H
k
<
! n
<
I
n
<
W <F
*
<
W ++! <G+
&
<
W B! @<1
&egunda muestra
S
+
)
H
k
+
! n
+
I
n
+
W <+
*
+
W 1+! A@
&
+
W 7! F7G
El contraste de homocedasticidad es el siguiente2
|
|
|
\
F
2 n
<
W n
+
\
<
2 n
<
W n
+
#stico del contraste lo elegimos de tal modo que la varian"a
#tica
no es nada m(s que la cola de la derecha de la distribucin de &nedecor2
3
e*p
W
&
m ayor
&
<
W W B! @<1+
&
m enor
&
+
7!F7G
+
W @! @+++
#tico para dicho
#stico Haquel a pertir del cual recha"amos la homocedasticidadI es
3
teo
W 3
<F9<+9F!B@
W +! GBE+
Por tanto se recha"a la hiptesis de igualdad de varian"as.
El contraste de igualdad de medias es2
|
|
|
\
F
2 k
<
W k
+
\
<
2 k
<
W k
+
Bioestad
mos que hemos recha"ado la igualdad de las mismas! por tanto el estad
s s
8a regin cr
bilateralI. Por tanto hemos de observar si el estad
Hla que seguir#a el estad
s s
s s
Como =
e*p
es un valor de la regin cr
+7+ #stica2 0'todos y Aplicaciones
/esconocemos el valor de las varian"as poblacionales! pero al menos sabe,
#stico
del contraste es2
= W
bH*<
[ *
+
I W
&
<
&
+
+7!7 [ 1+! A@
b
B!@<1
+
c<F Z 7! F7G
+
c<+ W [+! @GA7
n
<
Z n
+
#tica en este caso est( dividida en dos "onas Hcontraste
#stico del contraste es un
valor in%erior al percentil +!@ o superior al BA!@ de la distribucin terica
#stico del contraste si la hiptesis nula %uese ciertaI.
Como =
e
*p es un valor negativo! basta con que nos preocumos nada m(s
que de la cola de la i"quierda2
=
teo
W =
% 9F!F+@
W [=
% 9F!BA@
W [=
<+!+B9F!BA@
W [+! <A1
donde % es el n$mero de grados de libertad que se calcula mediante la
%rmula de Lelch
H
% W H
&
<
n
<
Z
I
+
I
+
&
+
n
+
H I
+
[ + W <+! +B
< &
<
n
<
Z < n
<
Z
< &
+
n
+
Z < n
+
#tica del contraste de igualdad de me,
dias de poblaciones normales con varian"as di%erentes! hemos de recha"ar Hal
menos para una signi%icacin del @ XI que las medias de ambas poblaciones
coincidan.
Ejemplo
&upongamos que cierta variable num'rica se comporta de modo
gaussiano sobre dos poblaciones.
0ustra < <F 1F 1+ +1 +1 +7 +F <G <B 1@
0uestra + <+ +G 1F 1F +F +@ 1< <@ <+ ++ +7 7F
de reali"ar un contraste de medias! pero para decidir el estad
s s
El estad
mayor est' en el numerador! pues de este modo tenemos que la regin cr
s
s
s
s
&i elegimos un nivel de signi%icacin W <F X! el valor cr
estad
Por tanto no encontramos di%erencia que sea estad
B.@. C4)=CA&=E& /E /4& /6&=C6B.C64)E& )4C0A8E& 6)/EPE)/6E)=E&
+71
:&e puede decir que las media de laprimera poblacin es menor que
la de
la segunda? .sar un nivel de signi%icacin del <F X &olucin2
\emos
#stico del
contraste a elegir! debemos contrastar la similitud entre las dispersiones
de ambas poblaciones.
Para empe"ar resumimos la in%ormacin e*istente en las muestras2
Primera muestra
S
<
)
H
k
<
! n
<
I
n
<
W <F
*
<
W ++! 7
&
<
W B! A+<
&egunda muestra
S
+
)
H
k
+
! n
+
I
n
+
W <+
*
+
W +1! FG
&
+
W <F! 7EE
El contraste de homocedasticidad se escribe2
|
|
|
\
F
2 n
<
W n
+
\
<
2 n
<
W n
+
#stico del contraste lo elegimos de tal modo que la varian"a
#tica
no es nada m(s que la cola de la derecha de la distribucin de &nedecor2
3
e*p
W
&
m ayor
&
+
W W <F! 7EE+
&
m enor
&
<
B!A+<
+
W <! <@B1
#tico para dicho
#stico Haquel a pertir del cual recha"amos la homocedasticidadI es
3
teo
W 3
<+9<F9F!BF
W +! 1BE<
#sticamente signi%icativa
entre ambas varian"as! es decir! no recha"omos la hiptesis de homocedas,
ticidad.
Bioestad
entre ellas Hsean cuales seanI no son estad
tanto vamos a elegir como estad
s
tivamente menores que los de la segunda! en cuyo caso el estad
contraste tomar
cr
Como =
e*p
no es un valor de la regin cr
no hay evidencia estad

+77
El contraste de medias
es2
|
|
|
#stica2 0'todos y Aplicaciones
\
F
2 k
<
W k
+
\
<
2 k
<
j k
+
/esconocemos el valor de las varian"as poblacionales! pero las di%erencias
#sticamente signi%icativas. Por
#stico del contraste al que se usa cuando
podemos asumir que las varian"as son iguales2
=
e*p
W
H*
<
[ *
+
I
b W [F! <@A7
& < <
n< Z n+
Esta claro que recha"aremos la hiptesis nula y aceptaremos la
alternativa! cuando los datos muestrales de la primera muestra sean
signi%ica,
#stico del
#a valores muy peque-os. /icho de otro modo! la regin
#tica es la regin comprendida a la i"quierda del percentil <F de la distri,
bucin t
n
< Zn+ [+
.
=
teo
W =
<FZ<+[+9F!<F
W [=
+F9F!BF
W [<! 1+@1
#tica del contraste! concluimos que
#sticamente signi%icativa en contra de la hiptesis
nula y a %avor de la alternativa.
B.E. Contrastes sobre la di%erencia de proporcio,
nes
&upongamos que tenemos dos muestras independientes tomadas sobre
dos poblaciones! en la que estudiamos una variable de tipo dicotmico HBer,
noulliI2
S
<
S
+
o S
<<
! S
<+
! . . . ! S
<n
<
o S
+<
! S
++
! . . . ! S
+n
+
n<
n+
s
s
&i \
F
%uese cierta se tendr
s P
<
[ Ps
+ r
< w" p+
W R
e*p r
B.E. C4)=CA&=E& &4BCE 8A /63ECE)C6A /E PC4P4CC64)E& +7@
&i S
<
y S
+
contabili"an en cada caso el n$mero de '*itos en cada muestra
se tiene que cada una de ellas se distribuye como una variable aleatoria
binomial2
Y
S
<
W S
<i
B Hn
<
! p
<
I
iW<
Y
S
+
W S
+i
B Hn
+
! p
+
I
iW<
de modo que los estimadores de las proporciones en cada poblacin tienen
distribuciones que de un modo apro*imado son normales Hcuando n
<
y n
+
son
bastante grandesI
r
H
I
P
<
W S
<
n
<
) p
<
! p
<
q
<
n
<
r
H
I
P
+
W S
+
n
+
) p
+
! p
+
q
+
n
+
El contraste que nos interesa reali"ar es el de si la di%erencia entre las
proporciones en cada poblacin es una cantidad conocida
\
F
2 p
<
[ p
+
W
#a que
)
|
|
|p
q

|
|
! p
<
q
<
Z p
+
q
+
|
x n
<
n
+
/esa%ortunadamente ni p
<
ni p
+
son conocidos de antemano y utili"amos sus
estimadores! lo que da lugar a un error que es peque-o cuando los tama-os
muestrales son importantes2
Hps
<
[ ps
+
I [
b ) HF! <I
p
<
q
<
n
<
Z p
+
q
+
n
+
Bioestad
+7E #stica2 0'todos y Aplicaciones
Contraste bilateral
El contraste bilateral sobre la di%erencia de proporciones es
|
|
|
Entonces se de%ine
\
F
2 p
<
[ p
+
W
\
<
2 p
<
[ p
+
W
Re*p W b
ps
<
[ ps
+
I [
p
<
q
<
n
<
Z p
+
q
+
n
+
y se recha"a la hiptesis nula si R
e*p
j ["
<[c+
o si R
e*p
g "
<[c+
Contrastes unilaterales
En el contraste
|
|
|
|
\
F
2 p
<
[ p
+
W
|
|o
\
<
2 p
<
[ p
+
j
| |
| \
F
2 p
<
[ p
+
l
|
bien |
|
\
<
2 p
<
[ p
+
j
se recha"ar( \
F
si R
e*p
j ["
<[
. Para el test contrario
|
|
|
|
\
F
2 p
<
[ p
+
W
|
|o
\
<
2 p
<
[ p
+
g
| |
| \
F
2 p
<
[ p
+
a
|
bien |
|
\
<
2 p
<
[ p
+
g
se recha"a \
F
si R
e*p
g "
<[
.
B.A. Problemas
En todos los problemas que siguen a continuacin! se supone que las
muestras han sido elegidas de modo independiente! y que las cantidades
mam
total de sangre. 8a desviacin t
t
miento de las v
alumnos de Bioestad
alumnos con resultados promedio de A!+@ y desviacin t
B.A. PC4B8E0A& +7A
cuantitativas que se miden! se distribuyen de modo gaussiano. En
temas posteriores se ver( cmo contrastar si estas premisas pueden ser
aceptadas o no al e*aminar las muestras.
Ejercicio B.<. El calcio se presenta normalmente en la sangre de los
#%eros en concentraciones de alrededor de E mg por cada <FF ml
del
#pica normal de 'sta variable es < mg de
cal,
cio por cada <FF ml del volumen total de sangre. .na variabilidad
mayor a
'sta puede ocasionar graves trastornos en la coagulacin de la sangre.
.na
serie de nueve pruebas sobre un paciente revelaron una media muestral
de
E!+ mg de calcio por <FF ml del volumen total de sangre! y una
desviacin
#pica muestral de + mg de calcio por cada <FF ml de sangre. :\ay
alguna evidencia! para un nivel W F! F@! de que el nivel medio de
calcio para este paciente sea m(s alto del normal?
Ejercicio B.+. El n$mero de accidentes mortales en una ciudad es!
en promedio! de <+ mensuales. =ras una campa-a de se-ali"acin y
adecenta,
#as urbanas se contabili"aron en E meses sucesivos
G!<<!B!A!<F!B
accidentes mortales. :3ue e%ectiva la campa-a?
Ejercicio B.1. El promedio de las puntuaciones de un n$mero elevado
de
#stica es de E!@F. .n determinado a-o se
e*aminaron @F
#pica de <. :5ariaron
las cali%icaciones?
Ejercicio B.7. El peso medio de mujeres de 1F a 7F a-os es de @1
Og. .n estudio reali"ado en <E mujeres de tales edades que siguen
una dieta vegetariana da * W @F y & W @. :0odi%ica la dieta el peso
medio?
Ejercicio B.@. .na poblacin in%antil se dice que es susceptible de
recibir
una campa-a de educacin e higiene si su porcentaje de ni-os con
dientes
Bioestad
la campa-a si de 1GA de ellos AF ten
en pacientes con ec"ema at
hipertensin est( incluida como la primera patolog
+7G #stica2 0'todos y Aplicaciones
cariados es superior al <@ X. .na poblacin con <+.E1A ni-os! :debe
hacerse
#an alg$n diente cariado?
Ejercicio B.E. .n G X de los individuos que acuden a un servicio
sanitario son hiperutili"adores del mismo Hm(s de << visitas al a-oI y!
de entre ellos! un AF X son mujeres. /e entre los no hiperutili"adores!
son mujeres el @< X. :Puede a%irmarse que han variado los h(bitos de
estas si! tras una campa-a de in%ormacin y control de visitas! de BF
mujeres elegidas al a"ar E resultaron hiperutili"adoras?
Ejercicio B.A. &e conoce que un +F X de los individuos tratados
crnicamente con digo*ina su%ren una reaccin adversa por causa de
ella. A <F pacientes se les administr durante largo tiempo digo*ina
mas otros medicamentos! y de ellos @ desarrollaron la reaccin adversa.
:Puede a%irmarse que la asociacin entre la digo*ina y los otros
medicamentos hace variar el n$mero de reacciones adversas?
Ejercicio B.G. Para comprobar si un tratamiento con (cidos grasos es
e%ica"
#pico! se tomaron <F pacientes con ec"ema
de
m(s de B meses y se les someti durante 1 semanas a un tratamiento
%icticio HplaceboI y durante las tres siguientes a un tratamiento con
(cidos grasos. =ras cada periodo! un m'dico ajeno al proyecto evalu
la importancia del ec"ema en una escala de F Hno ec"emaI a <F
Htama-o m(*imo de ec"emaI. 8os datos %ueron los siguientes2
Placebo E G 7 G @ E @ E 7 @
=ratamiento @ E 7 @ 1 E E + + E
:Es e%ica" el tratamiento?
Ejercicio B.B. En un programa de Control de En%ermedades
Crnicas! la
#a a controlar. <@
pa,
cientes hipertensos son sometidos al programa y controlados en su tensin
%uncin cortical por debajo de lo normal debido a un riego sangu
depresin y otros normales! se les midi un
gu
s
s
considerarse neutra. &i se conociera n W F! @! :qu' decisin tomar
<F individuos! obteni'ndose una media de 1!@ grs. y una desviacin t
B.A. PC4B8E0A& +7B
asistlica antes y despu's de E meses de tratamiento. 8os datos son los
siguientes2
6nic. <GF +FF <EF <AF <GF <BF <BF <GF <BF <EF <AF <BF +FF +<F ++F
3in. <7F <AF <EF <7F <1F <@F <7F <@F <BF <AF <+F <EF <AF <EF <@F
:Es e%ectivo el tratamiento?
<F., 0uchos autores a%irman que los pacientes con depresin tienen una
#neo ce,
rebral por debajo de lo normal. A dos muestras de individuos! unos con
#ndice que indica el %lujo san,
#neo en la materia gris Hdado en mgcH<FFgcminIIobteni'ndose2
/epresivos n
<
W <B *
<
W 7A &
<
W A
d
G
)ormales n
+
W ++ *
+
W @1
d
G &
+
W E
d
<
:\ay evidencia signi%icativa a %avor de la a%irmacin de los autores?
Ejercicio B.<F. Por %istuli"acin se obtuvo el p\ de E muestras de bilis
hep(tica con los siguientes resultados2
A!G19 G!@+9 A!1+9 A!AB9 A!@A9 E!@G
&e desea saber al nivel de signi%icacin del F!F@ si la bilis hep(tica puede
#amos?
Ejercicio B.<<. 8a prueba de la d,*ilosa permite la di%erenciacin entre
una esteatorrea originada por una mala absorcin intestinal y la debida
a una insu%iciencia pancre(tica! de modo que ci%ras in%eriores a 7 grs. de
d,*ilosa! indican una mala absorcin intestinal. &e reali"a dicha prueba a
#pica
de FK@ grs. :&epuede decir que esos pacientes padecen una mala absorcin
intestinal?
Bioestad
con insu%iciencia card
de <1 mgsc+7 h.! con una desviacin t
:8a insu%iciencia card
la hidroclorotiacida sobre la presin sangu
+@F #stica2 0'todos y Aplicaciones
Ejercicio B.<+. 8a eliminacin por orina de aldosterona est( valorada
en individuos normales en <+ mgsc+7 h. por t'rmino medio. En @F
individuos
#aca se observ una eliminacin media de
aldosterona
#pica de +!@ mgsc+7 h.
<. :&on compatibles estos resultados con los de los individuos normales?
+. #aca aumenta la eliminacin por orina de aldos,
terona?
Ejercicio B.<1. 8a tabla siguiente muestra los e%ectos de un placebo y de
#nea sistlica de << pacientes.
Placebo +<< +<F +<F +F1 <BE <BF <B< <AA <A1 <AF <E1
\,cloro <G< <A+ <BE <B< <EA <E< <AG <EF <7B <<B <@E
&eg$n estos datos e*perimentales! :podemos a%irmar que e*iste
di%erencia
en la presin sistlica media durante la utili"acin de estos dos
%(rmacos?
Ejercicio B.<7. &e sabe que el AF X de los pacientes internados en
un
hospital traumatolgico requieren alg$n tipo de intervencin
quir$rgica.
Para determinar si un nuevo m'todo de %isioterapia reduce el
porcentaje
de intervenciones! se aplica 'ste a 1F pacientes de los cuales <A
requieren
alguna intervencin quir$rgica. Comprobar que no hay ra"ones
su%icientes
para a%irmar la e%icacia del m'todo con un nivel de con%ian"a del B@ X.
Ejercicio B.<@. /e un estudio sobre la incidencia de la hipertensin en
la provincia de 0(laga! se sabe que en la "ona rural el porcentaje de
hipertensos es del +A!A X. =ras una encuesta a 7FF personas de una
"ona urbana! se obtuvo un +7 X de hipertensos.
<. :&e puede decir que el porcentaje de hipertensos en la "ona urbana
es distinto que en la "ona rural?
les se obtiene una desviacin t
cali%icaciones obtenidas en los tests %inales dan una desviacin t
trabajos de investigacin acerca de que la presencia del ant
las historias cl
observando que E de ellas presentaban el citado ant
del citado ant#geno. :Est( relacionada la presencia del ant
Ejercicio B.<B. &e quiso probar si la cirrosis de h
B.A. PC4B8E0A& +@<
+. :Es menor el porcentaje de hipertensos en la "ona urbana que en la
"ona rural?
Ejercicio B.<E. Con cierto m'todo de ense-an"a para ni-os
subnorma,
#pica de G! en las puntuaciones de los
tests
%inales. &e pone a prueba un nuevo m'todo y se ensaya en @< ni-os.
8as
#pica de <F.
:Puede asegurarse que el nuevo m'todo produce distinta variacin en
las puntuaciones?
Ejercicio B.<A. &e desea comparar la actividad motora espont(nea de
un grupo de +@ ratas control y otro de 1E ratas desnutridas. &e midi el
n$mero de veces que pasaban delante de una c'lula %otoel'ctrica
durante +7 horas. 8os datos obtenidos %ueron los siguientes2
Catas de control n
<
W +@ *
<
W GEB! G &
<
W <FE! A
Catas desnutridas n
+
W 1E *
+
W 7E@ &
+
W <@1! A
:&e observan di%erencias signi%icativas entre el grupo control y el grupo
desnutrido?
Ejercicio B.<G. &e pretende comprobar la hiptesis e*puesta en algunos
#geno AD,7
est( relacionada con un desenlace Con 'ste %in! se hi"o una revisin sobre
#nicas de +< mujeres muertas por carcinoma de cuello uterino!
#geno. Por otro lado y
con %ines de comparacin se tom otra muestra de 7+ personas! con edades
similares a las del grupo anterior y que reaccionaron bien al tratamiento
del carcinoma de cuello uterino! en +G de las cuales se observ la
presencia
#geno con una
e%ectividad del tratamiento?
#gado hacia variar el
Bioestad

8a cirrosis de h#gado! :hace variar el


=om una primera muestra de +@ pacientes que padec#an cierto s
y otra segunda muestra de 1F pacientes con el mismo s
s #ntoma hab
+@+ #stica2 0'todos y Aplicaciones
#ndice de actividad de la colinesterasa en suero. &e eligieron dos muestras
aleatorias e independientes de individuos. 8os resultados %ueron2
6ndividuos normales n
<
W +F *
<
W <! G &
<
W F! 7
6ndividuos cirrticos n
+
W +@ *
+
W F! EE &
+
W F! +
#ndice de la colinesterasa en suero?
Ejercicio B.+F. .n investigador ha reali"ado el siguiente e*perimento2
#ntoma
#ntoma. A los de la
primera muestra les aplic un tratamiento especi%ico y a los de la segunda les
dio un placebo. Anot el tiempo en horas en que cada uno dijo que el
#a desaparecido y obtuvo los siguientes resultados2
Y Y
0uestra <
a
n
<
W +@
Y
0uestra +
a
n
+
W 1F i *i<
W G@
Y i *
i<
W 171
i *i+
W +<E
i *
i+
W <!E@F
:Puede concluir el investigador que el tratamiento es realmente e%ectivo?
Ejercicio B.+<. Para comprobar si la tolerancia a la glucosa en sujetos sanos tiende a
decrecer con la edad se reali" un test oral de glucosa a dos muestras de pacientes sanos!
unos jvenes y otros adultos. El test consisti en medir el nivel de glucosa en sangre en el
momento de la ingestin Hnivel basalI de <FF grs. de glucosa y a los EF minutos de la
toma. 8os resultados %ueron los siguientes2
Jvenes2 Basal
EF minutos
Adultos2 Basal
EF minutos
G< GB GF A@
<1E <@F <7B <7<
BG B7 B1 GG
<BE <BF <B< <GB
A7 BA AE GB G1 AA
<1G <@7 <7< <@@ <7@ <7A
AB BF GE GB G< BF
<@B <G@ <G+ <BF <AF <BA
B.A. PC4B8E0A& +@1
<. :&e detecta una variacin signi%icativa del nivel de glucosa en sangre
en cada grupo?
+. :Es mayor la concentracin de glucosa en sangre a los EF minutos! en
adultos que en jvenes?
1. El contenido basal de glucosa en sangre! :es menor en jvenes que en
adultos?
7. :&e detecta a los EF minutos una variacin del nivel de glucosa en
sangre di%erente de los adultos! en los jvenes?
Bioestad
+@7 #stica2 0'todos y Aplicaciones
Cap
estad
etc. En este caso tendr
en los cap #tulos anteriores no ser
agrupadas en intervaloI. Estos son los contrastes asociados con el estad
#tulo <F
Contrastes basados en el
#stico Ji,Cuadrado
<F.<. 6ntroduccin
E*isten multitud de situaciones en el (mbito de la salud en el que las
variables de inter's! las cuales no pueden cuanti%icarse mediante cantida,
des num'ricas! entre las que el investigador est' interesado en determinar
posibles relaciones. Ejemplos de este tipo de variables pueden ser las com,
plicaciones tras una intervencin quir$rgica! el se*o! el nivel socio,cultural!
#amos! a lo sumo! las observaciones agrupadas en
%orma de %recuencia! dependiendo de las modalidades que presente cada
paciente en cada una de las variables! por los que los m'todos estudiados
#an aplicables.
El objetivo de este tema es el estudio de este tipo de cuestiones en re,
lacin con las variables cualitativas Hy tambi'n v.a. discretas o continuas
#sti,
co J
+
. En general este tipo de tests consisten en tomar una muestra y
observar si hay di%erencia signi%icativa entre las %recuencias observadas y las
especi%icadas por la ley terica del modelo que se contrasta! tambi'n
denominadas P%recuencias esperadasQ.
&in embargo! aunque 'ste sea el aspecto m(s conocido! el uso del test
+@@
Bioestad
J
+
no se limita al estudio de variables cualitativas. Podr
veremos en el transcurso de este cap
<F.+. El estad
+@E #stica2 0'todos y Aplicaciones
#amos decir que
e*isten tres aplicaciones b(sicas en el uso de este test! y cuyo desarrollo
#tulo2
=res son los temas que abordaremos de esta manera2
=est de ajuste de distribuciones2 Es un contraste de signi%icacin para saber si los datos de una muestra
son con%ormes a una ley de distribucin terica que sospechamos que
es la correcta.
d de varias muestras cualitativas2 &irve para contrastar la igualdad de procedencia de un conjunto de
muestras de tipo cualitativo.
=est para tablas de contingencia2 Es un contraste para determinar la dependencia o independencia de
caracteres cualitativos.
#stico J
+
y su distribucin
&ea S una v.a. cuyo rango son los valores i W <! +! . . . ! O! de modo que p
i
es la probabilidad de cada valor9
|
|
| |
|
S |
|
|
|
< _ P fS W <e W p
<
+ _ P fS W +e W p
+
i _ P fS W ie W p
i
O _ P fS W Oe W p
O
&upongamos que el resultado de un e*perimento aleatorio es una clase
c
<
! c
+
! . . . ! c
O
Hc
i
! i W <! . . . ! OI! que puede representar valores cualitativos!
discretos o bien intervalos para variables continuas. &ea p
i
la probabilidad
de que el resultado del e*perimento sea la clase c
i
. 5amos a considerar con,
trastes cuyo objetivo es comprobar si ciertos valores p
i
! propuestos para las
cantidades p
i
son correctas o no! en %uncin de los resultados e*perimentales
O
O O
<F.+. E8 E&=A/>&=6C4 J
+
T &. /6&=C6B.C64)
| | |
+@A
|
|
|
\
F
2 8os p
i
son correctos
\
<
2 Alguno de los p
i
es %also
| |
|
| |
|
| | \
F
2 | |
|
|
| |
|
|
|
| | |
|
| | |
|
| \
<
2 | |
| |
|
|
p
<
W p
<
y
p
+
W p
+
y
p
O
W p
O
p
<
W p
<
o bien
p
+
W p
+
o bien
p
O
W p
O
.
H<F.<I
0ediante muestreo aleatorio simple! se toma una muestra de tama-o n y se
obtienen a partir de ella unas %recuencias observadas de cada clase que
representamos mediante 4
<
! 4
<
! . . . ! 4
O
Clase 3rec. Abs.
ci
4
i
c
<
4
<
c
+
4
+
cO
4
O
Y
4
i
W n
iW<
&upongamos que la hiptesis nula es cierta. Al ser p
i
W p
i
la proporcin
de elementos de la clase c
i
en la poblacin! el n$mero de individuos de
que presentan esta modalidad al tomar una muestra de tama-o n! es una
v.a. de distribucin binomial! B
H
n! p
i
I. Por tanto la %recuencia esperada de
individuos de esa clase es
Ei W n ] p
i
i W <! +! . . . ! O
Y Y
Ei W n ]
p
i
W n
iW< iW<
Bioestad
Pearson propuso el estad
O
O
+@G #stica2 0'todos y Aplicaciones
4bs'rvese que a di%erencia de las cantidades 4
i
! que son las %recuencias que
realmente se obtienen en una muestra! las %recuencias esperadas no tienen
por que ser n$meros enteros. /e cualquier modo! bajo la suposicin de que
\
F
es cierta cabe esperar que las di%erencias entre las cantidades E
i
y 4
i
sea peque-a.
#stico
J
+
W
Y H4
i
[ E
i
I
+
iW<
Ei
el cual! siguiendo la linea de ra"onamiento anterior debe tomar valores
peque-os si \
F
es cierta. &i al tomar una muestra! su valor es grande eso
pone en evidencia que la hiptesis inicial es probablemente %alsa. Para decidir
cuando los valores de J
+
son grandes es necesario conocer su ley de
probabilidad. &e tiene entonces el siguiente resultado
=eorema
f8ey asinttica para J
+
e &i la hiptesis \
F
es cierta! entonces J
+
se
distribuye apro*imadamente como2
J
+
W
Y H4
i
[ E
i
I
+ r
J
O [p[h
iW<
Ei
donde el n$mero de grados de libertad depende de
El n$mero O! de clases usadas9
El n$mero p de par(metros estimados a partir de la muestra para
calcular los E
i
. Por ejemplo si todas las cantidades p
i
son especi%icadas
entonces p W F.
El n$mero de relaciones o condiciones impuestas a los E
i
. Por ejemplo!
si la $nica condicin sobre los E
i
es que
Y
i W<
Ei
W n entonces h W <.
\
F
! la regin cr
3igura <F.<2 Cegin cr#tica HsombreadaI para un contraste con el estad
O
<F.+. E8 E&=A/>&=6C4 J
+
T &. /6&=C6B.C64) +@B
8a apro*imacin mejora cuando n es grande y los p
i
son cercanos a
+
.
Como slo son los valores grandes de J
+
los que nos llevan a recha"ar
#tica es
C W HJ
O [p[h!<[
! {I
+ para nW<F
)o se recha"a \F
F @ <F
J
+
.
es decir!
|
| Y H4
i
[ E
i
I
+
|
&e recha"a \F
+, <
<@ +F +@
#stico
sean
| |
| |
|
J
e*p
W |
iW< Ei [_
|
J
teo
W J
O [p[h!<[
&i J
e*p
a J
teo
no recha"amos \
F
9
&i J
e*p
g J
teo
se recha"a \
F
y se acepta \
<
.
4bservacin
A pesar de que el contraste parece ser bilateral al ver la e*presin de
la relacin H<F.<I! la %orma de C ! nos indica que el contraste es unilateral2
Bioestad
+EF #stica2 0'todos y Aplicaciones
&lo podemos saber si e*iste desajuste entre los esperado y lo
observado! pero no podemos contrastar hiptesis alternativas del tipo
Pp
i
mayor que cierto valorQ.
4bservacin
4bs'rvese que en realidad J
+
no es una variable aleatoria continua2 8os
posibles resultados de la muestra se resumen en las cantidades 4
<
! 4
+
! . . . ! 4
O
!
que $nicamente toman valores discretos. 8uego las cantidades
J
e*p
H4
<
! 4
+
! . . . ! 4
O
I
slo puede tomar un n$mero %inito de valores distintos Haunque sean
cantidades con decimalesI. Por tanto su distribucin no es continua. 8uego
al reali"ar la apro*imacin mencionada hay que precisar en qu' condiciones
el error cometido es peque-o. /e modo apro*imado podemos enunciar el
siguiente criterio que recuerda al de la apro*imacin binomial por la
distribucin normal2
<. n g 1F9
+. E
i
W n ] p
i
g @ para todo i W <! . . . ! O.
&in embargo esta regla resulta demasiado estricta a la hora de aplicarla en
la pr(ctica. &e utili"a entonces una regla m(s %le*ible y que no sacri%ica
demasiada precisin con respecto a la anterior2
<. Para ninguna clase ocurre que E
i
W n ] p
i
j <
+. E
i
W n ] p
i
g @ para casi todos los i W <! . . . ! O! salvo a lo sumo un
+FX de ellos.
&i a pesar de todo! estas condiciones no son veri%icadas! es necesario agrupar las
clases que tengan menos elementos con sus adyacentes.
El lector puede considerar los contrastes con el estad
<F.+. E8 E&=A/>&=6C4 J
+
T &. /6&=C6B.C64) +E<
4bservacin
#stico J
+
como
una generali"acin del contraste de proporciones. Para ello le invitamos a
estudiar el siguiente ejemplo.
Ejemplo
&e desea saber si cierta en%ermedad a%ecta del mismo modo a los hombres que
a las mujeres. Para ello se considera una muestra de n W E<G individuos que
padecen la en%ermedad! y se observa que 17< son hombres y el resto son
mujeres. :;u' conclusiones se obtiene de ello?
&olucin2
El contraste a reali"ar se puede plantear de dos %ormas que despu's
veremos que son equivalentes2
Contraste de una proporcin2 &i p es el porcentaje de hombres en la
poblacin de en%ermos! podemos considerar el contraste2
|
|
|
\
F
2 p W <c+
\
<
2 p W <c+
/e la muestra obtenemos la siguiente estimacin puntual del porcentaje
de en%ermos de se*o masculino2
p W 17<cE<G W F! @@<AG
Para ver si esto es un valor PcoherenteQ con la hiptesis nula!
calculemos la signi%icatividad del contraste2
Re*p W
Por otro lado!
p [ p
b
p
qcn
) HF! <I.
Bioestad
Contraste con el estad
Consideremos entonces el estad
O
+E+ #stica2 0'todos y Aplicaciones
Re*p W bF! @@<AG [ F! @
W +! @A7
F!@ ^ F! @cEF
Como el contraste es de tipo bilateral! la signi%icatividad del contraste es
Hbuscando en la tabla de la distribucin normalI2
P fqR q g +! @A7e W + ] P fR g +! @A7e W + F! FF@ W < X j @ X
8o que nos indica que se ha de recha"ar la hiptesis nula y aceptar la
hiptesis alternativa! es decir! a%irmamos que e*iste una evidencia
signi%icativa a %avor de la hiptesis de que la en%ermedad no a%ecta por
igual a hombres y mujeres.
#stico J
+
2 En este caso planteamos el contraste2
|
|
| | \
F
2
|
|
| |
| \
<
2
| |
| p
hombres
W <c+ y
|
| p
mujeres
W <c+
| |
| p
hombres
W <c+ o bien
|
| p
mujeres
W <c+
Para resolverlo escribimos en una tabla los %recuencias muestrales
observadas de hombres y mujeres! junto a los valores esperados en el
caso de que la hiptesis nula %uese cierta2
%recuencias
observadas
4
i
\ombres 17<
0ujeres +AA
E<G
Y
%recuencias
esperadas di%erencia
Ei 4
i
[ E
i
H4
i
[ E
i
I
+
cE
i
E<G ^ <c+ W 1FB B 1+
+
c1FB
E<G ^ <c+ W 1FB ,B H[1+I
+
c1FB
E<G F E!E1
#stico
H4
i
[ E
i
I
+ r
J
+
W J
O [p[h
W J
+[F[<
W J
<
iW<
Ei
donde2
El estad
O
<F.+. E8 E&=A/>&=6C4 J
+
T &. /6&=C6B.C64) +E1
O W + es el numero de modalidades posibles que toma la variable
se*o2 hombres y mujeres9
p W F es el n$mero de par(metros estimados9
h W < es el n$meros de restricciones impuestas a los valores
esperados. &lo hay una Hque es habitualI! que consiste en que
el n$mero esperado de en%ermos entre hombres y mujeres es EF.
#stico calculado sobre la muestra o%rece el valor e*perimental2
J
e*p
W E! E1
que es el percentil BB de la distribucin J
<
. /e nuevo se obtiene que la
signi%icatividad del contraste es del < Xj@ X.
En conclusin! con los dos m'todos llegamos a que hay una %uerte evi,
dencia en contra de que hay el mismo porcentaje de hobres y mujeres que
padecen la en%ermedad. 8a ventaja de la $ltima %orma de plantear el con,
traste Hdi%erencia entre %recuencias observadas y esperadasI es que la t'cnica
se puede aplicar a casos m(s generales que variables dicotmicas! como se
ver( m(s adelante.
4bservacin
\ay una %rmula alternativa para el c(lculo de J
+
cuya e*presin es m(s
%(cil de utili"ar cuando reali"amos c(lculos2
Proposicin
J
+
W
Y 4
i
[ n
iW< Ei
/emostracin
Bioestad
O
O
4
i
[ + 4
i
E
i
Z E
+
O O O
O
O
+E7
J
+
#stica2 0'todos y Aplicaciones
Y H4
i
[ E
i
I
+
W
iW< Ei
Y i
W
iW< Ei
Y 4
i
Y Y
W
iW<
Y
W
iW<
Y
W
iW<
[ + 4
i
Z Ei
Ei iW< iW<
4
i
[ + n Z n
Ei
4
i
[ n
Ei
<F.1. Contraste de bondad de ajuste para distri,
buciones
5amos a aplicar el contraste J
+
para determinar a trav's de una muestra si
una v.a. S sigue o no cierta distribucin. Podemos encontrarnos entonces con
dos casos2
8a ley de la v.a. S que deseamos contrastar est( completamente determi,
nada.
8a ley de la v.a. S no es totalmente conocida y es necesario estimar
algunos de sus par(metros.
<F.1. C4)=CA&=E /E B4)/A/ /E AJ.&=E PACA /6&=C6B.C64)E&+E@
1@F
KobservacionesK
1FF
+@F 3recuencias esperadas
+FF
<@F
<FF 3recuencias observadas
@F
F
@@ EF E@ AF
esperadoH*I
A@ GF G@ BF
3igura <F.+2 En los contrastes de distribuciones! se compara si las observa,
ciones HhistogramaI se distribuye seg$n una ley de probabilidad conocida.
<F.1.<. /istribuciones de par(metros conocidos
/eseamos contrastar si la v.a. S sigue una ley de distribucin
S
|
|
| |
|
| |
| |
< _ P fS W <e W p
<
+ _ P fS W +e W p
+
i _ P fS W ie W p
i
O _ P fS W Oe W p
O
donde todos los p
i
est(n %ijados Hhiptesis \
F
I. Entonces por lo mencionado
anteriormente! el contraste consiste en2
Bioestad
O
+EE
|
|
| |
| |
|
Y H4
i
[ n p
i
I
+
|
J
e*p
W |
iW< n p
i
[_
|
J
teo
W J
O [<!<[
#stica2 0'todos y Aplicaciones
&i J
e*p
a J
teo
no recha"amos \
F
9
&i J
e*p
g J
teo
se recha"a \
F
En este contraste se comete cierto error de apro*imacin y por tanto ser( tanto
mejor cuanto mayor sea n.
Ejemplo
/adas dos parejas de genes Aa y Bb! la descendencia del cruce e%ectuado
seg$n las leyes de 0endel! debe estar compuesto del siguiente modo2
3recuencias
8eyes de 0endel [_
3enotipo relativas
AB Bc<E
Ab 1c<E
aB 1c<E
ab <c<E
Elegidos 1FF individuos al a"ar de cierta poblacin se observa la siguiente
distribucin de %recuencias2
3recuencias
3enotipo observadas
AB <E@
Ab 7A
aB EA
ab +<
=otal 1FF
:&e puede aceptar que se cumplen las leyes de 0endel sobre los individuos de
dicha poblacin?
&olucin2
das! junto con las que ser
<F.1. C4)=CA&=E /E B4)/A/ /E AJ.&=E PACA /6&=C6B.C64)E&+EA
El contraste a reali"ar es2
|
|
|
\
F
2 &e cumplen las leyes de 0endel
\
<
2 )o se cumplen
|
|
|
|
| | \
F
2
|
| |

|
| |
|
| | \
<
2
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
p
AB
W Bc<E y
p
Ab
W 1c<E y
p
aB
W 1c<E y
p
ab
W <c<E
p
AB
W Bc<E o bien
p
Ab
W 1c<E o bien
p
aB
W 1c<E o bien
p
ab
W <c<E
Para ello vamos a representar en una sla tabla las %recuencias observa,
#an de esperar en el caso de que \
F
%uese cierta2
3enotipo 4
i Ei
4
i
cE
i
AB <E@ 1FF ^ Bc<E W <EG! A@ <E<!11
Ab 7A 1FF ^ 1c<E W @+! +@ 7+!+A
aB EA 1FF ^ 1c<E W @+! +@ G@!B<
ab +< 1FF ^ <c<E W <G! A@ +1!@+
=otal 1FF 1FF 1<1!F1
Bajo la hiptesis de que \
F
sea cierta! se tiene que2
J
e*p
W
Y
4
i
cE
i
[ n J
7[F[<
i
ya que 7 son los posibles %enotipos! no se ha estimado ning$n par(metro Hla
distribucin seg$n las leyes de 0endel es conocidaI! y sobre las cantidades E
i
e*iste solamente una restriccin! que es2
Y
i Ei
W 1FF.
Por otro lado!
J
e*p
W
Y
4
i
cE
i
[ n W 1<1! F1 [ 1FF W <1! F1
i
que seg$n la tabla de la distribucin J
+
es apro*imadamente el percentil
BB!@ de la distribucin J
1
. Por tanto la signi%icatividad del contraste es del
Bioestad
de la que la muestra ha sido e*tra
admitimos para el estad
ca que hay di%erencia estad
cias observadas y esperadas! e*iste di%erencia estad
+EG #stica2 0'todos y Aplicaciones
F!@X j @ X! lo que nos conduce a recha"ar la hiptesis de que la
poblacin
#da sigue las leyes de 0endel.
Al mismo resultado llegamos sin calcular con precisin la
signi%icatividad del contraste! sino considerando que el valor terico
m(*imo que
#stico e*perimental con un nivel de signi%icacin
del
@X es el percentil B@ de J
1
! es decir!
J
teo
W J
19F!B@
W A! G<@
y claramente ocurre que J
e*p
g J
teo
! por lo que se recha"a la hiptesis nula.
4bs'rvese tambi'n que el que se haya recha"ado la hiptesis nula signi%i,
#sticamente signi%icativa entre las %recuencias
observadas y las esperadas.
3igura <F.12 Aunque aparentan ser apro*imadamente iguales las %recuen,
#sticamente signi%icativa
entre ellas.
<F.1.+. /istribuciones con par(metros desconocidos
&upongamos que la distribucin de S que queremos contrastar no
especi%ica ciertos valores de r par(metros
O
<F.7. C4)=CA&=E /E \404DE)E6/A/ /E 0.E&=CA& C.A86=A=65A&+EB
S 3am Hu
<
! . . . ! u
r
I W S
|
|
| |
|
| |
| |
< _ P fS W <e W p
<
Hu
<
! . . . ! u
r
I
+ _ P fS W +e W p
+
Hu
<
! . . . ! u
r
I
i _ P fS W ie W p
i
Hu
<
! . . . ! u
r
I
O _ P fS W Oe W p
O
Hu
<
! . . . ! u
r
I
Estimemoslos a partir de la muestra! y consideremos las cantidades
p
i
W p
i
H u
<
! . . . ! u
r
I
Entonces el contraste consiste en
|
|
| |
| |
|
Y H4
i
[ n p
i
I
+
|
J
e*p
W |
iW< n p
i
[_
|
J
teo
W J
O [r[<!<[
&i J
e*p
a J
teo
no recha"amos \
F
9
&i J
e*p
g J
teo
se recha"a \
F
<F.7. Contraste de homogeneidad de muestras cua,
litativas
5amos a generali"ar el contraste de comparacin de dos proporciones
Hp(gina +77I. Consideremos una variable cualitativa Ho cuantitativa agrupada
en intervalosI que puede tomar valores en di%erentes clases. &e toman r
muestras di%erentes y se desea contrastar2
|
|
|
\
F
2 8as r muestras son homog'neas con respecto a la variable
\
<
2 Alguna muestra es di%erente
8a manera de proceder consiste en representar las r muestras en una
tabla del tipo
Bioestad
O
r
r O
8a di%erencia entre lo esperado y lo observado la mide el estad
+AF #stica2 0'todos y Aplicaciones
3rec.
0uestra
<
0uestra
+
] ] ] 0uestra
r
clases
~
Clase
<
4
<<
4
<+
] ] ] 4
<r
3
<
Clase
+
4
+<
4
++
] ] ] 4
+r
3
+
Clase
O
4
O<
4
O+
] ] ]
4Or
3
O
=ama-o
muestras _ C
<
C
+
] ] ]
Cr
=
donde
4
ij
_ %recuencia observada de la clase i en la muestra j
Y
3
i
W 4
ij
_ n$mero de individuos de la clase i
j W<
Y
Cj W
4
ij
_ total de individuos de la muestra j
iW<
Y Y
= W 3
i
W
Ci
_ total de individuos muestreados
iW< j W<
Bajo la hiptesis \
F
! la %recuencia esperada para la clase i en la muestra j
es Mcomp(rese con la condicin de independencia en tablas de doble
entrada! relacin H??I2
Eij W 3
i
] C
j
=
#stico J
+
r O r O
J
+ r
&e desea saber si la distribucin de los grupos sangu
gu
<F.7. C4)=CA&=E /E \404DE)E6/A/ /E 0.E&=CA& C.A86=A=65A&+A<
Je*p
W
Y Y H4
ij
[ E
ij
I
+
Y Y 4
ij
W [ =
iW< j W< Eij iW< j W< Eij
&u distribucin es apro*imadamente J
gl
! donde los grados de libertad!
gl W a [ b [ c! se calculan teniendo en cuenta que
a W O ] r _ n$mero de casillas
b W O [ < _ n$mero de par(metros estimados
c W r _ relaciones impuestas sobre losE
ij
H<F.+I
Por tanto
J
HO[<I^Hr[<I
y recha"amos \
F
si J
e*p
g J
HO[<I^Hr[<I!<[
.
Ejemplo
#neos es similar en
los individuos de dos poblaciones. Para ello se elige una muestra aleatoria
simple de cada una de ellas! obteni'ndose los datos re%lejados en la tabla2
3rec. 4bs. A B AB F
0uestra < BF GF <<F +F
0uestra + +FF <GF +7F 1F
:;u' conclusiones pueden obtenerse de estos datos si se usa un nivel de
signi%icacin del @ X?
&olucin2 Poseemos una variable cualitativa S ! que es el grupo san,
#neo! y debemos contrastar si la distribucin es la misma en la primera
poblacin y la segunda. Para ello planteamos el contraste de homogeneidad
conveniente2
Bioestad
Para ello escribimos la que ser
El estad
+ 7
8os valores cr
tras no se obtiene evidencia estad
una distribucin homog'nea del grupo sangu
una muestra de tama-o n. En cada observacin se anali"an dos caracter
+A+
|
|
|
#stica2 0'todos y Aplicaciones
\
F
2 8a variable S se distribuye igualmente en ambas poblaciones \
<
2 8a distribucin no es homog'nea
#a la distribucin de %recuencias esperadas.
h
stas se calculan a partir de las %recuencias marginales de la distribucin
de %recuencias esperadas2
3rec. Esp. A B AB F
0uestra < B<!@G G+!<< <<F!@1 <@!AB 1FF
0uestra + <BG!7+ <AA!GB +1B!7A 17!+< E@F
+BF +EF 1@F @F B@F
#stico del contraste mide las discrepancia entre las observaciones
observadas y esperadas2
J
e*p
W
Y Y
iW< j W<
4
ij
Eij
BF
+
1F
+
[ B@F W
B<!@G Z ] ] ] Z 17!+< [ B@F W <! AE
#ticos est(n a la derecha del percentil B@ del la distribucin
J
H+[<I^H7[<I
W J
1
! que es J
teo
W J
19F!B@
W +! 1@. Por tanto de dichas mues,
#stica su%iciente en contra de que e*ista
#neo en ambas poblaciones.
<F.@. Contraste de independencia de variables cua,
litativas
A partir de una poblacin se toma mediante muestreo aleatorio simple
#sti,
cas cualitativas A y B H o cuantitativas agrupadas en intervalosI! las cuales
presentan r y s modalidades respectivamente. /eseamos contrastar si las dos
variables son independientes! o sea! queremos reali"ar un test de signi%icacin
para las hiptesis2
\
F
2 8as caracter
\
<
2 8as caracter
<F.@. C4)=CA&=E /E 6)/EPE)/E)C6A /E 5AC6AB8E& C.A86=A=65A&+A1
|
|
|
#sticas A y B son independientes
#sticas A y B est(n asociadas
Este test puede ser enunciado de %orma equivalente ordenando la muestra en
una tabla de doble entrada denominada tabla de contingencia! muy
parecida a la de la seccin anterior2
B B
<
B
+ Bj Bs
A
A
<
n
<<
n
<+
n
<j
n
<p
n
<
p
A
+
n
+<
n
++
n
+j n+p n+p
A
i
n
i<
n
i+
n
ij nip nip
A
r
n
r<
n
r+
n
rj nrp nrp
np< np+ npj npp npp
Aunque sobre la poblacin las siguientes probabilidades sean desconocidas!
introducimos la siguiente notacin
p
ij
_ Probabilidad de una observacin del tipo HA
i
! B
j
I9
pip
_ Probabilidad de una observacin de A
i
9
p
p
j
_ Probabilidad de una observacin de B
j
9 H<F.1I
Cecordando el concepto de independencia entre variables bidimensionales
cualitativas! otro modo de escribir el contraste a reali"ar lo obtenemos
bas(ndonos en la relacin H??I2
|
|
|
\
F
2 i W <! . . . ! r j W <! . . . ! s p
ij
W p
i
p
p
pj
\
<
2 i W <! . . . ! r j W <! . . . ! s p
ij
W p
i
p
p
pj
Bioestad
estad
r s
di%erente al de independencia de variables cualitativas! obs'rvese la analog
+A7 #stica2 0'todos y Aplicaciones
8a idea para reali"ar este contraste consiste en comparar como en los
ca,
sos anteriores las %recuencias esperadas bajo la hiptesis \
F
! E
ij
W nppp
i
p
p
pj
!
con las obtenidas en la muestra! 4
ij
W n
ij
. Como las cantidades p
i
y p
j
no
son en principio conocidas! han de ser estimadas a partir de las %recuencias
observadas
|
|
|
|
|
pip
W n
i
p
npp
W E
ij
W npp p
i
p
p
pj W n
i
p
n
p
j
npp
ppj W
n
pj pp
lo que nos hace perder Hr [ <I Z Hs [ <I grados de libertad adicionales al
#stico del contraste2
J
e*p
W
Y Y Hn
ij
[ E
ij
I
+ r
J
Hr[<I^Hs[<I
iW< j W<
Eij
8uego recha"amos \
F
si J
e*p
g J
Hr[<I^Hs[<I!<[
.
4bservacin
Aunque el contraste de homogeneidad de muestras es conceptualmente
#a
e*istente entre los criterios de aceptacin o recha"o de ambas hiptesis.
Ejemplo
@FF ni-os de escuela primaria se clasi%icaron de acuerdo con el grupo
socioeconmico y la presencia o ausencia de cierto de%ecto en la pronunciacin!
los resultados son los siguientes2
Drupo socioeconmico
&uperior 0edio,&uperior 0edio,6n%erior 6n%erior =otal
Con de%ecto G +7 1+ +A B<
&in de%ecto 7+ <+< <1G <FG 7FB
=otal @F <7@ <AF <1@ @FF
li"amos gracias al estad
<F.@. C4)=CA&=E /E 6)/EPE)/E)C6A /E 5AC6AB8E& C.A86=A=65A&+A@
:&on compatibles estos datos con la hiptesis de que el de%ecto en la
pronunciacin! no est( relacionado con el grupo socioeconmico?
&olucin2 En %orma de contraste de hiptesis! se ha de reali"ar el siguiente2
|
|
|
\
F
2 &on independientes el nivel socioeconmico y el de%ecto de pronunciacin
\
<
2 )o son independientes ambas cuestiones.
Para ver si \
F
puede considerarse cierta! o si por el contrario hay una %uerte
evidencia a %avor de \
<
! %ijamos un nivel de signi%icacin W F! F@! y ana,
#stico J
+
! las di%erencias e*istentes entre los valores
esperados y los observados! de suponer \
F
cierta! es decir! las di%erencias
entre las cantidades
4
ij
Eij
W n
ij
W n
i
p
] n
p
j
npp
Bioestad
El n$mero de grados de libertad del estad
<I ^ H7 [ <I W 1. 8uego de ser \
F
cierta! la cantidad J
e*p
no deber
+AE
/e%ecto
&i
&uperior
4<<
W G
E
<<
W B! <
4
<<
#stica2 0'todos y Aplicaciones
Drupo socioeconmico
0edio 0edio 6n%erior
superior in%erior
4
<+
W +7 4
<1
W 1+ 4
<7
W +A
E
<+
W +E! 1B E
<1
W 1F! B7 E
<7
W +7! @A
4
<+
4
<1
4
<7
=otal
n
<
p
W B<
E<< W A! F11 W +<! G+
E<+
W 11! FBE W +B! EA
E<1 E<7
4
+<
W 7+
)o E
+<
W 7F! B
4
+<
W 71! <1F
4
++
W <+< 4
+1
W <1G
E
++
W <<G! E< E
+1
W <1B! FE
4
++
4
+1
W <+1! 71G W <1E! B7G
4
+7
W <FG
E
+7
W <<F! 71 n
+
p
W 7FB
4
+7
W <F@! E+1
E+< E++ E+1 E+7
=otal
np< W @F np+ W <7@ np1 W <AF np7 W <1@
npp W @FF
#stico del contraste es gl W H+ [
#a superar
el valor terico. que se muestra en la 3igura <F.72
J
teo
W J
gl!<[
W J
1!F
d
B@
W A
d
G<.
Calculemos J
e*p
2
H4
ij
[ E
ij
I
+
Y
4
ij
J
e*p
W
Y
i!j
Eij
W [ npp W @FF! A@G [ @FF W F! A@G
Eij
i!j
En consecuencia! no e*iste evidencia signi%icativa a %avor de la hipte,
sis alternativa! o sea! no se recha"a la independencia entre el de%ecto de
pronunciacin de los ni-os de la poblacin y el nivel socioeconmico de su
%amilia.
<F.@. C4)=CA&=E /E 6)/EPE)/E)C6A /E 5AC6AB8E& C.A86=A=65A&+AA
3igura <F.72 Comparacin del valor terico con el e*perimental.
Bioestad
categor
+AG #stica2 0'todos y Aplicaciones
<F.E. Problemas
Ejercicio <F.<. Ante la sospecha de que el h(bito de %umar de una emba,
ra"ada puede in%luir en el peso de su hijo al nacer! se tomaron dos muestras!
una de %umadoras y otra de no %umadoras! y se clasi%ic a sus hijos en tres
#as en %uncin de su peso en relacin con los percentiles P
<F
y P
BF
de
la poblacin. El resultado se e*presa en la tabla siguiente2
Peso del ni-o
:0adre %umadora? 0enor de P
<F
Entre P
<F
y P
BF
0ayor de P
BF
&i <<A @+B <B
)o <+7 <<7A <<A
:\ay una evidencia signi%icativa a %avor de la sospecha a la vista de los
resultados de la muestra?
Ejercicio <F.+. 5arios libros de 0edicina 6nterna recomiendan al m'dico
la palpacin de la arteria radial con el %in de evaluar el estado de la pared
arterial. &e tomaron +<@ pacientes y se les clasi%ic seg$n la palpabilidad de
dicha arteria Hgrados F! < y + para no palpable! palpable y muy palpable o
dura! respectivamenteI y seg$n una puntuacin de F a 7 en orden creciente
de degeneracin arterial Hevaluada tras la muerte del paciente y su an(lisis
anatomo,patolgicoI. 8os datos son los de la tabla siguiente2
Palpabilidad
/egeneracin F < +
F +F @ @
< EF +F <F
+ 7@ <@ <@
1 <F @ @
:E*iste relacin entre el grado de palpabilidad y el an(lisis
anatomopatolgico?
Ejercicio <F.1. &e reali" una encuesta a +BAB andaluces para evaluar su
opinin acerca de la atencin recibida en los Ambulatorios de la &eguridad
&ocial! clasi%ic(ndolos tambi'n en relacin a sus estudios. Anali"ar los datos
<F.E. PC4B8E0A& +AB
de la siguiente tabla2
4pinin
)ivel de estudios Buena Cegular 0ala
)inguno GFF <77 1+
Primarios BF@ 1<+ EA
Bachiller +GA <@A 77
0edios B@ 7G <<
&uperiores 1G 1+ A
Ejercicio <F.7. Con el %in de conocer si un cierto tipo de bacterias se
distribuyen al a"ar en un determinado cultivo o si! por el contrario! lo hacen con
alg$n tipo de pre%erencia Hel centro! los e*tremos! etc...I! se divide un cultivo
en @AE (reas iguales y se cuenta el n$mero de bacterias en cada (rea. 8os
resultados son los siguientes2
n
o
de bacterias F < + 1 7 l@
n
o
de (reas ++B +<< B1 1@ A <
:4bedecen los datos a una distribucin de Poisson?
Ejercicio <F.@. 8a siguiente tabla recoge la distribucin de los triglic'ridos en
suero! e*presados en mgcdl en BF ni-os de E a-os2
)ivel de triglic'ridos 3recuencias
<F, +F @
+F, 1F <<
1F, 7F <@
7F, @F +7
@F, EF <G
EF, AF <+
AF, GF 7
GF, BF <
Contrastar la hiptesis de que el nivel de triglic'ridos en ni-os de E a-os
Bioestad
Ejercicio <F.E. 8a distribucin en Andaluc #a del grupo sangu
&e desea saber si la distribucin del grupo sangu
igual que en Andaluc
te un periodo de tiempo determinado! %ue interrogado para saber si pre%er
'ste o el que hab
+GF #stica2 0'todos y Aplicaciones
sigue una distribucin )ormal.
#neo es de un
1@X!<F X! E X y un 7B X para los grupos A! B! AB y 4 respectivamente.
En 0(laga! se reali" el estudio en una muestra de +FF individuos
obteni'ndose una distribucin del @F X! 1F X! <G X! y <F X para los
grupos A! B AB y 4 respectivamente.
#neo en dicha provincia es
#a.
Ejercicio <F.A. En un estudio dise-ado para determinar la aceptacin
por
una parte de los pacientes de un nuevo analg'sico! <FF m'dicos
seleccio,
naron cada uno de ellos una muestra de +@ pacientes para participar
en el
estudio. Cada paciente despu's de haber tomado el nuevo analg'sico
duran,
#a
#a tomado anteriormente con regularidad! obteniendo los
siguientes resultados2
n
o
de pacientes que n
o
de m'dicos que n
o
total de pacientes
pre%ieren el nuevo obtienen estos que pre%ieren el
analg'sico resultados nuevo analg'sico
F @ F
< E E
+ G <E
1 <F 1F
7 <F 7F
@ <@ A@
E <A <F+
A <F AF
G <F GF
B B G<
<F o m(s F F
=otal <FF @FF
;ueremos saber si estos datos se ajustan a una distribucin binomial.
po sangu
<@FF sujetos a los que se les determin su grupo sangu
Drupo sangu
A y B se clasi%ican en tres categor
<F.E. PC4B8E0A& +G<
Ejercicio <F.G. /isponemos de una muestra de +@F mujeres mayores de
<G a-os! cuyos pesos son los presentados en la tabla adjunta! y queremos
saber si los datos de esta muestra provienen de una distribucin )ormal.
Pesos n
o
de mujeres
1F, 7F <E
7F, @F <G
@F, EF ++
EF, AF @<
AF, GF E+
GF, BF @@
BF, <FF ++
<FF, <<F 7
Ejercicio <F.B. /eseamos conocer! si las distribuciones atendiendo al gru,
#neo! en tres muestras re%eridas atendiendo al tipo de tensin arte,
rial! se distribuyen de igual manera. Para lo cual! se reuni una muestra de
#neo y se les tom la
tensin arterial! clasi%ic(ndose 'sta en baja! normal! y alta. 4bteni'ndose los
siguientes resultados2
#neo
=ensin arterial A B AB 4 =otal
Baja +G B A 1< A@
)ormal @71 +<< BF 7AE <.1+F
Alta 77 ++ G 1< <F@
=otal E<@ +7+ <F@ @1G <.@FF
Ejercicio <F.<F. 8a recuperacin producida por dos tratamientos distintos
#as2 muy buena! buena y mala. &e adminis,
tra el tratamiento A a 1F pacientes y B a otros 1F2 /e las ++ recuperaciones
muy buenas! <F corresponden al tratamiento A9 de las +7 recuperaciones
buenas ! <7 corresponden al tratamiento A y de los <7 que tienen una ma,
la recuperacin corresponden al tratamiento A. :&on igualmente e%ectivos
Bioestad
+G+ #stica2 0'todos y Aplicaciones
ambos tratamientos para la recuperacin de los pacientes?
Cap
#tulo <<
An(lisis de la varian"a
<<.<. 6ntroduccin
/el mismo modo que el contraste J
+
generali"aba el contraste de dos
proporciones! es necesario de%inir un nuevo contraste de hiptesis que sea
aplicable en aquellas situaciones en las que el n$mero de medias que que,
remos comparar sea superior a dos. Es por ello por lo que el an(lisis de
la varian"a! A)45A
<
surge como una generali"acin del contraste para
dos medias de la t de &tudent! cuando el n$mero de muestras a contrastar
es mayor que dos.
Por ejemplo! supongamos que tenemos 1 muestras de di%erentes tama-os
que suponemos que provienen de tres poblaciones normales con la misma
varian"a2
H I
*
<
6C
n
< S
<
) k
<
! n
+
H I
*
+
6C
n
+ S
+
) k
+
! n
+
H I
*
1
6C
n
1 S
1
) k
1
! n
+
&i queremos reali"ar el contraste
<
/el t'rmino ingl's PAnalysis o% varianceQ.
+G1
Bioestad
podr
\
dd
\
dd
\
ddd
\
ddd
de modo que se aceptar #a \
<
y se recha"ar
<! \
dd
\
ddd
F ni \
dd
ni \
ddd
+G7
|
|
|
#stica2 0'todos y Aplicaciones
\
F
2 k
<
W k
+
W k
1
\
<
2 k
<
W k
+
k
<
W k
1
k
+
W k
1
#amos en plantearnos coHo Irimer m'todo el %ijar una cantidad
1
pr*ima a cero y reali"ar los
nivel de signi%icacin2
|
| \
d F
2 k
<
W k
+
|
+
W 1 contrastes siguientes con como
nivel de signi%icacin
\
d <
2
|
| F 2
|
< 2
|
| F 2
|
< 2
sis alternativas \
d <
k
<
W k
+
k
<
W k
1
nivel de signi%icacin
k
<
W k
1
k
+
W k
1
nivel de signi%icacin
k
+
W k
1
#a \
F
slo si alguna de las hipte,
< es aceptada y recha"ada su correspondiente
hiptesis nula. El error de tipo 6 para este contraste es2
f e
Prob Cecha"ar \
F q\
F es cierta
f e
W < [ P
rob
)o recha"ar \
F q\
F es cierta
f
W < [ P
rob
)o recha"ar \
d F F q\
d
W < [ H< [ I
1
e
F y
\
Fd
y
\
Fdd
son ciertas
se obtendr
es la que e*ponemos en este cap
<<.+. A)45A C4) .) 3AC=4C +G@
Por ello el nivel de signi%icacin obtenido para este contraste sobre la
igual,
dad de medias de tres muestras no es como hubi'semos esperado
obtener
inicialmente! sino < [ H< [ I
1
. Por ejemplo! si tomamos un nivel de signi%i,
cacin W F
d
< para cada uno de los contrastes de igualdad de dos medias!
#a que el nivel de signi%icacin Herror de tipo 6 I para el contraste de
las tres medias es de < [ F! B
1
W F! +A! lo que es una cantidad muy alta para lo
que acostumbramos a usar.
En consecuencia! no es adecuado reali"ar el contraste de igualdad de
medias de varias muestras mediante una multitud de contrastes de igualdad de
medias de dos muestras.
.na t'cnica que nos permite reali"ar el contraste de modo conveniente
#tulo y que se denomina an(lisis de la
varian"a.
<<.+. A)45A con un %actor
&e denomina modelo %actorial con un %actor o A)45A con un %actor
al modelo HlinealI en el que la variable anali"ada la hacemos depender de un
slo %actor de tal manera que las causas de su variabilidad son englobadas
en una componente aleatoria que se denomina error e*perimental2
S W %actor i error
5amos a e*poner esto con m(s claridad. Consideremos una variable
sobre la que act$a un %actor que puede presentarse bajo un determinado
n$mero de niveles! t. Por ejemplo podemos considerar un %(rmaco que se
administra a t W 1 grupos de personas y se les reali"a cierta medicin del
e%ecto causado2
Cesultado de la medicin
Dripe Hnivel <I @ 1 + @ 7 1 _ n
<
W E
Apendicitis Hnivel +I G B E A G B <F G <F _ n
+
W B
&anos Hnivel 1I + 1 + < + 1 + _ n
1
W A
Bioestad
cada nivel las observaciones son independientes entre s
+GE #stica2 0'todos y Aplicaciones
En este caso los %actores que in%luyen en las observaciones son tres2
el que la persona pade"ca la gripe! apendicitis! o que est' sana.
/e modo general podemos representar las t muestras Ho nivelesI
del siguiente modo2
)iveles 4bservaciones de S tama-os muestrales
)ivel < o )
<
*
<<
*
<+
] ] ]
*
<n
<
n
<
)ivel + o )
+
*
+<
*
++
] ] ]
*
+n
+
n
+
)ivel t o )
t
*
t< *t+
] ] ]
*tnt
n
t
donde por supuesto! los tama-os de cada muestra n
i
! no tienen por que ser
iguales. En este caso decimos que se trata del modelo no equilibrado.
4bservacin
/e ahora en adelante asumiremos que las siguientes condiciones son
veri%icadas por las t muestras2
8as observaciones proceden de poblaciones normales9
8as t muestras son aleatorias e independientes. Adem(s! dentro de
#.
En el modelo de un %actor suponemos que las observaciones del nivel i! *
ij
! provienen de una variable S
ij
de %orma que todas tienen la misma
varian"a Mhiptesis de homocedasticidad2
H I
S
ij
)
ki ! n
+
j W <! . . . ! n
i
o lo que es lo mismo!
H I
S
ij
W k
i
Z
ij
! donde
ij
) F! n
+
/e este modo k
i
es el valor esperado para las observaciones del nivel
i! y los errores
ij
son variables aleatorias independientes! con valor
t
<<.+. A)45A C4) .) 3AC=4C +GA
esperado nulo! y con el mismo grado de dispersin para todas las
observaciones.
4tro modo de escribir lo mismo consiste en introducir una cantidad k que
sea el valor esperado para una persona cualquiera de la poblacin Hsin
tener en cuenta los di%erentes nivelesI! y considerar los e%ectos
i
introducidos por los niveles! de modo que
ki
W k Z
i
i W <! . . . ! t
Y
n
i

i
W F
iW<
<<.+.<. Especi%icacin del modelo
Con todo lo anterior! el modelo A)45A de un %actor puede escribirse como
H I
S
ij
W k Z
i
Z
ij
! donde
ij
) F! n
+
y con la siguiente interpretacin2
k es una constante com$n a todos los niveles9
i es el e%ecto producido por el i,'simo nivel. Al sumarlos todos deben
compensarse los e%ectos negativos con los positivos para que la media
com$n a todos los niveles sea realmente k. Esto implica en particular que
los e%ectos!
i
! de los niveles no son independientes9
ij es la parte de la variable Sij no e*plicada por k ni i ! y que se
distribuye del mismo modo Haunque independientementeI para cada
observacin! seg$n la ley gaussiana2
H I
ij )
F! n
+
h
sta es la condicin de homocedasticidad! y es %undamental en el
an(lisis de la varian"a.
Bioestad
co del an(lisis estad
&i mediante los contrastes estad
+GG #stica2 0'todos y Aplicaciones
4bs'rvese que ahora podemos escribir el contraste de que los
di%erentes niveles no tienen in%luencia sobre la observacin de la variable
como2
|
|
|
o bien
\
F
2 k
<
W k
+
W ] ] ] W k
t
\
<
2 Al menos dos son distintos
|
|
|
4bservacin
\
F
2
<
W
+
W ] ] ] W
t
W F
\
<
2 Alg$n
i
W F
&e utili"a el nombre de an(lisis de la varian"a ya que el elemento b(si,
#stico ser( precisamente el estudio de la variabilidad.
=ericamente es posible dividir la variabilidad de la variable que se estudia en
dos partes2
8a originada por el %actor en cuestin9
8a producida por los restantes %actores que entran en juego! conocidos
o no! controlables o no! que se conocen con el nombre de error
e*perimental.
#sticos adecuados la variacin producida
por cierto %actor es signi%icativamente mayor que la producida por el error
e*perimental podemos aceptar la hiptesis de que los distintos niveles del
%actor act$an de %orma distinta.
Ejemplo
Consideremos dos muestras tomadas en di%erentes niveles de una variable!
de %orma que ambas tengan la misma varian"a muestral Hlo que indica que no
se puede recha"ar la igualdad de varian"as poblacionalesI y medias
muestrales bastante di%erentes. Por ejemplo2
s
s
s
t
ni
t ni t
<<.+. A)45A C4) .) 3AC=4C
|
+GB
|
nivel <
" xq w
<!+!1
nivel +
|
|
n
<
W 1
*
<
W +
&
<
W <
|
| n
+
W 1
|
|
|
| |
| | | n W n
<
Z n
+
W E
W * W A
| |
| &
+
r @! @@
" xq w
<<!<+!<1
| *
+
W <+
&
+
W <
| |
|
|
8a dispersin calculada al medir la de los dos niveles conjuntamente es
mucho mayor que la de cada uno de ellos por separado. Por tanto puede
deducirse que ambos niveles no tienen el mismo valor esperado.
<<.+.+. Algo de notacin relativa al modelo
Este apartado est( dedicado a introducir alguna notacin para escribir los
t'rminos que ser(n m(s importantes a la hora de reali"ar un contraste por el
m'todo A)45A. En primer lugar tenemos2
Y
)
*ip
*ip
*pp
W n
i
iW<
Y
W *ij
j W<
W *
i
p
n
i
Y Y
W
iW< j W<
n$mero total de observaciones Hentre todos los nivelesI
suma de las observaciones del nivel i
media muestral del nivel i
Y
*ij W n
i
*
i
p suma de todas las observaciones
iW<
*pp
W *
pp
) media muestral de todas las observaciones
.sando estos t'rminos vamos a desglosar la variacin total de la muestra en
variacin total dentro de cada nivel HintravariacinI m(s la variacin entre
los distintos niveles HintervariacinI. Para ello utili"amos la proposicin ??
Hp(gina ??I2
Bioestad
t ni
t ni
t
En el c(lculo del estad
t ni
de este modo el n$mero de grados de libertad de este estad
Hrecu'rdese la nocin de grados de libertad de un estad
es ) [ t y el de &CE es t [ <. As# introducimos los siguientes estad
s
s
s
+BF
dond
e
&C= W
Y
iW<
Y
#stica2 0'todos y Aplicaciones
&C= W &C/ Z &CE
Y
H*
ij
[ *pp I
+
&uma de Cuadrados =otales
j W<
Y
&C/ W
H*
ij
[ *
i
p
I
+
&C /entro de cada nivel
iW< j W<
Y
&CE W
ni H*ip
[ *
pp
I
+
&C Entre todos los niveles
iW<
4bservacin
#stico &C= intervienen ) cantidades! ligadas por
una relacin2
Y Y
*pp
W *
ij
iW< j W<
#stico es ) [ <
#stico! p(gina ??I.
Por ra"ones an(logas tenemos que el n$mero de grados de libertad de &C/
#sticos2
&
=
&
E
W &C=
) [ <
W &CE
t [ <
Cuasivarian"a total H<<.<I
6ntervarian"a H<<.+I
&
/
W &C/
) [ t 6ntravarian"a
H<<.1I
Estos son los estad
En la %igura in%erior s
<<.+. A)45A C4) .) 3AC=4C +B<
#sticos que realmente nos interesan a la hora de rea,
li"ar el contraste de igualdad de medias. Cuando la di%erencia entre
los e%ectos de los di%erentes niveles sea muy baja! es de esperar que
la cuasivarian"a total sea pr*ima a la intravarian"a! o lo que es lo
mismo! que la intervarian"a sea peque-a en relacin con la
intravarian"a.
3igura <<.<2 En la %igura de superior no e*iste una evidencia
signi%icativa
en contra de que las medias de los tres grupos de observaciones
coinciden.
#.
<<.+.1. 3orma de e%ectuar el contraste
Consideramos el contraste
|
|
|
\
F
2
<
W
+
W ] ] ] W
t
W F
\
<
2 Alg$n
i
W F
y suponemos que estamos en las condiciones del modelo %actorial de un
Bioestad
%actor. &i \
F
es cierta se puede demostrar que el siguiente estad
s
s
calculamos los siguientes estad
t ni
t
+B+
distribuye como una 3 de &nedecor2
&
E
#stica2 0'todos y Aplicaciones
#stico se
3
e*p
W
&
/
3
t[<!) [t
8uego si al calcular 3
e*p
obtenemos que 3
e*p
g 3
t[<!) [t!<[
donde
es un nivel de signi%icacin dado! deberemos de recha"ar la hiptesis nula
Hya que si \
F
%uese cierta! era de esperar que &s
E
%uese peque-o en relacin
con &s
/
I.
<<.+.7. 0'todo reducido para el an(lisis de un %actor
En este apartado vamos a resumir lo m(s importante de lo visto hasta ahora!
indicando la %orma m(s sencilla de reali"ar el contraste. En primer lugar
#sticos a partir de la tabla de las observacio,
nes en cada nivel2
Y Y
A W *
ij
iW< j W<
Y
*
i
p
B W
iW<
n
i
C W *
pp
)
n<
n+
nt
s
s
s
s
<<.+. A)45A C4) .) 3AC=4C
)iveles 4bservaciones de
S
C(lculos al margen
Y
+B1
)ivel < *
<<
*
<+
] ] ] *
<n
< n
<
)ivel + *
+<
*
++
] ] ] *
+n
+ n
+
*
<
p
*
<
p
n
< j W<
Y
*
+
p
*
+
p
n
+ j W<
Y
*
<j
*
+j
)ivel t *
t<
*t+ ] ] ] *tnt
n
t
*
t
p
*
t
p
n
t
) *pp B
*
tj
j W<
A
Entonces las siguientes cantidades admiten una e*presin muy sencilla2
&CE W B [ C W
&C= W A [ C
&C/ W A [ B W
Calculamos
&
E
W &CE
t [ <
&
/
W &C/
) [ t
3
e*p
W
&
E
&
/
y dado el nivel de signi%icacin buscamos en una tabla de la distribucin 3
de &nedecor el valor
3
teo
W 3
t[<!) [t!<[
recha"ando \
F
si 3
e*p
g 3
teo
. como se aprecia en la 3igura <<.+.
Bioestad
3igura <<.+2 Cegin cr
+B7 #stica2 0'todos y Aplicaciones
3n, m
para nW1! mW<E
)o recha"a la igualdad de medias2 \
F &e recha"a \F
3n, m, <
F < + 1 7
#tica en un contraste A)45A.
Ejemplo
&e aplican 7 tratamientos distintos a 7 grupos de @ pacientes! obte,
ni'ndose los resultados de la tabla que se adjunta. ;ueremos saber si se
puede concluir que todos los tratamientos tienen el mismo e%ecto. Para ello
vamos a suponer que estamos en condiciones de aplicar el modelo de un
%actor
+
.
+
Esto es algo que debe ser contrastado previamente. En principio la independencia
entre las observaciones es algo bastante natural a la hora de reali"ar un estudio! pero no lo
es tanto la condicin de homocedasticidad. 0(s adelante veremos ciertos contrastes de
homocedasticidad que deben ser siempre reali"ados antes de aplicar esta t'cnica2 test de
Cochran y test de Bartlett.
ni
B W
<!F11
Estad
s
W &CE
s
<<.+. A)45A C4) .)
3AC=4C
*
i
p
+B@
Y
=ratamientos 4bservaciones n
i
*ip
=ratamiento < ,< < + F ,< @ <
=ratamiento + ,+ ,7 ,@ ,7 ,A @ ,++
=ratamiento 1 F ,< ,+ ,7 ,< @ ,G
=ratamiento 7 < 7 E 1 G @ ++
) W +F *pp
W A

C W 7B
+F
3uente de grados de &uma cuadrados Cuasivarian"as
variacin libertad
Entre t [ < W 1 &CE W B [ C &
E
n
i
<c@
7G7c@
E7c@
7G7c@
@
3
e*p
*
ij
j W<
A
<<F
++
<+E
A W +E@
#stico
W &s
+E
t[< &/
tratamientos W+F7!<@ WEG!<EA W<G!EAE
]
/entro de los ) [ t W <E &C/ W A [ B &
/
W
&C/ ) [t
3teo W 3t[<!) [t
tratamientos W@G!7 W1!E@ W1!+7
En conclusin! 3
e*p
g 3
teo
! por tanto se ha de recha"ar la igualdad de
e%ectos de los tratamientos.
En la 3igura <<.7 se representan las observaciones de cada nivel de
tratamiento mediante una curva normal cuyos par(metros se han estimado
puntualmente a partir de las observaciones. 4bs'rvese que las di%erencias
m(s importantes se encuentran entre 8os tratamientos + y 7. Esto motiva los
contrastes de comparaciones m$ltiples Hdos a dosI! para que! en el caso en que
la igualdad de medias sea recha"ada! se pueda establecer qu' niveles tuvieron
mayor in%luencia en esta decisin.
<<.+.@. An(lisis de los resultados del A)45A2 Comparacio,
nes m$ltiples
.na ve" contrastado el que e*isten di%erencias signi%icativas mediante el
an(lisis de la varian"a! nos interesa conocer que niveles del %actor son los
que han in%luido m(s para que se de este resultado. Como ilustracin! en
Bioestad
e%ecto en los di%erentes grupos. \ay gran evidencia estad
dan resultados muy di%erentes! y probablemente de ah
tienen en este caso como estad
s
+BE #stica2 0'todos y Aplicaciones
31, <E
&e recha"a la igualdad de medias2 \F
3e*p = <G.EG
31, <E, F.B@
F @ <F <@ +F
3igura <<.12 &e recha"a la hiptesis de que los tratamientos tienen el mismo
#stica en contra.
el $ltimo ejemplo se ve claramente que los tratamientos segundo y cuarto
# venga el que se haya
recha"ado la igualdad de todos los e%ectos.
El m'todo m(s simple es el de Bon%erroni! que consiste en reali"ar todas las
comparaciones por parejas2
|
|
|
\
F
2 ki W kj
i! j W <! . . . ! t i W j
\
<
2 ki W kj
H I
t
W contrastes
+
lo que corresponde a los ya conocidos contrastes de la t de &tudent! que
#stico e*perimental a Hde nuevo suponiendo
la homocedasticidad en todas las muestrasI2
=
e*p
W b
i
[ *
j
t
) [t
<
&/
n
i
Z n< i
s
estad
<<.1. C4)&6/ECAC64)E& &4BCE 8A& \6P4=E&6& &.BTACE)=E& E) E8
04/E84 3AC
3igura <<.72 8as di%erencias m(s importantes se encuentran entre los
niveles
+ y 7.
ya que la intravarian"a
&/ ! es un estimador de n
+
con ) [ t grados de
libertad.
&in embargo el nivel de signi%icacin de los contrastes debe ser disminui,
do para tener en cuenta que ahora al hacer multitud de contrastes aumenta
la probabilidad del error de tipo 6. Para una probabilidad de error de tipo
6 Hnivel de signi%icacinI ! el procedimiento de comparaciones m$ltiples
de Bon%erroni nos indica que declaremos signi%icativas las di%erencias entre
muestras cuando estas sean signi%icativas en contrastes bilaterales para el
#stico anterior para el nivel de signi%icacin

d
W H
I
t
+
<<.1. Consideraciones sobre las hiptesis subya,
centes en el modelo %actorial
Para aplicar el modelo de un %actor hemos hecho! entre otras! las siguientes
suposiciones2
Bioestad
bi'n la de las muestras entre s
dolog
es algo que deber
distribucin normal mediante el estad
caso ) W t ] n. El estad
s
&
+
t
s
&
+
donde se de%ine &s
+
s
&
+
ni ni
+BG #stica2 0'todos y Aplicaciones
8as observaciones de cada muestra han de ser independientes y tam,
#. Para ello podemos aplicar cualquiera
de los contrastes no param'tricos de aleatoriedad. En principio esta
aleatoriedad es algo que es bastante ra"onable admitir si la meto,
#a para elegir los datos HmuestreoI ha sido reali"ada siguiendo
t'cnicas adecuadas.
8os datos han de ser normales en cada una de las muestras. Esto
#a ser contrastado previamente antes de utili"ar el
A)45A de un %actor mediante! por ejemplo! el test de ajuste a la
#stico J
+
que ya conocemos! o
bien el test de dKAgostino! que veremos m(s adelante en la p(gina
1FG! y que es mucho m(s cmodo de utili"ar9
8as varian"as de cada muestra son todas iguales! es decir2
|
|
\F 2 n< W n+ W ] ] ] W nt
|
\
<
2 Alg$n n
i
W n
j
Para esto podemos utili"ar un par de contrastes que e*ponemos bre,
vemente a continuacin2 contraste de Cochran y contraste de Bartlett.
<<.1.<. Contraste de homocedasticidad de Cochran
Este test se aplica cuando n W n
<
W n
+
W ] ] ] W n
t
y si ha sido veri%icada
previamente la aleatoriedad y la normalidad de las observaciones. En este
#stico del contraste es2
C
e*p
W
w xt
m(* i
iW<
Y
i
iW<
i como la cuasivarian"a de la muestra del nivel i! es decir
i W
<
n
i
[ <
Y
H*
ij
[ *
i
p
I
+
W
j W<
< Y
*
ij
[ n
i
n
i
[ < n
i
[ < *
i
p
j W<
tama-o. El estad
t
ln&s
+
<<.1. C4)&6/ECAC64)E& &4BCE 8A& \6P4=E&6& &.BTACE)=E& E) E8 04/E84
3AC
3igura <<.@2 En la %igura superior hay evidencia en contra de la
homocedasticidad en las tres muestras. En la in%erior! no.
3ijado un nivel de signi%icacin se busca en la tabla de la distribucin de
Cochran el valor
C
teo
W C
n[<!t!<[
y se recha"a \
F
si C
e*p
g C
teo
.
<<.1.+. Contraste de homocedasticidad de Bartlett
Este test se aplica si estamos en la misma situacin que en el de Cochran!
pero en este caso no es necesario el que todas las muestras sean del mismo
#stico del contraste es2
J
e*p
W <
O
f
H) [ tI ln&s
/
[
Y
i
iW<
e
Bioestad
t
1FF
siendo
H
#stica2
0'todo
s y
Aplicac
iones
I
O W < Z
< Y < <
1 Ht [ <I iW< n
i
[ < [ ) [ t
&e recha"a \
F
si J
e*p
g J
t[<!<[
<<.7. PC4B8E0A& 1F<
<<.7. Problemas
<., Para evaluar la in%luencia del tipo de acidosis del reci'n nacido en los
niveles de glucemia medidos en el cordn umbilical del mismo! se obtuvieron los
datos de la siguiente tabla2
)iveles de glucemia
Controles @< @E @G EF E+ E1 E@ EG A+ A1
Acid. Cespiratoria EF E@ EE EG EG EB A1 A@ AG GF
Acid. 0etablica EB A1 A7 AG AB AB G+ G@ GA GG
Acid. 0i*ta AF A@ AE AA AB GF G+ GE GG GB
4btener conclusiones a partir de los resultados de esas muestras.
+., &e desea saber si el grado de ansiedad es el mismo! por t'rmino medio! en
tres en%ermedades distintas. Para ello se tomaron tres muestras de <F! <+ y G
personas! respectivamente! con esas en%ermedades! pas(ndoles a cada una de
ellas un test que mide el grado de ansiedad del individuo. 8os resultados se dan
en la tabla adjunta.
En%ermedad Drado de ansiedad
A 7 E @ @ E 1 1 + E @
B + < @ @ 7 E 7 7 7 1 1 +
C A @ G A B 1 @ @
:;ue puede concluirse de los datos?.
1., En una e*periencia para comparar la e%icacia de diversas t'cnicas en el
tratamiento del dolor producido por una intervencin quir$rgica super%icial! +G
pacientes se agruparon al a"ar en 7 grupos de A! tratando al primero con
placebo! y a los siguientes con dos tipos de analg'sicos HA y BI y
acupuntura. 8os datos se dan en la siguiente tabla2
Bioestad
1F+ #stica2 0'todos y Aplicaciones
=ratamiento 0inutos para la remisin del dolor
Placebo 1@ ++ @ <7 1G 7+ E@
Analg'sico A G@ GF 7E E< BB <<7 <<F
Analg'sico B <FF <FA <7+ GG E1 B7 AF
Acupuntura GE <+@ <F1 BB <@7 A@ <EF
:;ue conclusiones pueden obtenerse de esta e*periencia?.
7., &e est( llevando a cabo un estudio para comprobar el e%ecto de tres
dietas di%erentes en el nivel de colesterina de pacientes
hipercolesterin'micos. Para ello se han seleccionado al a"ar 1 grupos de
pacientes! de tama-os <+! G y <F. 8os niveles de colesterina medidos
despu's de + semanas de dieta se representan a continuacin2
/ieta )ivel de colesterina
A +KB 1K1@ 1K+@ 1 1K1 1K< 1K+@ 1K+@ 1K< 1KF@ 1K+@ 1
B 1K<@ +KB@ +KG 1K< +KA@ +KE +KG 1KF@
C 1 +KE +KE@ +K+ +K@@ +K1 +K1@ +KE +K1@ +KE
Analice los resultados obtenidos.
@., En un colectivo de @ individuos se aplican 1 %(rmacos para estudiar
su in%luencia sobre sus movimientos respiratorios Hn$mero de inspiraciones
por minutoI. 8os valores obtenidos para cada individuo vienen e*presados
en la tabla2
6ndividuos
< + 1 7 @
Antes de los tratamientos <7 <E <G <@ +F
/espu's de 6 <E <A +< <E +7
/espu's de 66 <@ <7 <G <@ ++
/espu's de 666 <A <E +F <1 <G
Estudie si el e%ecto de estos %(rmacos en la variacin respiratoria producida
<<.7. PC4B8E0A& 1F1
puede considerarse o no el mismo.
Bioestad
1F7 #stica2 0'todos y Aplicaciones
Cap
in%erencia e*ig
este cap
#tulo <+
Contrastes no param'tricos
<+.<. 6ntroduccin
\asta ahora todas las t'cnicas utili"adas para reali"ar alg$n tipo de
#an2
bien asumir de ciertas hiptesis como la aleatoriedad en las
observaciones que componen la muestra! o la normalidad de la
poblacin! o la igualdad de varian"as de dos poblaciones! etc9
o bien! la estimacin de cualquier par(metro como la media! varian"a!
proporcin! etc! de la poblacin.
El conjunto de estas t'cnicas de in%erencia se denominan t'cnicas pa,
ram'tricas. E*isten sin embargo otros m'todos paralelos cuyos procedi,
mientos no precisan la estimacin de par(metros ni suponer conocida nin,
guna ley de probabilidad subyacente en la poblacin de la que se e*trae la
muestra. Estas son las denominadas t'cnicas no param'tricas o con,
trastes de distribuciones libres! algunos de los cuales desarrollamos en
#tulo. &us mayores atractivos residen en que2
&on m(s %(ciles de aplicar que las alternativas param'tricas9
1F@
Bioestad
babilidad var
categor
a una sucesin de valores de la misma categor
una poblacin de personas podemos considerar como categor
1FE #stica2 0'todos y Aplicaciones
Al no e*igir ninguna condicin suplementaria a la muestra sobre
su proveniencia de una poblacin con cierto tipo de distribucin!
son m(s generales que las param'tricas! pudi'ndose aplicar en los
mismos casos en que estas son v(lidas.
Por otro lado! esta liberacin en los supuestos sobre la poblacin
tiene inconvenientes. El principal es la %alta de sensibilidad que poseen
para detectar e%ectos importantes. En las t'cnicas no param'tricas
juega un papel %undamental la ordenacin de los datos! hasta el punto
de que en gran cantidad de casos ni siquiera es necesario hacer
intervenir en los c(lculos las magnitudes observadas! m(s que para
establecer una relacin de menor a mayor entre las mismas!
denominadas rangos.
<+.+. Aleatoriedad de una muestra2 =est de ra,
chas
A veces al reali"ar un muestreo! puede llegar a in%luir el orden temporal
o espacial en que las muestras han sido elegidas! con lo cual no estamos
en las condiciones de un muestreo aleatorio simple! ya que la ley de pro,
#a de una observacin a otra. Como ilustracin obs'rvese la
%igura adjunta. =ambi'n podemos denominar a este contraste como test de
independencia de las observaciones de una muestra.
Consideremos una muestra de tama-o n que ha sido dividida en dos
#as y con n
<
y n
+
observaciones cada una. &e denomina racha
#a. Por ejemplo si estudiamos
#a el se*o
o ser hombre
o ser mujer
"

7 rachas
xq w

|
| n
<
W @
n
+
W 7
q w"
1
x q w" x
+
qw"x
<
q w"
1
x | n W n
<
Z n
+
W B
t t t t t t t t
n
o
observacin

<+.+. A8EA=4C6E/A/ /E .)A 0.E&=CA2 =E&= /E CAC\A& 1FA


*

t t t t t t t t

*

t t t t t t t t t t

< + 1 1 @ E A G B
|
< + 1 1 @ E A G B

n
o
observacin
Aleatoria
*
|
n
o
observacin
)o aleatoria
HtendenciaI
*

t t t t t t t t

< + 1 1 @ E A || B

t t

< + 1 1 E A G |
n
o
observacin
|

|

)o aleatoria )o aleatoria
HperidicaI HalternanteI
Bioestad
en dos categor
&e calculan sobre la muestra la media! la desviacin t#pica un estad
y por $ltimo el estad
n n
En la tabla de la distribucin del estad
1FG #stica2 0'todos y Aplicaciones
En %uncin de las cantidades n
<
y n
+
se espera que el n$mero de rachas no
sea ni muy peque-o ni muy grande.
&i las observaciones son cantidades num'ricas estas pueden ser divididas
#as que poseen apro*imadamente el mismo tama-o Hn
<
W
n
+
i <I! si consideramos la mediana de las observaciones como el valor que
sirve para dividir a la muestra2
o observacin in%erior a la mediana
o observacin superior a la mediana
&e de%ine la v.a. C como el n$mero de rachas. &u distribucin est( ta,
bulada para los casos n
<
a +F y n
+
a +F Htabla A de /onieI. 8a alea,
toriedad en la e*traccin de la muestra se recha"a cuando C a C
n
< !n+ !c+
C l C
n
<!n+ !<[cr
.
<+.1. )ormalidad de una muestra2 =est de /KAgostino
Consideremos n observaciones! las cuales ordenamos de menor a mayor y les
asignamos su rango en %uncin de este orden
4bservaciones
ordenadas
Cango
_ *
<
*
+
*
1
] ] ] *
i
] ] ] *
n
_ < + 1 ] ] ] i ] ] ] n
#stico =
#stico del contraste / cuya distribucin est( tabulada
Y
H I
Y
= W
iW<
/ W =
n
+
&
i [ n Z <
+
*i W i *
i
[ nHn Z <I * H<+.<I
+
iW<
H<+.+I
#stico de /KAgostino! Htabla GI /!
para un nivel de signi%icacin ! se busca un intervalo H/
n!
! /
n!
I de modo
chas! C
e*p
! %ormadas por las categor
<+.7. E;.6/6&=C6B.C64) /E /4& P4B8AC64)E& 1FB
que si / H/
n!
! /
n!
I se recha"a la normalidad y en otro caso se asume.
Para reali"ar este test es necesario que al menos n l <F.
<+.7. Equidistribucin de dos poblaciones
Estas son las alternativas no param'tricas del contraste de la t de &tudent
para poblaciones normales Hseccin B.@! p(gina ++GI. Est(n concebidas
para contrastar la hiptesis de que dos muestras aleatorias independientes
*
W *
<
! *
+
! . . . ! *
n
<
y
W y
<
! y
+
! . . . ! y
n
+
provienen de poblaciones que tienen id'nticas distribuciones. Para aplicar
estos contrastes ser( en primer lugar necesario contrastar si cada una de las
muestras se ha obtenido mediante un mecanismo aleatorio. Esto puede
reali"arse mediante un test de rachas.
&upongamos que el contraste de aleatoriedad de ambas muestras
HcuantitativasI no permite que 'sta se rechace a un nivel de signi%icacin .
Entonces aplicaremos el contraste de 0annMLithney o el de rachas de
LaldMLol%oit"! que e*ponemos a continuacin.
<+.7.<. Contraste de rachas de LaldMLol%oit"
&i combinamos las dos muestras y disponemos el conjunto completo de
todas las observaciones! ordenadas de menor a mayor! cabe esperar que
bajo la hiptesis
\
F
2 8as poblaciones de las que provienen las muestras est(n equidistribuidas
las dos muestras est'n muy entreme"cladas! y por tanto el n$mero de ra,
#as
o 4bservacin de la muestra *
o 4bservacin de la muestra y
debe ser muy alto.
Bioestad
C
+
! para despu's calcular los estad
1<F #stica2 0'todos y Aplicaciones
Cuando n
<
! n
+
a +F el valor terico del n$mero de rachas por debajo del
cual se recha"a \
F
!
C
teo
W C
n
< !n+ !
se busca en la tabla A Hde /onieI y entonces no se recha"a \
F
si C
e*p
l
C
teo
y se recha"a en otro caso.
<+.7.+. Contraste de 0annMLithney
El objetivo es el mismo que el del test anterior2 contrastar la hiptesis
|
|
|
\
F
2 8as poblaciones de las que provienen las muestras est(n equidistribuidas
\
<
2 8as poblaciones no est(n equidistribuidas
para dos muestras * ! y cuantitativas independientes! tomadas de modo
aleatorio. El contraste se e%ect$a combinando las dos muestras y
disponiendo el conjunto completo de las observaciones! ordenado de menor a
mayor. &e asignan despu's n$meros de rango a cada observacin
4bservaciones
unidas y " W * y _ "
<
"
+
"
1
] ] ] "
i
] ] ]
"
n
< Zn+
ordenadas
Cango _ < + 1 ] ] ] i ] ] ] n
<
Z n
+
&e calcula despu's la suma de los rangos de las observaciones pertenecientes
a la primera muestra y a la segunda! obteni'ndose respectivamente C
<
y
#sticos
.
<
.
+
W n
<
n
+
Z n
<
Hn<
Z <I
+
W n
<
n
+
Z n
+
Hn+
Z <I
+
[ C
<
H<+.1I
[ C
+
W n
<
n
+
[ .
<
H<+.7I
Entonces si la hiptesis \
F
es cierta! .
<
y .
+
tienen una distribucin de
0annMLithney de par(metros n
<
y n
+
que est( tabulada Htabla BI para
m
.e*p W m
dispondr
<+.@. C4)=CA&=E /E L68C4S4) PACA 0.E&=CA& APACEA/A&1<<
valores en que |
|
|
m(*wn
<
! n
+
x a 7F
#nwn
<
! n
+
x l +F
Para el contrate bilateral! se de%ine
#nw.
<
! .
+
x H<+.@I
y se recha"a \
F
si .
e*p
j .
n
< !n+ !
.
&i el contraste que pretendemos reali"ar es unilateral! como por ejem,
plo!
|
|
|
\
F
2 8a primera poblacin toma valores menores o iguales a la segunda
\
<
2 8os de la segunda son menores
recha"aremos la hiptesis nula si .
<
j .
n
< !n+ !
. &i el test es el contrario
|
|
|
\
F
2 8a segunda poblacin toma valores menores o iguales a la primera
\
<
2 8os de la primera son menores
se recha"a \
F
si .
+
j .
n
< !n+ !
.
<+.@. Contraste de Lilco*on para muestras apa,
readas
El contraste de Lilco*on es la t'cnica no param'trica paralela a el de la t de
&tudent para muestras apareadas Hseccin B.7! p(gina ++7I. 6gualmente
#amos de n parejas de valores H*
i
! y
i
I que podemos considerar como
una variable medida en cada sujeto en dos momentos di%erentes.
i W <! . . . ! n! i,'sima observacin o H*
i
! y
i
I _ di%erencia o d
i
W *
i
[y
i
El test de Lilco*on! al igual que los otros contrastes no param'tricos puede
reali"arse siempre que lo sea su homlogo param'trico! con el inconveniente
Bioestad
mente necesario reali"ar el contraste que presentamos aqu
1<+ #stica2 0'todos y Aplicaciones
de que este $ltimo detecta di%erencias signi%icativas en un B@ X de casos
que el de la t de &tudent.
&in embargo a veces las hiptesis necesarias para el test
param'trico
Hnormalidad de las di%erencias apareadas! d
i
I no se veri%ican y es
estricta,
#. .n caso muy
claro de no normalidad es cuando los datos pertenecen a una escala ordinal.
El procedimiento consiste en2
<. 4rdenar las cantidades qd
i
q de menor a mayor y obtener sus rangos.
+. Consideramos las di%erencias d
i
cuyo signo Hpositivo o negativoI tiene
menor %recuencia Hno consideramos las cantidades d
i
W FI y calcula,
mos su suma! =
|
Y
|
= W |
di gF i
Y
si los signos positivos de d
i
son menos %recuentes9
si los signos negativos de d
i
son menos %recuentes.
di jF i
/el mismo modo es necesario calcular la cantidad =
d
! suma de los
rangos de las observaciones con signo de d
i
de mayor %recuencia! pero
si hemos ya calculado = la siguiente e*presin de =
d
es m(s sencilla
de usar
= d W mHn Z <I [ =
donde m es el n$mero de rangos con signo de d
i
de menor %recuencia.
1. &i = =
d
es menor o igual que las cantidades que aparecen en la
tabla de Lilco*on Htabla n$mero <FI! se recha"a la hiptesis nula del
contraste
|
|
\F 2 )o hay di%erencia entre las observaciones apareadas
|
\
< 2 &i la hay
<+.E. C4)=CA&=E /E NC.&NA8,LA886& 1<1
<+.E. Contraste de NrusOal,Lallis
El contraste de NrusOall,Lallis es la alternativa no param'trica del m'to,
do A)45A! es decir! sirve para contrastar la hiptesis de que O muestras
cuantitativas han sido obtenidas de la misma poblacin. 8a $nica e*igencia
versa sobre la aleatoriedad en la e*traccin de las muestras! no haciendo re,
%erencia a ninguna de las otras condiciones adicionales de homocedasticidad
y normalidad necesarias para la aplicacin del test param'trico A)45A.
/e este modo! este contraste es el que debemos aplicar necesariamente
cuando no se cumple algunas de las condiciones que se necesitan para aplicar dicho
m'todo.
Al igual que las dem(s t'cnicas no param'tricas! 'sta se apoya en el uso de
los rangos asignados a las observaciones.
Para la e*posicin de este contraste! supongamos que tenemos O muestras
representadas en una tabla como sigue!
)iveles 4bservaciones de S
)ivel < o )
<
*
<<
*
<+
] ] ]
*
<n
<
)ivel + o )
+
*
+<
*
++
] ] ]
*
+n
+
)ivel O o )
O
*
O< *O+
] ] ]
*OnO
El n$mero total de elementos en todas las muestras es2
|
|
|
) W n
<
Z n
+
Z ] ] ] Z n
O
H<+.EI
8a hiptesis a contrastar es2
\
F
2 8as O muestras provienen de la misma poblacin
\
<
2 Alguna proviene de una poblacin con mediana di%erente a las dem(s
El modo de reali"ar el contraste es el siguiente2
&e ordenan las observaciones de menor a mayor! asignando a cada
una de ellas su rango H< para la menor! + para la siguiente! . . . !)
para la mayorI.
Bioestad
&e calcula el estad
O
estad
1<7 #stica2 0'todos y Aplicaciones
Para cada una de las muestras! se calcula C
i
! i W <! . . . ! O! como la
suma de los rangos de las observaciones que les corresponden. &i \
F
es %alsa! cabe esperar que esas cantidades sean muy di%erentes.
#stico2
<+
Y
C
i
\ W
) H) Z <I iW< n
i
[ 1H) Z <I H<+.AI
8a regla para decidir si se ha de recha"ar o no la hiptesis nula es la siguiente2
&i el n$mero de muestras es O W 1 y el n$mero de observaciones en
cada una de ellas no pasa de @ se recha"a \
F
si el valor de \ supera el
valor terico que encontramos en la tabla de NrusOall,Lallis Mtabla
n$mero <<.
En cualquier otro caso! se compara el valor de \ con el de la tabla de
la J
O [<
con O [ < grados de libertad. &e recha"a \
F
si el valor del
#stico supera el valor terico J
O [<!<[
.
<+.A. Problemas
<., Cecientes estudios sobre el ejercicio de la 0edicina en centros en los
que no act$an estudiantes! indican que la duracin media de la visita por
paciente es de ++ minutos. &e cree que en centros donde con un elevado
n$mero de estudiantes en pr(cticas esta ci%ra es menor. &e obtuvieron los
siguientes datos sobre las visitas de +F pacientes aleatoriamente selecciona,
dos2
/uracin en minutos de la visita
+<KE <1K7 +FK7 <EK7 +1K@ +EKG +7KG <BK1
+1K7 BK7 <EKG +<KB +7KB <@KE +FK< <EK+
<GKA <GK< <BK< <GKB
<. :Constituyen estos datos una muestra aleatoria?
%ue e*tra
7., Puesto que el h
%(rmacos! se espera que los pacientes con en%ermedades de h
<+.A. PC4B8E0A& 1<@
+. :Podemos concluir en base a estos datos que la poblacin de la cual
#da esta muestra sigue una distribucin )ormal?
+., &e reali"a un estudio para determinar los e%ectos de poner %in a
un bloqueo renal en pacientes cuya %uncin renal est( deteriorada a
causa de una met(stasis maligna avan"ada de causa no urolgica. &e
mide la tensin arterial de cada paciente antes y despu's de la
operacin. &e obtienen los siguientes resultados2
=ensin arterial
Antes <@F <1+ <1F <<E <FA <FF <F< BE BF AG
/espu's BF <F+ GF G+ BF B7 G7 B1 GB G?????
:&e puede concluir que la intervencin quir$rgica tiende a
disminuir la tensin arterial?
1., &e ensayaron dos tratamientos antirreum(ticos administrados al
a"ar! sobre dos grupos de <F pacientes! con re%erencia a una escala
convencional Ha mayor puntuacin! mayor e%icaciaI! valorada despu's
del tratamiento. 8os resultados %ueron2
)ivel de e%icacia del tratamiento
=ratamiento primero <+ <@ +< <A 1G 7+ <F +1 1@ +G
=ratamiento segundo +< <G +@ <7 @+ E@ 7F 71 1@ 7+
/ecidir si e*iste di%erencia entre los tratamientos.
#gado es el principal lugar para el metabolismo de
los
#gado tengan
di%icultades en la eliminacin de %(rmacos. .no de tales %(rmacos es la
%enil,
buta"ona. &e reali"a un estudio de la respuesta del sistema a este
%(rmaco.
&e estudian tres grupos2 controles normales! pacientes con cirrosis
hep(tica!
Bioestad
)ormal Cirrsis \epat
1<E #stica2 0'todos y Aplicaciones
pacientes con hepatitis activa crnica. A cada individuo se les
suministra oralmente <B mg de %enilbuta"onacNg. de peso. Bas(ndose
en los an(lisis de sangre se determina para cada uno el tiempo de
m(*ima concentracin en plasma Hen horasI. &e obtienen estos datos2
#tis
7 ++KE <EKE
1FKE <7K7 <+K<
+EKG +EK1 AK+
1AKB <1KG EKE
<1KA <AK7 <+K@
7B <@K<
EKA
+F
:&e puede concluir que las tres poblaciones di%ieren respecto del tiempo de
m(*ima concentracin en plasma de %enilbuta"ona?
@., El administrador de un laboratorio est( considerando la compra de un
aparato para anali"ar muestras de sangre. En el mercado hay @ de tales
aparatos. &e le pide a cada uno de los A t'cnicos m'dicos que despu's
de probar los aparatos! les asignen un rango de acuerdo con el orden de
pre%erencia! d(ndole el rango < al pre%erido. &e obtienen los siguientes
datos2
Anali"ador de sangre
='cnico 6 66 666 65 5
< < 1 7 + @
+ 7 @ < + 1
1 7 < 1 @ +
7 < 1 + @ 7
@ < + 1 7 @
E @ < 1 + 7
A @ < 7 1 +
est
la aplicacin del est
<+.A. PC4B8E0A& 1<A
.tili"ar el contraste adecuado para determinar si los t'cnicos perciben
di%erencias entre los aparatos.
E., 8os e%ectos de tres drogas con respecto al tiempo de reaccin a
cierto
#mulo %ueron estudiados en 7 grupos de animales e*perimentales. El
gru,
po 65 sirvi de grupo control! mientras que a los grupos 6 ! 66 y 666
les
%ueron aplicadas las drogas A! B y C respectivamente! con
anterioridad a
#mulo2
6 A 66 B 666 C 65 Control
<A G 1 +
+F A @ @
7F B + 7
1< G B 1
1@
:Puede a%irmarse que los tres grupos di%ieren en cuanto al tiempo de
reac,
cin?
A., 8a tabla siguiente muestra los niveles de residuo pesticida HPPBI
en
muestras de sangre de 7 grupos de personas. .sar el test de NrusOal,
Lallis
para contrastar a un nivel de con%ian"a de FKF@! la hiptesis nula de que no
e*iste di%erencia en los niveles de PPB en los cuatro grupos considerados.
)iveles de PPB
Drupo 6 <F 1A <+ 1< << B +1
Drupo 66 7 1@ 1+ <B 11 <G G
Drupo 666 <@ @ <F <+ E E <@
Drupo 65 A << < FG + @ 1
G., 8a cantidad de amino(cidos libres %ue determinada para 7 especies de
ratas sobre < muestra de tama-o E para cada especie. Comprobar si el
contenido de amino(cidos libres es el mismo para las 7 especies.
Bioestad
por adulto y d
1<G #stica2 0'todos y Aplicaciones
Especies de ratas
6 66 666 65
71<K< 7AAK< 1G@K@ 1EEKG
77FK+ 7ABKF 1GAKB 1EBKB
771K+ 7G<K1 1GBKE 1A<K7
77@K@ 7GAKG 1B<K7 1A1K+
77GKE 7GBKE 1BBK< 1AAK+
7@<K+ 7F1KE 1ABK7 1G<K1
B., 8os siguientes datos nos dan el peso de comida Hen Ng.I consumidos
#a en di%erentes momentos en un a-o. .sar un contraste no
param'trico para comprobar si el consumo de comida es el mismo en los 7
meses considerados.
3ebrero 0ayo Agosto )oviembre
7KA 7KA 7KG 7KB
7KB 7K7 7KA @K+
@KF 7K1 7KE @K7
7KG 7K7 7K7 @K<
7KA 7K< 7KA @KE
<F., &e hi"o un estudio neuro%isiolgico sobre la conduccin motora tibial
posterior en dos grupos de pacientes embara"adas con las siguientes deter,
minaciones2
Conduccin motora tibial posterior
Primer grupo @< 7F 7< @1 7G @F 7@ @G 7@ 77
&egundo grupo @G 71 7F 7@ 7< 7+ 77 @+ @E 7G
Comprobar la igualdad o no de ambas muestras.
<<., En un e*perimento dise-ado para estimar los e%ectos de la inhalacin
prolongada de *ido de cadmio! <@ animales de laboratorio sirvieron de su,
sangu
Presin sangu
:\ay un descenso signi%icativo de la presin sangu
<+.A. PC4B8E0A& 1<B
jetos para el e*perimento! mientras que <F animales similares sirvieron
de controles. 8a variable de inter's %ue el nivel de hemoglobina despu's
del e*perimento. &e desea saber si puede concluirse que la inhalacin
prolongada de *ido de cadmio disminuye el nivel de hemoglobina
seg$n los siguientes datos que presentamos2
)ivel de hemoglobina
E*puestos <7K7 <7K+ <1KG <EK@ <7K< <EKE <@KB <@KE <7K< <@K1
<@KA <EKA <1KA <@K1 <7KF
)o e*puestos <AK7 <EK+ <AK< <AK@ <@KF <EKF <EKB <@KF <EK1 <EKG
<+., A << ratas tratadas crnicamente con alcohol se les midi la presin
#nea sistlica antes y despu's de 1F minutos de administrarles a todas
ellas una cantidad %ija de etanol! obteni'ndose los datos siguientes2
#nea sistlica
Antes <+E <+F <+7 <++ <1F <+B <<7 <<E <<B <<+ <<G
/espu's <<B <<E <<A <++ <+A <++ <<F <+F <<+ <<F <<<
#nea sistlica tras la in,
gestin de etanol?
<1., .n test de personalidad! tiene dos %ormas de determinar su valoracin
suponiendo inicialmente que ambos m'todos miden igualmente la e*tro,
versin. Para ello se estudia en <+ personas obteni'ndose los siguientes
resultados2
0edida de la e*traversin
3orma A <+ <G +< <F <@ +A 1< E <@ <1 G <F
3orma B <F <A +F @ +< +7 +B A << <1 G <<
:\ay di%erencia entre los dos m'todos?
Bioestad
1+F #stica2 0'todos y Aplicaciones
Bibliogra%
fAB B+e P. Armitage! D. Berry! Estad
fCal A7e D. Calot! Curso de Estad
fCar G+e J.8. Carrasco de la Pe-a! El 0'todo Estad
f0ar B7e A. 0art#n Andr's! J./. 8una del Castillo! Bioestad
fPe- B7e /. Pe-a &(nche" de Civera! Estad
fC0C B<e =. Civas 0oya! 0.A. 0ateo! 3. C#us /
tad#stica Aplicada a las Ciencias &ociales2 =eor
#a
#stica para la 6nvestigacin
Biom'dica. /oyma! Barcelona! <BB+.
#stica /escriptiva. Paranin%o! 0adrid!
<BA7.
#stico en la 6n,
vestigacin 0'dica. Narpus! 0adrid! <BG+.
f/an BFe L.L. /aniel! Applied )onparemetric &tatistics. PL&,Nent
Publishing Company! Boston! <BBF.
f\am BFe 8.C. \amilton! 0odern /ata Analysis. BrooOscCole Publis,
hing Company! Paci%ic Drove! <BBF.
#stica
para las Ciencias de la salud. )orma! Dranada! <BB7.
f0& GGe 8.A. 0arascuilo! C.C. &erlin! &tatistical 0ethods %or the
&ocial and Behavioral &ciences. L.\. 3reeman and Company! )ueva
TorO! <BGG.
#stica2 0odelos y 0'todos!
<. Alian"a .niversidad =e*tos! 0adrid! <BB7.
#a"! 0. Cui"! Es,
#a y Ejercicios HEACI.
&ecretariado de Publicaciones de la .niversidad de 0(laga! 0(laga!
<BB<.
1+<
fC0 B+e E. Cubio Calvo! =. 0art
tad#stica. Coleccin 0onogra%
fC& ABe C./. Cemington! 0.A. &chorO! Estad
fCum AAe 8. Cui",0aya! 0'todos Estad
f&C BFe E. &(nche" 3ont! 3. C#us /#a"! Du
Bioestad
f&= G@e &teel! =orrie! Bioestad
f=so GBe 0. =soOos! Estad#stica para Psicolog
fLD G+e &.8. Leinberg! N.P. Doldberg! Estad
1++ B6B864DCA3>A
#ne" =errer y otros! Bioes,
#as /id(cticas! .niversidad de Rarago,
"a! Rarago"a! <BB+.
#stica Biom'trica y &a,
nitaria. Prentice \all 6nternational! 0adrid! <BAB.
#sticos de investigacin H6ntro,
duccin al An(lisis de la 5arian"aI. 6.).E. Artes Dr(%icas!
0adrid!
<BAA.
#a para la Asignatura de
#stica HEACI. &ecretariado de Publicaciones de la
.niversidad de 0(laga! 0(laga! <BBF.
#stica HPrincipios y ProcedimientosI.
0ac Dra,\ill! Bogot(! <BG@.
#a y Ciencias de la &alud.
6nteramericana 0ac Dra,\ill! 0adrid! <BGB.
#stica B(sica para las
Ciencias &ociales. )ueva Editorial 6nteramericana! 0e*ico! <BG+.
fRar A7e J.\. Rar! Biostatistical Analysis. Prentice \all 6nc.!
Engleood
Cli%%s! <BA7.

También podría gustarte