Bioestadistica Apuntes Temas 1 10 PDF

lOMoARcPSD|4446934
Bioestadística - Apuntes, temas 1 - 10
Bioestadística (Universidad de Murcia)
StuDocu no está patrocinado ni avalado por ningún colegio o universidad.

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)
lOMoARcPSD|4446934
03. Probabilidad
Introducción
! "
# $
$
% $
& '
% &
&
'
$
$
& & &
! "
03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
Conceptos básicos
Fenómenos aleatorios
) '
&
&
Clasificación de sucesos aleatorios
* & $
+ &
Operaciones con sucesos
+ '
∈ E
& A
B $ ∪
' ∈ E
&
AyB $ $ ∩
)
$
⊂
* ,
) = * ,

lOMoARcPSD|4446934
Ejemplo
- & !
"
( '
'*
'#
'* ∅
'* $
' A
A.
Ejercicio:
( * . /0 *1 , . /0
,1 % . /0 * 0 ,1
& ' 2 3
2 3 2% $ 4 3 25 A ∪ B3
Nota:
) ⇔ ∩ = ∅ ⇔#
* ,
Ejemplo
" '
*./6 1
,./6 1
%./6 6 1
)./6 6 6 1

lOMoARcPSD|4446934
7./6 6 1
8./6 1
9./6 : 1
) , #
# * % ) ! ,"
* $ )! ,"
# 7 ) *
# , 8
# , 9
Ejemplo
& '
*./ 1 ,./ 1
. /0 % 1 )./ 1
2 3 2< 3

lOMoARcPSD|4446934
Concepto de Probabilidad
% $
-
% &" '
! "' ( ) (
$
2% 3
Definición frecuentista
=> $
$
=>
!
" >? !
"
#
" * '
&
! "
! "

lOMoARcPSD|4446934
25 3
# ' 25
@ 3 2% $
& 3
Definición Axiomática
% &
*
( (
: [0,1] ⊂ ℝ
'
"( A ( ) ≥0
" ! ∩ = ∅" '
( ∪ ) = ( ) + ( )
"# =' ( ) = 1
# $ $
Regla de Laplace
9
$
$ + $
4$
*
! '

lOMoARcPSD|4446934
"ú$%&' (% )*+'+ ,*-'&*./%+ (%

( ) =
"ú$%&' (% )*+'+ 0'+1./%+
Ejemplo:
& '
# " % ! *" '
"ú$%&' (% )*+'+ ,*-'&*./%+ (% 1

( ) = = = 0,5
"ú$%&' (% )*+'+ 0'+1./%+ 2
Principales propiedades
0 ≤ ( ) ≤1
* ' ( ) = 1– ( )
⊂ ⇒ ( )≤ ( )
* , % % '
( ∪ ) = ( ) + ( ) − ( ∩ )
( ∪ ∪ ) = ( ) + ( ) + ( ) − ( ∩ ) − ( ∩ ) −
( ∩ ) + ( ∩ ∩ )
* , % : '
( ∪ )= ( )+ ( )
( ∪ ∪ ) = ( ) + ( ) + ( )
( ∩ ∩ ) = 1 − ( ∪ ∪ )
Ejemplo:
?>A B>A ?A
2% $
& 3
*./9 1 ( ) = 0,5
,./9 1 ( ) = 0,2

lOMoARcPSD|4446934
/9 1 ∩ ( ∩ ) = 0,05
C+ # # % , D ∪ =/9 1
( 2% $
& 3* '
( ∪ ) = ( ) + ( ) − ( ∩ ) = 0,5 + 0,2 – 0,05 = 0,65
Ejercicio para practicar:
'
( E
( F
( F
( F E
( F E
% $
=
Ejercicio en clase

lOMoARcPSD|4446934
Probabilidad condicionada
, *
) ,
*
)
, *
# 9( / ) '
( ∩ )
( / )=
( )
Ejemplo
* = E
G 25 3
$ ( /G1 /
G1 & /B G E1 / B G
E1
"ú$%&' (% )*+'+ ,*-'&*./%+ {4} 1

( )%&;*&) = = =
"ú$%&' (% )*+'+ 0'+1./%+ {1, 2, 3, 4, 5, 6} 6
$ 2
3
: G
+ '
# '
"ú$%&' (% )*+'+ ,*-'&*./%+ {4} 1

( )%&;*&/+*.%$'+ @A% %+ 0*&) = = =
"ú$%&' (% )*+'+ 0'+1./%+ {2, 4, 6} 3
( '
B
= {4}, ( ) = C

lOMoARcPSD|4446934
1 1 1 1
= {2, 4, 6} ( )=
6
+ 6
+ 6 = 2
∩ = {4} ( ∩ ) = 1/6
( '
1
( ∩ ) 6 1
( / )= = =
( ) 1 3
2
Algunas propiedades de la probabilidad condicionada
) * ,
) '
P( / ) = ( )
6 ,
*
+ '
* , % '
( ∩ )= ( / ) ( ) = ( / ) ( )
% '
( ∩ ∩ )= ( / ) ( ) ( / ∩ )
* , % '
( ∩ )= ( ) ( )
% '
( ∩ ∩ )= ( ) ( ) ( )
( / ) = 1 − ( / )

lOMoARcPSD|4446934
Ejemplo:
=?A H?A
EA
2% $
3
# *. - .
( ) = 0,75
# ,. " - % '
( ) = 0,15
% - *" - %
∩ '
( ∩ ) = 0,06
0 ( / ), ,! "
*! "
( '
( ∩ ) 0,06
( / )= = = 0,08
( ) 0,75
/ . 0 * 12 3 3 3
+ + + !
( '
2 $
3
: * -
- $ !
( '
( ∩ )
( / )=
( )
( ∩ )
$

lOMoARcPSD|4446934
) '
0,06
( / ) = 1 − ( / ) = 1 − = 0,6
0,15
/ . + 42
" & 25
( / )3 2 ( / )3
Teorema de la probabilidad total y Teorema de Bayes
) ! B, G, … . , I) #
'
∀ 1, K ⇒ B ∩ G .∅
) ! B, G, … . , I) $ '
I
L M =
MNB
) $
$
#
% &
% $
Teorema de las probabilidades totales
! B, G, … . , I) ,
'
I
( ) = O ( / M) ( M)
MNB
I $
'

lOMoARcPSD|4446934
( $ ! B, G, … . , I)
'
= ( B ∩ )∪ ( G ∩ ) ∪ ……∪ ( I ∩ )
'
( ) = ( B ∩ )+ ( G ∩ ) + ⋯…+ ( I ∩ )
< '
( ) = ( / B) ( B) + ( / G) ( G) + ….+ ( / I) ( I)
Ejemplo
I J H?A
&
KA =>A
5 B & - - '! 5 ( )
B C 3 6 D # '
( B) = 0,75
G C 3 # 6 D # '
( G) = 0,25
#
'
( / B) = 0,92
#
'
( / G) = 0,9

lOMoARcPSD|4446934
El desfibrilador
( / 1) = 0,92 no es
defectuoso
Adquirido al
primer
( 1) = 0,75 proveedor (A1)
El desfibrilador
es defectuoso
La Clínica
B es el suceso “El desfibrilador no es defectuoso”.
recibe un
desfibrilador
El desfibrilador
( 2) = 0,25 ( / 2) = 0,9 no es
Adquirido al defectuoso
segundo
proveedor (A2) El desfibrilador
es defectuoso
( '
( ) = ( / B) ( B) + ( / G) ( G) = 0,75 ∗ 0,92 + 0,25 ∗ 0,90 = 0,915
" 3 - # -
47 8 7 29

lOMoARcPSD|4446934
Teorema de Bayes
% $ 2
*3
BA
$ > >B
$ & ,
$ &
$ * , !P( / )"
' #
! B, G, … . , I) ,
'
T(U/VW )T(VW )
∀ 1 = 1, … , S ( M/ ) = X\
Y]^ T(U/VY )TZVY [
Ejemplo
) ! "
'
Diabetes No Diabetes Total

Glucosuria 60 8 68
No Glucosuria 140 792 932
Total 200 800 1000
D' 0
`'-
G' 0 8
b'- 8
# (`/b)

lOMoARcPSD|4446934
D ` ! G b"

Glucosuria 60 8 68
Total 200 800 1000
200
(`) = = 0,2
1000
800
(`) = = 0,8
1000
) ! D"
! " '

Glucosuria 60 8 68
Total 200 800 1000
60
(b/`) = = 0,3
200
140
(b/`) = = 0,7
200
) ! `"
! " '

Glucosuria 60 8 68
Total 200 800 1000
8
(b /`) = = 0,01
800
792
(b/`) = = 0,99
800

lOMoARcPSD|4446934

Diabetes No Diabetes Total Glucosuria 60 8 68
Glucosuria 60 8 68 No Glucosuria 140 792 932
No Glucosuria 140 792 932 Total 200 800 1000
Total 200 800 1000
60
(b/`) = = 0,3 El paciente tiene
200
Glucosuria
200 Paciente Tiene

(`) = = 0,2
1000 diabetes
El paciente no
tiene Glucosuria
Paciente P(D/G) “) % %
*
8
800 (b /`) = = 0,01 El paciente tiene
(`) = = 0,8 800
1000 Glucosuria
Paciente no
tiene Diabetes
El paciente no
tiene Glucosuria

Glucosuria 60 8 68
Total 200 800 1000
( , P(D/G)
T(c/d) T(d) f,G∗f,g

P(D/G) = =
T(c/d) T(d) eT(c/d)T(d) (f,G∗f,g)e(f,h∗f,fB)
=0,882
( ( 3
: # 11 2
Ejercicio para practicar en casa

I
' *' G=A ,' LA *,' GA > GEA
GA >
*J KKA * J GA ,
0 * =>A *,
*
I *
2% $ 3

lOMoARcPSD|4446934
Test Diagnóstico
& $ ; *
4 2 3 ( $
! "
! "
I '
) $ $
4 +
# '
) je
J
" jk
*
, 4
'
' C< - D
s = P(T e / E)
& '
e = P(T k / E)
# $ $
'
, '
νe = P(E/ T e )
, '
ν = P(E/ T k )
k

lOMoARcPSD|4446934
Obtención de los Valores Predictivos dadas la Sensibilidad y

Especificidad de un test. Importancia de la Prevalencia
# ( )
6 = 6 6 = 6 # 6
'
T(r s / t)T(t) uv
p e = P(E/ q e ) = = uv e(Bkw)(Bkv)
T(r s / t)T(t) e T(rs / t)T(t)
T(r x / t)T(t) w(Bkv)

p k = P( / q k ) = =
T(r x / t)T(t) e T(r x / t)T(t) w(Bkv) e(Bku)v
% '
! =" ⇒
! =" @ !
>"
( @ ! >" ⇒
! ="
@ ! >"
! ="
! ="
! ="
! ="
Ejemplo
% & 0
L=A LKA
> B
2 $
3
2% $
3
I '
E' (

lOMoARcPSD|4446934
'-
q e'
q k'
# 6 6 6 '
p e = P(E/ q e )
I 0 , %
(q e / ) = 0,91
(q k / ) = 0,98
( ) = 0,20
M P(A/B) = 1 − P(A/B) '
P(T e / E) = 1 − P(T k / E) P(T k / E) = 1 − P(T e / E)
+ '
T(r s / t)T(t) f,yB∗f,G

P(E/ q e ) =
T(r s / t)T(t) e T(rs / t)T(t)
=
f,yB∗f,Ge(Bkf,yh)∗f,h
=0,92
5 6 * 6
3 - - 7 2
6 6 # 6 ' p k = P( / q k )
T(r x / t)T(t) f,yh∗f,h

P( / q k )= = f,yh∗f,he(Bkf,yB)∗f,G= 0, 98
T(r x / t)T(t) e T(r x / t)T(t)
Ejemplo:
$ &
E> @ # K?A
LHA $ &
E> @ =A
uv f,hz∗f,fB
pe = = uv e(Bkw)(Bkv) = f,hz∗f,fB ef,fg∗f,yy = 0,22
w(Bkv) f,y{∗f,yy
pk =
w(Bkv) e(Bku)v
= f,y{∗f,yy ef,Bz∗f,fB = 0,99
25 3

lOMoARcPSD|4446934
$
!LLA" $ $ !
BBA"
Obtención de los índices predictivos a partir de los resultados de la

aplicación del test
+
# $
'
Resultados Test
Test Positivo Test Negativo Total
(| e ) (| k )
Enfermos (E) }BB }BG }B
}G
Sobre la Enfermedad
Sanos (~) }GB }GG
Total }′B }′G n
'
ƒ„„
- • = ‚(| e / ~) =
ƒ„
ƒ‡‡
& - … = ‚(| k / ~†) =
ƒ‡
ƒ„„
, - ê = ‚(~/ | e ) =
ƒ‰„
ƒ‡‡
, - ˆk = ‚(~†/ | k ) =
ƒ‰‡
Nota: %
A
Ejemplo:
* B>>
'
( '
' ) ' " '
.| e / .| k /
& .Š/ 90 10 100
&
11 89 100
.~/
' 101 99 44

lOMoARcPSD|4446934
yf
5 s = Bff; L>A
hy
- e = Bff> - 172
Ejemplo:
'
Glucosuria No Glucosuria Total

Diabetes 60 140 200
No Diabetes 8 792 800
Total 68 932 1000
$
'
Œ^^ Cf
+ . νe = P(E/ T e ) =
Œ‰^
= Ch = 0,88

lOMoARcPSD|4446934
Variables Aleatorias
Introducción
Hasta ahora hemos definido el concepto de probabilidad y sus propiedades

principales, pero no hemos visto todavía como puede emplearse dicha teoría de la
probabilidad a la inferencia estadística.
Ya en el comienzo del curso vimos como presentar, resumir y analizar determinados

datos de una población a partir de una muestra de la misma.
Lo que veremos ahora es generalizarlo para toda una población, y para esto,
realizaremos definiciones similares pero con alguna dificultad añadida.
Para ello, definiremos el concepto de variable aleatoria que ya introducimos en el tema

de estadística descriptiva y veremos su aplicación en estadística inferencial
Normalmente, los resultados posibles (espacio muestral E) de un experimento

aleatorio no son valores numéricos.
Por ejemplo, si el experimento consiste en lanzar de modo ordenado dos monedas al

aire, para observar el número de caras (C) y cruces (X) que se obtienen, el espacio
muestral (todos los resultados posibles) asociado a dicho experimento aleatorio sería:
E = {CC, CX, XC, XX}
Así, preferimos identificar los sucesos {CX, XC} con el valor numérico 1 que
representa el .
De este modo aparece el concepto de unidimensional como el de

:
: ℝ
de modo que a cada suceso elemental e le corresponde un número real X(e).
Ejemplo
Hacemos el experimento aleatorio de lanzar dos monedas al aire.
Definimos la variable aleatoria ≡ ú
Si llamamos C al suceso , y X al suceso obtener cruz,
({ }) = 1
03.02. VA y distribuciones de Probabilidad. Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
({ }) = 2
({ }) = 0
Probabilidad de que salga una cara:
ú { }, { } 2
( = 1) ≡ (1) = = = = 0,5
ú ! " { }, { }, { }, { } 4
Seguidamente, como ya hicimos en el tema de estadística descriptiva, clasificaremos

las variables aleatorias en dos tipos: discretas y continuas.
Variables aleatorias discretas y continuas: Ley de probabilidad y

función de densidad
Como hemos comentado antes,
Una variable aleatoria es si sólo puede tomar un número finito o infinito

numerable de valores.
La & para una variable discreta se define como la

función que asocia el valor que puede tomar la variable a su probabilidad, es decir, si
una variable aleatoria puede tomar los valores '( , ') , '* … . , '- y cada uno de ellos
con una probabilidad !. , entonces:
& (/0 ) = 1(2 = /0 ) = 30
Ejemplo
Sea = La variable aleatoria X
1 1 1
toma los valores {0, 1, 2} con una probabilidad { 44 , 42 , 44}. Según la anterior
definición:
(0) = P(X = 0) = !( = 144
(1) = P(X = 1) = !) = 142
(2) = P(X = 2) = !* = 144

lOMoARcPSD|4446934
Otro modo de definir una variable aleatoria es mediante su

Para una variable discreta, la función de probabilidad en un valor ' se
define como la probabilidad de que la variable aleatoria tome valores iguales o
inferiores a '. Es decir:
6(/) = 1( 2 ≤ /
Ejemplo
Con los datos del ejemplo anterior:
“ el
!
0: 8(0) = ( ≤ 0) = ( = 0) = 1 ⁄ 4
1: 8(1) = ( ≤ 1) = ( = 0) + ( = 1) = 1 ⁄ 2
2: 8(2) = ( ≤ 1) = ( = 0) + ( = 1) + + ( = 2) = 1
Ejercicio para clase

Sea " = “ Describir la función de
probabilidad y la función de distribución del mismo modo que en el ejemplo anterior.
En el caso de , el conjunto de valores que puede tomar una

variable aleatoria es infinito. Observar, por ejemplo, la altura de una persona.
Con esas condiciones, no tiene sentido hacer la suma de probabilidades en cada uno
de los valores posibles como hacíamos en el ejemplo anterior, ya que la probabilidad
de que el valor de una variable continua sea uno en concreto es 0.
Esto a veces es difícil de comprender, así que intentaremos explicarlo con un ejemplo.
Imaginemos el ejemplo de " = “#
Como el valor de una estatura puede ser infinito, la probabilidad de que una estatura
sea 0. Veámoslo.
Si calculáramos la probabilidad de que un individuo mida 1,70 exactamente, tened en

cuenta que lo que estaríamos buscando, al ser una variable que toma infinitos valores,
es la probabilidad de que un individuo mida 1,7000000000000000<<, y como es fácil
de intuir, la probabilidad de que un individuo mida eso exactamente es infinitamente
pequeña o cero.
Esto a menudo lleva a confusión porque esta terminología se utiliza constantemente.

lOMoARcPSD|4446934
Por todo lo dicho anteriormen

eriormente, se hace necesario introducir un nuevo concepto que
sustituya al de función
ón de probabilidad de una variable aleatoriaia discreta
dis para las
variables continuas. Este
te conc
concepto es el de función de densidad.
Para entender mejor el conc

concepto, representemos el ejemplo anterior mediante un
histograma.
Si en el eje de las X represent

epresentamos intervalos de alturas de los europeos,
europeo y en el de
las Y, con base la medida
edida de cada intervalo de altura, rectángulos con altura
al tal que el
área de cada uno de losos rec
rectángulos sea la probabilidad de que un individuo
indi mida un
valor dentro de ese intervalo.
ervalo. Tendremos:
Si vamos haciendo los interv

intervalos más pequeños, vemos que la línea
nea que une cada uno
de los valores que tomaa la marca de clase en cada uno de los rectángul
ectángulos tiende a
una curva que llamaremos
os .
La curva de densidad
dad vendr
vendrá determinada por una función que
ue denominaremos
de
.
03.02. VA y distribuciones
nes d
de Probabilidad. Escuela de Enfermería Cartagena. Curso
rso 2012-2013
2

lOMoARcPSD|4446934
Por tanto, si recordamosos com

como hemos definido esta curva, definiendo
endo el área de cada
rectángulo como la probabilidad
obabilidad de que la estatura de un individuo
duo caiga en su base, el
área bajo la curva de densidad entre dos valores a y b, es la probabili
obabilidad de que el
valor de la variable aleatoria
eatoria caiga entre a y b.
Si recordamos conceptos
tos de matemáticas, esto se calculaba usando
ando el concepto de
integral, por lo que
>
; ≤ ≤ <= = (' ) '
?
Algunas distribucione
iones de probabilidad
Según hemos visto en el aparapartado anterior, una variable viene determinada

determ por su
función de probabilidad
dad o su función de densidad, función que haría
a muy dificultoso un
estudio sistemático de las var
variables aleatorias.
De modo general, toda

oda tabla, gráfica o expresión matemática que
ue indique los valores
que pude tomar una varivariable aleatoria y con qué probabilidad,
idad, se denomina
.
03.02. VA y distribuciones
nes d
de Probabilidad. Escuela de Enfermería Cartagena. Curso
rso 2012-2013
2

lOMoARcPSD|4446934
Afortunadamente la mayoría de los fenómenos de la naturaleza siguen unas pocas

leyes bien conocidas como
Describiremos ahora las principales distribuciones de probabilidad que encontramos

en las aplicaciones del cálculo de probabilidades.
Atendiendo a la clasificación de las variables aleatorias en discretas y continuas

describiremos las principales leyes de probabilidad de cada una de ellas, las cuales
constituirán el soporte subyacente de la inferencia estadística.
Distribución Normal (Gauss)
En esta sección estudiaremos la distribución más importante de variable aleatoria

continua: .
El nombre de distribución normal le viene dado debido a que una gran mayoría de las
variables aleatorias continuas de la naturaleza siguen esta distribución. Durante
mucho tiempo se pensó que todas las variables aleatorias eran normales.
Se dice que una variable aleatoria sigue una distribución normal de parámetros µ y
A ) , lo que representamos del modo ↝ (µ, A ) ) si su función de densidad es:
1 E
( GEH K
F J
(') = ) I
AC2D
Una variable normal puede tomar valores de −∞ ∞.
Nota
Estos dos parámetros µ y A ) coinciden además con la media y la varianza
respectivamente de la distribución
La forma de la función de densidad es la llamada . Se puede

comprobar que:
Ésta alcanza un único máximo (moda) en µ.
Es simétrica con respecto a µ, y por tanto ( ≤ µ) = ( ≥ µ) = 1/2, con lo

cual en µ coinciden la media, la mediana y la moda.

lOMoARcPSD|4446934
La región donde (') es no nula es todo ℝ, de modo que la mayor parte de la masa de
probabilidad (área comprendida entre la curva y el eje de abcisas) se encuentra
concentrado alrededor de la media, y las ramas de la curva se extienden
asintóticamente a los ejes, de modo que cualquier valor “muy alejado” de la media es
posible (aunque poco probable).
La función de densidad tiene forma de campana, que se denomina

. Ésta depende de los parámetros µ y A ) :
µ indica la posición de la campana (parámetro de centralización)
A ) (o equivalentemente A) será el parámetro de dispersión. Cuanto menor sea,

mayor cantidad de masa de probabilidad habrá concentrada alrededor de la
media (grafo de f muy apuntado cerca de @) y cuanto mayor sea “más
aplastado” será.

lOMoARcPSD|4446934
Resumiendo, podemos intuir que estamos ante una variable aleatoria normal cuando
en la medida de la variable (continua), su distribución de probabilidad:
Es unimodal y simétrica.
Hay la misma probabilidad de que se dé un valor alto que bajo.
Los valores se agrupan en torno a un valor central.
La probabilidad de que se dé un valor es tanto más pequeña cuando más

extremo sea.
Cálculo de una probabilidad
El cálculo de una probabilidad normal, conocida su función de densidad será por tanto:
G
1 E
( GEH K
F J
( ≤ ') = = ) I '
EP AC2D
Afortunadamente, existe una forma más sencilla de calcular la probabilidad de una

variable aleatoria normal y es mediante tablas que nos indicarán el valor de la
distribución de densidad para cada valor '.
Para ello, debemos definir el concepto de tipificación.
Tipificación
Lo ideal para calcular la probabilidad de un suceso en una distribución normal, sería

disponer de una serie de tablas que nos indicaran el valor de dicha probabilidad para
cada par de valores de µ y A ) . Como una variable normal puede tomar valores de
−∞ ∞, sería prácticamente imposible disponer de esa información. Este problema
se resuelve mediante la de la variable normal.
Si tenemos una variable normal , con media B y desviación típica σ, llamaremos a:
−µ
Q =
A
variable tipificada de , y viene dada por:
µ = 0
A = 1

lOMoARcPSD|4446934
es decir: Q ↝ (0,1).
La función de densidad de esta variable viene dada por:
1 E
SK
(R) = )
C2D
Por tanto, calcular ( ≤ ') sería igual que (Q ≤ R), ya que:
−µ '−µ
( ≤ ') = T ≤ U = (Q ≤ R)
A A
Como se dispone de tablas para la distribución normal de media 0 y desviación típica

1, podremos de este modo calcular cualquier probabilidad sobre una variable normal
con cualquier valor en sus parámetros de media y desviación típica.
! Si queremos calcular la probabilidad de que una variable esté entre dos valores
a y b:
( ≤ Q ≤ ) = (Q ≤ ) − (Q ≤ )

lOMoARcPSD|4446934
Ejemplo para práctica de búsqueda de valores en tabla V ↝ W(X, Y).

Suponiendo que una variable Q sigue una variable normal de media 0, y desviación
típica 1, calcular:
a) (Q ≤ 0,44)
b) (Q ≥ 0,44)
c) (−0,52 ≤ Q ≤ 1,21)
a) En la tabla de la normal (0,1) se nos muestran los valores de la probabilidad

(Q ≤ '). Como se nos pide (Q ≤ 0,44), la forma de obtener este valor de la tabla
es localizar la intersección del valor 0,4 y el 0,04 que es 0,67, luego (Q ≤ 0,44) =
0,67.
b) Como en la tabla se nos muestran los valores de la probabilidad (Q ≤ ') y en

este caso se nos pide (Q ≥ '), debemos obtener primero el valor de la probabilidad

lOMoARcPSD|4446934
para el suceso (Q ≤ '), y luego calcular la probabilidad del suceso contrario

(Q ≥ ') = 1 − (Q ≤ ')
Por tanto P(Z ≥ 0,44) = 1 D P(Z ≤ 0,44) = 0,33
c) Para P(Z ≤ 1,21) miramos en la intersección de la filas 1,2 y 0,01: 0,89
Para P(Z ≤ −0,52) miramos en la intersección de la filas -0,5 y 0,02: 0,30
(−0,52 ≤ Q ≤ 1,21) = P(Z ≤ 1,21) D P(Z ≤ −0,52) = 0,89 – 0,30 = 0,59
Veamos ahora: Supongamos que la altura de una población sigue una distribución
normal de media 168 cm y desviación típica 4 cm. Cómo obtendrías:
a) Probabilidad de que un individuo pese menos de 169,76 cm
b) Probabilidad de que un individuo pese más de 169,76 cm
c) Probabilidad de que un individuo pese entre 165,92 cm y 172,84 cm

lOMoARcPSD|4446934
Otras distribuciones de probabilidad
Para variables continuas existen otras distribuciones de probabilidad teóricas que nos
serán de utilidad en estadística inferencial. Éstas son la t de Student, la distribución χ)
(ChiDcuadrado) y la F de Snedecor. Estas distribuciones adoptan una forma diferente
dependiendo de un parámetro que se denomina grados de libertad.
La siguiente gráfica muestra la distribución t de Student para 1, 2, 5, 10 e infinitos

grados de libertad. Denotaremos estas distribuciones como c( , c) , cd , c(e y cP
Indicar que cuando los grados de libertad aumentan, esta distribución se asemeja a la
distribución normal siendo igual en el caso cP
La siguiente gráfica muestra la distribución χ) para 1, 2, 3, 4 y 5 grados de libertad.

Denotaremos estas distribuciones como f() , f)) , f*) , fg) h fd)

lOMoARcPSD|4446934
Bioestadística. Ejercicios Repaso (II) 2012-2013

Probabilidad
Desayuna Habitualmente
Modalidad Frecuencia absoluta
Solo Café o Leche 24
Tostadas Aceite 7
Tostadas Mantequilla 3
Bollería 0
Solo Fruta y/o zumo 1
Bocadillos 0
Otros 12
Total 49
" # $% " & ' #$

% " &( ) *
$% " % + &,
( ) *
- % " % + , ( .
- %
" % + ,
Sexo
Chica 29
Chico 14
Total 43
Ejercicios Repaso (II). Probabilidad. Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934

Probabilidad
- ( .
! , (0 ! , (1 2 *
3 ,
4 1
Frecuencia
Modalidad
absoluta
Solo el Padre 16
Solo la Madre 4
Ambos 8
Ninguno 21
Total 49
- 56 2
-
7
8 -
!
Frecuencia
Modalidad
absoluta
Padre Fumador 24
Madre Fumadora 12
Ambos 8
Ninguno 21
! - 56

lOMoARcPSD|4446934

Probabilidad
(;
,
-
!
5 ; < 3 4
! * 5 !
= ! 4> !
-
56 !
-
56 !
1 59 ! ? >
! 59 46
! -
! (0
! ,
1 49 ! 1
@ ! A ! 2
-
! (0 ! ,
> 59 46
! " . 2 46 ! A
? 4 3 4 1
! @ ! > !
!
/ 2 B
" -
( . 3
4 ! ,
( . ! !
3 4 ,

lOMoARcPSD|4446934

Probabilidad
A 2
B * C
" *
% +
+ D4> E ! B
-
Test Ejercicio
Una vez o menos Más de una vez al mes
Sobrepeso
SI 2 6
(IMC>25)
NO 8 33
! !
F - . ! *
- C ! ! ! G
2 .
. 1 ! ! 3 .
@>H 9@H
= 56
!
B
! . B
" (
,
@ * )
@? 9@ ) * = ?=
( . <
A? ,
( . < .
@> ,
( . A? @? ,

lOMoARcPSD|4446934
Bioestadística. Ejercicios Prácticos 4. 2012-2013

Probabilidad (II)-Teorema de Bayes y Probabilidad
Total-Test Diagnóstico
!
" #$% & '#% (
) *$% + ,
&-
. ! / .$
0 .% 1 .$
( 2$ 0 $%1 2$ ( *$ 0
*% ( .$% ( *$ 0 3
.$%
% .% ( '%
4 5
,) ( *$
0 -
,6 5 % .$ 0 -
7 8 (
9 # 8 .
: #$%
,6 5 % : -
,6 5 %
: -
2 #.% ( *% 8
#$ 0 ( #$ 0
(* 8 #
¿) 8 ( #$ 0 -
;7 8 ( #$ 0
,) ( #$ 0 -
;7 ( #$ 0
Ejercicios Prácticos 4. Probabilidad (II)-Bayes–Total-Diagnóstico. Escuela Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934

,) ( #$ 0 -
; ( #$ 0
,
- ,< 8 -
# + (
$=($> 9
( $ * ( $ $$
,) ( -
* ) 0
5 +
? ( =#%
5
% 7
@ #%
" /
7
5
7
5
' (
!
! @
; :
$$ ( $$
/

lOMoARcPSD|4446934

Ingesta de fibra (g/día)

< 15 15 - 20 20 - 25 25 - 30 ≥ 30
Afección 20 30 40 8 2
Intestinal
No Afección 1 1 4 89 5
Intestinal
) (
# .$ .# ( $ :
; ( ;
A /7 .$/
Ingesta de fibra (g/día)

< 20 ≥ 20
Afección Intestinal 50 50
No Afección Intestinal 2 98
(
$ ># , @ -

lOMoARcPSD|4446934
Bioestadística. Ejercicios Prácticos 3. Probabilidad 2012-2013
! " #
$ %&& '( '&

) *
! " '(
) #
! " '(
)
+ , - . / .- 0 . * *
%&1 * 1 * %1 &* %(1
2 .- 3
. " 4. ! "
#
% 5 .
*6 4
*, 6 4 +78
*9 :5
*; - .
*; - .
*; )
( +&1 -
+1 ; $1 "
- . )
#
' <1
- .= ) - $1
71 - >
. )
-
? -
<1 . .
%&1 (1
. .
@
@ . .
Ejercicios Prácticos 3. Probabilidad. Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
Bioestadística. Ejercicios Prácticos 3. Probabilidad 2012-2013

@ . .
@ . .
@ . .
, . .
#
< ; "
.= = .
.
Nº Veces
Nº Individuos
Semana
Total Hombres Mujeres Total
0 450 1200 1650
1 100 210 310
2 120 94 214
3 150 66 216
4 160 30 190
5 90 10 100
6 68 2 70
>6 50 0 50
1188 1612 2800
) $<&& *
@
@ . "
%
@ .
.
. ) #
Ejercicios Prácticos 3. Probabilidad. Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
04. Estadística Inferencial

Muestreo y Estimación
El propósito de un estudio estadístico suele ser, como hemos venido citando, extraer
conclusiones acerca de una población.
Al ser la población grande y no poder ser estudiada en su integridad en la mayoría de

los casos, las conclusiones obtenidas deben basarse en el examen de solamente una
parte de ésta, lo que nos lleva, en primer lugar a la justificación, necesidad y definición
de las diferentes técnicas de muestreo.
Los primeros términos obligados a los que debemos hacer referencia, definidos en el
primer capítulo, serán los de estadístico y estimador.
El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante

una serie de propiedades que nos servirán para elegir el “mejor” para un determinado
parámetro de una población, así como algunos métodos para la obtención de ellos,
tanto en la estimación puntual como por intervalos.
¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población

cuando sólo conocemos una muestra?
Técnicas de Muestreo
¿Qué ventajas tiene el muestreo sobre una población?
Coste reducido: “No es lo mismo preguntar a 100 personas que a 1.000.000”
Mayor rapidez: “Muestreo a pie de urna en unas elecciones”
Más posibilidades: “Cuando la demostración de una propiedad de un producto

exige su destrucción”
Problemas en la elección de una muestra:
Elección de la muestra
Extrapolación de las conclusiones obtenidas sobre la muestra al resto de la

población (inferencia).
04.01 Muestreo y Estimación. Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
Propiedades que tiene que tener la muestra:
Representativa. La muestra debe ser lo suficientemente grande para ser

representativa de los diferentes colectivos que la componen. Dependerá de:
Dispersión
Naturaleza
Tipo de análisis a realizar
Aleatoria. Todos los elementos de la población tienen la misma probabilidad de

ser incluidos. Los problemas que nos podemos encontrar en este caso son:
Fallos en el sistema de aleatorización
Definición ambigua de la población de estudio
Sesgos
El tipo de muestreo más importante es el , en el que todos los

elementos de la población tienen la misma probabilidad de ser extraídos; Aunque
dependiendo del problema y con el objetivo de reducir los costes o aumentar la
precisión, otros tipos de muestreo pueden ser considerados como veremos más
adelante: .
Muestreo aleatorio simple
Sobre una población de tamaño podemos realizar extracciones de elementos:
{ , ,….. ,}
En un , los elementos de la muestra se extraen al azar de

la población, por tanto, se caracteriza porque cada elemento de la población tiene la
misma probabilidad de ser elegido. Además, la selección de un elemento de la
muestra no debe influir en la selección de otro individuo de la muestra.
Existe la posibilidad de que el muestreo aleatorio simple se haga

, de modo que en cada elección, el elemento extraído es repuesto al
total de la población. De esta forma un elemento puede ser extraído varias veces. Por
tanto, cada observación es realizada sobre la misma población (que no disminuye con
las extracciones sucesivas).
La obtención de una muestra aleatoria requiere en primer lugar de la identificación

completa de la población a estudiar; a continuación se enumeran todos los individuos
de la población y por medios similares a un sorteo, se extrae un conjunto de números
que a su vez, representarán a determinados individuos de la población.

lOMoARcPSD|4446934
Muestreo aleatorio estratificado
es aquel en el que se divide la población de N

individuos en k subpoblaciones o
Un
heterogéneos entre sí, atendiendo a
criterios que puedan ser importantes en el estudio. Los elementos en cada estrato
serán homogéneos.
El proceso sería el siguiente:
Tenemos tamaños de población N , N , < , N de cada estrato que sumarán N

(el total de la población).
de tamaño n , con i = 1, . . . , k.
Se realiza en cada una de estas subpoblaciones muestreos aleatorios simples
Los tamaños de la muestra deben ser proporcionales al estrato.
Muestreo por conglomerados
Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo

aleatorio simple puede resultar muy costoso, ya que estudiar una muestra de tamaño
implica enviar a los encuestadores a puntos distintos de la misma, de modo que en
cada uno de ellos sólo se realiza una entrevista.
En esta situación es más económico realizar el denominado

, que puede consistir en elegir aleatoriamente ciertos barrios dentro
de la ciudad, para después elegir calles y edificios. Una vez elegido el edificio, se
entrevista a todos los vecinos.
Notar que:
La población se descompone en grupos homogéneos de elementos

heterogéneos llamados conglomerados.
Los elementos de la muestra son los elementos de una muestra de

conglomerados.
Ejemplo para discusión en clase

Supongamos que necesitamos escoger una muestra para conocer los niveles de
colesterol en la población.
¿Se podrían coger sólo personas de edad avanzada?
¿Se podrían elegir personas al azar que aparezcan en la guía telefónica?

lOMoARcPSD|4446934
¿Se podrían coger sólo personas solo de Murcia?
¿Se podrían incluir personas que acuden a un hospital?
Estadísticos y Estimadores Puntuales
Los son funciones de los valores de una muestra.
, …..,
Si tenemos una muestra genérica, { , ….., }, ejemplos de estadísticos pueden

ser:
Media Muestral: = + +⋯+ /
Varianza Muestral: = !
− /n
Proporción Muestral: " = # , donde es el tamaño de la muestra y el es

número de casos con la cualidad de la que se quiere obtener la proporción.
Notar que todo estadístico genera una población estadística formada por los valores
que toma para cada muestra, es decir, si tomamos como ejemplo la media muestral,
para cada muestra que tomemos en una población (supongamos que tomamos
muestras), obtendremos un valor para la media muestral en cada una de las
muestras, y por lo tanto, tendremos una
Un es un estadístico que toma valores próximos a un parámetro

que se quiera estimar, es decir, ha sido construido con el fin de dar una idea acerca
del valor que toma ese parámetro dentro de una población.
¿Qué propiedades se esperan de un buen estimador?
Consistencia: Cuando el tamaño de la muestra crece arbitrariamente, el valor

estimado se aproxima al parámetro desconocido.
Carencia de sesgo: El valor medio que se obtiene de la estimación para

diferentes muestras debe ser el valor del parámetro.
Eficiencia: Al estimador, al ser variable aleatoria, no puede exigírsele que para

una muestra cualquiera se obtenga como estimación el valor exacto del
parámetro. Sin embargo podemos pedirle que su dispersión con respecto al
valor central (varianza) sea tan pequeña como sea posible.

lOMoARcPSD|4446934
¿Qué nos podemos encontrar en el estudio de una

población?
Si queremos estimar la media $ de una población usaremos la

.
= + + ⋯+ /
Si queremos estimar la varianza % de una población usaremos la

de la población. Es la mejor estimación de la varianza
de la población
!
−
& =
n−1
Si queremos estimar al proporción de una determinada cualidad, usaremos la

de esa cualidad en una muestra.
"= #
En la mayoría de la bibliografía, las estimaciones vendrán dadas en términos de la

cuasivarianza muestral. A partir de aquí, y por facilitar la resolución de los ejercicios,
usaremos la , pero como dijimos
anteriormente, la cuasivarianza muestral es la mejor estimación para la varianza de la
población.
Recordemos que la varianza muestral viene dada por:
!
−
s =
n
Si quisiéramos trabajar con la cuasivarianza muestral, debemos notar que, si ( es la

desviación típica muestral:
)* − + )*
(= ∗- . -= ∗(
)* )* − +
Ejemplo
Ciertos investigadores se interesan por la calidad del aire en una determinada ciudad.
Uno de los indicadores de dicha calidad es el número medio de microgramos de
partículas en suspensión por metro cúbico de aire.
¿Cómo podemos estimar este parámetro y de este modo comprobar la calidad del
aire?

lOMoARcPSD|4446934
Lo haremos a partir de un estimador puntual. En el caso de la media, hemos visto que

un estimador puntual para este parámetro será la .
Una forma de obtener una muestra partículas en suspensión podría ser extraer cada
seis días, un metro cúbico de aire y a partir del mismo, calcular el número de
periodo de 30 días se tomará una muestra de tamaño 5 { , , … . . / } en la que

microgramos de partículas en suspensión por metro cúbico de aire. Por tanto, en un
obtendremos el estimador deseado. El resultado de la muestra es:
= 58, = 70, 4 = 57, 5 = 61, / = 59
Por tanto el valor del estimador del parámetro (media) será:
58 + 70 + 57 + 61 + 59
= = 61
5
Sin embargo, esta estimación la hemos realizado sobre una sola muestra, por lo que
aunque un estimador puntual se aproxime en gran medida al valor real del parámetro,
casi nunca será exactamente igual al verdadero valor del mismo.
Para tener una idea, no solo del valor aproximado del parámetro, sino también de la
precisión de la estimación, optaremos por el método de
.
Este método consiste en definir un intervalo donde aseguremos, con una probabilidad
prefijada que supondremos suficientemente alta, que en su interior se encontrará el
parámetro a estimar.
Veamos ahora cómo construir los intervalos de confianza para los parámetros más
usuales: medias y proporciones.
Estimación por intervalos. Cota de error
Comencemos dando algunas definiciones.
: Diferencia entre el valor del parámetro y el valor de la

estimación (estimador puntual).
8: Un valor tal que, para cualquier muestra que se tome, el error de

estimación siempre es inferior a 8
puntual será menor a 8 en cualquier muestra que tomemos.

Dicho de otro modo, la diferencia entre el valor del parámetro y el valor del estimador

lOMoARcPSD|4446934
+ − 9, a un intervalo : = ; ; ; que contendrá en un (1 − =)% de

Supongamos que tomamos varias muestras en una población. Llamaremos
las muestras al parámetro >.
; , ; también serán estadísticos.

Este intervalo se obtendrá a partir de la muestra, por lo que los extremos del intervalo
1 − = para un parámetro >, a un intervalo I tal que:

En términos de probabilidad, llamaremos intervalo de confianza con nivel de confianza
@ > ∈ : = 1− =
@ ;1 < > < ;2 = 1 − =
Por tanto, obtener el intervalo de confianza con nivel de confianza 1 − = para un

parámetro > consistirá en obtener los valores ; D ; para los cuales se cumple la
igualdad anterior.
Por ejemplo, para = = 0,05, el nivel de confianza será de 0,95 (o del 95%).
: Si obtenemos : como intervalo de confianza 1 − = para un parámetro >,

podemos concluir igualmente que:
@ > ∉ : ≤ =
confianza que se ha construido es menor o igual a = (0,05 en el caso de un IC del

Es decir, la probabilidad de que el parámetro a estimar no esté en el Intervalo de
95%)
Características cuantitativas. Intervalo de confianza en la estimación de la media

poblacional
Si denotamos por μ a la media poblacional (este es nuestro parámetro), sabemos que

un estimador puntual de dicha media es la media muestral X
Según hemos lo definido antes, el vendrá dado por: |$ − |

lOMoARcPSD|4446934
Del mismo modo, una cota de error I determinará que |$ − |<I
Veamos ahora como la estimación de una cota de error es, en sí misma, la definición
de un intervalo de confianza.
Al trabajar con una muestra, no podemos obtener directamente la cota de error, pero si
nos gustaría aproximarnos a su valor. Es decir, pretendemos que en la mayoría de las
Supongamos que para un (1 − =)% de ellas. En términos de probabilidad:

muestras que tomáramos, el error de estimación fuera menor que esa cota de error.
@ |$ − |<I = 1− =
@ −I<$< +I = 1− =
define asimismo un intervalo de confianza + − 9, cuyo extremos son:

A partir de esta definición, observamos que implícitamente, la cota de error estimada
K+ = L − 8
KM = L + 8
! "N − O; N + O
¿Cómo estimamos el valor de I?.
Vamos a usar la distribución de probabilidad t de Student con n D1 grados de libertad

que vimos con anterioridad. Teóricamente, sabemos que:
−µ
; = &
↝S −1
)
donde S es la cuasivarianza muestral, estimador puntual de la varianza poblacional σ
Recordad que
)n
S= ∗s
)n − 1
Por tanto, llegamos también a la conclusión de que

lOMoARcPSD|4446934
−µ
; = ↝S −1
) −1
Usando la distribución t de Student con

SV; W , tal que
D1 grados de libertad, buscaremos un valor
@ −S=; −1 < ; < S=; −1 = 1− =
Y de este modo
−µ
@ X−S=; −1 < < S=; −1 Y = 1− =
) −1
(
Z [|\ − L| < ]9;*−+ ^= +− 9
)* − +
cota de error I_ para un intervalo de confianza 1 − = vendrá dada por:

Por tanto, para una , la
(
8_ = ]9;*W+
)* − +
( (
K+ = L − ]9;*W+ ; KM = L + ]9;*W+
)* − + )* − +
! "L − ]9;*W+ ; L + ]9;*W+

( (
)*W+ )*W+
Donde el valor SV; W es percentil = el de una variable con distribución t de Student con
− 1 grados de libertad.
Existen tablas para la distribución de probabilidad de una t de Student. La búsqueda

en tablas es similar al de la normal.
Para una
!:
)a − *(
Z `|\ − L| < ]9;*−+ b= +− 9
)* − + )a − +
por tanto, la cota de error Ic vendrá dada por

lOMoARcPSD|4446934
)a − * ( )a − *
8 a = 8_ = ]9;*W+
)a − + )* − + )a − +
( )a − * ( )a − *
K+ = L − ]9;*W+ ; KM = L + ]9;*W+
)* − + )a − + )* − + )a − +
! "L − ]9;*W+ ; L + ]9;*W+

( )aW* ( )aW*
)*W+ )aW+ )*W+ )aW+
¿Qué podemos destacar? ¿Qué influyen en la cota de error?
Cuánto más alto es el nivel de confianza 1 − = (= disminuye), el valor de SV; W

aumenta, entonces la cota de error aumenta.
Si hay más dispersión, el error aumenta.
A mayor tamaño de muestra, menor es la cota de error.
Obtener un intervalo de confianza con = = 0,05 para estimar la altura media de los
alumnos de la clase.
Características cualitativas. Intervalo de confianza en la estimación de una

proporción
casos, " está presente una determinada modalidad. Recordad el concepto de

Cuando tenemos una variable cualitativa menudo interesa saber en qué proporción de
frecuencia relativa.
Una vez estimado esto, nos puede interesar el comparar la diferencia existente entre
las proporciones en distintas poblaciones. Esto lo veremos más adelante
Veamos primeramente cómo estimar una proporción.
Supongamos que tenemos una proporción en una población que denotaremos por d.
Sabemos que un estimador puntual de la proporción es la proporción muestral p.
Resulta que la variable Z, definida por

lOMoARcPSD|4446934
"−d
f =
g" 1 − "
n
Sigue una distribución normal de media 0 y desviación típica 1. Por tanto,

obtendremos el intervalo de confianza la para una determinada proporción de manera
análoga a como lo hicimos en el caso de la media.
! Cuando los grados de libertad tienden a infinito, la distribución S tiende a

coincidir con la distribución normal estándar, por tanto SV;_ ↝ fV . Usaremos por tanto
la tabla de la S de Student para facilitar la resolución de los ejercicios.
@ −S=;∞ < f < S=;∞ = 1 − =
"−d
@ j−S=;∞ < < S=;∞ l = 1 − =
g" 1 − "
i n k
Para una :
n +−n
Z X|m − n| < ]9;∞ o Y= +− 9
p
por tanto, la cota de error 8_ vendrá dada por
n +−n
8_ = ]9;_ o
p
n +−n n +−n
K+ = n − ]9;_ o ; KM = n + ]9;_o
p p
! "n − ]9;∞ g ; n + ]9;∞ g

n +Wn n +Wn
p p

lOMoARcPSD|4446934
Para una !
n + − n )a − *
Z X|m − n| < ]9;∞ o Y= +− 9
p )a − +
la cota de error vendrá dada por:
)a − * n + − n )a − *
8 a = 8_ = ]9;_ o
)a − + p )a − +
por tanto,
n + − n )a − * n + − n )a − *
K+ = n − ]9;_ o ; KM = n + ]9;_o
p )a − + p )a − +
"n − ]9;∞ g ; n + ]9;∞ g

n +Wn )a−* n +Wn )a−*
p )a−+ p )a−+
¿Qué factores influyen en la cota de error?
Cuánto más alto es el nivel de confianza 1 − = (= disminuye), el valor de SV;_

aumenta, entonces la cota de error aumenta.
Si el tamaño de la muestra aumenta, el error disminuye

lOMoARcPSD|4446934
Tamaño de muestra
Además de la estimación de los parámetros de una población, nos será de gran

interés calcular, para un nivel de significación dado, el tamaño muestral necesario para
calcular un intervalo de confianza de cuyo radio sea menor que cierta cantidad como
hemos hecho para la media.
Cálculo del tamaño de muestra para la estimación de una media
Para una , el tamaño de muestra para la estimación de una media

vendrá dado por:
]9;_ q M
*_ = [ ^
8
Donde el valor SV;_ es percentil = el de una variable con distribución t de Student con
∞ grados de libertad.
En la mayoría de las ocasiones no conoceremos el valor de %, ¿Qué alternativas

tenemos en este caso?
Tomar el valor de % de un estudio similar.
Calculamos el valor de una estimación de % en una muestra piloto.
Tomando un error I = r %. De este modo, $ ∈ ± r %. El valor de r se suele

tomar de 0,1 a 0,5

Calcular el tamaño que debería tener una muestra para que se obtuviese un intervalo
y con una precisión de I = 1 cm.

de confianza para la media poblacional con un nivel de significación α = 0 01 (al 99 %)
Para una , el tamaño de muestra para la estimación de una media

vendrá dado por:
*_
*a =
* −+
+ + _a

lOMoARcPSD|4446934
¿Qué propiedades podemos destacar? ¿Qué factores influyen en el tamaño muestral?
Cuánto más alto es el nivel de confianza (1 − = , el valor de SV;_ aumenta y

por lo tanto, el tamaño de la muestra _ , debe ser mayor.
Cuanto más dispersión, más tamaño de muestra ( _) debemos tomar.
Cuanto mayor sea la cota de error, menor será el tamaño de la muestra que
debamos tomar.
Cálculo del tamaño de muestra para la estimación de una proporción
Para una , el tamaño de muestra para la estimación de una

proporción vendrá dado por:
]9;_ um + − m
M
*_ = t v
8
¿Qué podemos hacer si no conocemos?
Tomar el valor de d de un estudio similar.
Calculamos el valor de una estimación de d en una muestra piloto.
Tomando un error d = 0,5 (caso más desfavorable)
Para una , el tamaño de muestra para la estimación de una

proporción vendrá dado por:
*_
*a =
* −+
+ + _a
¿Qué podemos destacar? ¿Qué influyen en el tamaño

muestral?
Cuánto más alto es el nivel de confianza (1 − = , el valor de SV;_ aumenta y

por lo tanto, el tamaño de la muestra _ , debe ser mayor.
Si el valor de d es próximo a 0,5, entonces más tamaño de muestra ( _)

debemos tomar.

lOMoARcPSD|4446934
Cuanto mayor sea la cota de error, menor será el tamaño de la muestra que
debamos tomar. Si el tamaño de la muestra aumenta, el error disminuye
Búsqueda de los percentiles ]9;*W+ y ]9;_ en la tabla de la distribución t

de Student
Dados 9 = w, wx y un tamaño de muestra * = yw, la manera de buscar el percentil

]w,wx;Mz en la tabla de la distribución t de Student será:
Por tanto, ]w,wx;Mz = M, w{
# En caso de no encontrar el valor para en la tabla, tomaremos el primer valor,

inferior a este, que nos encontremos en la tabla. Por ejemplo, para un tamaño de
= 80.
muestra de 90, localizaremos el valor para el percentil en la fila que correspondería a
Para 9 = w, wx ]w,wx;_ se localizaría en la última fila de la tabla:
Es decir ]w,wx;_ = +, z|

lOMoARcPSD|4446934
Contraste de Hipótesis
Introducción
Ejemplos
" ! #
Fundamentos
!
%
!
& ' (
$ &
) * +! &
) , "
04.02 Contraste de Hipótesis (I). Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
) - "
,
! .
∉ , ≤
)
' 0 . (
&
&
&
) 1
2 ∈ , ' 0 . (
H &
2 ∉ , ' 0 . (
H &
&" H
)
3
Nota
) 4 456 4 4*6 4 4456 4 44*
7 3 '
( ℎ H H

lOMoARcPSD|4446934
No hay evidencia en contra de H
Si toma un valor dentro de esta región
Región Crítica Región Crítica
Errores del Test
= !"#$%&%' "( #)"'*%
1− = - . H H
H
/ $ 0
$
/= - . H H 1 2
0= !"#$%&%' "( 3%4(%
Realidad (Población)
H0 es cierta H0 es falsa
Correcto Error Tipo II
No rechazamos H0
La probabilidad es 1 – α La probabilidad es β
Decisión Posible
Rechazamos H0 Error Tipo I Correcto
(Aceptamos H1) La probabilidad es α La probabilidad es 1 – β

lOMoARcPSD|4446934
+! . α / )
.
9 ! . α
1−/ :& 2 9
. α & 1−/
.
&
3
H : 7 = 1,74
Nota
&

lOMoARcPSD|4446934
:H
9
:H
Ejemplo
H 2
. "
: &
H $
. :=8
;* 546 * 5,6 * 1<6 * 556 * =46 * 1>6 * 556 * =-?
. *=1
7 : 2
7
.
H : 7 = 7 = 174 <
=>
!
) ' & ! ( 7 = 1,74 <
@ & 0 . H : 2
@ H
"
!

lOMoARcPSD|4446934
Nota importante
& ! )
H
! &
:A ℎ H H = & . 2
/ & )
H ) !
H
:A - . H H 1 2 =/ 2
Contraste de una media
) # &
B
$ & H
: 2 C / !
H : 2
Contraste bilateral
B : 2
H :7 = 7
H :7 ≠ 7
$ A !
& !
D
" *"BC

lOMoARcPSD|4446934
Población infinita
H t
: -1
=−7
H es cierta ⇔ ↝ :−1
M: − 1
) . : 0 *"BC
S−7
O PQR O =
M: − 1
E − T;VW T;VW
$ 0
T;VW
**"X
) C
O PQR O ≤ YPZ = ;:−1 ⇒7 & H : PQR

2
O PQR O > YPZ = ;:−1 ⇒A H : PQR

2
Ejercicio práctico
* F1 7 ! ,5
& G 4 45
H : 7 = 174 <
H : 7 ≠ 174 <

lOMoARcPSD|4446934
$ # %&
$ O] ^_` O & ] ]â
D
*F4 & 9 / *4 )
OB − b O d − de
O] ^_` O = ( = = , ghg
Mc − Mfe
# ] = , h& . ,5
] ]â = ] , h;fe = f, i
*"BC = 1,959 ≤ 2,06 = t

' %
, o; p = t qrs ⇒ &
>5 H
" # $ %&
' () *
$ %&
' () *
Población finita
$ t : -1
=−7
Mt − :
M: − 1 Mt − 1
. : . t
− T;VW
)
T;VW & 0
S−7
O PQR O =
Mt − :
M : − 1 Mt − 1
O PQR O ≤ YPZ = ;:−1 ⇒7 & H
O PQR O > YPZ = ;:−1 ⇒A H

lOMoARcPSD|4446934
Contraste unilateral
B : 2
7≮7
H :7 = 7
H :7 > 7
7≯7
H :7 = 7
H :7 < 7
9 0 PQR
Población infinita
$ t : -1
=−7
M: − 1
) 0 − T;VW T;VW &
0
S−7
O PQR O =
M: − 1
O PQR O ≤ YPZ = 2 ;:−1 ⇒7 & H
O PQR O > YPZ = 2 ;:−1 ⇒A H

lOMoARcPSD|4446934
Ejercicio propuesto
! 8
*F1
*F1
Población finita
$ t : -1
=−7
Mt − :
M: − 1 Mt − 1
) 0 − T;VW T;VW
& 0
S−7
O PQR O =
Mt − :
M: − 1 Mt − 1
O PQR O ≤ YPZ = 2 ;:−1 ⇒7 & H
O PQR O > YPZ = 2 ;:−1 ⇒A H

lOMoARcPSD|4446934
Contraste de una proporción
Contraste bilateral
B : 2
H :π=π
H :π≠π
Población infinita
$ t ∞
π −.
H es cierta ⇔ ↝ ∞
zπ 1 − π
n
) 0 − T;| T;| &

0
π −.
O PQR O =
zπ 1 − π
n
O PQR O ≤ YPZ = ;∞ ⇒7 & H
O PQR O > YPZ = ;∞ ⇒A H
Población finita
$ t ∞
π −.
π 1 − π Mt − :
}
n Mt − 1
) 0 − T;| T;| &

0

lOMoARcPSD|4446934
π −.
O PQR O =
π 1 − π Mt − :
}
n Mt − 1
O PQR O ≤ YPZ = ;∞ ⇒7 & H
O PQR O > YPZ = ;∞ ⇒A H
B : 2
π≮π
H :π=π
H :π>π
π≯π
H :π=π
H :π< ~
Población infinita
$ t ∞
π −.
zπ 1 − π
n
) 0 − T;| T;| &

0
π −.
O PQR O =
zπ 1 − π
n

lOMoARcPSD|4446934
O PQR O ≤ YPZ = 2 ;∞ ⇒7 & H
O PQR O > YPZ = 2 ;∞ ⇒A H
Población finita
$ t ∞
π −.
π 1 − π Mt − :
}
n Mt − 1
) 0 − T;∞ T;∞ &

0
π −.
O PQR O =
π 1 − π Mt − :
}
n Mt − 1
O PQR O ≤ YPZ = 2 ;| ⇒7 & H
O PQR O > YPZ = 2 ;| ⇒A H

lOMoARcPSD|4446934
El p-valor o nivel crítico
& I 9
& J
+ , 0 .
S. ) I
!
I
PQR
. > 0,05 ⇒ 7 & H
. ≤ 0,05 ⇒ A H
Nota
: 2 0
H
I 0 3 I
& 8
0 I !

lOMoARcPSD|4446934
Resumen
"
) :H
2 & :H
2
$ # %&
PQR &
H & 3
: 2 @
PQR H &
& H
@ YPZ
PQR &
' %
t r•€ O PQR O ≤
YPZ & H
t r•€ O PQR O > YPZ

H & H
$ 0 3
: 2
H
I
7 '
H ( ' H " '7 & H ( &

lOMoARcPSD|4446934
Relación entre una característica cualitativa dicotómica y una

característica cuantitativa: Contraste de dos medias para muestras
independientes.
! "
#
$ % &
' ( '
( )
#
* +
H : =
H : ≠
, &
- ≮
H : =
H : >
- ≯
H : =
H : <
04.03 Contraste de Hipótesis (II). Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
Ejemplo
- .
)
#
) )
/ )
/ ' .( '
(
' (
01 & 2
H : =
H : >
Ejemplos
1 # - ) 3 '
( 4 ' (
# 1 5- 5
1 )
# ' 5-( '1 6
1 3 6 4 6 4 (
Consideraciones generales y condiciones de aplicación
4 ,
& / 7
4 , '8
5 ) ( 4 ) &
5 &
4
-
# test no paramétricos Wilcoxon
o el de Mann Withney, )

lOMoARcPSD|4446934
Test de la t -Student combinada
Supuestos de aplicación
/
"
5 ' ( &
8 7 ' (' = (
Objetivo
1 0- 2
Contraste bilateral
Paso 1. Planteamiento
4 & )
H : =
H : ≠
Paso 2. Desarrollo. Cálculos a partir de una muestra
- "
−
)
=
1 2
1 1
#$20 & + (
1 2
- $ 7
$ + $
$ =
+ −2
Paso 3. Conclusión
(− *;,- .,/ 0 *;,- .,/ 0 ) 2

&

lOMoARcPSD|4446934
+ 9 &
- 3 3 ≤ 5 = 2; 1 + 2 −2 ⇒ H
- 3 3 > 5 = 2; 1 + 2 −2 ⇒: 7 H
4 & )
- ≮
H : =
H : >
- ≯
H : =
H : <
4 )
−
=
1 2
1 1
#$20 & + (
1 2
Paso 3. Conclusión
4
(− *;,- .,/ 0 *;,- .,/ 0 ) *;,- .,/ 0 & 5
+ &
- ≤ 5 = 22; 1 + 2 −2 ⇒ H
- > 78 = *;,- .,/ 0 ⇒: 7 H

lOMoARcPSD|4446934
Ejemplo
4)
% +
% ; $ #
'<==( 4
'+- ( < 5
' <==( > <
# ;$ < + $ <==
; < # ?@ <
- 7 +- 0- #
) +- 2
!
# Hipertensos HBB (S/N)
& # presión
sistólica nocturna (PSN) / #
' ( / ' (
+-
4 &
H : =
H : ≠
= 14 = 110 ::;< $ = 9,6 ::;<
= 16 = 128 ::;< $ = 10,4 ::;<
$ + $ 14 ∗ (9,6) + 16 ∗ (10,4)
$ = = = 107,89
+ −2 14 + 16 − 2
− 110 − 128
= = = 4,73
1 2
1 1 1 1
#$20 & + ( #107,89 & + (
1 2 14 16

lOMoARcPSD|4446934
Paso 3. Conclusión
5 = 2; 1 + 2 −2 = 0,05;28 = 2,05
+ 3 3 = 4,73 > 5 = 2,05 ⇒ : 7 H
4 los pacientes hipertensos HBB tienen valores de

PSN diferentes a los del resto de hipertensos

lOMoARcPSD|4446934
Test de Behrens
/
"
5 ' ( &
8 7 ' ≠ (
Objetivo
1 0- 2
Contraste bilateral
H : =
H : ≠
−
=
1 2
E F1 + F2
2 2
1 2
Paso 3. Conclusión
F21 F22
2; 1 −1 + 2; 2 −1
5 = 1 2
F21 F22
+
1 2
4 &
- ≤ 5 ⇒ H
- > 5 ⇒: 7 H

lOMoARcPSD|4446934
: F F 7
- ≮
H : =
H : >
- ≯
H : =
H : <
Pasos 2 y 3. Desarrollo y Conclusión
F21 F22
22; 1 −1 + 22; 2 −1
5 = 1 2
F21 F22
+
1 2
+ &
- ≤ 5 ⇒ H
- > 5 ⇒: 7 H
Ejemplo
- 7 6 '5 5 ( A
, @ @ B
# ; B - > 5 5
$; B # ; B
- 7
5 5 0-
5 5 2

lOMoARcPSD|4446934
!
# Enfermos tumorales (S/N) &
# niveles de A1AT / #
'4 (
/ ' ( 5 5 &
4 &
H : =
H : >
Pasos 2 y 3. Desarrollo. Cálculos a partir de una muestra
n
:
F = ∗$
n−1
= 27 = 626 :</IJ $ = 320 :</IJ
F = ∗$
−1
27
F = ∗ (320) = 106338,45 (:</IJ)
27 − 1
= 18 = 340 :</IJ $ = 110 :</IJ

n
F = ∗$
n −1
18
F = ∗ (110) = 12811,76 (:</IJ)
18 − 1
−
=
1 2
E F1 + F2
2 2
1 2
626 − 340
= = 4,19
#106338,45 + 12811,76
27 18

lOMoARcPSD|4446934
Pasos 3. Conclusión
1 1 22
F21 F22
22; 1 −1 + 22; 2 −1
5 = 1 2
F1
2
F22
+
1 2
*;,- 0 = , ; K = 1,706
*;,/ 0 = , ; L = 1,740
F21 F22 106338,45 12811,76

22; 1 −1 + 22; 2 −1 1,706 ∗ + 1,74 ∗
27 18
= 1 2
= = 1,71
5
F21 F22 106338,45 12811,76
+ +
1 2
27 18
+ = 4,19 > 5 = 1,71 ⇒ : 7 H '5 H )
4 podemos decir que los pacientes tumorales tienen más elevados los
niveles de A1AT que los pacientes no enfermos

lOMoARcPSD|4446934
Relación entre una característica cualitativa dicotómica y una

característica cuantitativa Contraste de dos medias para muestras
apareadas: t-Student apareada
una población
- '
, (
+ -
4
/ ' ( &
Objetivo
1 0- '
, (2
Ejemplos
-
5
0< &
2
- , )
; )
, C , &
Nota
4 &
'5 , ( ,
' , , (
¿Cómo realizar este contraste?
D % %
, %
,
- ) % #
I ,

lOMoARcPSD|4446934
I = − M
I
- ,
7 ' N N (
- # 7
Individuo Medición previa Medición Post%Tratamiento Diferencia
1 M − M
2 M − M
…. … .. … .. … ….
, M, , − M,
I = Q7IRS I7 JS$ IRT7U7 VRS$

$N = W7$XRSVRó í[RVS I7 JS$ IRT7U7 VRS$
C +
Contraste bilateral
4 )
H : N =0
H : N ≠0
&
H : \ − 5 =0
H : \ − 5 ≠0
H : \ = 5
H : \ ≠ 5

lOMoARcPSD|4446934
4 # &
3I3
= $I
] −1
Paso 3. Conclusión
4 & 5 = 2; −1
- ≤ *;,0 ⇒ H
- > *;,0 ⇒: 7 H
- \ > 5
H :δ= \ − 5 =0
H :δ= \ − 5 >0
- \ < 5
H :δ= \ − 5 =0
H :δ= \ − 5 <0
4 # &
3I3
= $I
] −1

lOMoARcPSD|4446934
Paso 3. Conclusión
=
4 &
& 5 22; −1
- ≤ *;,0 ⇒ H
- > *;,0 ⇒: 7 H
Ejemplo
-
+ 7
; /
Antes 200 210 330 240 260 300 245 210 190 225
Despues 150 200 275 250 200 250 200 180 190 205
0C , 2
Paso 1. Planteamiento. Definición del contraste

, 7 no
tenemos dos muestras aleatorias independientes, sino una sola
4 ' %
( #
H :δ= \ − 5 =0
H :δ= \ − 5 >0
Paso 2. Desarrollo. Cálculos a partir de la muestra.

+ ) )
,
Antes 200 210 330 240 260 300 245 210 190 225
Despues 150 200 275 250 200 250 200 180 190 205
Diferencia 50 10 55 -10 60 50 45 30 0 20
4 # &

lOMoARcPSD|4446934
3I3
= $I
] −1
I = 31
$N = 7,051
31
= = 13,19
7,051
]9
*;,0 = , ;_ = 1,833
! = 13,19 [ ≤ 0,001
Paso 3. Conclusión.
> *;,0 (
4 ) #
' 7 ' ?*F(
el tratamiento es efectivo y reduce el colesterol con un nivel de
confianza del 95% y ≤ `, `à

lOMoARcPSD|4446934
Relación entre dos características cualitativas: Tablas de Contingencia
- 7 #
01 # 2
- # b c 4
si las dos variables son independientes +
&
d` : efg hfifhjkiígjlhfg m n o gpq lqrkskqrlkqjkg
da : efg hfifhjkiígjlhfg m n o kgjáq ikufhlpqfrfg

- "
# - , U v
/
tabla de contingencia. 4
+
# 7 (b , cw )
xa xy ..... xz Totales
{a |aa |ay ***.. |az |a.
{y |ya |yy ***.. |yz |y.
**** ***.. ***.. ***.. ***.. ***..
{} |}a |}y ***.. |}z |}.
Totales |.a |.y ***.. |.z |.. = |
ni. n.j
e•€ =
n

lOMoARcPSD|4446934
4 # &
…nij − eij †
\ ‡
ƒ = „„
eij
ˆ wˆ
# ƒ (U − 1)(v − 1)
ƒ5 = ƒ*;(\0 )(‡0 )
+ 7 &
- ƒ ≤ ƒ5 = ƒ*;(\0 )(‡0 ) ⇒ H
- ƒ > ƒ5 = ƒ*;(\0 )(‡0 ) ⇒: 7 H
Ejemplo
*;; "
Grupo Socioeconómico
Superior Medio – Superior Medio – Inferior Inferior
Con Defecto 8 24 32 27
Defecto
Sin Defecto 42 121 138 108
0-
& 2

4 grupo socioeconómico defecto
en la pronunciación, )
+ #
H : El defecto de pronunciación y el nivel socioeconómico son cuestiones independientes
H : Ambas cuestiones están relacionadas

lOMoARcPSD|4446934

8 #
Grupo Socioeconómico
Superior Medio – Superior Medio – Inferior Inferior Totales
|aa = š |a. = œa
n . n.
aa =
n
91x50
= |ay = yž
500 n . n.
= œ, a ay =
n |a• = •y |až = y
91x145
Con
= a• = •`, œž až = yž, ¡
(n −e ) 500
Defecto
e = yŸ, •œ
(8 − 9,1)
=
9,1
= `, a•y
Sin |ya = žy |yy = aya |y• = a•š |yž = a`š |y. = ž`œ
Defecto ya = ž`, œ yy = aaš, Ÿa y• = a•œ, `Ÿ yž = aa`, ž•
Totales |.a = ¡` |.y = až¡ |.• = a ` |.ž = a•¡ |.. = | = ¡``
< & &

/
…nij 0eij †
eij
ƒ = 0,758
4 9 # (2 – 1) × (4 − 1) =
3. / H #
= %6 ƒ , ¤;¥ = 7,81*
= 0,758 < ƒ H
1 ƒ , ¤;¥ = 7,815 ⇒
4 )
no hay evidencia que indique la relación entre el defecto de pronunciación
de los niños de la población y su nivel socioeconómico.

lOMoARcPSD|4446934
Relación entre dos características cualitativas dicotómicas: Tablas de

contingencia 2x2
d` : efg hfifhjkiígjlhfg m n o gpq lqrkskqrlkqjkg
da : efg hfifhjkiígjlhfg m n o kgjáq ikufhlpqfrfg
xa xy Totales
{a |aa |ay |a.
{y |ya |yy |y.
Totales |.a |.y |.. = |
( ∗ − ∗ ) ∗
ƒ =
. ∗ . ∗ . ∗ .
Paso 3. Conclusión
ƒ5 = ƒ*;
+ &
- ƒ ≤ ƒ5 = ƒ*; ⇒ H
- ƒ > ƒ5 = ƒ*; ⇒ : 7 H

lOMoARcPSD|4446934
Nota
- * Corrección de
Yates )
( ∗ − ∗ − 2) ∗
ƒ =
. ∗ . ∗ . ∗ .
Ejemplo
- % #
+
*; @* " 7 #
& 7 9 %
# /
Ejercicio Físico
Si No
Insuficiencia Si 200 150
Cardiaca No 20 150
0+ ) 9
7 ' ( % # @* " 2
- # , realización ejercicio
físico (S/N) y sufrir algún tipo de insuficiencia cardiaca (S/N) &
# @* "
H : El ejercicio ¦ísico y la insu¦iciencia cardiaca en mayores de 65 son independientes
H : El ejercicio ¦ísico y la insu¦iciencia cardiaca en mayores de 65 están relacionadas
Ejercicio Físico
Si No
Si 200 150 350
Fuma
No 20 150 170
220 300 520

lOMoARcPSD|4446934
( ∗ − ∗ ) ∗ (200 ∗ 150 − 20 ∗ 150) ∗ 520

ƒ = = = 96,53
. ∗ . ∗ . ∗ . 350 ∗ 170 ∗ 220 ∗ 300
Paso 3. Conclusión
ƒ5 = ƒ*; = 3,84
+ ƒ = 96,53 > ƒ5 = 3,84 ⇒ : 7 H
+ existe relación entre el ejercicio físico y la

insuficiencia cardiaca en mayores de 65 años

lOMoARcPSD|4446934
Relación entre dos características cualitativas dicotómicas: Contraste

de dos proporciones.
' ' (( E
1 #
# "
G # '' (( H
# % & 7 #
! & 7
!
# ' (
# ' (
+ 04
' ( 2
Ejemplo
-
+ # '- )
'-B ((
+ I3 '-B (J
Clase de 1º (80 alumnos)
Fumadores No Fumadores
Variable Fuma (S/N) (30) (50)
(37,5%) (62,5%)
- # I- ) J ,
7 ' (

Variable Sexo (Chico/Chica) Chicos (20 alumnos) Chicas (60 alumnas)
No Fuman (5) (25%)
No Fumadoras (45) (75%)
Variable Fuma (S/N)
Fuman (15) (75%)
Fuman (15) (25%)

lOMoARcPSD|4446934
4 9 '3
( # I3 '-B (J
4 % &
I3 J
# I ) J
¿Cómo planteamos el problema?
- " . / #
' ( ' B
# ( 4 "
%
4 + =
-
# ' ( '
(
4 9
+
&
[ = M [ =
Contraste bilateral

D ' ( &
H :π = π
H :π ≠ π
0C , ) 2
3[1 − [2 3
=
1 1
#[0 …1 − [0 † & + (
1 2

lOMoARcPSD|4446934
[ + [ +
[ = =
+ +
Paso 3. Conclusión
5 = 2;∞
- ≤ 5 = 2;∞ ⇒ H
- > 5 = 2;∞ ⇒: 7 H
D ' ( &
- π ≮π
H :π = π
H :π > π
- π ≯π
H :π = π
H :π < π
Pasos 2 y 3. Desarrollo y Conclusión
=
)
5 22;∞
- ≤ 5 = 22;∞ ⇒ H
Si > 5 = 22;∞ ⇒ Rechazamos H
Ejemplo
1 %

lOMoARcPSD|4446934
C ' (
' ( + &
H :π = π
H :π > π

Variable Sexo (Chico/Chica) Chicos (20 alumnos) Chicas (60 alumnas)
No Fuman (5) (25%)
No Fumadoras (45) (75%)
Variable Fuma (S/N)
Fuman (15) (75%)
Fuman (15) (25%)
Chico Chica
Si 15 15 30
Fuma
No 5 45 50
20 60 80
15
[ = = = 0,75
20
15
[ = = = 0,25
60
+ 15 + 15 30
[ = = = = 0,375
+ 20 + 60 80
3[1 − [2 3 0,75 − 0,25

= = =4
1 1 1 1
#[0 …1 − [0 † & + ( #0,375(1 − 0,375) & + (
1 2 20 60

lOMoARcPSD|4446934
Paso 3. Conclusión
4 5 = 0,1;∞ = 2,58
1 = 4> 5 = 22;∞ = 2,58 ⇒ : 7 H
4 la proporción de chicos fumadores es mayor

a la de chicas fumadoras.

lOMoARcPSD|4446934
Relación entre dos características cualitativas dicotómicas: Factores de

riesgo.
< #
& 8 7
-
# ' ( ' ( #
0E % 9 # ' (
2
4 # #
' ( '
(
4 , 8
&
Ejemplos
! & 7 ' , (
% ,
! &
Tipos de estudios
Estudios transversales. 4 7 )
4
Estudios prospectivos. - 5
& )
9 4
4
#
' ) ) (

lOMoARcPSD|4446934
D % estudios de cohortes
)
4 & ,
#
- 7 #
) )
# )
Estudios retrospectivos 4 )
D % casos%controles
' (
' # (
)
) ,
Presentación de los datos
Presencia de
Enfermedad
Si No Totales
Exposición al factor de Si |aa |ay |a.
riesgo No |ya |yy |y.
Totales |.a |.y |
+
©U7XSJ7 VRS I7 JS 7 T7U:7ISI =
Riesgo Relativo (RR)
! ª. & ) ª0
&
! E «
E
4 riesgo relativo 'RR(

+
& & % 7
& ) &
©(®/-. )
-- = = =
. .
©(®/-0 ) .
.

lOMoARcPSD|4446934
Odds Ratio (OR)
- odds
4 ,
" 9 ' !
( &
[
ODD([) =
1−[
4 odds ratio (±ª)

' ) ( ' ) ( +
P(E/R+ )
ODD…P(E/R )† P(E «/R+ )
+
11 22
OR = = − =
ODD(P(E/R− )) P(E/R ) 21 12
P(«
E/R )
−
4 &
' ) ( &
' ) (
5 ,
Ejemplo
- # &
7 % ,
Bajo peso
Si No Totales
Si 60 40 100
20 30 50
Fuma
No
Totales 80 70 150
4 riesgo relativo (RR)
60 ∗ 50
-- = = = 1,5
.
. 20 ∗ 100

lOMoARcPSD|4446934
/ * & ,
%
8 Odds Ratio (OR)
4 % ' " %
" (
Bajo peso
Si No Totales
Si 60 40 100
20 30 50
Fuma
No
Totales 80 70 150
60
ODD = 100 = 1,50
40
100
C & %
' *;F " % (
4 % ' " %
" (
Bajo peso
Si No Totales
Si 60 40 100
20 30 50
Fuma
No
Totales 80 70 150
20
ODD = 50 = 0,66
30
50
C & ,
' F " %
(
- :
Bajo peso
Si No Totales

lOMoARcPSD|4446934
Si 60 40 100
20 30 50
Fuma
No
Totales 80 70 150
60 ∗ 30
OR = = 2,25
20 ∗ 40
4 , %
* 7
7 , 7
%
Nota
-G % :: ) :

lOMoARcPSD|4446934
Relación entre dos características cualitativas dicotómicas: Test de Mc

Nemar.
- 7 # una
muestra 4
' ( Test de Mc
Nemar
³fifhjkiígjlhf m
+ - Totales
|aa |ay |a.
³fifhjkiígjlhf o
+
- |ya |yy |y.
Totales |.a |.y |
4 #
´kgsµkg
+ - Totales
|aa |ay |a.
¶qjkg
+
- |ya |yy |y.
Totales |.a |.y |
+ &
H : π· . = π¸ .
H : π· . ≠ π¸ .
( − )
ƒ =
+

lOMoARcPSD|4446934
- < 10 < 10 E
( − − 1)
ƒ =
+
Paso 3. Conclusión
ƒ5 = ƒ*;
+ &
- ƒ ≤ ƒ5 = ƒ*; ⇒ H
- ƒ > ƒ5 = ƒ*; ⇒ : 7 H
Ejemplo
-
+ "
+ $
¹ilsk f upg až fñpg

Si No Totales
212 144 356
¹ilsk f upg ay fñpg
Si
No 256 707 963
Totales 468 851 1319

4 #
H : π» ¼½¾ ¿À•ÁÂ
= π» ¼½¾ Ã
¿À•ÁÂ
H : π» ¼½¾ ¿À•ÁÂ
≠ π» ¼½¾ Ã
¿À•ÁÂ
( − ) (144 − 256)
ƒ = = = 31,36
+ 144 + 256

lOMoARcPSD|4446934
= %6 ƒ , ¤; = 3,84
= 31,36 > ƒ H
1 ƒ , ¤; = 3,84 ⇒ : 7
4 7 existen cambios en la
proporción de alumnos que padecen gripe a los 14 años respecto a los 12 con
p<0,001

lOMoARcPSD|4446934
Anexo 1. Análisis de residuos
4 & &
! residuo ilÄ
r•€ = n•€ − e•€
D 7 -
" )
4 #
" #
H : r•€ = 0
H : r•€ ≠ 0
4 # &
n•€ − e•€
r•€ = > 2;∞
ni. n.j
#e•€ &1 − ( &1 − (
n n
/ # &
- r•€ > *;Å ⇒ ' (

lOMoARcPSD|4446934
Anexo 2. Contraste de igualdad de dos varianzas (homocedasticidad)
1
' 7 (
! homocedásticas 7
- 7
H : =
H : ≠
4 7 &
, 7 7 ' (
-
4) 7
2
2
2
=-
1
+ -=1 7
0+ , #2
H
+ #
1 )
F
Æ=- ↝ Æ,/0
F ,,- 0
- 3 - −1 −1
# #
F
&
S
Æ = > Æ2;(
S 2 −1)/( 1 −1)

lOMoARcPSD|4446934
- S
Nota
: 1 7 F 8 7 $

lOMoARcPSD|4446934
Anexo 3. Obtención de percentiles ÉyÊ;| en la tabla de la distribución Éy

| Ê /
Éy`,¡;a` Éy`,¡;a ƒ
4
%
&
+ Éy`,¡;a` = aš, •` ` Éy`,¡;a = •, šža¡

lOMoARcPSD|4446934
Regresión y Correlación
Con frecuencia el investigador dispone de una característica cuantitativa, X, cuyos

valores intenta relacionar con otra característica cuantitativa Y.
Determinar si la característica X con otra Y. En

resumen, si estas dos características son .
Si estas características están relacionadas (dependientes), determinar en qué

, etc.
los valores de Y cuya determinación puede ser costosa.
Este planteamiento sirve para completar los análisis que vimos en el apartado anterior
en el que queríamos comprobar si dos cualidades estaban relacionadas. Ahora,
intentaremos establecer la .
A la deducción, a partir de una serie de datos, de este tipo de relaciones entre

variables o caracteríssticas, es lo que denominamos .
Nota
Es muy común confundir estos problemas con una comparación de medias. Notar que
en este caso, disponemos de dos características cuantitativas. En los contrastes de
medias, disponemos de una sola característica cuantitativa.
Ejemplos
Este es un estudio muy común en ciencias de la salud y pretende contestar a
preguntas del tipo:
?” “
”
! " #
$%
& # '&
($ )
* ' ($ " + ,
04.04 Regresión y ANOVA. Escuela Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
La manera más común de comprobar si dos variables aleatorias están relacionadas es

a partir de los que se denomina :
1) Se toma una muestra de n individuos, anotando los valores para cada una de las
dos variables en cada uno de los individuos.
2) Representamos las parejas , obtenidas para cada individuo en unos ejes

cartesianos para observar posteriormente si existe algún tipo de relación.
Evidentemente, cada punto representa un individuo.
3) A partir de la nube de puntos, se puede intuir el tipo de relación, si es que esta

existe, que hay entre las dos características en estudio. Podemos decir, de otro modo,
que en una muestra de valores , existe regresión cuando hay alguna línea
llamada que se adapta más o menos claramente a su nube de
puntos.
Esto sería muy útil para tener una aproximación de si estas variables están
relacionadas y de qué manera, sin embargo, necesitamos de alguna herramienta
matemática que nos confirme dicha relación, y como comentábamos antes, la
magnitud de la asociación.
Ejemplo
Supongamos que se toma una muestra de 8 individuos en una población con el fin de
determinar si existe relación entre el consumo de sal (cantidad ingerida al día) y la
tensión arterial media. A cada uno de ellos se les miden ambos parámetros
obteniéndose lo siguiente:
Tensión arterial media

Ingesta de sal (gr/día)
(mm Hg)
X Y
Individuo 1 1,8 100
Individuo 2 2,2 98
Individuo 3 3,5 110
Individuo 4 4 110
Individuo 5 4,3 112
Individuo 6 5 120
Veamos el gráfico de dispersión y la posible línea de regresión que más se puede

adaptar a los datos. Por un lado, el gráfico de dispersión tendría el siguiente aspecto:

lOMoARcPSD|4446934
140
120
Tensión Arterial Media

100
80
60
40
20
0
0 1 2 3 4 5 6
Ingesta diaria de sal (gr/día)
Podemos observar que se puede trazar una línea de regresión que se aproxima en
cierto modo a la tendencia que sigue la nube de puntos:
140
120
Tensión Arterial Media
100
80
60
40
20
0
0 1 2 3 4 5 6
Ingesta diaria de sal (gr/día)
En base a esto, podemos intuir que existe cierta relación entre las características en
estudio, de modo que a medida que aumenta la ingesta diaria de sal, aumenta la
tensión arterial media. Es decir, podemos intuir la relación y el sentido de la misma.
Sin embargo, debemos cuantificar esta relación.

lOMoARcPSD|4446934
Ejemplo. Discusión en clase

Las siguientes gráficas muestran distintas nubes de puntos y las correspondientes
líneas de regresión. ¿Podemos decir que están asociadas dichas características? Si lo
están, ¿podemos determinar el sentido y la magnitud o el grado?
Gráficos de Dispersión o nubes de puntos y rectas de regresión
Veremos más adelante como poder contestar a estas preguntas.
!
"
Existen numerosos tipos de ajuste que se podrán adecuar a nuestro modelo

representado por nuestra nube de puntos o gráfico de dispersión. Mediante '
definiremos una función de una variable X (o viceversa) de tal modo
que = # A esta ecuación la denominaremos . En este
caso, llamaremos a , y a la característica
$
Veamos algunos tipos de ajuste o regresión que podemos encontrar.
- . : Dos variables que se relacionan según una recta
Lineal: = +

lOMoARcPSD|4446934
- % " / Dos variables que se relacionan según una línea

curva
Exponencial: =
Logarítmica
Hiperbólica: =
Logística

lOMoARcPSD|4446934
Parabólica
Regresión Múltiple: Más de una variable independiente y una variable

dependiente
Regresión lineal Simple
Como hemos visto, existen numerosas posibilidades en cuanto a tipos de regresión

que podemos encontrarnos. Los contenidos de este curso solo contemplan el estudio
del caso más sencillo, dos características cuantitativas y por tanto,
sobre las que se pretende estudiar una
, o dicho de otro modo, el grado en que la relación de ambas
características puede ser definido a partir de una recta. Este modelo se denomina
#
Conviene aquí indicar un detalle importante. Lo que se pretende en este caso es

intentar explicar la relación entre las características mediante una relación de tipo
lineal (una recta). Por tanto, siempre calcularemos una recta (que será la mejor a
aproximación a los datos de los que disponemos) a partir de la cual, y de unos
parámetros calculados a partir de la misma, decidiremos si esta relación, de tipo lineal,
es adecuada. Es posible que las variables tengan algún otro tipo de relación de las
vistas anteriormente, pero no necesariamente tiene que ser de tipo lineal.
% & "
Nuestro objetivo, por tanto, será obtener una recta Y′ que se aproxime, para cada valor
de X, lo más posible a los valores de Y. Esta recta vendrá dada por:
Y′ = a + a X
A esta recta la llamaremos Y X.
Para definir la recta, lo que debemos hacer por tanto es obtener los valores de y ,
que denominaremos , que hagan mínima la diferencia entre
Y′ e Y. Éstos van a ser:
−
= "
#
# − "
= $− 1&

lOMoARcPSD|4446934
Ejemplo
Dado el ejemplo anterior, calcular la recta de regresión de $ (Tensión arterial media)
sobre & (consumo diario de sal).

(mm Hg)
X Y
1,8 100
2,2 98
3,5 110
4 110
4,3 112
5 120
Hagamos los cálculos. Lo ideal es realizarlos a partir de la siguiente tabla:
# #
1,8 100 180 3,24 10000

2,2 98 215,6 4,84 9604
3,5 110 385 12,25 12100
4 110 440 16 12100
4,3 112 481,6 18,49 12544
5 120 600 25 14400
20,8 650 2302,2 79,82 70748
Los coeficientes de regresión se calcularán del siguiente modo:
−
= " =
#
# − "
20,8 ∗ 650
2302,2 −
= 6 = 6,335
20,8 #
79,82 −
6
650 20,8
= $− 1& = − 6,335 ∗ = 86,37
6 6
Por tanto, la recta de regresión vendrá dada por la siguiente expresión:

0
= 12, 34 + 2, 335 ∗

lOMoARcPSD|4446934
Propiedades
6 Y X
Las unidades de serán (unidades Y / unidades X
se expresa en las mismas unidades que Y
'
#
El grado en el que esta recta reproduce bien los datos, se denominará

del modelo.
A partir de estas propiedades, y si el ajuste del modelo es bueno (ahora veremos

como determinarlo) podremos contestar a cuestiones del tipo:
¿Qué valor de TAM se espera tener si se ingiere al día 3 gr. de sal?
0
= 12, 34 + 2, 335 ∗
$ 0 = 86,37 + 6,335 ∗ & = 86,37 + 6,335 ∗ 3 = 105 889:
' ()* ! +
5 ;;<=
¿En cuanto se incrementa la TAM (en mmHg) por cada gramo de sal ingerido
al día?
= 2, 335 >>?@ ABC D E @C >B FG@HCFEB I Eí
De forma análoga, si lo que quisiéramos es determinar X

Y, los coeficientes vendrán dados por:
&′ = N + N $
− "
N = #
# − "
N = & − N1 $
, # Las propiedades de esta recta serán las análogas a la recta anterior.

lOMoARcPSD|4446934
Relación entre dos características cuantitativas: Coeficiente de

Correlación lineal de Pearson
Veamos ahora como establecer la relación entre las dos características en estudio, así
como el grado de dependencia y el sentido de la misma.
Coeficiente de Determinación
' será el tanto por uno

en que la variabilidad de $ es explicada por la variabilidad de &
#
P ′Q − $R
O# = #
P Q − $R
Expresado en términos de porcentaje, por tanto, -

!
Ver anexo 1 para una explicación más detallada.
% "
Además de a partir de la expresión anterior, podemos obtenerlo de la siguiente

manera:
ST = 6 U
"
Es adimensional
Toma valores entre 0 y 1
% "
Por ejemplo, ST = , 3314, esto implicará que ++#./- de la variación

que $ la variación de
El resto por tanto (100% > 33.87% = 66.13%) no es explicado por la car. independiente
66.13%: % de la variación de la variable dependiente que es explicada por otras

causas: Otras variables no incluidas, variación aleatoria (error aleatorio), etc.

lOMoARcPSD|4446934
Coeficiente de correlación de Pearson
El 0 1 viene dado por:
S = ±W6 U
Este coeficiente es también es , y toma valores que van desde 23 3.

4 $ 3 23.
Además del ,
entre las mismas.
% "
Si O < 0, las rectas de regresión son decrecientes, por tanto, existe

dependencia inversa (correlación negativa).
Si O = 0, las rectas de regresión son perpendiculares, por tanto, las variables

son independientes. (No correlación o correlación no lineal)
Si O > 0, las rectas de regresión son crecientes, por tanto, existe dependencia
directa. (correlación positiva)

lOMoARcPSD|4446934
Ejemplo. Discusión en clase

Las siguientes gráficas muestran distintas nubes de puntos y las correspondientes
líneas de regresión. Apoyándonos en los datos sobre el coeficiente de determinación y
correlación, ¿Podemos decir que están asociadas dichas características? Si lo están,
determinar el sentido y la magnitud o el grado de dicha asociación.
S = , 53
S = , e4
ST = , T1
S= STS== , ,ef
e4
S = − , e4
S=
S=−
ST = , ef
Gráficos de Dispersión o nubes de puntos y rectas de regresión. Coeficientes de correlación
Llegados a este punto, ya solo nos queda ver cómo podemos determinar el valor para
el coeficiente de determinación y el coeficiente de correlación. De este modo,
estimaremos el grado de dependencia lineal o asociación entre las características y el
sentido de dicha relación. Lo haremos como lo venimos haciendo en los últimos
temas, mediante un contraste de hipótesis a partir de una muestra.
Tomamos una muestra y para los valores de la misma, obtenemos un estimador Z # del
coeficiente de determinación:
Z# = 1 N1
Contraste bilateral. Determina si existe asociación
3#
H : O = 0 ⇒ ^"_à`"_`"bQ
H : O ≠ 0 ⇒ dà`"_`"bQ

lOMoARcPSD|4446934
6# 5 #%
Z# = 1 N1
krkmn − 2
t hij =
m1 − r#
+# %
nopq = nr; t#
Por tanto, el resultado del contraste es el siguiente:
Si npuv ≤ nr; t# ⇒ No hay evidencia en contra de H (" )
Si npuv > nr; t# ⇒ Rechazamos H ( )
Contraste unilateral. Determina si existe asociación y el sentido de la misma.
3#
H : O = 0 ⇒ ^"_à`"_`"bQ
H : O > 0 ⇒ dà`"_`"bQ dQZ`bn
H : O = 0 ⇒ ^"_à`"_`"bQ
H : O < 0 ⇒ dà`"_`"bQ ^"x`Zy
6# 5 #%
Z# = 1 N1
krkmn − 2
t hij =
m1 − r#
+# %
nopq = n#r; t#

lOMoARcPSD|4446934
Si npuv > nr; t# ⇒ Rechazamos H ( )
Si npuv > nr; t# ⇒ Rechazamos H ( # )
Ejemplo
Siguiendo con nuestro ejemplo:

(mm Hg)
X Y
1,8 100
2,2 98
3,5 110
4 110
4,3 112
5 120
a) ¿Existe relación entre la Tensión arterial media y la ingesta diaria de sal?
3# #5
H : O = 0 ⇒ z{ ` Qyn` Z`| bQó" `"nZ` | ~•€ | Q":`yn _Q ZQ _` y |
H : O ≠ 0 ⇒ | Q":`yn _Q ZQ _` • | | y ~•€ `yná" Z`| bQ{" _ y
6# 5 #% #
# #
1,8 100 180 3,24 10000

2,2 98 215,6 4,84 9604
3,5 110 385 12,25 12100
4 110 440 16 12100
4,3 112 481,6 18,49 12544
5 120 600 25 14400
20,8 650 2302,2 79,82 70748

lOMoARcPSD|4446934
20,8 ∗ 650
2302,2 −
N = 6 = 0,147
650 #
70748 −
6
Antes hemos calculado 6 = 2, 335
Z# = 1 N1 = 0,934
Z = W0,934 = 0,967
krkmn − 2 k0,967km6 − 2
t hij = = = 7,54
m1 − r# W1 − 0,967#
nopq = nr; t# =n , „;… = 2,78
+# % #
% t hij = 7,54 > nn`{ = n0,05;4 = 2,78# rechazamos H , con lo que

determinamos que $ % &
( # O # ! #
$ % '
# %
b) ¿En qué % influye la ingesta diaria de sal en el aumento de la TAM?
Como O# = 0,934, $ ()'*+

%

lOMoARcPSD|4446934
Ejercicio
Indicar, con los datos siguientes:
a) ¿Existe relación entre la intensidad de psicosis y nivel plasmático de

anfetamina?
b) ¿En qué % influye el nivel plasmático de anfetamina en la intensidad de

Psicosis?
c) ¿Qué valor de IP se espera tener si se tiene un NPA de 325?
d) ¿En cuanto se incrementa la IP por cada unidad de NPA?
Para la resolución del ejercicio se facilita la siguiente tabla:
NPA IP NPA*IP NPA^2 IP^2

150 10 1500 22500 100
300 30 9000 90000 900
250 20 5000 62500 400
150 15 2250 22500 225
450 45 20250 202500 2025
400 35 14000 160000 1225
425 50 21250 180625 2500
200 15 3000 40000 225
350 40 14000 122500 1600
475 55 26125 225625 3025
3150 315 116375 1128750 12225

lOMoARcPSD|4446934
Relación entre una característica cualitativa y una característica

cuantitativa: Análisis de la Varianza (ANOVA)
La comparación de diversos conjuntos de resultados es habitual en los laboratorios

analíticos. Así, por ejemplo, puede interesar comparar diversos métodos de análisis
con diferentes características, diversos analistas entre sí, o una serie de laboratorios
que analizan una misma muestra con el mismo método.
También sería el caso cuando queremos analizar una muestra que ha estado
sometida a diferentes tratamientos o ha estado almacenada en diferentes condiciones.
Por tanto, es necesario definir un nuevo contraste de hipótesis que sea aplicable en
aquellas situaciones en las que el número de medias que queremos comparar sea
superior a dos. Es por ello por lo que el análisis de la varianza, ANOVA, surge como
una generalización del contraste para dos medias de la t de Student, cuando el
número de muestras a contrastar es mayor que dos.
Este método se basa en la partición de la variabilidad total en un conjunto de datos en

los componentes debidos a las distintas fuentes de variación: los individuos dentro de
los grupos que se comparan son distintos entre sí y además hay cierta variabilidad de
unos grupos a otros.
Análisis de Varianza Simple
El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en

una variable cuantitativa. Se trata, por tanto, de una generalización de la prueba t para
dos muestras independientes al caso de diseños con más de dos muestras.
A la variable cualitativa que define los grupos que deseamos comparar la llamamos
independiente o factor. A la variable cuantitativa en la que deseamos comparar los
grupos la llamamos dependiente.
Planteamiento del modelo y condiciones de aplicación
Vamos a exponer esto con más claridad. Consideremos una variable sobre la que
actúa un factor que puede presentarse bajo (o en) un determinado número de niveles
o poblaciones Z. Estas son las modalidades de la variable cualitativa.
Por ejemplo podemos considerar un fármaco que se administra a Z grupos de

personas y se les realiza cierta medición del efecto causado. Dicho efecto será medido
a través de los valores de la variable cuantitativa X.

lOMoARcPSD|4446934
Para cada uno de ellos, tomaremos muestras de tamaño " , "# … "‡ en cada uno de
los grupos o modalidades de la variable cualitativa (los tamaños de muestra no tienen
porqué ser iguales) en las que obtendremos valores para la variable X.
Por tanto, para cada grupo, obtendremos los siguientes valores para la variable &:
Modalidad/Población/Grupo 1: , # ,…, ˆ
Modalidad/Población/Grupo 2: # , ## ,…, # ‰
Modalidad/Población/Grupo 3: Š , Š# ,…, Š ‹
GGGGGGGGGGGGGGG
Modalidad/Población/Grupo Z: ‡ , ‡# ,…, ‡ Œ
7 :
Antes de aplicar un modelo ANOVA, debemos comprobar que:
La variable cualitativa divide la población en Z poblaciones distintas, y por

tanto, tenemos Z muestras independientes de tamaño " , "# … "‡
Todas las poblaciones (respecto a la variable cuantitativa) están distribuidas

normalmente.
Varianzas poblacionales iguales (• # = •## = ⋯ = ••# ).
Contrastar la hipótesis ¿Son todas las medias iguales o hay alguna diferente?
, : A cada población o grupo, se le llama en ocasiones # .
Hipótesis del contraste y método. Tabla de análisis de Varianza Simple
La hipótesis a contrastar será por tanto la siguiente:
H : • = •# = ⋯ = •‡
H : •| 8`"{y ‘" 8`_Q `y _QynQ"n

lOMoARcPSD|4446934
Veamos ahora como resolver el contraste y como obtener la Tabla de análisis de

varianza simple:
’“ T—
Muestra ’“ = ”“• ’“ T –“ –“
T1 #—
Población 1 , # ,…, ˆ T T1 #
" "
T2 #—
Población 2 # , ## ,…, # ‰ T# T2 #
"# "#
……………….. ……………….. ……………….. ……………….. ……………….. ………………..
Ti #—
Población r ‡ , ‡# , … , ‡ Œ T• Tr #
"‡ "
’ – š
Definimos además:
› = ”T + ”TT + ⋯ + ”Tœ–œ
• = ’T ⁄ –
Con estos cálculos, obtenemos la denominada # , :
Fuentes de Variación g.l. Suma de Cuadrados Medias cuadráticas Ÿ ”
¡ ¢T
œ− ¡ =š−• T
¢ = £ œ− —T
Poblaciones ¢
¡
Error –−œ ¡ =›−š ¢T = £ –−œ
Total –− ›−•
Si ¤puv > ¤opq = ¤r;[ ‡t / t‡ ] ⇒ Rechazamos H
En caso contrario, no hay evidencia en contra de H

lOMoARcPSD|4446934
Ejemplo
Se forman tres grupos de 6 alumnos y a cada uno se le aplica un método de
enseñanza (con el mismo temario). Los resultados del examen son:
Presencial 4,8 7,1 5,4 6,8 8,6 6,2

Internet 4,9 6,1 5,4 3,6 4,2 2,4
Autodidacta 1,5 6,4 3,9 5,3 2,4 3,1
Queremos comprobar si existen diferencias en los resultados del examen para cada
uno de los grupos.
3# #5
H : • = •# = •Š : z{ ` Qyn`" _Q `Z`"bQ y `" |{y Z`y‘|n _{y `"nZ` |{y :Z‘a{y
H : § Qyn`" _Q `Z`"bQ y `" |{y Z`y‘|n _{y `"nZ` |{y :Z‘a{y
Nota que deberíamos siempre probar las condiciones de aplicabilidad. En este caso:
Independencia observaciones
Homocedasticidad
Normalidad de las observaciones
6# 5 #% #
Obtenemos la tabla ANOVA:
’“ T—
’“ = ”“• ’“ T
–“ –“
38,9#£
Presencial 38,9 38,9# 6 6
26,6#£
Internet 26,6 26,6# 6 6
22,6#£
Autodidacta 22,6 22,6# 6 6
11, 1 f55, T5
› = f, 1 + 4, + ⋯ + 3, = f1e, 14
T
• = 11, —
1 = f3 , T

lOMoARcPSD|4446934
Fuentes de Variación g.l. Suma de Cuadrados Medias cuadráticas Ÿ ”
f55, T5 − f3 , T ¢T = Tf, 5£T

T 5, T
= Tf, 5
Poblaciones
= T, T5
f1e, 14 − f55, T5 ¢T = 3f, 2T£ 5
5
= 3f, 2T
Error
= T, 3 1
Total 4 51, 24
Obtenemos el valor experimental de la tabla de F de Snedecor:
¤ , „;[#/ „] = 3,68
+# % #
5,21 = ¤` a > ¤, „;[#/ „] = 3,68
Por tanto, !
# , (-+&
Notar que hemos detectado diferencias, pero es un resultado no demasiado concreto.

Para determinar, por ejemplo si es mejor venir a clase que seguirlo por internet, o que
estudiar por tu cuenta, tendríamos que comparar las medias entre ellas. El que esté
interesado en este particular, puede consultarlo en el anexo 2.
Ejercicio
Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión
arterial, comparándola con la de una dieta sin sal. Para ello se seleccionan al azar 25
hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le
suministra ningún tratamiento, al segundo una dieta con un contenido pobre en sal, al
tercero una dieta sin sal, al cuarto el fármaco a una dosis determinada y al quinto el
mismo fármaco a otra dosis. Las presiones arteriales sistólicas de los 25 sujetos al
finalizar los tratamientos son:
1 2 3 4 5
Tomar una decisión sobre si existen diferencias entre una dieta sin sal y el efecto del
fármaco en la reducción de la tensión arterial

lOMoARcPSD|4446934
Anexo 1. Análisis de la variabilidad
Una vez obtenida la recta de regresión (coeficientes) entre dos variables aleatorias, el
objetivo del análisis de correlación lineal será
.
Consideremos un conjunto " de observaciones sobre individuos de una población, en

los que se miden ciertas variables & e $.
Estamos interesamos en hacer regresión para determinar, de modo aproximado, los

valores de $ conocidos los de &, por tanto, debemos definir cierta variable $′ = & ,
que debe tomar los valores ′ = + ,G, ′ = + ¨ (regresión lineal)
Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre
los auténticos valores de $ y los teóricos suministrados por la regresión, $ 0 . Es decir:
§ = $ − $′
Es fácil de intuir, que para que el modelo se ajuste en gran medida a la realidad E
debe ser una variable cuya media debe ser 0, y cuya varianza debe ser pequeña (en
comparación con la de $).
A cada uno de los valores `ª = ª − ª′ se les denominan
Coeficiente de Determinación
Supongamos ahora que establecemos un modelo de regresión lineal de Y sobre X.
Como sabemos, la 0 Y viene dada por:
1 #
•«# = ¬P − $R
" Q
Veamos ahora como podemos descomponer la varianza de la variable Y en dos

partes: la varianza explicada por la variable X, y la varianza no explicada por la
variable X
1 # 1 # 1 #
"
¬P Q − $R = ¬- " Q − ′Q ® + ¬P ′Q − $R "
Llamaremos # , Y ! # X:
1 #
¬P ′Q − $R
"
Llamaremos # , Y ./ ! # X:

lOMoARcPSD|4446934
1 #
¬- − ′Q ®
" Q
Notar que cuanto más próximos estén los valores de e ′ , (más ajustado es el
modelo), la varianza de la variable $ vendrá más explicada por la variable &
El Y X se definirá como la
varianza de Y explicada por X, dividido por la varianza total, es decir:
#
P ′Q − $R
O# = #
P Q − $R
O dicho de otro modo, Y X

! Y $
X.
El coeficiente de determinación, por tanto, sirve entonces para medir de qué modo las
diferencias entre los verdaderos valores de una variable y los de su aproximación
mediante una curva (recta en este caso) de regresión son pequeños en relación con
los de la variabilidad de la variable que intentamos aproximar.
Se dice por tanto, que esta cantidad también mide el grado de del
modelo y el de las variables.
Expresado en términos de porcentaje, por tanto, -

!

lOMoARcPSD|4446934
Anexo 2. Análisis de los resultados del ANOVA: Comparaciones

múltiples
Supongamos que el resultado de contraste anterior ha sido que existen diferencias

significativas entre las medias de la característica en los grupos determinados por la
variable cualitativa. Sabemos que no todas las medias son iguales, pero no sabemos
cuales son diferentes concretamente. Por tanto, nos puede interesar conocer que
niveles del factor (grupos) son los que han influido más para que se dé este resultado
en el ANOVA. El método más utilizado consiste en realizar todas las comparaciones
por parejas.
Supongamos que tras efectuar el contraste anterior (ANOVA), determinamos que no

todas las medias son iguales. Supongamos que la característica cualitativa tiene r
modalidades.
El contraste que debemos realizar, para cada par de grupos, será:
H : • = •¯
H : • ≠ •¯
Tomaremos el valor experimental ° ” como:
k 1 − 2k
npuv =
1 1
±y20 P + R
"1 "2
nopq = n²;"−Z
donde y # es la varianza del error que viene en la tabla ANOVA, y Z el número de

grupos a comparar.
Por último, el resultado del contraste será el siguiente:
Si npuv ≤ nopq = n²;"−Z ⇒ No hay evidencia en contra de H
Si npuv > nopq = n²;"−Z ⇒ Rechazamos H

lOMoARcPSD|4446934
Bioestadística. Ejercicios Repaso (III) 2012-2013

Inferencia
Modalidad Casos
Menos de 160 5
[160 ; 168) 16
[168 ; 176) 12
176 o más 16
Modalidad Casos
Chica 29
Chico 14
Total 43
! "
# $ " % & '

( $ " !
)
* # +
,- . # /
Sexo IMC Edad

Chica 19,03 19
Chica 19,38 18
Chica 22,10 17
Chica 19,81 22
Chica 23,51 34
Chico 23,89 20
Chico 20,72 37
Chico 21,85 18
Chico 22,86 18
Chico 23,68 17
Ejercicios Repaso (III). Inferencia. Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934

Inferencia
# ,- 0/1
& $ " " )
2
# 3 / & $
,- / " " )
4 5 6 /
IMC Edad IMC*Edad IMC^2 Edad^2

19,03 19 361,57 362,1409 361
19,38 18 348,84 375,5844 324
22,1 17 375,7 488,41 289
19,81 22 435,82 392,4361 484
23,51 34 799,34 552,7201 1156
23,89 20 477,8 570,7321 400
20,72 37 766,64 429,3184 1369
21,85 18 393,3 477,4225 324
22,86 18 411,48 522,5796 324
23,68 17 402,56 560,7424 289
216,83 220 4773,05 4732,09 5320
&7. ! ,- )
&7 $ ,- )
&8 ,- 9 )
&7 ' '2 ' ,- 9 )
, :
7
3! $
Modalidad Casos
Padre Fumador 24
Madre Fumadora 12
Ninguno 21

lOMoARcPSD|4446934

Inferencia
&; $ 6 !
+ )
% < 4* / "' <

4 " " < " 2 %
"
&7. ! . "'
)
&# $ 6
)
= # "' 6 (
/
Test Ejercicio
Menos de dos veces a Dos ó más veces a la

la semana semana
Sobrepeso
SI 6 2
NO 26 15
&7. ! 6 "
)
&# $ 6 ( "
/ )
& ' 3 ' $

6 ( " $ $ ( " )
> 7 ,- !
+
Más de tres veces semana 27,19 31,80 22,47

Consumo moderado 22,32 19,03 19,38 22,10
Nunca/Casi Nunca 20,72 21,85 22,86
&7. ,- / /:
)2 = 4,74

lOMoARcPSD|4446934

Contraste de Hipótesis (I)
! "
# " $
" $ %% " & "
= 154,6 / í
= 64,6 / í
' (
) % %* + "
( &* ,
-
& # $ ./ !
' ./ ! ..
0 $
+1
( % *% 0*%2 -
3 4 $ (
5 1
" 0 6 &*
Muestra 1 2 3 4 5 6 7 8
Nivel 7,23 7,25 7,32 7,26 7,28 7,27 7,29 7,24
'
+7 -
/ 8
( ' 9 $ (
( 4
:
Paciente 1 2 3 4 5 6 7 8 9
Días 18 21 28 20 22 15 28 21 24
Ejercicios Prácticos 6. Contraste de Hipótesis (I). Escuela Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934

Contraste de Hipótesis (I)
+5 ( . -
4 &.* +4
-
4 ( .9
+# (
-
4 &.* ( .&
; # 0; # +4
! ( ; #
&%2-
4 (
&.9 ( +4 &*2
( ( ; #-
+4 (
( ; #-
Ejercicios Prácticos 6. Contraste de Hipótesis (I). Escuela Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934

Contraste de Hipótesis (II)
!" # $ %
!" # &
!" $ % ' !"
$ ( $ )*+
, , $ #
-
. , , # #
/ 01 +
. . #
, 02 , 3
Somnífero 1
Sexo H H H H H M M M M
Antes (horas) 3,2 3,6 3,8 3,5 3,3 3,8 3,5 3,9 3,1
Después (horas) 7,1 6,2 6,5 6,8 6,7 8,1 8,2 8,8 8,7
Somnífero 2
Sexo H H H H H M M M M
Antes (horas) 3,6 3,7 3,4 3,5 3,8 3,4 3,5 3,7 3,5
Después (horas) 8,1 8,2 8,5 8,8 8,7 9,1 9,2 9,8 9,7
0 1 , $ , .
4 %
. % 0
) . , , $ -
0 5 6 . #
4 6 , $ , 0 #
$ .
0 $ (
6) # /
, -
0 5 , 0 2
$ 0
. , , $ / )*
7 . - $ (
Ejercicios Prácticos 7. Contraste de Hipótesis (II). Escuela Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934

8 . $ ,
7 9:1 0 1
8 ; /
" # , 6 3
Paciente 1 2 3 4 5 6 7 8
Antes 2,9 2,8 3,1 3,2 2,7 3 3,3 3,2 mmol/l
Después 2,3 2,2 2,5 2,4 2,3 2,8 3 2,6 mmol/l
) .
# -
( $ % # %
4 # + ( 0
<== 0 , 4
6 + # 7
0
Sobrepeso
Éxito Si No
Si 162 263
No 38 37
)1 . , # -
< * % % '
% , # $ 6
3
Nivel de Estudios
Antibióticos Elemental Medio Superior
Si 18 8 4
No 9 15 22
)> , # $ % ,
-
. $ % $ / 6 6
, 0 . 6
; $ % #6 6 , , 6

lOMoARcPSD|4446934

. . $ 68 ,
, 0
0 )* , -
0 )2 % ,
# % -
' * ( ; ;; # &
/ 6 % 6 %
0: 6 <
+ . , $ (
6; / 0
) # , , $ %
# / -
; : =' , % > 6 8=
56 ' $ $ 6# < , 3
0 )*+ % 5# $ $
> -
0 ) . 5 , $ $ -
0 ) $ $ $ .
-
0 ) , -
& $ , $ .
, . ;' 6 <' ,
0? 8= . , , 6
. % . $ , 0
0 ) . , , # % ,
, -
0 ) $ , ,
, -

lOMoARcPSD|4446934

! "
# ! $%& ! '
TR en Minutos Casos
menos de 45 5
45 a 55 18
55 a 65 25
65 a 75 22
75 a 85 16
85 o más 4
Origen de la fiebre Casos

Infección vírica 62
Infección Bacteriana 28
% ()
!
*
% + !
, -.
% & !
!
/& 0 '
CS Origen de la fiebre
22 Infección Bacteriana
32 Infección vírica
Ejercicios Prácticos 5. Muestreo y Estimación. Escuela Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934

(/
, -. *
% (/
,
.*
% () !
12 *
% ( 23 0
/& /& 40-
" , -.*
!% +
% (/ 5
# 20-.*
% & - 0 (
5 #
0 0 ,
-. " 20-.*
#% (/ . - *
2 , 34 # 0 !
! 0 !
% 6 34 # 0 33
, %
% / , -.0 (
*
7 8 ,
8 0 , 8 2 8 0
! = 154,6 / í "
= 64,6 / í
% / , -.0 (
! 8
*
Ejercicios Prácticos 5. Muestreo y Estimación. Escuela Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934

Regresión y ANOVA
! " #
$
Tiempo 7 12 17 19 22 27 30 32
Ansiedad 75 62 59 52 46 40 38 35
Peso 87 75 62 55 50 46 40 38
#
%# &
%' () ! &
%* ! & %+
&
%, ( -. &
%* /
0. &
%1 ! 2 & %' ( )&
%, ( / ! &
3 $ $
Tiempo (X) Ansiedad (Y) Peso (Z)

7 75 87 525 49 5625 6525 7569
12 62 75 744 144 3844 4650 5625
17 59 62 1003 289 3481 3658 3844
19 52 55 988 361 2704 2860 3025
22 46 50 1012 484 2116 2300 2500
27 40 46 1080 729 1600 1840 2116
30 38 40 1140 900 1444 1520 1600
32 35 38 1120 1024 1225 1330 1444
166 407 453 7612 3980 22039 24683 27723
Ejercicios Prácticos 8. Regresión y ANOVA. Escuela Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934

Regresión y ANOVA
- 4 .
15* ! / 6 *7*
IMC C-C
26,1 88,2
28,2 96,1
22 75,3
24,2 78,4
27,3 88,2
31,3 100
32,3 103
25,5 80
26 83,2
29 96,1
2 8 / 15* ! /
* 7*
9 ' : 0
$
Enfermedad 1 10 9 7 9 8
Enfermedad 2 7 5 5 4
Enfermedad 3 9 12 13 11 10 9
%3 :
& = 3,89
2 0
; ! ;- '
:
/ $
Sólo F1 12 13 10 11
Sólo F2 10 9 9 8 9 7 9
F1 + F2 5 5 4 7
%5 : &
= 3,89
Ejercicios Prácticos 8. Regresión y ANOVA. Escuela Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
Bioestadística. Ejercicios Repaso (I) 2012-2013

Estadística Descriptiva
Sexo Peso (Kg)

Modalidad Frecuencia absoluta Modalidad Frecuencia absoluta
Chica 29 Menos de 50 3
Chico 14 [50 ; 55) 7
[55 ; 60) 8
Nº Hermanos [60 ; 65) 14
Modalidad Frecuencia absoluta [65 ; 70) 3
0 5 [70 ; 75) 6
1 21 [75 ; 80) 1
2 14 [80 ; 85) 2
3 6 85 o más 5
4 2
5 1 Desayuna habitualmente
Altura (cm) Solo Café o Leche 24
Modalidad Frecuencia absoluta Tostadas Aceite 7
Menos de 160 5 Tostadas Mantequilla 3
[160 ; 168) 16 Bollería 0
[168 ; 176) 12 Solo Fruta y/o zumo 1
176 o más 16 Bocadillos 0
Otros 12
Nunca Desayuna 2
Ejercicios Repaso (I). Estadística Descriptiva. Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
Bioestadística. Ejercicios Repaso (I) 2012-2013

Estadística Descriptiva
" #
! $ %
! &' ( )
! *
! +
! ,-
. +
! /
! &' ( 0 . )
! &' ( 0 12 34 )
! &' ( 0 ( )
5 6
4 6
! &# ) &#
)
! / (
7
! &+ 0 ( 328 )
! &' ( 328 )
! &9 32 )
! &9 42 : )
! &# ;
)
Ejercicios Repaso (I). Estadística Descriptiva. Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
02. Estadística Descriptiva

Conceptos básicos
!" ! #
Ejemplo:
Característica: Número de Hermanos
Modalidades: 0, 1, 2, 3,
Población y elementos: Alumnos primer curso Enfermería
02. Estadística Descriptiva. Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
Organización de los datos
Introducción
Tipos de Datos
# " " %& ' ( ) *

% * %
*
! % *
+
Grupos Sanguíneos posibles: A, B, AB, O
Grado de recuperación: Nada,

Poco, Moderado, Bueno, Muy Bueno.
sí y no, hombre y mujer
(
, - .
/0
1 23
" %
* .
0 + "
Número de hermanos
posibles: 0, 1, 2, 3, 4, 5,. . .
peso y el colesterol de una muestra de 500

alumnos de la universidad. 4

lOMoARcPSD|4446934
4 "
( %
*
+ $
"
!" excluyentes cada modalidad debe pertenecer a una
y sólo una de las clases.
5 ( , )
! −
Distribuciones de Frecuencias
" 6+ 5
i0ésima
" 4 5
i0ésima 7
,889
"
+
:
= + +⋯+
"
$
i0ésima
= + + ⋯+

lOMoARcPSD|4446934
" " " "

#
1 = = =
2 = = + = +
… … … … …
= = + + ⋯+ = + + ⋯+
Total 1
,88 9
Presentación de los datos. Tablas
Ejemplo
5 -88
% * + "
% * % *
"
; <

lOMoARcPSD|4446934
;# $ $ < ;# <
# i0ésimas
;# $ <
;# $ =<
;> )<

lOMoARcPSD|4446934
Ejemplo
? + "
@ " -88
; " <
;# <
Ejemplo
$ % *

lOMoARcPSD|4446934
Ejemplo
AB
" 7
;> <
En resumen
. !
# ! +

lOMoARcPSD|4446934
Representaciones gráficas
?
$ $
+ $ $
Variables Cualitativas
Diagramas de Barras
C &
'
Grupos sanguíneos por sexo
Diagramas de sectores
5 !

lOMoARcPSD|4446934
' %=D8*
; $ $<
$ $
Ejemplo:
Ejemplo
Pictogramas
!
$ "
02. Estadística Des

Descriptiva. Escuela de Enfermería Cartagena. Curso 2012-201
2013

lOMoARcPSD|4446934
Variables Cuantitativas
Variables Discretas. Diagrama de barras
"
Variables Discretas. Polígonos de frecuencias
# "
+
Variables Continuas. Histograma
0 "
$ $ $

lOMoARcPSD|4446934
7 $
$ $
Ejemplo:
Porcentaje de curación de un medicamento
;5 <
;> $ $ <

lOMoARcPSD|4446934
Resumen de los datos
Introducción
Si antes hemos visto los diferentes tipos de variable y como representar datos de una
serie de observaciones mediante diferentes formas de representación bien en forma
tabulada como gráficamente, nos dispondremos ahora a dar algunas características
numéricas que las resuman adecuadamente. Estas medidas también pueden ser
llamadas .
Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que
junto a una medida que indique el valor alrededor del cual se agrupan los datos, se
asocie una medida que haga referencia a la variabilidad que refleje dicha fluctuación.
Es decir, dado un grupo de datos organizados en una distribución de frecuencias (o

bien una serie de observaciones sin ordenar), pretendemos describirlos mediante dos
o tres cantidades sintéticas.
Medidas de Tendencia Central
Llamamos estadísticos de a la mediana, media y moda.
Mediana
Aplicable a
Si los datos de una muestra se ordenan de menor a mayor, de define la mediana como
aquel dato perteneciente o no a la muestra que deja tantas observaciones por debajo
como por encima de él, o dicho de otro modo, es el valor de la variable tal que el 50%
de las observaciones son menores o iguales a él.
Para calcularla, se ordenan los valores de la muestra y se obtiene el valor que se

encuentra en la mitad de la muestra ordenada.
Si el tamaño de la muestra es impar, se divide el tamaño de muestra (más 1)

entre dos y el número obtenido es la que ocupa el valor que
representa la mediana.
Si tuviéramos un número par de datos (observaciones), es decir, el tamaño de

la muestra es un número par, la mediana sería la media aritmética entre las
dos observaciones centrales
Ejemplo
Estadística Descriptiva (II). Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934
Datos: 2, 6, 2, 1, 6, 4, 5
Datos Ordenados: 1, 2, 2, 4, 5, 6, 6.
El tamaño de muestra es 7 (impar). (7 + 1)/2 = 4. El valor de la muestra ordenada

que ocupa la posición 4 es el valor
Datos Ordenados: 1, 2, 2, , 5, 6, 6
Por tanto, =4ℎ
Ejemplo
Datos: 2, 1, 6, 7, 4, 5
Ordenados: 1, 2, , 6, 7
El tamaño de muestra es 6, que es un número par, con lo que (6 + 1)/2 = 3,5
Por tanto,
4+5
= = 4,5 ℎ
2
Si el tamaño de muestra es , para el caso de datos agrupados, la mediana se situará

en la modalidad o clase en la que se encuentre la observación 2 . Para ello, es de
gran utilidad el uso de la frecuencia absoluta acumulada.
( + 1)
Si el número de observaciones fuera impar, buscaremos la observación 2
Ejemplo
Frecuencia
Nº Hermanos Frecuencia
Acumulada
0 10 10
1 22 32
2 40 72
3 16 88
4 5 93
5 o más 3 96
Total 96
96 = 48 , entonces la mediana se encuentra en la posición 48º. Por

Como 2= 2
tanto, observando la frecuencia absoluta acumulada, vemos que =2

lOMoARcPSD|4446934
En el caso de en las que las clases vienen dadas por intervalos, la fórmula
de la mediana se complica un poco más. La forma de obtenerla sería la siguiente:
Localizamos en que intervalo se encuentra la observación 2 donde es el

tamaño de la muestra. A este intervalo ( , ), lo denominamos
Calculamos la amplitud del intervalo mediano ( , ), denotado por ,
La frecuencia absoluta de la modalidad
La frecuencia absoluta acumulada de la modalidad anterior !
De este modo, la fórmula de la mediana viene dada por:
−
+ 2
!
=
Ejemplo
Se realiza un estudio para valorar el efecto del alcohol sobre los niveles de colesterol
en suero en EEUU. Una variable de interés es la cantidad de alcohol (en onzas)
consumido por sujeto y semana.
Se dan los siguientes resultados:
Intervalos Frecuencia F.Acumulada

0 a 0,5 201 201
0,5 a 3,5 372 573
3,5 a 9,5 260 833
9,5 a 19,5 80 913
> 19,5 10 923
Total 923
Sigamos los pasos necesarios para calcular la mediana:
2
( , )!
#
Como el número de observaciones es impar, tomamos $
= 462. Esta
observación, si miramos en las frecuencias acumuladas se encuentra en el
intervalo

lOMoARcPSD|4446934

0 a 0,5 201 201
0,5 a 3,5 372 573
3,5 a 9,5 260 833
por tanto, este será el intervalo mediano y por tanto el valor de la mediana se
encontrará dentro del mismo
" % $; ') = %0,5; 3,5) !

$!
$ = 3,5 – 0,5 = 3
# $

0 a 0,5 201 201
0,5 a 3,5 372 573
3,5 a 9,5 260 833
$ = 372

0 a 0,5 201 201
0,5 a 3,5 372 573
3,5 a 9,5 260 833
= 201
Por tanto:
462 − 201
= 0,5 + ∗ 3 = 2,6
372
Es decir, el consumo aproximado de alcohol de la mitad de los sujetos es menor (o

mayor) de 2,6 onzas por semana
Propiedades
Entre las propiedades de la mediana, vamos a destacar las siguientes:
Medida de Posición central

lOMoARcPSD|4446934
Como medida descriptiva, tiene la ventaja de no estar afectada por las

observaciones extremas, ya que no depende de los valores que toma la
variable, sino del orden de las mismas, por lo que su uso es recomendable en
poblaciones asimétricas y de mucha dispersión.
Es de cálculo rápido y de interpretación sencilla.
La mediana de una variable discreta es siempre un valor de la variable que

estudiamos.
Media
Aplicable a
La medida más popular y utilizada es la , definida como el promedio de los

valores (+ ) de la muestra.
-#. +
,=
Más generalmente, se puede definir como la suma de todos sus posibles valores,
ponderada por las frecuencias de los mismos, es decir:
1
,= (+1 1 + ⋯ . ++1 1)
3
1
= 2+
.
O también:
1
1
, = 2 +4
- 4
4
4=1
En caso de que tengamos una variable continua y datos agrupados por intervalos,
debemos utilizar la marca de clase en lugar de + , ya que no disponemos de todos los
valores +
Propiedades
Entre las propiedades de la media, vamos a destacar las siguientes:

lOMoARcPSD|4446934
Representa a poblaciones simétricas
Es sensible a valores extremos de la variable, por lo que no es recomendable

su uso en distribuciones asimétricas o de mucha dispersión.
Si consideramos una variable discreta, el valor de la media puede no

pertenecer al conjunto de valores de la variable.
Ejemplo
Datos: 2, 1, 6, 4, 5
Ordenados: 1, 2, 4, 5, 6
$ 5 6 7
Por tanto, , = = 3,6 ℎ
6
Ejemplo
Vamos a ver un ejemplo de distribución asimétrica y como es más representativa de la
población la mediana que la media.

lOMoARcPSD|4446934
Es así como vemos que los valores extremos afectan más a la media que a la
mediana.
Como ejercicio, calcular la media y la mediana de un conjunto de datos. Añadir un dato

más anormalmente grande. Volver a calcular media y mediana y comprobar que ha
ocurrido con cada una.
Moda
Llamaremos a cualquier máximo relativo de la distribución de frecuencias o

dicho de otro modo, a aquel número, clase o intervalo de clase que mayor frecuencia
absoluta tenga.
Propiedades
Entre las propiedades de la moda, vamos a destacar las siguientes:
Al igual que la mediana, es su uso es aconsejable en poblaciones asimétricas
Es perfectamente aplicable a cualquier tipo de variable.
Ejercicio Práctico.
Calcular la media y la mediana de las alturas de la clase de primero de

enfermería de Cartagena
¿Cuál es el número de hermanos más frecuente? ¿Cómo se llama este valor?
Medidas de Posición
Una medida de posición es un número que nos indica cómo se encuentra el resto de la
muestra respecto a él.
Entre estas medidas destacan los .
Percentiles
Los percentiles son aquellos que dividen la muestra ordenada en 100 partes iguales.
Del mismo modo, los deciles la dividen en 10 y los cuartiles en 4.

lOMoARcPSD|4446934
Llamaremos es aquel valor que deja por debajo de él al $% de la

población.
Notar que = 869
Ejemplo:
Ejemplo:
Si decimos que el percentil 10 de los varones recién nacidos es 2,700 kg, indica que
solo el 10% de los varones recién nacidos pesa menos de 2,700
Cuartiles y Deciles
Los cuartiles y los deciles son un caso particular de los percentiles y vienen dados por:
Para el caso de variables continuas, el cálculo de los percentiles (cuartiles, deciles) se

hace de manera similar al de la mediana. Si 83 se encuentra en el intervalo ( , ):
1
−
+ 100
!
83 =

lOMoARcPSD|4446934
#
! Mientras que en el caso de la mediana usábamos el valor de para identificar el
$
#3
intervalo mediano (nos indicaba la posición de la mediana), usaremos el valor para
99
localizar el intervalo donde se encuentra 83 (nos indica la posición del percentil k)
Ejercicio para practicar en casa

Dado el siguiente diagrama acumulado de frecuencias relativas de una muestra de 50:
a) Elaborar una tabla estadística con los siguientes elementos: intervalos, marcas
de clase, frecuencias absoluta y relativa, frecuencias acumuladas absoluta y
relativa
b) Determinar los cuartiles
Ejercicio práctico.
¿Por debajo de que altura están el 75% de los alumnos de primero de enfermería de
Cartagena? ¿Y del 10%? ¿Cómo se llaman estas medidas?
Medidas de dispersión
Mientras que las medidas de posición y de tendencia central nos dan valores
representativos de una muestra, los valores de dispersión nos indican como son de
representativas esas medidas.
Si por ejemplo tenemos dos muestras de pesos:
78 y 102 Kg; 88 y 92 Kg. La media de ambas muestras es 90, pero este valor
evidentemente representa más la segunda muestra.

lOMoARcPSD|4446934
Rango
Una medida razonable de la variabilidad podría ser la amplitud o rango, que se obtiene
restando el valor más bajo de un conjunto de observaciones del valor más alto.
Es decir, para datos no agrupados, el Rango viene dado por:
: ; = +<=> − +? #
Propiedades del rango
Es fácil de calcular y sus unidades son las mismas que las de la variable.
No utiliza todas las observaciones (sólo dos de ellas);
Se puede ver muy afectada por alguna observación extrema;
El rango aumenta con el número de observaciones, o bien se queda igual. En

cualquier caso nunca disminuye.
El rango puede ser usado como medida orientativa de la dispersión de una

muestra, pero no tiene gran valor inferencial.
Ejemplo:
Altura (en cm) de 5 alumnos de primero de enfermería:
Datos: 160, 179, 198, 165, 176
% & = 198 – 160 = 38 cm
Varianza
La varianza @ $ , se define como la media de las diferencias cuadráticas de

observaciones con respecto a su media aritmética (+ − ,)$ . Es decir
$
-#. (+ − ,)$
@ =
También podemos expresarlo como:
-#. (+ )$
@$ = − ,$

lOMoARcPSD|4446934
Para el caso de datos agrupados en clases, la varianza vendrá dada por:
-#. (+ − ,)$ -#. (+ )$

@$ = = − ,$
Como hemos dicho antes, si los datos nos vienen agrupados por intervalos, la marca
de clase sustituirá al valor concreto + en la fórmula.
Esta medida es siempre una cantidad positiva, con propiedades interesantes para la
realización de inferencia estadística.
Como sus unidades son las del cuadrado de la variable, para interpretar la dispersión
de la muestra, es más sencillo usar su raíz cuadrada que es la que vemos en la
siguiente sección.
Desviación típica o estándar
La razón principal de usar la Desviación típica en lugar de la varianza es que tiene la

misma magnitud que las observaciones (ej. si las observaciones se miden en metros,
la varianza lo hace en metros cuadrados.
Si queremos que la medida de dispersión sea de la misma dimensionalidad que las

observaciones, bastará con tomar su raíz cuadrada. Por ello se define la desviación
típica σ, como
@ = A@ $
Ejemplo de cálculo de medidas de dispersión
Calcular el rango, varianza y desviación típica de las siguientes cantidades medidas en

metros: 3, 3, 4, 4, 5
Sol: % & = 5 − 3 =2
'
3+3+4+4+5
,= = 3,8 B
5
(9 + 9 + 16 + 16 + 25)
@$ = − (3,8)$ = 0,56 B $
5

lOMoARcPSD|4446934
Notar que como habíamos dicho antes, como la frecuencia absoluta de los valores 3 y
4 es 2, también habríamos podido calcular la media y la varianza de la siguiente
manera:
2∗3+2∗4+5
,= = 3,8 B
5
(2 ∗ 9 + 2 ∗ 16 + 25)
@$ = − (3,8)$ = 0,56 B $
5
) : @ = A0,56 = 0,748 B
Propiedades de la varianza y desviación típica
Ambas son sensibles a la variación de cada una de las observaciones, es

decir, si una observación cambia, cambia con ella la varianza. La razón es que
si miramos su definición, la varianza es función de cada una de las
observaciones.
No es recomendable el uso de ellas, cuando tampoco lo sea el de la media

como medida de tendencia central.
La desviación típica tiene la propiedad de que en el intervalo (, − 2@; , + 2@)

se encuentran, al menos, el 75% de las observaciones. Incluso si tenemos
muchos datos y estos provienen de una distribución normal (se definirá este
concepto más adelante), podremos llegar al 95%.
Llamaremos al intervalo (C − DE; C + DE)
Identifica valores anómalos en la muestra.
Ejemplo:
Si la media de pesos de la clase es 78,6 Kg y la desviación típica es de 3,7 Kg el
intervalo de normalidad será:
(71,2 Kg; 86 Kg)
Coeficiente de variación
Hemos visto que las medidas de centralización y dispersión nos dan información sobre
una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para
comparar dos poblaciones.
La comparación de métodos de medida es un problema que no tiene fácil solución.

Intentaremos aproximarnos a ella mediante el " .

lOMoARcPSD|4446934
Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de
elefantes de dos circos diferentes, σ nos dará información útil.
¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a
su peso?
Tanto la media como la desviación típica, , y @, se expresan en las mismas unidades

que la variable.
Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en
la variable peso, el kilogramo. Comparar una desviación (con respecto a la media)
medida en metros con otra en kilogramos no tiene ningún sentido.
El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de
masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa,
de dos poblaciones, pero con . Este es el caso en que comparamos
el peso en toneladas de una población de 100 elefantes con el correspondiente en
miligramos de una población de 50 hormigas.
El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina
la dimensionalidad de las variables y tiene en cuenta la proporción existente entre
media y desviación típica. Por tanto, definimos el Coeficiente de variación como la
desviación típica medida en unidades de media, o lo que es lo mismo:
@
FG =
,
Propiedades del coeficiente de variación
Es muy útil para comparar métodos de medida. Cuanto menor sea el FG , mayor
será la precisión del método
Sólo se debe calcular para variables con todos los valores positivos.
Es invariante a cambios de escala o unidad de medida.
Es recomendable cuando la dispersión dependa de la media.
También es muy recomendable cuando se quiera comprobar dispersiones de

poblaciones con distintas unidades de medida o medias muy distintas
Ejercicio práctico.
Calcular todas las medidas de dispersión de las alturas de los alumnos de

primero de enfermería.

lOMoARcPSD|4446934
¿Qué datos presentan más dispersión en la clase de primero de enfermería

de Cartagena, el número de hermanos o la altura de los alumnos?
¿Es normal una altura de 180 cm en primero de enfermería en Cartagena?
Ejemplo calculo medidas de dispersión datos agrupados:
Intervalos Frecuencia
[10, 20) 1
[20, 30) 8
[30, 40) 10
Total 19
Calcular la marca de clase:
Marca de
Clase Intervalos Frecuencia
15 [10, 20) 1
25 [20, 30) 8
35 [30, 40) 10
Calcular ∗+ , ∗ (+ )$
+ Intervalos ∗+ ∗ (+ )$
15 [10, 20) 1 15 15
25 [20, 30) 8 200 5000
35 [30, 40) 10 350 12250
Calcular Totales:
+ Intervalos ∗+ ∗ (+ )$
15 [10, 20) 1 15 15
25 [20, 30) 8 200 5000
35 [30, 40) 10 350 12250
Total 19 565 17265
Ahora ya podemos calcular media, varianza y desviación típica:
Media:

lOMoARcPSD|4446934
1
1 H
, = 2 +4 = ∗ JKJ = DL, LM
- 4
4
HI
4=1
Varianza:
4 (+4 ) HLDKJ
-4=1 2
@$ = − ,2 = − (DL, LM)D = HMI, LM
HI
Desviación Típica:
@ = AHMI, LM = HH, ND

lOMoARcPSD|4446934

Descriptiva (I)
!" #
$ %
& "
' !
()
* ) " ! +
# , ! -
/ 0
$ 1
&
&
. '3
4 * ) 1
5 ) ! 666 #
5 ! 666 6 666 #
5 ! 6 666 76 666 #
) ! 76 666 66 666 #
Ejercicios Prácticos 1. Descriptiva (I). Escuela de Enfermería Cartagena. Curso 2012-2013

lOMoARcPSD|4446934

Descriptiva (I)
! 66 666 #
7 /$ 0
4 &
$ 1
Peso [50, 60) [60, 70) [70, 80) [80,90) [90, 100) [100, 110) [110, 120)
ni 8 10 16 14 10 5 2
/ ) 0
/8 9 - :6 ;6 < 0
&
=6 < /8 9 - 0
/8 9 0
>
7 , )
!?5 .6 6 .6
) 1
20 22
18 22
22 21
26 22
28 24
25 25
22 24
19 21
16 27
18 24
24 25
21 19
20 22
22 25
23 30
&
?5

lOMoARcPSD|4446934

Descriptiva (I)
Nº caries
1 4 0,08
2 4
3 16 0,16
4 7 0,14
5 5 28
6 38
7 7 45
8

lOMoARcPSD|4446934

Descriptiva (II)
Hidratos de
carbono Nº individuos
(gr/día)
100-200 10
200-300 60
300-400 18
400-500 12
! " #
$ "
% & & '()
$
# *
+
, - . . . + # $ "
(
/ 0 ( 1 23+4 # 5 243
PRN (en kg.) Casos NPA Casos

Menos de 2,5 10 0 18
2,5 a 3,0 25 1 25
3,0 a 3,5 48 2 46
3,5 a 4,0 35 3 40
4,0 a 4,5 26 4 21
4,5 o más 6
67 1 ,') ( 1 8
67 1 ) ( 1 8
6 * 5 *
86 8
Ejercicios Prácticos 2. Descriptiva (II). Nutrición Humana y Dietética. Curso 2012-2013

lOMoARcPSD|4446934

Descriptiva (II)
6% ,9 : 1
8
6$ # * (
1 ; 8
67 1 *
8
67 1 # # (
1 8
< 2 = "
/
280 140 200 380 220 50 150 370 425 140 120 280 360 300 240
150 80 310 210 215 360 250 440 320 290 410 190 360 240 300
& )
!
Ejercicios Prácticos 2. Descriptiva (II). Nutrición Humana y Dietética. Curso 2012-2013

Bioestadistica Apuntes Temas 1 10 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioestadistica Apuntes Temas 1 10 PDF

Cargado por

Copyright:

Formatos disponibles

lOMoARcPSD|4446934

Bioestadística - Apuntes, temas 1 - 10

Bioestadística (Universidad de Murcia)

StuDocu no está patrocinado ni avalado por ningún colegio o universidad.

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

Clasificación de sucesos aleatorios

Operaciones con sucesos

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

" ! ∩ = ∅" '

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

"ú$%&' (% )*+'+ ,*-'&*./%+ (%

# " % ! *" '

"ú$%&' (% )*+'+ ,*-'&*./%+ (% 1

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

( ∪ ) = ( ) + ( ) − ( ∩ ) = 0,5 + 0,2 – 0,05 = 0,65

Ejercicio para practicar:

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

"ú$%&' (% )*+'+ ,*-'&*./%+ {4} 1

"ú$%&' (% )*+'+ ,*-'&*./%+ {4} 1

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

Algunas propiedades de la probabilidad condicionada

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

Teorema de la probabilidad total y Teorema de Bayes

Teorema de las probabilidades totales

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

( ) = ( / B) ( B) + ( / G) ( G) = 0,75 ∗ 0,92 + 0,25 ∗ 0,90 = 0,915

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

Diabetes No Diabetes Total

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

Diabetes No Diabetes Total

Diabetes No Diabetes Total

Diabetes No Diabetes Total

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

Diabetes No Diabetes Total

200 Paciente Tiene

Diabetes No Diabetes Total

T(c/d) T(d) f,G∗f,g

Ejercicio para practicar en casa

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

03. Probabilidad y Test Diagnóstico. Escuela de Enfermería Cartagena. Curso 2012-2013

Descargado por Tadeo Hurtado (terrytadeo@hotmail.com)

"ú$%&' (% )+'+ ,-'&*./%+ (%

"ú$%&' (% )+'+ ,-'&*./%+ (% 1

"ú$%&' (% )+'+ ,-'&*./%+ {4} 1

"ú$%&' (% )+'+ ,-'&*./%+ {4} 1