Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Curso 2012-
Pedro Faraldo, Beatriz Pateiro
2013
1. Introducción 1
2. Conceptos generales 2
3. Distribuciones de frecuencias 3
4. Representaciones gráficas 4
6. Recta de regresión 12
1 V e c t r de m ed i a s . C o va r ia n z a y co rr el ac ió n............................................... 2
6. 2. M é t od o de M í n i m o s C u a d ra d o s . . . . . 14
6.3. Coeficiente de regresión. Coeficiente de determinación.....................................................................15
1 I n tr o d u c c i ó n
C o n o b je t o d e h a ce r u n es tu d i o so b r e la s a lu d d e l o s
18 y 60 años, s e re c o g e n e n u n c e n tro m é d i co d a t os so b r e a n áli s i s
h a b i t a n te d e u n a c iu d a d c on e d a d e s e nt r e a ño s y
r ea l i z a d os a 1 0 0 p a ci e n te s ma y o r e s d e 1 8 re c o ge
m e n o r es d e 6 0 q u e a p ar e n t e m e nt e n o p r e se n t a n p ro b le m a s
e l s e x o de l p a ci en t e, e l a n t í g en o d e l gr u p o s a n g u ín e o (A , B
d e sa lu d g r av e s. D e lo a n á lis is r e a l a d o s s e
, A B o 0 ), e l p H d e la sa n g re y e l á c id o ú r ic o , ad e m á s d e la e d ad . L a
A , 1 0 % p a ra e l B y 3
d is t r ib u ci ón de los antígenos en la población Española es de 45 % para el 0, 42 % para el A d e m á s , los
% p a r a e l A B. m g /d L .
valores normales del pH en sangre están entre 7.35 y 7.45 y los del ácido úrico están entre 2.4 y 7
1
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
2 C o n c e p t o s g e n e r a le s
Población
: colectivo de individuos sobre los que se quiere extraer alguna conclusión.
E n e l E j em p l o 1 , la po b l a c i ó n es t á f orm a d a p o r
Cad a un o d e e l o s e s un i n d i v i d uo d e l a po b l ac ió n
lo s ha b i tan t e s d e la c i u d ad qu e tie n en e n t r e 1 8 y 6 0 ñ o s .
. L os 1 0 0 p a c ie n tes s o b r e los q ue s e re c o g e l a in fo r mac i ó n
forman la muestra.
L a s té c n ic aestadística
s d e descriptiva pe rm i te n d e s c ri b i r y a na li za u n g ru p o d a do
si o ne s ( in f e re n cias) sobre la población a la q u e p e rt e n e c e n . S e te n drá q u e re c ur r ir a
d e d a to s , si n e x t ra e r c o n c l -
la i n fe r e n c ia e s t a d ís ti c a , q ue
numérica o gráfica, será necesario analizar previamente el tipo de variable con la que se está trabajando.
e s la p ar t e d e l a E st a d í st ic a q u e tr a t a l a s c on d i c io n e s b a j o l a s c
m ue str a s o n v ál i da s, p a r a e x tra e r co n c l us i o ne s s o b r e l a p o b l ac i ó n
u al e s l a s in f e r en c ia s e xt r a íd a s a p a rt ir d e u n a
d e i n te r é s. P a r a a p li ca r u n a t é cn ic a d e sc ri pt iv a ,
Variable estadística : c a da una de las características consideradas con el propósito de describir a cada
individuo de la mues tr a .
:
Tipos de variables
que no se pueden
d is t i n g u ir em o s d o s t ipo s de va r a b les . L a s v a r ia ble s cu i t a ti v a
e x p r e s a r a t ra v é s d e u na ca n tid a d n u m é r ic a ) y la s var i a b l e s
s o c a e g ó r i c as (a q u el l a s
c ua n ti t a ti v a s (s e p u e d e x p r es a r a t ra v é s d e u n n úm e ro ) .
e l t ip o d e v a lo r e s q u e to m en . E n
Cualitativa No m Se xo , ra z a, c o l o r
O r d i G ra d o d e co n t a m
in a l d e o j o s ,. .
Cuantitativa n a l
i n ac i ó n , c alificación,.
N o d e h e r m a n os, no de
D is c P materias, ... eso
, a lt u r a , ...
rC et
o an t
in u a
3 D is t r ib u c i o n e s d e f re cu e n c i a s
Tablas de frecuencias
: la s t a b la s d e fr e c ue n c ia s s e u t il i za n p a r a representar la información
una muestra de tamañ o n e x t ra íd a d e u n a p o b la ci ó n, ( x 1 , . . . , x ).
n
contenida en
Modalidades
: ca d a u n o de l o s v a l ores que puede tomar una variable (cualitativa o cuantitativa
Se denotan
discreta). El cnúmero
om o de
: cindividuos
, i = de 1 , la. muestra
. . , k .en cada modalidad ci se denota por ni.
i
Frecuencia absoluta: para cada modalidad ci, la frecuencia absoluta es ni, i = 1, . . . , k .
.. .. .. .. ..
.. ..
ci ni fi Ni Fi
Nk = n Fk = 1
.. .. ..
Total
c nn 1f
k k k
Para un grupo de 21 pacientes de la muestra, se tienen los siguientes datos sobre el antígeno.
1 2 4
A
P a ci B 10 3 B5 5 6 7 8 9 1 0 1
1
e Gnteru p A 30 A A
1 0 0 B A B 0 1B
2 1 4 1 6 1 7 1 8 1 9 2 0 2
o
Pa ci 0 B B 0 0 0 A1 B
eG nteru p
o
P a ra e s to s d a t o s , p od e m os c o n s t ru ir u n a ta bla d e f r e cu e n cia s ,
co m o la s r es p e c t i va s a c um ul a d a s . ¿C u á l es la pro p o r c ió n d e in d
A o B?
c a lc u l an d o f r e c u en cia s a bs o lu t a s y r ela t i va s , a s í
i v id u o s c o n g r u p o A en l a m u e s t ra ? ¿ Y c o n g r u p o
E n el c a so de va ri a b le s c u a lit a ti v s
da lid ad e s de la va r ia b l e. S i n e m b ar go,
c u an t it a t iv as di s c r e t a s co n p o c o s v lo re s , e s p os ibl e d e t e rm in a r l a
e n e l c a s o de v a r i a b l es c ua n t it a tiv as c o n ti n ua s (o c ua n t i ta tiv a s d i s
s mo -
cre t a s
c o n m u c h os v a l or e s ), s e te n d r á n q u e
de manera que se agrupen valores por
in t er va l o s. Es t a s n u e va s m o d a l id ad e s
c on s t ru i r m o da li d a d e s ar t ifi i l
s e d e n o m in a n in t e rv a l os d e cl as e.
Intervalos de clase
: p a ra v ri ab le s c u a nt i ta t i v a s c o n ti n u s , se a g r u pa n lo s
la muestra en interv a lo s . C ad a in t erv a l o r e p r e s e nt a r á u n a m o da li d a d e n e l
continuas.
d i tin t osA partir
v a l oder una
e s muestra,
o b t e nlosi dintervalos
o s e n de clase se construyen de la siguiente forma:
c a so d e va r i a b l e s c u a n t i ta t iv a s
- D en ot a m o s p or e0 < e1 < . . . < ek los extremos de los k intervalos de clase. Cada intervalo
d e l a f eo r,me a (
será
).i−1 i
- Amplitud del intervalo: ai = ei − ei−1.
e +
- Marca de clase: ci = i−1 √
ei .
- Para seleccionar el número2de intervalos, consideramos el entero más próximo a n, donde n es el
t a m a ñ o de la m u e s t ra o b s er v a da . E l n ú m e r o d e
a m p li t ud de lo s i n t e rva l o s ( e n p ri nc i p io , t o do s
Pedro Faraldo, Beatriz Página 4 de
31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
in te rva l o s s ue l e e s t a r e n tr e 5 y 2 0 . Pa ra d e rm i n a r la
d e la m i s m a a m p l it u d ) , te n e mo s q u e ve r a n tes c u á l e s
e l r an g o d e v a ri a c ió n de l o s d at o s ( d iferencia entre el máximo y el mínimo), y
d e m a n er a q u e c u b r an to d o e l r a ng o .
construir los intervalos
4 R e p r e se n t a c i o n e s g r á fi c a s
Variables cualitativas. Pa ra
o el diagrama de secto r e s .
l a r e pr e s e n t a c ió n d e v a r i a bl es c ua l i t a ti v a s se su e len u t i l iz a r el d
P a r a c o n s tr u i r u n d i a g r a m a d e b a r r a s , e n el e je ho r i z o n t al s
ia g ra m a d e ba rr as ca t e g o r ía s o mo d a l id a d e s d e
e r ep r es en t an la s p o r c io n a l a la fr e c u e n ci a d e
l v ar ia b l e q u e s e q ui e r e rep re s e n ta r y s l ev nt n
c ad a m o d a li d a d (a bs o l u t a o re la t iv a ). E n el d iag r am
ba r ra s d e a ltu r a pr o - s e re p re s e n ta n la s d i s ti n t a s
a d e s ec t or es t a mb ié n p rop o rc io n a l a la f re c u e n c i a
m o d a l ida d e s y su f re c n c ia , d e m a n e ra q u e
d e c a d a m o d al ida d. A lg un o s e je m pl o s d e es t a s
e l c ír c u l o s e r e pa r t e d e f o rm a
r e pr e s e n t ac i on e s p a r a d at o s d e
Figura 1: Diagrama de barras y diagrama de sectores para datos de pertenencia a redes sociales.
c on la s fr e cu e nc i s a bs ol u ta s a c u la d a s , e l m á xi m o s e r á e l n ú m e r o d e
e l dia g ra m a d e b ar ra s y e l d ia g r ama a c u m u l at iv o d e fr e c u e n ci a s p a r a la
Figura 2: Diagrama de barras y diagrama acumulativo de frecuencias para el número de hijos de una familia.
co n t in u s , po d em o s c o s t ru ir e l
a c u m u lat i vo d e fr e cu e nc i a s ex -
diagrama de tallo y hojas.
pl ic a do pa ra v a ri a b l e s c
e e n la re pre s e n t a c ió n .
i
u a n tit a ti v d is c re ta s, pe r o c o n si d e r a nd o l a m c a s d e cl a se de
S i n e m b argo , s o n m ás u s ua l e s o t r a s re pr e sen tac i o ne s co m o el
E lh i
c a d a i nt er val o ba r ra s
hi s to g ra m a y e l
o g r m a e qu iv a l e e n c ie rto m o d o a l d ia g ra m a d b a r ra s , pe r o
a p ar e ce n co n t i gu a s. E n el e j e h o ri zo n ta l s e rep re s e n t an l o s
en c a so c o nt i n u o , f o rm q u e l a s
i nterv a lo s d e c l a s e de l a vari a b le , y
50 60 70 80
Figura 3: Histograma y diagrama de tallo y hojas para datos de peso de personas adultas.
E l di a g r a m a d e t a o y h o ja s e s u na r ep re n t a ci ó n q u e p e r m i te
l a d i s t ri b u c ió n d e lo s m is m o s. P r im er o se sel e c c i o n a n e l n ú m er o
o b s erv l o s d a t o s y q u e a la v e z d a u n a i d ea d e
d e c i f ras s i gn i fi c a ti va s ( ta lo ) qu e se c o l oc a n a la i z qu i er d a , s e
S e pu e d e v e r
t ra za u n a lín e a ve r t i c a l y s e in c l u ye n a l l ad o l a s c if ra s i g ui e nt e s
u n eje m p lo d e re p r e s e n t ac ió n p a r a e l p eso d e 3 0 0 p e rso n a s e n l a
o
d e c a da d a to ob s e rv a do (h o ja s) . t a l l o y h o j s 90 en el sentido contrario a las agujas
F i gu r a 3. S i se g ir a e l dia g ra m a d e l h i s t o g r a m a.
del reloj, se puede observar una forma muy similar a la
P a r a r e p r e se n t a r la s
cuan t it a ti v a s . E l se xo y
o b s er v a c io ne s d e la s v a r ia b l e s de l e j em pl o d e b e m o s t n e r e n cu
e l a n tí g e n o d el g ru p o s a n g u í n eo p u e d en r ep r e s e nt a rs e u t il iz an
e n ta s i s o n cu al it at iv a s o o u n d iag r a m d e se c t o re
d o u n d ia g r am a d e b a rr a s de t al lo y h o jas . La e d a d ,
s . P a r a e l p H e n sa n g r e y el á c i d o ú r ic o se p u e de u t il i za r u n h is t o g r
c u a n t ita t iv a di s cre ta , p u e de re p r e s en t a r se co n u n di a g r a m a d e b a r r as
5 M e d id a s c a r a c t e rí s t i c a s : p o s i c i ó n , d i sp e
Denot and o p or X la v a ri a b le e s t a d ís ti ca d e i n t e ré s y po r x i
r s ió n , f o r m a
l a ob s er v a ci ón en el individuo i, se introducirán e es t e a p a rt a d o a l g u na s d e la s pr in
una m u e st r a x 1 , . . ., x d e t am a ño n .
n
c ip a le s m e d id a s
D i ch a s m e di d a s
c a ra c t e r í st ic a s pa r a d es cr i bi r l a in fo r m ac i ó n c o n t e ni da
s e u t i li z a n p a ra r e su m ir l a i n fo rm a ci ó n a t e nd i e n d o a tres
as p e c t os p r n c ip al e s : a lr ed e d o r d e q u é v a l o r s se e n c ue n t ra n l os
m a n e r a si m il a r a u n a ca m p a n a d e G a u s s , q u e se rá e l m o d e lo q u e
d at o s , cu á n to s d i sp e r s a n y s i s e d is tr ib u y e n d e
se t o m e c o m o refe r e n ci a . P o r e l o , s e d is ti n g u irá n
5 .1 M e d id a s d e p os ic i ó n
Media aritmética
. Se define como:
x1 + . . . + xn
x¯ = = xi
.
Pn i=1
n n
L m e a r it m é t i c a ( media muestral) presenta las siguientes propiedades, que son fáciles de
part ir de la d e fi n i c i ón .
deducir a
E l v a lo d e l m e d ia no ti e n e p or q u é p rt e n e c e r a l
pu e d e re s ult ar q u e el nú m e r o m e d io d e h e r ma no s
c on ju n to d p o si b le v al o re s d e l a v a r i a b l e. Por ejemplo,
d e u n a m ues tr a n o se a u n n ú m e r o e n t e r o .
U n o d e lo s p r bl em a s q u e p r e s e n ta la m e di a e s qu e no
i n fl ue n cia d a p or d at o s a n or m a l m e n te al to s o b a jo s . Lo s
e s u na m e i d a r ob u st a , e s de c i r , s u v a l or s e ve
d a to s qu e di fi e re n n u m é r ic am e n t e d e l a s d e má s
donde ci es la marca de clase y k denota el número de intervalos de clase de los que se dispone. Las
propiedades anteriormente descritas también se aplican a este caso.
Mediana. S i su p o n e m o q u e lo s d tos d e l a m ue s t ra e s tá n o rd
el valor h a s ta e l c u a l se e n cu e nt ran el 5 0 % de l o s ca s o s. P o r
e n a d o s de m e n o r a m or, la m e a n a e o b se r va c io n e s po r d eb o
t a n to , la m ed i a n a d ejará la m it ad d e la s i m p a r d e d a t os (n im par ),
se tomará como mediana la media de los dos datos centrales.
d e su v a l o r y l a o t ra m ita d p o r e nc im a . A s í, si l a
la m ed i a n a se r á e l da to c en tr a l. S i el t a m a ño d e
m u es t ra c on st a d e u n n ú m e ro
l a m u e str a n e s p ar , en t o nc e s
E n e l c a s o de t e ne r la v a r ia b l e r e p re s en t a d a e n u n a t l a
m ed ia n o , q ue se r á a qu el c u y a f r ec u e n ci a r e l a tiv a ac u m u lad a
el extremo superior mayor que 1/2.
d e f re c u e nesto
sustancialmente, ci asserá
, p indicativo
o d e m odes ladpresencia
e fi n ir de
e ldatos
in t atípicos.
er va l o L a m e d i a ,
e n e l e x tr e m o i nf e ri o r e s m e n o r qu e 1 / 2 y e n pr es e n c ia d e
a d i fe re n c ia d e la m ed i a, e s u n a me did a r o b u sta y a q u e
da t o s a tí p ico s . S i de u n a m u e s tra se o bti e n e n la m e d ia
su va lo r s e ve p o c o a fe c t a do p o r l a
y la m e di a na y s u s v a lo r e s di fi e re n
Moda. P a r a v a ria b l es d i s c r et a o c u a l i ta t iv a s ,
que la m o d a n o t ie n e p o r q u é se r ú n i c a . P a r a
lcon
a m o d frecuencia.
mayor a es e l v La
a lmoda
o r osevadenotará
l re s qpor
u eMo.
m ás s r e p ite n . E s to im p l ic a
v ar ia b l es cu a n t it a t iv as c on ti n u a s, el in ter v a lo m o d a l es a q u e l
S i l o s d a to s se encuentran agrupados, se puede obtener el intervalo modal como aquel que tiene una
f r e c u e n c ia .
mayor
Cuartiles. Los cuartiles Q1, Q2 y Q3 dividen la muestra en cuatro partes iguales, de manera que por
de Q tenemos el 25 % de los datos, entre Q y Q se encuentra otro 25 % y por encima de Q
2 5% . La i d e a d e d i vid ir la m u e st ra e n rt se
otro1 1 2 3
debajo ( d 1 , . .. , d 9 , d iv id e n la m ue s tr a e l 1 0 par t es iguales) y
100 partes iguales).
p u ed g e r a liz a r a la c on s tr u c c ió n d e l o s d e c ile s
l o s per cent i le s ( p 1, . 1) observaciones
. . , ppor99encima).
, d i v idEl ecuantil
n la m u e s tr a e l
d eja p o r d e b a jo ( a lo sumo) np
s e de n o ta r á p o r q .
p
L a m e d i d as d e s ic ió n o l o c a liz a ci ó n
d esc rip c i ó n m á s pre c is a d e l o s m is m o s ,
in d ic a n e n to rn o a q u é v a l o re s s e s it ú a n lo s d a to s , p e r o p
e s n e c es a rio c o no ce r c u á l e s l a d is p e r si ón q u e p r e se n t a n .
a r a o b te n e r un a d is p e r s i ó n a bs o l u t
L a s m e d id a s d e l a v a r i a n z a m u e s t ral
de p e n d e n d e las u n i da d e s e n l a s q u e s m id e n la s o b s e r va c i o n e s ,
y l a d e s v ia c ión típ i c a m u e st r al , q u e n o es m á s qu e l a r a í z c u a d r a d
si e nd o l a s m á s c on o c i d s
a d e l a v a ri an z a m u e s t ral .
L a v a ri an za e s tá m e di d a e n la s u n id a d e s d e lo s d a t o s a l
d ire c ta m en te c o n la s m e di d as d e p o s ic ió n , p or e je m p l o , co
cu d ra d o , po r l o q u e n o s e pu e d e c om pa r r
unidades de los datos, se considera la desviació n
ntípiclaa:m e d i a. P ar a o b t en e r u na m e d id a en l as
v
n
u 1
s = + t (xi − x¯)2.
n
i=1
x , . . . , xn x
Dada una muestra 1 , si consideramos la media ¯ como medida de posición de te ndencia central, se podría
Una
pensarforma de contabilizar
en medir la dispersióntodas estasdediferencias
a través sería de
las diferencias a través de laasuma:
los valores la m e d ii=1a(x: i (x
−i −x),
x). Sinpara
embargo,
todo i =en
1, este
..
. , n. P ¯
n ¯
ca so es p re v is ib l e q ue mu e s tr a P s n g r a nd e s n o s d en va l e s a lt o s d e
emanera
s ta s u mla dispersión
a d e d i fe mediría
r en c ia s, p or de:s la
1 i n t er v e n c ió n
d e unque ma y o r n úse m e ro dea través d a to . P (xa ri −a x¯).
co rPor
re las
g ipropiedades
r el efe ct ode dla el media
n ú muestral,
m e r o vimos
d e da t o s, s e p o d rí a p a sa r a un p ri=1o m e d i o , d e
n
qu e l a m e d i a d e la s d i fe r e n cia s c o n r es pe c t o a l a m e d ia n u la , a s í
E n e s te pensar
podríamos c a s o en
, medir
la s d ifestas
e r e diferencias
n c ia s p osalitcuadrado:
i va s y n( ¯e 2gx at−iv x)
a s. Dea este
l a med
modoi a ssee obtiene
c om
laq vari
u anza.
e e s ta e xp r es i ó n s ie m p r e re s u lta r á c e r o . i
p e n sa n , po r l o q u e p a r a h a ce rl a s p o si ti v a s
La varianza tiene las siguientes propiedades, fáciles de deducir a partir de la definición.
- T o m a v a l o r e s no negativos, puesto que se trata de un promedio de valores no negativos (diferencias
cu a d ra d o ) .
al
L a fe r e nc ia e n tr e va r i an z a y c u a s i- va ria n z a r a d i c a e n e l e n o mi n a d o r.
d ividie n d o p or e l n úm e r o d e d at o s . E n la c u a si- v a r i a nz a , s e di v id e p o r e l
información,
E n l a v sabiendo
a ria n z laa media.
, s e h a ce u n p r o m e di o ,
n ú me r o d e d a to s d e lo s qu e o b t e ne m o s
n { , x, , }
Co n s id re mo s e l si g u ie n te eje m p l o: s u p on g a m o s q u e t e n e m os una
muestra de tamaño = 4, 2 6 8 cuya
m e d ia es x¯ = 5 0 25 . C o n e sta in fo r m ac i ó n e s fá c il d e d uc i r q u e x
Pedro Faraldo, Beatriz Página 14
de 31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
= 5 .E n g en ra l , si s e
y (n − 1) valores de la muestra, podemos determinar el que falt a. E s ta c o r rec ci ó n e s
c o n ocdee tamaño
queñas e l va moderado.
lor d e l aAl igual
m e que
d ia para la varianza, también se puede definir la cuasi-desviación típica,
iS.m p or t an t e en m u es t ra s p e -
Una medida de dispersión robusta (poco influenciada por la presencia de datos atípicos) es la MEDA que se
calcula como: MEDA = Me{|xi − Me|; i = 1, . . . , n}.
L a s m e d id a s d e d i s p er s ió n ab s ol ut a s d e pe n de n d la s un id ad e s d e
co m p a ra r v a ri a bl e s . U n a d e la s m e d id a s d e d isp ers i ó n r e l a t iv a ( n o
l o s d a t o s, p or l o q u e n o o n a d e cu a s p a ra
d e p e n d e d e la s u n i da d es d e l o s dato s ) m a s usual es el coeficiente de variación:
¯
x
s
CV = .
E l c o e fi ci e n te d e
m ed i d a . T a m bi én
v a ri a ció n p e rm it e n co m p a r a r v a r ia b le s au n q u e e s t a s es t én re gi ra
e s d e u til id a d p a ra c o m p a r a r v a r ia b les q u e , a u n q u e d e la m ism
da s e d i st in t a s un i da d e s d e dis t in t as . P o r e j em p l o , p a r a co m p a r a r
a m ag nit u d , e s tá n e n e s c al a s y d e l a c o lu m n a ve r t e b r a l (e n c e n t ím
la s l o n g i t u d e s d e l d iá m e t r o d el t ím p a n o ( n o r m a lm e e ,
e tr o s ) , p o d r í a m o s t ra n sf o r m a r to d a s l a s o b s e rv a ci one s
e n t re 8 y 1 0 m i l ím et r o s ) s e g u r a m e n t e la d i s p e r si ó ´ (m e d id a en
a l a m is m a e s c a la p e r o t í m p a n o s e r ía pr á c t ic a m e nt e n u la .
desviación típica) que encontraríamos en las longitudes del diámetro del
Coeficiente de asimetría
. E l c o e fi cie n te d e si m e t r í a d e F i s h e r
datos es simétrica con r e sp e c t o a l a m ed ia. V a l o r e s p o si t iv o s
t o ma v alo r 0 c u a n do l a d is tr ib u ció n d e lo s
d e es te c oe fic i e n te in d ic a rá n l a p res e nc ia
d e a s i m e t ría p o si tiv a (m á s da t o s c o n
in di c a t iv o s de u n a a sim e tr ía n e g at i va
v a lo re s s u p e ri or e s a l a m d i a ) , m ie n tr as q u e
( m á s d at o s c o n v a lo re s in fer i o r e s a l a m ed ia ) .
va lo r e s n eg a t iv s son
S e c a l cu la c o m o:
P ar a c u a n t ifi c a r la a si me tr ía d e u n os d a to s , p o d em o s u ti liz a r l o s
c u a rt i l es . Si la di s tr ib u c ió n e s s i m é tri c a , l a m is m a (e s d e cir, Q3 −
l a d is ta n c i a e n t re Q 3 y Q 2 (q u e c on tie n e u n 2 5 % d e l a m u e st r a )
y e n t r e Q 2 y Q1 ( o tr o 2 5 % ), d e b e r ía s e r P or o t ro la d o, s i
Q3 si−QQ3 2−<QQ2 2>−QQ21−
Q2 = Q2 − Q1). Así, , tendríamos indicios
Q1, es indicativo dede asimetría
asimetría negativa. Para que el resultado no
positiva.
d ep e n d a d e la d i me n si ó n d e l o s d a tos, podemos utilizar el siguiente índice de asimetría que
e n [ − 1 , 1 ], ba sa d o e n l o s cu a r ti le s :
toma valores
Q3 − Q2) − (Q2 − 1)
γQ = Q
. (Q − Q ) + (Q − Q )
3 2 2 1
5 .2 R e p r e s e n ta c ió n d e m e d i d as : el d i a g r a m a de c a j a
- E l p rim e r y e l te r ce r cuarti l, Q1 y Q3, que delimitan la caja central (véase Figura 4). La longitud de
vi en e da d a p o r e l R IC
, que es una medida de dispersión absoluta. la caja
- L s límites inferior y superior (en la Figura 4, son los segmentos horizontales superior e inferior) se calculan
como:
LI = ma´x{m´ın{xi }, Q1 − 1.5(Q3 −
Q1)}, LS = m´ın{ma´x{xi }, Q3 + 1.5(Q3
− Q1)}.
En el cálculo de los límites inferior y superior se utiliza el RIC = Q3 − Q1.
- La mediana (Q2) se representa con una línea horizontal en la caja central.
El diagrama de caja se utiliza para determinar los v lores atípicos de la mue ra, que son datos que difieren
numéricamente de los demás. Formalmente, los datos atípicos son aquellos datos que quedan fuera del intervalo
(LI, LS). Si en lugar de considerar los límites inferior y superior construimos el intervalo (LIe, LSe) donde LIe =
Q1 − 3RIC y LSe = Q3 + 3RIC , los datos que caen fuera de este intervalo se denominan extremos.
p q u e t e s e s t a d í s ti c os hacen la distinción entre atípicos y extremos, representándolos de distintas formas
Algunos
s al id a s g r á fi c a s .
Pedro Faraldo, Beatriz Página 18 de
31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
en las
E n la F i g ur a 4 s e p u e d e o b se r v a r la p re se n ci a d e d a t a t í p ic o s
u n p rob l e m a d el d ia g r a m a d e c a j a e s q u e n o p er m it e n obs e r v a r l a
a l t o , r e p re s en ta d o s c o n p u n t os. Sin embargo,
p r e se n c i a d e m u lt im o d a li d a d .
muestra x1, . . . , xn con media x y varianza s2, los datos tipificados se construyen como:
xi − x¯
zi =
s
de manera que la muestra resultante z , . . . , zn tendrá media 0 y varianza 1. La tipificación de datos
permite
comparar
1 distintos grupos, así como la posición relativa de las observaciones dentro de cada uno.
5 .4 D e s i g u a l da d d e T c h e b y c h ev
E n x , . . tra
u n a mues . , xn1 x con medias2 y varianza x − ks, x , en
ks el intervalo ( +
2
10 0( 1 1 0 0 % d e l o s d a to s . S i t om a m o s = 2 , ten d r e mo s a l
k = 3, tendremos e n e l in te r v al o a l m e nos el 8 8 ’ 89 % de l os d a to s y a sí
6 R e cta d e r e g r e si ó n
P ar a re p r e se nta r la d isp e r s ió n po d e m o s c on si d er a r l o s v a lo re s d e l a s
2 2
es d ec ir , s y s , pe ro q u e d a ría s i n r e su m ir l a v a ri a b il d a d c on j un t a
x y
covarianza. La covarianza entre dos variables X e Y , que es una medida que indica la variabilidad conjunta de
X e Y . Se calcula n n
1 1
como:
Sxy = (xi − x)(yi − y) = xiyi − xy.
n =1 n =1
A partir de las varianzas y la covarianza se
i obtiene la matriz de varianzas-covarianzas
i :
{
sx2 )
S = Sxy
Sxy sy2
Covarianza y correlación
E l s ig n o d e l a covarianza proporciona información sobre el tipo de relación que puede existir entre las
D e e st e m o d o :
v e r d o s e j e m p l o s d e re la ci o n e e n tr e v a r i a b le s. La c o va r i nz a d
e l o s d at os de la i z q u i erd a e s pos it iva , m ie n tr a s c u a n d o va lores altos de X se
q u e l a c o v a ri a n z a d e lo s d a t os d e l a d e r e c h a es ne g a ti v a. A sí ,
di r e mo s q ue la re l a c ió n e ntr e X e Y e s d i re c ta a lt o s d e X
corresponden se
concorresponden
va lo r es acon
l tvalores
o s d bajos
e Y .deLa relación se dice que es inversa si valores
Y , o vi c e v e rs a .
L c o v a r ia n z a e s t á a f e c t a p o r la s un d a d es d e m e d i d a d e l a s
cara c t e r ís ti c a p a r a e x p l ic ar la r e la ci ón lin e a l en t re v a ri a b le s q u e
v a ri b l es , p o r l o q u e d e fi n ir e m o s u n a m e d i d a
s e a ad i m e n s io n a l: e l co e fi c ie n t e d e c o rre l a c i ón
El coeficiente de correlación lineal no tiene dimensiones y toma valores en [−1,1]. Valores cercanos a 1 nos
in d i c a r ía n u n a r e la ó l in e al d i c ta , m ie n tras q u e va lo r e s c e rc a s a - 1
pd ar rá cía tn icua n, a sir ee lla cco i eónficilin ent
e ale i dn ev ec rsor are. laE nc ióla n r = 0, e s to in d i c a q u e no e xis t e
y = a + bx,
donde a representa la ordenada en el origen o intercepto y b es la pendiente (indica la razón de cambio en Y
cuando
n o Xm varía
in a env una unidad).
a riable Esta oexpresión
explicativa nos dice
independiente, que, que
mientras cuando x = 0,Yentonces
la variable y = a.respuesta,
será la variable La variable X se
o variable
de p en d ie nt e .
6. 2 M é t o d o d e M í n im o s C u a d r a d o s
n
E n la p rá ct i ca , a p art ir d e lo s da to s { ( x i , y i )} podremos calcular los valores de a y b. El
ei = yi − yˆ i = yi − a − bxi, i = 1, . . . , n.
En la F ig u r a 6 , lo s s e gm e n tos ve r ti c les son los residuos, que representan la diferencia
y el va lo r q u e d a rí a l a re c ta aju s ta d a.
entre el valor observado
E Método
l de Mínimos Cuadrados c o n s i ste en minimizar la suma de los cuadrados de los residuos, por lo que se
bu scan los valores a y b que minim i z a n :
n n
2
(y − a − bx )2.
e =
i i i
i=1 i=1
n
n de y y x denotan las medias muestrales de y21, . .1. , yn y x1, . .2 . , xn, respectivamente; sx2 es la varianza
muestral s = (x − x)
de X : i
x
n
i=1
y Sxy es la covarianzamuestral entre X e Y. En la Figura 6, representamos la recta ajustada, con a y b obteni-
La recta de regresión de Y sobre X se puede utilizar para predecir valores de Y conocidos los valores de X
,
p e ro n o a l r e v é s. E n s u c o n s tru cc ió n ,
2
s . Ad e m á s , l a s p re d ic ci o n e s co n l a
x
qu e re m o s h ac e r l p r ed i c c ió n s e nc u e n t ra e n t r e el m ín im o y el m á x i m o
S i q u is ié ra m o s h ac e r p r e d ic ci o nes s o b r e e l v a l or d e X d a do u n v a l o r
regresión:
l os v a lo r e s o b se r va d o s p a r a l v a ri le .
Sxy
de Y , t e n d r ía m o s q u e u t il iz a r l a re c ta d 2e x = c + dy, con d = ,
s
c = x − dy.
S e d e n ocoeficiente
m i n a de regresión a la pendiente (parámetro b) de la recta de regresión de Y sobre X . Este
c o efi c i e n te p roporciona información sobre el comportamiento de la variable respuesta Y en función de la
variable
explicativa X y tiene el mismo signo que la covarianza.
Coeficiente de determinación
2
U n a m ed i d a p a r a de t er m i n a r c ó m o bue n o coeficiente
e l ju stede ddeterminación
e l m o lo (r
e s) que
el
m i d e la p r o po r c i ón d e v a r ia b il i d ad de Y q u e exp li ca X a tr a vé s de la r ec t a de
regresión.
E l c o efi c ie n te d e d e te rm in c ió n e s e l c ua d r a d o d e l
2
t o m a lineal
r regresión
de v a losimple
re sviene
p ró dado
x im por:
os a 1 , es t o s e rá i n d i ca ti v o
Sx2
2 y
r =
sx2s
2
y