Está en la página 1de 30

Estadística y metodología de la investigación

Curso 2012-
Pedro Faraldo, Beatriz Pateiro
2013

Tema 1. Estadística Descriptiva

1. Introducción 1

2. Conceptos generales 2

3. Distribuciones de frecuencias 3

4. Representaciones gráficas 4

5. Medidas características: posición, dispersión, forma 6


5.1. Medidas d posición . . . . . . . . . . . . . . . .

5.1.1 . Medidas de posición


posición de
de tendencia
tendencia central.............................................................................7
no central
2
5.1.3 . Medidas ded dispersión
i s pe rsiabsolutas...........................................................................................8
ón re la tiv a..................................................................................
4
5.1.5. Medidas de f o r m a . . . . . . 10
2 Representación de medidas: el diagrama de caja
5.3. Tipificación de datos........................................................................................................................11
5.4. Desigualdad de Tchebychev............................................................................................................12

6. Recta de regresión 12
1 V e c t r de m ed i a s . C o va r ia n z a y co rr el ac ió n............................................... 2
6. 2. M é t od o de M í n i m o s C u a d ra d o s . . . . . 14
6.3. Coeficiente de regresión. Coeficiente de determinación.....................................................................15

1 I n tr o d u c c i ó n

L a est a d í st ic a d e sc r ip tiva es un conjunto de técnicas numéricas y gráficas para describir y analizar


d a t os , n e xt r a e r c o n c l u s o n es (i n f e r e n c ia s )
un grupo de al g u n as té cn i c a s d e s c r i p tiv a s bá s i c a s , c o m o
s ob r e la p o b l a ci ó n a la q u e p e rt e n e c e n . E n te t e m a se i nt r o d u c ir án
la c o ns tru c c i ó n d e t ab la s d e f re c u e n c ia s , l a ela bo r a c ión d e g r á fi c a s y
la s p r i n c ipales medidas descriptivas de centralización, dispersión y forma que permitirán realizar la
d Ejemplo
e d a t1:o s .
descripción

C o n o b je t o d e h a ce r u n es tu d i o so b r e la s a lu d d e l o s
18 y 60 años, s e re c o g e n e n u n c e n tro m é d i co d a t os so b r e a n áli s i s
h a b i t a n te d e u n a c iu d a d c on e d a d e s e nt r e a ño s y
r ea l i z a d os a 1 0 0 p a ci e n te s ma y o r e s d e 1 8 re c o ge
m e n o r es d e 6 0 q u e a p ar e n t e m e nt e n o p r e se n t a n p ro b le m a s
e l s e x o de l p a ci en t e, e l a n t í g en o d e l gr u p o s a n g u ín e o (A , B
d e sa lu d g r av e s. D e lo a n á lis is r e a l a d o s s e
, A B o 0 ), e l p H d e la sa n g re y e l á c id o ú r ic o , ad e m á s d e la e d ad . L a
A , 1 0 % p a ra e l B y 3
d is t r ib u ci ón de los antígenos en la población Española es de 45 % para el 0, 42 % para el A d e m á s , los
% p a r a e l A B. m g /d L .
valores normales del pH en sangre están entre 7.35 y 7.45 y los del ácido úrico están entre 2.4 y 7

1
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

2 C o n c e p t o s g e n e r a le s

E n c u a l q u i e r a n á l i s is e s t a d í s t i c o e l objetivo último es extraer conclusiones sobre un


colectivo de interés denominado
p o b l a ci ó n . E n oc a si o n es , e l m a ñ o de la p o b la c ió n ( fo rm a d a p o r in d
in d i v id u a l iz a do d e l a s c ar a cte rís t ic as de c a d a u n o d e e llo s . S i s e q
i v i d u o s) p u e d e h a c i n a b o rd a b le e l e s tu d io
u i s i e r a re a li z a r u n est u d i o s o b re e l n iv e l d e gl u c em ia e n lo s
P a ra so luc i on a r
v a r on e s a d u lt o s e n E sp a ñ a , s e rí a
e s te p r ob l e m a , d ic ha s m e d i ci o n e s
i m p o s ib l e r e ali z a r un a to a d e g lucemia en cada uno de ellos.
s e r e a li z ar a n s o b re u na mu e st ra .

Población
: colectivo de individuos sobre los que se quiere extraer alguna conclusión.

Individuo: cada uno de los elementos de la población (unidad estadística).


: subconjunto (representativo) de la población, que se selecciona con el objetivo de extraer infor-
Muestra
mación.

E n e l E j em p l o 1 , la po b l a c i ó n es t á f orm a d a p o r
Cad a un o d e e l o s e s un i n d i v i d uo d e l a po b l ac ió n
lo s ha b i tan t e s d e la c i u d ad qu e tie n en e n t r e 1 8 y 6 0 ñ o s .
. L os 1 0 0 p a c ie n tes s o b r e los q ue s e re c o g e l a in fo r mac i ó n
forman la muestra.

L a s té c n ic aestadística
s d e descriptiva pe rm i te n d e s c ri b i r y a na li za u n g ru p o d a do
si o ne s ( in f e re n cias) sobre la población a la q u e p e rt e n e c e n . S e te n drá q u e re c ur r ir a
d e d a to s , si n e x t ra e r c o n c l -
la i n fe r e n c ia e s t a d ís ti c a , q ue
numérica o gráfica, será necesario analizar previamente el tipo de variable con la que se está trabajando.
e s la p ar t e d e l a E st a d í st ic a q u e tr a t a l a s c on d i c io n e s b a j o l a s c
m ue str a s o n v ál i da s, p a r a e x tra e r co n c l us i o ne s s o b r e l a p o b l ac i ó n
u al e s l a s in f e r en c ia s e xt r a íd a s a p a rt ir d e u n a
d e i n te r é s. P a r a a p li ca r u n a t é cn ic a d e sc ri pt iv a ,

Variable estadística : c a da una de las características consideradas con el propósito de describir a cada
individuo de la mues tr a .
:
Tipos de variables
que no se pueden
d is t i n g u ir em o s d o s t ipo s de va r a b les . L a s v a r ia ble s cu i t a ti v a
e x p r e s a r a t ra v é s d e u na ca n tid a d n u m é r ic a ) y la s var i a b l e s
s o c a e g ó r i c as (a q u el l a s
c ua n ti t a ti v a s (s e p u e d e x p r es a r a t ra v é s d e u n n úm e ro ) .
e l t ip o d e v a lo r e s q u e to m en . E n

Pedro Faraldo, Beatriz Página 2 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
A su ve z , es ta úl t i m a s p ue d e n c l as i fi c a rs e e n discretas y continuas, según
el Cu a d ro 1 se i n c lu y e n a lg u n o s e j e m p lo s .

Tipo Clases Ejemplo

Cualitativa No m Se xo , ra z a, c o l o r
O r d i G ra d o d e co n t a m
in a l d e o j o s ,. .
Cuantitativa n a l
i n ac i ó n , c alificación,.

N o d e h e r m a n os, no de
D is c P materias, ... eso
, a lt u r a , ...
rC et
o an t
in u a

Cuadro 1: Tipos de variables estadísticas.

Volviendo al Ejemplo 1, el s xo y el antígeno del grupo sanguíneo on variables estadísticas cualitativas


(nominales). El pH en sangre y el ácido úrico son variables cuantitativas continuas y la edad es
cuantitativa
disc d o ue r s rm o s s , si m
r et a . L a e a d c om p d e p e e n ta u c h os va l re ( d e d e
trata m i e n to p od r ía n utili zars e t éc ni ca s prop i a s de l as var i a bl es

1 8 a6 0 se i d e e n años), por lo que para su


c u an ti ta tivas cont i n ua s .

Pedro Faraldo, Beatriz Página 3 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

3 D is t r ib u c i o n e s d e f re cu e n c i a s

Las ta bla s d e fr ec u e nc ia s so n un a de la s té c n ic as básicas para el resumen de


información a partir de una muestra d e to s. S u co n st r u cc i ó n e s s e nc i lla p e r o
pu ede re su lt ar la b o r io s o , au n q u e s e pu e d e n
e n c o n j un t o s d e d a to s d e u n t a m a ñ o m o d e r a d o o grande su cálculo
o bt e n e r u t il iz a nd o c u al q uie r p a q u e te e s ta d í s t ic o.

Tablas de frecuencias
: la s t a b la s d e fr e c ue n c ia s s e u t il i za n p a r a representar la información
una muestra de tamañ o n e x t ra íd a d e u n a p o b la ci ó n, ( x 1 , . . . , x ).
n
contenida en
Modalidades
: ca d a u n o de l o s v a l ores que puede tomar una variable (cualitativa o cuantitativa
Se denotan
discreta). El cnúmero
om o de
: cindividuos
, i = de 1 , la. muestra
. . , k .en cada modalidad ci se denota por ni.
i
Frecuencia absoluta: para cada modalidad ci, la frecuencia absoluta es ni, i = 1, . . . , k .

Frecuencia relativa: para cada modalidad ci, la frecuencia relativa es fi = ni/n, i = 1, . . . , kP .


i
Frecuencia absoluta acumulada: la frecuencia absoluta acumulada de una modalidad ci es Ni = nj =
j =1
n1 + . . . + ni, i = 1, . . .
,k. Pi
Frecuencia relativa acumulada: la frecuencia relativa acumulada de una modalidad ci es Fi = fj =
f1 + . . . + j =1
= nN,i i = 1, . . . ,
fi
k.

A pa r tir d e s u s d e fi n i ci o n e s , s e p u d e n d e m o st r a r alg u s p r o piedades


que s e ca l cu l an e n l a s t a b l a s d e f rec u e nc i a s. A s í , se ti ene q u e :
de las frecuencias absolutas y relativas
- Las frecuencias absolutas: 0 ≤ ni ≤ n, i = 1, . . . , k .

- Las frecuencias relativas: 0 ≤ fi ≤ 1, i = 1, .P. . , k .


k
- Las frecuencias absolutas acumuladas: Nk = nj = n1 + . . . + nk = n.
j =1

- Las frecuencias relativas acumuladas: Fk = P jk=1 fj = f1 + . . . + fk = 1

A continuación se muestra la disposición de los distintos elementos de una tabla de frecuencias.

Modalidad Frecuencia Frecuencia Fr. abs. Fr. rel.


absoluta relativa acumulada acumulada

Pedro Faraldo, Beatriz Página 4 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
c1 n1 f1 N1 F1
c2 n2 f2 N2 F2

.. .. .. .. ..
.. ..
ci ni fi Ni Fi
Nk = n Fk = 1
.. .. ..
Total
c nn 1f
k k k

Cuadro 2: Tabla de frecuencias.

Pedro Faraldo, Beatriz Página 5 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

Para un grupo de 21 pacientes de la muestra, se tienen los siguientes datos sobre el antígeno.

1 2 4
A
P a ci B 10 3 B5 5 6 7 8 9 1 0 1
1
e Gnteru p A 30 A A
1 0 0 B A B 0 1B
2 1 4 1 6 1 7 1 8 1 9 2 0 2
o
Pa ci 0 B B 0 0 0 A1 B
eG nteru p
o

P a ra e s to s d a t o s , p od e m os c o n s t ru ir u n a ta bla d e f r e cu e n cia s ,
co m o la s r es p e c t i va s a c um ul a d a s . ¿C u á l es la pro p o r c ió n d e in d
A o B?

c a lc u l an d o f r e c u en cia s a bs o lu t a s y r ela t i va s , a s í
i v id u o s c o n g r u p o A en l a m u e s t ra ? ¿ Y c o n g r u p o

E n el c a so de va ri a b le s c u a lit a ti v s
da lid ad e s de la va r ia b l e. S i n e m b ar go,

c u an t it a t iv as di s c r e t a s co n p o c o s v lo re s , e s p os ibl e d e t e rm in a r l a
e n e l c a s o de v a r i a b l es c ua n t it a tiv as c o n ti n ua s (o c ua n t i ta tiv a s d i s

s mo -
cre t a s
c o n m u c h os v a l or e s ), s e te n d r á n q u e
de manera que se agrupen valores por
in t er va l o s. Es t a s n u e va s m o d a l id ad e s
c on s t ru i r m o da li d a d e s ar t ifi i l
s e d e n o m in a n in t e rv a l os d e cl as e.

Intervalos de clase
: p a ra v ri ab le s c u a nt i ta t i v a s c o n ti n u s , se a g r u pa n lo s
la muestra en interv a lo s . C ad a in t erv a l o r e p r e s e nt a r á u n a m o da li d a d e n e l
continuas.
d i tin t osA partir
v a l oder una
e s muestra,
o b t e nlosi dintervalos
o s e n de clase se construyen de la siguiente forma:
c a so d e va r i a b l e s c u a n t i ta t iv a s

- D en ot a m o s p or e0 < e1 < . . . < ek los extremos de los k intervalos de clase. Cada intervalo
d e l a f eo r,me a (
será
).i−1 i
- Amplitud del intervalo: ai = ei − ei−1.
e +
- Marca de clase: ci = i−1 √
ei .
- Para seleccionar el número2de intervalos, consideramos el entero más próximo a n, donde n es el
t a m a ñ o de la m u e s t ra o b s er v a da . E l n ú m e r o d e
a m p li t ud de lo s i n t e rva l o s ( e n p ri nc i p io , t o do s
Pedro Faraldo, Beatriz Página 4 de
31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
in te rva l o s s ue l e e s t a r e n tr e 5 y 2 0 . Pa ra d e rm i n a r la
d e la m i s m a a m p l it u d ) , te n e mo s q u e ve r a n tes c u á l e s
e l r an g o d e v a ri a c ió n de l o s d at o s ( d iferencia entre el máximo y el mínimo), y
d e m a n er a q u e c u b r an to d o e l r a ng o .
construir los intervalos

4 R e p r e se n t a c i o n e s g r á fi c a s

L a c l a s i fi c a c i ó n d e v ar ia b l es q ue s e h a e xp u esto en la sección anterior,


cu a n tit a t iv a s ( d i s c r e ta s y c o n ti n u as )
distinguiendo entre variables cualitativas y m o d o e s q u e m á t i c o , s e in tr o d u c e n la
es d e c ru c ia l i m p o r ta n ci a
s pr in c ip a le s t é c n ic a s d e
a la h o ra d e co n st r ui r p r e s en t a c i o n e s g r á fi c a s. D e
r ep re se n ta ci ón p a r a v aria b l e s c u a l i ta t i va s , v a r ia b le s c u a n t i ta
v a l o r es ,
t iv a s d i s cre t a s y c u an t it a t iva s c o n ti n u a s . E n
s e p u e d e h a c er u s o d e l a s re p r e se n t a c io n e s
el c a s o de v a ri a b l e s c u an ti ta t i v a s d is cr e t a s , s i ti e ne n p o c o s
d es c r it as pa r a v a r i a bl e s cu a li t a t i va s (d i a g r a m a s d e b ar r a s y
s e c t o r e s ) . S i p o r e l c o n t rario toman muchos valores, entonces se pueden utilizar las representaciones para
c u a n t i ta t i v a s c o n ti n u a s .
variables

Variables cualitativas. Pa ra
o el diagrama de secto r e s .
l a r e pr e s e n t a c ió n d e v a r i a bl es c ua l i t a ti v a s se su e len u t i l iz a r el d
P a r a c o n s tr u i r u n d i a g r a m a d e b a r r a s , e n el e je ho r i z o n t al s

participación en redes sociales en un grupo de 180 jóvenes se muestran en la Figura 1.

ia g ra m a d e ba rr as ca t e g o r ía s o mo d a l id a d e s d e
e r ep r es en t an la s p o r c io n a l a la fr e c u e n ci a d e
l v ar ia b l e q u e s e q ui e r e rep re s e n ta r y s l ev nt n
c ad a m o d a li d a d (a bs o l u t a o re la t iv a ). E n el d iag r am
ba r ra s d e a ltu r a pr o - s e re p re s e n ta n la s d i s ti n t a s
a d e s ec t or es t a mb ié n p rop o rc io n a l a la f re c u e n c i a
m o d a l ida d e s y su f re c n c ia , d e m a n e ra q u e
d e c a d a m o d al ida d. A lg un o s e je m pl o s d e es t a s
e l c ír c u l o s e r e pa r t e d e f o rm a
r e pr e s e n t ac i on e s p a r a d at o s d e

Pedro Faraldo, Beatriz Página 5 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

Figura 1: Diagrama de barras y diagrama de sectores para datos de pertenencia a redes sociales.

Variables cuantitativas discretas. A de m á s d e l d ia g r a m a d e b a r ra s d e s cr i t o


que también se puede utilizar par a va r ia b le s cu a n t it a tiv a s d is c re ta s , p a r a
p ar a la s va r i a b le s c ua l it a ti v a s ,
la r ep re se n t a c ió n d e es t e t i p o
d e va r ia b le s s e t ie n e e l di a g r am a cu m u l t i vo de fre c ue n c s. El d
co ns tr u y e r ep r es e n ta n d o, p a r a cad a m o d al i d ad de l a v a riab le c ,
i
u nié n d o l o s c o n s e g m en t o
ia g ra m a a c um u la ti v o de f r e cu e n ci a s s e s e u ti li z a n l a s fr e c u en ci a s
lo s p u nt o s (c , N ) (o b i e n ( c , F )) y
i i i i
h o r i z o n ta le s y v e rt ic a
r e l a t i va s a c um u la d a s ,
l e s, d e fo rm a q ue s e o b ti e n e u n a fu n c i ó n e s ca lo n a d a . S i
e l va l or m áx im o de l d ia g r a m a a c um u l a t i vo s e a lc a n z a e n
e l 1 , m i n t ra s q u e s i s c o n s tr u y e
d at o s d e l a m u e s tra . Se m u e s tr a n
variable "número de hijos de una familia" en la Figura 2 .

c on la s fr e cu e nc i s a bs ol u ta s a c u la d a s , e l m á xi m o s e r á e l n ú m e r o d e
e l dia g ra m a d e b ar ra s y e l d ia g r ama a c u m u l at iv o d e fr e c u e n ci a s p a r a la

Figura 2: Diagrama de barras y diagrama acumulativo de frecuencias para el número de hijos de una familia.

Pedro Faraldo, Beatriz Página 6 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
E n e l ca s o de v a r iab l e s cu a n t it a t iv a s
polígono (acumulativo) de frecuenci as , d e ig u al m o d o q u e e l d i a g r a m a
Variables cuantitativas continuas.

co n t in u s , po d em o s c o s t ru ir e l
a c u m u lat i vo d e fr e cu e nc i a s ex -
diagrama de tallo y hojas.
pl ic a do pa ra v a ri a b l e s c
e e n la re pre s e n t a c ió n .
i

u a n tit a ti v d is c re ta s, pe r o c o n si d e r a nd o l a m c a s d e cl a se de
S i n e m b argo , s o n m ás u s ua l e s o t r a s re pr e sen tac i o ne s co m o el

E lh i
c a d a i nt er val o ba r ra s
hi s to g ra m a y e l

o g r m a e qu iv a l e e n c ie rto m o d o a l d ia g ra m a d b a r ra s , pe r o
a p ar e ce n co n t i gu a s. E n el e j e h o ri zo n ta l s e rep re s e n t an l o s

en c a so c o nt i n u o , f o rm q u e l a s
i nterv a lo s d e c l a s e de l a vari a b le , y

Pedro Faraldo, Beatriz Página 7 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

s o b r e e ll o s s e l e va ntan barras de altura hi = ni/ai (o bien hi = fi/ai), donde ni es la frecuencia


es la frecuencia relativa) y a es la amplitud del mismo. Si el histograma se construyei
d e c a cod na ifren cteu re va
n l co ia (s r el a tiv a ,
f i
absoluta d e la d i st r ib u c ió n d e lo s
3,l panel
su mizquierdo).
a d e l as á r ea s d e l a s ba rra s e s ig u a l
d ato s, p er o e s m u y s en s ib l e a la e le cc ió n d e
a 1 . E l h i st r a ma d a u n a i d ea c l a
lo s i nt e rv a los d e cla s e ( v éa s e Fi g u ra
0.05
0.04
0.03
0.02
0.01
0.00

50 60 70 80

Figura 3: Histograma y diagrama de tallo y hojas para datos de peso de personas adultas.

E l di a g r a m a d e t a o y h o ja s e s u na r ep re n t a ci ó n q u e p e r m i te
l a d i s t ri b u c ió n d e lo s m is m o s. P r im er o se sel e c c i o n a n e l n ú m er o
o b s erv l o s d a t o s y q u e a la v e z d a u n a i d ea d e
d e c i f ras s i gn i fi c a ti va s ( ta lo ) qu e se c o l oc a n a la i z qu i er d a , s e
S e pu e d e v e r
t ra za u n a lín e a ve r t i c a l y s e in c l u ye n a l l ad o l a s c if ra s i g ui e nt e s
u n eje m p lo d e re p r e s e n t ac ió n p a r a e l p eso d e 3 0 0 p e rso n a s e n l a
o
d e c a da d a to ob s e rv a do (h o ja s) . t a l l o y h o j s 90 en el sentido contrario a las agujas
F i gu r a 3. S i se g ir a e l dia g ra m a d e l h i s t o g r a m a.
del reloj, se puede observar una forma muy similar a la

P a r a r e p r e se n t a r la s
cuan t it a ti v a s . E l se xo y
o b s er v a c io ne s d e la s v a r ia b l e s de l e j em pl o d e b e m o s t n e r e n cu
e l a n tí g e n o d el g ru p o s a n g u í n eo p u e d en r ep r e s e nt a rs e u t il iz an
e n ta s i s o n cu al it at iv a s o o u n d iag r a m d e se c t o re
d o u n d ia g r am a d e b a rr a s de t al lo y h o jas . La e d a d ,
s . P a r a e l p H e n sa n g r e y el á c i d o ú r ic o se p u e de u t il i za r u n h is t o g r
c u a n t ita t iv a di s cre ta , p u e de re p r e s en t a r se co n u n di a g r a m a d e b a r r as

Pedro Faraldo, Beatriz Página 8 de


tres tipos de medidas: medidas de posición, medidas de dispersión y medidas de forma. 31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
ama o u n dia g r a m a v a lo r e s d i s t n to s . E n ot r o ca s o ,
s i no t o ma m u c h o s re p r e s en t a c io n e s p r op i a s d ev a
s e p u ed e p r o b a r c o n u d i a g ra m a a c u m ul at ivo d e f r ec ue n ci o
r i ab le s c ua n t i ta t iv a s c onti n u a s ( h ist o g r am a o di a gr a m a d e tallo
co n a l g u na de las
y h oj a s ) .

5 M e d id a s c a r a c t e rí s t i c a s : p o s i c i ó n , d i sp e

Denot and o p or X la v a ri a b le e s t a d ís ti ca d e i n t e ré s y po r x i
r s ió n , f o r m a

l a ob s er v a ci ón en el individuo i, se introducirán e es t e a p a rt a d o a l g u na s d e la s pr in
una m u e st r a x 1 , . . ., x d e t am a ño n .
n
c ip a le s m e d id a s
D i ch a s m e di d a s
c a ra c t e r í st ic a s pa r a d es cr i bi r l a in fo r m ac i ó n c o n t e ni da
s e u t i li z a n p a ra r e su m ir l a i n fo rm a ci ó n a t e nd i e n d o a tres
as p e c t os p r n c ip al e s : a lr ed e d o r d e q u é v a l o r s se e n c ue n t ra n l os
m a n e r a si m il a r a u n a ca m p a n a d e G a u s s , q u e se rá e l m o d e lo q u e
d at o s , cu á n to s d i sp e r s a n y s i s e d is tr ib u y e n d e
se t o m e c o m o refe r e n ci a . P o r e l o , s e d is ti n g u irá n

Pedro Faraldo, Beatriz Página 9 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

5 .1 M e d id a s d e p os ic i ó n

L a s m e d id a s d e po s ic i ón o l o c ali zación nos indican el valor o valores alrededor de los cuales se


sitúan los datos ob s e rv a d o s. D is t i n g u ir e m o s m ed i d a s d e l o c a lización de tendencia central
n o c e n tr a l (c ua r t i le s , d e ci l es y p e r c en t il e s ) .
(media, mediana y moda) y de tendencia

5.1.1 Medidas de posición de tendencia central.


Co m o m e d id a s d e po s i c i ó n d e te n d e n c i a c e tr a l s e in tr o d u c ir á n l a
y l a m od a . E s ta s m e d i d a s n o s p ro p o r c i on a n v a lo r es a l re d e d o r d e
en
m la
e dmuestra.
i a a ri tm éti c a o m e d i a m ue s tr a l , l a m e d ia n a
l o s c u a le s se d i st rib u y e n l os d a t o s o bs e rv a d o s

Media aritmética
. Se define como:
x1 + . . . + xn
x¯ = = xi
.
Pn i=1
n n
L m e a r it m é t i c a ( media muestral) presenta las siguientes propiedades, que son fáciles de
part ir de la d e fi n i c i ón .
deducir a

- Toma valores entre el mínimo y el máximo:

m´ın{x1 , . . . , xn} ≤ x¯ ≤ ma´x{x1 , . . . , xn}.

- L a m ed ia a ri tm ét ic a es l i n e a l . S i consideramos los datos yi = axi + b, la media


s e o b t e n d r á c o m o y¯ = a x¯ + b .
de los nuevos datos

- La media de las desviaciones con respecto a la media es cero:


(xi − x¯) = 0.
1 n
=1
i
n
- La media de los cuadrados de las desviaciones con re specto a una constante es mínima para la media:
1
x¯ = arg ma´ın n (xi − a)2.
n
i=1

E l v a lo d e l m e d ia no ti e n e p or q u é p rt e n e c e r a l
pu e d e re s ult ar q u e el nú m e r o m e d io d e h e r ma no s
c on ju n to d p o si b le v al o re s d e l a v a r i a b l e. Por ejemplo,
d e u n a m ues tr a n o se a u n n ú m e r o e n t e r o .
U n o d e lo s p r bl em a s q u e p r e s e n ta la m e di a e s qu e no
i n fl ue n cia d a p or d at o s a n or m a l m e n te al to s o b a jo s . Lo s
e s u na m e i d a r ob u st a , e s de c i r , s u v a l or s e ve
d a to s qu e di fi e re n n u m é r ic am e n t e d e l a s d e má s

superior para los datos bajos.


Pedro Faraldo, Beatriz Página 10
de 31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
o bs e rv a cio n e s se de n om in n v a l o r e s a
l a m e d ia tr u n ca da y m ed ia re c o r t a d a .
t íp ic o s. A l g u n a s m o fi c a cio n e s p a r a
E n l a m e d i a t r un c ada , u n p or c en t a j e
c o rr e g ir l a f al ta d e r ob u s te z s on d el c á lc u lo y p a ra
d e l o s d a to s a típ i co s s e e li m in a e s d e ci r , el d a to
o b t n e r u na m ed i a r e co rt ad a, e s to s v alo r e s a t íp i c os s e
i n m ed i a ta m en te i n fe r io r a lo s qu e s e e l im i n a n , p ar a
s u b s tit u y e n p or el p un t o d e co r t e ,
d a t o s a l to s , y el in m e d ia t am e n t e
O tr a m o d i fic a c i ón e s la m e d i a p o n d ra d a e n la c u a l s e
m e d ia a r it m é ti c a ca d a ob se r v a ci ó n t Pien n e u n a co ntr i b u ci ó n
cada ω = 1.
a s igobservación
n a di s tendrá
t in touna
s pponderación
e so s a ω lai, de
s otal
b modo
s er vque
a c ioi=1
n e is . E n l a
d e p e so 1 / n a l va l o r d e x. E n l a m e d i a p o n d e ra d a ,

Pedro Faraldo, Beatriz Página 11


de 31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

E n e l c a s o d e que se disponga de datos agr P


upados
k en una tabla de frecuencias, la media
x¯ = cifi
aritmética se
ca lc u la c o mo : = c n
i i
,
k
i=1

donde ci es la marca de clase y k denota el número de intervalos de clase de los que se dispone. Las
propiedades anteriormente descritas también se aplican a este caso.

Mediana. S i su p o n e m o q u e lo s d tos d e l a m ue s t ra e s tá n o rd
el valor h a s ta e l c u a l se e n cu e nt ran el 5 0 % de l o s ca s o s. P o r
e n a d o s de m e n o r a m or, la m e a n a e o b se r va c io n e s po r d eb o
t a n to , la m ed i a n a d ejará la m it ad d e la s i m p a r d e d a t os (n im par ),
se tomará como mediana la media de los dos datos centrales.
d e su v a l o r y l a o t ra m ita d p o r e nc im a . A s í, si l a
la m ed i a n a se r á e l da to c en tr a l. S i el t a m a ño d e
m u es t ra c on st a d e u n n ú m e ro
l a m u e str a n e s p ar , en t o nc e s

E n e l c a s o de t e ne r la v a r ia b l e r e p re s en t a d a e n u n a t l a
m ed ia n o , q ue se r á a qu el c u y a f r ec u e n ci a r e l a tiv a ac u m u lad a
el extremo superior mayor que 1/2.

d e f re c u e nesto
sustancialmente, ci asserá
, p indicativo
o d e m odes ladpresencia
e fi n ir de
e ldatos
in t atípicos.
er va l o L a m e d i a ,
e n e l e x tr e m o i nf e ri o r e s m e n o r qu e 1 / 2 y e n pr es e n c ia d e

a d i fe re n c ia d e la m ed i a, e s u n a me did a r o b u sta y a q u e
da t o s a tí p ico s . S i de u n a m u e s tra se o bti e n e n la m e d ia

su va lo r s e ve p o c o a fe c t a do p o r l a
y la m e di a na y s u s v a lo r e s di fi e re n

Moda. P a r a v a ria b l es d i s c r et a o c u a l i ta t iv a s ,
que la m o d a n o t ie n e p o r q u é se r ú n i c a . P a r a
lcon
a m o d frecuencia.
mayor a es e l v La
a lmoda
o r osevadenotará
l re s qpor
u eMo.
m ás s r e p ite n . E s to im p l ic a
v ar ia b l es cu a n t it a t iv as c on ti n u a s, el in ter v a lo m o d a l es a q u e l

S i l o s d a to s se encuentran agrupados, se puede obtener el intervalo modal como aquel que tiene una
f r e c u e n c ia .
mayor

Pedro Faraldo, Beatriz Página 12


de 31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
5.1.2 Medidas de posición de tendencia no central
Como medidas de posición de tendencia no central, introduciremos los cuartiles, deciles y percentiles.

Cuartiles. Los cuartiles Q1, Q2 y Q3 dividen la muestra en cuatro partes iguales, de manera que por
de Q tenemos el 25 % de los datos, entre Q y Q se encuentra otro 25 % y por encima de Q
2 5% . La i d e a d e d i vid ir la m u e st ra e n rt se
otro1 1 2 3
debajo ( d 1 , . .. , d 9 , d iv id e n la m ue s tr a e l 1 0 par t es iguales) y
100 partes iguales).
p u ed g e r a liz a r a la c on s tr u c c ió n d e l o s d e c ile s
l o s per cent i le s ( p 1, . 1) observaciones
. . , ppor99encima).
, d i v idEl ecuantil
n la m u e s tr a e l

E n g e n e r a l, s e d e fin e e l c ua nt il de orden p (0 < p < 1) como el valor qu e


ob se r v a c i on e s (p o r ta n to , n ( p − p

d eja p o r d e b a jo ( a lo sumo) np
s e de n o ta r á p o r q .
p

5.1.3 Medidas de dispersión absolutas

L a m e d i d as d e s ic ió n o l o c a liz a ci ó n
d esc rip c i ó n m á s pre c is a d e l o s m is m o s ,
in d ic a n e n to rn o a q u é v a l o re s s e s it ú a n lo s d a to s , p e r o p
e s n e c es a rio c o no ce r c u á l e s l a d is p e r si ón q u e p r e se n t a n .
a r a o b te n e r un a d is p e r s i ó n a bs o l u t
L a s m e d id a s d e l a v a r i a n z a m u e s t ral
de p e n d e n d e las u n i da d e s e n l a s q u e s m id e n la s o b s e r va c i o n e s ,
y l a d e s v ia c ión típ i c a m u e st r al , q u e n o es m á s qu e l a r a í z c u a d r a d
si e nd o l a s m á s c on o c i d s
a d e l a v a ri an z a m u e s t ral .

Varianza (s2) y desviación típica (s). La varianza, s2, se calcula como:


2 2
2 (x1 − x¯) + . . . + (xn −
x¯)
s = n
1 2
= (xi − ¯x) .
n n =1
i

Pedro Faraldo, Beatriz Página 13


de 31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

L a v a ri an za e s tá m e di d a e n la s u n id a d e s d e lo s d a t o s a l
d ire c ta m en te c o n la s m e di d as d e p o s ic ió n , p or e je m p l o , co
cu d ra d o , po r l o q u e n o s e pu e d e c om pa r r
unidades de los datos, se considera la desviació n
ntípiclaa:m e d i a. P ar a o b t en e r u na m e d id a en l as
v

n
u 1
s = + t (xi − x¯)2.
n
i=1

x , . . . , xn x
Dada una muestra 1 , si consideramos la media ¯ como medida de posición de te ndencia central, se podría
Una
pensarforma de contabilizar
en medir la dispersióntodas estasdediferencias
a través sería de
las diferencias a través de laasuma:
los valores la m e d ii=1a(x: i (x
−i −x),
x). Sinpara
embargo,
todo i =en
1, este
..
. , n. P ¯
n ¯
ca so es p re v is ib l e q ue mu e s tr a P s n g r a nd e s n o s d en va l e s a lt o s d e
emanera
s ta s u mla dispersión
a d e d i fe mediría
r en c ia s, p or de:s la
1 i n t er v e n c ió n
d e unque ma y o r n úse m e ro dea través d a to . P (xa ri −a x¯).
co rPor
re las
g ipropiedades
r el efe ct ode dla el media
n ú muestral,
m e r o vimos
d e da t o s, s e p o d rí a p a sa r a un p ri=1o m e d i o , d e
n

qu e l a m e d i a d e la s d i fe r e n cia s c o n r es pe c t o a l a m e d ia n u la , a s í
E n e s te pensar
podríamos c a s o en
, medir
la s d ifestas
e r e diferencias
n c ia s p osalitcuadrado:
i va s y n( ¯e 2gx at−iv x)
a s. Dea este
l a med
modoi a ssee obtiene
c om

laq vari
u anza.
e e s ta e xp r es i ó n s ie m p r e re s u lta r á c e r o . i
p e n sa n , po r l o q u e p a r a h a ce rl a s p o si ti v a s
La varianza tiene las siguientes propiedades, fáciles de deducir a partir de la definición.
- T o m a v a l o r e s no negativos, puesto que se trata de un promedio de valores no negativos (diferencias
cu a d ra d o ) .
al

- L a v a r i a n z a no es lineal. Si consideramos los datos yi = axi + b, la varianza de los nuevos datos


y x . Es decir, la varianza no se ve afectada por traslaciones (sumar o restar una constante), pero sí
2 2 2
será
s = a s
por los cambios de escala al multiplicar los valores por un factor.

- Una expresión alternativa para el cálculo de la varia nza es:


1 xi2 − x¯2.
s2 = n
n
i=1

A u n q u e l a v a ri a n z a e s l a m e d i d m á s común, en capítulos posteriores se introducirá una


di s p e r s ió n , d e n o m i n ad a c u as i- v a r ianz a :
nueva medida de
1 n
ns2
S2 = (x − x¯)2 = .
i
n−1 i=1 n−1

L a fe r e nc ia e n tr e va r i an z a y c u a s i- va ria n z a r a d i c a e n e l e n o mi n a d o r.
d ividie n d o p or e l n úm e r o d e d at o s . E n la c u a si- v a r i a nz a , s e di v id e p o r e l
información,
E n l a v sabiendo
a ria n z laa media.
, s e h a ce u n p r o m e di o ,
n ú me r o d e d a to s d e lo s qu e o b t e ne m o s

n { , x, , }
Co n s id re mo s e l si g u ie n te eje m p l o: s u p on g a m o s q u e t e n e m os una
muestra de tamaño = 4, 2 6 8 cuya
m e d ia es x¯ = 5 0 25 . C o n e sta in fo r m ac i ó n e s fá c il d e d uc i r q u e x
Pedro Faraldo, Beatriz Página 14
de 31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
= 5 .E n g en ra l , si s e
y (n − 1) valores de la muestra, podemos determinar el que falt a. E s ta c o r rec ci ó n e s
c o n ocdee tamaño
queñas e l va moderado.
lor d e l aAl igual
m e que
d ia para la varianza, también se puede definir la cuasi-desviación típica,
iS.m p or t an t e en m u es t ra s p e -

O t r a s e d id a s d e d is p e i ó n a b s o l u t ( e s de cir , q ue también dependen de las


r a n g o mu e s tr a l ( R ) y e l ra n g o in t e r c u art í li co ( R I C ):
unidades de los datos) son el
R = ma´x{xi } − m´ın{xi }, RIC = Q3 − Q1.

Pedro Faraldo, Beatriz Página 15


de 31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

P a r a e l c á lc u l o d e l ra n g o s u ti l iz a n s ó lo d os observaciones, la más grande y la más


af e c ta d o p o r l a p r e se n c ia d e d a t o s a tí p ic os .
A un q u e l a s a q u í ex p ue s ta s
pequeña, por lo que se ve d e d i sp e r s ió n q u e e n lu g a r
s o n la s m e d id a s sp e r s ió n b s o lu ta s m á s u s u a le s ,
d e in c lu ir u n c u adrado p a r a e val u a r la s d if e re n c ia s e n
t a m b i én e x i st en o tr as m e d id a s ce n tr a li z a c i ó
t r e l o s da t o s y la s m ed id a s d e A s í, s e t i e n e n
( en e l c a s o d e l a v a ria n z a, l a s d i fer en ci as e n tr e
l a de s vi a c i ón a b s ol u ta c o n re s p e ct o a la m ed i a y
l os d a t o s y l m e d i a ) u t il z a n u n v o r ab s o l u t o .
l a de s v i a ció n ab so l u t a c o n r e s pe c to a la m e d i a n a :
n
1
D = n
|x − x|, 1 |x − Me|.
x =
D
n i Me i
i=1 n i=1

Una medida de dispersión robusta (poco influenciada por la presencia de datos atípicos) es la MEDA que se
calcula como: MEDA = Me{|xi − Me|; i = 1, . . . , n}.

5.1.4 Medidas de dispersión relativa

L a s m e d id a s d e d i s p er s ió n ab s ol ut a s d e pe n de n d la s un id ad e s d e
co m p a ra r v a ri a bl e s . U n a d e la s m e d id a s d e d isp ers i ó n r e l a t iv a ( n o
l o s d a t o s, p or l o q u e n o o n a d e cu a s p a ra
d e p e n d e d e la s u n i da d es d e l o s dato s ) m a s usual es el coeficiente de variación:
¯
x
s
CV = .
E l c o e fi ci e n te d e
m ed i d a . T a m bi én
v a ri a ció n p e rm it e n co m p a r a r v a r ia b le s au n q u e e s t a s es t én re gi ra
e s d e u til id a d p a ra c o m p a r a r v a r ia b les q u e , a u n q u e d e la m ism
da s e d i st in t a s un i da d e s d e dis t in t as . P o r e j em p l o , p a r a co m p a r a r
a m ag nit u d , e s tá n e n e s c al a s y d e l a c o lu m n a ve r t e b r a l (e n c e n t ím
la s l o n g i t u d e s d e l d iá m e t r o d el t ím p a n o ( n o r m a lm e e ,
e tr o s ) , p o d r í a m o s t ra n sf o r m a r to d a s l a s o b s e rv a ci one s
e n t re 8 y 1 0 m i l ím et r o s ) s e g u r a m e n t e la d i s p e r si ó ´ (m e d id a en
a l a m is m a e s c a la p e r o t í m p a n o s e r ía pr á c t ic a m e nt e n u la .
desviación típica) que encontraríamos en las longitudes del diámetro del

5.1.5 Medidas de forma


C on s ide ra re m o s d s m ed id a s
no e s ta n s en c il lo c om o e l
interpretación.

Pedro Faraldo, Beatriz Página 16 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
q ue p ro po r c i o n an un a id e a de la f o r m a d e
d e la s m e d i d a s de p os ic i ón y di s p e r sió n
c ó m o s e d ist rib uy e n lo s d a t o s . S u cá l cu l o
e s tu di a da s y lo q u e n o s i n t e r e sa e s s u

Coeficiente de asimetría
. E l c o e fi cie n te d e si m e t r í a d e F i s h e r
datos es simétrica con r e sp e c t o a l a m ed ia. V a l o r e s p o si t iv o s
t o ma v alo r 0 c u a n do l a d is tr ib u ció n d e lo s
d e es te c oe fic i e n te in d ic a rá n l a p res e nc ia
d e a s i m e t ría p o si tiv a (m á s da t o s c o n
in di c a t iv o s de u n a a sim e tr ía n e g at i va
v a lo re s s u p e ri or e s a l a m d i a ) , m ie n tr as q u e
( m á s d at o s c o n v a lo re s in fer i o r e s a l a m ed ia ) .
va lo r e s n eg a t iv s son
S e c a l cu la c o m o:

n 1 (x1 − x¯)3 + . . . + (xn − x¯)3 1


γ =
1 = (x − x¯)3.
F
s3 s3 n
i=1
n i

P ar a c u a n t ifi c a r la a si me tr ía d e u n os d a to s , p o d em o s u ti liz a r l o s
c u a rt i l es . Si la di s tr ib u c ió n e s s i m é tri c a , l a m is m a (e s d e cir, Q3 −
l a d is ta n c i a e n t re Q 3 y Q 2 (q u e c on tie n e u n 2 5 % d e l a m u e st r a )
y e n t r e Q 2 y Q1 ( o tr o 2 5 % ), d e b e r ía s e r P or o t ro la d o, s i
Q3 si−QQ3 2−<QQ2 2>−QQ21−
Q2 = Q2 − Q1). Así, , tendríamos indicios
Q1, es indicativo dede asimetría
asimetría negativa. Para que el resultado no
positiva.
d ep e n d a d e la d i me n si ó n d e l o s d a tos, podemos utilizar el siguiente índice de asimetría que
e n [ − 1 , 1 ], ba sa d o e n l o s cu a r ti le s :
toma valores
Q3 − Q2) − (Q2 − 1)
γQ = Q
. (Q − Q ) + (Q − Q )
3 2 2 1

Pedro Faraldo, Beatriz Página 17 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

O t ro c o e fi ci e nt e d e a s i m e trí a, q u e re s u l t a ú ti l en e l caso de que los


co e fic ie n t e d e a si m e tr í a d e P ea r s on v i e n e d a d o po r:
datos presenten una única moda. El
x − Mo
γMo = .
s
Basado en la mediana, tenemos el siguiente índice:
3(x − Me)
γMe = .
s
Coeficiente de curtosis
fórmula es: . El coeficiente de curtosis mide el grado de a puntamiento de la distribución. Su

1 (x1 − x¯)4 + . . . + (xn − x¯)4 1 1


γC = n =n (xi − x¯)4.
4 i=14
s s n
Si γC > 3, se dice que la distribución de frecuencias es leptocúrtica. Si γC < 3, la distribución de frecuencias es

platicúrtica. También se puede modificar la expresión anterior y considerar Cγ = γ − 3, ya que 3 es el valor
cdelo e fi c ie n t e c u a n d o l o s d a t o s v ie n en d e u n a d i s t ri b u c i ón N o rm al ( que es
C
d is t ri b u ci o n e s l e Cp to c ú r ti c a s s i γC ∗
> 0 y p la t i c ú r ti c a s si γ ∗
< 0.
la de referencia). De este modo, tendremos

5 .2 R e p r e s e n ta c ió n d e m e d i d as : el d i a g r a m a de c a j a

L a s rep re s e n ta c i on e s gr áfi c as q u e s e h an de s c r it o e n la sec c i ó n

El diagrama de caja se construye a partir de las siguientes medidas:


anterior utilizan los datos observados para su co n st r uc c ió n o l a i n f o r ma c i ó n q u e e o b t ie n e
q u e s e h a n d es c ri t o , s e p u e d e c o nst ru i r u n a
e n l s ta b la s d e f r e c u nc i a s . A p ar ti r d e l as medidas características
n u ev a re p re s en t ac i ó n , el d i a g r am a d e c a ja .

- E l p rim e r y e l te r ce r cuarti l, Q1 y Q3, que delimitan la caja central (véase Figura 4). La longitud de
vi en e da d a p o r e l R IC
, que es una medida de dispersión absoluta. la caja
- L s límites inferior y superior (en la Figura 4, son los segmentos horizontales superior e inferior) se calculan
como:
LI = ma´x{m´ın{xi }, Q1 − 1.5(Q3 −
Q1)}, LS = m´ın{ma´x{xi }, Q3 + 1.5(Q3
− Q1)}.
En el cálculo de los límites inferior y superior se utiliza el RIC = Q3 − Q1.
- La mediana (Q2) se representa con una línea horizontal en la caja central.
El diagrama de caja se utiliza para determinar los v lores atípicos de la mue ra, que son datos que difieren
numéricamente de los demás. Formalmente, los datos atípicos son aquellos datos que quedan fuera del intervalo
(LI, LS). Si en lugar de considerar los límites inferior y superior construimos el intervalo (LIe, LSe) donde LIe =
Q1 − 3RIC y LSe = Q3 + 3RIC , los datos que caen fuera de este intervalo se denominan extremos.
p q u e t e s e s t a d í s ti c os hacen la distinción entre atípicos y extremos, representándolos de distintas formas
Algunos
s al id a s g r á fi c a s .
Pedro Faraldo, Beatriz Página 18 de
31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
en las
E n la F i g ur a 4 s e p u e d e o b se r v a r la p re se n ci a d e d a t a t í p ic o s
u n p rob l e m a d el d ia g r a m a d e c a j a e s q u e n o p er m it e n obs e r v a r l a
a l t o , r e p re s en ta d o s c o n p u n t os. Sin embargo,
p r e se n c i a d e m u lt im o d a li d a d .

5.3 Tipificación de datos


El coeficiente de variación, como ya hemos visto, se utiliza para comparar la dispersión de variables. Si lo que
queremos es comparar individuos de distintos grupos, debemos utilizar la tipificación de datos. A partir de una

Pedro Faraldo, Beatriz Página 19 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

Figura 4: Diagrama de caja e histograma correspondiente.

muestra x1, . . . , xn con media x y varianza s2, los datos tipificados se construyen como:
xi − x¯
zi =
s
de manera que la muestra resultante z , . . . , zn tendrá media 0 y varianza 1. La tipificación de datos
permite
comparar
1 distintos grupos, así como la posición relativa de las observaciones dentro de cada uno.

5 .4 D e s i g u a l da d d e T c h e b y c h ev

L a desi gu a l d a d d e Tc he b yc h e v p er m i te construir intervalos centrados en la media y con


aampl
laitudes
desviación
proporciotípica
nales que contienen (al menos) un determinado porcentaje de las observaciones.

E n x , . . tra
u n a mues . , xn1 x con medias2 y varianza x − ks, x , en
ks el intervalo ( +
2
10 0( 1 1 0 0 % d e l o s d a to s . S i t om a m o s = 2 , ten d r e mo s a l
k = 3, tendremos e n e l in te r v al o a l m e nos el 8 8 ’ 89 % de l os d a to s y a sí

6 R e cta d e r e g r e si ó n

Existe n m u c has s itu a ci o n es q ue requieren el análisis combinado de dos ó más


re cio n e s e n tr e e l la s . P a r va ri a b l e s c u a n ti ta t iv
variables, debido a las posibles e las e s a t ra v é s d e l a r e c ta d e r e g r e si ó n . E n e s ta
(c o n ti nu a s ) , u n a f or m a d e r p r e se n t la d e p e n de n c i e nt r e
se c c ió n in t r o d u c ire m o s la s m ed i d a s c arac ter í st i ca s u s u ale s e n
e s te c o n t exto (vector de medias y matriz de varianzas-covarianzas) y veremos cómo se construye una recta
re g re s ió n .
de

Pedro Faraldo, Beatriz Página 20 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
6 .1 V e c t or d e m e d i a s. C ov a r i a n za y co r r e la c ió n

S u pong a m o s qu e t en e m o s u na v a ri a b le bi dim e n s io na l ( X , Y ) y que

disponemos de las observaciones en una


muestra de tamañon , {( xi, yi }n . Se denominavector de medias al vector cuyas componentes son las medias
i=1
muestrales de las variables: (x¯,
)
y¯).

P ar a re p r e se nta r la d isp e r s ió n po d e m o s c on si d er a r l o s v a lo re s d e l a s
2 2
es d ec ir , s y s , pe ro q u e d a ría s i n r e su m ir l a v a ri a b il d a d c on j un t a
x y

Pedro Faraldo, Beatriz Página 21 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

covarianza. La covarianza entre dos variables X e Y , que es una medida que indica la variabilidad conjunta de
X e Y . Se calcula n n
1 1
como:
Sxy = (xi − x)(yi − y) = xiyi − xy.
n =1 n =1
A partir de las varianzas y la covarianza se
i obtiene la matriz de varianzas-covarianzas
i :
{
sx2 )
S = Sxy
Sxy sy2

Covarianza y correlación
E l s ig n o d e l a covarianza proporciona información sobre el tipo de relación que puede existir entre las
D e e st e m o d o :

variables. a dir t t c Sxy > 0.


b) Si la relación entre las variables es inversa, entonces S
c) Si no existe relación lineal entre las variables, entonces Sxy = 0.
Las 0.parejas de datos datos (xi, yi) con i = 1, . . . , n, de las dos variables (X , Y ) (también llamada variable bidi-
m e n s i on a l) , s e p d e n re p r e n ta r a p a r tir de u n a o
nube de puntos diagrama de dispersión
gr á fi c a s e c o n st ruy e r ep re s en ta n d o so b r e un pl a n o los valores de lo s puntos observados. En
. Es t a re pr es e n ta c ió n
la F i gu ra 5 p o d e m o s

v e r d o s e j e m p l o s d e re la ci o n e e n tr e v a r i a b le s. La c o va r i nz a d
e l o s d at os de la i z q u i erd a e s pos it iva , m ie n tr a s c u a n d o va lores altos de X se
q u e l a c o v a ri a n z a d e lo s d a t os d e l a d e r e c h a es ne g a ti v a. A sí ,
di r e mo s q ue la re l a c ió n e ntr e X e Y e s d i re c ta a lt o s d e X
corresponden se
concorresponden
va lo r es acon
l tvalores
o s d bajos
e Y .deLa relación se dice que es inversa si valores
Y , o vi c e v e rs a .

Figura 5: Ejemplo de diagramas de dispersión. Relaciones directa e inversa.

L c o v a r ia n z a e s t á a f e c t a p o r la s un d a d es d e m e d i d a d e l a s
cara c t e r ís ti c a p a r a e x p l ic ar la r e la ci ón lin e a l en t re v a ri a b le s q u e
v a ri b l es , p o r l o q u e d e fi n ir e m o s u n a m e d i d a
s e a ad i m e n s io n a l: e l co e fi c ie n t e d e c o rre l a c i ón

Pedro Faraldo, Beatriz Página 22 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
n
lineal. A partir de una muestra de datos {(xi, yi)}i=1 , el coeficiente de correlación lineal se calcula como:
Sxy
r = sx
sy

donde Sxy es la covarianza muestral y sx , sy son las


, respectivas desviaciones típicas muestrales.

Pedro Faraldo, Beatriz Página 23 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

El coeficiente de correlación lineal no tiene dimensiones y toma valores en [−1,1]. Valores cercanos a 1 nos
in d i c a r ía n u n a r e la ó l in e al d i c ta , m ie n tras q u e va lo r e s c e rc a s a - 1
pd ar rá cía tn icua n, a sir ee lla cco i eónficilin ent
e ale i dn ev ec rsor are. laE nc ióla n r = 0, e s to in d i c a q u e no e xis t e

r e la c ió n l in e a l e n tre la s v a r ia b le s , p er o p o d r í a o currir que entre ellas hubiese otro


li n e a l es .
tipo de relación no lineal. Observa que r sólo cuantifica relaciones
C u a n d o e xis t e u n a r e l a c ió n lin e a l e n t r e d o s v a r i a b les , p o d e m o s t ra t a r
f u n c ió n d e o t ra . L a r e g r e s ión l in e a l s i m p l e c o n s i s te e n a p r o xi m a r l o s
d e utilizando
otra b u c a runa
u nrelación
m o ddee tipo
lo q lineal.
ue d Lae srecta
c r ibdea regresión
u n a en de Y sobre X tendrá la siguiente expresión:
v a lo re s d e u na v a r ia bl e a p a r ti r d e l o s d e

y = a + bx,
donde a representa la ordenada en el origen o intercepto y b es la pendiente (indica la razón de cambio en Y
cuando
n o Xm varía
in a env una unidad).
a riable Esta oexpresión
explicativa nos dice
independiente, que, que
mientras cuando x = 0,Yentonces
la variable y = a.respuesta,
será la variable La variable X se
o variable
de p en d ie nt e .
6. 2 M é t o d o d e M í n im o s C u a d r a d o s
n
E n la p rá ct i ca , a p art ir d e lo s da to s { ( x i , y i )} podremos calcular los valores de a y b. El

objetivo será obtener


los valores a y b i=1
q u e n os p r o p o rc i o n e n lo s re s idu s
valores bservados d e l a va ri a b l e r e s p u es ta y i y los
dados por:
m á s p eq u e ño s . L s r e s idu os s o n la s d ife re nci a s e nt r e l o s
v a lo re s q u e p r op or ci o n a el aj u s te yˆ i = a + b x i y v i en e n

ei = yi − yˆ i = yi − a − bxi, i = 1, . . . , n.
En la F ig u r a 6 , lo s s e gm e n tos ve r ti c les son los residuos, que representan la diferencia
y el va lo r q u e d a rí a l a re c ta aju s ta d a.
entre el valor observado

Pedro Faraldo, Beatriz Página 24 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
F i g u r a 6 : R esiduos a minimizar en el Método de Mínimos Cuadrados. Los segmentos verticales representan
re s i d u os e .
i
los

E Método
l de Mínimos Cuadrados c o n s i ste en minimizar la suma de los cuadrados de los residuos, por lo que se
bu scan los valores a y b que minim i z a n :

n n
2
(y − a − bx )2.
e =
i i i
i=1 i=1

Pedro Faraldo, Beatriz Página 25 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1

A partir del Método de Mínimos Cuadrados, se obtienen los valores para a y b:


Sxy
b= 2 , a = y − bx,
s

n
n de y y x denotan las medias muestrales de y21, . .1. , yn y x1, . .2 . , xn, respectivamente; sx2 es la varianza
muestral s = (x − x)
de X : i
x
n
i=1
y Sxy es la covarianzamuestral entre X e Y. En la Figura 6, representamos la recta ajustada, con a y b obteni-

d o s p o r e l m é to d o d e M í n i m os Cu a d r a d os . S e puede comprobar que la recta de regresión


ajustada por Mínimos
C u ad r a do s pa s a p o r el v e c t or de m e d i a s (x , y ).

La recta de regresión de Y sobre X se puede utilizar para predecir valores de Y conocidos los valores de X
,
p e ro n o a l r e v é s. E n s u c o n s tru cc ió n ,
2
s . Ad e m á s , l a s p re d ic ci o n e s co n l a
x
qu e re m o s h ac e r l p r ed i c c ió n s e nc u e n t ra e n t r e el m ín im o y el m á x i m o
S i q u is ié ra m o s h ac e r p r e d ic ci o nes s o b r e e l v a l or d e X d a do u n v a l o r
regresión:
l os v a lo r e s o b se r va d o s p a r a l v a ri le .
Sxy
de Y , t e n d r ía m o s q u e u t il iz a r l a re c ta d 2e x = c + dy, con d = ,
s
c = x − dy.

6.3 Coeficiente de regresión. Coeficiente de determinación


Coeficiente de regresión.

S e d e n ocoeficiente
m i n a de regresión a la pendiente (parámetro b) de la recta de regresión de Y sobre X . Este
c o efi c i e n te p roporciona información sobre el comportamiento de la variable respuesta Y en función de la
variable
explicativa X y tiene el mismo signo que la covarianza.

a) Si b > 0, al aumentar los valores de X también aumentan los valores de Y .


b) Si b < 0, al aumentar los valores de X , los valores de Y disminuyen.

Coeficiente de determinación
2
U n a m ed i d a p a r a de t er m i n a r c ó m o bue n o coeficiente
e l ju stede ddeterminación
e l m o lo (r
e s) que
el
m i d e la p r o po r c i ón d e v a r ia b il i d ad de Y q u e exp li ca X a tr a vé s de la r ec t a de
regresión.
E l c o efi c ie n te d e d e te rm in c ió n e s e l c ua d r a d o d e l
2
t o m a lineal
r regresión
de v a losimple
re sviene
p ró dado
x im por:
os a 1 , es t o s e rá i n d i ca ti v o

Sx2
2 y
r =
sx2s
2
y

E l c oe fici e n t e d e d et e rm i n a c ió n, y por tanto, la variabilidad explicada por la recta de regresión de Y


l a d e X s o b r e Y e s e l mi s m o .

Pedro Faraldo, Beatriz Página 26 de


31
Estadística y metodología de la investigación. Grado en Tem
Enfermería a1
sobre X y

Pedro Faraldo, Beatriz Página 27 de


31

También podría gustarte