Está en la página 1de 96

CLASE 05

ESTADISTICA Y
PROBABILIDADES

MEDIDAS DE
POSICIN

Ing. William Len Velsquez


wjleonv@yahoo.com

Estas medidas tratan de sintetizar los


datos que se necesitan para
representar
las distribuciones de
frecuencias.
En lugar de manipular todos los datos
de la variable estadstica, tarea que
puede ser pesada, se puede describir
su distribucin de frecuencias
mediante algunos valores numricos,
eligiendo como resumen de los datos
un valor central alrededor del cual se
encuentran distribuidos los valores de
la variable
ING. WILLIAM LEON V.

MEDIDA DE POSICIN

Son indicadores usados para


sealar que porcentaje de datos
dentro de una distribucin de
frecuencias
superan
estas
expresiones, cuyo valor representa
el valor del dato que se encuentra
en el centro de la distribucin de
frecuencia.

ING. WILLIAM LEON V.

MEDIDA DE POSICIN

Estas medidas de posicin de una


distribucin de frecuencias han de
cumplir determinadas condiciones para
que
sean
verdaderamente
representativas de la variable a la que
resumen.
Toda sntesis de una distribucin se
considerara
como
operativa
si
intervienen en su determinacin todos y
cada uno de los valores de la
distribucin, siendo nica para cada
distribucin de frecuencias y siendo
siempre calculable y de fcil obtencin
ING. WILLIAM LEON V.

MEDIDA DE POSICIN

CUANTILES

Son valores que dividen al


total de los datos debidamente
ordenados en k partes iguales.

ING. WILLIAM LEON V.

CUANTILES

Son medidas de posicin que


dividen al total de los datos
ordenados, en cuatro partes
iguales.
De esta forma entre dos
cuartiles consecutivos se
encuentra ubicado no ms del
25% del total de los datos.
ING. WILLIAM LEON V.
6

DEFINICIN

Hay 3 cuartiles que dividen a una distribucin


en 4 partes iguales: primero, segundo y tercer
cuartil.
DEFINICIN

ING. WILLIAM LEON V.

Cuartiles para datos agrupados


El clculo para los cuartiles se determina a travs
de la siguiente expresin:

kn
f acumi 1
Qk Li 4
A
fi
k

Orden del cuartil

Li

Lmite inferior del intervalo que contiene al cuartil

fa(i-1)

Frecuencia acumulada considerada al intervalo donde se


encuentra

fi

Frecuencia del intervalo que contiene el cuartil

Nmero de mediciones

A Ic

Amplitud del intervalo

DEFINICIN

ING. WILLIAM LEON V.

Aquel valor de una serie que supera al


25% de los datos y es superado por el
75% restante.

Formula de Q1 para series de Datos


Agrupados en Clase.

DEFINICIN

ING. WILLIAM LEON V.

Donde:

: posicin de Q1, la cual se

localiza en la primera frecuencia


acumulada que la contenga, siendo la
clase de Q1, la correspondiente a tal
frecuencia acumulada.
Li, faa, fi, Ic : idntico a los conceptos
vistos para Mediana pero referidos a la
medida de la posicin correspondiente.
DEFINICIN

ING. WILLIAM LEON V.

10

Coincide, es idntico o similar al


valor de la Mediana (Q2 = Md).

Es decir, supera y es superado


por el 50% de los valores de una
Serie.

DEFINICIN

ING. WILLIAM LEON V.

11

Es aquel valor, termino o dato que


supera al 75% y es superado por el
25% de los datos restantes de la Serie.
Formula de Q3 para series de Datos
Agrupados en Clase.

DEFINICIN

ING. WILLIAM LEON V.

12

Donde:

: posicin de Q3, la cual se

localiza en la primera frecuencia acumulada que


la contenga, siendo la clase de Q3, la
correspondiente a tal frecuencia acumulada.
Li, faa, fi, Ic : idntico a los conceptos vistos para
Mediana pero referidos a la medida de la
posicin correspondiente.
DEFINICIN

ING. WILLIAM LEON V.

13

Ejemplo:

Un reporte de laboratorio indica


el nmero de pacientes que en
los primeros 100 das del ao
recibieron peticiones por parte
de una clnica, de reportes
clnicos para realizar estudios de
glucosa.

EJEMPLO

ING. WILLIAM LEON V.

14

Para la obtencin del primer cuartil


tenemos k=1, obteniendo:

kn (1) 63

15.75
4
4

lo que representa que el primer cuartil se


encuentre en la tercera clase, sus datos estn
dados como

Li 20; f acumi 1 11; f i 8; A 9


EJEMPLO

ING. WILLIAM LEON V.

15

Ejemplo:
Intervalos

Promedio Nmero de
pacientes
de das
f

xi

EJEMPLO

Frecuencia acumulada

f acumulada

1 da a 9 das

10 da a 19 das

14.5

11

20 da a 29 das

24.5

19

30 da a 39 das

34.5

27

40 da a 49 das

44.5

31

50 da a 59 das

54.5

36

60 da a 69 das

64.5

43

70 da a 79 das

74.5

51

80 da a 89 das

84.5

55

90da a 100 das

94.5

63

ING. WILLIAM LEON V.

16

por lo que el primer cuartil es igual a

1 (63)
11
Q1 20 4
9 25.34 das
8
Interpretacin:
Lo que indica que 25 % de los pacientes fueron
mandados a valoracin de glucosa en 25.34 das y
el 75% de los pacientes atendidos lo hicieron
despus de 25.34 das.
EJEMPLO

ING. WILLIAM LEON V.

17

Ntese que la consideracin para


elegir el primer cuartil se hizo
considerando la frecuencia
acumulada y de esta manera se
considerar para localizarla para el
resto.

EJEMPLO

ING. WILLIAM LEON V.

18

Para la obtencin del segundo cuartil


consideraremos k=2 por lo que

kn 2 63

31.5
4
4
Considerando que para este segundo cuartil ,

Li 50; f acumi 1 31; f i 5; A 9


EJEMPLO

ING. WILLIAM LEON V.

19

con ello el cuartil tendr un valor de


2 (63)
31
Q2 50 4
9 50.9 das
5
Interpretacin:
Lo que indica que en 50.9 das se haban atendido al
50 % de los pacientes a ser valorados de los niveles de
glucosa.
Lo que indica que 50 % de los pacientes fueron
mandados a valoracin de glucosa en 50.9 das y el
50% restante de los pacientes atendidos lo hicieron
despus de 50.9 das.

EJEMPLO

ING. WILLIAM LEON V.

20

Ntese que efectivamente el segundo


cuartil corresponde a la mediana, ya que
si sustituimos k=2 tendremos la misma
formula que utilizamos para el calculo de
la mediana para datos agrupados

2n
n
f acumi 1
f acumi 1
Q2 Li 4
A Li 2
A Me
fi
fi
EJEMPLO

ING. WILLIAM LEON V.

21

Para el clculo del tercer cuartil, k=3,


observamos que:

kn 3 63

47.25
4
4
con

Li 70; f acumi 1 43; f i 8; A 9

EJEMPLO

ING. WILLIAM LEON V.

22

con ello el cuartil tendr un valor de

3 (63)
43
Q3 70 4
9 74.78 das
8
Interpretacin:
lo cual indica que 75% de pacientes que
envi la clnica a realizarse estudios de
glucosa lo realizo en 74.78das y el resto en
los otros das restantes.
EJEMPLO

ING. WILLIAM LEON V.

23

Ntese que para el clculo del cuarto


cuartil es de manera inmediata, en
este se contempla la totalidad de la
muestra, por lo que no es necesario
realizar ningn clculo, aunque si lo
realizamos observamos que cubre el
total de das.

EJEMPLO

ING. WILLIAM LEON V.

24

Cuartiles para datos no agrupados


El procedimiento para calcular los
cuartiles cuando los datos no estn
agrupados se da a travs del siguiente
concepto:
Para un nmero de n observaciones
en el que los datos no son
representados en clases, una vez
ordenados los datos la posicin de los
cuartiles se pueden localizar de la
siguiente forma:

k n 1
,
4
DEFINICIN

k 1, 2, 3 y 4
ING. WILLIAM LEON V.

25

En el caso en que la posicin no


corresponda exactamente con la posicin la
interpolacin se realiza de la siguiente forma:
k Ls Li
Qk Li
,
4

k 1, 2, 3, 4

Donde:
Qk Cuartil k ;

DEFINICIN

Li limite inferior , ; L f Limite Superior;

ING. WILLIAM LEON V.

26

Ejemplo.
Se tiene la siguiente tabla de temperaturas reportadas
en un experimento:

EJEMPLO:

25 C

28 C

25 C

26 C

28 C

28 C

35 C

32 C

31 C

31 C

32 C

27 C

25 C

29 C

26 C

28 C

27 C

28 C

30 C

30 C

31 C

31 C

30 C

31 C

ING. WILLIAM LEON V.

27

Ejemplo.

Ordenando los datos tenemos:


25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28,
28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32,
32, 35
La posicin del primer cuartil es:

124 1 25

6.25
4
4

EJEMPLO:

ING. WILLIAM LEON V.

28

Ejemplo.
n

25

25

25

26

26

27

27

28

28

28

28

28

29

30

30

30

31

31

31

31

31

32

32

35

10

11

12

13

14

15

16

17

18

19

20

21

22

23

34

lo que significa que el primer cuartil se encuentra


entre la posicin 6 y 7, como en este caso el
nmero es el mismo entonces

Li L f 0

por lo que el primer cuartil es igual a .

Q1 27C
EJEMPLO:

ING. WILLIAM LEON V.

29

La posicin para el segundo cuartil es

224 1 50

12.5
4
4

EJEMPLO:

ING. WILLIAM LEON V.

30

25

25

25

26

26

27

27

28

28

28

28

28

29

30

30

30

31

31

31

31

31

32

32

35

10

11

12

13

14

15

16

17

18

19

20

21

22

23

34

En este caso la posicin 12 la ocupa la


temperatura 28C y la posicin 13 la
temperatura 29C entonces, la
interpolacin nos conduce a

229 28
Q2 28
28.5
4
EJEMPLO:

ING. WILLIAM LEON V.

31

La posicin del tercer cuartil se puede


calcular como

324 1
18.75
4

EJEMPLO:

ING. WILLIAM LEON V.

32

25

25

25

26

26

27

27

28

28

28

28

28

29

30

30

30

31

31

31

31

31

32

32

35

10

11

12

13

14

15

16

17

18

19

20

21

22

23

34

Como la posicin 18 y 19 tienen la


temperatura 30C entonces, por la misma
razn que el primer cuartil, el tercer cuartil
es igual a 30C.

EJEMPLO:

ING. WILLIAM LEON V.

33

RANGO INTERCUARTIL
Es la distancia que hay entre el tercer cuartil (Q 3 ) y el
primer cuartil (Q 1 ):
RIC = Q 3 - Q 1
RIC es la amplitud del intervalo que contiene el 50% central
de individuos.
Interpretacin
Es como una medida de variabilidad;
Si es pequea significar que los valores estn muy
concentrados alrededor de la medida de tendencia central
(mediana) y
Si es grande hay gran dispersin.
ING. WILLIAM LEON V.

34

DECILES
Son valores que dividen al
total de los datos ordenados,
en diez partes iguales; de
modo que en cada una de
estas partes se encuentre
ubicado no ms del 10% del
total.

DEFINICIN

ING. WILLIAM LEON V.

35

El primer decil es aquel valor de una serie


que supera a 1/10 parte de los datos y es
superado por las 9/10 partes restantes
(respectivamente, hablando en
porcentajes, supera al 10% y es superado
por el 90% restante),

DEFINICIN

ING. WILLIAM LEON V.

36

El quinto decil es aquel valor de una serie


que supera a 5/10 parte de los datos y es
superado por las 5/10 partes restantes
(respectivamente, hablando en
porcentajes, supera al 50% y es superado
por el 50% restante),

DEFINICIN

ING. WILLIAM LEON V.

37

El noveno decil es aquel valor de una serie


que supera a 9/10 parte de los datos y es
superado por las 1/10 partes restantes
(respectivamente, hablando en
porcentajes, supera al 90% y es superado
por el 10% restante),

DEFINICIN

ING. WILLIAM LEON V.

38

Como se observa, son formulas parecidas a


la del calculo de la Mediana, cambiando
solamente la respectivas posiciones de las
medidas.

DEFINICIN

ING. WILLIAM LEON V.

39

PERCENTILES

Son valores que dividen al total


de los datos ordenados, en cien
partes iguales: de manera que
en cada una de estas partes se
encuentre ubicado no ms del
1% del total.

DEFINICIN

ING. WILLIAM LEON V.

40

De esta manera se puede establecer la


siguiente relacin entre cuartiles, deciles y
percentiles as como tambin con la
mediana.

DEFINICIN

ING. WILLIAM LEON V.

41

El primer percentil supera al uno por ciento


de los valores y es superado por el noventa
y
nueve
por
ciento
restante.
Formulas de P1, para series de Datos
Agrupados en Clase.

DEFINICIN

ING. WILLIAM LEON V.

42

El percentil 50 supera al cincuenta por


ciento de los valores y es superado por el
cincuenta
por
ciento
restante.
Formulas de P50, para series de Datos
Agrupados en Clase.

DEFINICIN

ING. WILLIAM LEON V.

43

El percentil 99 supera al noventa y nueve


por ciento de los valores y es superado por
el
uno
por
ciento
restante.
Formulas de P99, para series de Datos
Agrupados en Clase.

DEFINICIN

ING. WILLIAM LEON V.

44

Como se observa, todas estas medidas no


son sino casos particulares del percentil ya
que el primer cuartil no es sino el 25
percentil, el tercer cuartil el 75 percentil, el
cuarto decil el 40 percentil, etc.

DEFINICIN

ING. WILLIAM LEON V.

45

Ejemplo:
Para la siguiente tabla de frecuencias que corresponde a la
distribucin de 42 das de acuerdo a la temperatura que se
registr en cada da.
El 35% inferior de los das, qu temperatura present como
mximo?
Temperatura
( C )

10-15

Ejemplo

N das

Fi
8

15-18

17

18-25

12

29

25-30

36

30-34

42

ING. WILLIAM LEON V.

35 42
14,7 15vo. lugar
100

46

35 42
F1
F2
100

P35 I2

Luego:
15 8
P35 15 3
17,33

Interpretacin:
En el 35% inferior de los das se registr una
temperatura de 17 C como mximo?
ING. WILLIAM LEON V.
47

Ejemplo

Cuantiles para datos no agrupados:

Ejemplo:
En una serie de 32 trminos se
desea localizar el 4 sextil, 8
decil y el 95 percentil.

ING. WILLIAM LEON V.


48

Ejemplo

Esto significa que el 4 sextil se encuentra localizado en el


termino numero 21, es decir, el que ocupa la 21 posicin; el
8 decil se encuentra localizado entre el termino numero 25

y 26 ; y el 95 percentil entre la posicin 30 y 31 .


ING. WILLIAM LEON V.
49

Ejemplo

Cuantiles para datos agrupados

Ejemplo:
Determinacin del primer
cuartil, el cuarto sextil, el
sptimo decil y el 30 percentil.

ING. WILLIAM LEON V.


50

Ejemplo

Ejemplo:
Determinar el primer cuartil, el cuarto sextil,
el sptimo decil y el 30 percentil.
Salarios(I. de
Clases)

N de empleados (fi)

fa

200 299

85

85

300 399

90

175

400 499

120

295

500 599

70

365

600 699

62

427

700 800

36

463
ING. WILLIAM LEON V.
51

Ejemplo

Ejemplo:
.
primer cuartil

Estos resultados nos indican que el 25 por


ciento de los empleados ganan salarios por
debajo de $. 334;
Ejemplo

ING. WILLIAM LEON V.

52

Ejemplo:
.
el cuarto sextil

Estos resultados nos indican que sobre $. 59,51


ganan el 33,33 por ciento de los empleados;
Ejemplo

ING. WILLIAM LEON V.

53

Ejemplo:
. el sptimo decil

Ejemplo:
.

Estos resultados nos indican que bajo $ 541,57


gana el 57 por ciento de los empleados

Ejemplo

ING. WILLIAM LEON V.

54

Ejemplo:
.
el 30 percentil

Estos resultados nos indican que sobre $. 359,88 gana


el 70 por ciento de los empleados.
Ejemplo

ING. WILLIAM LEON V.

55

Muchas veces necesitamos conocer el


porcentaje de valores que esta por debajo o
por encima de un valor dado; lo que
representa un problema contrario al anterior,
esto es, dado un cierto valor en la abscisa
determinar en la ordenada el tanto por
ciento de valores inferiores y superiores al
valor dado.
.

Definicin

ING. WILLIAM LEON V.

56

Operacin que se resuelve utilizando la siguiente


formula general:

Donde:
P: lugar percentil que se busca.
P: valor reconocido en la escala X.
fa-1: frecuencia acumulada de la clase anterior a la
clase en que esta incluida P.
fi: frecuencia de la clase que contiene a p.
Li: limite inferior de la clase que contiene a P.
Ic: intervalo de clase.
N: frecuencia total..
57
Definicin

ING. WILLIAM LEON V.

Ejemplo:

Utilizando la distribucin anterior,


determinar que porcentaje de
personas ganan salarios inferiores a $
450,00

El 50,75 por ciento de las personas ganan salarios inferiores a $. 450

Definicin

ING. WILLIAM LEON V.

58

DIAGRAMAS
DE CAJAS

Ing. William Len Velsquez


wjleonv@yahoo.com

Es una presentacin visual que describe al mismo tiempo


varias caractersticas importantes de un conjunto de datos,

Las caractersticas que representan son:


el centro, la dispersin, la desviacin de la
simetra
y
la
identificacin
de
observaciones que se alejan de manera
poco usual del resto de los datos, este tipo
de observaciones se conocen como
valores atpicos.
ING. WILLIAM LEON V.
60

CAJAS Y BRAZOS

El diagrama de caja presenta los tres cuartiles, y los


valores mnimo y mximo de los datos sobre un
rectngulo, alineado horizontal o verticalmente.
El rectngulo delimita el rango intercuartlico con la
arista izquierda (o inferior) ubicada en el primer
cuartil y la arista derecha (o superior) en el tercer
cuartil.
ING. WILLIAM LEON V.
61

CAJAS Y BRAZOS

Dentro del rectngulo se dibuja una lnea en la


posicin que corresponde a la mediana.
Cuando la distribucin es simtrica la mediana
divide a la caja en dos partes iguales.

ING. WILLIAM LEON V.


62

CAJAS Y BRAZOS

Fuera del rectngulo se dibujan dos segmentos,


llamados `bigotes' o brazos que llegan hasta los
datos ms lejos que estn a una distancia menor o
igual a 1.5 x (RI) del rectngulo, donde RI
representa el rango intercuartil.
Cualquier punto que no est incluido en este rango
se representa individualmente y se considera un
punto atpico (outlier).

ING. WILLIAM LEON V.


63

CAJAS Y BRAZOS

ING. WILLIAM LEON V.


64

CAJAS Y BRAZOS

Estos grficos se utilizan para comparar la


distribucin de los valores entre diferentes grupos.
Si en una caja la lnea que representa al cuartil 1
est por encima de la lnea que representa a la
mediana en la otra caja, entonces se concluye que
las medias de las poblaciones son diferentes.
ING. WILLIAM LEON V.
65

CAJAS Y BRAZOS

Los cinco nmeros son el valor mnimo, el primer cuartil, la


mediana,
el tercer cuartil, y el valor mximo, respectivamente.
ING. WILLIAM LEON V.
66

a) La anchura de la caja refleja la amplitud intercuartil


(abreviado como IQR o como RI), en ella est representado
el 50% de la muestra.
b) El borde superior de la caja es el percentil 75 (Q3).
c) El borde inferior es el percentil 25 (Q1).
d) La lnea central de la caja es la mediana. Cuando
el valor de la mediana coincide con el punto medio
de la caja (IQR/2 + Q1), la variable representada es
simtrica.
Diremos que es asimtrica positiva o a la derecha
si est prxima al borde izquierdo de la caja y,
asimtrica negativa o a la izquierda si est prxima
ING. WILLIAM LEON V.
al borde derecho
CAJAS Y BRAZOS

67

e) Los valores que no son considerados extremos


son aqullos comprendidos entre el lmite inferior y
el lmite superior.
Lmite inferior = Q1 1,5*IQR
Lmite superior = Q3 + 1,5IQR
Los valores de las patillas corresponden a la
primera y ltima observacin dentro de dichos
lmites.
f) Se sealan con signos (*,O) los casos muy
alejados o extremos.
g) Con una O se marcan los casos situados entre 1,5
y 3 veces la amplitud intercuartil desde los dos
extremos de la caja.
ING. WILLIAM LEON V.
68

CAJAS Y BRAZOS

Variables estadsticas
bidimensionales
Covarianza
Correlacion

Ing. William Len Velsquez

Se trata de variables que


surgen cuando se estudian
dos
caractersticas
asociadas a la observacin
de un fenmeno.

Las variables estadsticas bidimensionales se


representan por el par (X,Y), donde X es una variable
unidimensional que toma los valores x1,x2,....xn e Y
es otra variable unidimensional que toma los
valores y1,y2,...yn.
Si representamos estos pares (x1,y1), (x2,y2)......en
un sistema de ejes cartesianos se obtiene un
conjunto de puntos sobre el plano que se denomina
diagrama de dispersin o nube de puntos.

Considere una variable


estadstica bidimensional (X,Y) y
recuerde las definiciones de
media y varianza para
distribuciones de variable
estadstica unidimensional:

A la raz cuadrada positiva de las varianzas se la


llama desviacin tpica y se representa por Sx y
por Sy.

Ejemplo 1.- Estudiamos la


talla, medida en cm. y el
peso, medido en kg. de un
grupo de 10 personas,
podemos
obtener
los
siguientes valores
Talla
160 165 168 170 171 175 175 180 180 182
(cms)
Peso
(kgs)

55

58

58

61

67

62

66

74

79

83

Talla
(cms) 160 165 168 170 171 175 175 180 180 182
Peso
(kgs)

55

58

58

61

67

62

66

74

79

83

Podemos llamar X a la talla e Y al peso con lo que se


obtendra la variable bidimensional (X, Y) que toma
10 valores, que son las 10 parejas de valores de la
tabla anterior: (160,55), (165,58), etc.

En algunos casos el nmero de "parejas" de


valores (x,y) es grande y adems muchos de
ellos aparecen repetidos; en este caso se utiliza
una "Tabla de doble entrada" como la que se
muestra a continuacin en el ejemplo 2
En la primera fila se colocan los valores de una
de las caractersticas o variable que componen
la variable bidimensional y en la primera
columna los de la otra.

Ejemplo 2.- Se representa por X el nmero de hijos de 100


familias y por Y el nmero de hijas
# de hijas (Y)

# de hijos (x)

0
1
2
3
4

-------------------------------------------------------------

0 1 2
---- ---- ---10 15 15
10 12 7
8 4 3
3 2 1
2 1 1

3
--3
2
1
0
0

La lectura de esta tabla es sencilla.


Por ejemplo: habra 7 familias que tendran 1 hijo y 2
hijas y ninguna familia tendra 3 hijos y 3 hijas.

La representacin grfica de este tipo de


variables es en realidad semejante a la
respresentacin de puntos en el plano,
usando unos ejes de coordenadas. Cada
pareja de valores da lugar a un punto en el
plano y el conjunto de puntos que se
obtiene se denomina "diagrama de
dispersin o nube de puntos".

PESO

En el ejemplo 1 anterior en el que se estudiaba la talla y el


peso de 10 personas se obtendra el siguiente diagrama de
dispersin: (En el eje X se representa la talla en cm. y en el eje Y
el peso en kg.)

TALLA

Se puede ver en el primera figura que corresponda al diagrama


de talla - peso que la serie de puntos presenta una tendencia
"ascendente" . Se dice en este caso que existen entre las dos
variables una "dependencia directa" .
En caso en que la tendencia sea "descendente" se dira que
estaramos ante una " dependencia inversa "
En caso en que no se pueda observar una tendencia clara
estaramos ante una dependencia muy dbil que no se puede
observar mediante la nube de puntos

COVARIANZA

Sean (xi, yi ) pares de observaciones


de dos caracteristicas X y Y, y sean
sus respectivas medias. La
covarianza entre entre las dos
variables se define por :

COVARIANZA

Donde xi e yi representan los pares de valores de la


variable y el producto
corresponde al producto
de las medias aritmticas de las variables x e y
respectivamente.

Pasos para calcular la covarianza de una serie


de eventos

Paso 1: Se calcula xiyi , esto es la sumatoria de los


productos de las variablares x y y; o sea:
(x1 * y1) + (x2 * y2) + ... +(xn * yn )
Paso 2: se define n, que el numero de eventos o el
numero de pares de variables
Paso 3: Se calcula
, que es el producto de las medias
de ambas variables
Paso 4: Obtenidos todos los datos se sustituyen en la
formula y se obtiene el resultado

Calcular la covarianza para el ejemplo primero


correspondiente a la variable talla - peso
Talla
(cms) 160 165 168 170 171 175 175 180 180 182
Peso
(kgs)

55

58

58

61

67

62

66

74

79

83

Paso 1:

La suma de todos los productos de los valores de x (talla) por


los de y (peso) sera:
160 55 + 165 58 + 168 58 + 170 61 + 171 67 + 175 62 +
175 66 + 180 74 + 180 79 + 182 83 = 114987

Paso 2:
Definir n como el numero de eventos en este caso es 10

Paso 3:
A este valor debemos restarle el producto de las medias de
ambas variables que naturalmente sabes calcular:
Media de x (talla): 172.6
= 172.6 * 66.3 = 11443.38
Media de y (peso): 66.3
De acuerdo ala formula tenemos que:
Sxy = (114987 / 10 ) 11443.38
Sxy = 55.32
Se ha obtenido un valor positivo para la covarianza que
corresponde a una dependencia directa como ya habamos
intuido con la nube de puntos

CORRELACIN

Se llama correlacin a la teora


que trata de estudiar la
relacin o dependencia que
existe entre las dos variables
que intervienen en una
distribucin bidimensional.

CORRELACIN
Coeficiente de correlacin de Pearson.
Si le llamamos r, su valor es:

Puede observarse que el signo del


coeficiente de correlacin es el mismo
que el de la covarianza y puede
deducirse que el valor del mismo esta
comprendico entre -1 y 1.

CORRELACIN
Se pueden deducir las siguientes conclusiones
relativas al coeficiente de correlacin (r):
- Su signo es el mismo de la covarianza, luego si r es
positivo la dependencia es directa y si es negativo
inversa.

- Si r se acerca a -1 o a +1, la dependencia es fuerte y


por tanto las predicciones que se realicen a partir de la
recta de regresin sern bastante fiables.
- Si r se acerca a 0 la dependencia es dbil y por tanto
las predicciones que se realicen a partir de la recta de
regresin sern poco fiables

CORRELACIN
Ejemplo:
Calcularemos la correlacion para el ejemplo de las
tallas y los pesos

Sxy = 55.32
Sx = 50.71

r = 55.32 / (50.71 * 752.81)

Sy = 752.81

r =0.0014

r se acerca a 0 la dependencia es dbil y por tanto las


predicciones que se realicen a partir de la recta de
regresin sern poco fiables

Se han realizado unas pruebas de habilidad (puntan de 0


a 5) en un grupo de alumnos. Las siguientes puntuaciones
corresponden a las obtenidas por seis alumnos en dos de
ellas:
Calcula la covarianza y el coeficiente de correlacin. Cmo
es la relacin entre las variables?

Clculos

Clculos

Clculos

wjleonv@yahoo.com

También podría gustarte