Está en la página 1de 29

1 TEMA 1. Series Estadı́sticas.

Resúmenes numéricos y gráficos

1.1 Definición de Estadı́stica


En sus orı́genes, el objetivo principal de la Estadı́stica era recopilar datos demográficos, sociológicos
y económicos.
La recopilación de datos y la elaboración de estadı́sticas es una actividad antiquı́sima, y surge
como fruto del interés de los gobiernos por conocer los recursos de los que podı́an disponer para la
ejecución de determinados proyectos.
La palabra Estadı́stica fue utilizada por primera vez en Alemania hacia mediados del siglo XVII,
y se referı́a a la recopilación de datos y documentos útiles para la administración del Estado, aunque
incluso en tiempos anteriores al Imperio Romano, ya se habı́an enumerado o contado las riquezas,
los soldados, los navı́os, las rentas públicas, los habitantes, etc. La raı́z ”status” (estado de las cosas)
justifica ası́ la palabra Estadı́stica.
Debido al gran avance de la ciencia, los objetivos iniciales se han ampliado y se recogen en la
siguiente definición:

La Estadı́stica es la ciencia que trata de la teorı́a y la aplicación de métodos apropiados


para coleccionar, representar, resumir datos, analizarlos y hacer inferencias a partir de
ellos.
En la definición de Estadı́stica se distinguen dos partes fundamentales:

• Recogida y análisis de datos para dar una descripción de las caracterı́sticas estudiadas sobre un
conjunto de individuos, deduciéndose conclusiones sobre su estructura y las relaciones existentes
con otros colectivos con los cuales se compara.
El conjunto de esta técnicas recibe el nombre de Estadı́stica Descriptiva, que constituye el
contenido de los bloques 1 y 2 de esta asignatura.

• Realización de inferencias sobre las caracterı́sticas poblacionales a partir del estudio de un


subconjunto de la población o muestra.
Este es el objetivo de la Estadı́stica inductiva o inferencial, que basándose en el Cálculo de
Probabilidades, infiere, induce o estima leyes generales sobre el comportamiento de la población.
El Cálculo de Probabilidades se estudia en el bloque 3 de la asignatura.

1.2 Conceptos generales


POBLACIÓN: conjunto de elementos al que está referida la investigación y del que se extraen los
datos.

UNIDAD ESTADÍSTICA o INDIVIDUO: cada uno de los elemento que componen la población.
Es un ente observable que no tiene por qué ser una persona; puede ser un objeto o incluso algo
abstracto.

1
CENSO: examen de todos los individuos que componen la población.

MUESTRA: subconjunto de elementos de la población.

CARÁCTER: cualidad o propiedad observable en un individuo.

MODALIDAD: diferentes situaciones posibles o variantes del propio carácter.

Ejemplo 1.1 Población: Alumnos de la Universidad de Sevilla


Caracteres: Sexo, Curso, Estudios
Modalidades: { H, M }, { 1o , 2o , ...,5o }, { Grado en Tecnologı́a Informática, Grado en Software,
Grado en Computadores, Grado en Matemáticas, ... }

1.3 Tipos de caracteres


CUANTITATIVOS se pueden medir o cuantificar.

CUALITATIVOS no se pueden medir.

• Los caracteres cuantitativos se denominan variables. A cada modalidad se le asigna un número


real denominado valor. Pueden ser de dos tipos:

Variables discretas: entre dos valores consecutivos, la variable no puede tomar otro valor. Ejemplo:
número de hijos, número de coches.

Variables continuas: entre dos valores cualesquiera, la variable puede tomar infinitos valores.
Ejemplo: altura, peso, tiempo.

• Los caracteres cualitativos se denominan atributos, y pueden ser de dos tipos:

Nominales: dadas dos o más modalidades sólo podemos comprobar si son distintas o no. Ejemplo:
Estudios: Grado en Tecnologı́a Informática, Grado en Software, Grado en Computadores,
Grado en Matemáticas, Grado en Estadı́stica.

Ordinales: dadas dos o más modalidades no sólo podemos comprobar si son distintas o no, sino
que también se puede establecer un orden. Ejemplo: Nivel de estudios: primaria, secundaria,
bachiller, grado, máster, doctorado.

1.4 Frecuencias absolutas, relativas y acumuladas


El primer paso en el estudio estadı́stico descriptivo de un conjunto de datos será obtener tablas u
otros tipos de esquemas que permitan resumir y ordenar dichos datos, facilitando ası́ su análisis
posterior. Para ello, necesitamos introducir el concepto de frecuencia absoluta, relativa y acumulada.
Consideremos una población o muestra compuesta por n individuos, sobre los que se observa el
carácter X, teniendo ası́ n datos: x1 , x2 , ...., xn .

2
Sean x1 , . . . , xk las k modalidades distintas observadas (aunque empleemos la misma notación,
no tienen por qué coincidir con las modalidades observadas sobre los k primeros individuos). Si X es
una variable (o un atributo ordinal), entonces supondremos x1 , . . . , xk ordenados en sentido creciente,
es decir, x1 < · · · < xk .
La frecuencia (absoluta) de xi , que denotaremos ni , es el número de veces que se observa dicha
modalidad. Se tiene que
Xk
ni = n.
i=1

La frecuencia relativa de xi , que denotaremos fi , es la proporción de individuos que presentan


esta modalidad, es decir,
ni
fi = , 1 ≤ i ≤ k.
n
Se tiene que
X k
fi = 1.
i=1

La frecuencia relativa se suele en representar %, lo que se denomina porcentaje.


Los siguientes conceptos sólo tienen sentido para variables y atributos ordinales.
La frecuencia (absoluta) acumulada de xi , que denotaremos Ni , es el número de observaciones
con valor menor o igual que xi ,
i
X
Ni = nj , 1 ≤ i ≤ k.
j=1

Se tiene que: N1 = n1 , Nk = n, ni = Ni − Ni−1 , 2 ≤ i ≤ k.


La frecuencia relativa acumulada de xi , que denotaremos Fi , es la proporción de observaciones
con valor menor o igual que xi ,
i
Ni X
Fi = = fj , 1 ≤ i ≤ k.
n j=1

Se tiene que: F1 = f1 , Fk = 1, fi = Fi − Fi−1 , 2 ≤ i ≤ k. La frecuencia relativa acumulada


expresada en % se denomina porcentaje acumulado.

1.5 Tablas de frecuencias


Las frecuencias se representan en una tabla, denominada tabla de frecuencias, como sigue:

xi ni Ni fi Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
.. .. .. .. ..
. . . . .
xk nk Nk fk Fk
n 1

3
Si X es una variable que toma muchos valores distintos, entonces es usual agruparlos en intervalos.
En esta situación, se definen de manera análoga las frecuencias de los intervalos, que se disponen en
una tabla de la siguiente forma:

(Li−1 , Li ] ni Ni fi Fi xi ai hi
(L0 , L1 ] n1 N1 f1 F1 x1 a1 h1
(L1 , L2 ] n2 N2 f2 F2 x2 a2 h2
.. .. .. .. .. .. .. ..
. . . . . . . .
(Lk−1 , Lk ] nk Nk fk Fk xk ak hk
n 1

donde xi = (Li + Li−1 )/2 es el punto medio de cada intervalo, denominado marca de clase y que
representa al intervalo, ai = Li − Li−1 es la amplitud del intervalo y hi = ni /ai es la densidad de
frecuencia.

Ejemplo 1.2 Un profesor desea conocer el nivel de Matemáticas de sus alumnos. Para ello somete
a una prueba a 15 alumnos obteniendo los siguientes resultados:

4, 3, 7, 5, 6, 4, 5, 4, 5, 6, 7, 7, 3, 4, 5

La tabla de frecuencias para estos datos es

xi ni Ni fi Fi
3 2 2 0.133 0.133
4 4 6 0.266 0.4
5 4 10 0.266 0.666
6 2 12 0.133 0.8
7 3 15 0.2 1
15 1

Ejemplo 1.3 Se miden las longitudes en milı́metros de cierta componente de un sistema, obteniéndose
los siguientes resultados

0.2, 0.6, 1.1, 1.7, 1.9, 3.7, 3.8, 4.2, 4.5, 4.8, 5.3,
5.7, 6.2, 6.7, 7.5, 8.1, 8.5, 8.7, 9.2, 9.5

Obsérvese que en los datos se repiten muy pocos valores, por lo que casi todas las frecuencias son 1,
y en consecuencia, la tabla de frecuencias que se obtendrı́a serı́a demasiado larga. En este caso, es
aconsejable agrupar los datos por intervalos. El criterio de división no es objetivo, pero no ha de haber
muy pocos intervalos, pues se perderı́a demasiada información, ni demasiados, pues no se lograrı́a
el efecto deseado, aunque sı́ deben abarcar todos los posibles valores y no solaparse. Tomaremos
como criterio general los intervalos de la forma (a, b]. En este caso, hemos tomado la división
(0, 1], (1, 3], (3, 5], (5, 6], (6, 8], (8, 10]. Entonces la tabla quedará como sigue:

4
(Li−1 , Li ] ni Ni fi Fi xi ai hi
(0,1] 2 2 0.1 0.1 0.5 1 2
(1,3] 3 5 0.15 0.25 2 2 1.5
(3,5] 5 10 0.25 0.5 4 2 2.5
(5,6] 2 12 0.1 0.6 5.5 1 2
(6,8] 3 15 0.15 0.75 7 2 1.5
(8,10] 5 20 0.25 1 9 2 2.5
20 1

Nótese que no todos los intervalos han de tener la misma amplitud.

1.6 Métodos gráficos


Una buena representación gráfica de los datos puede mostrar de forma clara y concisa las carac-
terı́sticas de los mismos. No obstante, es necesario recalcar que la representación gráfica no es más
que un elemento auxiliar de análisis y representación, y que por sı́ sola no sirve para un estudio
riguroso de la información contenida en los datos.
Una misma información puede ser representada gráficamente de muchas maneras. Existen dis-
tintos tipos de representación según el tipo del carácter, ya sea cuantitativo o cualitativo. Algunos
de ellos son 
  Diagrama de barras


 Discretas Polı́gono de frecuencias

 (no agrupadas)
 
Curva acumulativa

 
Variables 
 Histograma

Continuas

 


Polı́gono de frecuencias

(agrupadas)


Curva acumulativa


 Diagrama de rectángulos

Atributos Diagrama de sectores

Pictogramas

1.6.1 Variables no agrupadas

(a) Diagrama de barras


En el eje de abscisas se representan los distintos valores observados de la variable. Para cada
valor observado se levanta un segmento con altura igual a la frecuencia absoluta de dicho valor.
También puede usarse el diagrama de barras para representar las frecuencias relativas. En ese
caso, la altura de cada segmento serı́a fi , en vez de ni .

(b) Polı́gono de frecuencias


El polı́gono de frecuencias es una forma alternativa de representar los mismos datos que el
diagrama de barras. Se construye uniendo los extremos superiores de los segmentos del corre-

5
spondiente diagrama de barras. También puede usarse para representar las frecuencias relativas
en vez de las absolutas.

(c) Curva acumulativa


Hasta ahora ninguno de los métodos gráficos ha representado las frecuencias acumuladas, ya
sean absolutas o relativas. La curva acumulativa es una forma de representar estas frecuencias,
esto es, el número de observaciones que hay con valor menor o igual que uno dado. Es una
función escalonada que vale 0 desde −∞ hasta el valor observado más pequeño. Entre el primer
y el segundo valor más pequeño, la función vale N1 , la primera frecuencia acumulada. Entre
el segundo valor más pequeño y el tercero, la función vale N2 , etc. A partir del valor más
grande, la función es constante e igual al número de observaciones n. La función dibujada es
discontinua en cada valor observado, siendo continua a la derecha.
También pueden representarse las frecuencias acumuladas relativas, en vez de las absolutas, en
cuyo caso a partir del valor más grande, la función es constante e igual a 1.

Ejemplo 1.4 Consideremos la variable X=número de hermanos, observada sobre n = 100


individuos

xi ni Ni
0 20 20
1 47 67
2 23 90
3 10 100
100

Diagrama de barras Polı́gono de frecuencias Curva acumulativa

1.6.2 Variables agrupadas

(a) Histograma
En el eje de abscisas se sitúan los intervalos en los que se han agrupado los datos, y para
cada uno de ellos se levanta un rectángulo con base dicho intervalo y área igual a la frecuencia
absoluta observada. Obsérvese que si ai es la amplitud del intervalo, para que el área del
rectángulo sea igual a ni , entonces su altura ha de ser
ni
hi =
ai

6
Al igual que en el caso no agrupado, también puede usarse el histograma para representar las
frecuencias relativas en vez de las absolutas. En esta situación, la fórmula para la altura de los
rectángulos pasarı́a a ser
fi
hi =
ai
y el área de los rectángulos serı́a fi .

(b) Polı́gono de frecuencias


El polı́gono de frecuencias es una forma alternativa de representar los mismos datos que el
histograma. Para su construcción, se unen los puntos medios de la parte superior de cada
rectángulo. Obsérvese que la coordenada x de cada punto es la marca de clase del intervalo. Al
igual que en los casos anteriores, también puede usarse para representar las frecuencias relativas
en vez de las absolutas.

(c) Curva acumulativa


Como en el caso discreto, representa el número de observaciones que hay con valor menor o
igual que uno dado. En el caso continuo, la curva acumulativa es una lı́nea quebrada que vale
0 desde −∞ hasta L0 . Dentro del primer intervalo, (L0 , L1 ], es un segmento que une los puntos
(L0 , 0) y (L1 , N1 ). En el segundo intervalo, (L1 , L2 ], es un segmento que une los puntos (L1 , N1 )
y (L2 , N2 ), y ası́ sucesivamente. A partir del extremo derecho del último intervalo hasta +∞
su valor será siempre igual al número de observaciones n.
También pueden representarse las frecuencias acumuladas relativas, en vez de las absolutas, en
cuyo caso a partir del extremo derecho del último intervalo hasta +∞ su valor será siempre 1.

Ejemplo 1.5 Consideremos la variable X=altura en cms, observada en n = 50 individuos

(Li−1 , Li ] ni ai hi Ni
(150, 160] 4 10 0.4 4
(160, 170] 25 10 2.5 29
(170, 180] 14 10 1.4 43
(180, 200] 7 20 0.35 50

Histograma Polı́gono de frecuencias Curva acumulativa

1.6.3 Variables cualitativas o atributos

(a) Diagrama de rectángulos Su construcción es similar al diagrama de barras. Las frecuencias


se pueden representar en el eje horizontal o en el eje vertical.

7
Ejemplo 1.6 Se ha observado el color del pelo a 12 individuos, obteniéndose los siguientes
resultados:
Color de pelo ni
Moreno (M) 5
Rubio (R) 3
Otros (O) 4
12
Estos datos se pueden representar en un diagrama de rectángulos (horizontales o verticales)
como sigue

ni 6
5
6

4
M
3
R
2
O
1

- -
1 2 3 4 5 ni M R O

(b) Diagrama de sectores En un cı́rculo, se asigna a cada modalidad un sector de tamaño


proporcional a su frecuencia.

Ejemplo 1.7 Con los datos del ejemplo 1.6 se obtendrı́a el siguiente diagrama de sectores:

Color de pelo ni fi fi × 360o


Moreno (M) 5 0.4166 150o
Rubio (R) 3 0.2500 90o
Otros (O) 4 0.3333 120o
12 1 360o

(c) Pictograma En este tipo de gráficos se emplean figuras relacionadas con el fenómeno que se
está estudiando, de forma que su tamaño o número nos indique la frecuencia asociada a cada
modalidad.

8
Ejemplo 1.8 La siguiente tabla muestra el tipo de viviendas construidas en una población
durante el pasado año:
Tipo de vivienda ni
Casa 200
Apartamento 400
Piso 600
1200
Pictograma con figuras de tamaño proporcional a las frecuencias:

@
@
@ @
@ @
@
@ @
@
@

PISOS APARTAMENTOS CASAS

Pictograma con número de figuras proporcional a las frecuencias:

@ @
@
@ @
@
=200
CASAS
@ @
@
@ @
@
APARTAMENTOS
@ @ @
@
@ @
@ @@
PISOS

9
2 TEMA 2. Caracterı́sticas asociadas a una distribución de frecuencias

2.1 Introducción
La recolección y posterior ordenación de los datos no son más que las fases preliminares en cualquier
estudio estadı́stico. Por ello, una vez recogidos los datos en tablas más o menos complejas, es
conveniente calcular algunos valores que nos den una idea del comportamiento de la distribución
observada, proporcionando información resumida de la misma y permitiéndonos comparar entre sı́
dos o más series a través de estas caracterı́sticas.
Nos centraremos principalmente en el estudio de caracteres cuantitativos y entre las medidas que
estudiaremos se encuentran:

• Medidas de tendencia central o medidas de posición, cuyo objetivo es resumir el conjunto de


observaciones en único valor.

• Medidas de dispersión, que cuantifican la desviación de los datos respecto de las medidas de
tendencia central.

• Medidas de forma, que describen la forma de la distribución.

2.2 Medidas de posición


2.2.1 Media aritmética

Se define la media (aritmética) como


n
X k
X
xi xi n i k
i=1 i=1
X
X= = = xi f i ,
n n i=1

donde xi son los valores observados para variables no agrupadas y las marcas de clase para variables
agrupadas en intervalos. Nótese que la media aritmética se mide en las mismas unidades que los
datos.

Ejemplo 2.1 Se tienen 100 cajas de tornillos y se observa que en cada uno de ellos hay entre 0 y
5 tornillos defectuosos. Sea X =número de tornillos defectuosos de una caja. La información de la
que se dispone se recoge en la siguiente tabla:
xi ni Ni
0 4 4
1 20 24
2 45 69
3 25 94
4 5 99
5 1 100
100

10
¿Cuál es el número medio de tornillos defectuosos?
Pk
i=1 xi ni
X = =
n
0 × 4 + 1 × 20 + 2 × 45 + 3 × 25 + 4 × 5 + 5 × 1 210
= = =
100 100
= 2.10 tornillos.

El número medio de tornillos defectuosos es de 2.1 (valor no observable).

Ejemplo 2.2 Se mide la longitud (en milı́metros) de cierta componente de un sistema, obteniéndose
los siguientes resultados para 20 de estas componentes:

(Li−1 , Li ] ni xi
(0, 1] 2 0.5
(1, 3] 3 2 0.5 · 2 + 2 · 3 + 4 · 5 + 5.5 · 2 + 7 · 3 + 9 · 5
X= = 5.2mm
(3, 5] 5 4 20
(5, 6] 2 5.5
(6, 8] 3 7 La longitud media de la componente es de 5.2mm.
(8, 10] 5 9
20

Propiedades de la media aritmética:

(a) La media aritmética es el centro de gravedad de la distribución,


n
X k
X
 
xi − X = xi − X ni = 0.
i=1 i=1

(b) Linealidad de la media:

(a) Dados a, b ∈ R, si Y = a + bX ⇒ Y = a + bX.


(b) X + Y = X + Y .
(c) Como consecuencia de las dos propiedades anteriores: si Z = aX + bY + c, con a, b, c ∈ R
entonces Z = aX + bY + c.

2.2.2 Moda

La moda es el valor de la variable que más veces se presenta, es decir, el de mayor frecuencia. Si
la distribución tiene una única moda, se le denomina unimodal. Si tiene dos modas, se le llama
bimodal. Si tiene tres modas, se le llama trimodal. En general, si tiene más de una moda se le
llama multimodal.
Cálculo para variables no agrupadas. En este caso, simplemente miramos la observación xi que
tenga mayor frecuencia (absoluta o relativa):

M o = xi / ni = max nj .
j=1,...,k

11
Cálculo para variables agrupadas. En este caso, la moda está en el intervalo o intervalos con
mayor altura en el histograma, pongamos (Li−1 , Li ]. A este o estos intervalos se le denominan
intervalo modal. Tomamos como M o el punto medio de estos intervalos.

Ejemplo 2.3 Calcule la moda de los siguientes datos:


(Li−1 , Li ] ni hi
(0, 3] 102 34
(3, 5] 80 40
(5, 7] 50 25
Aunque el intervalo de mayor frecuencia es (0, 3] no es el intervalo modal, sino (3, 5].

Mo = 4

2.2.3 Mediana

Supuesto que se tienen ordenadas las observaciones de la variable estudiada en sentido creciente,
la mediana es aquel valor que divide las observaciones en dos partes iguales, es decir, deja a su
izquierda el 50% de las observaciones y a su derecha el otro 50%. Matemáticamente, corresponde al
punto xi tal que Fi = 1/2 (o equivalente, Ni = n/2).
Cálculo de la mediana para variables no agrupadas. Si existe un i de forma que Ni = n/2,
entonces
xi + xi+1
me = .
2
Si no existe un i de forma que Ni = n/2, sea j de forma que Nj−1 < n/2 < Nj (es decir, j indica el
primer Nj que supera n/2). Entonces me = xj .

Ejemplo 2.4 Calcule la mediana de los siguientes datos:


xi ni Ni
2 3 3
7 44 47
15 7 54
19 54 108
En este caso, obsérvese que N3 = 54 = n/2, luego la mediana vale me=(x3 +x4 )/2 = (15+19)/2 = 17.

Ejemplo 2.5 Calcule la mediana de los datos del ejemplo 2.1. En este caso, observamos que ningún
Ni coincide con n/2 = 50. La primera frecuencia acumulada que supera a n/2 es N3 = 69, entonces,
la mediana valdrá me = x3 = 2.

Cálculo de la mediana para variables agrupadas. En este caso, primero hay que identificar en
qué intervalo se sitúa la mediana. Para ello buscamos el primer intervalo cuya frecuencia absoluta
acumulada es mayor o igual que n/2, esto es buscamos (Li−1 , Li ], de modo que Ni−1 ≤ n/2 < Ni . A
(Li−1 , Li ] se le denomina intervalo mediano. La mediana es la abscisa x del punto donde se cortan
la curva acumulativa y la recta y = n/2:

12
Ni ..................................... D

..
E  ..
n/2 ..................................

.. ..
 .. ..
 
.. ..
..
..................................
.
 ..
Ni−1 
A ... .. B .. C
.. .. ..
. .. ..

Li−1 me Li

Se tiene que
me = Li−1 + AB
Como los triángulos ABE y ACD son semejantes (tienen iguales todos sus ángulos), sus lados serán
proporcionales, de donde
AB EB EB n/2 − Ni−1
= ⇒ AB = AC = ai
AC DC DC Ni − Ni−1
y por tanto,
n/2 − Ni−1 n/2 − Ni−1 0.5 − Fi−1
me = Li−1 + ai = Li−1 + ai = Li−1 + ai
Ni − Ni−1 ni fi
Ejemplo 2.6 Calcule la mediana de los siguientes datos:

(Li−1 , Li ] ni Ni
(0, 3] 121 121
(3, 5] 49 170
(5, 7] 130 300

En este caso la mediana está en el intervalo (3, 5], ya que N2 = 170 > n/2 = 150 > N1 . Usando la
fórmula de la mediana obtenemos
n/2 − Ni−1 150 − 121
me = Li−1 + ai = 3 + 2 = 4.1836
ni 49

2.2.4 Cuantiles

Sea 0 < α < 1. Se define el cuantil de orden α como el punto xα tal que F (xα ) = α o equivalente-
mente N (xα ) = nα, es decir, es aquel punto que deja tras de sı́ el α100% de las observaciones y el
resto, (1 − α)100%, por encima. Nótese que el cuantil de orden α = 1/2 es la mediana. El cálculo
de los cuantiles es similar al de la mediana (es igual sustituyendo 1/2 por α):
Cálculo de xα para variables no agrupadas. Si existe un i de forma que Ni = nα, entonces
xi + xi+1
xα = .
2
Si no existe un i de forma que Ni = nα, sea j de forma que Nj−1 < nα < Nj (es decir, j indica el
primer Nj que supera nα). Entonces xα = xj .

13
Cálculo de xα para variables agrupadas. En este caso, primero hay que identificar en qué
intervalo se sitúa xα . Para ello buscamos el primer intervalo cuya frecuencia absoluta acumulada es
mayor o igual que nα, esto es, buscamos (Li−1 , Li ], de modo que Ni−1 ≤ nα < Ni , y ahora

nα − Ni−1 nα − Ni−1 α − Fi−1


xα = Li−1 + ai = Li−1 + ai = Li−1 + ai
Ni − Ni−1 ni fi
Los cuantiles más empleados son:

• Los cuartiles, que dividen el número total de observaciones en cuatro partes iguales. Se
denotan Q1 = x0.25 , Q2 = x0.5 = me y Q3 = x0.75 .

• Los percentiles, que dividen el número total de observaciones en 100 partes iguales. Se
denotan P1 = x0.01 , P2 = x0.02 , ... P99 = x0.99 .

2.3 Medidas de dispersión


Dado que las medidas de tendencia central resumen los datos en un valor, es interesante conocer
si este valor representa bien la serie, es decir, si los datos se encuentran concentrados en torno a
este valor, o bien están muy dispersos. Las medidas de dispersión miden la representatividad de las
medidas de localización. En general, las medidas de dispersión toman valores ≥ 0, siendo 0 si todos
los valores observados son iguales. Serán tanto mayores cuanto más dispersos estén los datos.

2.3.1 Rango

Se define el rango o recorrido como el mayor valor observado menos el menor. Matemáticamente

R = xmax − xmin

Si los datos están agrupados por intervalos, se tomarı́a xmax como el extremo derecho del último
intervalo y xmin como el extremo izquierdo del primer intervalo.

Ejemplo 2.7 Para los datos del ejemplo 2.1, R = 5 − 0 = 5.

Ejemplo 2.8 Para los datos del ejemplo 2.2 R = 10 − 0 = 10.

2.3.2 Recorrido intercuartı́lico

Se define el recorrido intercuartı́lico como la diferencia entre los cuartiles primero y tercero.
Matemáticamente:
IQR = Q3 − Q1

14
2.3.3 Varianza y desviación tı́pica

Se define la varianza, que denotaremos S 2 , como


n
X k
X k
X
(xi − x̄)2 (xi − x̄)2 ni x2i ni
i=1 i=1 i=1
S2 = = = − x̄2
n n n
donde, como es usual, los xi denotan las observaciones o las marcas de clase en el caso agrupado.

Se define la desviación tı́pica como S = + S 2 .
Otra forma de denotar la varianza de una variable X es V ar(X).
Propiedades

(a) S 2 ≥ 0, S ≥ 0.

(b) S = 0 ⇐⇒ S 2 = 0 ⇐⇒ los valores observados son todos iguales.

(c) Si Y = a + bX, entonces SY2 = b2 SX


2 2
y SY = |b|SX , donde SY2 es la varianza de Y y SX es la
varianza de X.

(d) Las unidades en que se mide la varianza son las de X al cuadrado y las de la desviación tı́pica
coinciden con las de X.
2 2
(e) En general, SX+Y 6= SX + SY2 .

2.3.4 Cuasivarianza y cuasidesviación tı́pica

Son medidas muy similares a las anteriores (varianza y desviación tı́pica). Se define la cuasivarianza
como
Xn Xk
2
(xi − X) (xi − X)2 ni
i=1 i=1
Sc2 = .= .
n−1 n−1
Se verifica que
n
Sc2 =
S 2.
n−1
p
Se define la cuasidesviación tı́pica como Sc = + Sc2 .

2.4 Medidas de forma


Además de la tendencia central y la dispersión es interesante estudiar la forma de una distribución.
Para ello introducimos los denominados coeficientes de asimetrı́a y de apuntamiento o curtosis.

15
2.4.1 Coeficiente de asimetrı́a

Se dice que una distribución de frecuencias es simétrica cuando valores que equidistan de un valor
central tienen igual frecuencia.
Propiedades de las distribuciones simétricas:

(a) Al representar una distribución simétrica mediante un diagrama de barras, histograma o


polı́gono de frecuencias, existe un eje de simetrı́a.

(b) X = me y es el punto de abscisas por donde pasa el eje de simetrı́a.

(c) Si la distribución es simétrica y unimodal entonces X = me = M o

(d) Los momentos centrales de orden impar son nulos.

Si una distribución de frecuencias no es simétrica se dice que es asimétrica. Se dice que es


asimétrica o sesgada a la derecha si las frecuencias descienden más lentamente a la derecha (cola
a la derecha). Análogamente, se dice que es asimétrica o sesgada a la izquierda si las frecuencias
descienden más lentamente a la izquierda (cola a la izquierda).

Sesgada o asimétrica a la derecha Sesgada o asimétrica a la izquierda

Se define el coeficiente de asimetrı́a de Fisher, g1 , como


Pk 3
1 i=1 xi − X ni
g1 = 3 .
S n
Si g1 = 0, la distribución es simétrica.
Si g1 < 0, la distribución es asimétrica hacia la izquierda.
Si g1 > 0, la distribución es asimétrica hacia la derecha.
Propiedades:

(a) g1 es adimensional.

(b) Si Y = a + bX, con a, b ∈ R ⇒ g1 (Y ) = sg(b) · g1 (X), donde sg(b) representa el signo de b.

2.4.2 Coeficiente de apuntamiento o curtosis

Cuando una distribución cualquiera se compara con la distribución normal (de la misma media y
misma desciación tı́pica), interesa saber si es más o menos puntiaguda que ella. La clasificación que
se hace de las distribuciones, respecto a su apuntamiento, es
Leptocúrtica: más apuntada que la distribución normal.
Platicúrtica: menos apuntada que la distribución normal.

16
Mesocúrtica: mismo apuntamiento que la distribución normal.
Se define el coeficiente de apuntamiento o curtosis, g2 , como
Pk 4
1 i=1 xi − X ni
g2 = 4 − 3.
S n
Si g2 > 0 entonces la distribución es leptocúrtica.
Si g2 < 0 entonces la distribución es platicúrtica.
Si g2 = 0 entonces la distribución es mesocúrtica.
Propiedades:

(a) g2 es adimensional.

(b) Si Y = a + bX, con a, b ∈ R ⇒ g2 (Y ) = g2 (X), es decir, g2 es invariante por cambios de origen


y de escala.

Interpretación: dadas dos distribuciones con igual desviación tı́pica, la más apuntada tendrá más
observaciones entre dos puntos igualmente alejados de la media, que la menos apuntada.

2.4.3 Otras representaciones gráficas

(a) Diagrama de cajas y bigotes (Box-Plot)


Sirve para representar los valores centrales, la simetrı́a y la dispersión.
Procedimiento de construccin

1) Fijar la escala de acuerdo con los valores máximo y mı́nimo.


2) Localizar la mediana y los cuartiles, dibujar un rectángulo que los conecte (su amplitud
será IQR) y marcar la mediana con un segmento vertical dentro de la caja.
3) A cada lado de la caja se trazan segmentos retilı́neos hasta las observaciones más extremas
dentro de las vallas interiores (valores adyacentes). Estos segmentos se trazan sobre la
horizontal que divide la caja en dos partes iguales.
Vallas interiores
f1 = Q1 − 1.5IQR f2 = Q3 + 1.5IQR
4) Sobre la horizontal se marcan los outsides (valores entre las vallas interiores y las exteriores)
mediante pequeos cuadrados y los far outsides (valores fuera de las vallas exteriores) por
medio de asteriscos.
Vallas exteriores
F1 = Q1 − 3IQR F2 = Q3 + 3IQR
(b) Diagrama de tallo y hojas
Es una representaciń de tipo numérico-gráfica que permite captar a simple vista algunas car-
acterı́sticas de la distribución de frecuencias: dispersión, valores centrales, simetrı́a, existencia
de valores diferenciados, etc.

17
Procedimiento de Construcción

1) Cada valor se divide en dos partes:

Tallo hojas
265 ⇒
26 | 5

2) Número máximo de tallos:


L = [10log10 n]

3) Para calcular el punto de división de los valores: calcular el Rango (R), buscar la potencia
de 10 más cercana, por exceso al cociente R L
(RL
< 10m ). El valor m indica el dı́gito,
contando desde el punto decimal, en que se produce la división. Si es positivo, se cuenta
hacia la izquierdda del punto decimal, y si es negativo hacia la derecha. Si R L
< 510m−1 ,
cada tallo original se divide en 2 nuevos tallos y si R
L
< 210m , cada tallo original se divide
en 5 nuevos tallos.

18
3 Tema 3: Series estadı́sticas de dos caracteres.
Hasta ahora hemos estudiado herramientas que nos permiten describir las caracterı́sticas de una sola
variable. Sin embargo, en muchos casos prácticos, es necesario estudiar conjuntamente dos o más
variables, ası́ como la relación que hay entre ellas.
De ahora en adelante supondremos que sobre cada individuo se miden u observan dos variables
X e Y , o equivalentemente, que sobre cada individuo se observa la variable bidimensional (X, Y ).
Cada observación vendrá dada por un par (xi , yi ), 1 ≤ i ≤ N , y por tanto ahora los datos observados
serán los N pares (x1 , y1 ), (x2 , y2 ), ..., (xN , yN ). Denotaremos por x1 , ..., xk a los k valores distintos
observados de la variable X; y por y1 , ..., yp a los p valores distintos observados de la variable Y . En
general k y p no tienen porqué coincidir.

Ejemplo 3.1 Un informático tiene 10 ordenadores para arreglar. El primer paso rutinario que re-
aliza es pasarle dos antivirus. Sean
X =“número de virus diferentes detectados por el primer antivirus” e
Y =“número de virus diferentes detectados por el segundo antivirus”, obteniendo los siguientes re-
sultados:

X 3 2 4 2 1 2 5 2 3 2
Y 2 5 4 3 3 4 4 3 2 3
A la representación de los N pares observados en un sistema de ejes se le denomina nube de
puntos.

3.1 Tabla de frecuencias


La frecuencia (absoluta) conjunta del par (xi , yj ), que denotaremos nij , es el número de veces
que se observa dicho par. Se tiene que
p
k X
X
nij = N.
i=1 j=1

La frecuencia relativa conjunta del par (xi , yj ), que denotaremos fij , es la proporción de veces
que se observa dicho par, es decir
nij
fij = , 1 ≤ i ≤ k, 1 ≤ j ≤ p.
N
Se tiene que
k Xp
X
fij = 1.
i=1 j=1

La frecuencia (absoluta) marginal de xi , que denotaremos ni. , es el número de veces que X


presenta dicho valor. Se tiene que
p k
X X
ni. = nij , 1 ≤ i ≤ k, ni. = N.
j=1 i=1

19
La frecuencia relativa marginal de xi , que denotaremos fi. , es la proporción de veces que X
presenta dicho valor. Se tiene que
p k
ni. X X
fi. = = fij , 1 ≤ i ≤ k, fi. = 1.
N j=1 i=1

La frecuencia (absoluta) marginal de yj , que denotaremos n.j , es el número de veces que Y


presenta dicho valor. Se tiene que
k p
X X
n.j = nij , 1 ≤ j ≤ p, n.j = N.
i=1 j=1

La frecuencia relativa marginal de yj , que denotaremos f.j , es la proporción de veces que Y


presenta dicho valor. Se tiene que
k p
n.j X X
f.j = = fij , 1 ≤ j ≤ p, f.j = 1.
N i=1 j=1

Estas frecuencias se representan en una tabla llamada tabla de frecuencias conjuntas o tabla
de doble entrada como sigue

X\Y y1 y2 ... yp
x1 n11 n12 ... n1p n1.
x2 n21 n22 ... n2p n2.
.. .. .. . . . ..
. . . . .. .
xk nk1 nk2 ... nkp nk.
n.1 n.2 ... n.p N

Nótese que las frecuencias marginales son las frecuencias de cada variable, sin tener en cuenta la
otra. Son distribuciones de una variable, y por tanto tiene sentido, para cada una de ellas, calcular
las medidas estudiadas anteriormente, como la media y la varianza. Ası́, hablaremos de la media
marginal de la variable X, x̄, la varianza marginal de la variable X, Sx2 , la media marginal de la
variable Y , ȳ, y la varianza marginal de la variable Y , Sy2 .

Ejemplo 3.2 La tabla de frecuencias conjuntas con los datos del ejemplo 3.1 es

X\Y 2 3 4 5
1 0 1 0 0 1
2 0 3 1 1 5
3 2 0 0 0 2
4 0 0 1 0 1
5 0 0 1 0 1
2 4 3 1 10

20
3.2 Distribuciones condicionadas
De los N individuos en el estudio hay n.j con Y = yj . Podemos estar interesados en estudiar la
variable X en este subconjunto de los datos originales. A la distribución de frecuencias de la variable
X en este subconjunto, definido por aquellos individuos con Y = yj , se le denomina distribución de
X condicionada a Y = yj . En esta distribución X toma los valores x1 , x2 , ..., xk con frecuencias
(absolutas) condicionadas
ni/Y =yj = nij , 1 ≤ i ≤ k,
y frecuencias relativas condicionadas
nij
fi/Y =yj = , 1 ≤ i ≤ k.
n.j
Se tiene que
k
X k
X
ni/Y =yj = n.j , fi/Y =yj = 1.
i=1 i=1

Ejemplo 3.3 Con los datos del ejemplo 3.1, la distribución de frecuencias de X condicionada a
Y = 3 es
X|Y = 3 ni|Y =3 fi|Y =3
1 1 1/4
2 3 3/4
3 0 0
4 0 0
5 0 0
4 1

Análogamente podemos considerar la distribución de Y condicionada a X = xi , que toma los valores


y1 , y2 , ..., yp con frecuencias (absolutas) condicionadas

nj/X=xi = nij , 1 ≤ j ≤ p,

y frecuencias relativas condicionadas


nij
fj/X=xi = , 1 ≤ j ≤ p,
ni.
verificando que
p p
X X
nj/X=xi = ni. , fj/X=xi = 1.
j=1 j=1

Las distribuciones condicionadas son distribuciones de una variable (en un subconjunto de los
datos originales), y por tanto tiene sentido, para cada una de ellas, calcular las medidas estudiadas
en el tema anterior, como la media y la varianza. Ası́, hablaremos de la media condicional de la
variable X dado que Y = yj , X̄|Y =yj , la varianza condicional de la variable X dado que Y = yj ,
2
SX| Y =y
, la media condicional de la variable Y dado que X = xi , Ȳ |X=xi y la varianza condicional de
j
la variable Y dado que X = xi , SY2 |X=x .
i

21
3.3 Independencia
Diremos que dos variables X e Y son independientes si las frecuencias relativas de X condicionada
a los valores de Y no dependen de la elección del valor de Y , es decir, si

fi/Y =y1 = fi/Y =y2 = ... = fi/Y =yp = fi. , 1≤i≤k

o equivalentemente
fij = fi· f·j para todo i, j

o bien, usando frecuencias absolutas


ni· n·j
nij = para todo i, j.
N
Si existe un i y un j que no cumplan la ecuación anterior, entonces las variables no son independientes.
Para que se dé la independencia ha de cumplirse la igualdad para todos los i, j.

3.4 Covarianza
Dada una variable bidimensional (X, Y ), definimos la covarianza entre X e Y como
N k p
1 X 1 XX
Sxy = (xi − x̄)(yi − ȳ) = (xi − x̄)(yj − ȳ)nij .
N i=1 N i=1 j=1

Una forma alternativa para el cálculo de la covarianza es


N k p
1 X 1 XX
Sxy = xi yi − x̄ ȳ = xi yj nij − x̄ ȳ.
N i=1 N i=1 j=1

Otra forma de denotar la covarianza entre dos variables es Cov(X, Y ).


La covarianza es una medida de dependencia de las dos variables: si la covarianza es positiva, la
relación entre X e Y es directa, es decir, cuando X crece, Y también tiende a crecer, y viceversa.
Si la covarianza es negativa, la relación es inversa, o sea, cuando X crece, Y tiende a decrecer, y
viceversa (ver figura 1). Si SXY = 0, se dice que las variables X e Y son incorreladas.

Propiedades

1. X, Y independientes =⇒ X, Y incorreladas. 4. Sxx = Sx2 .


2. Cov(aX + b, cY + d) = acSxy . 5. V ar(X + Y ) = Sx2 + Sy2 + 2Sxy .
3. Cov(aX + bY, Z) = aSxz + bSyz . 6. V ar(X − Y ) = Sx2 + Sy2 − 2Sxy .

Ejemplo 3.4 Consideremos la siguiente tabla de doble entrada:

X\Y y1 y2 y3 y4
x1 3 5 2 4
x2 6 10 4 8
x3 12 20 8 16

22
¿Son X e Y independientes? Sı́, ya que las filas son proporcionales:
2a fila =2 × 1a fila,
3a fila =4 × 1a fila.
Las columnas también son proporcionales:
2a columna = 53 × 1a columna,
3a columna = 32 × 1a columna,
4a columna = 34 × 1a columna.
Veámoslo a través de las distribuciones condicionadas X/Y = yj :

X/Y = y1 ni/Y =y1 fi/Y =y1 X/Y = y2 ni/Y =y2 fi/Y =y2
x1 3 3/21 = 1/7 x1 5 5/35 = 1/7
x2 6 6/21 = 2/7 x2 10 10/35 = 2/7
x3 12 12/21 = 4/7 x3 20 20/35 = 4/7
21 1 35 1

X/Y = y3 ni/Y =y3 fi/Y =y3 X/Y = y4 ni/Y =y4 fi/Y =y4
x1 2 2/14 = 1/7 x1 4 4/28 = 1/7
x2 4 4/14 = 2/7 x2 8 8/28 = 2/7
x3 8 8/14 = 4/7 x3 16 16/28 = 4/7
14 1 28 1

Aunque la independencia implique incorrelación (propiedad 1), la implicación contraria no es


cierta, como se muestra en el siguiente ejemplo.

Ejemplo 3.5 Consideremos la siguiente tabla de doble entrada:

X\Y −1 0 1
−2 3 4 3 10
0 1 0 1 2
2 2 2 2 6
6 6 6 18

Para estos datos se tiene que Sxy = 0, pero X e Y no son independientes pues

2×6 n2. × n.2


n22 = 0 6= = .
18 N

3.5 Dependencia funcional


Se dice que X depende funcionalmente de Y si a cada yj le corresponde una única modalidad xi
de X, es decir, si para cada j existe un único i con nij 6= 0, en otras palabras, en cada columna de
la tabla de doble entrada hay una única frecuencia conjunta no nula

23
Y Y

SXY > 0 X SXY < 0 X

Figure 1: Interpretación del signo de la covarianza.

Ejemplo 3.6 Sean X=sueldo en miles de euros e Y =categorı́a profesional.

X\Y 1 2 3 4
1 10 6 0 0
2 0 0 0 6
3 0 0 3 0

A las categorı́as 1 y 2 les corresponde el sueldo 1; a la categorı́a 3 le corresponde el sueldo 3; y a


la categorı́a 4 le corresponde el sueldo 2. Por tanto, X depende funcionalmente de Y (X = f (Y )).
Nótese que Y no depende funcionalmente de X.

Si X depende funcionalmente de Y , entonces las distribuciones X/Y = yj son degeneradas, es


decir, existe una única modalidad de X con fi/Y =yj 6= 0. Ası́, si X es una variable

2
x|Y =yj = xi , SX| Y =y
= 0.
j

A diferencia de la independencia, la dependencia funcional no es recı́proca, en general (véase el


ejemplo anterior). Una condición necesaria (no suficiente) es que la tabla sea cuadrada, es decir,
k = p.
La independencia y la dependencia funcional son dos casos extremos que se pueden presentar. En
general, nos encontratremos con casos intermedios (dependencia estadı́stica). En el tema siguiente
estudiaremos cómo medir la intensidad de la dependencia entre los caracteres X e Y .

24
4 TEMA 4. Análisis de Regresión y Correlación

4.1 Introducción
A lo largo de este tema supondremos que a un conjunto de n individuos se le han observado dos
variables, X e Y , obteniéndose los pares (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ).
En el tema anterior se vio que dos casos extremos de dependencia entre X e Y son la independencia
y la dependencia funcional, gráficamente:

Y 6 Y 6
• • • •
• • • • • •
• • • • •

• • • • •
-X -X

Independencia Dependencia funcional

Estos son dos casos extremos. En general, nos encontraremos con situaciones intermedias:

Y 6
• •
• ••• •
•• ••• •

• • •

-X

Dependencia estadı́stica

El objetivo de la regresión es sustituir la nube de puntos por una lı́nea que, sin que pase por todos
ellos, se adpate lo mejor posible a la nube de puntos:

Y 6
••• 
• •
•• ••• ••
•
•
• • •


-X

Desde el punto de vista analı́tico se trata de pasar de la dependencia estadı́stica a la dependencia


funcional, es un ”resumen” de la nube de puntos.
Consideremos las siguientes nubes de puntos:

25
Y 6 Y 6 •
•• • • 
•• • •••• •• ••

•
• •••• • • •• •
• • • •

•• ••

•• •
-X -X

(a) (b)
Es claro que en el caso (a) la lı́nea dibujada representa mejor (es un mejor resumen de) la nube de
puntos que en el caso (b). Se darán medidas para, una vez sustituida la dependencia estadı́stica por
la dependencia funcional, cuantificar cómo de bueno es el ajuste.

4.2 Rectas de regresión


Como dijimos antes, el objetivo de la regresión es buscar una lı́nea que se adpate lo mejor posible a
la nube de puntos. El criterio que emplearemos para encontrar la “mejor” función es el de mı́nimos
cuadrados: si pretendemos predecir, aproximar o ajustar los valores de Y mediante una función h
de los valores de X, entonces el objetivo será buscar h de modo que minimize el cuadrado de las
diferencias entre los valores observados y los valores ajustados:
n
X
(yi − h(xi ))2 .
i=1

Buscaremos h no dentro del conjunto de todas las posibles funciones, sino dentro de un subconjunto
de éste: las rectas {h(x) = a + bx, a, b ∈ R}. A la solución de este problema se le denomina recta de
regresión de Y sobre X, o bien, recta de mı́nimos cuadrados de Y sobre X, abreviadamente
rY /X . Por tanto, el objetivo será buscar a y b de modo que minimicen
n
X
φ(a, b) = (yi − a − bxi )2 .
i=1

Para ello, derivamos φ(a, b) con respecto a a y a b e igualamos ambas derivadas a 0:


n 
∂ X
a
φ(a, b) = −2 (yi − a − bxi ) = 0 1 ecuación normal 


∂a i=1

n (1)
∂ X
2a ecuación normal 

φ(a, b) = −2 xi (yi − a − bxi ) = 0 
∂b

i=1

A (1) se le denomina sistema de ecuaciones normales. La primera ecuación normal dice que

ȳ = a + bx̄,

de donde a = ȳ − bx̄. Sustituyendo ahora en la segunda ecuación normal se obtiene que


n n
1X 1X 2
xi yi = (ȳ − bx̄)x̄ − b x,
n i=1 n i=1 i
SXY
de donde b = 2
. A b se le denomina coeficiente de regresión de Y sobre X.
SX

26
Recta de regresión de Y sobre X

rY /X : y = a + bx

SXY
a = ȳ − bx̄, b= 2
SX

Otra forma de expresar la recta de regresión de Y sobre X, rY /X , es

SXY
y − ȳ = 2
(x − x̄).
SX

También puede calcularse la recta de regresión de X sobre Y , cambiando los papeles de las variables.

Recta de regresión de X sobre Y

rX/Y : x = a0 + b 0 y

SXY
a0 = x̄ − b0 ȳ, b0 =
SY2

A b0 se le denomina coeficiente de regresión de X sobre Y . Otra forma de expresar la recta de


regresión de X sobre Y , rX/Y , es
SXY
x − x̄ = 2 (y − ȳ).
SY
Propiedades y observaciones:

(a) Ambas rectas pasan por el punto G = (x̄, ȳ). A G se le denomina centro de gravedad de la nube
de puntos. Como consecuencia, dos rectas paralelas nunca podrán ser dos rectas de regresión.

(b) b es la pendiente de rY |X , pero b0 no es la pendiente de rX|Y , sino 1/b0 .

(c) sg(b) = sg(b0 ) = sg(SXY ), esto es, las pendientes de las rectas rY |X y rX|Y tienen ambas el
mismo signo y que coincide con el signo de la covarianza. Por tanto, si una de ellas es creciente
(o decreciente), la otra también. No puede darse el caso de que una tenga pendiente positiva
(negativa) y la otra la tenga negativa (positiva).

(d) Si SXY = 0 entonces b = b0 = 0 y las rectas de regresión son

rY /X : y = ȳ, rX/Y : x = x̄,

es decir, son rectas paralelas a los ejes de coordenadas que se cortan en el punto (x̄, ȳ).

(e) Si de la ecuación de la recta rY |X despejáramos x no obtendremos necesariamente la recta de


regresión rX|Y .

27
Ejemplo 4.1 Un informático tiene 10 ordenadores para arreglar. El primer paso rutinario que
realiza es pasarle dos antivirus. Sean
X =“número de virus diferentes detectados por el primer antivirus”.
Y =“número de virus diferentes detectados por el segundo antivirus”.

X 3 2 4 2 1 2 5 2 3 2
Y 2 5 4 3 3 4 4 3 2 3

Para calcular la recta de regresión de Y sobre X, necesitamos saber

2
ȳ = 3.3 x̄ = 2.6 SX = 1.24 SXY = 0.12

ası́, tenemos
0.12
rY |X : y − 3.3 = (x − 2.6)
1.24
o equivalentemente
rY |X : y = 3.04838 + 0.09677x

4.3 Coeficiente de correlación lineal. Coeficiente de determinación


Como ya indicamos en la introducción, es necesario saber cómo de bueno es el ajuste realizado por
la recta de regresión (ya que si éste es bueno, esto nos permitirá realizar predicciones fiables).
Si el ajuste es bueno, entonces las diferencias entre los valores observados y los valores ajustados
(ie, las predicciones realizadas por la recta de regresión),

ei = yi − yi∗ = yi − a − bxi , i = 1, 2, ..., n, (2)

serán todas ellas muy pequeñas. A estas diferencias se les denomina residuos. Gráficamente:

rY /X


•... (xi , yi∗ )
  .

ei ....
•.. (xi , yi )


La media de los residuos es:

ē = ȳ − a − bx̄ = 0 (por la 1a ecuación normal).

A la varianza de los residuos n


1X 2
Se2 = e
n i=1 i
se le denomina varianza residual. Si ésta es ”pequeña”, el ajuste realizado por la recta de regresión
será bueno, pues esto serı́a indicativo de que los residuos son pequeños. Para saber cuándo podemos
considerar que la varianza residual es ”pequeña” haremos uso del siguiente resultado:

28
Proposición 1 Sean ei , i = 1, 2, ..., n, definidos como en (2). Entonces

SXY
Se2 = (1 − rXY
2
)SY2 , donde rXY = .
SX SY
2
A rXY se le denomina coeficiente de correlación lineal entre X e Y . A rXY se le denomina
coeficiente de determinación.

Propiedades:

2
(a) rXY = b b0 .

(b) sg(rXY ) = sg(b) = sg(b0 ) = sg(SXY ) es decir, rXY tiene el mismo signo que b, b0 y SXY . Si
rXY < 0 entonces la dependencia lineal entre X e Y es inversa (cuando una crece la otra
decrece), y si rXY > 0 entonces la dependencia lineal entre X e Y es directa (cuando una crece
la otra también).
2
(c) −1 ≤ rXY ≤ 1, pues |SXY | ≤ SX SY , por tanto 0 ≤ rXY ≤ 1.

(d) rXY = 0 ⇔ SXY = 0 ⇔ X e Y están incorreladas, no existe dependencia lineal entre X e Y .

Observaciones:

(a) De las propiedades 1 y 3 se tiene que 0 ≤ b b0 ≤ 1.

(b) De la Proposición 1 y la propiedad 3 se deduce que: si rXY = 1 ó rXY = −1, entonces el ajuste
2
es perfecto. Esto es debido a que si rXY = 1, entonces Se2 = 0, y en consecuencia, los valores
ajustados coinciden con los observados. En este caso las dos rectas de regresión coinciden. A
la hora de la práctica, en raras ocasiones se tiene rXY = 1 ó rXY = −1. El ajuste lineal será
2
mejor cuanto más cercano esté rXY a 1 o a -1, en otras palabras, cuanto más cercano esté rXY
a 1.

Ejemplo 4.2 Con los datos del ejemplo 4.1, para obtener el coeficiente de correlación lineal necesi-
tamos además conocer SY2 = 0.81, entonces

SXY 0.12
rXY = =√ √ = 0.1197
SX SY 1.24 0.81
lo que nos viene a indicar que el ajuste lineal es poco adecuado. Cualquier predicción que se realice
mediante la recta de regresión será muy poco fiable.

29

También podría gustarte