Documentos de Académico
Documentos de Profesional
Documentos de Cultura
• Recogida y análisis de datos para dar una descripción de las caracterı́sticas estudiadas sobre un
conjunto de individuos, deduciéndose conclusiones sobre su estructura y las relaciones existentes
con otros colectivos con los cuales se compara.
El conjunto de esta técnicas recibe el nombre de Estadı́stica Descriptiva, que constituye el
contenido de los bloques 1 y 2 de esta asignatura.
UNIDAD ESTADÍSTICA o INDIVIDUO: cada uno de los elemento que componen la población.
Es un ente observable que no tiene por qué ser una persona; puede ser un objeto o incluso algo
abstracto.
1
CENSO: examen de todos los individuos que componen la población.
Variables discretas: entre dos valores consecutivos, la variable no puede tomar otro valor. Ejemplo:
número de hijos, número de coches.
Variables continuas: entre dos valores cualesquiera, la variable puede tomar infinitos valores.
Ejemplo: altura, peso, tiempo.
Nominales: dadas dos o más modalidades sólo podemos comprobar si son distintas o no. Ejemplo:
Estudios: Grado en Tecnologı́a Informática, Grado en Software, Grado en Computadores,
Grado en Matemáticas, Grado en Estadı́stica.
Ordinales: dadas dos o más modalidades no sólo podemos comprobar si son distintas o no, sino
que también se puede establecer un orden. Ejemplo: Nivel de estudios: primaria, secundaria,
bachiller, grado, máster, doctorado.
2
Sean x1 , . . . , xk las k modalidades distintas observadas (aunque empleemos la misma notación,
no tienen por qué coincidir con las modalidades observadas sobre los k primeros individuos). Si X es
una variable (o un atributo ordinal), entonces supondremos x1 , . . . , xk ordenados en sentido creciente,
es decir, x1 < · · · < xk .
La frecuencia (absoluta) de xi , que denotaremos ni , es el número de veces que se observa dicha
modalidad. Se tiene que
Xk
ni = n.
i=1
xi ni Ni fi Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
.. .. .. .. ..
. . . . .
xk nk Nk fk Fk
n 1
3
Si X es una variable que toma muchos valores distintos, entonces es usual agruparlos en intervalos.
En esta situación, se definen de manera análoga las frecuencias de los intervalos, que se disponen en
una tabla de la siguiente forma:
(Li−1 , Li ] ni Ni fi Fi xi ai hi
(L0 , L1 ] n1 N1 f1 F1 x1 a1 h1
(L1 , L2 ] n2 N2 f2 F2 x2 a2 h2
.. .. .. .. .. .. .. ..
. . . . . . . .
(Lk−1 , Lk ] nk Nk fk Fk xk ak hk
n 1
donde xi = (Li + Li−1 )/2 es el punto medio de cada intervalo, denominado marca de clase y que
representa al intervalo, ai = Li − Li−1 es la amplitud del intervalo y hi = ni /ai es la densidad de
frecuencia.
Ejemplo 1.2 Un profesor desea conocer el nivel de Matemáticas de sus alumnos. Para ello somete
a una prueba a 15 alumnos obteniendo los siguientes resultados:
4, 3, 7, 5, 6, 4, 5, 4, 5, 6, 7, 7, 3, 4, 5
xi ni Ni fi Fi
3 2 2 0.133 0.133
4 4 6 0.266 0.4
5 4 10 0.266 0.666
6 2 12 0.133 0.8
7 3 15 0.2 1
15 1
Ejemplo 1.3 Se miden las longitudes en milı́metros de cierta componente de un sistema, obteniéndose
los siguientes resultados
0.2, 0.6, 1.1, 1.7, 1.9, 3.7, 3.8, 4.2, 4.5, 4.8, 5.3,
5.7, 6.2, 6.7, 7.5, 8.1, 8.5, 8.7, 9.2, 9.5
Obsérvese que en los datos se repiten muy pocos valores, por lo que casi todas las frecuencias son 1,
y en consecuencia, la tabla de frecuencias que se obtendrı́a serı́a demasiado larga. En este caso, es
aconsejable agrupar los datos por intervalos. El criterio de división no es objetivo, pero no ha de haber
muy pocos intervalos, pues se perderı́a demasiada información, ni demasiados, pues no se lograrı́a
el efecto deseado, aunque sı́ deben abarcar todos los posibles valores y no solaparse. Tomaremos
como criterio general los intervalos de la forma (a, b]. En este caso, hemos tomado la división
(0, 1], (1, 3], (3, 5], (5, 6], (6, 8], (8, 10]. Entonces la tabla quedará como sigue:
4
(Li−1 , Li ] ni Ni fi Fi xi ai hi
(0,1] 2 2 0.1 0.1 0.5 1 2
(1,3] 3 5 0.15 0.25 2 2 1.5
(3,5] 5 10 0.25 0.5 4 2 2.5
(5,6] 2 12 0.1 0.6 5.5 1 2
(6,8] 3 15 0.15 0.75 7 2 1.5
(8,10] 5 20 0.25 1 9 2 2.5
20 1
5
spondiente diagrama de barras. También puede usarse para representar las frecuencias relativas
en vez de las absolutas.
xi ni Ni
0 20 20
1 47 67
2 23 90
3 10 100
100
(a) Histograma
En el eje de abscisas se sitúan los intervalos en los que se han agrupado los datos, y para
cada uno de ellos se levanta un rectángulo con base dicho intervalo y área igual a la frecuencia
absoluta observada. Obsérvese que si ai es la amplitud del intervalo, para que el área del
rectángulo sea igual a ni , entonces su altura ha de ser
ni
hi =
ai
6
Al igual que en el caso no agrupado, también puede usarse el histograma para representar las
frecuencias relativas en vez de las absolutas. En esta situación, la fórmula para la altura de los
rectángulos pasarı́a a ser
fi
hi =
ai
y el área de los rectángulos serı́a fi .
(Li−1 , Li ] ni ai hi Ni
(150, 160] 4 10 0.4 4
(160, 170] 25 10 2.5 29
(170, 180] 14 10 1.4 43
(180, 200] 7 20 0.35 50
7
Ejemplo 1.6 Se ha observado el color del pelo a 12 individuos, obteniéndose los siguientes
resultados:
Color de pelo ni
Moreno (M) 5
Rubio (R) 3
Otros (O) 4
12
Estos datos se pueden representar en un diagrama de rectángulos (horizontales o verticales)
como sigue
ni 6
5
6
4
M
3
R
2
O
1
- -
1 2 3 4 5 ni M R O
Ejemplo 1.7 Con los datos del ejemplo 1.6 se obtendrı́a el siguiente diagrama de sectores:
(c) Pictograma En este tipo de gráficos se emplean figuras relacionadas con el fenómeno que se
está estudiando, de forma que su tamaño o número nos indique la frecuencia asociada a cada
modalidad.
8
Ejemplo 1.8 La siguiente tabla muestra el tipo de viviendas construidas en una población
durante el pasado año:
Tipo de vivienda ni
Casa 200
Apartamento 400
Piso 600
1200
Pictograma con figuras de tamaño proporcional a las frecuencias:
@
@
@ @
@ @
@
@ @
@
@
@ @
@
@ @
@
=200
CASAS
@ @
@
@ @
@
APARTAMENTOS
@ @ @
@
@ @
@ @@
PISOS
9
2 TEMA 2. Caracterı́sticas asociadas a una distribución de frecuencias
2.1 Introducción
La recolección y posterior ordenación de los datos no son más que las fases preliminares en cualquier
estudio estadı́stico. Por ello, una vez recogidos los datos en tablas más o menos complejas, es
conveniente calcular algunos valores que nos den una idea del comportamiento de la distribución
observada, proporcionando información resumida de la misma y permitiéndonos comparar entre sı́
dos o más series a través de estas caracterı́sticas.
Nos centraremos principalmente en el estudio de caracteres cuantitativos y entre las medidas que
estudiaremos se encuentran:
• Medidas de dispersión, que cuantifican la desviación de los datos respecto de las medidas de
tendencia central.
donde xi son los valores observados para variables no agrupadas y las marcas de clase para variables
agrupadas en intervalos. Nótese que la media aritmética se mide en las mismas unidades que los
datos.
Ejemplo 2.1 Se tienen 100 cajas de tornillos y se observa que en cada uno de ellos hay entre 0 y
5 tornillos defectuosos. Sea X =número de tornillos defectuosos de una caja. La información de la
que se dispone se recoge en la siguiente tabla:
xi ni Ni
0 4 4
1 20 24
2 45 69
3 25 94
4 5 99
5 1 100
100
10
¿Cuál es el número medio de tornillos defectuosos?
Pk
i=1 xi ni
X = =
n
0 × 4 + 1 × 20 + 2 × 45 + 3 × 25 + 4 × 5 + 5 × 1 210
= = =
100 100
= 2.10 tornillos.
Ejemplo 2.2 Se mide la longitud (en milı́metros) de cierta componente de un sistema, obteniéndose
los siguientes resultados para 20 de estas componentes:
(Li−1 , Li ] ni xi
(0, 1] 2 0.5
(1, 3] 3 2 0.5 · 2 + 2 · 3 + 4 · 5 + 5.5 · 2 + 7 · 3 + 9 · 5
X= = 5.2mm
(3, 5] 5 4 20
(5, 6] 2 5.5
(6, 8] 3 7 La longitud media de la componente es de 5.2mm.
(8, 10] 5 9
20
2.2.2 Moda
La moda es el valor de la variable que más veces se presenta, es decir, el de mayor frecuencia. Si
la distribución tiene una única moda, se le denomina unimodal. Si tiene dos modas, se le llama
bimodal. Si tiene tres modas, se le llama trimodal. En general, si tiene más de una moda se le
llama multimodal.
Cálculo para variables no agrupadas. En este caso, simplemente miramos la observación xi que
tenga mayor frecuencia (absoluta o relativa):
M o = xi / ni = max nj .
j=1,...,k
11
Cálculo para variables agrupadas. En este caso, la moda está en el intervalo o intervalos con
mayor altura en el histograma, pongamos (Li−1 , Li ]. A este o estos intervalos se le denominan
intervalo modal. Tomamos como M o el punto medio de estos intervalos.
Mo = 4
2.2.3 Mediana
Supuesto que se tienen ordenadas las observaciones de la variable estudiada en sentido creciente,
la mediana es aquel valor que divide las observaciones en dos partes iguales, es decir, deja a su
izquierda el 50% de las observaciones y a su derecha el otro 50%. Matemáticamente, corresponde al
punto xi tal que Fi = 1/2 (o equivalente, Ni = n/2).
Cálculo de la mediana para variables no agrupadas. Si existe un i de forma que Ni = n/2,
entonces
xi + xi+1
me = .
2
Si no existe un i de forma que Ni = n/2, sea j de forma que Nj−1 < n/2 < Nj (es decir, j indica el
primer Nj que supera n/2). Entonces me = xj .
Ejemplo 2.5 Calcule la mediana de los datos del ejemplo 2.1. En este caso, observamos que ningún
Ni coincide con n/2 = 50. La primera frecuencia acumulada que supera a n/2 es N3 = 69, entonces,
la mediana valdrá me = x3 = 2.
Cálculo de la mediana para variables agrupadas. En este caso, primero hay que identificar en
qué intervalo se sitúa la mediana. Para ello buscamos el primer intervalo cuya frecuencia absoluta
acumulada es mayor o igual que n/2, esto es buscamos (Li−1 , Li ], de modo que Ni−1 ≤ n/2 < Ni . A
(Li−1 , Li ] se le denomina intervalo mediano. La mediana es la abscisa x del punto donde se cortan
la curva acumulativa y la recta y = n/2:
12
Ni ..................................... D
..
E ..
n/2 ..................................
.. ..
.. ..
.. ..
..
..................................
.
..
Ni−1
A ... .. B .. C
.. .. ..
. .. ..
Li−1 me Li
Se tiene que
me = Li−1 + AB
Como los triángulos ABE y ACD son semejantes (tienen iguales todos sus ángulos), sus lados serán
proporcionales, de donde
AB EB EB n/2 − Ni−1
= ⇒ AB = AC = ai
AC DC DC Ni − Ni−1
y por tanto,
n/2 − Ni−1 n/2 − Ni−1 0.5 − Fi−1
me = Li−1 + ai = Li−1 + ai = Li−1 + ai
Ni − Ni−1 ni fi
Ejemplo 2.6 Calcule la mediana de los siguientes datos:
(Li−1 , Li ] ni Ni
(0, 3] 121 121
(3, 5] 49 170
(5, 7] 130 300
En este caso la mediana está en el intervalo (3, 5], ya que N2 = 170 > n/2 = 150 > N1 . Usando la
fórmula de la mediana obtenemos
n/2 − Ni−1 150 − 121
me = Li−1 + ai = 3 + 2 = 4.1836
ni 49
2.2.4 Cuantiles
Sea 0 < α < 1. Se define el cuantil de orden α como el punto xα tal que F (xα ) = α o equivalente-
mente N (xα ) = nα, es decir, es aquel punto que deja tras de sı́ el α100% de las observaciones y el
resto, (1 − α)100%, por encima. Nótese que el cuantil de orden α = 1/2 es la mediana. El cálculo
de los cuantiles es similar al de la mediana (es igual sustituyendo 1/2 por α):
Cálculo de xα para variables no agrupadas. Si existe un i de forma que Ni = nα, entonces
xi + xi+1
xα = .
2
Si no existe un i de forma que Ni = nα, sea j de forma que Nj−1 < nα < Nj (es decir, j indica el
primer Nj que supera nα). Entonces xα = xj .
13
Cálculo de xα para variables agrupadas. En este caso, primero hay que identificar en qué
intervalo se sitúa xα . Para ello buscamos el primer intervalo cuya frecuencia absoluta acumulada es
mayor o igual que nα, esto es, buscamos (Li−1 , Li ], de modo que Ni−1 ≤ nα < Ni , y ahora
• Los cuartiles, que dividen el número total de observaciones en cuatro partes iguales. Se
denotan Q1 = x0.25 , Q2 = x0.5 = me y Q3 = x0.75 .
• Los percentiles, que dividen el número total de observaciones en 100 partes iguales. Se
denotan P1 = x0.01 , P2 = x0.02 , ... P99 = x0.99 .
2.3.1 Rango
Se define el rango o recorrido como el mayor valor observado menos el menor. Matemáticamente
R = xmax − xmin
Si los datos están agrupados por intervalos, se tomarı́a xmax como el extremo derecho del último
intervalo y xmin como el extremo izquierdo del primer intervalo.
Se define el recorrido intercuartı́lico como la diferencia entre los cuartiles primero y tercero.
Matemáticamente:
IQR = Q3 − Q1
14
2.3.3 Varianza y desviación tı́pica
(a) S 2 ≥ 0, S ≥ 0.
(d) Las unidades en que se mide la varianza son las de X al cuadrado y las de la desviación tı́pica
coinciden con las de X.
2 2
(e) En general, SX+Y 6= SX + SY2 .
Son medidas muy similares a las anteriores (varianza y desviación tı́pica). Se define la cuasivarianza
como
Xn Xk
2
(xi − X) (xi − X)2 ni
i=1 i=1
Sc2 = .= .
n−1 n−1
Se verifica que
n
Sc2 =
S 2.
n−1
p
Se define la cuasidesviación tı́pica como Sc = + Sc2 .
15
2.4.1 Coeficiente de asimetrı́a
Se dice que una distribución de frecuencias es simétrica cuando valores que equidistan de un valor
central tienen igual frecuencia.
Propiedades de las distribuciones simétricas:
(a) g1 es adimensional.
Cuando una distribución cualquiera se compara con la distribución normal (de la misma media y
misma desciación tı́pica), interesa saber si es más o menos puntiaguda que ella. La clasificación que
se hace de las distribuciones, respecto a su apuntamiento, es
Leptocúrtica: más apuntada que la distribución normal.
Platicúrtica: menos apuntada que la distribución normal.
16
Mesocúrtica: mismo apuntamiento que la distribución normal.
Se define el coeficiente de apuntamiento o curtosis, g2 , como
Pk 4
1 i=1 xi − X ni
g2 = 4 − 3.
S n
Si g2 > 0 entonces la distribución es leptocúrtica.
Si g2 < 0 entonces la distribución es platicúrtica.
Si g2 = 0 entonces la distribución es mesocúrtica.
Propiedades:
(a) g2 es adimensional.
Interpretación: dadas dos distribuciones con igual desviación tı́pica, la más apuntada tendrá más
observaciones entre dos puntos igualmente alejados de la media, que la menos apuntada.
17
Procedimiento de Construcción
Tallo hojas
265 ⇒
26 | 5
3) Para calcular el punto de división de los valores: calcular el Rango (R), buscar la potencia
de 10 más cercana, por exceso al cociente R L
(RL
< 10m ). El valor m indica el dı́gito,
contando desde el punto decimal, en que se produce la división. Si es positivo, se cuenta
hacia la izquierdda del punto decimal, y si es negativo hacia la derecha. Si R L
< 510m−1 ,
cada tallo original se divide en 2 nuevos tallos y si R
L
< 210m , cada tallo original se divide
en 5 nuevos tallos.
18
3 Tema 3: Series estadı́sticas de dos caracteres.
Hasta ahora hemos estudiado herramientas que nos permiten describir las caracterı́sticas de una sola
variable. Sin embargo, en muchos casos prácticos, es necesario estudiar conjuntamente dos o más
variables, ası́ como la relación que hay entre ellas.
De ahora en adelante supondremos que sobre cada individuo se miden u observan dos variables
X e Y , o equivalentemente, que sobre cada individuo se observa la variable bidimensional (X, Y ).
Cada observación vendrá dada por un par (xi , yi ), 1 ≤ i ≤ N , y por tanto ahora los datos observados
serán los N pares (x1 , y1 ), (x2 , y2 ), ..., (xN , yN ). Denotaremos por x1 , ..., xk a los k valores distintos
observados de la variable X; y por y1 , ..., yp a los p valores distintos observados de la variable Y . En
general k y p no tienen porqué coincidir.
Ejemplo 3.1 Un informático tiene 10 ordenadores para arreglar. El primer paso rutinario que re-
aliza es pasarle dos antivirus. Sean
X =“número de virus diferentes detectados por el primer antivirus” e
Y =“número de virus diferentes detectados por el segundo antivirus”, obteniendo los siguientes re-
sultados:
X 3 2 4 2 1 2 5 2 3 2
Y 2 5 4 3 3 4 4 3 2 3
A la representación de los N pares observados en un sistema de ejes se le denomina nube de
puntos.
La frecuencia relativa conjunta del par (xi , yj ), que denotaremos fij , es la proporción de veces
que se observa dicho par, es decir
nij
fij = , 1 ≤ i ≤ k, 1 ≤ j ≤ p.
N
Se tiene que
k Xp
X
fij = 1.
i=1 j=1
19
La frecuencia relativa marginal de xi , que denotaremos fi. , es la proporción de veces que X
presenta dicho valor. Se tiene que
p k
ni. X X
fi. = = fij , 1 ≤ i ≤ k, fi. = 1.
N j=1 i=1
Estas frecuencias se representan en una tabla llamada tabla de frecuencias conjuntas o tabla
de doble entrada como sigue
X\Y y1 y2 ... yp
x1 n11 n12 ... n1p n1.
x2 n21 n22 ... n2p n2.
.. .. .. . . . ..
. . . . .. .
xk nk1 nk2 ... nkp nk.
n.1 n.2 ... n.p N
Nótese que las frecuencias marginales son las frecuencias de cada variable, sin tener en cuenta la
otra. Son distribuciones de una variable, y por tanto tiene sentido, para cada una de ellas, calcular
las medidas estudiadas anteriormente, como la media y la varianza. Ası́, hablaremos de la media
marginal de la variable X, x̄, la varianza marginal de la variable X, Sx2 , la media marginal de la
variable Y , ȳ, y la varianza marginal de la variable Y , Sy2 .
Ejemplo 3.2 La tabla de frecuencias conjuntas con los datos del ejemplo 3.1 es
X\Y 2 3 4 5
1 0 1 0 0 1
2 0 3 1 1 5
3 2 0 0 0 2
4 0 0 1 0 1
5 0 0 1 0 1
2 4 3 1 10
20
3.2 Distribuciones condicionadas
De los N individuos en el estudio hay n.j con Y = yj . Podemos estar interesados en estudiar la
variable X en este subconjunto de los datos originales. A la distribución de frecuencias de la variable
X en este subconjunto, definido por aquellos individuos con Y = yj , se le denomina distribución de
X condicionada a Y = yj . En esta distribución X toma los valores x1 , x2 , ..., xk con frecuencias
(absolutas) condicionadas
ni/Y =yj = nij , 1 ≤ i ≤ k,
y frecuencias relativas condicionadas
nij
fi/Y =yj = , 1 ≤ i ≤ k.
n.j
Se tiene que
k
X k
X
ni/Y =yj = n.j , fi/Y =yj = 1.
i=1 i=1
Ejemplo 3.3 Con los datos del ejemplo 3.1, la distribución de frecuencias de X condicionada a
Y = 3 es
X|Y = 3 ni|Y =3 fi|Y =3
1 1 1/4
2 3 3/4
3 0 0
4 0 0
5 0 0
4 1
nj/X=xi = nij , 1 ≤ j ≤ p,
Las distribuciones condicionadas son distribuciones de una variable (en un subconjunto de los
datos originales), y por tanto tiene sentido, para cada una de ellas, calcular las medidas estudiadas
en el tema anterior, como la media y la varianza. Ası́, hablaremos de la media condicional de la
variable X dado que Y = yj , X̄|Y =yj , la varianza condicional de la variable X dado que Y = yj ,
2
SX| Y =y
, la media condicional de la variable Y dado que X = xi , Ȳ |X=xi y la varianza condicional de
j
la variable Y dado que X = xi , SY2 |X=x .
i
21
3.3 Independencia
Diremos que dos variables X e Y son independientes si las frecuencias relativas de X condicionada
a los valores de Y no dependen de la elección del valor de Y , es decir, si
o equivalentemente
fij = fi· f·j para todo i, j
3.4 Covarianza
Dada una variable bidimensional (X, Y ), definimos la covarianza entre X e Y como
N k p
1 X 1 XX
Sxy = (xi − x̄)(yi − ȳ) = (xi − x̄)(yj − ȳ)nij .
N i=1 N i=1 j=1
Propiedades
X\Y y1 y2 y3 y4
x1 3 5 2 4
x2 6 10 4 8
x3 12 20 8 16
22
¿Son X e Y independientes? Sı́, ya que las filas son proporcionales:
2a fila =2 × 1a fila,
3a fila =4 × 1a fila.
Las columnas también son proporcionales:
2a columna = 53 × 1a columna,
3a columna = 32 × 1a columna,
4a columna = 34 × 1a columna.
Veámoslo a través de las distribuciones condicionadas X/Y = yj :
X/Y = y1 ni/Y =y1 fi/Y =y1 X/Y = y2 ni/Y =y2 fi/Y =y2
x1 3 3/21 = 1/7 x1 5 5/35 = 1/7
x2 6 6/21 = 2/7 x2 10 10/35 = 2/7
x3 12 12/21 = 4/7 x3 20 20/35 = 4/7
21 1 35 1
X/Y = y3 ni/Y =y3 fi/Y =y3 X/Y = y4 ni/Y =y4 fi/Y =y4
x1 2 2/14 = 1/7 x1 4 4/28 = 1/7
x2 4 4/14 = 2/7 x2 8 8/28 = 2/7
x3 8 8/14 = 4/7 x3 16 16/28 = 4/7
14 1 28 1
X\Y −1 0 1
−2 3 4 3 10
0 1 0 1 2
2 2 2 2 6
6 6 6 18
Para estos datos se tiene que Sxy = 0, pero X e Y no son independientes pues
23
Y Y
X\Y 1 2 3 4
1 10 6 0 0
2 0 0 0 6
3 0 0 3 0
2
x|Y =yj = xi , SX| Y =y
= 0.
j
24
4 TEMA 4. Análisis de Regresión y Correlación
4.1 Introducción
A lo largo de este tema supondremos que a un conjunto de n individuos se le han observado dos
variables, X e Y , obteniéndose los pares (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ).
En el tema anterior se vio que dos casos extremos de dependencia entre X e Y son la independencia
y la dependencia funcional, gráficamente:
Y 6 Y 6
• • • •
• • • • • •
• • • • •
•
• • • • •
-X -X
Estos son dos casos extremos. En general, nos encontraremos con situaciones intermedias:
Y 6
• •
• ••• •
•• ••• •
•
• • •
•
-X
Dependencia estadı́stica
El objetivo de la regresión es sustituir la nube de puntos por una lı́nea que, sin que pase por todos
ellos, se adpate lo mejor posible a la nube de puntos:
Y 6
•••
• •
•• ••• ••
•
•
• • •
•
-X
25
Y 6 Y 6 •
•• • •
•• • •••• •• ••
•
• •••• • • •• •
• • • •
•
•• ••
•• •
-X -X
(a) (b)
Es claro que en el caso (a) la lı́nea dibujada representa mejor (es un mejor resumen de) la nube de
puntos que en el caso (b). Se darán medidas para, una vez sustituida la dependencia estadı́stica por
la dependencia funcional, cuantificar cómo de bueno es el ajuste.
Buscaremos h no dentro del conjunto de todas las posibles funciones, sino dentro de un subconjunto
de éste: las rectas {h(x) = a + bx, a, b ∈ R}. A la solución de este problema se le denomina recta de
regresión de Y sobre X, o bien, recta de mı́nimos cuadrados de Y sobre X, abreviadamente
rY /X . Por tanto, el objetivo será buscar a y b de modo que minimicen
n
X
φ(a, b) = (yi − a − bxi )2 .
i=1
A (1) se le denomina sistema de ecuaciones normales. La primera ecuación normal dice que
ȳ = a + bx̄,
26
Recta de regresión de Y sobre X
rY /X : y = a + bx
SXY
a = ȳ − bx̄, b= 2
SX
SXY
y − ȳ = 2
(x − x̄).
SX
También puede calcularse la recta de regresión de X sobre Y , cambiando los papeles de las variables.
rX/Y : x = a0 + b 0 y
SXY
a0 = x̄ − b0 ȳ, b0 =
SY2
(a) Ambas rectas pasan por el punto G = (x̄, ȳ). A G se le denomina centro de gravedad de la nube
de puntos. Como consecuencia, dos rectas paralelas nunca podrán ser dos rectas de regresión.
(c) sg(b) = sg(b0 ) = sg(SXY ), esto es, las pendientes de las rectas rY |X y rX|Y tienen ambas el
mismo signo y que coincide con el signo de la covarianza. Por tanto, si una de ellas es creciente
(o decreciente), la otra también. No puede darse el caso de que una tenga pendiente positiva
(negativa) y la otra la tenga negativa (positiva).
es decir, son rectas paralelas a los ejes de coordenadas que se cortan en el punto (x̄, ȳ).
27
Ejemplo 4.1 Un informático tiene 10 ordenadores para arreglar. El primer paso rutinario que
realiza es pasarle dos antivirus. Sean
X =“número de virus diferentes detectados por el primer antivirus”.
Y =“número de virus diferentes detectados por el segundo antivirus”.
X 3 2 4 2 1 2 5 2 3 2
Y 2 5 4 3 3 4 4 3 2 3
2
ȳ = 3.3 x̄ = 2.6 SX = 1.24 SXY = 0.12
ası́, tenemos
0.12
rY |X : y − 3.3 = (x − 2.6)
1.24
o equivalentemente
rY |X : y = 3.04838 + 0.09677x
serán todas ellas muy pequeñas. A estas diferencias se les denomina residuos. Gráficamente:
rY /X
•... (xi , yi∗ )
.
ei ....
•.. (xi , yi )
28
Proposición 1 Sean ei , i = 1, 2, ..., n, definidos como en (2). Entonces
SXY
Se2 = (1 − rXY
2
)SY2 , donde rXY = .
SX SY
2
A rXY se le denomina coeficiente de correlación lineal entre X e Y . A rXY se le denomina
coeficiente de determinación.
Propiedades:
2
(a) rXY = b b0 .
(b) sg(rXY ) = sg(b) = sg(b0 ) = sg(SXY ) es decir, rXY tiene el mismo signo que b, b0 y SXY . Si
rXY < 0 entonces la dependencia lineal entre X e Y es inversa (cuando una crece la otra
decrece), y si rXY > 0 entonces la dependencia lineal entre X e Y es directa (cuando una crece
la otra también).
2
(c) −1 ≤ rXY ≤ 1, pues |SXY | ≤ SX SY , por tanto 0 ≤ rXY ≤ 1.
Observaciones:
(b) De la Proposición 1 y la propiedad 3 se deduce que: si rXY = 1 ó rXY = −1, entonces el ajuste
2
es perfecto. Esto es debido a que si rXY = 1, entonces Se2 = 0, y en consecuencia, los valores
ajustados coinciden con los observados. En este caso las dos rectas de regresión coinciden. A
la hora de la práctica, en raras ocasiones se tiene rXY = 1 ó rXY = −1. El ajuste lineal será
2
mejor cuanto más cercano esté rXY a 1 o a -1, en otras palabras, cuanto más cercano esté rXY
a 1.
Ejemplo 4.2 Con los datos del ejemplo 4.1, para obtener el coeficiente de correlación lineal necesi-
tamos además conocer SY2 = 0.81, entonces
SXY 0.12
rXY = =√ √ = 0.1197
SX SY 1.24 0.81
lo que nos viene a indicar que el ajuste lineal es poco adecuado. Cualquier predicción que se realice
mediante la recta de regresión será muy poco fiable.
29