Temas 1, 2, 3 y 4 Estadística

1 TEMA 1. Series Estadı́sticas.
Resúmenes numéricos y gráficos
1.1 Definición de Estadı́stica

En sus orı́genes, el objetivo principal de la Estadı́stica era recopilar datos demográficos, sociológicos
y económicos.
La recopilación de datos y la elaboración de estadı́sticas es una actividad antiquı́sima, y surge
como fruto del interés de los gobiernos por conocer los recursos de los que podı́an disponer para la
ejecución de determinados proyectos.
La palabra Estadı́stica fue utilizada por primera vez en Alemania hacia mediados del siglo XVII,
y se referı́a a la recopilación de datos y documentos útiles para la administración del Estado, aunque
incluso en tiempos anteriores al Imperio Romano, ya se habı́an enumerado o contado las riquezas,
los soldados, los navı́os, las rentas públicas, los habitantes, etc. La raı́z ”status” (estado de las cosas)
justifica ası́ la palabra Estadı́stica.
Debido al gran avance de la ciencia, los objetivos iniciales se han ampliado y se recogen en la
siguiente definición:
La Estadı́stica es la ciencia que trata de la teorı́a y la aplicación de métodos apropiados

para coleccionar, representar, resumir datos, analizarlos y hacer inferencias a partir de
ellos.
En la definición de Estadı́stica se distinguen dos partes fundamentales:
• Recogida y análisis de datos para dar una descripción de las caracterı́sticas estudiadas sobre un
conjunto de individuos, deduciéndose conclusiones sobre su estructura y las relaciones existentes
con otros colectivos con los cuales se compara.
El conjunto de esta técnicas recibe el nombre de Estadı́stica Descriptiva, que constituye el
contenido de los bloques 1 y 2 de esta asignatura.
• Realización de inferencias sobre las caracterı́sticas poblacionales a partir del estudio de un

subconjunto de la población o muestra.
Este es el objetivo de la Estadı́stica inductiva o inferencial, que basándose en el Cálculo de
Probabilidades, infiere, induce o estima leyes generales sobre el comportamiento de la población.
El Cálculo de Probabilidades se estudia en el bloque 3 de la asignatura.
1.2 Conceptos generales

POBLACIÓN: conjunto de elementos al que está referida la investigación y del que se extraen los
datos.
UNIDAD ESTADÍSTICA o INDIVIDUO: cada uno de los elemento que componen la población.
Es un ente observable que no tiene por qué ser una persona; puede ser un objeto o incluso algo
abstracto.
1
CENSO: examen de todos los individuos que componen la población.
MUESTRA: subconjunto de elementos de la población.
CARÁCTER: cualidad o propiedad observable en un individuo.
MODALIDAD: diferentes situaciones posibles o variantes del propio carácter.
Ejemplo 1.1 Población: Alumnos de la Universidad de Sevilla

Caracteres: Sexo, Curso, Estudios
Modalidades: { H, M }, { 1o , 2o , ...,5o }, { Grado en Tecnologı́a Informática, Grado en Software,
Grado en Computadores, Grado en Matemáticas, ... }
1.3 Tipos de caracteres

CUANTITATIVOS se pueden medir o cuantificar.
CUALITATIVOS no se pueden medir.
• Los caracteres cuantitativos se denominan variables. A cada modalidad se le asigna un número

real denominado valor. Pueden ser de dos tipos:
Variables discretas: entre dos valores consecutivos, la variable no puede tomar otro valor. Ejemplo:
número de hijos, número de coches.
Variables continuas: entre dos valores cualesquiera, la variable puede tomar infinitos valores.
Ejemplo: altura, peso, tiempo.
• Los caracteres cualitativos se denominan atributos, y pueden ser de dos tipos:
Nominales: dadas dos o más modalidades sólo podemos comprobar si son distintas o no. Ejemplo:
Estudios: Grado en Tecnologı́a Informática, Grado en Software, Grado en Computadores,
Grado en Matemáticas, Grado en Estadı́stica.
Ordinales: dadas dos o más modalidades no sólo podemos comprobar si son distintas o no, sino
que también se puede establecer un orden. Ejemplo: Nivel de estudios: primaria, secundaria,
bachiller, grado, máster, doctorado.
1.4 Frecuencias absolutas, relativas y acumuladas

El primer paso en el estudio estadı́stico descriptivo de un conjunto de datos será obtener tablas u
otros tipos de esquemas que permitan resumir y ordenar dichos datos, facilitando ası́ su análisis
posterior. Para ello, necesitamos introducir el concepto de frecuencia absoluta, relativa y acumulada.
Consideremos una población o muestra compuesta por n individuos, sobre los que se observa el
carácter X, teniendo ası́ n datos: x1 , x2 , ...., xn .
2
Sean x1 , . . . , xk las k modalidades distintas observadas (aunque empleemos la misma notación,
no tienen por qué coincidir con las modalidades observadas sobre los k primeros individuos). Si X es
una variable (o un atributo ordinal), entonces supondremos x1 , . . . , xk ordenados en sentido creciente,
es decir, x1 < · · · < xk .
La frecuencia (absoluta) de xi , que denotaremos ni , es el número de veces que se observa dicha
modalidad. Se tiene que
Xk
ni = n.
i=1
La frecuencia relativa de xi , que denotaremos fi , es la proporción de individuos que presentan

esta modalidad, es decir,
ni
fi = , 1 ≤ i ≤ k.
n
Se tiene que
X k
fi = 1.
i=1
La frecuencia relativa se suele en representar %, lo que se denomina porcentaje.

Los siguientes conceptos sólo tienen sentido para variables y atributos ordinales.
La frecuencia (absoluta) acumulada de xi , que denotaremos Ni , es el número de observaciones
con valor menor o igual que xi ,
i
X
Ni = nj , 1 ≤ i ≤ k.
j=1
Se tiene que: N1 = n1 , Nk = n, ni = Ni − Ni−1 , 2 ≤ i ≤ k.

La frecuencia relativa acumulada de xi , que denotaremos Fi , es la proporción de observaciones
con valor menor o igual que xi ,
i
Ni X
Fi = = fj , 1 ≤ i ≤ k.
n j=1
Se tiene que: F1 = f1 , Fk = 1, fi = Fi − Fi−1 , 2 ≤ i ≤ k. La frecuencia relativa acumulada

expresada en % se denomina porcentaje acumulado.
1.5 Tablas de frecuencias

Las frecuencias se representan en una tabla, denominada tabla de frecuencias, como sigue:
xi ni Ni fi Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
.. .. .. .. ..
. . . . .
xk nk Nk fk Fk
n 1
3
Si X es una variable que toma muchos valores distintos, entonces es usual agruparlos en intervalos.
En esta situación, se definen de manera análoga las frecuencias de los intervalos, que se disponen en
una tabla de la siguiente forma:
(Li−1 , Li ] ni Ni fi Fi xi ai hi
(L0 , L1 ] n1 N1 f1 F1 x1 a1 h1
(L1 , L2 ] n2 N2 f2 F2 x2 a2 h2
.. .. .. .. .. .. .. ..
. . . . . . . .
(Lk−1 , Lk ] nk Nk fk Fk xk ak hk
n 1
donde xi = (Li + Li−1 )/2 es el punto medio de cada intervalo, denominado marca de clase y que
representa al intervalo, ai = Li − Li−1 es la amplitud del intervalo y hi = ni /ai es la densidad de
frecuencia.
Ejemplo 1.2 Un profesor desea conocer el nivel de Matemáticas de sus alumnos. Para ello somete
a una prueba a 15 alumnos obteniendo los siguientes resultados:
4, 3, 7, 5, 6, 4, 5, 4, 5, 6, 7, 7, 3, 4, 5
La tabla de frecuencias para estos datos es
xi ni Ni fi Fi
3 2 2 0.133 0.133
4 4 6 0.266 0.4
5 4 10 0.266 0.666
6 2 12 0.133 0.8
7 3 15 0.2 1
15 1
Ejemplo 1.3 Se miden las longitudes en milı́metros de cierta componente de un sistema, obteniéndose
los siguientes resultados
0.2, 0.6, 1.1, 1.7, 1.9, 3.7, 3.8, 4.2, 4.5, 4.8, 5.3,
5.7, 6.2, 6.7, 7.5, 8.1, 8.5, 8.7, 9.2, 9.5
Obsérvese que en los datos se repiten muy pocos valores, por lo que casi todas las frecuencias son 1,
y en consecuencia, la tabla de frecuencias que se obtendrı́a serı́a demasiado larga. En este caso, es
aconsejable agrupar los datos por intervalos. El criterio de división no es objetivo, pero no ha de haber
muy pocos intervalos, pues se perderı́a demasiada información, ni demasiados, pues no se lograrı́a
el efecto deseado, aunque sı́ deben abarcar todos los posibles valores y no solaparse. Tomaremos
como criterio general los intervalos de la forma (a, b]. En este caso, hemos tomado la división
(0, 1], (1, 3], (3, 5], (5, 6], (6, 8], (8, 10]. Entonces la tabla quedará como sigue:
4
(Li−1 , Li ] ni Ni fi Fi xi ai hi
(0,1] 2 2 0.1 0.1 0.5 1 2
(1,3] 3 5 0.15 0.25 2 2 1.5
(3,5] 5 10 0.25 0.5 4 2 2.5
(5,6] 2 12 0.1 0.6 5.5 1 2
(6,8] 3 15 0.15 0.75 7 2 1.5
(8,10] 5 20 0.25 1 9 2 2.5
20 1
Nótese que no todos los intervalos han de tener la misma amplitud.
1.6 Métodos gráficos

Una buena representación gráfica de los datos puede mostrar de forma clara y concisa las carac-
terı́sticas de los mismos. No obstante, es necesario recalcar que la representación gráfica no es más
que un elemento auxiliar de análisis y representación, y que por sı́ sola no sirve para un estudio
riguroso de la información contenida en los datos.
Una misma información puede ser representada gráficamente de muchas maneras. Existen dis-
tintos tipos de representación según el tipo del carácter, ya sea cuantitativo o cualitativo. Algunos
de ellos son 
  Diagrama de barras


 Discretas Polı́gono de frecuencias

 (no agrupadas)
 
Curva acumulativa

 
Variables 
 Histograma

Continuas

 


Polı́gono de frecuencias

(agrupadas)


Curva acumulativa


 Diagrama de rectángulos

Atributos Diagrama de sectores

Pictogramas

1.6.1 Variables no agrupadas
(a) Diagrama de barras

En el eje de abscisas se representan los distintos valores observados de la variable. Para cada
valor observado se levanta un segmento con altura igual a la frecuencia absoluta de dicho valor.
También puede usarse el diagrama de barras para representar las frecuencias relativas. En ese
caso, la altura de cada segmento serı́a fi , en vez de ni .
(b) Polı́gono de frecuencias

El polı́gono de frecuencias es una forma alternativa de representar los mismos datos que el
diagrama de barras. Se construye uniendo los extremos superiores de los segmentos del corre-
5
spondiente diagrama de barras. También puede usarse para representar las frecuencias relativas
en vez de las absolutas.
(c) Curva acumulativa

Hasta ahora ninguno de los métodos gráficos ha representado las frecuencias acumuladas, ya
sean absolutas o relativas. La curva acumulativa es una forma de representar estas frecuencias,
esto es, el número de observaciones que hay con valor menor o igual que uno dado. Es una
función escalonada que vale 0 desde −∞ hasta el valor observado más pequeño. Entre el primer
y el segundo valor más pequeño, la función vale N1 , la primera frecuencia acumulada. Entre
el segundo valor más pequeño y el tercero, la función vale N2 , etc. A partir del valor más
grande, la función es constante e igual al número de observaciones n. La función dibujada es
discontinua en cada valor observado, siendo continua a la derecha.
También pueden representarse las frecuencias acumuladas relativas, en vez de las absolutas, en
cuyo caso a partir del valor más grande, la función es constante e igual a 1.
Ejemplo 1.4 Consideremos la variable X=número de hermanos, observada sobre n = 100

individuos
xi ni Ni
0 20 20
1 47 67
2 23 90
3 10 100
100
Diagrama de barras Polı́gono de frecuencias Curva acumulativa
1.6.2 Variables agrupadas
(a) Histograma
En el eje de abscisas se sitúan los intervalos en los que se han agrupado los datos, y para
cada uno de ellos se levanta un rectángulo con base dicho intervalo y área igual a la frecuencia
absoluta observada. Obsérvese que si ai es la amplitud del intervalo, para que el área del
rectángulo sea igual a ni , entonces su altura ha de ser
ni
hi =
ai
6
Al igual que en el caso no agrupado, también puede usarse el histograma para representar las
frecuencias relativas en vez de las absolutas. En esta situación, la fórmula para la altura de los
rectángulos pasarı́a a ser
fi
hi =
ai
y el área de los rectángulos serı́a fi .
(b) Polı́gono de frecuencias

El polı́gono de frecuencias es una forma alternativa de representar los mismos datos que el
histograma. Para su construcción, se unen los puntos medios de la parte superior de cada
rectángulo. Obsérvese que la coordenada x de cada punto es la marca de clase del intervalo. Al
igual que en los casos anteriores, también puede usarse para representar las frecuencias relativas
en vez de las absolutas.
(c) Curva acumulativa

Como en el caso discreto, representa el número de observaciones que hay con valor menor o
igual que uno dado. En el caso continuo, la curva acumulativa es una lı́nea quebrada que vale
0 desde −∞ hasta L0 . Dentro del primer intervalo, (L0 , L1 ], es un segmento que une los puntos
(L0 , 0) y (L1 , N1 ). En el segundo intervalo, (L1 , L2 ], es un segmento que une los puntos (L1 , N1 )
y (L2 , N2 ), y ası́ sucesivamente. A partir del extremo derecho del último intervalo hasta +∞
su valor será siempre igual al número de observaciones n.
También pueden representarse las frecuencias acumuladas relativas, en vez de las absolutas, en
cuyo caso a partir del extremo derecho del último intervalo hasta +∞ su valor será siempre 1.
Ejemplo 1.5 Consideremos la variable X=altura en cms, observada en n = 50 individuos
(Li−1 , Li ] ni ai hi Ni
(150, 160] 4 10 0.4 4
(160, 170] 25 10 2.5 29
(170, 180] 14 10 1.4 43
(180, 200] 7 20 0.35 50
Histograma Polı́gono de frecuencias Curva acumulativa
1.6.3 Variables cualitativas o atributos
(a) Diagrama de rectángulos Su construcción es similar al diagrama de barras. Las frecuencias

se pueden representar en el eje horizontal o en el eje vertical.
7
Ejemplo 1.6 Se ha observado el color del pelo a 12 individuos, obteniéndose los siguientes
resultados:
Color de pelo ni
Moreno (M) 5
Rubio (R) 3
Otros (O) 4
12
Estos datos se pueden representar en un diagrama de rectángulos (horizontales o verticales)
como sigue
ni 6
5
6
4
M
3
R
2
O
1
- -
1 2 3 4 5 ni M R O
(b) Diagrama de sectores En un cı́rculo, se asigna a cada modalidad un sector de tamaño

proporcional a su frecuencia.
Ejemplo 1.7 Con los datos del ejemplo 1.6 se obtendrı́a el siguiente diagrama de sectores:
Color de pelo ni fi fi × 360o

Moreno (M) 5 0.4166 150o
Rubio (R) 3 0.2500 90o
Otros (O) 4 0.3333 120o
12 1 360o
(c) Pictograma En este tipo de gráficos se emplean figuras relacionadas con el fenómeno que se
está estudiando, de forma que su tamaño o número nos indique la frecuencia asociada a cada
modalidad.
8
Ejemplo 1.8 La siguiente tabla muestra el tipo de viviendas construidas en una población
durante el pasado año:
Tipo de vivienda ni
Casa 200
Apartamento 400
Piso 600
1200
Pictograma con figuras de tamaño proporcional a las frecuencias:
@
@
@ @
@ @
@
@ @
@
@
PISOS APARTAMENTOS CASAS
Pictograma con número de figuras proporcional a las frecuencias:
@ @
@
@ @
@
=200
CASAS
@ @
@
@ @
@
APARTAMENTOS
@ @ @
@
@ @
@ @@
PISOS
9
2 TEMA 2. Caracterı́sticas asociadas a una distribución de frecuencias
2.1 Introducción
La recolección y posterior ordenación de los datos no son más que las fases preliminares en cualquier
estudio estadı́stico. Por ello, una vez recogidos los datos en tablas más o menos complejas, es
conveniente calcular algunos valores que nos den una idea del comportamiento de la distribución
observada, proporcionando información resumida de la misma y permitiéndonos comparar entre sı́
dos o más series a través de estas caracterı́sticas.
Nos centraremos principalmente en el estudio de caracteres cuantitativos y entre las medidas que
estudiaremos se encuentran:
• Medidas de tendencia central o medidas de posición, cuyo objetivo es resumir el conjunto de

observaciones en único valor.
• Medidas de dispersión, que cuantifican la desviación de los datos respecto de las medidas de
tendencia central.
• Medidas de forma, que describen la forma de la distribución.
2.2 Medidas de posición

2.2.1 Media aritmética
Se define la media (aritmética) como

n
X k
X
xi xi n i k
i=1 i=1
X
X= = = xi f i ,
n n i=1
donde xi son los valores observados para variables no agrupadas y las marcas de clase para variables
agrupadas en intervalos. Nótese que la media aritmética se mide en las mismas unidades que los
datos.
Ejemplo 2.1 Se tienen 100 cajas de tornillos y se observa que en cada uno de ellos hay entre 0 y
5 tornillos defectuosos. Sea X =número de tornillos defectuosos de una caja. La información de la
que se dispone se recoge en la siguiente tabla:
xi ni Ni
0 4 4
1 20 24
2 45 69
3 25 94
4 5 99
5 1 100
100
10
¿Cuál es el número medio de tornillos defectuosos?
Pk
i=1 xi ni
X = =
n
0 × 4 + 1 × 20 + 2 × 45 + 3 × 25 + 4 × 5 + 5 × 1 210
= = =
100 100
= 2.10 tornillos.
El número medio de tornillos defectuosos es de 2.1 (valor no observable).
Ejemplo 2.2 Se mide la longitud (en milı́metros) de cierta componente de un sistema, obteniéndose
los siguientes resultados para 20 de estas componentes:
(Li−1 , Li ] ni xi
(0, 1] 2 0.5
(1, 3] 3 2 0.5 · 2 + 2 · 3 + 4 · 5 + 5.5 · 2 + 7 · 3 + 9 · 5
X= = 5.2mm
(3, 5] 5 4 20
(5, 6] 2 5.5
(6, 8] 3 7 La longitud media de la componente es de 5.2mm.
(8, 10] 5 9
20
Propiedades de la media aritmética:
(a) La media aritmética es el centro de gravedad de la distribución,

n
X k
X

xi − X = xi − X ni = 0.
i=1 i=1
(b) Linealidad de la media:
(a) Dados a, b ∈ R, si Y = a + bX ⇒ Y = a + bX.

(b) X + Y = X + Y .
(c) Como consecuencia de las dos propiedades anteriores: si Z = aX + bY + c, con a, b, c ∈ R
entonces Z = aX + bY + c.
2.2.2 Moda
La moda es el valor de la variable que más veces se presenta, es decir, el de mayor frecuencia. Si
la distribución tiene una única moda, se le denomina unimodal. Si tiene dos modas, se le llama
bimodal. Si tiene tres modas, se le llama trimodal. En general, si tiene más de una moda se le
llama multimodal.
Cálculo para variables no agrupadas. En este caso, simplemente miramos la observación xi que
tenga mayor frecuencia (absoluta o relativa):
M o = xi / ni = max nj .
j=1,...,k
11
Cálculo para variables agrupadas. En este caso, la moda está en el intervalo o intervalos con
mayor altura en el histograma, pongamos (Li−1 , Li ]. A este o estos intervalos se le denominan
intervalo modal. Tomamos como M o el punto medio de estos intervalos.
Ejemplo 2.3 Calcule la moda de los siguientes datos:

(Li−1 , Li ] ni hi
(0, 3] 102 34
(3, 5] 80 40
(5, 7] 50 25
Aunque el intervalo de mayor frecuencia es (0, 3] no es el intervalo modal, sino (3, 5].
Mo = 4
2.2.3 Mediana
Supuesto que se tienen ordenadas las observaciones de la variable estudiada en sentido creciente,
la mediana es aquel valor que divide las observaciones en dos partes iguales, es decir, deja a su
izquierda el 50% de las observaciones y a su derecha el otro 50%. Matemáticamente, corresponde al
punto xi tal que Fi = 1/2 (o equivalente, Ni = n/2).
Cálculo de la mediana para variables no agrupadas. Si existe un i de forma que Ni = n/2,
entonces
xi + xi+1
me = .
2
Si no existe un i de forma que Ni = n/2, sea j de forma que Nj−1 < n/2 < Nj (es decir, j indica el
primer Nj que supera n/2). Entonces me = xj .
Ejemplo 2.4 Calcule la mediana de los siguientes datos:

xi ni Ni
2 3 3
7 44 47
15 7 54
19 54 108
En este caso, obsérvese que N3 = 54 = n/2, luego la mediana vale me=(x3 +x4 )/2 = (15+19)/2 = 17.
Ejemplo 2.5 Calcule la mediana de los datos del ejemplo 2.1. En este caso, observamos que ningún
Ni coincide con n/2 = 50. La primera frecuencia acumulada que supera a n/2 es N3 = 69, entonces,
la mediana valdrá me = x3 = 2.
Cálculo de la mediana para variables agrupadas. En este caso, primero hay que identificar en
qué intervalo se sitúa la mediana. Para ello buscamos el primer intervalo cuya frecuencia absoluta
acumulada es mayor o igual que n/2, esto es buscamos (Li−1 , Li ], de modo que Ni−1 ≤ n/2 < Ni . A
(Li−1 , Li ] se le denomina intervalo mediano. La mediana es la abscisa x del punto donde se cortan
la curva acumulativa y la recta y = n/2:
12
Ni ..................................... D

..
E ..
n/2 ..................................

.. ..
.. ..

.. ..
..
..................................
.
..
Ni−1
A ... .. B .. C
.. .. ..
. .. ..
Li−1 me Li
Se tiene que
me = Li−1 + AB
Como los triángulos ABE y ACD son semejantes (tienen iguales todos sus ángulos), sus lados serán
proporcionales, de donde
AB EB EB n/2 − Ni−1
= ⇒ AB = AC = ai
AC DC DC Ni − Ni−1
y por tanto,
n/2 − Ni−1 n/2 − Ni−1 0.5 − Fi−1
me = Li−1 + ai = Li−1 + ai = Li−1 + ai
Ni − Ni−1 ni fi
Ejemplo 2.6 Calcule la mediana de los siguientes datos:
(Li−1 , Li ] ni Ni
(0, 3] 121 121
(3, 5] 49 170
(5, 7] 130 300
En este caso la mediana está en el intervalo (3, 5], ya que N2 = 170 > n/2 = 150 > N1 . Usando la
fórmula de la mediana obtenemos
n/2 − Ni−1 150 − 121
me = Li−1 + ai = 3 + 2 = 4.1836
ni 49
2.2.4 Cuantiles
Sea 0 < α < 1. Se define el cuantil de orden α como el punto xα tal que F (xα ) = α o equivalente-
mente N (xα ) = nα, es decir, es aquel punto que deja tras de sı́ el α100% de las observaciones y el
resto, (1 − α)100%, por encima. Nótese que el cuantil de orden α = 1/2 es la mediana. El cálculo
de los cuantiles es similar al de la mediana (es igual sustituyendo 1/2 por α):
Cálculo de xα para variables no agrupadas. Si existe un i de forma que Ni = nα, entonces
xi + xi+1
xα = .
2
Si no existe un i de forma que Ni = nα, sea j de forma que Nj−1 < nα < Nj (es decir, j indica el
primer Nj que supera nα). Entonces xα = xj .
13
Cálculo de xα para variables agrupadas. En este caso, primero hay que identificar en qué
intervalo se sitúa xα . Para ello buscamos el primer intervalo cuya frecuencia absoluta acumulada es
mayor o igual que nα, esto es, buscamos (Li−1 , Li ], de modo que Ni−1 ≤ nα < Ni , y ahora
nα − Ni−1 nα − Ni−1 α − Fi−1

xα = Li−1 + ai = Li−1 + ai = Li−1 + ai
Ni − Ni−1 ni fi
Los cuantiles más empleados son:
• Los cuartiles, que dividen el número total de observaciones en cuatro partes iguales. Se
denotan Q1 = x0.25 , Q2 = x0.5 = me y Q3 = x0.75 .
• Los percentiles, que dividen el número total de observaciones en 100 partes iguales. Se
denotan P1 = x0.01 , P2 = x0.02 , ... P99 = x0.99 .
2.3 Medidas de dispersión

Dado que las medidas de tendencia central resumen los datos en un valor, es interesante conocer
si este valor representa bien la serie, es decir, si los datos se encuentran concentrados en torno a
este valor, o bien están muy dispersos. Las medidas de dispersión miden la representatividad de las
medidas de localización. En general, las medidas de dispersión toman valores ≥ 0, siendo 0 si todos
los valores observados son iguales. Serán tanto mayores cuanto más dispersos estén los datos.
2.3.1 Rango
Se define el rango o recorrido como el mayor valor observado menos el menor. Matemáticamente
R = xmax − xmin
Si los datos están agrupados por intervalos, se tomarı́a xmax como el extremo derecho del último
intervalo y xmin como el extremo izquierdo del primer intervalo.
Ejemplo 2.7 Para los datos del ejemplo 2.1, R = 5 − 0 = 5.
Ejemplo 2.8 Para los datos del ejemplo 2.2 R = 10 − 0 = 10.
2.3.2 Recorrido intercuartı́lico
Se define el recorrido intercuartı́lico como la diferencia entre los cuartiles primero y tercero.
Matemáticamente:
IQR = Q3 − Q1
14
2.3.3 Varianza y desviación tı́pica
Se define la varianza, que denotaremos S 2 , como

n
X k
X k
X
(xi − x̄)2 (xi − x̄)2 ni x2i ni
i=1 i=1 i=1
S2 = = = − x̄2
n n n
donde, como es usual, los xi denotan las observaciones o las marcas de clase en el caso agrupado.
√
Se define la desviación tı́pica como S = + S 2 .
Otra forma de denotar la varianza de una variable X es V ar(X).
Propiedades
(a) S 2 ≥ 0, S ≥ 0.
(b) S = 0 ⇐⇒ S 2 = 0 ⇐⇒ los valores observados son todos iguales.
(c) Si Y = a + bX, entonces SY2 = b2 SX

2 2
y SY = |b|SX , donde SY2 es la varianza de Y y SX es la
varianza de X.
(d) Las unidades en que se mide la varianza son las de X al cuadrado y las de la desviación tı́pica
coinciden con las de X.
2 2
(e) En general, SX+Y 6= SX + SY2 .
2.3.4 Cuasivarianza y cuasidesviación tı́pica
Son medidas muy similares a las anteriores (varianza y desviación tı́pica). Se define la cuasivarianza
como
Xn Xk
2
(xi − X) (xi − X)2 ni
i=1 i=1
Sc2 = .= .
n−1 n−1
Se verifica que
n
Sc2 =
S 2.
n−1
p
Se define la cuasidesviación tı́pica como Sc = + Sc2 .
2.4 Medidas de forma

Además de la tendencia central y la dispersión es interesante estudiar la forma de una distribución.
Para ello introducimos los denominados coeficientes de asimetrı́a y de apuntamiento o curtosis.
15
2.4.1 Coeficiente de asimetrı́a
Se dice que una distribución de frecuencias es simétrica cuando valores que equidistan de un valor
central tienen igual frecuencia.
Propiedades de las distribuciones simétricas:
(a) Al representar una distribución simétrica mediante un diagrama de barras, histograma o

polı́gono de frecuencias, existe un eje de simetrı́a.
(b) X = me y es el punto de abscisas por donde pasa el eje de simetrı́a.
(c) Si la distribución es simétrica y unimodal entonces X = me = M o
(d) Los momentos centrales de orden impar son nulos.
Si una distribución de frecuencias no es simétrica se dice que es asimétrica. Se dice que es

asimétrica o sesgada a la derecha si las frecuencias descienden más lentamente a la derecha (cola
a la derecha). Análogamente, se dice que es asimétrica o sesgada a la izquierda si las frecuencias
descienden más lentamente a la izquierda (cola a la izquierda).
Sesgada o asimétrica a la derecha Sesgada o asimétrica a la izquierda
Se define el coeficiente de asimetrı́a de Fisher, g1 , como

Pk 3
1 i=1 xi − X ni
g1 = 3 .
S n
Si g1 = 0, la distribución es simétrica.
Si g1 < 0, la distribución es asimétrica hacia la izquierda.
Si g1 > 0, la distribución es asimétrica hacia la derecha.
Propiedades:
(a) g1 es adimensional.
(b) Si Y = a + bX, con a, b ∈ R ⇒ g1 (Y ) = sg(b) · g1 (X), donde sg(b) representa el signo de b.
2.4.2 Coeficiente de apuntamiento o curtosis
Cuando una distribución cualquiera se compara con la distribución normal (de la misma media y
misma desciación tı́pica), interesa saber si es más o menos puntiaguda que ella. La clasificación que
se hace de las distribuciones, respecto a su apuntamiento, es
Leptocúrtica: más apuntada que la distribución normal.
Platicúrtica: menos apuntada que la distribución normal.
16
Mesocúrtica: mismo apuntamiento que la distribución normal.
Se define el coeficiente de apuntamiento o curtosis, g2 , como
Pk 4
1 i=1 xi − X ni
g2 = 4 − 3.
S n
Si g2 > 0 entonces la distribución es leptocúrtica.
Si g2 < 0 entonces la distribución es platicúrtica.
Si g2 = 0 entonces la distribución es mesocúrtica.
Propiedades:
(a) g2 es adimensional.
(b) Si Y = a + bX, con a, b ∈ R ⇒ g2 (Y ) = g2 (X), es decir, g2 es invariante por cambios de origen

y de escala.
Interpretación: dadas dos distribuciones con igual desviación tı́pica, la más apuntada tendrá más
observaciones entre dos puntos igualmente alejados de la media, que la menos apuntada.
2.4.3 Otras representaciones gráficas
(a) Diagrama de cajas y bigotes (Box-Plot)

Sirve para representar los valores centrales, la simetrı́a y la dispersión.
Procedimiento de construccin
1) Fijar la escala de acuerdo con los valores máximo y mı́nimo.

2) Localizar la mediana y los cuartiles, dibujar un rectángulo que los conecte (su amplitud
será IQR) y marcar la mediana con un segmento vertical dentro de la caja.
3) A cada lado de la caja se trazan segmentos retilı́neos hasta las observaciones más extremas
dentro de las vallas interiores (valores adyacentes). Estos segmentos se trazan sobre la
horizontal que divide la caja en dos partes iguales.
Vallas interiores
f1 = Q1 − 1.5IQR f2 = Q3 + 1.5IQR
4) Sobre la horizontal se marcan los outsides (valores entre las vallas interiores y las exteriores)
mediante pequeos cuadrados y los far outsides (valores fuera de las vallas exteriores) por
medio de asteriscos.
Vallas exteriores
F1 = Q1 − 3IQR F2 = Q3 + 3IQR
(b) Diagrama de tallo y hojas
Es una representaciń de tipo numérico-gráfica que permite captar a simple vista algunas car-
acterı́sticas de la distribución de frecuencias: dispersión, valores centrales, simetrı́a, existencia
de valores diferenciados, etc.
17
Procedimiento de Construcción
1) Cada valor se divide en dos partes:
Tallo hojas
265 ⇒
26 | 5
2) Número máximo de tallos:

L = [10log10 n]
3) Para calcular el punto de división de los valores: calcular el Rango (R), buscar la potencia
de 10 más cercana, por exceso al cociente R L
(RL
< 10m ). El valor m indica el dı́gito,
contando desde el punto decimal, en que se produce la división. Si es positivo, se cuenta
hacia la izquierdda del punto decimal, y si es negativo hacia la derecha. Si R L
< 510m−1 ,
cada tallo original se divide en 2 nuevos tallos y si R
L
< 210m , cada tallo original se divide
en 5 nuevos tallos.
18
3 Tema 3: Series estadı́sticas de dos caracteres.
Hasta ahora hemos estudiado herramientas que nos permiten describir las caracterı́sticas de una sola
variable. Sin embargo, en muchos casos prácticos, es necesario estudiar conjuntamente dos o más
variables, ası́ como la relación que hay entre ellas.
De ahora en adelante supondremos que sobre cada individuo se miden u observan dos variables
X e Y , o equivalentemente, que sobre cada individuo se observa la variable bidimensional (X, Y ).
Cada observación vendrá dada por un par (xi , yi ), 1 ≤ i ≤ N , y por tanto ahora los datos observados
serán los N pares (x1 , y1 ), (x2 , y2 ), ..., (xN , yN ). Denotaremos por x1 , ..., xk a los k valores distintos
observados de la variable X; y por y1 , ..., yp a los p valores distintos observados de la variable Y . En
general k y p no tienen porqué coincidir.
Ejemplo 3.1 Un informático tiene 10 ordenadores para arreglar. El primer paso rutinario que re-
aliza es pasarle dos antivirus. Sean
X =“número de virus diferentes detectados por el primer antivirus” e
Y =“número de virus diferentes detectados por el segundo antivirus”, obteniendo los siguientes re-
sultados:
X 3 2 4 2 1 2 5 2 3 2
Y 2 5 4 3 3 4 4 3 2 3
A la representación de los N pares observados en un sistema de ejes se le denomina nube de
puntos.
3.1 Tabla de frecuencias

La frecuencia (absoluta) conjunta del par (xi , yj ), que denotaremos nij , es el número de veces
que se observa dicho par. Se tiene que
p
k X
X
nij = N.
i=1 j=1
La frecuencia relativa conjunta del par (xi , yj ), que denotaremos fij , es la proporción de veces
que se observa dicho par, es decir
nij
fij = , 1 ≤ i ≤ k, 1 ≤ j ≤ p.
N
Se tiene que
k Xp
X
fij = 1.
i=1 j=1
La frecuencia (absoluta) marginal de xi , que denotaremos ni. , es el número de veces que X

presenta dicho valor. Se tiene que
p k
X X
ni. = nij , 1 ≤ i ≤ k, ni. = N.
j=1 i=1
19
La frecuencia relativa marginal de xi , que denotaremos fi. , es la proporción de veces que X
p k
ni. X X
fi. = = fij , 1 ≤ i ≤ k, fi. = 1.
N j=1 i=1
La frecuencia (absoluta) marginal de yj , que denotaremos n.j , es el número de veces que Y

k p
X X
n.j = nij , 1 ≤ j ≤ p, n.j = N.
i=1 j=1
La frecuencia relativa marginal de yj , que denotaremos f.j , es la proporción de veces que Y

k p
n.j X X
f.j = = fij , 1 ≤ j ≤ p, f.j = 1.
N i=1 j=1
Estas frecuencias se representan en una tabla llamada tabla de frecuencias conjuntas o tabla
de doble entrada como sigue
X\Y y1 y2 ... yp
x1 n11 n12 ... n1p n1.
x2 n21 n22 ... n2p n2.
.. .. .. . . . ..
. . . . .. .
xk nk1 nk2 ... nkp nk.
n.1 n.2 ... n.p N
Nótese que las frecuencias marginales son las frecuencias de cada variable, sin tener en cuenta la
otra. Son distribuciones de una variable, y por tanto tiene sentido, para cada una de ellas, calcular
las medidas estudiadas anteriormente, como la media y la varianza. Ası́, hablaremos de la media
marginal de la variable X, x̄, la varianza marginal de la variable X, Sx2 , la media marginal de la
variable Y , ȳ, y la varianza marginal de la variable Y , Sy2 .
Ejemplo 3.2 La tabla de frecuencias conjuntas con los datos del ejemplo 3.1 es
X\Y 2 3 4 5
1 0 1 0 0 1
2 0 3 1 1 5
3 2 0 0 0 2
4 0 0 1 0 1
5 0 0 1 0 1
2 4 3 1 10
20
3.2 Distribuciones condicionadas
De los N individuos en el estudio hay n.j con Y = yj . Podemos estar interesados en estudiar la
variable X en este subconjunto de los datos originales. A la distribución de frecuencias de la variable
X en este subconjunto, definido por aquellos individuos con Y = yj , se le denomina distribución de
X condicionada a Y = yj . En esta distribución X toma los valores x1 , x2 , ..., xk con frecuencias
(absolutas) condicionadas
ni/Y =yj = nij , 1 ≤ i ≤ k,
y frecuencias relativas condicionadas
nij
fi/Y =yj = , 1 ≤ i ≤ k.
n.j
Se tiene que
k
X k
X
ni/Y =yj = n.j , fi/Y =yj = 1.
i=1 i=1
Ejemplo 3.3 Con los datos del ejemplo 3.1, la distribución de frecuencias de X condicionada a
Y = 3 es
X|Y = 3 ni|Y =3 fi|Y =3
1 1 1/4
2 3 3/4
3 0 0
4 0 0
5 0 0
4 1
Análogamente podemos considerar la distribución de Y condicionada a X = xi , que toma los valores

y1 , y2 , ..., yp con frecuencias (absolutas) condicionadas
nj/X=xi = nij , 1 ≤ j ≤ p,
y frecuencias relativas condicionadas

nij
fj/X=xi = , 1 ≤ j ≤ p,
ni.
verificando que
p p
X X
nj/X=xi = ni. , fj/X=xi = 1.
j=1 j=1
Las distribuciones condicionadas son distribuciones de una variable (en un subconjunto de los
datos originales), y por tanto tiene sentido, para cada una de ellas, calcular las medidas estudiadas
en el tema anterior, como la media y la varianza. Ası́, hablaremos de la media condicional de la
variable X dado que Y = yj , X̄|Y =yj , la varianza condicional de la variable X dado que Y = yj ,
2
SX| Y =y
, la media condicional de la variable Y dado que X = xi , Ȳ |X=xi y la varianza condicional de
j
la variable Y dado que X = xi , SY2 |X=x .
i
21
3.3 Independencia
Diremos que dos variables X e Y son independientes si las frecuencias relativas de X condicionada
a los valores de Y no dependen de la elección del valor de Y , es decir, si
fi/Y =y1 = fi/Y =y2 = ... = fi/Y =yp = fi. , 1≤i≤k
o equivalentemente
fij = fi· f·j para todo i, j
o bien, usando frecuencias absolutas

ni· n·j
nij = para todo i, j.
N
Si existe un i y un j que no cumplan la ecuación anterior, entonces las variables no son independientes.
Para que se dé la independencia ha de cumplirse la igualdad para todos los i, j.
3.4 Covarianza
Dada una variable bidimensional (X, Y ), definimos la covarianza entre X e Y como
N k p
1 X 1 XX
Sxy = (xi − x̄)(yi − ȳ) = (xi − x̄)(yj − ȳ)nij .
N i=1 N i=1 j=1
Una forma alternativa para el cálculo de la covarianza es

N k p
1 X 1 XX
Sxy = xi yi − x̄ ȳ = xi yj nij − x̄ ȳ.
N i=1 N i=1 j=1
Otra forma de denotar la covarianza entre dos variables es Cov(X, Y ).

La covarianza es una medida de dependencia de las dos variables: si la covarianza es positiva, la
relación entre X e Y es directa, es decir, cuando X crece, Y también tiende a crecer, y viceversa.
Si la covarianza es negativa, la relación es inversa, o sea, cuando X crece, Y tiende a decrecer, y
viceversa (ver figura 1). Si SXY = 0, se dice que las variables X e Y son incorreladas.
Propiedades
1. X, Y independientes =⇒ X, Y incorreladas. 4. Sxx = Sx2 .

2. Cov(aX + b, cY + d) = acSxy . 5. V ar(X + Y ) = Sx2 + Sy2 + 2Sxy .
3. Cov(aX + bY, Z) = aSxz + bSyz . 6. V ar(X − Y ) = Sx2 + Sy2 − 2Sxy .
Ejemplo 3.4 Consideremos la siguiente tabla de doble entrada:
X\Y y1 y2 y3 y4
x1 3 5 2 4
x2 6 10 4 8
x3 12 20 8 16
22
¿Son X e Y independientes? Sı́, ya que las filas son proporcionales:
2a fila =2 × 1a fila,
3a fila =4 × 1a fila.
Las columnas también son proporcionales:
2a columna = 53 × 1a columna,
3a columna = 32 × 1a columna,
4a columna = 34 × 1a columna.
Veámoslo a través de las distribuciones condicionadas X/Y = yj :
X/Y = y1 ni/Y =y1 fi/Y =y1 X/Y = y2 ni/Y =y2 fi/Y =y2
x1 3 3/21 = 1/7 x1 5 5/35 = 1/7
x2 6 6/21 = 2/7 x2 10 10/35 = 2/7
x3 12 12/21 = 4/7 x3 20 20/35 = 4/7
21 1 35 1
X/Y = y3 ni/Y =y3 fi/Y =y3 X/Y = y4 ni/Y =y4 fi/Y =y4
x1 2 2/14 = 1/7 x1 4 4/28 = 1/7
x2 4 4/14 = 2/7 x2 8 8/28 = 2/7
x3 8 8/14 = 4/7 x3 16 16/28 = 4/7
14 1 28 1
Aunque la independencia implique incorrelación (propiedad 1), la implicación contraria no es

cierta, como se muestra en el siguiente ejemplo.
Ejemplo 3.5 Consideremos la siguiente tabla de doble entrada:
X\Y −1 0 1
−2 3 4 3 10
0 1 0 1 2
2 2 2 2 6
6 6 6 18
Para estos datos se tiene que Sxy = 0, pero X e Y no son independientes pues
2×6 n2. × n.2

n22 = 0 6= = .
18 N
3.5 Dependencia funcional

Se dice que X depende funcionalmente de Y si a cada yj le corresponde una única modalidad xi
de X, es decir, si para cada j existe un único i con nij 6= 0, en otras palabras, en cada columna de
la tabla de doble entrada hay una única frecuencia conjunta no nula
23
Y Y
SXY > 0 X SXY < 0 X
Figure 1: Interpretación del signo de la covarianza.
Ejemplo 3.6 Sean X=sueldo en miles de euros e Y =categorı́a profesional.
X\Y 1 2 3 4
1 10 6 0 0
2 0 0 0 6
3 0 0 3 0
A las categorı́as 1 y 2 les corresponde el sueldo 1; a la categorı́a 3 le corresponde el sueldo 3; y a

la categorı́a 4 le corresponde el sueldo 2. Por tanto, X depende funcionalmente de Y (X = f (Y )).
Nótese que Y no depende funcionalmente de X.
Si X depende funcionalmente de Y , entonces las distribuciones X/Y = yj son degeneradas, es

decir, existe una única modalidad de X con fi/Y =yj 6= 0. Ası́, si X es una variable
2
x|Y =yj = xi , SX| Y =y
= 0.
j
A diferencia de la independencia, la dependencia funcional no es recı́proca, en general (véase el

ejemplo anterior). Una condición necesaria (no suficiente) es que la tabla sea cuadrada, es decir,
k = p.
La independencia y la dependencia funcional son dos casos extremos que se pueden presentar. En
general, nos encontratremos con casos intermedios (dependencia estadı́stica). En el tema siguiente
estudiaremos cómo medir la intensidad de la dependencia entre los caracteres X e Y .
24
4 TEMA 4. Análisis de Regresión y Correlación
4.1 Introducción
A lo largo de este tema supondremos que a un conjunto de n individuos se le han observado dos
variables, X e Y , obteniéndose los pares (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ).
En el tema anterior se vio que dos casos extremos de dependencia entre X e Y son la independencia
y la dependencia funcional, gráficamente:
Y 6 Y 6
• • • •
• • • • • •
• • • • •
•
• • • • •
-X -X
Independencia Dependencia funcional
Estos son dos casos extremos. En general, nos encontraremos con situaciones intermedias:
Y 6
• •
• ••• •
•• ••• •
•
• • •
•
-X
Dependencia estadı́stica
El objetivo de la regresión es sustituir la nube de puntos por una lı́nea que, sin que pase por todos
ellos, se adpate lo mejor posible a la nube de puntos:
Y 6
•••
• •
•• ••• ••
•
•
• • •

•
-X
Desde el punto de vista analı́tico se trata de pasar de la dependencia estadı́stica a la dependencia

funcional, es un ”resumen” de la nube de puntos.
Consideremos las siguientes nubes de puntos:
25
Y 6 Y 6 •
•• • •
•• • •••• •• ••

•
• •••• • • •• •
• • • •
•
•• ••

•• •
-X -X
(a) (b)
Es claro que en el caso (a) la lı́nea dibujada representa mejor (es un mejor resumen de) la nube de
puntos que en el caso (b). Se darán medidas para, una vez sustituida la dependencia estadı́stica por
la dependencia funcional, cuantificar cómo de bueno es el ajuste.
4.2 Rectas de regresión

Como dijimos antes, el objetivo de la regresión es buscar una lı́nea que se adpate lo mejor posible a
la nube de puntos. El criterio que emplearemos para encontrar la “mejor” función es el de mı́nimos
cuadrados: si pretendemos predecir, aproximar o ajustar los valores de Y mediante una función h
de los valores de X, entonces el objetivo será buscar h de modo que minimize el cuadrado de las
diferencias entre los valores observados y los valores ajustados:
n
X
(yi − h(xi ))2 .
i=1
Buscaremos h no dentro del conjunto de todas las posibles funciones, sino dentro de un subconjunto
de éste: las rectas {h(x) = a + bx, a, b ∈ R}. A la solución de este problema se le denomina recta de
regresión de Y sobre X, o bien, recta de mı́nimos cuadrados de Y sobre X, abreviadamente
rY /X . Por tanto, el objetivo será buscar a y b de modo que minimicen
n
X
φ(a, b) = (yi − a − bxi )2 .
i=1
Para ello, derivamos φ(a, b) con respecto a a y a b e igualamos ambas derivadas a 0:

n 
∂ X
a
φ(a, b) = −2 (yi − a − bxi ) = 0 1 ecuación normal 


∂a i=1

n (1)
∂ X
2a ecuación normal 

φ(a, b) = −2 xi (yi − a − bxi ) = 0 
∂b

i=1
A (1) se le denomina sistema de ecuaciones normales. La primera ecuación normal dice que
ȳ = a + bx̄,
de donde a = ȳ − bx̄. Sustituyendo ahora en la segunda ecuación normal se obtiene que

n n
1X 1X 2
xi yi = (ȳ − bx̄)x̄ − b x,
n i=1 n i=1 i
SXY
de donde b = 2
. A b se le denomina coeficiente de regresión de Y sobre X.
SX
26
Recta de regresión de Y sobre X
rY /X : y = a + bx
SXY
a = ȳ − bx̄, b= 2
SX
Otra forma de expresar la recta de regresión de Y sobre X, rY /X , es
SXY
y − ȳ = 2
(x − x̄).
SX
También puede calcularse la recta de regresión de X sobre Y , cambiando los papeles de las variables.
Recta de regresión de X sobre Y
rX/Y : x = a0 + b 0 y
SXY
a0 = x̄ − b0 ȳ, b0 =
SY2
A b0 se le denomina coeficiente de regresión de X sobre Y . Otra forma de expresar la recta de

regresión de X sobre Y , rX/Y , es
SXY
x − x̄ = 2 (y − ȳ).
SY
Propiedades y observaciones:
(a) Ambas rectas pasan por el punto G = (x̄, ȳ). A G se le denomina centro de gravedad de la nube
de puntos. Como consecuencia, dos rectas paralelas nunca podrán ser dos rectas de regresión.
(b) b es la pendiente de rY |X , pero b0 no es la pendiente de rX|Y , sino 1/b0 .
(c) sg(b) = sg(b0 ) = sg(SXY ), esto es, las pendientes de las rectas rY |X y rX|Y tienen ambas el
mismo signo y que coincide con el signo de la covarianza. Por tanto, si una de ellas es creciente
(o decreciente), la otra también. No puede darse el caso de que una tenga pendiente positiva
(negativa) y la otra la tenga negativa (positiva).
(d) Si SXY = 0 entonces b = b0 = 0 y las rectas de regresión son
rY /X : y = ȳ, rX/Y : x = x̄,
es decir, son rectas paralelas a los ejes de coordenadas que se cortan en el punto (x̄, ȳ).
(e) Si de la ecuación de la recta rY |X despejáramos x no obtendremos necesariamente la recta de

regresión rX|Y .
27
Ejemplo 4.1 Un informático tiene 10 ordenadores para arreglar. El primer paso rutinario que
realiza es pasarle dos antivirus. Sean
X =“número de virus diferentes detectados por el primer antivirus”.
Y =“número de virus diferentes detectados por el segundo antivirus”.
X 3 2 4 2 1 2 5 2 3 2
Y 2 5 4 3 3 4 4 3 2 3
Para calcular la recta de regresión de Y sobre X, necesitamos saber
2
ȳ = 3.3 x̄ = 2.6 SX = 1.24 SXY = 0.12
ası́, tenemos
0.12
rY |X : y − 3.3 = (x − 2.6)
1.24
o equivalentemente
rY |X : y = 3.04838 + 0.09677x
4.3 Coeficiente de correlación lineal. Coeficiente de determinación

Como ya indicamos en la introducción, es necesario saber cómo de bueno es el ajuste realizado por
la recta de regresión (ya que si éste es bueno, esto nos permitirá realizar predicciones fiables).
Si el ajuste es bueno, entonces las diferencias entre los valores observados y los valores ajustados
(ie, las predicciones realizadas por la recta de regresión),
ei = yi − yi∗ = yi − a − bxi , i = 1, 2, ..., n, (2)
serán todas ellas muy pequeñas. A estas diferencias se les denomina residuos. Gráficamente:
rY /X

•... (xi , yi∗ )
.

ei ....
•.. (xi , yi )

La media de los residuos es:
ē = ȳ − a − bx̄ = 0 (por la 1a ecuación normal).
A la varianza de los residuos n

1X 2
Se2 = e
n i=1 i
se le denomina varianza residual. Si ésta es ”pequeña”, el ajuste realizado por la recta de regresión
será bueno, pues esto serı́a indicativo de que los residuos son pequeños. Para saber cuándo podemos
considerar que la varianza residual es ”pequeña” haremos uso del siguiente resultado:
28
Proposición 1 Sean ei , i = 1, 2, ..., n, definidos como en (2). Entonces
SXY
Se2 = (1 − rXY
2
)SY2 , donde rXY = .
SX SY
2
A rXY se le denomina coeficiente de correlación lineal entre X e Y . A rXY se le denomina
coeficiente de determinación.
Propiedades:
2
(a) rXY = b b0 .
(b) sg(rXY ) = sg(b) = sg(b0 ) = sg(SXY ) es decir, rXY tiene el mismo signo que b, b0 y SXY . Si
rXY < 0 entonces la dependencia lineal entre X e Y es inversa (cuando una crece la otra
decrece), y si rXY > 0 entonces la dependencia lineal entre X e Y es directa (cuando una crece
la otra también).
2
(c) −1 ≤ rXY ≤ 1, pues |SXY | ≤ SX SY , por tanto 0 ≤ rXY ≤ 1.
(d) rXY = 0 ⇔ SXY = 0 ⇔ X e Y están incorreladas, no existe dependencia lineal entre X e Y .
Observaciones:
(a) De las propiedades 1 y 3 se tiene que 0 ≤ b b0 ≤ 1.
(b) De la Proposición 1 y la propiedad 3 se deduce que: si rXY = 1 ó rXY = −1, entonces el ajuste
2
es perfecto. Esto es debido a que si rXY = 1, entonces Se2 = 0, y en consecuencia, los valores
ajustados coinciden con los observados. En este caso las dos rectas de regresión coinciden. A
la hora de la práctica, en raras ocasiones se tiene rXY = 1 ó rXY = −1. El ajuste lineal será
2
mejor cuanto más cercano esté rXY a 1 o a -1, en otras palabras, cuanto más cercano esté rXY
a 1.
Ejemplo 4.2 Con los datos del ejemplo 4.1, para obtener el coeficiente de correlación lineal necesi-
tamos además conocer SY2 = 0.81, entonces
SXY 0.12
rXY = =√ √ = 0.1197
SX SY 1.24 0.81
lo que nos viene a indicar que el ajuste lineal es poco adecuado. Cualquier predicción que se realice
mediante la recta de regresión será muy poco fiable.
29

Temas 1, 2, 3 y 4 Estadística

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Temas 1, 2, 3 y 4 Estadística

Cargado por

Copyright:

Formatos disponibles

1 TEMA 1. Series Estadı́sticas.

Resúmenes numéricos y gráficos

1.1 Definición de Estadı́stica

La Estadı́stica es la ciencia que trata de la teorı́a y la aplicación de métodos apropiados

• Realización de inferencias sobre las caracterı́sticas poblacionales a partir del estudio de un

1.2 Conceptos generales

MUESTRA: subconjunto de elementos de la población.

CARÁCTER: cualidad o propiedad observable en un individuo.

MODALIDAD: diferentes situaciones posibles o variantes del propio carácter.

Ejemplo 1.1 Población: Alumnos de la Universidad de Sevilla

1.3 Tipos de caracteres

CUALITATIVOS no se pueden medir.

• Los caracteres cuantitativos se denominan variables. A cada modalidad se le asigna un número

• Los caracteres cualitativos se denominan atributos, y pueden ser de dos tipos:

1.4 Frecuencias absolutas, relativas y acumuladas

La frecuencia relativa de xi , que denotaremos fi , es la proporción de individuos que presentan

La frecuencia relativa se suele en representar %, lo que se denomina porcentaje.

Se tiene que: N1 = n1 , Nk = n, ni = Ni − Ni−1 , 2 ≤ i ≤ k.

Se tiene que: F1 = f1 , Fk = 1, fi = Fi − Fi−1 , 2 ≤ i ≤ k. La frecuencia relativa acumulada

1.5 Tablas de frecuencias

La tabla de frecuencias para estos datos es

Nótese que no todos los intervalos han de tener la misma amplitud.

1.6 Métodos gráficos

1.6.1 Variables no agrupadas

(a) Diagrama de barras

(b) Polı́gono de frecuencias

(c) Curva acumulativa

Ejemplo 1.4 Consideremos la variable X=número de hermanos, observada sobre n = 100

Diagrama de barras Polı́gono de frecuencias Curva acumulativa

1.6.2 Variables agrupadas

(b) Polı́gono de frecuencias

(c) Curva acumulativa

Ejemplo 1.5 Consideremos la variable X=altura en cms, observada en n = 50 individuos

Histograma Polı́gono de frecuencias Curva acumulativa

1.6.3 Variables cualitativas o atributos

(a) Diagrama de rectángulos Su construcción es similar al diagrama de barras. Las frecuencias

(b) Diagrama de sectores En un cı́rculo, se asigna a cada modalidad un sector de tamaño

Color de pelo ni fi fi × 360o

PISOS APARTAMENTOS CASAS

Pictograma con número de figuras proporcional a las frecuencias:

• Medidas de tendencia central o medidas de posición, cuyo objetivo es resumir el conjunto de

• Medidas de forma, que describen la forma de la distribución.

2.2 Medidas de posición

Se define la media (aritmética) como

El número medio de tornillos defectuosos es de 2.1 (valor no observable).

Propiedades de la media aritmética:

(a) La media aritmética es el centro de gravedad de la distribución,

(b) Linealidad de la media:

(a) Dados a, b ∈ R, si Y = a + bX ⇒ Y = a + bX.

Ejemplo 2.3 Calcule la moda de los siguientes datos:

Ejemplo 2.4 Calcule la mediana de los siguientes datos:

nα − Ni−1 nα − Ni−1 α − Fi−1

2.3 Medidas de dispersión

Ejemplo 2.7 Para los datos del ejemplo 2.1, R = 5 − 0 = 5.

Ejemplo 2.8 Para los datos del ejemplo 2.2 R = 10 − 0 = 10.

2.3.2 Recorrido intercuartı́lico

Se define la varianza, que denotaremos S 2 , como

(b) S = 0 ⇐⇒ S 2 = 0 ⇐⇒ los valores observados son todos iguales.

(c) Si Y = a + bX, entonces SY2 = b2 SX

2.3.4 Cuasivarianza y cuasidesviación tı́pica

2.4 Medidas de forma

(a) Al representar una distribución simétrica mediante un diagrama de barras, histograma o

(b) X = me y es el punto de abscisas por donde pasa el eje de simetrı́a.

(c) Si la distribución es simétrica y unimodal entonces X = me = M o