Está en la página 1de 32

Apunte de Estadı́stica Descriptiva

Dr. Jonathan Acosta Salazar

La Estadı́stica Descriptiva es una rama de la Estadı́stica que se ocupa de organizar,


resumir, representar y producir resultados a partir de datos muestrales.

1 Nociones de Población y Muestra

Los primeros conceptos que necesitan introducir antes de ir de lleno a las ideas de estadı́stica
descriptiva son las nociones de población y muestra.
Definición 1.1. Una población es un conjunto que contiene la totalidad de individuos a
ser estudiados por sus caracterı́sticas.
Definición 1.2. Una muestra es un subconjunto propio de una población (es decir, no vacı́o
ni igual a la población) seleccionada de acuerdo a algún método de muestreo.
El objetivo principal de la estadı́stica es tratar de concluir, a través de la muestra, car-
acterı́sticas que podrı́an estar presentes en la población. El estudio de la muestra se realiza
porque es imposible o muy caro economicamente tratar con la población completa. Por
ejemplo, es imposible chequear todas las ampolletas que produce una fabrica en un mes, por
lo que se deben realizar muestreos de calidad sobre lotes. Pero hay que destacar que las
caracterı́sticas presentes en las muestras no siempre se transmiten a la población, ejemplo de
esto sucede con las encuestas de elecciones.
En general denotaremos por N al tamaño de la población y por n al tamaño de la muestra.
Junto con los conceptos anteriores, el primer paso para realizar un estudio estadı́stico consiste
en obtener la muestra y claramente determinar el tamaño n que ésta debe tener. Los métodos
clásicos de muestreos son los siguientes:
• Muestreo aleatorio simple: La muestra como tal se obtendrá al azar, lo que implica
que cada muestra poseerá la misma probabilidad de ser escogida que las restantes.
Además, cada elemento de la muestra tendrá siempre la misma probabilidad de haber
sido escogido que las restantes.
• Muestreo sistemático: En este muestreo, los elementos de la población se seleccionan
con un intervalo uniforme que se mide con respecto a cualquier caracterı́stica conve-
niente, como por ejemplo; el tiempo, espacio, etc. Se debe tener la precaución de que
los elementos de la población no este ordenados con respecto a la variable en estudio. El
muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento tiene
iguales probabilidades de ser seleccionado, pero las muestras no son equiprobables.

1
Estadı́stica Descriptiva Jonathan Acosta

• Muestreo estratificado: Para aplicar el muestreo estratificado la población se par-


ticiona en subconjuntos, llamados estratos de tal modo que las unidades estadı́sticas
en cada uno de los estratos presentan, respecto de la caracterı́stica en estudio, escasa
variabilidad siendo esta relativamente grande entre los estratos. Para tomar la muestra
se selecciona al azar en cada estrato un número especificado de unidades estadı́sticas
correspondientes a la proporción del estrato de la población o bien se extrae un número
igual de unidades estadı́sticas de cada estrato y se da un peso a los resultados de acuerdo
con la proporción del estrato en la población total. Cuando existe una estratificación
adecuada el muestreo aleatorio estratificado refleja en forma más adecuada las carac-
terı́sticas de la población de donde se extrajeron las unidades estadı́sticas muestrales
que otras clases de muestreo.

• Muestreo por conglomerados: En éste muestreo, se particiona la población en


subconjuntos llamados conglomerados y luego se toma una muestra aleatoria de ellos.
Se supone que cada conglomerado es representativo de la población entera. El muestreo
por conglomerados se usará cuando se advierte considerable variación dentro de cada
conglomerado pero los subconjuntos son esencialmente semejantes entre sı́.

Cabe descatacar que al utilzar un mal muestreo, se podrı́an obtener conclusiones total-
mente erradas acerca de la población. Pero este curso no profundizará más detalles sobre
los métodos clásicos de muestreo, sino que se asumirá que la muestra seleccionada ha sido
obtenida por algún método apropiado. También enfatizamos el hecho que existen fórmulas
que permiten calcular el tamaño muestral de tal manera que el error asociado al muestreo sea
mı́nimo. Estas fórmulas deben ser combinadas con las restricciones relativas a los recursos
para producir un tamaño muestral óptimo.

A continuación, suponga que X es la variable estadı́stica de interés definida para cada


uno de los elementos de la población. Además, se denota a las observaciones pertenecientes
a la muestra como X1 , X2 , . . . , Xn .

1.1 Tipos de Variables


Si X es la variable estadı́stica de interés, entonces la variable X puede ser clasificada en dos
tipos:

• Variable Categórica: En este caso, la variable X representa cualidades o categorias.


Por ejemplo: Estado civil, Lugar de procedencia, Marca de artı́culos, etc.

• Variable Cuantitativa: En este caso, la variable X toma por valores cantidad


numéricas. Por ejemplo: Tiempo que demora un alumno en trasladarse de su casa
a la Universidad, Cantidad de palabras escritas por una secretaria en un minuto,
etc. Además, este tipo de variables se puede subclasificar en cuantitativas Discretas;
cuando el recorrido de la variable es numerable, y cuantitativas Contı́nuas; cuando el
recorrido de la variable es no numerable.

2
Estadı́stica Descriptiva Jonathan Acosta

1.1.1 Escalas de Medidas


Además del tipo de variable, la variable estadı́stica X puede ser clasificada en al menos tres
escalas de medidas.

• Escala Nominal Las realizaciones de la variable X son categorı́as en las cuales no


existe orden. Estas categorı́as se usan sólo para distinguir las realizaciones de X.

Ejemplo 1.1. Sea X : color de los ojos. Claramente las realizaciones de X son cate-
gorı́as. En particular los valores de la variable son colores (verde, azul, cafe, negro).

• Escala Ordinal En este caso las realizaciones de X se pueden ordenar aunque no sean
necesariamente números.

Ejemplo 1.2. Sea X : calificaciones de un examen (A, B, C, D y F). Claramente existe


un orden entre las calificaciones ya que por ejemplo es mejor obtener una A que una B.

• Escala Intervalar En este caso el recorrido de la variable X es algún subconjunto de


R, además poseen un punto de referencia (o cero) relativo.

Ejemplo 1.3. Sea X : Temperatura de funcionamiento de un componente electrónico.


Claramente Rec(X) ⊂ R y dependiendo si se mide en grados Celsius, Kelvin o Fahren-
heit. Luego la variable X puede ser medida en una escala Intervalar.

• Escala de Razón En este caso el recorrido de la variable X es algún subconjunto de R


y además posee un cero absoluto. Incluso permiten hacer comparaciones por cocientes.

Ejemplo 1.4. Sea X : el peso de una persona (si una persona pesa 110 kilos, esta
pesará el doble respecto a aquellas que pesen 55 kilos y esta equivalencia se mantiene
si se cambia de unidad de medida). Claramente Rec(X) = R+ . Luego la variable X
puede ser medida en una escala de Razón.

Este curso estudiará principalmente variables que se miden en una escala Intervalar o Razón.
Por ejemplo:
Si X : Tiempo de funcionamiento correcto de un componente electrónico. Entonces
X1 , X2 , . . . , Xn representa el tiempo de funcionamiento correcto de las componentes 1, 2, . . . , n,
respectivamente. Pero si n es muy grande no nos podemos dar una idea de como se distribuye
el tiempo correcto en las diferentes componentes y a veces se busca determinar un tiempo
lı́mite de modo de estar seguros que un cierto porcentajes de componentes se encuentra fun-
cionando al menos hasta ese tiempo. Esto puede ser de mucha utilidad para un fabricante
al momento de definir el tiempo de garantı́a, dado que si es muy poco su producto no tiene
mucha credibilidad pero si es demasiado puedo ser muy costoso para la empresa. Por lo
tanto, es necesario resumir la información de una muestra para poder posteriormente extraer
información valiosa como la descrita.

3
Estadı́stica Descriptiva Jonathan Acosta

1.2 Primeros Resumenes de una Muestra


Supongamos que hemos observado los valores X1 , X2 , . . . , Xn de una variable estadı́stica de
interés. Una pregunta es: ¿Cómo resumir la información contenida en esta muestra?. La
primera respuesta a la pregunta anterior es usar

1. Los Estadı́sticos de Orden: Los estadı́sticos de orden consisten en ordenar de menor


a mayor los datos de una muestra, se denotarán por X(i) , donde
X(1) ≤ X(2) ≤ · · · ≤ X(n)
Este tipo de resumen, es en realidad un ordanamiento de la muestra y por lo tanto no
se pierde información.
2. Los Percentiles: Los percentiles dividen la muestra agrupando los estadı́sticos de
orden, ya que la masa de datos se divide en 100 partes y ası́ el percentil de orden j
(j = 0, 1, . . . , 100) agrupa las primeras j partes de la división. Precisamente, si los
datos ordenados son X(1) , X(2) , . . . , X(n) , entonces el percentil de orden j, está dado
por P0 = X(1) , P100 = X(n) , y:
Pj = X ( j
) si j = 1, 2, . . . , 99.
(n+1)
100

En particular, los valores P25 , P50 , P75 y P100 reciben el nombre de primer, segundo,
tercer y cuarto cuartil respectivamente. Es decir,
Q1 = P25 , Q2 = P50 , Q3 = P75 , Q4 = P100 .
Mientras que, los valores P10 , P20 , P30 , P40 , P50 , P60 ,P70 , P80 , P90 y P100 reciben el nombre
de deciles. Es decir,
D1 = P10 , D2 = P20 , D3 = P30 , D4 = P40 , D5 = P50
D6 = P60 , D7 = P70 , D8 = P80 , D9 = P90 , D1 0 = P100
Observación: El percentil de orden 50 coincide con la mediana y en este caso la mues-
tra se divide en dos mitades iguales. También existen los Quintiles, los cuales dividen
la muestra en 5 partes iguales y han sido utilizados para indicar el nivel socieconómico
de las personas.
Los Percentiles permiten resumir la información de la muestra en una gráfica conocida
como Box-Plot.
3. Las Tablas de Frecuencia: Las tablas de frecuencias consisten en organizar los datos
de modo que para n grande, la información de la muestra este contenida en pocas
clases. Debido a que la muestra se presenta en clases en este caso hay una pérdida
de información, ya que se pierde el valor de cada muestra y solo se conoce cuantas
muestras hay por clase, donde en cada clase solo se conoce el lı́mite inferior y superior.
La tabla 1 es un ejemplo de tabla de frecuancias, en este ejemplo es un resumen de las
ventas de los últimos tres meses de un pequeño almacen. Podemos apreciar el sentido
de la pérdida de información, ya que exiten seis dı́as en que se vendió entre $120.000 y
$155.000, pero no conocemos el valor exacto de esos seis dı́as

4
Estadı́stica Descriptiva Jonathan Acosta

Table 1: Ventas de los últimos tres meses de un pequeño almacen

Ventas (miles $) Frecuencia


[120 − 155[ 6
[155 − 185[ 9
[185 − 200[ 15
[200 − 215[ 24
[215 − 230[ 27
[230 − 280[ 9

En la siguiente sección abordamos como resumir la información de una muestra n pocas can-
tidades, en un principio trataremos con los datos a granel y más tarde veremos el tratamiento
para datos agrupados.

2 Resumenes Cuántificados de una Muestra: Medidas


de Tendencia Central, Dispersión y Forma
Existen tres tipos de medidas que se pueden usar para resumir la información contenida en
una muestra X1 , X2 , . . . , Xn acerca de una variable medida en escala intervalar. Estas son las
medidas de tendencia central, las medidas de dispersión y las medidas de forma. En términos
matemáticos, una medida de tendencia central, dispersión o de forma puede caracterizarse
como una función
T : Rn −→ R
tal que T (X1 , X2 , . . . , Xn ) es un número real que cumple el rol de resumir adecuadamente
las tendencias (en algún sentido especı́fico) contenidas en la muestra.

2.1 Medidas de Tendencia Central o Localización


Estas medidas proporcionan un representante de la muestra que es una buena medida resumen
de la información.

1. El promedio (Media Aritmética) Es la medida de tendencia central más popular y


esta dada por
n
1X
X= Xi .
n i=1

2. El promedio Ponderado Es una generalización del caso anterior y esta dado por:
n
X
Xw = w i Xi ,
i=1
Pn
donde wi ≥ 0 ∀i = 1, 2, . . . , n, y i=1 wi = 1.

5
Estadı́stica Descriptiva Jonathan Acosta

Observación 2.1. El sustento matemático del promedio es buscar el centro de los


datos (centro de masa) de modo que éstos
Pn queden en equilibrio en el siguiente sentido;
encontrar el valor optimo de T tal que i=1 wi (Xi −T ) = 0, donde wi es la ponderación
o importancia que tiene la observación Xi en la muestra, con la condición que ni=1 wi =
P
1. Luego, mediante el uso de las propiedades de sumatorias, se tiene que
n
X n
X n
X n
X
wi (Xi − T ) = 0 ⇒ wi X i − T wi = 0 ⇒ T = wi X i
i=1 i=1 i=1 i=1

Observación 2.2. Note que el promedio y el promedio ponderado no son necesari-


amente un valor de la muestra. En este contexto, existe un ejemplo popularmente
conocido: dos personas van a un restaurante a comer pollo. La primer persona se
come dos pollos y la segunda no come pollo. Entonces usando la notación introducida
anteriormente tenemos que X1 = 2 y X2 = 0 y el promedio de estas dos observaciones
es X = 1. Es decir, en promedio estas personas comieron un pollo, aunque en realidad
la segunda persona no comió pollo. Esto ilustra que el promedio no es una medida que
es capaz de representar las tendencias individuales de las observaciones, sino que es una
medida global asociada a la muestra completa.

3. La Moda
La moda (M0 ) es quel valor que más se repite en la muestra. Es posible que existan dos
o tres modas, en tal caso se habla de medidas bimodales o trimodales respectivamente.

Observación 2.3. En las variables cuantitativas contı́nuas, no es posible hablar de


moda propiamente tal, ya que si hay un dato que más se repite puede deberse a la pre-
cisión del instrumento con que se midió, pero cuando se trabajan con datos agrupados,
se puede obtener la clase modal y su representante conocida como moda inperpolada.

3. La Mediana
La mediana (Me ) es un valor que divide la muestra en dos partes iguales. Es decir no se
concentra en los valores en si mismos de la muestra sino en la cantidad de datos que hay
en cada grupo. Para calcular la mediana es necesario utilizar los estadı́sticos de orden.
Entonces, para calcular el valor central de la muestra (la mediana) diferenciamos dos
casos dependiendo si el tamaño de la muestra n es par o impar:


X( n+1
2 )
, n es impar,


Me =
 X( n2 ) +X( n2 +1) , n es par.


2

6
Estadı́stica Descriptiva Jonathan Acosta

2.2 Medidas de Dispersión


Estas medidas tienen como objetivo caracterizar la variabilidad de las observaciones respecto
de alguna medida de dispersión.
1. La Varianza
Consideremos la muestra X1 , X2 , . . . , Xn . Supongamos que nuestro interés es encontrar
una medida de tendencia central T tal que la suma de las distancias al cuadrado entre
todos los valores de la muestra y T sea mı́nima. Es decir, queremos encontrar T tal
que la cantidad
Xn
Q(T ) = (Xi − T )2
i=1
sea mı́nima. Supongamos que la función Q(T ) es diferenciable respecto a T . Entonces
dQ(T )
=0
dT
n
X
⇐⇒ −2 (Xi − T ) = 0
i=1
n
X
⇐⇒ − Xi + nT = 0
i=1
n
1X
⇐⇒ T = Xi = X.
n i=1
2
Además es fácil ver que d dT
Q(T )
2 T =X = 2n > 0. Por lo tanto, T = X es un mı́nimo.

Es decir, el promedio es aquella cantidad que produce la menor suma de todas las
distancias al cuadrado. Si reemplazamos T = X en la ecuación original para Q(T )
obtenemos una cantidad llamada varianza, definida por
n
1X
Sn2 = (Xi − X)2 .
n i=1
Alternativamente, definimos la varianza muestral como
n
2 1 X
Sn−1 = (Xi − X)2 .
n − 1 i=1
Note que las unidades de Sn2 o Sn−1 2
no son las mismas que las unidades de los datos
originales. Esto sugiere definir la siguiente cantidad llamada desviación estándar:
v
u n
u 1 X
Sn−1 = t (Xi − X)2 .
n − 1 i=1

La definición en el caso de Sn es similar.


2
Podemos decir entonces que tanto Sn−1 y Sn−1 son medidas de dispersión asociadas a la
muestra pero la diferencia radica en que la primera tiene distintas unidades a los datos
2
originales. Note también que Sn−1 ≥ 0, Sn−1 ≥ 0, Sn2 ≥ 0 y Sn ≥ 0 por definición.

7
Estadı́stica Descriptiva Jonathan Acosta

2. La desviación Mediana (DMe)


Resultado. La cantidad n
X
Q(T ) = |Xi − T |
i=1

es minimizada por T = Me .

Luego, la desviación mediana se define como:


n
1X
DM e = |Xi − M e|.
n i=1

2. El Rango Intecuartı́lico (IQR) y el Semi-Rango Intercualı́lico (SIQR)


El rango Intercuartı́lico se define como sigue:

IQR = Q3 − Q1 .

Mientras que, el semi-rango Intercuartı́licose define como:


IQR Q3 − Q1
SIQR = = .
2 2
Note que entre los valores Q1 y Q3 se concentra el 50 de los datos de la muestra. Luego,
si Q3 − Q1 es un valor pequeño es un indicio de menor dispersión en la muestra. La
medida de disperción es el SIQR y esta asociado a la mediana como tendencia central.

3. El Coeficiente de Variación(CV) El coeficiente de variación es una medida que


compara la desviación estándar con el promedio de una muestra:
S
CV = .
X
Este coeficiente no tiene dimensiones y es útil para comparar dos o más muestras. Un
valor del CV pequeño está asociado a una muestra homogénea.

3 Medidas de Forma
Las medidas de forma tienen como objetivo caracterizar donde se concentran los valores de
una variable estadı́stica. Los posibles patrones que se pueden encontrar en una muestra son
bien variados. Sin embargo, mediante medidas apropiadas es posible clasificar casi todos los
comportamientos posibles en unos pocos casos.
Definición 3.1. Sea X2 , X2 , . . . , Xn una muestra de tamaño n. Definimos el momento mues-
tral central de orden r, r ∈ N, como sigue:
n
1X
mr = (Xi − X)r .
n i=1

8
Estadı́stica Descriptiva Jonathan Acosta

1. Coeficiente de Simetrı́a de Fisher El coeficiente de simetrı́a de Fisher es el cuociente


entre el tercer momento t la desviación estándar al cubo. Es decir
m3
γ1 = 3 .
Sn
Este coeficiente tiene las siguientes propiedades
– γ1 no tiene dimensión.
– γ1 es invariante bajo traslaciones del origen y transformaciones de escala.
– γ1 = 0 =⇒ La distribución es simétrica con respecto a la media.
– γ1 < 0 =⇒ La distribución tiende a concentrarse en valores altos de la variable
(sesgo hacia la izquierda)
– γ1 > 0 =⇒ La distribución tiende a concentrarse en valores bajos de la variable
(sesgo hacia la derecha).

Figure 1: En la izquierda un diagrama de la distribución de la variable con coeficiente γ1 < 0.


En la derecha una distribución con γ1 > 0.

Una diagrama de distribución como el mostrado en la Figura 1 con un coeficiente de


simetrı́a de Fisher γ1 = 0 tiene asociado un gráfico como el que se muestra en la Figura
siguiente.

3.1 Coeficiente de Achatamiento (Curtosis)


La curtosis o coeficiente de achatamiento se define como:
m4
γ2 = 4 − 3.
Sn
– γ2 = 0 =⇒ La distribución de los datos tiene un aguzamiento similar al de la
distribución normal. (distribución mesocúrtica)
– γ2 > 0 =⇒ la distribución de los datos es más aguzada que una distribución
normal (distribución leptocúrtica).
– γ2 < 0 =⇒ la distribución de los datos es menos aguzada que una distribución
normal (distribución platicúrtica).

9
Estadı́stica Descriptiva Jonathan Acosta

Figure 2: Curtosis asociada a tres patrones de curvas dedensidad de probabilidad.

Estos patrones son ilustrados en la Figura 2

Ejemplo 3.1. Considere


P25la siguiente información respecto a un conjunto de datos de tamaño
25: 25 2
P
i=1 X i = 1074, i=1 Xi = 75.

a. Construya un intervalo de la forma (X − 3Sn−1 , X + 3Sn−1 ).

b. Si m3 = 0, calcule la mediana de este conjunto de datos.

Para la parte a) basta considerar que X = 3 y

2 1 X
Sn−1 = (Xi − X)2
n−1
n
1 X 2 2X X n 2
= Xi − Xi + X
n−1 n − 1 i=1 n−1
1 X 2 n 2
= Xi − X .
n−1 n−1
2
Luego, en este caso, Sn−1 = 1074/24 − 25/24 × 32 = 35.38. =⇒ Sn−1 = 5.95. Finalmente, el
intervalo buscado es: (−14.85; 20.85).
Para la parte b) note que si m3 = 0 esto implica que la muestra es simétrica en torno
al promedio y no existe sesgo hacia la derecha ni hacia la izquierda. Luego, en este caso el
promerio, la moda y la mediana coinciden. Esta es una regla general para las distribuciones
simétricas. Ası́ Me = 3.

4 Ejemplos
Ejemplo 4.1. Demostrar
1
Pn 1
Pn 2
a) Sn2 = n i=1 (Xi − X)2 = n i=1 Xi2 − X .

10
Estadı́stica Descriptiva Jonathan Acosta

2 1
Pn Pn
b) Sn−1 = 2n(n−1) i=1 j=1 (Xi − Xj )2 .

Note que en el caso a) el resultado es directo al desarrollar el cuadrado del binomio. Es decir
n n n n
1X 2 1 X 2 2X X 2 1X 2 2
(Xi − X) = Xi − Xi + X = Xi − X .
n i=1 n i=1 n i=1 n i=1
En el caso b) el resultado se obtiene al sumar y restar la cantidad X en el lado derecho de la
ecuación. En efecto
n X n n X n
1 X
2 1 X
(Xi − Xj ) = ({Xi − X} − {Xj − X})2
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
n n n n
1 XX 1 XX
= (Xi − X)2 + (Xj − X)2
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
n n
1 XX
− (Xi − X)(Xj − X)
n(n − 1) i=1 j=1
Pn
Note que i=1 (Xi − X) = 0 por lo tanto el tercer término de la igualdad anterior se anula.
Luego
n n n n
1 XX 2 XX
(Xi − Xj )2 = (Xi − X)2
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
n
1 X
= (Xi − X)2
n − 1 i=1
2
= Sn−1 .
Ejemplo 4.2. Se define el número condición asociado a una muestra X1 , X2 , . . . , Xn como:
Pn 2
i=1 Xi
κ= 2
.
(n − 1)Sn−1
Verifique que el número condición puede ser escrito como:
n
κ=1+ CV −2 ,
n−1
donde CV denota el coeficiente de variación. Note que
Pn 2
i=1 Xi
κ= 2
(n − 1)Sn−1
Pn
(Xi − X + X)2
= i=1 2
(n − 1)Sn−1
Pn 2 2
i=1 (Xi − X) + nX
= 2
(n − 1)Sn−1
2
nX
=1+ 2
(n − 1)Sn−1
n
=1+ CV−2 .
n−1

11
Estadı́stica Descriptiva Jonathan Acosta

Ejemplo 4.3. Considere los datos siguientes: 4; 7; 18; 1; 7; 13, 2.


a) ¿Qué significa que P75 = 13?
b) Calcule IQR
c) ¿Qué porcentaje de datos es menor o igual a 7?

a) P75 = 13 significa que el 75% de la muestra tiene valores menores o iguales a 13.
b) IQR=Q3 − Q1 , pero para calcular Q3 y Q1 es necesario ordenar los datos originales.
Entonces como existen 7 datos y el valor 2 ocupa la segunda posición, tenemos que 2/7=0.28,
luego Q1 = 2. Similarmente el valor 13 ocupa la posición 6, entonces 6/7=0.85, esto in¡mplica
que Q3 = 13. Por consiguiente, IQR= 13 − 2 = 11.
c) En este caso basta con dividir 5/7=0.71. Por lo tanto, el 71% de la muestra es menor o
igual al valor 7. Hay que considerar que usando la definición de percentil, tenemos que

Pj = X(j/100(7+1)) = X( 8×j ) = 7.
100

Como 7 ocupa las posiciones 5 y 6 en la muestra podemos considerar el promedio de ambos


valores. Es decir,  
8×j
= 5.5,
100
de donde obtenemos que j = 68.25. En cambio si resolvemos
 
8×j
= 6,
100

obtenemos j = 75. En ambos casos nuestra definición proporciona valores aproximados del
verdadero porcentaje. Esto se reduce cuando el tamaño muestral es grande.

Ejercicio Propuesto
Para un material compuesto de 21 observaciones se calculó la media aritmética y la
varianza. El resultado fue el siguiente: X = 1 y Sn2 = 50. Después de realizados los cálculos,
descubrieron un error en el material original. Una observación con valor -5, en realidad tenı́a
un valor igual a +16. Calcular el valor correcto tanto de la media aritmética como de la
varianza.

5 Transformaciones de la Media y la Varianza


Supongamos que la muestra X1 , X2 , . . . , Xn está disponible tal que X y Sn2 son conocidos.
Además, supongamos que deseamos aplicar una transformación a todas las observaciones,
digamos,
Yi = g(Xi ).
Si asumimos que g(·) es una función dos veces diferenciable, entonces podemos obtener una
aproximación usando un desarrollo de Taylor en torno al promedio. Es decir,

Yi ≈ g(X) + g 0 (X)(Xi − X).

12
Estadı́stica Descriptiva Jonathan Acosta

Entonces,
n n
1X 1X
Y = Yi ≈ [g(X) + g 0 (X)(Xi − X)] = g(X).
n i=1 n i=1
Por ejemplo, si la transformación es lineal,

Yi = aXi + b, a, b ∈ R,

entonces
Y = aX + b.
Un cálculo similar permite obtener una expresión para la varianza de la transformación
original:
2 2
SY2 = g 0 (X) SX .
En efecto,
n n
1X 1 X 2
SY2 = 2
(Yi − Y ) = g(Xi ) − g(X)
n i=1 n i=1
n
1 X 2
≈ g(X) + g 0 (X)(Xi − X) − g(X)
n i=1
n
21
X
0
= g (X) (Xi − X)2
n i=1
0 2 2
= g (X) SX .

Si la transformación es lineal como antes, se tiene que:

SY2 = a2 SX
2
.

Ejemplo 5.1. Se desea subir el salario a todos los empleados de una empresa en un 5% más
2
un bono de 200000 pesos. Si X = 500000 y SX = 90000. Calcule el nuevo promedio y la
nueva varianza asociados a la transformación.
La transformación es de la forma:

Yi = 1.05Xi + 200000 pesos,

donde Xi : Salario actual del trabajador i-ésimo e Yi : es el salario el trabajador i−ésimo


después de la transformación. Entonces

Y = 1.05X + 200000 = 1.05 × 500000 + 200000 = 725000,

SY2 = (1.05)2 × SX
2
= (1.05)2 × 90000 = 99225.
El promedio y la varianza experimentaron alzas después de la transformación. Esto significa
que en promedio el salario aumentó. Sin embargo, los sueldos después de la transformación
son más dispersos que antes. Una forma de remediar esto es aplicando transformaciones
distintas a estratos previamente definidos.

13
Estadı́stica Descriptiva Jonathan Acosta

6 Datos Agrupados
6.1 Construcción de Tablas de Frecuencia
Cuando los datos han sido tabulados en una tabla de frecuencias se dice que los datos se
encuentran agrupados. Una vez que los datos han sido agrupados la idea es proporcionar
fórmulas para las medidas de tendencia central, de dispersión y de forma sin tener que
desagregar los datos.
Consideremos una variable que se mide en escala intervalar de tal manera que disponemos
de la muestra X1 , X2 , . . . , Xn . Entonces una tabla
P de frecuencias
P es una tabla de la forma en
que ilustra en el siguiente cuadro, donde Nj = ji=1 ni , Fj = ji=1 fi , se llaman frecuencias

Clase ni fi Ni Fi Xi
I1 n1 f1 N1 F1 X1
I2 n2 f2 N2 F2 X2
.. .. .. .. .. ..
. . . . . .
Ik nk fk Nk Fk Xk

Table 2: Tabla de frecuencias incluyendo las clases, frecuencias absolutas, frecuencias rela-
tivas, frecuencias absolutas acumuladas, frecuencias relativas aculmuladas y las marcas de
clase.

absolutas (relativas) acumuladas respectivamente y Xi denota la marca de clase. Por ejemplo


si Ii = [a, b], entonces Xi = (a + b)/2. Note que la marca de clase es un representante de la
clase respectiva.

Ejemplo 6.1. Considere la siguiente muestra 2; 4; 3; 6; 4; 2; 7; 10; 11; 4; 5; 7; 7; 4; 8; 3; 9;


7; 6. Construya una tabla de frecuencias.
Primero debemos estimar la cantidad de clases (intervalos). Para esto podemos usar
alguna de las reglas conocidas. Mencionaremos dos reglas

1. Regla de Sturges
k = 1 + 3.3 log10 n.

2. Regla de la Raı́z


k= n.

En este caso usando la regla de Sturges k = 5.14 y usando la regla de la raı́z k =


4.24. Consideremos la regla de Sturges para este ejemplo. Como k es un número entero
aproximamos al entero superior (este es un criterio, también puede ser usado el entero más
cercano). Entonces de aquı́ en adelante usaremos k = 6.
Para construir las clases necesitamos saber la amplitud (longitud) de cada clase denotada
por a.
R + 1(unidad)
a= ,
k
14
Estadı́stica Descriptiva Jonathan Acosta

donde R = max{Xi } − min{Xi } es el rango de la muestra. En este caso


9+1
a= = 1.66.
6
El lı́mite inferior del primer intervalo viene dado por
1
L = min{Xi } − unidad = 2 − 1/2 = 1.5
2
Luego, sumamos la amplitud para obtener el lı́mite superior, U=1.5+1.66=3.16. Contin-
uamos sumando la amplitud al lı́mite inferior de cada intervalo. Entonces obtenemos la
siguiente tabla.

Clase ni fi Ni Fi Xi
[1.5; 3.16) 4 0.22 4 0.22 2.33
[3.16; 4.83) 4 0.22 8 0.44 3.99
[4.83; 6.49) 3 0.16 11 0.6 5.66
[6.49; 8.16) 4 0.22 15 0.82 7.33
[8.16; 9.83) 1 0.05 16 0.87 8.99
[9.83; 11.49] 2 0.11 18 1 10.6

Table 3: Tabla de frecuencias construı́da para una muestra de 18 datos.

Similarmente al caso de datos no agrupados necesitamos definir las medidas de tendencia


central, dispersión y forma para datos agrupados. Definimos:

1. El promedio
k
X
X= f i Xi .
i=1

2. La varianza
k
X
S2 = fi (Xi − X)2 .
i=1

3. La desviación estándar v
u k
uX
S=t fi (Xi − X)2 .
i=1

4. El coeficiente de variación
S
CV = ,
X
donde X está dado en el punto 1, y S está definido en el item 3.

15
Estadı́stica Descriptiva Jonathan Acosta

5. Percentil interpolado de orden k


nk
( 100 − NPk −1 )
Pk = L + aP k ,
nP k

donde

– L es el lı́mite inferior de la clase percentil


– NPk −1 es la frecuencia absoluta acumulada hasta la clase anterior a la clase per-
centil de orden k
– nPk es la frecuencia de la clase percentil de orden k
– aPk es la amplitud de la clase percentil
k
– la clase percentil de orden k es la primera clase en que FPk ≥ 100
,k = 1, 2, . . . , 100

Observación 6.1. Note que P75 = 32 significa que el 75% de los datos es menor o
igual a 32.

Observación 6.2. No es necesario dar una nueva fórmula para la mediana porque
esta corresponde al percentil 50. Asimismo el IQR = Q3 − Q1 puede ser fácilmente
calculado usando el percentil 25 en vez de Q1 y el percentil 75 en vez de Q3 .

6. Moda interpolada
∆1
M0 = L + aM ,
∆1 + ∆2 0
donde

– L es el lı́mite inferior de la clase modal.


– ∆1 = nM − nM −1 , nM es la frecuencia absoluta de la clase modal y nM −1 es la
frecuencia absoluta de la clase anterior a la clase modal.
– ∆2 = nM − nM +1 y nM +1 es la frecuencia absoluta de la clase posterior a la clase
modal.
– aPk es la amplitud de la clase modal.
– la clase modal es aquella clase que tiene la mayor frecuencia relativa.

Observación 6.3. Note que en una tabla de frecuencias podrı́an existir más de una
clase modal.

Ejemplo 6.2. Con la tabla construı́da en el ejemplo anterior calcule

a. El rango percentil RP = P90 − P10

b. La mediana

c. La moda

16
Estadı́stica Descriptiva Jonathan Acosta

a. La clase percentil de orden 90 es [9.83; 11.49), entonces

( 18×90
100
− 16)
P90 = 9.83 + 1.66 = 9.99.
2

Análogamente, la clase percentil de orden 10 es [1.5; 3.16), luego

( 18×10 − 0)
P10 = 1.5 + 100 1.66 = 2.24.
4
Ası́
RP = 9.99 − 2.24 = 7.75.

b. La clase mediana es [4.83; 6.49). Entonces

( 18×50
100
− 8)
M e = P50 = 4.83 + 1.66 = 5.38.
3

c. En este caso existen tres clases modales ya que no hay una única frecuencia relativa
mayor que todas las demás. Entonces hablamos de una cantidad trimodal. Para cal-
cular cada una de ellas consideramos las tres distintas clases modales existentes. Aquı́
ilustramos el cálculo de la primera la cual denotaremos por M01 . ste cálculo se hace
considerando la clase modal [1.5; 3.16).

(4 − 0)
M01 = 1.5 + 1.66 = 1.5 + 1.66 = 3.16.
(4 − 0) + (4 − 4)

Pk 2
Ejemplo 6.3. Demuestre que S 2 = i=1 fi Xi2 − X . Es fácil ver desde la definición que
k k
2
X
2
X 2
S = fi (Xi − X) = fi (Xi2 − 2Xi X + X )
i=1 i=1
k
X 2 2
= fi Xi2 − 2X + X
i=1
k
X 2
= fi Xi2 − X .
i=1

Terminamos esta subsección mencionando que el cálculo de las medidas de forma para
datos agrupados es similar al caso de datos no agrupados entendiendo que en el cálculo de
los momentos se usa la definición siguiente:
k
X
mr = fi (Xi − X)r .
i=1

17
Estadı́stica Descriptiva Jonathan Acosta

7 Algunos Gráficos Utiles

Usando algunas medidas de tendencia central y dispersión es posible construir algunos gráficos
que sirven para visualizar algunos patrones asociados a una muestra de datos X1 , X2 , . . . , Xn .

7.1 Histogramas
Definición 7.1. Consideremos una muestra X1 , X2 , . . . , Xn . Supongamos que el rango en
el cual se encuentran los datos lo sudividimos en k intervalos que llamaremos I1 , I2 , . . . , Ik .
Entonces la frecuencia absoluta de la clase Ii es la cantidad de observaciones de la muestra
ni que pertenecen a la clase Ii .
Note que ni ≥ 0 y ki=1 ni = n.
P

Definición 7.2. La frecuencia relativa de la clase Ii de define como


ni
fi = .
n
Pk
En este caso, es fácil ver que fi ≥ 0 y i fi = 1.
Definición 7.3. Un histograma es un gráfico de fi o ni versus Ii .
Un histograma es un diagrama de frecuencias y resume la cantidad de observaciones por
unidad de longitud. Luego, este diagrama sirve para visualizar la distribución de la variable
de interés, tal como se muestra en la Figura 3. En este caso, el histograma de la Figura 3 tiene

Figure 3: Histograma para una muestra de 100 observaciones aleatorias provenientes de una
distribución normal.
12 clases. Este es un parámetro que puede cambiarse en la construcción de un histograma.
En algunos casos se grafica fi /L versus Ii , donde L es la amplitud de los intervalos Ii .
Este gráfico tiene la particularidad que el área bajo la curva está dada por
k
X k
X k
X
AT = Ai = (fi /L) · L = fi = 1.
i=1 i=1 i=1

18
Estadı́stica Descriptiva Jonathan Acosta

Más adelante veremos que esta propiedad está asociada al concepto de probabilidad.
También enfatizamos que un histograma es una herramienta descriptiva. Más adelante es-
tudiaremos algunas curvas llamadas funciones de densidad de probabilidad asociada a ciertas
poblaciones. En particular la función de densidad de probabilidad de una población normal
tiene la forma descrita en la Figura 4. Un aspecto muy importante es que la curva de función

Figure 4: Función de densidad de probabilidad de una distribución normal.

de probabilidad de una población normal es simétrica respecto al valor medio. (parámetro


de localización.)

7.2 Boxplots (Diagrama de Caja) Tukey, 1977


Un diagrama de caja es un gráfico que permite visualizar la simetrı́a de los datos, la existencia
de observaciones atı́picas (outliers), la dispersión respecto ala mediana y el rango de los datos.
La construcción de un diagrama de caja se detalla en la Figura 5.

Figure 5: Diagrama de caja (boxplot).

Recalcamos que el valor del bigote superior del boxpplot se obtiene calculando la cantidad
min{Ls , max{Xi }}. Similarmente el bigote inferior se obtiene calculando max{Li , min{Xi }}

19
Estadı́stica Descriptiva Jonathan Acosta

Otra ventaja de los boxplots es la comparación de varias muestras ya que permite la


visualizción de simultánea de las medidas de tendencia central y dispersión de varias muestras.

8 Muestras Estratificadas
Cuando estratificamos la población y luego tomamos una muestra nos interesa saber qué
relación existe entre las medidas de tendencia central y dispersión de cada estratoy las me-
didas de tendencia central y dispersión de la muestra completa.
Supongamos que tenemos m estratos y se ha extraı́do una muestra de tamaño n. Asumamos
que en cada estrato se ha extraı́do una muestra de tamaño ni , i = 1, 2, . . . , m. Entonces el
peso del estrato i-ésimo está dado por wi = nni y el promedio del estrato i-ésimo lo denotamos
por X i . El promedio total no es otra cosa que un promedio ponderado:
m
X
X total = wi X i .
i=1

Si análogamente se define como Vi la varianza del estrato i-ésimo, tenemos que


m
X m
X
Vtotal = wi Vi + wi (X i − X total )2 = Varianza Intra + Varianza Inter.
i=1 i=1

La varianza intra mide la variabilidad que hay en el interior de cada estrato mientras que
la varianza inter mide la variabilidad que existe entre los estratos.

Ejemplo 8.1. Se clasifica a los trabajadores de un mineral en 3 categorı́as. Mayores de 35


años, entre 25 y 35 años y menores de 25 años, obteniéndose la siguiente información respecto
de su productividad en kilogramos:
Categorı́a Número de trabajadores Producción Media Desv. Estándar
20-25 200 40 7
25-35 260 60 5
35-45 300 70 4

a. Calcule la producción media total y la variabilidad total.

b. ¿ Qué equipo es más homogeneo?

a. Claramente
200 260 300
X total = × 40 + × 60 + × 70 = 58.68.
760 760 760
Ahora
200 260 300
VIntra = × (7)2 + × (5)2 + × (4)2 = 27.76
760 760 760
200 260 300
VInter = (40 − 58.68)2 + (60 − 58.68)2 + (70 − 58.68)2 = 143.5
760 760 760
Finalmente Vtotal = 27.76 + 143.5 = 171.26.

20
Estadı́stica Descriptiva Jonathan Acosta

b. Para analizar la homogeneidad de los grupos calculamos el coeficiente de variación en cada


caso.
7 5 4
CV1 = = 0.175, CV2 = = 0.083, CV3 = = 0.057.
40 60 70
El tercer equipo es más homogenero, es decir presenta menos dispersión en torno al promedio.

9 Estadı́stica Descriptiva Bivariada


9.1 Tabla Bivariada de Frecuencias
Análogamente al caso univariado, es posible estudiar variables estadı́sticas en forma conjunta.
Consideremos dos variables estadı́sticas que llamaremos X e Y. Supongamos que tomamos
una muestra y dividimos en r clases Ai , i = 1, 2, . . . , r según X y en s clases Bj , j = 1, 2, . . . , s
según Y.
Notemos que en este caso la muestra se toma de manera conjunta. Esto es crucial para
el análisis de las variables en cuestión. Si la información se recolecta en forma individual no
siempre en posible analizar ambas muestras en forma conjunta.
Llamaremos
nij : frecuencia absoluta conjunta de la modalidad Ai Bj . Es decir, la cantidad de indi-
viduos o elementos de la muestra que pertenece a la clase Ai y al mismo tiempo a la clase
Bj . Consecuentemente denotaremos la frecuencia relativa conjunta asociada a la modalidad
Ai Bj como fij , entonces
nij
fij = , i = 1, 2, . . . , r, j = 1, 2, . . . , s.
n
Desde las definiciones anteriores podemos fácilmente ver que
Pr Ps
1. i=1 j=1 nij = n.
Pr Ps
2. i=1 j=1 fij = 1

Para trabajar con datos agrupados se puede construir una tabla de contingencia (tabla de
frecuencias relativas o absolutas bivariada) como la que se muestra a continuación:

X / Y B1 B2 Bs Total
A1 n11 n12 ... n1s n1·
A2 n21 n22 ... n2s n2·
... ... ... ... ... ...
Ar nr1 nr2 ... nrs nr·
Total n·1 n·2 ... n·s n··

21
Estadı́stica Descriptiva Jonathan Acosta

Las frecuencias absolutas conjuntas son las cantidades que se encuentran en el interior
de la tabla. Los valores que se encuentran en la última columna y la última fila se llaman
frecuencias absolutas marginales. Precisamente,

Definición 9.1. 1. s
X
ni· = nij , i = 1, 2, . . . , r.
j=1

2. r
X
n·j = nij , j = 1, 2, . . . , s
i=1

3.
ni·
fi· = , i = 1, 2, . . . , r.
n
4.
n·j
f·j = , j = 1, 2, . . . , s
n
Observación 9.1. Las frecuencias ni· y n·j se llaman frecuencias absolutas marginales mien-
tras que las frecuencias fi· y f·j se llaman frecuencias relativas marginales.

Observación 9.2. Si nuestro objetivo es recuperar la información de las variables X e Y


a partir de las frecuencias conjuntas, entonces podemos calcular las frecuencias marginales.
Estas frecuencias contienen toda la información individual de cada variable.

Definición 9.2. Las frecuencias relativas condicionales asociadas a una tabla de contingencia
se definen como sigue:

fij nij /n nij


fi/j = = = , j = 1, 2, . . . , s
f·j n·j/n n·j

Observación 9.3. Note que lo que hemos definido hasta aquı́ son tres tipos de frecuencias,
estas son: conjunta, marginal y condicional.

Similarmente al caso unidimensional es posible definir los promedios y varianzas marginales


(de cada variable) y también el promedio y varianza condicional.

Definición 9.3. Suponga que los datos de una tabla de contingencia se encuentran diponibles
cuando se ha muestrado en forma conjunta n individuos. Entonces definimos:

1. Promedio marginal de X :
r
X
X= fi· Xi ,
i=1

donde Xi es la marca de clase del intervalo i-ésimo.

2. Varianza marginal de X :
r
X
2
SX = fi· (Xi − X)2 .
i=1

22
Estadı́stica Descriptiva Jonathan Acosta

3. Promedio marginal de Y :
s
X
Y = f·j Yj ,
j=1

donde Yj es la marca de clase del intervalo j-ésimo.


4. Varianza marginal de Y :
s
X
SY2 = f·j (Yj − Y )2 .
j=1

5. Media de X condicionada a Bj :
r
X
Xj = fi/j Xi .
i=1

6. Varianza de X condicionada a Bj :
r
X
Vj (X) = fi/j (Xi − X j )2 .
i=1

7. Media de Y condicionada a Ai :
s
X
Yj = fj/i Yj .
j=1

8. Varianza de Y condicionada a Ai :
s
X
Vi (Y ) = fj/i (Yj − Y i )2 .
j=1

9. Descomposición de la varianza de X :
s
X s
X
V (X) = f·j Vj (X) + f·j (X j − X)2 .
j=1 j=1

= Varianza Intra + Varianza Inter

10. Descomposición de la varianza de Y :


r
X r
X
V (Y ) = fi· Vi (Y ) + fi· (Y i − Y )2 .
i=1 i=1
= Varianza Intra + Varianza Inter

Ejemplo 9.1. Usando un nuevo proceso de fabricación se producen 3 tipos de lubricantes


y se prueba cada uno de ellos en cierto tipo de máquinas, midiendo su vida útil en horas y
obteniendo los siguientes resultados:

23
Estadı́stica Descriptiva Jonathan Acosta

Vida útil en horas Lubricante 1 Lubricante 2 Lubricante 3


0-40 18 10 5
40-60 44 52 40
60-80 66 68 60
80-100 25 10 32
Calcular
a. Frecuencias relativas marginales.
b. Frecuancias relativas condicionales a cada tipo de lubricante
c. Media y varianza condicional al lubricante 2.

a. Primero definamos las variables


X : Vida útil
Y : Tipo de lubricante
La tabla dada tiene las frecuencias absolutas conjuntas. Como nuestro objetivo es calcu-
lar las medidas antes definidas es necesario calcular las frecuencias absolutas marginales.

Vida útil en horas Lubricante 1 Lubricante 2 Lubricante 3 ni·


0-40 18 10 5 33
40-60 44 52 40 136
60-80 66 68 60 194
80-100 25 10 32 67
n·j 153 140 137 n = 430

Luego podemos calcular las frecuencias relativas conjuntas y marginales.


n11
f11 = = 18/430 = 0.0418, f12 = 10/430 = 0.0230, f13 = 5/430 = 0.0116.
n
f21 = 44/430 = 0.1023, f22 = 52/430 = 0.1209, f23 = 40/430 = 0.0930.
f31 = 66/430 = 0.1534, f32 = 68/430 = 0.1581, f33 = 60/430 = 0.1395.
f41 = 25/430 = 0.0581, f42 = 10/430 = 0.0232, f43 = 32/430 = 0.0744.
Luego, obtenemos las frecuencias relativas marginales:
f·1 = 0.0418 + 0.10230 + 0.1534 + 0.0581 = 0.3556.
f·2 = 0.0230 + 0.1209 + 0.1581 + 0.0232 = 0.3252.
f·3 = 0.0116 + 0.0930 + 0.1395 + 0.0744 = 0.3185

f1· = 0.0418 + 0.0230 + 0.0116 = 0.0764.


f2· = 0.1023 + 0.1209 + 0.0930 = 0.3162.
f3· = 0.1534 + 0.1581 + 0.1395 = 0.4510.
f4· = 0.0581 + 0.0232 + 0.0744 = 0.1557.

24
Estadı́stica Descriptiva Jonathan Acosta

b. las frecuencias relativas condicionales a cada tipo de lubricantes vienen dadas por

18 44 66 25
f1/1 = = 0.1176, f2/1 = = 0.2875, f3/1 = = 0.4313, f4/1 = = 0.1633.
153 153 153 153
10 52 68 10
f1/2 = = 0.0714, f2/2 = = 0.3714, f3/2 = = 0.4857, f4/2 = = 0.0714.
140 140 140 140
10 40 60 32
f1/3 = = 0.0729, f2/3 = = 0.2919, f3/3 = = 0.4379, f4/3 = = 0.2335.
137 137 137 137
c. La media condicionada de la vida útil al lubricante 2 viene dada por
4
X
X2 = fi/2 Xi = 0.0714 × 20 + 0.3714 × 50 + 0.4857 × 70 + 0.0714 × 90 = 60.423.
i=1

mientras que la varianza condicional al lubricante 2 es:


4
X
S22 = fi/j (Xi − X 2 )2 = 0.0714(20 − 60.423)2 + 0.3714(50 − 60.423)2
i=1
+ 0.4857(70 − 60.423)2 + 0.0714(90 − 60.423)2
= 107.0085.

Las medidas de forma también puede ser calculadas en una tabla de contingencia. Recorde-
mos que estas medidas se basa en el cálculo de los momentos centrales de orden r, r ∈ N, que
en este caso, por ejemplo para la variable X están dados por
r
X
mr = fi· (Xi − X)r ,
i=1

donde X representa el promedio marginal de X. Entonces las definiciones para el coeficiente


de asimetrı́a de Fisher y la curtosis son válidas en este contexto.

9.2 Covarianza y Correlación


Existe gran interés de conocer relaciones entre variables estadı́sticas. Una forma de acotar
este problema y estudiar algunos casos que son bien abordables desde un punto de vista
matemático es considerando un tipo particular de asociación. Este enfoque fue sugerido por
Pearson a fines del siglo XIX.
Sean X e Y dos variables estadı́sticas las cuales quisieramos saber si tienen algún tipo de
asociación lineal. Entonces asumiendo que las variables son numéricas y que disponemos de
una muestra de la forma {(Xi , Yi )}ni=1 , podemos definir la covarianza entre las variables X e
Y como:
n
1X
cov(X, Y ) = (Xi − X)(Yi − X).
n i=1

25
Estadı́stica Descriptiva Jonathan Acosta

Observación 9.4. Note que si las variables están directamente asociadas, entonces cov(X, Y ) ≥
0. Al contrario, si las variables están inversamente asociadas, entonces cov(X, Y ) ≤ 0. Si las
variables no tienen una asociación lineal, entonces cov(X, Y ) = 0.
Observación 9.5. Es fácil ver que: cov(X, Y ) = n1 ni=1 Xi Yi − X · Y . En efecto,
P

n
1X
cov(X, Y ) = (Xi − X)(Yi − Y )
n i=1
n
1X
= (Xi Yi − Xi Y − Yi X + X Y )
n i=1
n
1X
= Xi Yi − X Y − X Y + X Y
n i=1
n
1X
= Xi Yi − X Y .
n i=1

Observación 9.6. Si α, β ∈ R tales que α > 0 y β > 0, entonces

cov(αX, βY ) = αβcov(X,Y).

Observación 9.7. Podemos pensar la covarianza como una función cov : F×F −→ R, donde
F es una espacio de funciones. Entonces no es trivial encontrar una cota superior e inferior
para cov. Esta es una una dificultad porque para un par de variables aleatorias es difı́cil saber
si el valor de la covarianza es grande o pequeño. Para sobrepasar este inconveniente podemos
usar una desigualdad apropiada.

v
1 Xn u n n
u 1X 2
1X
(Xi − X)(Yi − X) ≤ (Xi − X) (Yi − Y )2 .
t
n n n


i=1 i=1 i=1

Definición 9.4. Sean X e Y dos variables estadı́sticas y suponngamos que disponemos de


las observaciones {(Xi , Yi )}ni=1 . El coeficiente de correlación de Pearson se define como
Pn
cov(X,Y) (Xi − X)(Yi − X)
r = p 2 2 = qP i=1 .
SX SY n 2
Pn 2
i=1 (Xi − X) i=1 (Yi − Y )

Observación 9.8. El coeficiente de correlación satisface la desigualdad

|r| ≤ 1.

1. r = 1 significa asociación lineal directa perfecta entre las variables X e Y.


2. r = −1 significa asociación lineal inversa perfecta entre las variables X e Y .
3. r = 0 significa ausencia de asociación lineal entre X e Y. esto no significa que no
pueda existir asociación de otro tipo entre ambas variables, por ejemplo, correlación
cuadrática o circular.

26
Estadı́stica Descriptiva Jonathan Acosta

Ejemplo 9.2. Considere una muestra de la forma {(Xi , Yi )} tal que transformamos la vari-
able Y como sigue:
Yi = aXi + b, a > 0, i = 1, . . . , n.
Entonces es fácil ver que r = 1. Es decir, el coeficiente de correlación entre las variables X e
Y describe una correlación directa perfecta. En efecto
n n
1X aX
cov(X, aX + b) = (Xi − X)(aXi + b − aX − b) = (Xi − X)2 = aSX
2
.
n i=1 n i=1

Luego,
2
aSX
r=p 2 2 2
= 1.
SX a SX
Ejemplo 9.3. La información obtenida a partir de una muestra de tamaño 12 sobre la
relación existente entre la inversión realizada y el rendimiento obtenido en cientos de miles
de Euros para la explotación agrı́cola es la siguiente:
Inversión (X) 11 14 16 15 16 18 20 21 14 20 19 11
Rendimiento (Y) 2 3 5 6 5 3 7 10 6 10 5 6
Determine el nivel de asociacón lineal entre la inversión y el rendimiento (si existe).
Un gráfico de dispersión permite visualizar si existe una relación lineal evidente. En la
siguiente Figura se observan los pares ordenados de las variables X e Y graficados en el
plano. Este tipo de gráfico en estadı́stica descriptiva se denomina diagrama de dispersión
(scaterplot).

X
12
11
10
9
8

0 50 100 150 200

En este caso no es evidente que existe una asociación lineal, sin embargo, el coeficiente
de correlación lineal r = 0.6180539.

27
Estadı́stica Descriptiva Jonathan Acosta

Observación 9.9. Si los datos están agrupados las fórmulas para calcular el coeficiente de
correlación pueden adaptarse a los datos disponible en una tabla de frecuencias bivariadas.
Entonces la covarianza está dada por
r s r s
1 XX XX
cov(X, Y ) = nij (Xi − X)(Yj − Y ) = fij (Xi − X)(Yj − Y ),
n i=1 j=1 i=1 j=1

donde nij es la frecuencia absoluta del casillero correspondiente a las clases Ai y Bj , Xi es la


marca de clase de Ai , Yi es la marca de clase de Bj , X es el promedio marginal de X y Y es
el promedio marginal de Y.
Es también fácil ver que similarmente al caso en que los datos no están agrupados se tiene
que
r X
X s
cov(X, Y ) = fij Xi Yj − XY . (1)
i=1 j=1

Definición 9.5. Dada una tabla de contingencia denotando Ai las clases para la variable X,
i = 1, 2, . . . , r y Bj las clases para la variable Y, j = 1, 2, . . . , s. Entonces el coeficiente de
correlación de Pearson está dado por
cov(X,Y)
r= p 2 2 ,
SX SY
2
donde SX y SY2 denotan las varianzas marginales de las variables X e Y respectivamente y
cov(X, Y ) está dada en la ecuación (1).
Una vez que hemos dilucidado el problema de la existencia de asociación lineal entre dos
variables el problema se reduce a proponer un modelo que sea adecuado para representar la
relación existente. Un modelo obvio dado la linealidad en la asociación es el llamado modelo
de regresión lineal.

9.3 Modelo de Regresión Lineal Simple


La idea original se remonta al siglo XIX. Francis Galton (1822-1911) investigó la estatura
de los jijos en relación a la estatura de los padres y trazó lı́neas de regresión para explicar
la dependencia entre estad dos variables. Como antes un modelo de regresión puede ser
planteado para datos agrupados y para datos no agrupados. En este caso, deduciremos las
fórmulas para el caso de datos no agrupados y luego las reescribiremos para el caso en que
los datos están arreglados en una tabla de contingencia.
Consideremos la variable Y una variable a ser explicada (variable respuesta) y X una
variable predictora (también denominada explicativa o independiente). Además supongamos
que disponemos de los pares ordenados {(Xi , Yi )}ni=1 . Entonces planteamos el modelo de
regresión lineal de la forma
Yi = β0 + β1 Xi + i , (2)
donde β0 y β1 son parámetros del modelo a ser determinados en función de los datos y i es
un error aleatorio asociado (por ejemplo) al error de medición. El problema se reduce en este
contexto a encontrar la mejor recta que pasa por los puntos observados en el plano XY.

28
Estadı́stica Descriptiva Jonathan Acosta

Usando una gráfica adecuada, es posible representar los puntos observados en el plano y
el modelo lineal siultáneamente. Entonces tomando el cuadrado de las distancias verticales
entre los puntos observados y los puntos que provee el modelo lineal tenemos que

(Yi − β0 − β1 Xi )2 = 2i .

Sumando a ambos lados de la ecuación anterior se tiene que


n
X n
X
(Yi − β0 − β1 Xi )2 = 2i := g(β0 , β1 ).
i=1 i=1

Dado que buscamos la mejor recta (en el sentido que minimice la suma de los errores al
cuadrado) que represente los puntos observados podemos pensar en la función g como una
función diferenciable y obtener aquellos parámetros β0 y β1 que minimicen g(β0 , β1 ). Esto es
equivalente a resolver el sistema de ecuaciones
∂g(β0 ,β1 )
1. ∂β0
= 0.
∂g(β0 ,β1 )
2. ∂β1
= 0.
Teorema 9.1. Dado un conjunto de puntos en el plano {(Xi , Yi )}ni=1 y un modelo como en
la ecuación (2), la mejor recta de regresión estimada que representa los puntos observados
está dada por
Ybi = βb0 + βb1 Xi ,
donde
βb0 = Y − βb1 X
y
cov(X, Y )
βb1 = 2
.
SX
Observación 9.10. Si los datos están agrupados, entonces las estimaciones están dadas por

βb0 = Y − βb1 X,

donde X e Y representan las medias marginales de X e Y . respectivamente.


cov(X, Y )
βb1 = 2
,
SX
donde r X
s
X
cov(X, Y ) = fij Xi Yj − XY ,
i=1 j=1
2
y SX es la varianza marginal del X.
Observación 9.11. Si X0 es una nueva observación, entonces usando la recta de regresión
estimada es posible proveer una predicción para la variable Y :

Yb0 = βb0 + βb1 X0 .

29
Estadı́stica Descriptiva Jonathan Acosta

Definición 9.6. Las cantidades ei = Yi − Ybi se llaman residuos asociados al modelo de


regresión simple.
Observación 9.12. Es fácil ver que ni=1 ei = 0.
P

Ejemplo 9.4. Considere el modelo de regresión simple definido por:


Yi = β0 + β1 Xi2 + i , i = 1, 2, . . . , n. (3)
a) ¿ Es el modelo descrito en la ecuación (3) un modelo lineal?
b) Estime los parámetros β0 y β1 por el método de los mı́nimos cuadrados.
c) Si n = 2, X1 = 1, X2 = 3, Y1 = 3, Y2 = 7, calcule βb0 y βb1 .
d) Calcule los residuos asociados a la estimación, usando la información de la parte c).
e) ¿Cuál podrı́a ser el valor de la variable Y cuando X0 = 2 de acuerdo al modelo estudiado?
a. El modelo es lineal en los parámetros.
b. Definimos la función
n
X n
X
g(β0 , β1 ) = 2i = (yi − β0 − β1 Xi2 )2
i=1 i=1

Entonces, asumiendo que g(β0 , β1 ) es una función diferenciable con respecto a β0 y β1 ,


tenemos que β0 y β1 pueden ser estimados resolviendo el sistema
∂g(β0 ,β1 )
1. ∂β0
= 0.
∂g(β0 ,β1 )
2. ∂β1
= 0.
Este sistema es squivalente a:
n
X
(Yi − β0 − β1 Xi2 )Xi2 = 0,
i=1
n
X
(Yi − β0 − β1 Xi2 ) = 0.
i=1

Desde la segunda ecuación obtenemos que


n
X n
X n
X
Yi − β0 n − β1 Xi2 = 0 ⇐⇒ β0 = Y − β1 Xi2 /n
i=1 i=1 i=1

Reemplazando β0 en la primera ecuación obtenemos que


Pn 2
Pn 2
i=1 Yi Xi − Y i=1 Xi
β1 = Pn 4
P n 2 2
.
i=1 Xi − ( i=1 Xi ) /n
Luego recordemos que las estimaciones las denotamos por
n
X
βb0 = Y − βb1 Xi2 /n,
i=1
Pn 2
Pn 2
i=1 Yi Xi − Y i=1 Xi
β1 = Pn
b
4
P n 2 2
.
i=1 Xi − ( i=1 Xi ) /n

30
Estadı́stica Descriptiva Jonathan Acosta

P2 P2 P2
c. Con los datos dados tenemos que i=1 Xi2 = 5, i=1 Xi4 = 82, i=1 Xi2 Yi = 66, Y = 5.
Luego
βb1 = 0.5899,
βb0 = 3.5252.
d. Por definición, ei = Yi − Ybi . Si X1 = 1, entonces Yb1 = 4.1252, entonces e1 = 3−4.1252 =
−1.1252. Si X2 = 3, Yb2 = 8.8444, entonces e2 = 7 − 8.8444 = 1.8444.
e. El modelo ajustado es:
Ybi = βb0 + βb1 Xi2 .
Si X0 = 2, entonces
Yb0 = 3.5252 + 0.5899 × 4 = 5.8848.
Este valor corresponde a la predicción de la variable Y cuando X0 = 2.

9.4 Ejercicios
Problema 1. Existen dos métodos para medir la temperatura del medio ambiente. El
método clásico y el método nuevo, T1 y T2 respectivamente. Se seleccionan 24 dı́as en forma
aleatoria y se construye la siguiente tabla de frecuencias:
T1 / T2 5 15 25 35
5 1 2 0 0
15 3 1 1 0
25 4 3 2 1
35 2 3 1 0
a) ¿Cuál instrumento es más preciso?
b) ¿Qué porcentaje de dı́as la temperatura es menor a 28 grados según T1 ?
c) ¿Cuál es el promedio y la varianza según T2 para los dı́as que estuvieron en el rango
[10 − 20] según T1 ?
d) ¿Existe ligazón funcional entre T1 y T2 ?
e) Comente la siguiente afirmación:
La temperatura obtenida por T2 es alta debido a que la temperatura medida por T1 es alta.

Problema 2. Considere el coeficiente de correlación entre dos variables X e Y medidas


en escala intervalar. Supongamos que disponemos de una muestra {(xi , yi )}, i = 1, 2, . . . , n.
Además, suponga que cada una de las variables se transforma como sigue:
zi = a + bxi ,
wi = c + dyi ,
donde a, b, c y d son constantes reales. Determine una expresión para el coeficiente de cor-
relación entre las variables Z y W.

Problema 4. Las calificaciones de 15 alumnos de un curso en un examen de matemática


son las mostradas en la Tabla siguiente. Además, en el mismo examen, las calificaciones de
estos alumnos en otras dos asignaturas A y B también se describen en la Tabla:

31
Estadı́stica Descriptiva Jonathan Acosta

Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Calificación en 3 5 1 10 6 4 2 7 3 9 8 5 8 4 4
Matemática
Calificación en A 8 7 6 8 2 6 0 7 7 8 2 4 1 9 1
Calificación en B 4 3 3 8 8 6 1 5 3 7 7 6 9 5 3

Se sabe que una de las asignaturas (A o B) es Fı́sica y que la otra es Dibujo Técnico.
a) ¿Cuál de las asignaturas (A o B) es Fı́sica y cuál es Dibujo Técnico?
b) Proponga un modelo para asociar las variables Matemática y Fı́sica. Estime los parámetros
usando el método de los mı́nimos cuadrados.
c) ¿Cuál podrı́a ser la nota en Fı́sica de un alumno que sacó nota 8 en Matemática ?

32

También podría gustarte