Apunte Estadistica Descriptiva

Apunte de Estadı́stica Descriptiva
Dr. Jonathan Acosta Salazar
La Estadı́stica Descriptiva es una rama de la Estadı́stica que se ocupa de organizar,

resumir, representar y producir resultados a partir de datos muestrales.
1 Nociones de Población y Muestra
Los primeros conceptos que necesitan introducir antes de ir de lleno a las ideas de estadı́stica
descriptiva son las nociones de población y muestra.
Definición 1.1. Una población es un conjunto que contiene la totalidad de individuos a
ser estudiados por sus caracterı́sticas.
Definición 1.2. Una muestra es un subconjunto propio de una población (es decir, no vacı́o
ni igual a la población) seleccionada de acuerdo a algún método de muestreo.
El objetivo principal de la estadı́stica es tratar de concluir, a través de la muestra, car-
acterı́sticas que podrı́an estar presentes en la población. El estudio de la muestra se realiza
porque es imposible o muy caro economicamente tratar con la población completa. Por
ejemplo, es imposible chequear todas las ampolletas que produce una fabrica en un mes, por
lo que se deben realizar muestreos de calidad sobre lotes. Pero hay que destacar que las
caracterı́sticas presentes en las muestras no siempre se transmiten a la población, ejemplo de
esto sucede con las encuestas de elecciones.
En general denotaremos por N al tamaño de la población y por n al tamaño de la muestra.
Junto con los conceptos anteriores, el primer paso para realizar un estudio estadı́stico consiste
en obtener la muestra y claramente determinar el tamaño n que ésta debe tener. Los métodos
clásicos de muestreos son los siguientes:
• Muestreo aleatorio simple: La muestra como tal se obtendrá al azar, lo que implica
que cada muestra poseerá la misma probabilidad de ser escogida que las restantes.
Además, cada elemento de la muestra tendrá siempre la misma probabilidad de haber
sido escogido que las restantes.
• Muestreo sistemático: En este muestreo, los elementos de la población se seleccionan
con un intervalo uniforme que se mide con respecto a cualquier caracterı́stica conve-
niente, como por ejemplo; el tiempo, espacio, etc. Se debe tener la precaución de que
los elementos de la población no este ordenados con respecto a la variable en estudio. El
muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento tiene
iguales probabilidades de ser seleccionado, pero las muestras no son equiprobables.
1
Estadı́stica Descriptiva Jonathan Acosta
• Muestreo estratificado: Para aplicar el muestreo estratificado la población se par-

ticiona en subconjuntos, llamados estratos de tal modo que las unidades estadı́sticas
en cada uno de los estratos presentan, respecto de la caracterı́stica en estudio, escasa
variabilidad siendo esta relativamente grande entre los estratos. Para tomar la muestra
se selecciona al azar en cada estrato un número especificado de unidades estadı́sticas
correspondientes a la proporción del estrato de la población o bien se extrae un número
igual de unidades estadı́sticas de cada estrato y se da un peso a los resultados de acuerdo
con la proporción del estrato en la población total. Cuando existe una estratificación
adecuada el muestreo aleatorio estratificado refleja en forma más adecuada las carac-
terı́sticas de la población de donde se extrajeron las unidades estadı́sticas muestrales
que otras clases de muestreo.
• Muestreo por conglomerados: En éste muestreo, se particiona la población en

subconjuntos llamados conglomerados y luego se toma una muestra aleatoria de ellos.
Se supone que cada conglomerado es representativo de la población entera. El muestreo
por conglomerados se usará cuando se advierte considerable variación dentro de cada
conglomerado pero los subconjuntos son esencialmente semejantes entre sı́.
Cabe descatacar que al utilzar un mal muestreo, se podrı́an obtener conclusiones total-
mente erradas acerca de la población. Pero este curso no profundizará más detalles sobre
los métodos clásicos de muestreo, sino que se asumirá que la muestra seleccionada ha sido
obtenida por algún método apropiado. También enfatizamos el hecho que existen fórmulas
que permiten calcular el tamaño muestral de tal manera que el error asociado al muestreo sea
mı́nimo. Estas fórmulas deben ser combinadas con las restricciones relativas a los recursos
para producir un tamaño muestral óptimo.
A continuación, suponga que X es la variable estadı́stica de interés definida para cada

uno de los elementos de la población. Además, se denota a las observaciones pertenecientes
a la muestra como X1 , X2 , . . . , Xn .
1.1 Tipos de Variables

Si X es la variable estadı́stica de interés, entonces la variable X puede ser clasificada en dos
tipos:
• Variable Categórica: En este caso, la variable X representa cualidades o categorias.

Por ejemplo: Estado civil, Lugar de procedencia, Marca de artı́culos, etc.
• Variable Cuantitativa: En este caso, la variable X toma por valores cantidad

numéricas. Por ejemplo: Tiempo que demora un alumno en trasladarse de su casa
a la Universidad, Cantidad de palabras escritas por una secretaria en un minuto,
etc. Además, este tipo de variables se puede subclasificar en cuantitativas Discretas;
cuando el recorrido de la variable es numerable, y cuantitativas Contı́nuas; cuando el
recorrido de la variable es no numerable.
2
1.1.1 Escalas de Medidas

Además del tipo de variable, la variable estadı́stica X puede ser clasificada en al menos tres
escalas de medidas.
• Escala Nominal Las realizaciones de la variable X son categorı́as en las cuales no

existe orden. Estas categorı́as se usan sólo para distinguir las realizaciones de X.
Ejemplo 1.1. Sea X : color de los ojos. Claramente las realizaciones de X son cate-
gorı́as. En particular los valores de la variable son colores (verde, azul, cafe, negro).
• Escala Ordinal En este caso las realizaciones de X se pueden ordenar aunque no sean
necesariamente números.
Ejemplo 1.2. Sea X : calificaciones de un examen (A, B, C, D y F). Claramente existe

un orden entre las calificaciones ya que por ejemplo es mejor obtener una A que una B.
• Escala Intervalar En este caso el recorrido de la variable X es algún subconjunto de

R, además poseen un punto de referencia (o cero) relativo.
Ejemplo 1.3. Sea X : Temperatura de funcionamiento de un componente electrónico.

Claramente Rec(X) ⊂ R y dependiendo si se mide en grados Celsius, Kelvin o Fahren-
heit. Luego la variable X puede ser medida en una escala Intervalar.
• Escala de Razón En este caso el recorrido de la variable X es algún subconjunto de R

y además posee un cero absoluto. Incluso permiten hacer comparaciones por cocientes.
Ejemplo 1.4. Sea X : el peso de una persona (si una persona pesa 110 kilos, esta
pesará el doble respecto a aquellas que pesen 55 kilos y esta equivalencia se mantiene
si se cambia de unidad de medida). Claramente Rec(X) = R+ . Luego la variable X
puede ser medida en una escala de Razón.
Este curso estudiará principalmente variables que se miden en una escala Intervalar o Razón.
Por ejemplo:
Si X : Tiempo de funcionamiento correcto de un componente electrónico. Entonces
X1 , X2 , . . . , Xn representa el tiempo de funcionamiento correcto de las componentes 1, 2, . . . , n,
respectivamente. Pero si n es muy grande no nos podemos dar una idea de como se distribuye
el tiempo correcto en las diferentes componentes y a veces se busca determinar un tiempo
lı́mite de modo de estar seguros que un cierto porcentajes de componentes se encuentra fun-
cionando al menos hasta ese tiempo. Esto puede ser de mucha utilidad para un fabricante
al momento de definir el tiempo de garantı́a, dado que si es muy poco su producto no tiene
mucha credibilidad pero si es demasiado puedo ser muy costoso para la empresa. Por lo
tanto, es necesario resumir la información de una muestra para poder posteriormente extraer
información valiosa como la descrita.
3
1.2 Primeros Resumenes de una Muestra

Supongamos que hemos observado los valores X1 , X2 , . . . , Xn de una variable estadı́stica de
interés. Una pregunta es: ¿Cómo resumir la información contenida en esta muestra?. La
primera respuesta a la pregunta anterior es usar
1. Los Estadı́sticos de Orden: Los estadı́sticos de orden consisten en ordenar de menor

a mayor los datos de una muestra, se denotarán por X(i) , donde
X(1) ≤ X(2) ≤ · · · ≤ X(n)
Este tipo de resumen, es en realidad un ordanamiento de la muestra y por lo tanto no
se pierde información.
2. Los Percentiles: Los percentiles dividen la muestra agrupando los estadı́sticos de
orden, ya que la masa de datos se divide en 100 partes y ası́ el percentil de orden j
(j = 0, 1, . . . , 100) agrupa las primeras j partes de la división. Precisamente, si los
datos ordenados son X(1) , X(2) , . . . , X(n) , entonces el percentil de orden j, está dado
por P0 = X(1) , P100 = X(n) , y:
Pj = X ( j
) si j = 1, 2, . . . , 99.
(n+1)
100
En particular, los valores P25 , P50 , P75 y P100 reciben el nombre de primer, segundo,
tercer y cuarto cuartil respectivamente. Es decir,
Q1 = P25 , Q2 = P50 , Q3 = P75 , Q4 = P100 .
Mientras que, los valores P10 , P20 , P30 , P40 , P50 , P60 ,P70 , P80 , P90 y P100 reciben el nombre
de deciles. Es decir,
D1 = P10 , D2 = P20 , D3 = P30 , D4 = P40 , D5 = P50
D6 = P60 , D7 = P70 , D8 = P80 , D9 = P90 , D1 0 = P100
Observación: El percentil de orden 50 coincide con la mediana y en este caso la mues-
tra se divide en dos mitades iguales. También existen los Quintiles, los cuales dividen
la muestra en 5 partes iguales y han sido utilizados para indicar el nivel socieconómico
de las personas.
Los Percentiles permiten resumir la información de la muestra en una gráfica conocida
como Box-Plot.
3. Las Tablas de Frecuencia: Las tablas de frecuencias consisten en organizar los datos
de modo que para n grande, la información de la muestra este contenida en pocas
clases. Debido a que la muestra se presenta en clases en este caso hay una pérdida
de información, ya que se pierde el valor de cada muestra y solo se conoce cuantas
muestras hay por clase, donde en cada clase solo se conoce el lı́mite inferior y superior.
La tabla 1 es un ejemplo de tabla de frecuancias, en este ejemplo es un resumen de las
ventas de los últimos tres meses de un pequeño almacen. Podemos apreciar el sentido
de la pérdida de información, ya que exiten seis dı́as en que se vendió entre $120.000 y
$155.000, pero no conocemos el valor exacto de esos seis dı́as
4
Table 1: Ventas de los últimos tres meses de un pequeño almacen
Ventas (miles $) Frecuencia

[120 − 155[ 6
[155 − 185[ 9
[185 − 200[ 15
[200 − 215[ 24
[215 − 230[ 27
[230 − 280[ 9
En la siguiente sección abordamos como resumir la información de una muestra n pocas can-
tidades, en un principio trataremos con los datos a granel y más tarde veremos el tratamiento
para datos agrupados.
2 Resumenes Cuántificados de una Muestra: Medidas

de Tendencia Central, Dispersión y Forma
Existen tres tipos de medidas que se pueden usar para resumir la información contenida en
una muestra X1 , X2 , . . . , Xn acerca de una variable medida en escala intervalar. Estas son las
medidas de tendencia central, las medidas de dispersión y las medidas de forma. En términos
matemáticos, una medida de tendencia central, dispersión o de forma puede caracterizarse
como una función
T : Rn −→ R
tal que T (X1 , X2 , . . . , Xn ) es un número real que cumple el rol de resumir adecuadamente
las tendencias (en algún sentido especı́fico) contenidas en la muestra.
2.1 Medidas de Tendencia Central o Localización

Estas medidas proporcionan un representante de la muestra que es una buena medida resumen
de la información.
1. El promedio (Media Aritmética) Es la medida de tendencia central más popular y

esta dada por
n
1X
X= Xi .
n i=1
2. El promedio Ponderado Es una generalización del caso anterior y esta dado por:
n
X
Xw = w i Xi ,
i=1
Pn
donde wi ≥ 0 ∀i = 1, 2, . . . , n, y i=1 wi = 1.
5
Observación 2.1. El sustento matemático del promedio es buscar el centro de los

datos (centro de masa) de modo que éstos
Pn queden en equilibrio en el siguiente sentido;
encontrar el valor optimo de T tal que i=1 wi (Xi −T ) = 0, donde wi es la ponderación
o importancia que tiene la observación Xi en la muestra, con la condición que ni=1 wi =
P
1. Luego, mediante el uso de las propiedades de sumatorias, se tiene que
n
X n
X n
X n
X
wi (Xi − T ) = 0 ⇒ wi X i − T wi = 0 ⇒ T = wi X i
i=1 i=1 i=1 i=1
Observación 2.2. Note que el promedio y el promedio ponderado no son necesari-

amente un valor de la muestra. En este contexto, existe un ejemplo popularmente
conocido: dos personas van a un restaurante a comer pollo. La primer persona se
come dos pollos y la segunda no come pollo. Entonces usando la notación introducida
anteriormente tenemos que X1 = 2 y X2 = 0 y el promedio de estas dos observaciones
es X = 1. Es decir, en promedio estas personas comieron un pollo, aunque en realidad
la segunda persona no comió pollo. Esto ilustra que el promedio no es una medida que
es capaz de representar las tendencias individuales de las observaciones, sino que es una
medida global asociada a la muestra completa.
3. La Moda
La moda (M0 ) es quel valor que más se repite en la muestra. Es posible que existan dos
o tres modas, en tal caso se habla de medidas bimodales o trimodales respectivamente.
Observación 2.3. En las variables cuantitativas contı́nuas, no es posible hablar de

moda propiamente tal, ya que si hay un dato que más se repite puede deberse a la pre-
cisión del instrumento con que se midió, pero cuando se trabajan con datos agrupados,
se puede obtener la clase modal y su representante conocida como moda inperpolada.
3. La Mediana
La mediana (Me ) es un valor que divide la muestra en dos partes iguales. Es decir no se
concentra en los valores en si mismos de la muestra sino en la cantidad de datos que hay
en cada grupo. Para calcular la mediana es necesario utilizar los estadı́sticos de orden.
Entonces, para calcular el valor central de la muestra (la mediana) diferenciamos dos
casos dependiendo si el tamaño de la muestra n es par o impar:

X( n+1
2 )
, n es impar,


Me =
 X( n2 ) +X( n2 +1) , n es par.


2
6
2.2 Medidas de Dispersión

Estas medidas tienen como objetivo caracterizar la variabilidad de las observaciones respecto
de alguna medida de dispersión.
1. La Varianza
Consideremos la muestra X1 , X2 , . . . , Xn . Supongamos que nuestro interés es encontrar
una medida de tendencia central T tal que la suma de las distancias al cuadrado entre
todos los valores de la muestra y T sea mı́nima. Es decir, queremos encontrar T tal
que la cantidad
Xn
Q(T ) = (Xi − T )2
i=1
sea mı́nima. Supongamos que la función Q(T ) es diferenciable respecto a T . Entonces
dQ(T )
=0
dT
n
X
⇐⇒ −2 (Xi − T ) = 0
i=1
n
X
⇐⇒ − Xi + nT = 0
i=1
n
1X
⇐⇒ T = Xi = X.
n i=1
2
Además es fácil ver que d dT
Q(T )
2 T =X = 2n > 0. Por lo tanto, T = X es un mı́nimo.
Es decir, el promedio es aquella cantidad que produce la menor suma de todas las
distancias al cuadrado. Si reemplazamos T = X en la ecuación original para Q(T )
obtenemos una cantidad llamada varianza, definida por
n
1X
Sn2 = (Xi − X)2 .
n i=1
Alternativamente, definimos la varianza muestral como
n
2 1 X
Sn−1 = (Xi − X)2 .
n − 1 i=1
Note que las unidades de Sn2 o Sn−1 2
no son las mismas que las unidades de los datos
originales. Esto sugiere definir la siguiente cantidad llamada desviación estándar:
v
u n
u 1 X
Sn−1 = t (Xi − X)2 .
n − 1 i=1
La definición en el caso de Sn es similar.

2
Podemos decir entonces que tanto Sn−1 y Sn−1 son medidas de dispersión asociadas a la
muestra pero la diferencia radica en que la primera tiene distintas unidades a los datos
2
originales. Note también que Sn−1 ≥ 0, Sn−1 ≥ 0, Sn2 ≥ 0 y Sn ≥ 0 por definición.
7
2. La desviación Mediana (DMe)

Resultado. La cantidad n
X
Q(T ) = |Xi − T |
i=1
es minimizada por T = Me .
Luego, la desviación mediana se define como:

n
1X
DM e = |Xi − M e|.
n i=1
2. El Rango Intecuartı́lico (IQR) y el Semi-Rango Intercualı́lico (SIQR)

El rango Intercuartı́lico se define como sigue:
IQR = Q3 − Q1 .
Mientras que, el semi-rango Intercuartı́licose define como:

IQR Q3 − Q1
SIQR = = .
2 2
Note que entre los valores Q1 y Q3 se concentra el 50 de los datos de la muestra. Luego,
si Q3 − Q1 es un valor pequeño es un indicio de menor dispersión en la muestra. La
medida de disperción es el SIQR y esta asociado a la mediana como tendencia central.
3. El Coeficiente de Variación(CV) El coeficiente de variación es una medida que

compara la desviación estándar con el promedio de una muestra:
S
CV = .
X
Este coeficiente no tiene dimensiones y es útil para comparar dos o más muestras. Un
valor del CV pequeño está asociado a una muestra homogénea.
3 Medidas de Forma
Las medidas de forma tienen como objetivo caracterizar donde se concentran los valores de
una variable estadı́stica. Los posibles patrones que se pueden encontrar en una muestra son
bien variados. Sin embargo, mediante medidas apropiadas es posible clasificar casi todos los
comportamientos posibles en unos pocos casos.
Definición 3.1. Sea X2 , X2 , . . . , Xn una muestra de tamaño n. Definimos el momento mues-
tral central de orden r, r ∈ N, como sigue:
n
1X
mr = (Xi − X)r .
n i=1
8
1. Coeficiente de Simetrı́a de Fisher El coeficiente de simetrı́a de Fisher es el cuociente

entre el tercer momento t la desviación estándar al cubo. Es decir
m3
γ1 = 3 .
Sn
Este coeficiente tiene las siguientes propiedades
– γ1 no tiene dimensión.
– γ1 es invariante bajo traslaciones del origen y transformaciones de escala.
– γ1 = 0 =⇒ La distribución es simétrica con respecto a la media.
– γ1 < 0 =⇒ La distribución tiende a concentrarse en valores altos de la variable
(sesgo hacia la izquierda)
– γ1 > 0 =⇒ La distribución tiende a concentrarse en valores bajos de la variable
(sesgo hacia la derecha).
Figure 1: En la izquierda un diagrama de la distribución de la variable con coeficiente γ1 < 0.

En la derecha una distribución con γ1 > 0.
Una diagrama de distribución como el mostrado en la Figura 1 con un coeficiente de

simetrı́a de Fisher γ1 = 0 tiene asociado un gráfico como el que se muestra en la Figura
siguiente.
3.1 Coeficiente de Achatamiento (Curtosis)

La curtosis o coeficiente de achatamiento se define como:
m4
γ2 = 4 − 3.
Sn
– γ2 = 0 =⇒ La distribución de los datos tiene un aguzamiento similar al de la
distribución normal. (distribución mesocúrtica)
– γ2 > 0 =⇒ la distribución de los datos es más aguzada que una distribución
normal (distribución leptocúrtica).
– γ2 < 0 =⇒ la distribución de los datos es menos aguzada que una distribución
normal (distribución platicúrtica).
9
Figure 2: Curtosis asociada a tres patrones de curvas dedensidad de probabilidad.
Estos patrones son ilustrados en la Figura 2
Ejemplo 3.1. Considere

P25la siguiente información respecto a un conjunto de datos de tamaño
25: 25 2
P
i=1 X i = 1074, i=1 Xi = 75.
a. Construya un intervalo de la forma (X − 3Sn−1 , X + 3Sn−1 ).
b. Si m3 = 0, calcule la mediana de este conjunto de datos.
Para la parte a) basta considerar que X = 3 y
2 1 X
Sn−1 = (Xi − X)2
n−1
n
1 X 2 2X X n 2
= Xi − Xi + X
n−1 n − 1 i=1 n−1
1 X 2 n 2
= Xi − X .
n−1 n−1
2
Luego, en este caso, Sn−1 = 1074/24 − 25/24 × 32 = 35.38. =⇒ Sn−1 = 5.95. Finalmente, el
intervalo buscado es: (−14.85; 20.85).
Para la parte b) note que si m3 = 0 esto implica que la muestra es simétrica en torno
al promedio y no existe sesgo hacia la derecha ni hacia la izquierda. Luego, en este caso el
promerio, la moda y la mediana coinciden. Esta es una regla general para las distribuciones
simétricas. Ası́ Me = 3.
4 Ejemplos
Ejemplo 4.1. Demostrar
1
Pn 1
Pn 2
a) Sn2 = n i=1 (Xi − X)2 = n i=1 Xi2 − X .
10
2 1
Pn Pn
b) Sn−1 = 2n(n−1) i=1 j=1 (Xi − Xj )2 .
Note que en el caso a) el resultado es directo al desarrollar el cuadrado del binomio. Es decir
n n n n
1X 2 1 X 2 2X X 2 1X 2 2
(Xi − X) = Xi − Xi + X = Xi − X .
n i=1 n i=1 n i=1 n i=1
En el caso b) el resultado se obtiene al sumar y restar la cantidad X en el lado derecho de la
ecuación. En efecto
n X n n X n
1 X
2 1 X
(Xi − Xj ) = ({Xi − X} − {Xj − X})2
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
n n n n
1 XX 1 XX
= (Xi − X)2 + (Xj − X)2
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
n n
1 XX
− (Xi − X)(Xj − X)
n(n − 1) i=1 j=1
Pn
Note que i=1 (Xi − X) = 0 por lo tanto el tercer término de la igualdad anterior se anula.
Luego
n n n n
1 XX 2 XX
(Xi − Xj )2 = (Xi − X)2
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
n
1 X
= (Xi − X)2
n − 1 i=1
2
= Sn−1 .
Ejemplo 4.2. Se define el número condición asociado a una muestra X1 , X2 , . . . , Xn como:
Pn 2
i=1 Xi
κ= 2
.
(n − 1)Sn−1
Verifique que el número condición puede ser escrito como:
n
κ=1+ CV −2 ,
n−1
donde CV denota el coeficiente de variación. Note que
Pn 2
i=1 Xi
κ= 2
(n − 1)Sn−1
Pn
(Xi − X + X)2
= i=1 2
(n − 1)Sn−1
Pn 2 2
i=1 (Xi − X) + nX
= 2
(n − 1)Sn−1
2
nX
=1+ 2
(n − 1)Sn−1
n
=1+ CV−2 .
n−1
11
Ejemplo 4.3. Considere los datos siguientes: 4; 7; 18; 1; 7; 13, 2.

a) ¿Qué significa que P75 = 13?
b) Calcule IQR
c) ¿Qué porcentaje de datos es menor o igual a 7?
a) P75 = 13 significa que el 75% de la muestra tiene valores menores o iguales a 13.
b) IQR=Q3 − Q1 , pero para calcular Q3 y Q1 es necesario ordenar los datos originales.
Entonces como existen 7 datos y el valor 2 ocupa la segunda posición, tenemos que 2/7=0.28,
luego Q1 = 2. Similarmente el valor 13 ocupa la posición 6, entonces 6/7=0.85, esto in¡mplica
que Q3 = 13. Por consiguiente, IQR= 13 − 2 = 11.
c) En este caso basta con dividir 5/7=0.71. Por lo tanto, el 71% de la muestra es menor o
igual al valor 7. Hay que considerar que usando la definición de percentil, tenemos que
Pj = X(j/100(7+1)) = X( 8×j ) = 7.
100
Como 7 ocupa las posiciones 5 y 6 en la muestra podemos considerar el promedio de ambos

valores. Es decir,
8×j
= 5.5,
100
de donde obtenemos que j = 68.25. En cambio si resolvemos

8×j
= 6,
100
obtenemos j = 75. En ambos casos nuestra definición proporciona valores aproximados del
verdadero porcentaje. Esto se reduce cuando el tamaño muestral es grande.
Ejercicio Propuesto
Para un material compuesto de 21 observaciones se calculó la media aritmética y la
varianza. El resultado fue el siguiente: X = 1 y Sn2 = 50. Después de realizados los cálculos,
descubrieron un error en el material original. Una observación con valor -5, en realidad tenı́a
un valor igual a +16. Calcular el valor correcto tanto de la media aritmética como de la
varianza.
5 Transformaciones de la Media y la Varianza

Supongamos que la muestra X1 , X2 , . . . , Xn está disponible tal que X y Sn2 son conocidos.
Además, supongamos que deseamos aplicar una transformación a todas las observaciones,
digamos,
Yi = g(Xi ).
Si asumimos que g(·) es una función dos veces diferenciable, entonces podemos obtener una
aproximación usando un desarrollo de Taylor en torno al promedio. Es decir,
Yi ≈ g(X) + g 0 (X)(Xi − X).
12
Entonces,
n n
1X 1X
Y = Yi ≈ [g(X) + g 0 (X)(Xi − X)] = g(X).
n i=1 n i=1
Por ejemplo, si la transformación es lineal,
Yi = aXi + b, a, b ∈ R,
entonces
Y = aX + b.
Un cálculo similar permite obtener una expresión para la varianza de la transformación
original:
2 2
SY2 = g 0 (X) SX .
En efecto,
n n
1X 1 X 2
SY2 = 2
(Yi − Y ) = g(Xi ) − g(X)
n i=1 n i=1
n
1 X 2
≈ g(X) + g 0 (X)(Xi − X) − g(X)
n i=1
n
21
X
0
= g (X) (Xi − X)2
n i=1
0 2 2
= g (X) SX .
Si la transformación es lineal como antes, se tiene que:
SY2 = a2 SX
2
.
Ejemplo 5.1. Se desea subir el salario a todos los empleados de una empresa en un 5% más
2
un bono de 200000 pesos. Si X = 500000 y SX = 90000. Calcule el nuevo promedio y la
nueva varianza asociados a la transformación.
La transformación es de la forma:
Yi = 1.05Xi + 200000 pesos,
donde Xi : Salario actual del trabajador i-ésimo e Yi : es el salario el trabajador i−ésimo

después de la transformación. Entonces
Y = 1.05X + 200000 = 1.05 × 500000 + 200000 = 725000,
SY2 = (1.05)2 × SX
2
= (1.05)2 × 90000 = 99225.
El promedio y la varianza experimentaron alzas después de la transformación. Esto significa
que en promedio el salario aumentó. Sin embargo, los sueldos después de la transformación
son más dispersos que antes. Una forma de remediar esto es aplicando transformaciones
distintas a estratos previamente definidos.
13
6 Datos Agrupados
6.1 Construcción de Tablas de Frecuencia
Cuando los datos han sido tabulados en una tabla de frecuencias se dice que los datos se
encuentran agrupados. Una vez que los datos han sido agrupados la idea es proporcionar
fórmulas para las medidas de tendencia central, de dispersión y de forma sin tener que
desagregar los datos.
Consideremos una variable que se mide en escala intervalar de tal manera que disponemos
de la muestra X1 , X2 , . . . , Xn . Entonces una tabla
P de frecuencias
P es una tabla de la forma en
que ilustra en el siguiente cuadro, donde Nj = ji=1 ni , Fj = ji=1 fi , se llaman frecuencias
Clase ni fi Ni Fi Xi
I1 n1 f1 N1 F1 X1
I2 n2 f2 N2 F2 X2
.. .. .. .. .. ..
. . . . . .
Ik nk fk Nk Fk Xk
Table 2: Tabla de frecuencias incluyendo las clases, frecuencias absolutas, frecuencias rela-
tivas, frecuencias absolutas acumuladas, frecuencias relativas aculmuladas y las marcas de
clase.
absolutas (relativas) acumuladas respectivamente y Xi denota la marca de clase. Por ejemplo

si Ii = [a, b], entonces Xi = (a + b)/2. Note que la marca de clase es un representante de la
clase respectiva.
Ejemplo 6.1. Considere la siguiente muestra 2; 4; 3; 6; 4; 2; 7; 10; 11; 4; 5; 7; 7; 4; 8; 3; 9;

7; 6. Construya una tabla de frecuencias.
Primero debemos estimar la cantidad de clases (intervalos). Para esto podemos usar
alguna de las reglas conocidas. Mencionaremos dos reglas
1. Regla de Sturges
k = 1 + 3.3 log10 n.
2. Regla de la Raı́z
√
k= n.
En este caso usando la regla de Sturges k = 5.14 y usando la regla de la raı́z k =

4.24. Consideremos la regla de Sturges para este ejemplo. Como k es un número entero
aproximamos al entero superior (este es un criterio, también puede ser usado el entero más
cercano). Entonces de aquı́ en adelante usaremos k = 6.
Para construir las clases necesitamos saber la amplitud (longitud) de cada clase denotada
por a.
R + 1(unidad)
a= ,
k
14
donde R = max{Xi } − min{Xi } es el rango de la muestra. En este caso

9+1
a= = 1.66.
6
El lı́mite inferior del primer intervalo viene dado por
1
L = min{Xi } − unidad = 2 − 1/2 = 1.5
2
Luego, sumamos la amplitud para obtener el lı́mite superior, U=1.5+1.66=3.16. Contin-
uamos sumando la amplitud al lı́mite inferior de cada intervalo. Entonces obtenemos la
siguiente tabla.
Clase ni fi Ni Fi Xi
[1.5; 3.16) 4 0.22 4 0.22 2.33
[3.16; 4.83) 4 0.22 8 0.44 3.99
[4.83; 6.49) 3 0.16 11 0.6 5.66
[6.49; 8.16) 4 0.22 15 0.82 7.33
[8.16; 9.83) 1 0.05 16 0.87 8.99
[9.83; 11.49] 2 0.11 18 1 10.6
Table 3: Tabla de frecuencias construı́da para una muestra de 18 datos.
Similarmente al caso de datos no agrupados necesitamos definir las medidas de tendencia

central, dispersión y forma para datos agrupados. Definimos:
1. El promedio
k
X
X= f i Xi .
i=1
2. La varianza
k
X
S2 = fi (Xi − X)2 .
i=1
3. La desviación estándar v
u k
uX
S=t fi (Xi − X)2 .
i=1
4. El coeficiente de variación
S
CV = ,
X
donde X está dado en el punto 1, y S está definido en el item 3.
15
5. Percentil interpolado de orden k

nk
( 100 − NPk −1 )
Pk = L + aP k ,
nP k
donde
– L es el lı́mite inferior de la clase percentil

– NPk −1 es la frecuencia absoluta acumulada hasta la clase anterior a la clase per-
centil de orden k
– nPk es la frecuencia de la clase percentil de orden k
– aPk es la amplitud de la clase percentil
k
– la clase percentil de orden k es la primera clase en que FPk ≥ 100
,k = 1, 2, . . . , 100
Observación 6.1. Note que P75 = 32 significa que el 75% de los datos es menor o
igual a 32.
Observación 6.2. No es necesario dar una nueva fórmula para la mediana porque
esta corresponde al percentil 50. Asimismo el IQR = Q3 − Q1 puede ser fácilmente
calculado usando el percentil 25 en vez de Q1 y el percentil 75 en vez de Q3 .
6. Moda interpolada
∆1
M0 = L + aM ,
∆1 + ∆2 0
donde
– L es el lı́mite inferior de la clase modal.

– ∆1 = nM − nM −1 , nM es la frecuencia absoluta de la clase modal y nM −1 es la
frecuencia absoluta de la clase anterior a la clase modal.
– ∆2 = nM − nM +1 y nM +1 es la frecuencia absoluta de la clase posterior a la clase
modal.
– aPk es la amplitud de la clase modal.
– la clase modal es aquella clase que tiene la mayor frecuencia relativa.
Observación 6.3. Note que en una tabla de frecuencias podrı́an existir más de una
clase modal.
Ejemplo 6.2. Con la tabla construı́da en el ejemplo anterior calcule
a. El rango percentil RP = P90 − P10
b. La mediana
c. La moda
16
a. La clase percentil de orden 90 es [9.83; 11.49), entonces
( 18×90
100
− 16)
P90 = 9.83 + 1.66 = 9.99.
2
Análogamente, la clase percentil de orden 10 es [1.5; 3.16), luego
( 18×10 − 0)
P10 = 1.5 + 100 1.66 = 2.24.
4
Ası́
RP = 9.99 − 2.24 = 7.75.
b. La clase mediana es [4.83; 6.49). Entonces
( 18×50
100
− 8)
M e = P50 = 4.83 + 1.66 = 5.38.
3
c. En este caso existen tres clases modales ya que no hay una única frecuencia relativa
mayor que todas las demás. Entonces hablamos de una cantidad trimodal. Para cal-
cular cada una de ellas consideramos las tres distintas clases modales existentes. Aquı́
ilustramos el cálculo de la primera la cual denotaremos por M01 . ste cálculo se hace
considerando la clase modal [1.5; 3.16).
(4 − 0)
M01 = 1.5 + 1.66 = 1.5 + 1.66 = 3.16.
(4 − 0) + (4 − 4)
Pk 2
Ejemplo 6.3. Demuestre que S 2 = i=1 fi Xi2 − X . Es fácil ver desde la definición que
k k
2
X
2
X 2
S = fi (Xi − X) = fi (Xi2 − 2Xi X + X )
i=1 i=1
k
X 2 2
= fi Xi2 − 2X + X
i=1
k
X 2
= fi Xi2 − X .
i=1
Terminamos esta subsección mencionando que el cálculo de las medidas de forma para
datos agrupados es similar al caso de datos no agrupados entendiendo que en el cálculo de
los momentos se usa la definición siguiente:
k
X
mr = fi (Xi − X)r .
i=1
17
7 Algunos Gráficos Utiles
Usando algunas medidas de tendencia central y dispersión es posible construir algunos gráficos
que sirven para visualizar algunos patrones asociados a una muestra de datos X1 , X2 , . . . , Xn .
7.1 Histogramas
Definición 7.1. Consideremos una muestra X1 , X2 , . . . , Xn . Supongamos que el rango en
el cual se encuentran los datos lo sudividimos en k intervalos que llamaremos I1 , I2 , . . . , Ik .
Entonces la frecuencia absoluta de la clase Ii es la cantidad de observaciones de la muestra
ni que pertenecen a la clase Ii .
Note que ni ≥ 0 y ki=1 ni = n.
P
Definición 7.2. La frecuencia relativa de la clase Ii de define como

ni
fi = .
n
Pk
En este caso, es fácil ver que fi ≥ 0 y i fi = 1.
Definición 7.3. Un histograma es un gráfico de fi o ni versus Ii .
Un histograma es un diagrama de frecuencias y resume la cantidad de observaciones por
unidad de longitud. Luego, este diagrama sirve para visualizar la distribución de la variable
de interés, tal como se muestra en la Figura 3. En este caso, el histograma de la Figura 3 tiene
Figure 3: Histograma para una muestra de 100 observaciones aleatorias provenientes de una
distribución normal.
12 clases. Este es un parámetro que puede cambiarse en la construcción de un histograma.
En algunos casos se grafica fi /L versus Ii , donde L es la amplitud de los intervalos Ii .
Este gráfico tiene la particularidad que el área bajo la curva está dada por
k
X k
X k
X
AT = Ai = (fi /L) · L = fi = 1.
i=1 i=1 i=1
18
Más adelante veremos que esta propiedad está asociada al concepto de probabilidad.
También enfatizamos que un histograma es una herramienta descriptiva. Más adelante es-
tudiaremos algunas curvas llamadas funciones de densidad de probabilidad asociada a ciertas
poblaciones. En particular la función de densidad de probabilidad de una población normal
tiene la forma descrita en la Figura 4. Un aspecto muy importante es que la curva de función
Figure 4: Función de densidad de probabilidad de una distribución normal.
de probabilidad de una población normal es simétrica respecto al valor medio. (parámetro

de localización.)
7.2 Boxplots (Diagrama de Caja) Tukey, 1977

Un diagrama de caja es un gráfico que permite visualizar la simetrı́a de los datos, la existencia
de observaciones atı́picas (outliers), la dispersión respecto ala mediana y el rango de los datos.
La construcción de un diagrama de caja se detalla en la Figura 5.
Figure 5: Diagrama de caja (boxplot).
Recalcamos que el valor del bigote superior del boxpplot se obtiene calculando la cantidad
min{Ls , max{Xi }}. Similarmente el bigote inferior se obtiene calculando max{Li , min{Xi }}
19
Otra ventaja de los boxplots es la comparación de varias muestras ya que permite la

visualizción de simultánea de las medidas de tendencia central y dispersión de varias muestras.
8 Muestras Estratificadas
Cuando estratificamos la población y luego tomamos una muestra nos interesa saber qué
relación existe entre las medidas de tendencia central y dispersión de cada estratoy las me-
didas de tendencia central y dispersión de la muestra completa.
Supongamos que tenemos m estratos y se ha extraı́do una muestra de tamaño n. Asumamos
que en cada estrato se ha extraı́do una muestra de tamaño ni , i = 1, 2, . . . , m. Entonces el
peso del estrato i-ésimo está dado por wi = nni y el promedio del estrato i-ésimo lo denotamos
por X i . El promedio total no es otra cosa que un promedio ponderado:
m
X
X total = wi X i .
i=1
Si análogamente se define como Vi la varianza del estrato i-ésimo, tenemos que

m
X m
X
Vtotal = wi Vi + wi (X i − X total )2 = Varianza Intra + Varianza Inter.
i=1 i=1
La varianza intra mide la variabilidad que hay en el interior de cada estrato mientras que
la varianza inter mide la variabilidad que existe entre los estratos.
Ejemplo 8.1. Se clasifica a los trabajadores de un mineral en 3 categorı́as. Mayores de 35

años, entre 25 y 35 años y menores de 25 años, obteniéndose la siguiente información respecto
de su productividad en kilogramos:
Categorı́a Número de trabajadores Producción Media Desv. Estándar
20-25 200 40 7
25-35 260 60 5
35-45 300 70 4
a. Calcule la producción media total y la variabilidad total.
b. ¿ Qué equipo es más homogeneo?
a. Claramente
200 260 300
X total = × 40 + × 60 + × 70 = 58.68.
760 760 760
Ahora
200 260 300
VIntra = × (7)2 + × (5)2 + × (4)2 = 27.76
760 760 760
200 260 300
VInter = (40 − 58.68)2 + (60 − 58.68)2 + (70 − 58.68)2 = 143.5
760 760 760
Finalmente Vtotal = 27.76 + 143.5 = 171.26.
20
b. Para analizar la homogeneidad de los grupos calculamos el coeficiente de variación en cada

caso.
7 5 4
CV1 = = 0.175, CV2 = = 0.083, CV3 = = 0.057.
40 60 70
El tercer equipo es más homogenero, es decir presenta menos dispersión en torno al promedio.
9 Estadı́stica Descriptiva Bivariada

9.1 Tabla Bivariada de Frecuencias
Análogamente al caso univariado, es posible estudiar variables estadı́sticas en forma conjunta.
Consideremos dos variables estadı́sticas que llamaremos X e Y. Supongamos que tomamos
una muestra y dividimos en r clases Ai , i = 1, 2, . . . , r según X y en s clases Bj , j = 1, 2, . . . , s
según Y.
Notemos que en este caso la muestra se toma de manera conjunta. Esto es crucial para
el análisis de las variables en cuestión. Si la información se recolecta en forma individual no
siempre en posible analizar ambas muestras en forma conjunta.
Llamaremos
nij : frecuencia absoluta conjunta de la modalidad Ai Bj . Es decir, la cantidad de indi-
viduos o elementos de la muestra que pertenece a la clase Ai y al mismo tiempo a la clase
Bj . Consecuentemente denotaremos la frecuencia relativa conjunta asociada a la modalidad
Ai Bj como fij , entonces
nij
fij = , i = 1, 2, . . . , r, j = 1, 2, . . . , s.
n
Desde las definiciones anteriores podemos fácilmente ver que
Pr Ps
1. i=1 j=1 nij = n.
Pr Ps
2. i=1 j=1 fij = 1
Para trabajar con datos agrupados se puede construir una tabla de contingencia (tabla de
frecuencias relativas o absolutas bivariada) como la que se muestra a continuación:
X / Y B1 B2 Bs Total
A1 n11 n12 ... n1s n1·
A2 n21 n22 ... n2s n2·
... ... ... ... ... ...
Ar nr1 nr2 ... nrs nr·
Total n·1 n·2 ... n·s n··
21
Las frecuencias absolutas conjuntas son las cantidades que se encuentran en el interior
de la tabla. Los valores que se encuentran en la última columna y la última fila se llaman
frecuencias absolutas marginales. Precisamente,
Definición 9.1. 1. s
X
ni· = nij , i = 1, 2, . . . , r.
j=1
2. r
X
n·j = nij , j = 1, 2, . . . , s
i=1
3.
ni·
fi· = , i = 1, 2, . . . , r.
n
4.
n·j
f·j = , j = 1, 2, . . . , s
n
Observación 9.1. Las frecuencias ni· y n·j se llaman frecuencias absolutas marginales mien-
tras que las frecuencias fi· y f·j se llaman frecuencias relativas marginales.
Observación 9.2. Si nuestro objetivo es recuperar la información de las variables X e Y

a partir de las frecuencias conjuntas, entonces podemos calcular las frecuencias marginales.
Estas frecuencias contienen toda la información individual de cada variable.
Definición 9.2. Las frecuencias relativas condicionales asociadas a una tabla de contingencia
se definen como sigue:
fij nij /n nij

fi/j = = = , j = 1, 2, . . . , s
f·j n·j/n n·j
Observación 9.3. Note que lo que hemos definido hasta aquı́ son tres tipos de frecuencias,
estas son: conjunta, marginal y condicional.
Similarmente al caso unidimensional es posible definir los promedios y varianzas marginales

(de cada variable) y también el promedio y varianza condicional.
Definición 9.3. Suponga que los datos de una tabla de contingencia se encuentran diponibles
cuando se ha muestrado en forma conjunta n individuos. Entonces definimos:
1. Promedio marginal de X :
r
X
X= fi· Xi ,
i=1
donde Xi es la marca de clase del intervalo i-ésimo.
2. Varianza marginal de X :
r
X
2
SX = fi· (Xi − X)2 .
i=1
22
3. Promedio marginal de Y :
s
X
Y = f·j Yj ,
j=1
donde Yj es la marca de clase del intervalo j-ésimo.

4. Varianza marginal de Y :
s
X
SY2 = f·j (Yj − Y )2 .
j=1
5. Media de X condicionada a Bj :
r
X
Xj = fi/j Xi .
i=1
6. Varianza de X condicionada a Bj :
r
X
Vj (X) = fi/j (Xi − X j )2 .
i=1
7. Media de Y condicionada a Ai :
s
X
Yj = fj/i Yj .
j=1
8. Varianza de Y condicionada a Ai :
s
X
Vi (Y ) = fj/i (Yj − Y i )2 .
j=1
9. Descomposición de la varianza de X :
s
X s
X
V (X) = f·j Vj (X) + f·j (X j − X)2 .
j=1 j=1
= Varianza Intra + Varianza Inter
10. Descomposición de la varianza de Y :

r
X r
X
V (Y ) = fi· Vi (Y ) + fi· (Y i − Y )2 .
i=1 i=1
= Varianza Intra + Varianza Inter
Ejemplo 9.1. Usando un nuevo proceso de fabricación se producen 3 tipos de lubricantes

y se prueba cada uno de ellos en cierto tipo de máquinas, midiendo su vida útil en horas y
obteniendo los siguientes resultados:
23
Vida útil en horas Lubricante 1 Lubricante 2 Lubricante 3

0-40 18 10 5
40-60 44 52 40
60-80 66 68 60
80-100 25 10 32
Calcular
a. Frecuencias relativas marginales.
b. Frecuancias relativas condicionales a cada tipo de lubricante
c. Media y varianza condicional al lubricante 2.
a. Primero definamos las variables

X : Vida útil
Y : Tipo de lubricante
La tabla dada tiene las frecuencias absolutas conjuntas. Como nuestro objetivo es calcu-
lar las medidas antes definidas es necesario calcular las frecuencias absolutas marginales.
Vida útil en horas Lubricante 1 Lubricante 2 Lubricante 3 ni·

0-40 18 10 5 33
40-60 44 52 40 136
60-80 66 68 60 194
80-100 25 10 32 67
n·j 153 140 137 n = 430
Luego podemos calcular las frecuencias relativas conjuntas y marginales.

n11
f11 = = 18/430 = 0.0418, f12 = 10/430 = 0.0230, f13 = 5/430 = 0.0116.
n
f21 = 44/430 = 0.1023, f22 = 52/430 = 0.1209, f23 = 40/430 = 0.0930.
f31 = 66/430 = 0.1534, f32 = 68/430 = 0.1581, f33 = 60/430 = 0.1395.
f41 = 25/430 = 0.0581, f42 = 10/430 = 0.0232, f43 = 32/430 = 0.0744.
Luego, obtenemos las frecuencias relativas marginales:
f·1 = 0.0418 + 0.10230 + 0.1534 + 0.0581 = 0.3556.
f·2 = 0.0230 + 0.1209 + 0.1581 + 0.0232 = 0.3252.
f·3 = 0.0116 + 0.0930 + 0.1395 + 0.0744 = 0.3185
f1· = 0.0418 + 0.0230 + 0.0116 = 0.0764.

f2· = 0.1023 + 0.1209 + 0.0930 = 0.3162.
f3· = 0.1534 + 0.1581 + 0.1395 = 0.4510.
f4· = 0.0581 + 0.0232 + 0.0744 = 0.1557.
24
b. las frecuencias relativas condicionales a cada tipo de lubricantes vienen dadas por
18 44 66 25
f1/1 = = 0.1176, f2/1 = = 0.2875, f3/1 = = 0.4313, f4/1 = = 0.1633.
153 153 153 153
10 52 68 10
f1/2 = = 0.0714, f2/2 = = 0.3714, f3/2 = = 0.4857, f4/2 = = 0.0714.
140 140 140 140
10 40 60 32
f1/3 = = 0.0729, f2/3 = = 0.2919, f3/3 = = 0.4379, f4/3 = = 0.2335.
137 137 137 137
c. La media condicionada de la vida útil al lubricante 2 viene dada por
4
X
X2 = fi/2 Xi = 0.0714 × 20 + 0.3714 × 50 + 0.4857 × 70 + 0.0714 × 90 = 60.423.
i=1
mientras que la varianza condicional al lubricante 2 es:

4
X
S22 = fi/j (Xi − X 2 )2 = 0.0714(20 − 60.423)2 + 0.3714(50 − 60.423)2
i=1
+ 0.4857(70 − 60.423)2 + 0.0714(90 − 60.423)2
= 107.0085.
Las medidas de forma también puede ser calculadas en una tabla de contingencia. Recorde-
mos que estas medidas se basa en el cálculo de los momentos centrales de orden r, r ∈ N, que
en este caso, por ejemplo para la variable X están dados por
r
X
mr = fi· (Xi − X)r ,
i=1
donde X representa el promedio marginal de X. Entonces las definiciones para el coeficiente

de asimetrı́a de Fisher y la curtosis son válidas en este contexto.
9.2 Covarianza y Correlación

Existe gran interés de conocer relaciones entre variables estadı́sticas. Una forma de acotar
este problema y estudiar algunos casos que son bien abordables desde un punto de vista
matemático es considerando un tipo particular de asociación. Este enfoque fue sugerido por
Pearson a fines del siglo XIX.
Sean X e Y dos variables estadı́sticas las cuales quisieramos saber si tienen algún tipo de
asociación lineal. Entonces asumiendo que las variables son numéricas y que disponemos de
una muestra de la forma {(Xi , Yi )}ni=1 , podemos definir la covarianza entre las variables X e
Y como:
n
1X
cov(X, Y ) = (Xi − X)(Yi − X).
n i=1
25
Observación 9.4. Note que si las variables están directamente asociadas, entonces cov(X, Y ) ≥
0. Al contrario, si las variables están inversamente asociadas, entonces cov(X, Y ) ≤ 0. Si las
variables no tienen una asociación lineal, entonces cov(X, Y ) = 0.
Observación 9.5. Es fácil ver que: cov(X, Y ) = n1 ni=1 Xi Yi − X · Y . En efecto,
P
n
1X
cov(X, Y ) = (Xi − X)(Yi − Y )
n i=1
n
1X
= (Xi Yi − Xi Y − Yi X + X Y )
n i=1
n
1X
= Xi Yi − X Y − X Y + X Y
n i=1
n
1X
= Xi Yi − X Y .
n i=1
Observación 9.6. Si α, β ∈ R tales que α > 0 y β > 0, entonces
cov(αX, βY ) = αβcov(X,Y).
Observación 9.7. Podemos pensar la covarianza como una función cov : F×F −→ R, donde
F es una espacio de funciones. Entonces no es trivial encontrar una cota superior e inferior
para cov. Esta es una una dificultad porque para un par de variables aleatorias es difı́cil saber
si el valor de la covarianza es grande o pequeño. Para sobrepasar este inconveniente podemos
usar una desigualdad apropiada.
v
1 Xn u n n
u 1X 2
1X
(Xi − X)(Yi − X) ≤ (Xi − X) (Yi − Y )2 .
t
n n n

i=1 i=1 i=1
Definición 9.4. Sean X e Y dos variables estadı́sticas y suponngamos que disponemos de

las observaciones {(Xi , Yi )}ni=1 . El coeficiente de correlación de Pearson se define como
Pn
cov(X,Y) (Xi − X)(Yi − X)
r = p 2 2 = qP i=1 .
SX SY n 2
Pn 2
i=1 (Xi − X) i=1 (Yi − Y )
Observación 9.8. El coeficiente de correlación satisface la desigualdad
|r| ≤ 1.
1. r = 1 significa asociación lineal directa perfecta entre las variables X e Y.

2. r = −1 significa asociación lineal inversa perfecta entre las variables X e Y .
3. r = 0 significa ausencia de asociación lineal entre X e Y. esto no significa que no
pueda existir asociación de otro tipo entre ambas variables, por ejemplo, correlación
cuadrática o circular.
26
Ejemplo 9.2. Considere una muestra de la forma {(Xi , Yi )} tal que transformamos la vari-
able Y como sigue:
Yi = aXi + b, a > 0, i = 1, . . . , n.
Entonces es fácil ver que r = 1. Es decir, el coeficiente de correlación entre las variables X e
Y describe una correlación directa perfecta. En efecto
n n
1X aX
cov(X, aX + b) = (Xi − X)(aXi + b − aX − b) = (Xi − X)2 = aSX
2
.
n i=1 n i=1
Luego,
2
aSX
r=p 2 2 2
= 1.
SX a SX
Ejemplo 9.3. La información obtenida a partir de una muestra de tamaño 12 sobre la
relación existente entre la inversión realizada y el rendimiento obtenido en cientos de miles
de Euros para la explotación agrı́cola es la siguiente:
Inversión (X) 11 14 16 15 16 18 20 21 14 20 19 11
Rendimiento (Y) 2 3 5 6 5 3 7 10 6 10 5 6
Determine el nivel de asociacón lineal entre la inversión y el rendimiento (si existe).
Un gráfico de dispersión permite visualizar si existe una relación lineal evidente. En la
siguiente Figura se observan los pares ordenados de las variables X e Y graficados en el
plano. Este tipo de gráfico en estadı́stica descriptiva se denomina diagrama de dispersión
(scaterplot).
X
12
11
10
9
8
0 50 100 150 200
En este caso no es evidente que existe una asociación lineal, sin embargo, el coeficiente
de correlación lineal r = 0.6180539.
27
Observación 9.9. Si los datos están agrupados las fórmulas para calcular el coeficiente de
correlación pueden adaptarse a los datos disponible en una tabla de frecuencias bivariadas.
Entonces la covarianza está dada por
r s r s
1 XX XX
cov(X, Y ) = nij (Xi − X)(Yj − Y ) = fij (Xi − X)(Yj − Y ),
n i=1 j=1 i=1 j=1
donde nij es la frecuencia absoluta del casillero correspondiente a las clases Ai y Bj , Xi es la

marca de clase de Ai , Yi es la marca de clase de Bj , X es el promedio marginal de X y Y es
el promedio marginal de Y.
Es también fácil ver que similarmente al caso en que los datos no están agrupados se tiene
que
r X
X s
cov(X, Y ) = fij Xi Yj − XY . (1)
i=1 j=1
Definición 9.5. Dada una tabla de contingencia denotando Ai las clases para la variable X,
i = 1, 2, . . . , r y Bj las clases para la variable Y, j = 1, 2, . . . , s. Entonces el coeficiente de
correlación de Pearson está dado por
cov(X,Y)
r= p 2 2 ,
SX SY
2
donde SX y SY2 denotan las varianzas marginales de las variables X e Y respectivamente y
cov(X, Y ) está dada en la ecuación (1).
Una vez que hemos dilucidado el problema de la existencia de asociación lineal entre dos
variables el problema se reduce a proponer un modelo que sea adecuado para representar la
relación existente. Un modelo obvio dado la linealidad en la asociación es el llamado modelo
de regresión lineal.
9.3 Modelo de Regresión Lineal Simple

La idea original se remonta al siglo XIX. Francis Galton (1822-1911) investigó la estatura
de los jijos en relación a la estatura de los padres y trazó lı́neas de regresión para explicar
la dependencia entre estad dos variables. Como antes un modelo de regresión puede ser
planteado para datos agrupados y para datos no agrupados. En este caso, deduciremos las
fórmulas para el caso de datos no agrupados y luego las reescribiremos para el caso en que
los datos están arreglados en una tabla de contingencia.
Consideremos la variable Y una variable a ser explicada (variable respuesta) y X una
variable predictora (también denominada explicativa o independiente). Además supongamos
que disponemos de los pares ordenados {(Xi , Yi )}ni=1 . Entonces planteamos el modelo de
regresión lineal de la forma
Yi = β0 + β1 Xi + i , (2)
donde β0 y β1 son parámetros del modelo a ser determinados en función de los datos y i es
un error aleatorio asociado (por ejemplo) al error de medición. El problema se reduce en este
contexto a encontrar la mejor recta que pasa por los puntos observados en el plano XY.
28
Usando una gráfica adecuada, es posible representar los puntos observados en el plano y
el modelo lineal siultáneamente. Entonces tomando el cuadrado de las distancias verticales
entre los puntos observados y los puntos que provee el modelo lineal tenemos que
(Yi − β0 − β1 Xi )2 = 2i .
Sumando a ambos lados de la ecuación anterior se tiene que

n
X n
X
(Yi − β0 − β1 Xi )2 = 2i := g(β0 , β1 ).
i=1 i=1
Dado que buscamos la mejor recta (en el sentido que minimice la suma de los errores al
cuadrado) que represente los puntos observados podemos pensar en la función g como una
función diferenciable y obtener aquellos parámetros β0 y β1 que minimicen g(β0 , β1 ). Esto es
equivalente a resolver el sistema de ecuaciones
∂g(β0 ,β1 )
1. ∂β0
= 0.
∂g(β0 ,β1 )
2. ∂β1
= 0.
Teorema 9.1. Dado un conjunto de puntos en el plano {(Xi , Yi )}ni=1 y un modelo como en
la ecuación (2), la mejor recta de regresión estimada que representa los puntos observados
está dada por
Ybi = βb0 + βb1 Xi ,
donde
βb0 = Y − βb1 X
y
cov(X, Y )
βb1 = 2
.
SX
Observación 9.10. Si los datos están agrupados, entonces las estimaciones están dadas por
βb0 = Y − βb1 X,
donde X e Y representan las medias marginales de X e Y . respectivamente.

cov(X, Y )
βb1 = 2
,
SX
donde r X
s
X
cov(X, Y ) = fij Xi Yj − XY ,
i=1 j=1
2
y SX es la varianza marginal del X.
Observación 9.11. Si X0 es una nueva observación, entonces usando la recta de regresión
estimada es posible proveer una predicción para la variable Y :
Yb0 = βb0 + βb1 X0 .
29
Definición 9.6. Las cantidades ei = Yi − Ybi se llaman residuos asociados al modelo de

regresión simple.
Observación 9.12. Es fácil ver que ni=1 ei = 0.
P
Ejemplo 9.4. Considere el modelo de regresión simple definido por:

Yi = β0 + β1 Xi2 + i , i = 1, 2, . . . , n. (3)
a) ¿ Es el modelo descrito en la ecuación (3) un modelo lineal?
b) Estime los parámetros β0 y β1 por el método de los mı́nimos cuadrados.
c) Si n = 2, X1 = 1, X2 = 3, Y1 = 3, Y2 = 7, calcule βb0 y βb1 .
d) Calcule los residuos asociados a la estimación, usando la información de la parte c).
e) ¿Cuál podrı́a ser el valor de la variable Y cuando X0 = 2 de acuerdo al modelo estudiado?
a. El modelo es lineal en los parámetros.
b. Definimos la función
n
X n
X
g(β0 , β1 ) = 2i = (yi − β0 − β1 Xi2 )2
i=1 i=1
Entonces, asumiendo que g(β0 , β1 ) es una función diferenciable con respecto a β0 y β1 ,

tenemos que β0 y β1 pueden ser estimados resolviendo el sistema
∂g(β0 ,β1 )
1. ∂β0
= 0.
∂g(β0 ,β1 )
2. ∂β1
= 0.
Este sistema es squivalente a:
n
X
(Yi − β0 − β1 Xi2 )Xi2 = 0,
i=1
n
X
(Yi − β0 − β1 Xi2 ) = 0.
i=1
Desde la segunda ecuación obtenemos que

n
X n
X n
X
Yi − β0 n − β1 Xi2 = 0 ⇐⇒ β0 = Y − β1 Xi2 /n
i=1 i=1 i=1
Reemplazando β0 en la primera ecuación obtenemos que

Pn 2
Pn 2
i=1 Yi Xi − Y i=1 Xi
β1 = Pn 4
P n 2 2
.
i=1 Xi − ( i=1 Xi ) /n
Luego recordemos que las estimaciones las denotamos por
n
X
βb0 = Y − βb1 Xi2 /n,
i=1
Pn 2
Pn 2
i=1 Yi Xi − Y i=1 Xi
β1 = Pn
b
4
P n 2 2
.
i=1 Xi − ( i=1 Xi ) /n
30
P2 P2 P2
c. Con los datos dados tenemos que i=1 Xi2 = 5, i=1 Xi4 = 82, i=1 Xi2 Yi = 66, Y = 5.
Luego
βb1 = 0.5899,
βb0 = 3.5252.
d. Por definición, ei = Yi − Ybi . Si X1 = 1, entonces Yb1 = 4.1252, entonces e1 = 3−4.1252 =
−1.1252. Si X2 = 3, Yb2 = 8.8444, entonces e2 = 7 − 8.8444 = 1.8444.
e. El modelo ajustado es:
Ybi = βb0 + βb1 Xi2 .
Si X0 = 2, entonces
Yb0 = 3.5252 + 0.5899 × 4 = 5.8848.
Este valor corresponde a la predicción de la variable Y cuando X0 = 2.
9.4 Ejercicios
Problema 1. Existen dos métodos para medir la temperatura del medio ambiente. El
método clásico y el método nuevo, T1 y T2 respectivamente. Se seleccionan 24 dı́as en forma
aleatoria y se construye la siguiente tabla de frecuencias:
T1 / T2 5 15 25 35
5 1 2 0 0
15 3 1 1 0
25 4 3 2 1
35 2 3 1 0
a) ¿Cuál instrumento es más preciso?
b) ¿Qué porcentaje de dı́as la temperatura es menor a 28 grados según T1 ?
c) ¿Cuál es el promedio y la varianza según T2 para los dı́as que estuvieron en el rango
[10 − 20] según T1 ?
d) ¿Existe ligazón funcional entre T1 y T2 ?
e) Comente la siguiente afirmación:
La temperatura obtenida por T2 es alta debido a que la temperatura medida por T1 es alta.
Problema 2. Considere el coeficiente de correlación entre dos variables X e Y medidas

en escala intervalar. Supongamos que disponemos de una muestra {(xi , yi )}, i = 1, 2, . . . , n.
Además, suponga que cada una de las variables se transforma como sigue:
zi = a + bxi ,
wi = c + dyi ,
donde a, b, c y d son constantes reales. Determine una expresión para el coeficiente de cor-
relación entre las variables Z y W.
Problema 4. Las calificaciones de 15 alumnos de un curso en un examen de matemática

son las mostradas en la Tabla siguiente. Además, en el mismo examen, las calificaciones de
estos alumnos en otras dos asignaturas A y B también se describen en la Tabla:
31
Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Calificación en 3 5 1 10 6 4 2 7 3 9 8 5 8 4 4
Matemática
Calificación en A 8 7 6 8 2 6 0 7 7 8 2 4 1 9 1
Calificación en B 4 3 3 8 8 6 1 5 3 7 7 6 9 5 3
Se sabe que una de las asignaturas (A o B) es Fı́sica y que la otra es Dibujo Técnico.
a) ¿Cuál de las asignaturas (A o B) es Fı́sica y cuál es Dibujo Técnico?
b) Proponga un modelo para asociar las variables Matemática y Fı́sica. Estime los parámetros
usando el método de los mı́nimos cuadrados.
c) ¿Cuál podrı́a ser la nota en Fı́sica de un alumno que sacó nota 8 en Matemática ?
32

Apunte Estadistica Descriptiva

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte Estadistica Descriptiva

Cargado por

Copyright:

Formatos disponibles

Apunte de Estadı́stica Descriptiva

Dr. Jonathan Acosta Salazar

La Estadı́stica Descriptiva es una rama de la Estadı́stica que se ocupa de organizar,

1 Nociones de Población y Muestra

• Muestreo estratificado: Para aplicar el muestreo estratificado la población se par-

• Muestreo por conglomerados: En éste muestreo, se particiona la población en

A continuación, suponga que X es la variable estadı́stica de interés definida para cada

1.1 Tipos de Variables

• Variable Categórica: En este caso, la variable X representa cualidades o categorias.

• Variable Cuantitativa: En este caso, la variable X toma por valores cantidad

1.1.1 Escalas de Medidas

• Escala Nominal Las realizaciones de la variable X son categorı́as en las cuales no

Ejemplo 1.2. Sea X : calificaciones de un examen (A, B, C, D y F). Claramente existe

• Escala Intervalar En este caso el recorrido de la variable X es algún subconjunto de

Ejemplo 1.3. Sea X : Temperatura de funcionamiento de un componente electrónico.

• Escala de Razón En este caso el recorrido de la variable X es algún subconjunto de R

1.2 Primeros Resumenes de una Muestra

1. Los Estadı́sticos de Orden: Los estadı́sticos de orden consisten en ordenar de menor

Table 1: Ventas de los últimos tres meses de un pequeño almacen

Ventas (miles $) Frecuencia

2 Resumenes Cuántificados de una Muestra: Medidas

2.1 Medidas de Tendencia Central o Localización

1. El promedio (Media Aritmética) Es la medida de tendencia central más popular y

Observación 2.1. El sustento matemático del promedio es buscar el centro de los

Observación 2.2. Note que el promedio y el promedio ponderado no son necesari-

Observación 2.3. En las variables cuantitativas contı́nuas, no es posible hablar de

2.2 Medidas de Dispersión

La definición en el caso de Sn es similar.

2. La desviación Mediana (DMe)

Luego, la desviación mediana se define como:

2. El Rango Intecuartı́lico (IQR) y el Semi-Rango Intercualı́lico (SIQR)

Mientras que, el semi-rango Intercuartı́licose define como:

3. El Coeficiente de Variación(CV) El coeficiente de variación es una medida que

1. Coeficiente de Simetrı́a de Fisher El coeficiente de simetrı́a de Fisher es el cuociente

Figure 1: En la izquierda un diagrama de la distribución de la variable con coeficiente γ1 < 0.

Una diagrama de distribución como el mostrado en la Figura 1 con un coeficiente de

3.1 Coeficiente de Achatamiento (Curtosis)

Figure 2: Curtosis asociada a tres patrones de curvas dedensidad de probabilidad.

Estos patrones son ilustrados en la Figura 2

Ejemplo 3.1. Considere

a. Construya un intervalo de la forma (X − 3Sn−1 , X + 3Sn−1 ).

b. Si m3 = 0, calcule la mediana de este conjunto de datos.

Para la parte a) basta considerar que X = 3 y

Ejemplo 4.3. Considere los datos siguientes: 4; 7; 18; 1; 7; 13, 2.

Como 7 ocupa las posiciones 5 y 6 en la muestra podemos considerar el promedio de ambos

5 Transformaciones de la Media y la Varianza

Yi ≈ g(X) + g 0 (X)(Xi − X).

Si la transformación es lineal como antes, se tiene que:

Yi = 1.05Xi + 200000 pesos,

donde Xi : Salario actual del trabajador i-ésimo e Yi : es el salario el trabajador i−ésimo

Y = 1.05X + 200000 = 1.05 × 500000 + 200000 = 725000,

absolutas (relativas) acumuladas respectivamente y Xi denota la marca de clase. Por ejemplo

Ejemplo 6.1. Considere la siguiente muestra 2; 4; 3; 6; 4; 2; 7; 10; 11; 4; 5; 7; 7; 4; 8; 3; 9;

En este caso usando la regla de Sturges k = 5.14 y usando la regla de la raı́z k =

donde R = max{Xi } − min{Xi } es el rango de la muestra. En este caso

Table 3: Tabla de frecuencias construı́da para una muestra de 18 datos.

Similarmente al caso de datos no agrupados necesitamos definir las medidas de tendencia

5. Percentil interpolado de orden k

– L es el lı́mite inferior de la clase percentil

– L es el lı́mite inferior de la clase modal.

Ejemplo 6.2. Con la tabla construı́da en el ejemplo anterior calcule

a. El rango percentil RP = P90 − P10

a. La clase percentil de orden 90 es [9.83; 11.49), entonces

Análogamente, la clase percentil de orden 10 es [1.5; 3.16), luego