Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Los primeros conceptos que necesitan introducir antes de ir de lleno a las ideas de estadı́stica
descriptiva son las nociones de población y muestra.
Definición 1.1. Una población es un conjunto que contiene la totalidad de individuos a
ser estudiados por sus caracterı́sticas.
Definición 1.2. Una muestra es un subconjunto propio de una población (es decir, no vacı́o
ni igual a la población) seleccionada de acuerdo a algún método de muestreo.
El objetivo principal de la estadı́stica es tratar de concluir, a través de la muestra, car-
acterı́sticas que podrı́an estar presentes en la población. El estudio de la muestra se realiza
porque es imposible o muy caro economicamente tratar con la población completa. Por
ejemplo, es imposible chequear todas las ampolletas que produce una fabrica en un mes, por
lo que se deben realizar muestreos de calidad sobre lotes. Pero hay que destacar que las
caracterı́sticas presentes en las muestras no siempre se transmiten a la población, ejemplo de
esto sucede con las encuestas de elecciones.
En general denotaremos por N al tamaño de la población y por n al tamaño de la muestra.
Junto con los conceptos anteriores, el primer paso para realizar un estudio estadı́stico consiste
en obtener la muestra y claramente determinar el tamaño n que ésta debe tener. Los métodos
clásicos de muestreos son los siguientes:
• Muestreo aleatorio simple: La muestra como tal se obtendrá al azar, lo que implica
que cada muestra poseerá la misma probabilidad de ser escogida que las restantes.
Además, cada elemento de la muestra tendrá siempre la misma probabilidad de haber
sido escogido que las restantes.
• Muestreo sistemático: En este muestreo, los elementos de la población se seleccionan
con un intervalo uniforme que se mide con respecto a cualquier caracterı́stica conve-
niente, como por ejemplo; el tiempo, espacio, etc. Se debe tener la precaución de que
los elementos de la población no este ordenados con respecto a la variable en estudio. El
muestreo sistemático difiere del muestreo aleatorio simple en que cada elemento tiene
iguales probabilidades de ser seleccionado, pero las muestras no son equiprobables.
1
Estadı́stica Descriptiva Jonathan Acosta
Cabe descatacar que al utilzar un mal muestreo, se podrı́an obtener conclusiones total-
mente erradas acerca de la población. Pero este curso no profundizará más detalles sobre
los métodos clásicos de muestreo, sino que se asumirá que la muestra seleccionada ha sido
obtenida por algún método apropiado. También enfatizamos el hecho que existen fórmulas
que permiten calcular el tamaño muestral de tal manera que el error asociado al muestreo sea
mı́nimo. Estas fórmulas deben ser combinadas con las restricciones relativas a los recursos
para producir un tamaño muestral óptimo.
2
Estadı́stica Descriptiva Jonathan Acosta
Ejemplo 1.1. Sea X : color de los ojos. Claramente las realizaciones de X son cate-
gorı́as. En particular los valores de la variable son colores (verde, azul, cafe, negro).
• Escala Ordinal En este caso las realizaciones de X se pueden ordenar aunque no sean
necesariamente números.
Ejemplo 1.4. Sea X : el peso de una persona (si una persona pesa 110 kilos, esta
pesará el doble respecto a aquellas que pesen 55 kilos y esta equivalencia se mantiene
si se cambia de unidad de medida). Claramente Rec(X) = R+ . Luego la variable X
puede ser medida en una escala de Razón.
Este curso estudiará principalmente variables que se miden en una escala Intervalar o Razón.
Por ejemplo:
Si X : Tiempo de funcionamiento correcto de un componente electrónico. Entonces
X1 , X2 , . . . , Xn representa el tiempo de funcionamiento correcto de las componentes 1, 2, . . . , n,
respectivamente. Pero si n es muy grande no nos podemos dar una idea de como se distribuye
el tiempo correcto en las diferentes componentes y a veces se busca determinar un tiempo
lı́mite de modo de estar seguros que un cierto porcentajes de componentes se encuentra fun-
cionando al menos hasta ese tiempo. Esto puede ser de mucha utilidad para un fabricante
al momento de definir el tiempo de garantı́a, dado que si es muy poco su producto no tiene
mucha credibilidad pero si es demasiado puedo ser muy costoso para la empresa. Por lo
tanto, es necesario resumir la información de una muestra para poder posteriormente extraer
información valiosa como la descrita.
3
Estadı́stica Descriptiva Jonathan Acosta
En particular, los valores P25 , P50 , P75 y P100 reciben el nombre de primer, segundo,
tercer y cuarto cuartil respectivamente. Es decir,
Q1 = P25 , Q2 = P50 , Q3 = P75 , Q4 = P100 .
Mientras que, los valores P10 , P20 , P30 , P40 , P50 , P60 ,P70 , P80 , P90 y P100 reciben el nombre
de deciles. Es decir,
D1 = P10 , D2 = P20 , D3 = P30 , D4 = P40 , D5 = P50
D6 = P60 , D7 = P70 , D8 = P80 , D9 = P90 , D1 0 = P100
Observación: El percentil de orden 50 coincide con la mediana y en este caso la mues-
tra se divide en dos mitades iguales. También existen los Quintiles, los cuales dividen
la muestra en 5 partes iguales y han sido utilizados para indicar el nivel socieconómico
de las personas.
Los Percentiles permiten resumir la información de la muestra en una gráfica conocida
como Box-Plot.
3. Las Tablas de Frecuencia: Las tablas de frecuencias consisten en organizar los datos
de modo que para n grande, la información de la muestra este contenida en pocas
clases. Debido a que la muestra se presenta en clases en este caso hay una pérdida
de información, ya que se pierde el valor de cada muestra y solo se conoce cuantas
muestras hay por clase, donde en cada clase solo se conoce el lı́mite inferior y superior.
La tabla 1 es un ejemplo de tabla de frecuancias, en este ejemplo es un resumen de las
ventas de los últimos tres meses de un pequeño almacen. Podemos apreciar el sentido
de la pérdida de información, ya que exiten seis dı́as en que se vendió entre $120.000 y
$155.000, pero no conocemos el valor exacto de esos seis dı́as
4
Estadı́stica Descriptiva Jonathan Acosta
En la siguiente sección abordamos como resumir la información de una muestra n pocas can-
tidades, en un principio trataremos con los datos a granel y más tarde veremos el tratamiento
para datos agrupados.
2. El promedio Ponderado Es una generalización del caso anterior y esta dado por:
n
X
Xw = w i Xi ,
i=1
Pn
donde wi ≥ 0 ∀i = 1, 2, . . . , n, y i=1 wi = 1.
5
Estadı́stica Descriptiva Jonathan Acosta
3. La Moda
La moda (M0 ) es quel valor que más se repite en la muestra. Es posible que existan dos
o tres modas, en tal caso se habla de medidas bimodales o trimodales respectivamente.
3. La Mediana
La mediana (Me ) es un valor que divide la muestra en dos partes iguales. Es decir no se
concentra en los valores en si mismos de la muestra sino en la cantidad de datos que hay
en cada grupo. Para calcular la mediana es necesario utilizar los estadı́sticos de orden.
Entonces, para calcular el valor central de la muestra (la mediana) diferenciamos dos
casos dependiendo si el tamaño de la muestra n es par o impar:
X( n+1
2 )
, n es impar,
Me =
X( n2 ) +X( n2 +1) , n es par.
2
6
Estadı́stica Descriptiva Jonathan Acosta
Es decir, el promedio es aquella cantidad que produce la menor suma de todas las
distancias al cuadrado. Si reemplazamos T = X en la ecuación original para Q(T )
obtenemos una cantidad llamada varianza, definida por
n
1X
Sn2 = (Xi − X)2 .
n i=1
Alternativamente, definimos la varianza muestral como
n
2 1 X
Sn−1 = (Xi − X)2 .
n − 1 i=1
Note que las unidades de Sn2 o Sn−1 2
no son las mismas que las unidades de los datos
originales. Esto sugiere definir la siguiente cantidad llamada desviación estándar:
v
u n
u 1 X
Sn−1 = t (Xi − X)2 .
n − 1 i=1
7
Estadı́stica Descriptiva Jonathan Acosta
es minimizada por T = Me .
IQR = Q3 − Q1 .
3 Medidas de Forma
Las medidas de forma tienen como objetivo caracterizar donde se concentran los valores de
una variable estadı́stica. Los posibles patrones que se pueden encontrar en una muestra son
bien variados. Sin embargo, mediante medidas apropiadas es posible clasificar casi todos los
comportamientos posibles en unos pocos casos.
Definición 3.1. Sea X2 , X2 , . . . , Xn una muestra de tamaño n. Definimos el momento mues-
tral central de orden r, r ∈ N, como sigue:
n
1X
mr = (Xi − X)r .
n i=1
8
Estadı́stica Descriptiva Jonathan Acosta
9
Estadı́stica Descriptiva Jonathan Acosta
2 1 X
Sn−1 = (Xi − X)2
n−1
n
1 X 2 2X X n 2
= Xi − Xi + X
n−1 n − 1 i=1 n−1
1 X 2 n 2
= Xi − X .
n−1 n−1
2
Luego, en este caso, Sn−1 = 1074/24 − 25/24 × 32 = 35.38. =⇒ Sn−1 = 5.95. Finalmente, el
intervalo buscado es: (−14.85; 20.85).
Para la parte b) note que si m3 = 0 esto implica que la muestra es simétrica en torno
al promedio y no existe sesgo hacia la derecha ni hacia la izquierda. Luego, en este caso el
promerio, la moda y la mediana coinciden. Esta es una regla general para las distribuciones
simétricas. Ası́ Me = 3.
4 Ejemplos
Ejemplo 4.1. Demostrar
1
Pn 1
Pn 2
a) Sn2 = n i=1 (Xi − X)2 = n i=1 Xi2 − X .
10
Estadı́stica Descriptiva Jonathan Acosta
2 1
Pn Pn
b) Sn−1 = 2n(n−1) i=1 j=1 (Xi − Xj )2 .
Note que en el caso a) el resultado es directo al desarrollar el cuadrado del binomio. Es decir
n n n n
1X 2 1 X 2 2X X 2 1X 2 2
(Xi − X) = Xi − Xi + X = Xi − X .
n i=1 n i=1 n i=1 n i=1
En el caso b) el resultado se obtiene al sumar y restar la cantidad X en el lado derecho de la
ecuación. En efecto
n X n n X n
1 X
2 1 X
(Xi − Xj ) = ({Xi − X} − {Xj − X})2
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
n n n n
1 XX 1 XX
= (Xi − X)2 + (Xj − X)2
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
n n
1 XX
− (Xi − X)(Xj − X)
n(n − 1) i=1 j=1
Pn
Note que i=1 (Xi − X) = 0 por lo tanto el tercer término de la igualdad anterior se anula.
Luego
n n n n
1 XX 2 XX
(Xi − Xj )2 = (Xi − X)2
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
n
1 X
= (Xi − X)2
n − 1 i=1
2
= Sn−1 .
Ejemplo 4.2. Se define el número condición asociado a una muestra X1 , X2 , . . . , Xn como:
Pn 2
i=1 Xi
κ= 2
.
(n − 1)Sn−1
Verifique que el número condición puede ser escrito como:
n
κ=1+ CV −2 ,
n−1
donde CV denota el coeficiente de variación. Note que
Pn 2
i=1 Xi
κ= 2
(n − 1)Sn−1
Pn
(Xi − X + X)2
= i=1 2
(n − 1)Sn−1
Pn 2 2
i=1 (Xi − X) + nX
= 2
(n − 1)Sn−1
2
nX
=1+ 2
(n − 1)Sn−1
n
=1+ CV−2 .
n−1
11
Estadı́stica Descriptiva Jonathan Acosta
a) P75 = 13 significa que el 75% de la muestra tiene valores menores o iguales a 13.
b) IQR=Q3 − Q1 , pero para calcular Q3 y Q1 es necesario ordenar los datos originales.
Entonces como existen 7 datos y el valor 2 ocupa la segunda posición, tenemos que 2/7=0.28,
luego Q1 = 2. Similarmente el valor 13 ocupa la posición 6, entonces 6/7=0.85, esto in¡mplica
que Q3 = 13. Por consiguiente, IQR= 13 − 2 = 11.
c) En este caso basta con dividir 5/7=0.71. Por lo tanto, el 71% de la muestra es menor o
igual al valor 7. Hay que considerar que usando la definición de percentil, tenemos que
Pj = X(j/100(7+1)) = X( 8×j ) = 7.
100
obtenemos j = 75. En ambos casos nuestra definición proporciona valores aproximados del
verdadero porcentaje. Esto se reduce cuando el tamaño muestral es grande.
Ejercicio Propuesto
Para un material compuesto de 21 observaciones se calculó la media aritmética y la
varianza. El resultado fue el siguiente: X = 1 y Sn2 = 50. Después de realizados los cálculos,
descubrieron un error en el material original. Una observación con valor -5, en realidad tenı́a
un valor igual a +16. Calcular el valor correcto tanto de la media aritmética como de la
varianza.
12
Estadı́stica Descriptiva Jonathan Acosta
Entonces,
n n
1X 1X
Y = Yi ≈ [g(X) + g 0 (X)(Xi − X)] = g(X).
n i=1 n i=1
Por ejemplo, si la transformación es lineal,
Yi = aXi + b, a, b ∈ R,
entonces
Y = aX + b.
Un cálculo similar permite obtener una expresión para la varianza de la transformación
original:
2 2
SY2 = g 0 (X) SX .
En efecto,
n n
1X 1 X 2
SY2 = 2
(Yi − Y ) = g(Xi ) − g(X)
n i=1 n i=1
n
1 X 2
≈ g(X) + g 0 (X)(Xi − X) − g(X)
n i=1
n
21
X
0
= g (X) (Xi − X)2
n i=1
0 2 2
= g (X) SX .
SY2 = a2 SX
2
.
Ejemplo 5.1. Se desea subir el salario a todos los empleados de una empresa en un 5% más
2
un bono de 200000 pesos. Si X = 500000 y SX = 90000. Calcule el nuevo promedio y la
nueva varianza asociados a la transformación.
La transformación es de la forma:
SY2 = (1.05)2 × SX
2
= (1.05)2 × 90000 = 99225.
El promedio y la varianza experimentaron alzas después de la transformación. Esto significa
que en promedio el salario aumentó. Sin embargo, los sueldos después de la transformación
son más dispersos que antes. Una forma de remediar esto es aplicando transformaciones
distintas a estratos previamente definidos.
13
Estadı́stica Descriptiva Jonathan Acosta
6 Datos Agrupados
6.1 Construcción de Tablas de Frecuencia
Cuando los datos han sido tabulados en una tabla de frecuencias se dice que los datos se
encuentran agrupados. Una vez que los datos han sido agrupados la idea es proporcionar
fórmulas para las medidas de tendencia central, de dispersión y de forma sin tener que
desagregar los datos.
Consideremos una variable que se mide en escala intervalar de tal manera que disponemos
de la muestra X1 , X2 , . . . , Xn . Entonces una tabla
P de frecuencias
P es una tabla de la forma en
que ilustra en el siguiente cuadro, donde Nj = ji=1 ni , Fj = ji=1 fi , se llaman frecuencias
Clase ni fi Ni Fi Xi
I1 n1 f1 N1 F1 X1
I2 n2 f2 N2 F2 X2
.. .. .. .. .. ..
. . . . . .
Ik nk fk Nk Fk Xk
Table 2: Tabla de frecuencias incluyendo las clases, frecuencias absolutas, frecuencias rela-
tivas, frecuencias absolutas acumuladas, frecuencias relativas aculmuladas y las marcas de
clase.
1. Regla de Sturges
k = 1 + 3.3 log10 n.
2. Regla de la Raı́z
√
k= n.
Clase ni fi Ni Fi Xi
[1.5; 3.16) 4 0.22 4 0.22 2.33
[3.16; 4.83) 4 0.22 8 0.44 3.99
[4.83; 6.49) 3 0.16 11 0.6 5.66
[6.49; 8.16) 4 0.22 15 0.82 7.33
[8.16; 9.83) 1 0.05 16 0.87 8.99
[9.83; 11.49] 2 0.11 18 1 10.6
1. El promedio
k
X
X= f i Xi .
i=1
2. La varianza
k
X
S2 = fi (Xi − X)2 .
i=1
3. La desviación estándar v
u k
uX
S=t fi (Xi − X)2 .
i=1
4. El coeficiente de variación
S
CV = ,
X
donde X está dado en el punto 1, y S está definido en el item 3.
15
Estadı́stica Descriptiva Jonathan Acosta
donde
Observación 6.1. Note que P75 = 32 significa que el 75% de los datos es menor o
igual a 32.
Observación 6.2. No es necesario dar una nueva fórmula para la mediana porque
esta corresponde al percentil 50. Asimismo el IQR = Q3 − Q1 puede ser fácilmente
calculado usando el percentil 25 en vez de Q1 y el percentil 75 en vez de Q3 .
6. Moda interpolada
∆1
M0 = L + aM ,
∆1 + ∆2 0
donde
Observación 6.3. Note que en una tabla de frecuencias podrı́an existir más de una
clase modal.
b. La mediana
c. La moda
16
Estadı́stica Descriptiva Jonathan Acosta
( 18×90
100
− 16)
P90 = 9.83 + 1.66 = 9.99.
2
( 18×10 − 0)
P10 = 1.5 + 100 1.66 = 2.24.
4
Ası́
RP = 9.99 − 2.24 = 7.75.
( 18×50
100
− 8)
M e = P50 = 4.83 + 1.66 = 5.38.
3
c. En este caso existen tres clases modales ya que no hay una única frecuencia relativa
mayor que todas las demás. Entonces hablamos de una cantidad trimodal. Para cal-
cular cada una de ellas consideramos las tres distintas clases modales existentes. Aquı́
ilustramos el cálculo de la primera la cual denotaremos por M01 . ste cálculo se hace
considerando la clase modal [1.5; 3.16).
(4 − 0)
M01 = 1.5 + 1.66 = 1.5 + 1.66 = 3.16.
(4 − 0) + (4 − 4)
Pk 2
Ejemplo 6.3. Demuestre que S 2 = i=1 fi Xi2 − X . Es fácil ver desde la definición que
k k
2
X
2
X 2
S = fi (Xi − X) = fi (Xi2 − 2Xi X + X )
i=1 i=1
k
X 2 2
= fi Xi2 − 2X + X
i=1
k
X 2
= fi Xi2 − X .
i=1
Terminamos esta subsección mencionando que el cálculo de las medidas de forma para
datos agrupados es similar al caso de datos no agrupados entendiendo que en el cálculo de
los momentos se usa la definición siguiente:
k
X
mr = fi (Xi − X)r .
i=1
17
Estadı́stica Descriptiva Jonathan Acosta
Usando algunas medidas de tendencia central y dispersión es posible construir algunos gráficos
que sirven para visualizar algunos patrones asociados a una muestra de datos X1 , X2 , . . . , Xn .
7.1 Histogramas
Definición 7.1. Consideremos una muestra X1 , X2 , . . . , Xn . Supongamos que el rango en
el cual se encuentran los datos lo sudividimos en k intervalos que llamaremos I1 , I2 , . . . , Ik .
Entonces la frecuencia absoluta de la clase Ii es la cantidad de observaciones de la muestra
ni que pertenecen a la clase Ii .
Note que ni ≥ 0 y ki=1 ni = n.
P
Figure 3: Histograma para una muestra de 100 observaciones aleatorias provenientes de una
distribución normal.
12 clases. Este es un parámetro que puede cambiarse en la construcción de un histograma.
En algunos casos se grafica fi /L versus Ii , donde L es la amplitud de los intervalos Ii .
Este gráfico tiene la particularidad que el área bajo la curva está dada por
k
X k
X k
X
AT = Ai = (fi /L) · L = fi = 1.
i=1 i=1 i=1
18
Estadı́stica Descriptiva Jonathan Acosta
Más adelante veremos que esta propiedad está asociada al concepto de probabilidad.
También enfatizamos que un histograma es una herramienta descriptiva. Más adelante es-
tudiaremos algunas curvas llamadas funciones de densidad de probabilidad asociada a ciertas
poblaciones. En particular la función de densidad de probabilidad de una población normal
tiene la forma descrita en la Figura 4. Un aspecto muy importante es que la curva de función
Recalcamos que el valor del bigote superior del boxpplot se obtiene calculando la cantidad
min{Ls , max{Xi }}. Similarmente el bigote inferior se obtiene calculando max{Li , min{Xi }}
19
Estadı́stica Descriptiva Jonathan Acosta
8 Muestras Estratificadas
Cuando estratificamos la población y luego tomamos una muestra nos interesa saber qué
relación existe entre las medidas de tendencia central y dispersión de cada estratoy las me-
didas de tendencia central y dispersión de la muestra completa.
Supongamos que tenemos m estratos y se ha extraı́do una muestra de tamaño n. Asumamos
que en cada estrato se ha extraı́do una muestra de tamaño ni , i = 1, 2, . . . , m. Entonces el
peso del estrato i-ésimo está dado por wi = nni y el promedio del estrato i-ésimo lo denotamos
por X i . El promedio total no es otra cosa que un promedio ponderado:
m
X
X total = wi X i .
i=1
La varianza intra mide la variabilidad que hay en el interior de cada estrato mientras que
la varianza inter mide la variabilidad que existe entre los estratos.
a. Claramente
200 260 300
X total = × 40 + × 60 + × 70 = 58.68.
760 760 760
Ahora
200 260 300
VIntra = × (7)2 + × (5)2 + × (4)2 = 27.76
760 760 760
200 260 300
VInter = (40 − 58.68)2 + (60 − 58.68)2 + (70 − 58.68)2 = 143.5
760 760 760
Finalmente Vtotal = 27.76 + 143.5 = 171.26.
20
Estadı́stica Descriptiva Jonathan Acosta
Para trabajar con datos agrupados se puede construir una tabla de contingencia (tabla de
frecuencias relativas o absolutas bivariada) como la que se muestra a continuación:
X / Y B1 B2 Bs Total
A1 n11 n12 ... n1s n1·
A2 n21 n22 ... n2s n2·
... ... ... ... ... ...
Ar nr1 nr2 ... nrs nr·
Total n·1 n·2 ... n·s n··
21
Estadı́stica Descriptiva Jonathan Acosta
Las frecuencias absolutas conjuntas son las cantidades que se encuentran en el interior
de la tabla. Los valores que se encuentran en la última columna y la última fila se llaman
frecuencias absolutas marginales. Precisamente,
Definición 9.1. 1. s
X
ni· = nij , i = 1, 2, . . . , r.
j=1
2. r
X
n·j = nij , j = 1, 2, . . . , s
i=1
3.
ni·
fi· = , i = 1, 2, . . . , r.
n
4.
n·j
f·j = , j = 1, 2, . . . , s
n
Observación 9.1. Las frecuencias ni· y n·j se llaman frecuencias absolutas marginales mien-
tras que las frecuencias fi· y f·j se llaman frecuencias relativas marginales.
Definición 9.2. Las frecuencias relativas condicionales asociadas a una tabla de contingencia
se definen como sigue:
Observación 9.3. Note que lo que hemos definido hasta aquı́ son tres tipos de frecuencias,
estas son: conjunta, marginal y condicional.
Definición 9.3. Suponga que los datos de una tabla de contingencia se encuentran diponibles
cuando se ha muestrado en forma conjunta n individuos. Entonces definimos:
1. Promedio marginal de X :
r
X
X= fi· Xi ,
i=1
2. Varianza marginal de X :
r
X
2
SX = fi· (Xi − X)2 .
i=1
22
Estadı́stica Descriptiva Jonathan Acosta
3. Promedio marginal de Y :
s
X
Y = f·j Yj ,
j=1
5. Media de X condicionada a Bj :
r
X
Xj = fi/j Xi .
i=1
6. Varianza de X condicionada a Bj :
r
X
Vj (X) = fi/j (Xi − X j )2 .
i=1
7. Media de Y condicionada a Ai :
s
X
Yj = fj/i Yj .
j=1
8. Varianza de Y condicionada a Ai :
s
X
Vi (Y ) = fj/i (Yj − Y i )2 .
j=1
9. Descomposición de la varianza de X :
s
X s
X
V (X) = f·j Vj (X) + f·j (X j − X)2 .
j=1 j=1
23
Estadı́stica Descriptiva Jonathan Acosta
24
Estadı́stica Descriptiva Jonathan Acosta
b. las frecuencias relativas condicionales a cada tipo de lubricantes vienen dadas por
18 44 66 25
f1/1 = = 0.1176, f2/1 = = 0.2875, f3/1 = = 0.4313, f4/1 = = 0.1633.
153 153 153 153
10 52 68 10
f1/2 = = 0.0714, f2/2 = = 0.3714, f3/2 = = 0.4857, f4/2 = = 0.0714.
140 140 140 140
10 40 60 32
f1/3 = = 0.0729, f2/3 = = 0.2919, f3/3 = = 0.4379, f4/3 = = 0.2335.
137 137 137 137
c. La media condicionada de la vida útil al lubricante 2 viene dada por
4
X
X2 = fi/2 Xi = 0.0714 × 20 + 0.3714 × 50 + 0.4857 × 70 + 0.0714 × 90 = 60.423.
i=1
Las medidas de forma también puede ser calculadas en una tabla de contingencia. Recorde-
mos que estas medidas se basa en el cálculo de los momentos centrales de orden r, r ∈ N, que
en este caso, por ejemplo para la variable X están dados por
r
X
mr = fi· (Xi − X)r ,
i=1
25
Estadı́stica Descriptiva Jonathan Acosta
Observación 9.4. Note que si las variables están directamente asociadas, entonces cov(X, Y ) ≥
0. Al contrario, si las variables están inversamente asociadas, entonces cov(X, Y ) ≤ 0. Si las
variables no tienen una asociación lineal, entonces cov(X, Y ) = 0.
Observación 9.5. Es fácil ver que: cov(X, Y ) = n1 ni=1 Xi Yi − X · Y . En efecto,
P
n
1X
cov(X, Y ) = (Xi − X)(Yi − Y )
n i=1
n
1X
= (Xi Yi − Xi Y − Yi X + X Y )
n i=1
n
1X
= Xi Yi − X Y − X Y + X Y
n i=1
n
1X
= Xi Yi − X Y .
n i=1
cov(αX, βY ) = αβcov(X,Y).
Observación 9.7. Podemos pensar la covarianza como una función cov : F×F −→ R, donde
F es una espacio de funciones. Entonces no es trivial encontrar una cota superior e inferior
para cov. Esta es una una dificultad porque para un par de variables aleatorias es difı́cil saber
si el valor de la covarianza es grande o pequeño. Para sobrepasar este inconveniente podemos
usar una desigualdad apropiada.
v
1 Xn u n n
u 1X 2
1X
(Xi − X)(Yi − X) ≤ (Xi − X) (Yi − Y )2 .
t
n n n
i=1 i=1 i=1
|r| ≤ 1.
26
Estadı́stica Descriptiva Jonathan Acosta
Ejemplo 9.2. Considere una muestra de la forma {(Xi , Yi )} tal que transformamos la vari-
able Y como sigue:
Yi = aXi + b, a > 0, i = 1, . . . , n.
Entonces es fácil ver que r = 1. Es decir, el coeficiente de correlación entre las variables X e
Y describe una correlación directa perfecta. En efecto
n n
1X aX
cov(X, aX + b) = (Xi − X)(aXi + b − aX − b) = (Xi − X)2 = aSX
2
.
n i=1 n i=1
Luego,
2
aSX
r=p 2 2 2
= 1.
SX a SX
Ejemplo 9.3. La información obtenida a partir de una muestra de tamaño 12 sobre la
relación existente entre la inversión realizada y el rendimiento obtenido en cientos de miles
de Euros para la explotación agrı́cola es la siguiente:
Inversión (X) 11 14 16 15 16 18 20 21 14 20 19 11
Rendimiento (Y) 2 3 5 6 5 3 7 10 6 10 5 6
Determine el nivel de asociacón lineal entre la inversión y el rendimiento (si existe).
Un gráfico de dispersión permite visualizar si existe una relación lineal evidente. En la
siguiente Figura se observan los pares ordenados de las variables X e Y graficados en el
plano. Este tipo de gráfico en estadı́stica descriptiva se denomina diagrama de dispersión
(scaterplot).
X
12
11
10
9
8
En este caso no es evidente que existe una asociación lineal, sin embargo, el coeficiente
de correlación lineal r = 0.6180539.
27
Estadı́stica Descriptiva Jonathan Acosta
Observación 9.9. Si los datos están agrupados las fórmulas para calcular el coeficiente de
correlación pueden adaptarse a los datos disponible en una tabla de frecuencias bivariadas.
Entonces la covarianza está dada por
r s r s
1 XX XX
cov(X, Y ) = nij (Xi − X)(Yj − Y ) = fij (Xi − X)(Yj − Y ),
n i=1 j=1 i=1 j=1
Definición 9.5. Dada una tabla de contingencia denotando Ai las clases para la variable X,
i = 1, 2, . . . , r y Bj las clases para la variable Y, j = 1, 2, . . . , s. Entonces el coeficiente de
correlación de Pearson está dado por
cov(X,Y)
r= p 2 2 ,
SX SY
2
donde SX y SY2 denotan las varianzas marginales de las variables X e Y respectivamente y
cov(X, Y ) está dada en la ecuación (1).
Una vez que hemos dilucidado el problema de la existencia de asociación lineal entre dos
variables el problema se reduce a proponer un modelo que sea adecuado para representar la
relación existente. Un modelo obvio dado la linealidad en la asociación es el llamado modelo
de regresión lineal.
28
Estadı́stica Descriptiva Jonathan Acosta
Usando una gráfica adecuada, es posible representar los puntos observados en el plano y
el modelo lineal siultáneamente. Entonces tomando el cuadrado de las distancias verticales
entre los puntos observados y los puntos que provee el modelo lineal tenemos que
(Yi − β0 − β1 Xi )2 = 2i .
Dado que buscamos la mejor recta (en el sentido que minimice la suma de los errores al
cuadrado) que represente los puntos observados podemos pensar en la función g como una
función diferenciable y obtener aquellos parámetros β0 y β1 que minimicen g(β0 , β1 ). Esto es
equivalente a resolver el sistema de ecuaciones
∂g(β0 ,β1 )
1. ∂β0
= 0.
∂g(β0 ,β1 )
2. ∂β1
= 0.
Teorema 9.1. Dado un conjunto de puntos en el plano {(Xi , Yi )}ni=1 y un modelo como en
la ecuación (2), la mejor recta de regresión estimada que representa los puntos observados
está dada por
Ybi = βb0 + βb1 Xi ,
donde
βb0 = Y − βb1 X
y
cov(X, Y )
βb1 = 2
.
SX
Observación 9.10. Si los datos están agrupados, entonces las estimaciones están dadas por
βb0 = Y − βb1 X,
29
Estadı́stica Descriptiva Jonathan Acosta
30
Estadı́stica Descriptiva Jonathan Acosta
P2 P2 P2
c. Con los datos dados tenemos que i=1 Xi2 = 5, i=1 Xi4 = 82, i=1 Xi2 Yi = 66, Y = 5.
Luego
βb1 = 0.5899,
βb0 = 3.5252.
d. Por definición, ei = Yi − Ybi . Si X1 = 1, entonces Yb1 = 4.1252, entonces e1 = 3−4.1252 =
−1.1252. Si X2 = 3, Yb2 = 8.8444, entonces e2 = 7 − 8.8444 = 1.8444.
e. El modelo ajustado es:
Ybi = βb0 + βb1 Xi2 .
Si X0 = 2, entonces
Yb0 = 3.5252 + 0.5899 × 4 = 5.8848.
Este valor corresponde a la predicción de la variable Y cuando X0 = 2.
9.4 Ejercicios
Problema 1. Existen dos métodos para medir la temperatura del medio ambiente. El
método clásico y el método nuevo, T1 y T2 respectivamente. Se seleccionan 24 dı́as en forma
aleatoria y se construye la siguiente tabla de frecuencias:
T1 / T2 5 15 25 35
5 1 2 0 0
15 3 1 1 0
25 4 3 2 1
35 2 3 1 0
a) ¿Cuál instrumento es más preciso?
b) ¿Qué porcentaje de dı́as la temperatura es menor a 28 grados según T1 ?
c) ¿Cuál es el promedio y la varianza según T2 para los dı́as que estuvieron en el rango
[10 − 20] según T1 ?
d) ¿Existe ligazón funcional entre T1 y T2 ?
e) Comente la siguiente afirmación:
La temperatura obtenida por T2 es alta debido a que la temperatura medida por T1 es alta.
31
Estadı́stica Descriptiva Jonathan Acosta
Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Calificación en 3 5 1 10 6 4 2 7 3 9 8 5 8 4 4
Matemática
Calificación en A 8 7 6 8 2 6 0 7 7 8 2 4 1 9 1
Calificación en B 4 3 3 8 8 6 1 5 3 7 7 6 9 5 3
Se sabe que una de las asignaturas (A o B) es Fı́sica y que la otra es Dibujo Técnico.
a) ¿Cuál de las asignaturas (A o B) es Fı́sica y cuál es Dibujo Técnico?
b) Proponga un modelo para asociar las variables Matemática y Fı́sica. Estime los parámetros
usando el método de los mı́nimos cuadrados.
c) ¿Cuál podrı́a ser la nota en Fı́sica de un alumno que sacó nota 8 en Matemática ?
32