Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CALLAO – PERÚ
UNAC Procesos Estocásticos
INTRODUCCIÓN
Hasta ahora sólo hemos estudiado una característica cada individuo de una población o
muestra por separado. La estadística descriptiva bidimensional trata del estudio conjunto de
dos variables {X, Y} medidas sobre la misma población o muestra. Cada individuo aportará un
par de datos u observaciones.
De forma general, si se estudian sobre una misma población y se miden por las mismas
unidades estadísticas una variable X y una variable Y, se obtienen series estadísticas de las
variables X e Y. Considerando simultáneamente las dos series, se suele decir que estamos
ante una variable estadística bidimensional.
Consideremos una población de N elementos sobre los que estudiamos conjuntamente dos
variables X e Y. Cada elemento vendrá dado por un par de valores (xi; yi), i = 1, … , N. Una
forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de
contingencia o tablas de correlación.
Supongamos que la variable X presenta k valores distintos, x 1, x2, x3, … , xk. y la variable Y
presenta p valores distintos. Y1, y2, y3,… , yp. La tabla de doble entrada queda como sigue:
X Y y1 y2 yi yp
x1 f11 f12 … f13 … f1p f1.
x2 f21 f22 … f23 … f2p f2.
׃ ׃ ׃ ׃ ׃ ׃
xi fi1 fi2 … fi3 … fip fi.
׃ ׃ ׃ ׃ ׃ ׃
xk fk1 fk2 … fk3 … fkp fk.
f.1 f.2 … f.3 … f.p N
Donde fij es la frecuencia absoluta del par (xi; yi), es decir, el número de elementos que
presenta las características xi e yi conjuntamente.
En este caso, f11 nos indica el número de veces que aparece x1 conjuntamente con y1
f12, nos indica la frecuencia conjunta de x1 con y2, etc,
Ejemplos:
En la siguiente tabla se muestra los pesos y las alturas de los mismos 20 alumnos.
Altura \ Peso 45 - 55 55 - 65 65 - 75 75 - 85
1,55 - 1,65 3 1 0 0 4
1,65 - 1,75 1 4 3 1 9
1,75 - 1,85 1 0 1 4 6
1,85 - 1,95 0 0 1 0 1
5 5 5 5 N=20
Talla \peso 45 - 55 55 - 65 65 - 75 75 - 85
1,55 - 1,65 3 1 0 0 4
1,65 - 1,75 1 4 3 1 9
1,75 - 1,85 1 0 1 4 6
1,85 - 1,95 0 0 1 0 1
5 5 5 5 N=20
Aquí será aplicables todas las medidas y gráficas del estudio unidimensional como la media
de X, media de Y, desviación típica de X,… , histograma de Y…
Medidas de Asociación
Uno de los motivos por los que estudiamos conjuntamente dos variables es para ver si existe
relación entre ellas, pudiendo predecir, en caso de haberla, valores de una a partir de la otra.
Una forma de detectar la posible relación entre las variables es gráficamente y el gráfico más
usado es el diagrama de dispersión o nube de puntos. Otra forma, es a través de medidas
numéricas como la covarianza y el coeficiente de correlación lineal.
A B
10 10
8 8
6 6
4 4
2 2
0 0
0 2 4 6 8 10 0 5 10 15 20
C D
10 15
8
10
6
4 5
2
0 0
0 2 4 6 8 10 0 2 4 6 8 10
La covarianza.-
1) Si los datos se tabulan en dos columnas (o dos filas), la covarianza entre X e Y es:
∑(𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 ) ∑ 𝑥𝑖 ∙ 𝑦𝑖
𝜎𝑥𝑦 = = − 𝜇𝑥 ∙ 𝜇𝑦
𝑁 𝑁 . . . Poblacional
Dónde:
𝜇: Media Poblacional 𝑥̅ : Media muestral
𝑥𝑖 , 𝑦𝑖 : Valores observados
𝑁: Tamaño de la población 𝑛: Tamaño de la muestra
2) Si los datos se organizan en una tabla de doble entrada, la covarianza entre X e Y es:
Dónde:
𝜇: Media Poblacional 𝑥̅ : Media muestral
𝑥𝑖 : Es la marca de clase de las clases de la variable X
𝑦𝑗 : Es la marca de clase de las clases de la variable Y
𝑁: Tamaño de la población 𝑛: Tamaño de la muestra
𝑓𝑖𝑗 : Es la frecuencia absoluta conjunta de la variable bidimensional (Xi ; Yi)
2
Una regla práctica es que existe una relación si: |𝑟 | ≥
√𝑛
a) Si r = 1 entonces existe una dependencia lineal directa exacta entre las variables X e Y. Los
puntos del diagrama de dispersión están sobre una línea recta de pendiente positiva.
b) Si r = −1 entonces existe dependencia lineal inversa exacta entre X e Y. Los puntos del diagrama
de dispersión están sobre una línea recta de pendiente negativa.
c) Si r = 0, no existe dependencia lineal entre X e Y; pero puede existir otro tipo de dependencia.
d) Cuanto más se aproxime r a −1 o a +1, más dependencia lineal existe entre X e Y. Si esto ocurre
diremos que la relación lineal es fuerte, el diagrama de dispersión se aproxima a una línea
recta.
e) Cuanto más se aproxime r a 0, más independencia lineal existe entre X e Y. Si esto ocurre
diremos que la relación lineal es débil, el diagrama de dispersión no se aproxima a una recta.
f) Si r es positivo, entonces al aumentar el valor de la variable X, aumenta el valor de la variable Y.
g) Si r es negativo, entonces al aumentar el valor de la variable X, disminuye el valor de la variable
Y.
yi yi yi
r = - 0,8 xi r = - 0,4 xi r= 0 xi
yi yi yi
r = 0,4 xi r = 0,8 xi r= 1 xi
N°Trab(X) 12 30 15 24 14 18 28 26 19 27
N° Mesas(Y) 20 60 27 50 21 30 61 54 32 57
Solución
Los cálculos se pueden resumir construyendo una tabla como se muestra a continuación:
N°
N°Trab(X) (xi - x) (xi - x)2 (yi - y) (yi - y)2 (xi - x)(yi - y)
Mesas(Y)
12 20 -9,3 86,49 -21,2 449,44 197,16
30 60 8,7 75,69 18,8 353,44 163,56
15 27 -6,3 39,69 -14,2 201,64 89,46
24 50 2,7 7,29 8,8 77,44 23,76
14 21 -7,3 53,29 -20,2 408,04 147,46
18 30 -3,3 10,89 -11,2 125,44 36,96
28 61 6,7 44,89 19,8 392,04 132,66
26 54 4,7 22,09 12,8 163,84 60,16
19 32 -2,3 5,29 -9,2 84,64 21,16
27 57 5,7 32,49 15,8 249,64 90,06
x = 21,3 y = 41,2 378,1 2505,6 962,4
Llegamos a la conclusión de que existe una fuerte relación lineal positiva entre el número de
trabajadores y el número de mesas producidas por hora.
Los mismos cálculos se pueden hacer aún más rápido si usamos el segundo criterio para el
cálculo de la covarianza y de las desviaciones típicas como se ve a continuación:
Obteniendo de esta manera los mismos resultados que se obtuvieron antes. El diagrama de
dispersión es:
Producción de mesas por hora según número de trabajadores
70
60
N° de mesas
50
40
30
20
10
0
0 5 10 15 20 25 30 35
N° de Trabajadores
REGRESIÓN LINEAL.
Como ya hemos visto se puede medir la relación lineal entre dos variables y saber que tan
fuerte es. Ahora veremos cómo construir un modelo matemático que nos permita predecir el
comportamiento de una variable dado un valor específico de la otra. Para investigar la
dependencia de una variable dependiente Y en función de una variable independiente X,
usaremos el siguiente modelo:
̂ = 𝑨 + 𝑩𝑿
𝒀 . . . Modelo de Regresión estimada
𝑦̅
𝑠𝑥𝑦
𝐵=
A 𝑠𝑥2
x
𝑥̅
Para hallar los valores A y B se utiliza el método de regresión por Mínimos Cuadrados donde:
𝑠𝑥𝑦 𝑠𝑦
𝐵= = 𝑟 𝐴 = 𝑦̅ − 𝐵𝑥̅
𝑠𝑥2 𝑠𝑥
La relación entre X y Y se representa por medio de una línea recta que pasa por el Centro de
Gravedad, atraviesa la nube de puntos y, si es representativa (r está próxima a +1 o -1),
constituye un modelo de los mismos. Cabe mencionar que la regresión lineal no es la única
forma de regresión, por el contrario, hay muchas más llamadas curvilíneas, entre las que
podemos citar a las exponenciales, logarítmicas, polinómicas, etc.
̂ = 𝑨∗ + 𝑩∗ 𝒀
𝑿
Donde:
𝑠𝑥𝑦 𝑠𝑥
𝐵∗ = = 𝑟 𝐴∗ = 𝑥̅ − 𝐵 ∗𝑦̅
𝑠𝑦2 𝑠𝑦
Coeficiente de Determinación.- En el caso del ajuste lineal (ajuste a una recta), el coeficiente
de determinación es igual a:
2
2
𝑠𝑥𝑦
𝑅 = 2 2
𝑠𝑥 𝑠𝑥
50
y = 2.5454x - 13.016
40
R² = 0.9777
30
20
10
0
0 5 10 15 20 25 30 35
N° de Trabajadores
No siempre se puede introducir cualquier valor para X en una recta de regresión y tomar una
decisión razonable, por ejemplo, en el caso de la planta manufacturera si su capacidad
máxima de trabajadores es 30, sería inútil estimar la producción de mesas para 80
trabajadores.
Trabajo Académico N° 06
2. Se está estudiando la relación existente entre los años de estudios realizados por los
padres (X) y los años de estudios realizados por los hijos (Y). En una muestra de tamaño 7
se obtienen los siguientes resultados.
xi 12 6 8 12 10 16 9
yi 12 6 10 11 8 11 8
3. Una factoría de una cierta marca de refrescos ha tomado al azar 18 semanas de un año,
observando la temperatura media, en grados centígrados correspondiente a cada una de
ellas y la cantidad de refrescos pedidos durante cada uno de dichos periodos, en miles.
La información obtenida es la siguiente:
T(°C) 10 28 12 31 30 19 24 5 9 15
Pedidos (en miles) 21 65 19 72 75 39 67 11 12 24
4. El precio, en soles, (X) y el número de páginas (Y) de los libros contenidos en un catálogo
vienen dados por:
xi yi xi yi xi yi xi yi
200 496 275 392 210 240 120 342
99 208 125 200 150 278 210 340
175 300 250 280 275 420 170 207
150 448 80 120 105 128 350 440
120 200 59 220 99 249 75 88
300 288 100 200 350 392 210 351
325 324 325 468 200 400 250 292
350 525 240 539 275 300 372 464
375 384 300 400 150 240 240 344
250 250 300 320 160 230 125 130
180 200 350 736 120 144 225 382
150 224 220 516 380 336 250 403
300 384 375 700 378 550 200 249
250 256 200 400 300 478 180 182
175 215 300 656 172 437 385 458
170 278 95 191 100 288 40 63
200 376 195 464 185 496 300 400
225 421 205 348 180 236 215 278
325 450 300 352 120 143 275 508
300 243 325 598 170 284 160 256
120 202 275 392 280 520 305 368
150 251 240 472 385 758 150 275
210 320 365 591 250 413 125 112
350 460 145 282 275 394 380 458
120 342 210 340 170 207 75 83
a) Agrupar los datos de ambas variables en intervalos de clase.
b) Determinar la distribución bidimensional de frecuencias, así como las distribuciones
marginales de X y de Y.
c) Hallar el coeficiente de correlación lineal.
d) Predecir el precio de un libro que tuviera 205 páginas.
e) Decir si esta predicción es fiable.
Biología 06 08 12 14 10 16 14 06 10 08 16 10 10 16 16 16 10
Física 10 10 16 14 14 18 20 08 14 08 20 10 14 18 20 10 14
a) Escribir la tabla de doble entrada de frecuencias absolutas.
b) Hallar las distribuciones marginales, así como la media y la varianza de dichas
distribuciones unidimensionales.
c) ¿Existe relación lineal entre las calificaciones de Biología y Física?
ÍNDICE
Un poco de historia
Tipos de variables.
Niveles de medición.
Tipos de gráficos.
Medidas de dispersión.
Medidas de posición.
Medidas de asociación.
2. Al calcular los estadísticos de una muestra con gran número de datos, podemos ahorrar
tiempo si tenemos los datos ordenados y calculadas las frecuencias correspondientes.
3. En una supuesta investigación estadística se han recogido los siguientes datos acerca de
las preferencias televisivas de los jóvenes:
Prefieren: Nº de Jóvenes
Películas 9.000
¿Cuál es la moda de la muestra?
Informativos 15.000
¿Tiene sentido calcular la media en la
Culturales muestra?. ¿Por qué?
Musicales 10.000
Teleseries 38.000
Deportivos 21.000
Otro tipo 7.000
4. En un país centroamericano se entrevistaron a 120 estudiantes para averiguar el tipo de
baile que preferían. El 35% de los jóvenes eligió el merengue, 30 estudiantes eligieron
baile moderno, la octava parte dijo preferir salsa y el resto se inclinó por la cumbia.
5. En la tabla siguiente aparecen la acciones más transadas durante la tercera semana del
mes de octubre de 2006, según información del diario “El Mercurio”. Determinar la
mediana de los precios.
7. Si en la serie datos: 2-7-4-8-2-14-29, se cambia el 29 por 40, ¿cuál de las medidas (media,
moda y mediana) se ve afectada?
124 125 125 123 120 124 127 125 126 121
EJERCICIO 1
EJERCICIO 2
Se va a comparar la dispersión en los precios anuales de las acciones que se venden a menos
de $10 (dólares) y la dispersión en los precios de aquellas que se venden por arriba de $60. El
precio medio de las acciones que se venden a menos de $10 es 5,25 y la desviación estándar es
$1,52. El precio medio de las accciones que se negocian a más de $60 es $92,50 y su
desviación estándar es $5,28.
Se observa que las acciones a menos de $10 tienen una dispersión mayor relativa, en
comparación con las que se venden por arriba de los $60.
EJERCICIO 3
36 26 33 28 31
EJERCICIO 4
13 13 13 20 26 27 31 34 34 34 35 35 36 37 38 41 41 41 45
a) Determine los cuartiles primero y tercero
c) Determine el centil 67