Está en la página 1de 160

Formulario Funciones (Todas las instrucciones son para este

Matemáticas y de Estadística descriptiva modelo de calculadora fx-82)


U.N.M.S.M. corregido y aumentado
16/09/21 (Curso: Prob. y estadística) 1) Factorización prima.
2) Números enteros aleatorios.
1) ALFABETO GRIEGO 3) Cálculo de potencias.
4) Combinaciones y permutaciones.
5) 9 decimales de precisión.
6) Estadística: Generación de números
aleatorios; Suma de datos; Suma de
cuadrados de datos; varianza muestral;
correlación lineal de Pearson; regresión
líneal; regresión parabólica; regresión
inversa y otras

 (Opcional) Microsoft Excel 2010 (Análisis de


datos), IBM SPSS Statistics 20; Minitab 17; R
2) MATERIAL MÍNIMO NECESARIO PARA EL CURSO.  Todo cálculo debe ser presentado con un mínimo
 (Obligatorio) Calculadora científica fx-82LAPLUS de 4 de decimales (los primeros 4 decimales que da la
o similar como la fx-350LAPLUS; inclusive ambas calculadora); por ejemplo:
tienen el mismo manual (no celular como calculadora) 22
o fx-991LAPLUS (10  )
1  3  0.3333 2  1.4142 3  1.4719 (en la calculadora)
4
Para informes; exámenes etc. se tiene que escribir:
0,3333 1,4142 1,4719 respectivamente.

7) SUMATORIAS
n
  X i  X1  X 2  ...  X n
i 1

Ejemplo 1.- Sea la siguiente data referente a la


estatura en metros de un grupo de alumnos; se
introducen la data a la calculadora:
1,70 1,76 1,71 1,69 1,65 1,81
Con la calculadora fácilmente se obtiene el resultado:
1.7+1.76+….+1.81=10.32
n
  X i2  X12  X 22  ...  X n2
i 1

1 2
Ejemplo 2.- Hallar la suma de cuadrados con la n
n(n  1)(2n  1)
i 2

6
;
calculadora de las estaturas de la data anterior. i 1

1.7/x2/+1.76/x2/+….+1.81/x2/=17.7664  n i 3   n(n  1)  ; n i 4  n(n  1)(2n  1)(3n 2  3n  1)


3

k  2  30
  fi X i  f1 X i  f2 X 2  ...  fk X K i 1 i 1

n 1 rn
i 1
r i 1
 1  r  r 2  ...r n1  ; r 1
1 r
k
  fi X i2  f1 X12  f2 X 22  ...  fk X k2  i 1
i 1  1
n   r i 1  1  r  r 2  ...r n1  ....  ; 0  r 1
  k  k  k  ...  k  nk i 1 1 r
i 1
 1
 ir  1  2r  3r  4r  ..... 
i 1 2 3
n n
  cX i  c X i 
i 1 i 1
i 1 (1  r ) 2
n n

 (cX i  k )  c X i  nk
 i n1 n
i 1
n
3) Principio de multiplicación
  ( X i  Yi )   X i  Yi Si un suceso 1 puede ocurrir de n1 formas distintas; a
i 1 i 1 i 1
n k continuación otro suceso 2 puede ocurrir de n2 formas
 Xi fX i i diferentes; entonces ambos sucesos y en ese orden
 X i 1
(datos sin tabular ); X i 1
(datos tabulados ) pueden ocurrir de n1xn2 formas diferentes.
n n
n
 (X i  X )  0 (Suma de las desviaciones respecto a la media es idénticamente
Ejemplo 4.- Un estudiante tiene 3 pantalones
i 1
cero)
distintos y 4 camisas distintas.
 Xi :datos originales mayúscula ¿De cuántas maneras diferentes se puede presentar a
clases?
xi (min úscula )  X i  X : datos expresados en
Un diagrama de árbol nos presenta el número total de
desviaciones respecto a la media. casos:

Ejemplo 3.- Sean los datos originales:


276
X1  2; X 2  7; X3  6 . La media muestral es X   5;
3
luego los datos expresados en desviaciones respecto a
la media son: x1  2  5  3; x2  7  5  2; x3  6  5  1

  ( X  X )   X  nX   X
n
2
n
2 2
n
2

 X 
n

i 1
i
2

i i i
i 1 i 1 i 1 n

  f ( X  X )   f X  nX   f X
k
2
k
2 2
k
2

 f X  ;
i 1
k

i i
2

X 
k

fX
i 1
i i

i 1
i i
i 1
i i
i 1
i i
n n Por el principio de multiplicación se tiene que el
suceso 1 (elección del pantalón) puede ocurrir de n1=4
  i  1  2  ...  n  n(n  1) formas distintas; una vez elegido el pantalón, otro
n

i 1 2 suceso 2 (elección de la camisa) puede ocurrir de n2 =3

3 4
formas diferentes. Entonces ambos sucesos pueden Cálculo del factorial de 10
ocurrir de n1xn2 = 4x3=12 formas diferentes. ENC(encendido)/10/SHIFT/x!/=3628800
Similar para el cálculo del factorial de 8
4) Principio de adición. 8/SHIFT/x!/=40320
Si un suceso 1 puede ocurrir de n1 formas distintas; a
continuación otro suceso 2 puede ocurrir de n2 formas b) Coeficiente binomial; o número combinatorio de
diferentes; supongamos que ambos sucesos no n objetos diferentes (muestreo sin
pueden ocurrir simultáneamente; entonces el número reemplazamiento, no importa el orden)
de formas distintas con que pueden ocurrir el suceso 1
o el suceso 2 es de n1+n2 formas diferentes. n n(n  1)(n  2)...(n  k  1) n!
   Ckn  nCk   ;
k  n! k !( n  k ) !
Ejemplo 5.- n; k  Z  ; k  N
Un turista para ir de Lima a Cuzco tiene 3 líneas aéreas
diferente para hacerlo y 2 líneas de buses ¿De cuantas Ejemplo 7.-
formas diferentes puede hacer el viaje?  8  8! 8(7)(6)5! 8(7)(6)
Solución.-       56 ;
Suceso 1: elegir una línea aérea n1=3  5  5!3! 5!3! 6
Suceso 2: elegir una línea de bus n2=2  8  8! 8(7)(6)5! 8(7)(6)
      56
Obviamente no se puede hacer el viaje de Lima a Cuzco  3 3!5! 3!5! 6
en los dos medios de transporte; luego el número de
formas con que el turista puede de Lima a Cuzco es Ejemplo 8.-
n1+n2=3+2=5 formas. Con la calculadora: 8/SHIFT/nCr/5/=56
Otro ejemplo; calcular C1220
5) Factorial; Permutaciones; Coeficiente Binomial 20/SHIFT/nCr/12/=125970
a) Factorial de un número entero positivo o cero
n! n(n  1)(n  2)....(3)(2)(1)
Propiedades:
n! n(n  1)! n(n  1)(n  2)!
n  n   n  n   n  n
0! 1 (Por definición) I.      ;       n ;       1
1!  1 k  n  k  1   n  1 0  n
2! 2(1)  2
3! 3(2)(1)  6
Ejemplo 9.-
4! 4(3)(2)(1)  24 ; 5! 5(4!)  5(24)  120  8   8   8 8  8  8  8!
6! 6(5!)  6(120)  720 ; 7 ! 7(6!)  7(720)  5040      ;     8;       8
........  5   3  1  1!7!  8  1  7  7 !1 !
10! 10(9!)  10(362880)  3628800
Ejemplo 10.-
Ejemplo 6.-

5 6
Con la calculadora hallar  4  4  4  4  4
(1  1) 4  2 4                 1  4  6  4  1  16
 20  ; 

20   20  y comprobar que ambos
   0  1   2   3   4 

13   20  13  7 
     
son iguales:
20SHIFT/nCr/13/=77520 V. Triángulo de Tartaglia
20/SHIFT/nCr/7/=77520 1  C 01 1  C11
1  C0 2
2  C12 1  C 22
 n   n   n  1 1  C0 3
3  C1 3
3  C 23 1  C 33
II.         ;
 k   k  1  k  1 1  C0 4  C1 6  C2 4  C 34 1  C 44
4 4 4

................................................................
Ejemplo 11.-
 6   6  6! 6 !  7  7(6)  Los extremos son iguales a 1.
 4    5   4!2!  5!1!  15  6  21   5   2  21 Cada elemento del interior es la suma de los
      dos que tiene encima.
Ejemplo 12.- Comprobar con la calculadora
n  n
que se cumple VI.  x   n 2n1
 6  6  7 x 1
 x
 4    5    5   21
     
 n  1 n  1  n  n  1 n  n  1
6/SHIFT/nCr/4 + 6/SHIFT/nCr/5/=21 VII.        
7/SHIFT/nC5/5/=21  k  1 k  1  k  k  1 k  k  1

 n  n  n  1 n1  n  0 n
III. (a  b) n   a n   a n1b1  ...   a b   a b n  n  N  n  N
0 1   n  1  n VIII.       
x 0
 x  n  x   n 
Ejemplo 13.-
 4  4  4  4  1 41  4  0 4
(a  b) 4   a 4   a 41b   a 42 b 2   a b   a b Ejemplo 15.- Verificar la propiedad VIII; con
0 1   2  4  1  4 los valores: N=4; n=2
(a  b)  a  4a b  6a b  4a b  b
4 4 3 2 2 1 3 4
2  2  4  2   2  2   2  2   2  2   4
                 1  4  1  6   
x 0
 x  2  x   0  2  1 1   2  0   2
 n  n  n  n   n
IV. (1  1) n  2 n           ...      
 0  1   2   n  1  n 
Ejemplo 16.- Verificar la propiedad VIII con
los valores N=7; n=3
Ejemplo 14.-

7 8
3  3  7  3   3  4   3  4   3  4   3  4  tercero de castellano (C). ¿ De cuántas maneras
                    se pueden presentar en fila?
x 0
 x  3  x   0  3  1  2   2 1   3  0 
La respuesta es de seis formas diferentes; los
7 cuales son:
 4  18  12  1  35   
3 ABC; ACB; BAC; BCA; CAB; CBA
Según la fórmula:
c) Permutaciones de n objetos distintos tomados P 3  3! (3)(2)(1)  6 formas dist int as
de k en k (muestreo sin reemplazamiento;
importa el orden) o también se les llama Ejemplo 20.- Se disponen de 4 cuadros
Variaciones o Arreglos diferentes que serán colocados en fila en una
n! pared. ¿De cuántas maneras diferentes se
Pkn  nPk  Vkn  Akn  n(n  1)(n  2)...(n  k  1)  pueden hacer?
(n  k ) !
P4  4! 4(3)(2)(1)  24
Pkn
Propiedad: Ckn   Pkn  k ! Ckn e) Permutaciones con repetición de n objetos;
k!
donde hay n1 objetos iguales; n2 objetos
iguales;….; nk objetos iguales. Donde
Ejemplo 17.- En una carrera de 400 metros
n1+n2+…nk=n
planos en la que participan 10 atletas se va a
n!
premiar con medalla de oro; medalla de plata y ( PR ) nn ;n ;...; n 
medalla de bronce. ¿De cuántas formas
1 2 k
n1!n2 !...nk !
diferentes se puede hacer? En particular si k=2; n1+n2=n; n2=n-n1
10! 10(9)(8)7 ! n! n 
P310  10(9)(8)    720 ( PR ) nn ;n   Cnn   
(10  3) ! 7! 1 2
n1 !(n  n1 ) !
1

 n1 

Ejemplo 18.- Obtener P310 con la calculadora. Ejemplo 21.- Se tienen 6 carros nuevos para
10/SHIFT/P3/=720. su presentación en fila; 3 de ellos son idénticos;
En forma similar se puede obtener P710 2 de ellos son idénticos y el último es diferente a
10/SHIFT/P7/=604800 los anteriores. ¿De cuántas formas diferentes se
puede hacer?
d) Permutaciones de n objetos distintos tomados 6! 6(5)(4)
( PR ) 36; 2;1    60
de n en n (muestreo sin reemplazamiento) 3!2!1! 2
n! n!
P n  Pnn    n!
( n  n) ! 0 ! Ejemplo 22.- Obtener (PR)10
5;3; 2 con la
calculadora
Ejemplo 19.- Se tienen tres libros distintos; 10/SHIFT/!/÷(5!x3!x2!)=2520
uno de álgebra (A); otro de biología (B) y un

9 10
En forma similar se puede calcular (PR )1610; 4; 2 Los resultados posibles se dan a continuación:
16!÷(10!x4!x2!)=120120 ab; ac; bc; aa; bb; cc
Según la fórmula
f) Permutaciones con repetición de n objetos;
 3  2  1  4 
donde puede haber repetición dentro de sus n  3; k  2; (CR)32      2   6
elementos; se toman k objetos uno por uno con  2   
reemplazamiento (orden importa)
Ejemplo 26.- ¿Cuántas combinaciones con
(Pr)k  n ; en este caso puede ser k>n
n k repetición se pueden hacer con 3 objetos
distintos; tomados de 3 en 3?
Sean los 3 objetos diferentes a; b; c. Los
Ejemplo 23.- ¿Cuántos números de seis
resultados posibles se dan a continuación:
dígitos se pueden hacer con los números 1; 5 y 8
abc (1 caso)
n  3; k  6
abb (1 caso); acc (1 caso)
(Pr)nk  nk  (Pr)36  36  729 bcc (1 caso); baa (1 caso)
cbb (1 caso); caa (1 caso);
Ejemplo 24.- ¿Cuántos números de 11 dígitos aaa (1 caso); bbb (1 caso); ccc (1 caso)
se pueden con los dígitos 3; 5; 7; 9. Use la
calculadora. Según la fórmula se tiene:
(Pr)nk  nk  (Pr)114  411  4194304  3  3  1  5 
4/x■/11/=4194304 n  3; k  3; (CR) 33        10
 3   3
g) Combinaciones con repetición
Se tienen n elementos diferentes; se va a tomar k Ejemplo 27.- Se tienen 5 objetos distintos
de ellos tomados uno por uno con denotados por 1; 2; 3; 4; 5; se toma de 2 ellos:
reemplazamiento y el orden no interesa;
entonces se está al frente de combinaciones con a) Importa el orden (uno por uno sin
repetición: reemplazamiento)

Primera extracción
 n  k  1 (n  k  1)!
(CR) k  
n
  Cknk 1 

1 2 3 4 5
 k  k!(n  1)! 1 (2;1) (3;1) (4;1) (5;1)
2 (1;2) (3;2) (4;2) (5;2)
3 (1;3) (2;3) (4;3) (4;5)
4 (1;4) (2;4) (3;4) (5;4)
Ejemplo 25.- ¿Cuántas combinaciones con 5 (1;5) (2;5) (3;5) (4;5)
repetición se pueden hacer con 3 objetos
distintos; tomados de 2 en 2? 5!
P25   5 x 4  20 casos.
Sean los 3 objetos diferentes a; b; c. (5  2) !

11 12
b) No importa el orden (uno por uno sin  5  2  1  6  6!
reemplazamiento) n  5; k  2; (CR)52         15
 2   2  2! 4!
casos.
Primera extracción
1 2 3 4 5
1 En general:
2 (1;2)
3 (1;3) (2;3)
4 (1;4) (2;4) (3;4)
Sin Con
5 (1;5) (2;5) (3;5) (4;5)
reemplazamiento reemplazamiento
Importa
5! el
C2 5
 10 casos. orden Pkn 
n! nk
2!3! (n  k ) !
No
importa
c) Importa el orden (uno por uno con el orden
C kn 
n!  n  k  1 (n  k  1)!
reemplazamiento) (CR) nk    
k !(n  k )!  k  k !(n  1)!
Primera extracción
1 2 3 4 5
1 (1;1) (2;1) (3;1) (4;1) (5;1)
2 (1;2) (2;2) (3;2) (4;2) (5;2)
3 (1;3) (2;3) (3;3) (4;3) (5;3) NOTACIONES GENERALES (ESTADÍSTICA)
4 (1;4) (2;4) (3;4) (4;4) (5;4) 1. N: tamaño de la población.
5 (1;5) (2;5) (3;5) (4;5) (5;5) 2. n: tamaño de la muestra. (n  N )
n

(Pr)nk  nk  52  25 X i
3.   I 1
: parámetro; media poblacional (Variables cuantitativas)
N
N
d) No importa el orden ( uno por uno con ( X  ) 2
i
reemplazamiento) 4.  2 i 1
: parámetro, varianza poblacional. (Variables cuantitativas)
N
Primera extracción 5.     2 : parámetro, desviación estándar poblacional. (variable cuantitativa)
1 2 3 4 5 6.
1 (1;1)
nro. de elementos en la población con cierta caracterí stica
2 (1;2) (2;2) p
3 (1;3) (2;3) (3;3) N
4 (1;4) (2;4) (3;4) (4;4) parámetro poblacional (variable cualitativa)
5 (1;5) (2;5) (3;5) (4;5) (5;5) número de elementos en la muestra con cierta carácterís tica
pˆ 
n
( proporción muestral o proporción poblacional estimada; p̂ se lee p estimado)

13 14
 k : número de valores distintos de una variable n

X i
discreta o número de intervalos de clase en X i 1

variables continuas. n : media muestral de datos sin tabular.


k

 fi X i
 Número de intervalos de clase en la construcción X i 1
: media muestral de datos tabulados.
de tablas de frecuencia en el caso continuo: n
Existen tres opciones:
 Tomar k de forma moderado tal que 5  k  15 . Propiedades de la media aritmética X  M[X ]
 k  n (donde  significa aproximadamente) a) M [ K ]  K b) M [ X  K ]  M [ X ]  K
 k=1  3,3log(n) . Fórmula de Sturges c) M [cX ]  cM [ X ]
d) M [cX  k ]  cM [ X ]  k e) M [ X  Y ]  M [ X ]  M [Y ]
 R=recorrido de la variable=Xmáx - Xmin n X  n2 X 2
f) X  1 1 (media global) g) X min  X  X max
n1  n2
 c: amplitud constante de los intervalos de clase; n

R h)  ( X i  X )  0
donde c  i 1

K (suma de las desviaciones respecto a la media es idénticamente cero )

 fi : frecuencia absoluta. 2. M e : mediana “término central de los datos


ordenados de menor a menor”.
fi Me  X  n1  : n es impar.
 hi  : frecuencia relativa  
 2 
n Xn  Xn 
   1 
Me  2 2 
: n es par.
 Fi  f1  f 2  ...  fi : frecuencia absoluta acumulada. 2

 Hi  h1  h2  ...  hi : frecuencia relativa acumulada. 3. Cuartiles para datos sin tabular

 F1  F2  ....Fk ; H1  H2  ....  Hk  Q1  X  n1  : primer cuartil


 
 4 

 Q2  X  2 ( n1)  : segundo cuartil


 Fi  Fi1  f i ; Hi  Hi1 hi ; i  2;3;...; k 
 4

 Q3  X  3( n1)  : tercer cuartil.


 
 4 

6) MEDIDAS DE TENDENCIA CENTRAL


n 
 2  Fj 1 
1. X  M X  : media muestral o media aritmética o promedio. 4. M e  x j 1  c 
*
 : Mediana: caso continuo.
 Fj  Fj 1 
 

15 16
 X  Me  Md : Distribución asimétrica (asimetría
5. Md :Moda negativa)

 M d  M e  X : Distribución asimétrica (asimetría


 ( f j  f j 1 )  positiva)
Md  x*j 1  c   :Moda caso
6. ( f 
 j j 1f )  ( f j
 f )
j 1 

continuo

7. Cuartiles: Caso continuo


 Primer cuartil
n 
  Fk 1 
Q1  xk*1  c  4 
 Fk
 F k 1
  X  M d  3( X  M e )
 
(distribuciones moderadamente asimétricas)
 Segundo cuartil
7) MEDIDAS DE VARIABILIDAD O DISPERSIÓN
Q2  Me : segundo cuartil. (Absolutas)

 Tercer cuartil.
 3n 
 Fl 1 
n  X  n

i
2

 X 2
i
 i 1

Q 3  xl*1  c  4  1) d .e  S 
i 1 n
 F l Fl 1 
n 1
 desviación estándar o típica muestral.
 

X min  X max k  f X 
k

i i
2

8. Rango Medio=RM=
2
fX i
2
i
 i 1

d .e  S 
i 1 n (datos tabulados)
n 1
Q1  Q3
 X 
9. Eje medio= n
2 2
n i

 X 
2 i 1

 X  M e  M d : Distribuciones simétricas
i

2) S2 
i 1 n
n 1
= varianza muestral insesgada o cuasivarianza (datos sin tabular)

17 18
k
 f X 
k

i i
2
n

 X X
k

f X X
fX  i 1 i i i
DM  ; DM 
2
i 1 i 1
i i

S  2 i 1 n n n
n 1

= varianza muestral insesgada o cuasivarianza 10. COEFICIENTE DE VARIACIÓN (Medida de dispersión


Relativa)
3) R  X max  X min :Recorrido muestral
S S
CV  ; expresado en %: 100CV  100( )
4) Algunos textos definen una varianza muestral diferente a la X X
definida en 2); pues en lugar de dividir entre n-1 lo divide a) CV<0,05 (o 100CV<5%) “varianza pequeña”;
entre n; a esta varianza se le llama varianza muestral CV>0,05 (o 100CV>5%) “varianza grande”.
sesgada; es dada por:
b) Sirve para comparar la variabilidad de dos o

 X  n
más grupos con diferente media muestral; los
n i
2
grupos pueden ser de distinto tamaño e
 X 
2
i
i 1
incluso pueden estar en distintas unidades)
S* 
2 i 1 n ; S*  S*
2

n 11. MEDIDAS DE ASIMETRÍA


Usaremos el llamado coeficiente de asimetría (usado
Si n  30 ambas varianzas son muy por el Excel o el SPSS)
próximas; la relación exacta entre ambas n

es: n  (Xi  X ) 3

 C. A.  i 1
: coeficiente de
n *2 n 1 2 (n  1)(n  2) S3
S2  S  S* 
2
S
n 1 n asimetría

Propiedades de la varianza muestral S 2  Var[ X ]  0; asimetría positiva 


I) Var[k ]  0  
Si C. A :  0; simétrica  (*)
II) Var[ X  k ]  Var[ X ]  0; asimetría negativa 
III) Var[cX ]  c 2Var[ X ]  
IV) Var[cX  k ]  c 2Var[ X ]
Existen otras medidas de asimetría; estas usualmente
V) Var[ X  Y ]  Var[ X ]  Var[Y ]; X e Y independietes . se denominan sesgo; por ejemplo:
VI) S 2  Var[ X ]  0 X  Md
 Sesgo  (1)
S
5) RECORRIDO INTERCUARTILICO: (RI ) 3( X  Me)
 Sesgo  (2)
S
RI Q3 Q1 (1) y (2) se llaman primer y segundo coeficiente de
sesgo de Pearson.
6) DESVIACIÓN MEDIA: (D) Interpretación de (1) y (2) similar a (*)

19 20
12. MEDIDAS DE APUNTAMIENTO (KURTOSIS)
(Usada en Excel o SPSS)  X i \ Yj  Y1 Y2 … Yj … Y fi x
b
 (X  X ) 
n
4

 n(n  1)   3(n  1)
i
2

K i 1
  (n  2)(n  3)
(n  1)(n  2)(n  3)  S 4
 X1 f11 f12 … f1 j … f1n f1x
 
…. … … … … … … ...
 K  0; leptocúrti ca ( puntiaguda ) f i 2 … f ij … f in f i x
  Xi fi1
Si K   K  0; normal 
 K  0; platicúrti ca (achatada )  …. … … … … … … …
 
Xa fm1 f m2 … f mj … f mn f x
a

Otra medida para medir el apuntamiento o kurtosis es


f jy f1 y f 2y … f jx … fby n
dada por:
n

(X  X )
i
i
4

 K  n Donde la última columna


2
  ( X  X )2 
1 n b
f i x   f ij ; i  1;2;.., a (Distribución marginal de X; se suma por filas)
 i 1 i
 j 1
 n 1  Donde la última fila
  a
f j y   f ij ; j  1;2;.., b (Distribución Marginal de Y; se suma por
i 1
K1  3; leptocúrti ca  columnas)
 
 K1  K1  3; normal 
K  3; platicúrti ca  b) Tabla de frecuencias relativas:
 1 
f ij
hij  : frecuencia relativa; 100h : porcentaje de pares ( X ; Y )
13. ESTADÍSTICA BIDIMENSIONAL n ij i j

Se tienen datos dispuestos en pares ordenados


( X i ;Yi ); i  1;2;3;...., n ; estos se colocan en una tabla c) Distribuciones relativas condicionales.
bidimensional haciendo previamente un conteo y se Existen dos tipos de distribuciones relativas
presentan en una tabla bidimensional de a filas y b condicionales:
columnas de la siguiente forma:  Distribución condicional de X i dado Y j : X i / Y j  i / j

a) Tabla de frecuencias absolutas: f ij elementos de columna j


fi / j   ; i  1;2;...a
f jy total columna j

(existen n condicionales de la forma i/j)

21 22
b) Obtener la distribución marginal de X e
i/ j interpretar f 2x  17
f1 j / f j y Solución.-
f 2 j / f jy La distribución marginal de X se obtiene
sumando por fila; es decir:

X i fi x
f mj / f j y
4 7
f j y ; j  1;2;...; n
8 17
12 14
n  38
 Distribución condicional de Y j dado X i ; Y j / X i  j / i
f 2x  17 ;
significa que 17 estudiantes han
f ij elementos de la fila i estudiado 8 horas.
f j /i   ; j  1;2;...b c) Obtener la distribución marginal de Y e interpretar
fi x total fila i
f 2y  15 .
Solución.-
La distribución marginal de Y se obtiene sumando por
j /i f i1 / f i x
fi 2 / fi x
… f in / f i x
fi ; i  1;2;..a
x

columna.
(existen m distribuciones condicionales de la forma Yj/Xi)
Y j 10 14 18
f j y 6 15 17 n  38
Ejemplo 28.- Sean las siguientes variables:
f 2y  15 ; significa que 15 estudiantes que se han sacado
X: número de horas de estudio por semana.
nota de 14 puntos.
Y: nota final en un determinado curso.
d) Hallar la distribución conjunta de frecuencias
 X /Y  10 14 18 fi x relativas e interpretar h22 .
4 f11  3 f12  2 f13  2 f1 x  7
Solución.-
8 f 21  2 f 22  7 f 23  8 f 2x  17
 X /Y  10 14 18 hix
12 f31  1 f32  6 f 32  7 f 3x  14 4 h11  3 / 38 h12  2 / 38 h13  2 / 38 h1x  7 / 38
f jy f1 y  6 f 2y  15 f 3 y  17 n  38
8 h21  2 / 38 h22  7 / 38 h23  8 / 38 h2x  17 / 38
a) Interpretar f 22  7
12 h31  1/ 38 h32  6 / 38 h32  7 / 38 h3x  14 / 38
Solución.- hjy
h1y  6 / 38 h2y  15 / 38 h3y  17 / 38 1

Significa que existen f 22  7 estudiantes que han


100h22  (7 / 38) x100  18,4210% ;
lo cual significa que el 18,42%
estudiado 8 horas y han obtenido nota final de14
puntos. de los estudiantes han estudiado 8 horas y han
obtenido una nota de 14 puntos.

23 24
e) Hallar las a=3 distribuciones condicionales de la
forma h) Interpretar f12 / f1x  2 / 7 ; f 22 / f 2x  7 /17 y también
f elementos de columna j f 32 / f 3x  6 / 14
f i / j  ijy  ; i  1;2;...a
fj total columna j Solución.-
 100 f12 / f1 x  100(2 / 7)  28,57%; esto significa que los
 Xi f i1 f fi2 f f i3 f estudiantes que se han sacado nota Y2= 14 puntos el
[10] (1)   i1 [14] (2)   i2 [18] (3)   i3
f1 y 6 f 2y 15 f 3y 17 28,57% han estudiado X1=4 horas.
4 f11 / f1y  f11 / 6  3 / 6 f12 / f 2y  f12 /15  2 /15 f13 / f 3y  f13 / 17  2 / 17  100 f 22 / f 2x  100(7 / 17)  41,17%; esto significa que los
8 f 21 / f1  f 21 / 6  2 / 6
y
f 22 / f  f 22 /15  7 /15
2
y
f 23 / f 3y  f 23 / 17  8 / 17 estudiantes que se han sacado nota Y2=14 puntos el
12 f 31 / f1  f 31 / 6  1 / 6
y
f 32 / f 2
y
 f 32 / 15  6 / 15 f 33 / f 3y  f 32 / 17  7 / 17 41,17% han estudiado X2=8 horas.
1 1 1  100 f 32 / f 3x  100(6 /14)  42,85%; esto significa que
los estudiantes que se han sacado nota Y2=14 puntos,
f) Interpretar f 21 / f1 y  f 21 / 6  2 / 6 ; f 22 / f 2y  f 22 /15  7 /15 el 42,85% han estudiado X3=12 horas.
y también f 23 / f 3y  f 23 /17  8 /17
n n
Solución.-  ( X  X )(Y  Y )  X Y  nXY
 100 f 21 / f1 y  100 f 21 / 6  100(2 / 6)  33,33%
i i i i
; esto d) Cov( X ; Y )  i 1
 i 1
: Covarianza
significa que de los estudiantes que han estudiado X2 =8 n n
muestral entre las variables X e Y.
horas, el 33,33% se han sacado Y1=10 puntos.
 100 f 22 / f 2y  100 f 22 / 15  100(7 / 15)  46,66% ; esto
significa que de los estudiantes que han estudiado 14. COEFICIENTE DE CORRELACION LINEAL SIMPLE
X2=8 horas, el 46,66%% se han sacado Y2= 14 puntos. DE PEARSON.
 100 f 23 / f 3y  100 f 23 /17  100(8 /17)  47,05% ; esto Se denota por r  rXY  r ( X ;Y )
significa que los estudiantes que han estudiado X2=8 a)  1  rxy  1
horas, 47,05% se han sacado Y3=18 puntos. b) r  1 : asociación lineal perfecta en sentido positivo.
r  1 : asociación lineal perfecta en sentido negativo.
g) Hallar la a=3 distribuciones condicionales de la  0,95  r  1: excelente asociación lineal en sentido positivo.
f elementos de la fila i 1  r  0,95 : excelente asociación lineal en sentido negativo.
forma f j / i  ijx  ; j  1;2;...b .
fi total fila i
Solución.-

Yj  10 14 18
[ 4] (1) f1 j / f  f1 j / 7 
1
x
f11 / f1x  3 / 7 f12 / f1x  2 / 7 f13 / f1x  2 / 7 1

[8] (2) f 2 j / f 2x  f 2 j / 17  f 21 / f  2 / 17
2
x
f 22 / f  7 /17
2
x
f 23 / f 2
x
 8 / 17 1

[12] (3) f 3 j / f 3x  f 3 j / 14  f 31 / f  1 / 14
3
x
f 32 / f 3
x
 6 / 14 f 33 / f 3
x
 7 / 14 1

25 26
n n n
Solución.-
n X iYi  ( X i )( Yi )
Con el SPSS se siguen los siguientes pasos:
c) r r XY  r ( X ; Y )  n
i 1
n
i 1
n
i 1
n Gráficos / Cuadro de diálogos antiguos / Dispersión
n X i  ( X i )
n 2
n Yi 2  ( Yi ) 2 Puntos…/ Dispersión Simple / Definir / Aceptar
i 1 i 1 i 1 i 1

d) Propiedades del coeficiente de correlación


i. r ( X ; Y )  r (Y ; X ) (propiedad de simetría)
ii. r ( X  a; Y  b)  r ( X ; Y )
iii. r (aX ; bY )  r ( X ; Y ) ; a  0; b  0 o a  0; b  0
iv. r (aX ; bY )  r ( X ; Y ) ; a  0; b  0 o a  0; b  0
v. r ( X ; X )  r (Y ; Y )  1
vi. Si Y  aX  b ; entonces r ( X ; Y )  1 si a  0 y
r ( X ; Y )  1 si a  0
n

 ( X  X )(Y  Y )
i 1
i i El gráfico muestra una clara relación de tipo lineal en
cov( X ; Y ) n X e Y en sentido positivo; o sea son variables
vii. r ( X ;Y )  
S X* SY* n n
Directamente Proporcionales (D.P.)
(X  X )
i 1
i
2
 (Y  Y )
i 1
i
2

n n Ejemplo 30.- Hallar e interpretar el coeficiente de


correlación lineal de Pearson.
Ejemplo 29.- Consideremos las variables Solución.-
relacionadas: El coeficiente de correlación lineal de Pearson tiene
X: nro. de horas de estudio semanal dedicados a un varias formas de presentarlo en forma equivalente, si
determinado curso. consideramos las desviaciones respecto a la media
Y: nota final en dicho curso.
Xi Yi X iYi X 2i Yi 2
Xi Yi
0 5 0 0 25
0 5
2 9 18 4 81
2 9 3 12 36 9 144
3 12 4 14 56 16 196
4 14 5 16 80 25 256
5 16 X i  14 Y  56  X Y  190  X
i i i i
2
 54 Y i
2
 702

a) Hacer un diagrama de dispersión o nube de


puntos o scatter plots. Comente de la posible r
 X Y  ( X )(Y )
n i i i i

linealidad. ( n X  ( X ) )( nY  (Y ) )


i
2
i
2
i
2
i
2

27 28
Reemplazando: Xi Yi X iYi X 2i Yi 2
5(190)  (14)(56) 166 166 0 5 0 0 25
r    0,9978297016 0,998
5(54)  14 5(702)  56
2 2
74 374 27676 2 9 18 4 81
3 12 36 9 144
Lo cual muestra que existe una alta o excelente 4 14 56 16 196
asociación lineal entre X e Y en sentido positivo. 5 16 80 25 256
X i  14 Y  56  X Y  190  X
i i i i
2
 54 Y
i
2
 702
15. REGRESIÓN LINEAL SIMPLE
 Yi  a  bX iei
n X Y  ( X )( Y ) (5)190  (14)( 56)
ˆ ˆ
 Yi  a  bX i ; Yi  Yi  ei ; ˆ2   i i 2  i 2 i  2
n X i  ( X i) (5)54  (14)
166
  2,243243243
74
  56 14
1  Y   2 X   (2,243243243)( )  4,91891892
5 5
Luego el modelo

de regresión estimado es
Yi  4,91891892 2,243243243X i

 Sistema de ecuaciones normales:

na  ( X i )b   Yi
( X i )a  ( X i2 )b   X iYi
n n n
n X iYi  ( X i )( Yi )
 e  0; Y  Yˆ Y  Yˆ  e X  0
n n n n

 b i 1
n
i 1
n
i 1
(pendiente poblacional estimada) i 1
i
i 1
i
i 1
i
i 1
i i

n X i2  ( X i ) 2
i 1 i 1

 a  Y  bX (intercepto poblacional estimada) Ejemplo 32.- Hallar el sistema de ecuaciones normales


 ei  Yi  Yˆi (residuos o residuales o errores muestrales) para el Ejemplo anterior.
Solución.-
Ejemplo 31.- Hallar la recta de regresión para la data
Xi Yi X iYi X 2i Yi 2
del Ejemplo anterior.
Solución.- 0 5 0 0 25
2 9 18 4 81
De la solución general de las ecuaciones normales 3 12 36 9 144
obtenida por M.C se necesitan los siguientes cálculos. 4 14 56 16 196
5 16 80 25 256
X i  14 Y  56  X Y  190  X
i i i i
2
 54 Y
i
2
 702

29 30

na  ( X i )b   Yi X i  14 Y  56 Y  56,00000001 56  e  0,000000006  6E  09  0
i i i

( X i )a  ( X i2 )b   X iYi
La recta de regresión estimada con coeficientes en
n  5 ; reemplazando:
fracción es:
182 83
5a  (14)b  56 Yˆi   Xi
37 37
(14)a  (54)b  190
182 83 182 ˆ 182 83 348
Resolviendo este sistema lineal 2x2; se obtiene: Yˆi (0)   (0)  ; Yi (2)   (2) 
37 37 37 37 37 37
182 83
a  4,9189; b   2,2432
37 37 182 83 431 ˆ 182 83 514
Yˆi (3)   (3)  ; Yi (4)   (4) 
37 37 37 37 37 37
En un mismo diagrama de dispersión dibujar la recta
182 83 597
de regresión estimada con el SPSS Yˆi (5)   (5) 
37 37 37
182 3 348  15
Analizar / Regresión /Regresión Curvilinea / e1  Y1  Yˆ1  5   ; e2  Y2  Yˆ2  9  
Seleccionar las variables en los respectivos ejes / 37 37 37 37
431 13 514 4
Lineal / Aceptar e3  Y2  Yˆ3  12   ; e4  Y4  Yˆ4  14  
37 37 37 37
ˆ 597 5
e5  Y5  Y5  16  
37 37

Los cálculos exactos se presentan en el siguiente


cuadro:

Xi Yi Yi ei
0 5 182/37 3/37
2 9 348/37 -15/37
3 12 431/37 13/37

Xi Yi Yi ei 4 14 514/37 4/37
0 5 4,91891892 0,08108108 5 16 597/37
 -5/37
2 9 9,405405406 -0,405405406  X i  14 Yi  56  Y  56
i
e  0
i

3 12 11,64864865 0,35135135
4 14 13,89189189 0,10810811
5 16 16,13513514 -0,13513514

31 32
En la calculadora se puede encontrar esta regresión Ejemplo 34.- Hallar la recta de regresión con una
lineal simple y otras funciones: calculadora para la data del Ejemplo anterior.
Solución.-
Pulsar MODO / 2:STAT / 2 / aparece un menú del 1 al 8: De la solución general de las ecuaciones normales
obtenida por M.C se necesitan los siguientes cálculos.
1) 1-VAR (desviación estándar S : dividido entre n  1;
también da la desviación estándar  x dividida entre n ) Xi Yi X iYi X 2i Yi 2
0 5 0 0 25
Ejemplo 33.- 2 9 18 4 81
Con la calculadora fx-82 se hacen los siguientes pasos: 3 12 36 9 144
Supongamos la siguiente data: 4 14 56 16 196
5 16 80 25 256
Xi fi X i  14 Y  56  X Y  190  X
i i i i
2
 54 Y
i
2
 702
1 3
3 2
n X Y  ( X )( Y ) (5)190  (14)( 56)
ˆ2   i i 2  i 2 i 
4 8
n=13 n X i  ( X i) (5)54  (14)
2

166
  2,243243243
74
  56 14
MODO /2:STAT / 1: 1-VAR / DATA / AC /SHIFT- 1  Y   2 X   (2,243243243)( )  4,91891892
1/4:Var/2: x =3,153846154; 3:  x =1,230769231; 5 5

4: sx =1,28102523 /
Luego el modelo de regresión estimado es
Donde:  x (desviación estándar dividida entre n-1) 
Yi  4,91891892 2,243243243X i
sx (desviación estándar dividida entre n)
La data de la siguiente manera:  Sistema de ecuaciones normales:

x FREQ na  ( X i )b   Yi
1 3 ( X i )a  ( X i2 )b   X iYi
3 2
4 8
 e  0; Y  Yˆ Y  Yˆ  e X  0
n n n n

i i i i i
i 1 i 1 i 1 i 1

2) A+BX : Yˆi  a  bX i (regresión lineal simple)


Ejemplo 35.- Hallar el sistema de ecuaciones normales
para el Ejemplo anterior.

33 34
Solución.-

Xi Yi Yi ei
2 2
Xi Yi X iYi X i Yi 0 5 4,91891892 0,08108108
0 5 0 0 25 2 9 9,405405406 -0,405405406
2 9 18 4 81 3 12 11,64864865 0,35135135
3 12 36 9 144 4 14 13,89189189 0,10810811
4 14 56 16 196 5 16 16,13513514 -0,13513514
5 16 80 25 256 
X  14 Y  56 Y  56,00000001 56  e  0,000000006  6E  09  0
X Y  56  X Y  190  X Y
i i i i
i  14 i i i i
2
 54 i
2
 702

na  ( X i )b   Yi Estos resultados se pueden obtener de la recta de


( X i )a  ( X i )b   X iYi
2 regresión estimada:
182 83
Yˆi   Xi
n  5 ; reemplazando: 37 37

5a  (14)b  56 Yˆi (0) 


182 83
 (0) 
182 ˆ
; Yi (2) 
182 83
 (2) 
348
(14)a  (54)b  190 37 37 37 37 37 37

182 83 431 ˆ 182 83 514


Resolviendo este sistema lineal 2x2; se obtiene: Yˆi (3)   (3)  ; Yi (4)   (4) 
182 83 37 37 37 37 37 37
a  4,9189; b   2,2432 182 83 597
37 37 Yˆi (5)   (5) 
37 37 37
182 3 348  15
En un mismo diagrama de dispersión dibujar la recta e1  Y1  Yˆ1  5   ; e2  Y2  Yˆ2  9  
de regresión estimada. 37 37 37 37
431 13 514 4
e3  Y2  Yˆ3  12   ; e4  Y4  Yˆ4  14  
Analizar / Regresión /Regresión Curvilinea / 37 37 37 37
Seleccionar las variables en los respectivos ejes / 597 5
Lineal / Aceptar e5  Y5  Yˆ5  16  
37 37

Los cálculos exactos se presentan en el siguiente


cuadro:

Xi Yi Yi ei
0 5 182/37 3/37
2 9 348/37 -15/37

35 36
3 12 431/37 13/37
a) Hacer un diagrama de dispersión y comentar.
4 14 514/37 4/37
Solución.-
5 16 597/37 -5/37

X i  14 Y  56
i  Y  56
i
e  0
i

En la calculadora se puede encontrar esta regresión


lineal simple y otras funciones:

Pulsar MODOCONFIG/2:STAT/2/ aparece un menú del 1


al 8:

Con la calculadora fx-82 hallar la regresión Yˆi  a  bX i

Xi Yi b) Ajustar una parábola por MC; con la calculadora


fx-82.
0 5 Solución.-
2 9
3 12 MODE / 2:STAT / 3:-+CX2 / DATA / AC / SHIFT-1 /
4 14 5:Regr / 1:A=0,9657142857; B=-2,048571429;
5 16 C=1,014285714/
X i  14 Y  56
i

Por lo tanto la parábola por MC es:


MODO / 2:STAT / 2:A+BX / DATA / AC / SHITF-1 / Yˆi  0,9657142857  2,048571429 X i  1,014285714 X i2
/ 5: Regr / 1:A= (4.918918919=182/37) / 2:B=2.243243243
/ 3:r=0.997829706 /
Un resultado similar se obtiene usando el software
3) _+CX : Y  A  BX i  CX i (regresión cuadrática)
2 2 SPSS

Ejemplo 36.- (Regresión cuadrática Y  a  bX  cX 2 )


Con la siguiente data: Ecuación Resumen del modelo Estimaciones de los parámetros

R cuadrado F gl1 gl2 Sig. Constante= b1=b b2=c


x y a
0 1
Cuadrático ,998 573,000 2 2 ,002 ,966 -2,049 1,014
1 0
2 0,8
-1 4
3 4

37 38
4) ln(x) : Y  A  B ln(X ) (regresión logarítmica)

Ejemplo 37.- (Regresión logarítmica: Y  A  ln( X ) )


a) Considere la siguiente data; hacer un diagrama de
dispersión y comente si existe o no linealidad.

Xi 1 8 30 45 80

Yi 3 6 10 11 12

Solución.-

c) Obtener las ecuaciones normales; el cual es un


sistema lineal 3x3.
Solución.-

na  ( X i )b  ( X i2 )c   Yi
( X i )a  ( X i2 )b  ( X i3 )c   X iYi
( X i2 )a  ( X i3 )b  ( X i4 )c   X i2Yi Según el diagrama de dispersión no se observa
linealidad; podría ser una parte de una parábola o una
exponencial.
Xi Yi X i2 X i3 X i4 X iYi X i2Yi
0 1 0 0 0 0 0 b) Hacer la siguiente transformación X i*  ln( X ) ; la
1 0 1 1 1 0 0 variable dependiente Y queda igual y luego hacer el
2 0,8 4 8 16 1,6 3,2 diagrama de dispersión y comente su posible
-1 4 1 -1 1 -4 4 linealidad.
3 4 9 27 81 12 36 Solución.-
 X i  5 Yi  9,8  X i2  15  X i3  35  X i4  99  X iYi  9,6  X i2Yi  43,2
Xi 1 8 30 45 80
5a  (5)b  (15)c  9,8 Yi 3 6 10 11 12
(5)a  (15)b  (35)c  9,6
(15)a  (35)b  (99)c  43,2 X i*  ln( X i) 0 2,07 3,40 3,80 4,38

Yi 3 6 10 11 12
Resolviendo este sistema lineal se obtiene.
a  169 / 175  0,9657142857 ; b  717 / 350   2,048571429

39 40
d) Obtener el resultado anterior con una
calculadora:
Solución.-

2
X i* Yi X i*Yi X i*
0 3 0 0
2,0794 6 12,4764 4,3239
3,4011 10 34,0110 11,5674
3,8066 11 41,8726 14,4902
4,3820 12 52,5840 19,2019
  13,6691   42   140,9440   49,5834

De acuerdo a resultado anterior:

n X i*Yi  ( X i* )( Yi ) (5)(140,9440)  (13,6691)(42)


b 
n X i*  ( X i* ) 2 (5)(49,5834)  (13,6691) 2
2 2

130,6178
  2,1387
Con esta transformación si se observa una clara 61,0727
linealidad entre las variables X i*  ln( X i ) y Yi
a  Y  bX  (42 / 5)  2,1387(13,6691/ 5)  2,5531
Luego el modelo logarítmico Yˆ  a  b ln( X ) es un
i i

modelo que se adecúa a la data transformada. 5) e^x : Y  AeBX (regresión exponencial; base e)
c) Hacer la regresión logarítmica con la calculadora Ejemplo 38.- (Regresión exponencial: Y  AeBX )
fx-82. a) Representar la siguiente data en un diagrama de
Solución.- dispersión y comente sobre la posible función
matemática que se adecúe a esos puntos.
MODE / 2:STAT / 4:lnX / DATA / AC / SHIFT-AC / 5:Regr /
1:A=2,553135917 / B=2,138680139 / Xi Yi
1 23
Por lo tanto la regresión logarítmica es: 2 165
Yˆi  2,5531  2,1386 ln( X i ) 3 1220
4 8950
5 66080

41 42
d) Hacer un diagrama de dispersión para mostrar la
linealidad con la transformación anterior.
Solución.-

Claramente la relación existente entre X e Y no es de


tipo lineal; más bien se adecúa a un crecimiento de tipo
exponencial: Y  aebx
b) Con la calculadora fx-82 los resultados anteriores
Solución.-

MODO / 2:STAT / 5:e^x / DATA / 5:Regr / 1:A=3,1058 /


2:B=1,9919 /
c) Linealizar el modelo: Y  aebx
Solución.-
Se toma logaritmo natural en ambos lados de la e) Obtener los resultados anteriores con una
desigualdad: calculadora.
ln(Yi )  ln(a)  bX i  Yi *  a*  bX i Solución.-
En la data:
Xi Yi *  ln(Yi ) X i Yi * X i2
Xi Yi *  ln(Yi ) 1 3,1354 3,13540 1
1 3,1354 2 5,1059 10,2118 4
2 5,1059 3 7,1066 21,3198 9
3 7,1066 4 9,0999 36,3996 16
4 9,0999 5 11,0986 55,4930 25
5 11,0986   15   35,5464   126,5596   55

Usando las fórmulas:

43 44
Obviamente la relación en estas variables; podría ser
n X i Yi  ( X i )( Yi ) (5)(126,5596)  (15)(35,5464)
* *
una exponencial con base “e”como en el caso anterior;
b  o también podría ser una exponencial con base “b”, de
n X i2  ( X i ) 2 (5)(55)  (15) 2
la forma "Y  AB x "
99,602
  1,99204
50 b) Usando la calculadora fx-82 obtener A y B.
a*  ln(a)  Y *  bX  (35,5464 / 5) 1,99204(15 / 5)  1,13316 Solución.-
Luego a*  ln(a)  1,13316  a  e1,13316  3,1054
Por lo tanto el modelo estimado es: MODO / 2:STAT / 6:A.X^B / DATA / AC / A=4,3209 /
Yˆi  aebx  (3,1054)e1,99204 B=2,9551/

6) A.B^x: Y  AB X (regresión exponencial base b) Luego la regresión estimada es Yˆi  (4,3209)(2,9551) x i

Ejemplo 39.- (Modelo compuesto SPSS: Y  AB x ) c) Obtener los resultados anteriores con una
a) Considere la siguiente data: calculadora
Solución.-
Xi Yi Linealizando el modelo "Y  abx "; para esto se toma
1 13 logaritmos en base 10; resultando:
3 108 log(Yi )  Yi *  log( a)  X i log( b)  a*  b* X i
5 980 Luego se hace una regresión lineal simple con el
6 2900 siguiente cuadro:

Xi Yi *  log( Yi ) Yi X i X i2
Haga un diagrama de dispersión; comente sobre una 1 1,1139 1,1139 1
posible función matemática que se ajuste a la data. 3 2,0334 6,1002 9
Solución.- 5 2,9912 14,9560 25
6 3,4623 20,7738 36
  15   9,6008   42,9439   71

Un diagrama de dispersión con los datos


transformados es:

45 46
Ecuación Resumen del modelo Estimaciones de los
parámetros

R cuadrado F gl1 gl2 Sig. A B


Compuesto 1,000 23984,261 1 2 ,000 4,321 2,955

La variable independiente esx.

7) A.x^B: Y  AX B (regresión potencial)

Ejemplo 40.- (Regresión potencial: Y  AX B )


a) Considere la siguiente data y haga un diagrama de
dispersión.

Xi Yi
1 1,8
4 130
6 460
Observe como se ha logrado la linealidad entre X e Y. 9 1690

n X i Yi *  ( X i )( Yi * ) (4)(42,9439)  (15)(9,6008)


b*  
n X i2  ( X i ) 2 (4)(71)  (15) 2
27,7636
  0,4705
59
a*  Y *  b* X  (9,6008 / 4)  0,4705(15 / 4)  0,635825

Para retornar a los valores originales:


a*  log( a)  0,635825; a  100, 635825  4,3233
b*  log( b)  0,4705; b  100, 4705  2,9546

Estos resultados también pueden obtenerse con algún


software estadístico como el SPSS 21:

DATA / ANALIZAR / REGRESION / REGRESION


CURVILINEA / COMPUESTO

Resumen del modelo y estimaciones de los parámetros Se observa que la relación entre las variables no es de
Variable dependiente: y ninguna manera lineal.

47 48
Luego el modelo es Yˆi  (1,7820) X i
3,1083

b) Haga un diagrama de dispersión para las variables


transformadas (log( X i ); log(Yi )) El resultado anterior también se puede hacer con una
Solución.- calculadora

X i*  log( X i ) Yi *  log( Yi ) X i*  log( X i ) Yi *  log( Yi ) X i*Yi * 2


X i*
0 0,255272 0 0,255272 0 0
0,602059 2,113943 0,602059 2,113943 1,272718 0,362475
0,778151 2,662757 0,778151 2,662757 2,072027 0,605518
0,954242 3,227886 0,954242 3,227886 3,080184 0,910577
  2,334452   8,259858   6,424929   1,878570

Observe que con esta transformación la linealidad Aplicando las fórmulas de la regresión lineal simple:
entre las variables (log( X i ); log(Yi )) 4(6,424929)  (2,334452)(8,259858) 6,417473972
B   3,1083
4(1,878570)  (2,334452) 2 2,06461386
A0  log( A)  Y 0  BX 0  (8,259858 / 4)  3,1083(2,334452 / 4)  0,2509
A  100, 2509  1,7819

B
8) 1/X: Y  A (regresión inversa; tipo hipérbola)
X
B
Ejemplo 41.- (Regresión inversa: Y  A  )
X
Considere la siguiente data:
Xi Yi
1 2
3 0,7
5 0,3
10 0,2
c) Con la calculadora fx-82 estimar los dos 100 0,02
parámetros que aparecen en el modelo: Y  AX B 150 0,01
Solución.-

MODE / 2:STAT / 7:A.X^B / DATA / 5:Reg / a) Hacer un diagrama de dispersión y analizar que
1:A=1.78203336 / 2:B=3,108306203 / curva matemática se puede adecuar a esta data.
Solución.-

49 50
La relación existente entre X e Y no es lineal; parece de
Se observa que se ha conseguido la linealización entre
una relación de tipo exponencial decreciente o una
1
b las variables ( ; Yi )
relación de tipo hipérbola Y  a  Xi
X
1
b) Haga el cambio de variable X i*  y vuelva a c) Halle a y b de este modelo usando la calculadora
X
fx-82.
realizar el diagrama de dispersión, comente.
Solución.-
Solución.-
MODE / 2:STAT / 8:1/X / DATA / AC / 5:Regr / A=-
1 Yi
X i*  0,0156852845 / B=2,014613156 /
X
1 2 2,014613156
0,33 0,7 El modelo es Yˆi  0,0156852845 
Xi
0,20 0,3
0,10 0,2
0,01 0,02 d) Obtener los resultados anteriores con una
0,006 0,01 calculadora.
Solución.-

51 52
Yˆi  ˆ0  X 1i ˆ1  X 2i ˆ 2; i  1;2;3;....; n
*
1 Yi X i*Yi X i2
X i* 
X El sistema de ecuaciones normales es un sistema lineal
1 2 2 1 3x3 de la forma:
0,33 0,7 0,231 0,1089
0,20 0,3 0,06 0,04 nˆ0  ( X 1i ) ˆ1  ( X 2 i ) ˆ2   Yi
0,10 0,2 0,02 0,01
0,01 0,02 0,0002 0,0001 ( X 1i ) ˆ0  ( X 12i ) ˆ2  ( X 1i X 2 i) ˆ3   X 1iYi
0,006 0,01 0,00005 0,000036 ( X ) ˆ  ( X X ) ˆ  ( X 2 ) ˆ   X Y
  1,646   3,23   2,31125   1,159036
2i 0 1i 2i 2 2i 3 2i i

Propiedades:
Aplicando las fórmulas de la regresión lineal simple:  ei  Yi  Yˆi
  ei  0;  Yi   Yˆ i ; Y  Yˆ ;  ei X 1i  0 ;  ei X 1i X 2i  0
n n n n n

6(2,31125)  (1,646)(3,23) 8,55092 i 1 i 1 i 1 i 1 i 1

B   2,014398455
6(1,159036)  (1,646) 2 4,2449
 Yi  a  bX 1icX 2i  ei
A  (3,23 / 6)  2,014398455(1,646 / 6)  0,01428330949
 Yˆi  a  bX 1i  cX 2i ; Yi  Yˆi  ei
16. Pricipio de los Mínimos Cuadrados (M.C.) La solucion de este sistema lineal 3x3
proporciona los valores de a; b; c
El princio de los M.C. dice: tomar a y b como aquellos
que minimizan la Suma de los Cuadrados de los  ei  Yi  Yˆi
Errores (SCE); definida como:
 (Yˆ  Y )
n
2

f (a; b)  SCE   (Yi  Yˆi ) 2   (Yi  a  bX i ) 2   ei2 i


 R  2 i 1
n (coeficiente de determinación)
Esto se obtiene derivando parcialmente:  (Y  Y )
i
2

f (a, b) i 1

 2 (Yi  a  bX i )(1)  0
a Ejemplo 42.- Se tienen tres variables:
f (a; b) Yi : gastos en soles en alimentación por semana (x100)
 2 (Yi  a  bX i )( X i )  0
b X 1i : ingresos en soles por semana (x100)
Reordenando las dos ecuaciones anteriores se X 21 : tamaño de la familia.
obtiene el sistema de ecuaciones normales.
Yi X1i X 2i X1i2 X 2i2 X1i X 2i X1iYi X 2iYi
0,43 2,1 3 4,41 9 6,3 0,903 1,29
0,31 1,1 4 1,21 16 4,4 0,341 1,24
0,32 0,9 5 0,81 25 4,5 0,288 1,6
17. Regresión lineal múltiple 0,46
1,25
1,6
6,2
4
4
2,56
38,44
16
16
6,4
24,8
0,736
7,750
1,84
5
( Yˆi  ˆ0  X 1i ˆ1  ...  X ki ˆ k ; i  1;2;3;....; n ) 0,44
0,52
2,3
1,8
3
6
5,29
3,24
9
36
6,9
10,8
1,012
0,936
1,32
3,12
0,29 1 5 1 25 5 0,29 1,45
1,29 8,9 3 79,21 9 26,7 11,481 3,87
0,35 2,4 2 5,76 4 4,8 0,84 0,7
Para el caso k=2; se tiene:

53 54
0,35 1,2 4 1,44 16 4,8 0,42 1,4
0,78 4,7 3 22,09 9 14,1 3,666 2,34
0,43 3,5 2 12,25 4 7 1,505 0,85
0,47 2,9 3 8,41 9 8,7 1,363 1,41 Las calculadoras fx-82 y fx-991 no tienen incorporados
0,38 1,4 4 1,96 16 5,6 0,532 1,52
la regresión lineal con dos variables independientes;
  8,07   42   55   188,08   219   140,8   32,063   28,96 pero el SPSS 21 si lo puede realizar; dando como
resultado:
a) Hallar las ecuaciones normales.
Solución.-
15ˆ0  42ˆ1  55ˆ2  8,07 Modelo Coeficientes no estandarizados

42ˆ  188,08ˆ  140,8ˆ  32,063


B
0 1 2
ˆ -0,160
55ˆ0  140,8ˆ1  219ˆ3  28,96
0

1 ˆ1 0,149

b) Resolver el sistema lineal 3x3 de a) y formule el ˆ 2


0,077

modelo estimado.
Solución.- Los residuos también se pueden con el SPSS:
ˆ0  0,1604; ˆ1  0,1487; ˆ3  0,0769

Yˆi  0,1604  0,1487 X 1i  0,0769 X 2i Yi X1i X 2i Yˆi ei


-------------------------------------------------------
c) El error o residuo para cada observación se define 0,43 2,10 3,00 0,38261 0,04739
como: ei  Yi  Yˆi  valor observado-valor estimado. 0,31 1,10 4,00 0,31080 -0,00080
0,32 0,90 5,00 0,35797 -0,03797
Calcular e1; e5 ; e15 .
0,46 1,60 4,00 0,38517 0,07483
Solución.- 1,25 6,20 4,00 1,06931 0,18069
0,44 2,30 3,00 0,41236 0,02764
Y1  0,43; Yˆ1 (2,1; 3)  0,1604  0,1487(2,1)  0,0769(3)  0,3825 0,52 1,80 6,00 0,56874 -0,04874
Y  1,25; Yˆ (6,2; 4)  0,1604  0,1487(6,2)  0,0769(4)  1,0691
5 1
0,29 1,00 5,00 0,37284 -0,08284
1,29 8,90 3,00 1,39396 0,10396
Y15  0,38; Yˆ1 (1,4; 4)  0,1604  0,1487(1,4)  0,0769(4)  0,3553 0,35 2,40 2,00 0,35032 -0,00032
e1  Y1  Yˆ1  0,43  0,3825  0,0475 0,35 1,20 4,00 0,32568 0,02432
e  Y  Yˆ  1,25  1,0691  0,189
5 5 5
0,78 4,70 3,00 0,76930 0,01070
0,43 3,50 2,00 0,51392 -0,08392
e15  Y15  Yˆ15  0,38  0,3553  0,0247 0,47 2,90 3,00 0,50160 -0,03160
0,38 1,40 4,00 0,35542 0,02458
En este caso los tres errores han resultado positivos; -----------------------------------------------------------
pero todos los errores pueden ser positivos, algunos
tienen que ser negativos.

55 56
Observe que  ei  0 y además Yi  Yˆi .
15 15 15

i 0 i 1 i 1

d) Medir la bondad del ajuste del modelo mediante el


coeficiente de determinación R2 .
Solución.-
(Yˆi  Y ) 2 SCE
15


Por definición: R  15
2 i 1
 ; donde
 (Yi  Y ) 2 SCT i 1

SCE : Suma de Cuadrados Explicado

SCT : Suma de Cuadrados Total.

SCE  (0,38261  0,5380) 2  (0,31080  0,5380) 2  ...  (0,35542  0,5380) 2

SCE  1,36

15
SCT   (Yi  Y )2  (0,43  0,5380)2  (0,31  0,5380)  ...  (0,38  0,5380)2
i 1

SCT  1,43

 (Yˆ  Y )
15
2
i SCE 1,36
R 
2 i 1
15
   0,951048
 (Y  Y )
i 1
i
2 SCT 1,43

Interpretación:
Multiplicando por 100
100R 2  95,10% ; es decir el modelo explica un 95,10% de
la variación de la variable dependiente Y.
Esto también se puede obtener con el SPSS; también
se puede obtener este resultado:
b
Resumen del modelo

Modelo R R2 R cuadrado Error típ. de la


corregida estimación
a
1 ,974 0,950 ,941 ,07751

57
CAPÍTULO 1 decidir cuál de dos métodos de enseñanza aplicados a
dos grupos de niños es el más adecuado o puede
Conceptos básicos de Estadística Descriptiva decidir que tratamiento es mejor para combatir
determinada enfermedad.
Prof. Mg. Wilfredo Domínguez C.
Prob. y estadística (Ing electrónica)
Los cursos de estadística se dictan todas las
1) CONCEPTO DE ESTADISTICA especialidades; forma parte de todos los planes de
estudio de todas las carreras profesionales.
La estadística es una ciencia especializada en el
tratamiento de los datos y utiliza métodos 2) PALABRAS CLAVES EN ESTADISTICA
matemáticos para la recopilación, organización,
presentación, el análisis y toma de decisiones Definición 1. (Población) Es un conjunto de seres u
inferenciales, dichos datos por lo general son objetos sobre los cuáles necesitamos hacer algún tipo
tomados utilizando procedimientos específicos de estudio, este conjunto grande se representa por P.
denominados técnicas de muestreo los que conducen
a tomar una parte pequeña (muestra) de un conjunto Observe que el término población en estadística es
más grande llamado (población). mucho más general del que usualmente conocemos,
pues no necesariamente la población debe estar
Las definiciones de estadística son muy numerosas, compuesta por personas, sino que también pueden ser
muchas de ellas depende del uso que se le dé, por animales de una región de la costa peruana, plantas
ejemplo la estadística puede servir para describir los de un gran parque, tornillos producidos por una
acontecimientos más importantes de un evento empresa.
deportivo.
Si el tamaño de la población es finita usualmente esta
La estadística también se puede usar para organizar se representa por N , el cual es un número entero
mejor la información de un colectivo grande, como positivo y el tamaño de la muestra se representa
por ejemplo la organización de las historias clínicas universalmente por n , de forma tal que se cumple la
de un gran hospital, sin lugar a dudas la estadística desigualdad n  N .
sirve para eso y muchas otras cosas más, pero la Una población es un conjunto y luego está formado
estadística va mucho más allá pues desde el punto de por elementos, dichos elementos se denominan
vista científico es una ciencia que nos permite tomar unidades estadísticas, podríamos representar a la
decisiones en cuestiones que requieren un sustento población P como un conjunto es decir: ww
mucho más riguroso, por ejemplo puede ayudar a

1 2
P   u1 , u2 ,..., ui ,...,u N 

Ejemplo 1. Sea la población compuesta por todos


los peruanos a la fecha, esta población tiene un
aproximado de 33 millones de personas.

Ejemplo 2. Consideremos la población compuesta


por todos lo guacamayos de la Amazonía peruana.

Ejemplo 3. Sea la población compuesta por todos


los tornillos producidos por una gran fábrica durante
un mes específico.

Ejemplo 4. Consideremos la población compuesta


por todos los alumnos de nuestra universidad.

Definición 2. (Muestra) Es una parte representativa


de la población, usualmente su tamaño por n y esta
siempre es finita, en esta parte representativa de la
población recaerá nuestro estudio, la muestra debe
ser representativa de la población, es decir deberá
tener todas las características de la población,
La forma de obtener una muestra representativa de la
población corresponde a una parte de la estadística Ejemplo 5.
denomina da Técnicas de Muestreo. ww
 En un gran club deportivo hay numerosos socios;
hay una discusión sobre si seguir como
auspiciador en las camisetas de los jugadores
lleven la marca “PUMA”, o la marca “NIKE”;
para esto se toma al azar del listado de socios
100 de ellos; de estos 100 socios; 70 de ellos
están a favor de la marca “PUMA”; el resto la
otra marca. ww

3 4
En este caso la población está compuesta por la Si el tamaño de muestra es estrictamente menor que
totalidad de socios, en este caso su tamaño N es el tamaño de la población estamos haciendo muestreo,
desconocido; la muestra está compuesta por los ahora si n  N estamos realizando un censo, la
n 100 socios encuestados. mayoría de las veces se hace muestreo.

 Un filántropo ayuda a 1000 niños en su Si siempre se podría hacer un censo obtendríamos


formación escolar; a fin de año se quiere resultados exactos y el papel de la estadística sería
organizar una fiesta; como el local donde se va a muy limitado; la mayoría de la veces se trabajan con
realizar este evento tiene una capacidad limitada muestras, por ejemplo la intención de voto hacia
para 300 participantes; se toma la decisión de determinada candidatura se hacen con muestras de
invitar a los 300 primeros niños con mayor tamaño 1500 aproximadamente.
rendimiento.
En esta situación la población está compuesta VENTAJAS DEL MUESTREO
por los N 1000 niños y la muestra está compuesta
por los n  300 niños seleccionados.  Bajo costo.
 Información más exacta (mejor calidad) que la
 Una encuestadora de estudio de mercados quiere del censo, debido a que el menor número de
saber que marca de cerveza es la más preferida encuestadores permite capacitarlos mejor y más
en el cercado de Lima, entre dos nuevas marcas selectivamente.
A y B; para esto invita al azar 1000 latas de  Es posible introducir métodos científicos
cerveza; 500 de la marca A y 500 de marca B; de objetivos de medición para corregir errores.
los 500 que probaron la marca A; 235 de ellos  Mayor rapidez en la obtención de resultados.
dijeron que si les gustaba la marca invitada.  Técnica más utilizada y que permite obtener
De los 500 que probaron la marca B; 190 se información de casi cualquier tipo de población.
mostraron a favor.  Gran capacidad para estandarizar datos, lo que
permite su tratamiento informático y el análisis
En este caso la población está compuesta por estadístico sobre todo obtener la información de
todos los habitantes mayores de edad de esa zona los encuestados
de Lima; su tamaño N es desconocido; la
DESVENTAJAS DE LOS CENSOS
muestra está compuesta por las n  1000 personas
escogidas.  Alto costo (humano y material) dado que exige el
ww empleo de una gran cantidad de recursos de
personal, financieros y materiales. ww

5 6
 Es necesaria una vasta organización que abarque
todo el universo a investigar, procurando evitar
omisiones y duplicaciones.
 Demora en la obtención de resultados.
 En algunos casos, la información que se obtiene
puede ser de inferior calidad (mayores errores) a
la que se obtendría si la investigación se realizara
por muestreo.

Obviamente se desea tener métodos científicos para


obtener buenas muestras; uno de los campos de la
estadística llamada TÉNICAS DE MUESTREO o
simplemente MUESTREO enseña como seleccionar b)Por conveniencia.
una buena muestra. El muestreo por conveniencia es una técnica de
Existen varias técnicas de muestreo; la elección de la muestreo no probabilístico y no aleatorio
técnica depende de la situación y en realidad el utilizada para crear muestras de acuerdo a la
MUESTREO es motivo de un curso separado de la facilidad de acceso.
estadística básica.
Consiste en tomar un segmento o fracción de la
Las principales técnicas de muestreo se presentan en
población por su cómoda accesibilidad. Por
el siguiente diagrama:
ejemplo, una muestra obtenida de listas
fácilmente disponibles, como las guías de
Muestreo no probabilístico:
teléfonos, constituyen una muestra deliberada.
a) A juicio.
Por la comodidad o facilidad en tomar la muestra
El muestreo deliberado, crítico o por juicio, es
se sacrifica cierto grado de representatividad de
una técnica de muestreo no probabilístico en la
las características disponibles; sin embargo, este
que los miembros de la muestra se eligen sólo
tipo de muestreo puede ser de alguna utilidad
sobre la base del conocimiento y el juicio del
para estudios pilotos o de sondeo.
investigador.
ww
ww

7 8
El muestreo aleatorio simple es una técnica de
muestreo en la que todos los elementos que
forman el universo - y que por lo tanto están
incluídos en el marco muestral - tienen idéntica
probabilidad de ser seleccionados para la
muestra. ... Un individuo solo puede aparecer una
única vez en una muestra.

c) Voluntariado.

b)Estratificado.

En un muestreo aleatorio estratificado se divide la


población en clases o estratos y se escoge,
aleatoriamente, un número de individuos de cada
estrato proporcional al número de componentes de
cada estrato.
Muestreo probabilístico:
a) Muestreo Aleatorio Simple (M.A.S.) ww Ejemplo ww

9 10
En una fábrica que consta de 600 trabajadores
queremos tomar una muestra de 20. Sabemos que d) Por conglomerados.
hay 200 trabajadores en la sección A, 150 en la B,
150 en la C y 100 en la D. En estadística, el muestreo por conglomerados es una
técnica de muestreo utilizada cuando hay
agrupamientos «naturales» relativamente
homogéneos en una población estadística.1
A menudo se utiliza en la investigación de mercados.
En esta técnica, la población total se divide en estos
grupos (o clusters) y una muestra aleatoria simple se
selecciona de los grupos.
A continuación, la información requerida se obtiene
de una muestra aleatoria simple de los elementos
dentro de cada grupo seleccionado y una submuestra
de elementos se puede seleccionar dentro de cada uno
c) Sistemático.
de estos grupos. Una motivación común para el
El muestreo sistemático es un tipo de muestreo muestreo por conglomerados es reducir el número
probabilístico donde se hace una selección aleatoria total de entrevistas, y sus costes, dada la precisión
del primer elemento para la muestra, y luego se deseada. Suponiendo un tamaño de muestra fijo, la
seleccionan los elementos posteriores utilizando técnica ofrece resultados más precisos cuando la
intervalos fijos o sistemáticos hasta alcanzar el mayoría de la variación en la población es dentro de
tamaño de la muestra deseado. los grupos y no entre ellos.

w ww

11 12
e) Muestreo por cuotas a) Si n  30 se denominan “muestras grandes”.
b)Si n  30 de denominan “muestras pequeñas”.
Es la técnica más difundida sobre todo en estudios de w
mercado y sondeos de opinión. Definición 3. (Variable) Es la característica de
En primer lugar es necesario dividir la población de interés que se observa en cada unidad estadística o
referencia en varios estratos definidos por algunas unidad elemental , y como esta cambia de unidad a
variables de distribución conocida (como el género o unidad suele llamarse variable y por lo general se
la edad). Posteriormente se calcula el peso representa por letras mayúsculas como X , es decir
proporcional de cada estrato, es decir, la parte en cada ui  P se observa un valor X i .
proporcional de población que representan. Donde a cada ui  P se le asigna un X i ; es decir
ui  X i ; i  1;2;....N
Finalmente se multiplica cada peso por el tamaño de
n de la muestra para determinar la cuota precisa en Con referencia al Ejemplo 1, muchas cosas se pueden
cada estrato. Se diferencia del muestreo estratificado observar en cada peruano, es decir cada peruano
en que una vez determinada la cuota, el investigador constituye una unidad estadística, por ejemplo se
es libre de elegir a los sujetos de la muestra dentro de podría estar interesado en observar la edad, el peso, la
cada estrato. condición socioeconómica, su nivel educacional y
otras cosas más.

Si sólo estudiamos una sola variable estamos


haciendo estadística unidimensional o de una
variable.
La observación en cada unidad estadística puede
arrojar un número (variable numérica o cuantitativa)
o puede proporcionar una cualidad (variable
cualitativa).

Siempre que se observa una característica en cada


unidad estadística esta puede resultar un número o
una cualidad, la estadística puede trabajar con ambos
tipos de variables desde su aspecto elemental
En estadística, las muestras pueden clasificarse
descriptivo o hacer análisis estadístico avanzado.
según su tamaño en dos tipos:
ww
ww

13 14
3) CLASIFICACIÓN DE LAS VARIABLES A2: Variables cuantitativas continuas.- Son aquellas
Las variables se pueden clasificar en dos grandes que pueden tomar todos los valores posibles en un
grupos: cuantitativas o numéricas (grupo A) o intervalo dado, incluso valores fraccionarios e incluso
cualitativas (grupo B), es decir: negativos.
Este tipo de variables provienen de medir, y cuando se
A: Variables cuantitativas- Son aquellas que resultan mide algo no necesariamente resulta un entero
ser un número y provienen del conteo o de positivo o cero; e incluso puede ser negativo como lo
mediciones, estas a su vez se pueden clasificar en dos es la temperatura medioambiente.
sub grupos: w
Ejemplo 7. Presentamos algunos ejemplos de este
A1: Variables cuantitativas discretas.- Son aquellas tipo de variables:
que solamente pueden tomar valores enteros positivos
o cero, es decir pueden ser 0, 1, 2, 3, ……. 1) Estatura de personas en metros.
Este tipo de variables por lo general provienen de 2) Peso de la personas en kilos.
contar y cuando se cuenta algo o es un entero positivo 3) Perímetro craneal de recién nacidos.
o es cero. 4) Temperatura ambiental en grados
centígrados. w
Ejemplo 6. Son ejemplos de este tipo de variables 5) Edad de las personas.
las siguientes: 6) Nivel de glucosa en la sangre.
7) Calificación de estudiantes en escala
1) Número de hijos por familia vigesimal.
2) Número de televisores por familia 8) Altura en metros sobre el nivel del mar las
3) Número de computadoras defectuosas por ciudades de la costa peruana.
laboratorio.
4) Número de cursos matriculados por alumno. Ejercicio 2.- Dar ocho ejemplos adicionales sobre
5) Número de dormitorios por familia. variables cuantitativas continuas.
6) Número alumnos por aula.
7) Número visitas al médico por año de pacientes de
la tercera edad al seguro social. B: Variables cualitativas.- Como su nombre lo indica
8) Número de latidos del corazón por minuto. son variables en los cuales se observan una cualidad.

Ejercicio 1.- Dar ocho ejemplos adicionales de Ejemplo 8. Son ejemplos de este tipo de variables:
variables cuantitativas discretas ww ww

15 16
1) El nivel educacional de los peruanos sucesivamente. Observe que implícitamente un
2) La jerarquía institucional. ordenamiento de menor a mayor.
3) La clase social a la que se pertenece.
4) El color de los ojos.
5) La creencia religiosa. B1: VARIABLES CUALITATIVAS NOMINALES.-
6) La preferencia electoral.
7) El tipo de sangre de las personas. Son aquellas variables en los que no se puede
establecer ningún tipo de ordenamiento entre ellas; se
Las variables cualitativas se pueden clasificar en darán algunos ejemplos de este tipo de variables
dos tipos: cualitativas ordinales y cualitativas cualitativas nominales.
nominales.
Ejemplo 11. El color de cabello de las personas; el
B1: VARIABLES CUALITATIVAS ORDINALES.- sexo de las personas; el tipo de sangre; el lugar de
nacimiento
Son aquellas variables cualitativas en los que se puede
establecer algún tipo de ordenamiento entre ellas, por 4) PARÁMETROS POBLACIONALES
ejemplo de mayor a menor o de menor a mayor.
Definición 4. (Parámetro) Los parámetros son
Ejemplo 9. En las universidades existe la jerarquía cantidades fijas, que existen y que teóricamente se
institucional; primero el rector de la universidad; pueden conocer si se trabajasen con todos los
luego están los vicerrectores a continuación los elementos (unidades poblacionales) que constituyen
decanos y luego los directores de escuela y así la población. Los parámetros más usados en
sucesivamente. Observe que existe una ordenación de estadística son:
mayor a menor.
 La media poblacional, la cuál se representa por
Ejemplo 10. Otro ejemplo clásico es el nivel la letra griega  (mu); asociada a variables
educacional de las personas; este nivel puede ser cuantitativas.
ordenado en analfabetos (no saben leer ni escribir;
luego las personas que tienen educación primaria  La varianza poblacional, usualmente
(saben leer y escribir); a continuación las personas representada por  (sigma cuadrado); asociado
2

que tienen educación secundaria; posteriormente las a variables cuantitativas


personas con estudios universitaria y así ww

17 18
 La desviación estándar poblacional:  ; asociado Supongamos que la niñita devuelve a la caja los tres
a variables cuantitativas. boletos; teniendo nuevamente N 10 números. Vuelve a
sacar 3 papelitos; esta vez resulta en la muestra 19;
 La proporción poblacional p . Asociada a 18; 21 la media muestral es X 2  19  18  21  58  19,3333 años
3 3
variables cualitativas. (ojo cualitativas) 10 10!
En total se tienen  3   3!7!  120 muestras posibles.
 
La media poblacional  , la varianza poblacional  2 y Naturalmente en un estudio sólo se trabaja con una
la desviación estándar poblacional están asociadas a muestra.
variables cuantitativas (numéricas). Siempre que se trabaja con muestras inevitablemente
La proporción poblacional p está asociada más bien a esta sujetos a cometer error al querer estimar 
variables de tipo cualitativo (cualidades). (parámetro).
Supongamos que trabajamos con la primera muestra
Ejemplo 12. Consideremos una población hipotética que arrojó una media muestra X 1  18,6666 años ; la
compuesta por N 10 estudiantes universitarios; la verdadera media o verdadero valor es   19,3 años.
variable de interés es la edad en años cumplidos; esta El Error de muestreo se define E    ˆ    X ; donde ̂
población es dada por la siguiente data: se lee mu estimado ( : letra griegamu) ; en este caso:
18 19 21 17 20 18 19 22 21 18 E    ˆ    X  19,3  18,666  0,6334
Existe la media poblacional  y se puede calcular
sumando las 10 edades y dividiendo en N 10; es decir:
N 10
Ejemplo 13. Imaginemos la población de todos los
X i
18  19  ...  18 193
 i 1
   19,3 años peruanos a la fecha y que la variable de interés sea la
10 10 10
edad medida en años, de hecho existe la media
Supongamos que etiquetamos las 10 edades con los
poblacional  , o sea la edad promedio de todos los
números 1; 2; 3;….10; en 10 papelitos enumeramos 1;
2;…;10. peruanos a la fecha, para esto tendríamos que sumar
Los 10 papelitos se ponen en una caja; una niña con la edades de todos peruanos a la fecha y dividir toda
los ojos vendados selecciona 3 boletos juntos; esto entre aproximadamente entre 33 millones.
resultando como integrantes de la muestra a 17; 19; y Esta tarea en la práctica es realmente imposible, pues
20; el tamaño de la muestra es n  3 la base de datos actualizada conteniendo la edad de
Lo que se ha hecho es muestreo aleatorio simple; el todos lo peruanos a la fecha no existe, pero si tengo la
cual es un muestreo probabilístico. certeza de que esa edad promedio en verdad existe,
Con estos tres datos se puede calcular la media pero que es imposible conocerla con exactitud,
teóricamente se tendría que calcular: ww
muestral; es decir X 1  17  19  20  56  18,6666. ww
3 3

19 20

Suma de edades de todos los peruanos Esta cantidad se que existe, pero es desconocida, pero
33 millones se puede estimar puntualmente y también por

X i intervalos, la estimación puede hacerse en base a una
33 millones muestra de tamaño n , por ejemplo 1500 o 3000
votantes elegidos al azar, esto mediante alguna
Si bien es cierto que esta cantidad  no la puedo técnica de muestreo y a nivel nacional, obviamente
conocer con exactitud, si es posible estimarla 0  p  1, el cual multiplicada por 100 queda expresada
(aproximarla) usando muestras. en porcentaje, es decir 0%  100 psi 100%.
w
Esta estimación puede ser puntualmente (darle un Las encuestadoras de opinión pública presentan
valor explícito) o también se puede estimarla por frecuentemente intervalos de confianza basados en
intervalos, es decir poner ese valor  entre dos muestras, hablan de margen de error y un nivel de
valores determinados, en otras palabras se puede confianza.
construir un intervalo de confianza para  de la
forma: Si bien es cierto p no se conoce si se puede estimar
L.I .    L.S ., donde L.I . es el límite inferior del puntualmente mediante p̂ , el cual se lee como p si
intervalo y L.S . es el límite superior del intervalo de estimado, esto es posible si por ejemplo la muestra de
confianza. tamaño n  1500 , si de estos votantes 800 se inclinan a
favor del si se tendría:
Ejemplo 14. Supongamos que se va a realizar un  800
p  0,5333
referéndum para aprobar o desaprobar o aprobar una 1500

reforma constitucional y que la población de votantes


Equivalentemente en % se puede decir que un
es de 20 millones de personas, aprobar o desaprobar
53,33% se inclina a favor del si.
el referéndum es una cualidad.
Por comodidad supongamos sólo dos posibilidades:
En general la proporción muestral es:
aprobar (si) o desaprobar (no). Antes de efectuar el
referéndum nadie puede saber con exactitud la
 nro. de personasu objetoscon cierta característica
proporción de votantes a favor del (si), o sea existe la p  ( p estim ado) 
n
proporción de votantes a favor de la modificación
constitucional, el cual teóricamente se puede obtener 5) CONSTRUCCION DE CUADROS DE
así: DISTRIBUCIÓN DE FRECUENCIAS: CASO
DISCRETO
númerode electoresa favor del si
p ww ww
Total de electores(20 millones)

21 22
Si se tiene una data X1 ; X 2 ;...; X n proveniente de una f1=2 f2=5 f3=8 f4=6 f5=3 .f6=1
variable discreta lo más probable es que existan datos x
repetidos, es mejor contar cuantas veces se repite un x
valor particular, y luego presentarlos en un cuadro de x x
distribución de frecuencias; en el siguiente ejemplo se x x x
presenta la metodología. x x x
x x x x
Ejemplo 15. En nuestra universidad existen x x x x x
numerosos laboratorios de cómputo; inevitablemente x x x x x x
en cada laboratorio existen computadoras Xi 0 1 2 3 4 5
defectuosas. Se tomó una muestra de laboratorios y se
contó el número de computadoras defectuosas por Luego se procede a la construcción de un cuadro de
laboratorio en n=25 laboratorios (variable discreta) , distribución de frecuencias, teniendo en cuenta lo
resultando: siguiente:
k  6 ; seis valores distintos de la variable en la
0 1 2 1 3 2 2 3 3 4 1 2 2 3 4 2 3 0 2 1 2 3 4 5 1 muestra de tamaño n  25
. . . . . . . . . . . . . . . . . . . . . . . . . f i : frecuencia absoluta; hi : frecuencia relativa
Fi : Frecuencia Absoluta Acumulada Hi: Frecuencia Relativa
w Acumulada
Los datos se organizaran de menor a mayor, contando Xi
las veces que se repiten cada uno. fi hi Fi Hi
0 f1  2 h1 
2
 0,08
F1  2 H 1  0,08
Xi 25
1 f2  5 h2 
5
 0,20 F2  2  5  7 H 2  0,08  0,20  0,28
0: 0 0 f 1  2 25
1: 1 1 1 1 1 f 2  5 2 f3  8 h3 
8
 0,32
F3  7  8  15 H 3  0,28  0,32  0,60
2: 2 2 2 2 2 2 2 2 f 3  8 25
3: 3 3 3 3 3 3 f 4  6 3 f4  6 h4 
6
 0,24
F4  15  6  21 H 4  0,60  0,24  0,84
4: 4 4 4 f 5  3 25
5: 5 f 6  1 4 f5  3 h5 
3
 0,12 F5  21  3  24 H 5  0,84  0,12  0,96
25
El esquema anterior puede ser puesto verticalmente y 5 f6  1 1 F6  24  1  n  25 H  0,96  0,04  11
h6   0,04
esto nos dará una idea de la forma de la distribución 25
6

de los datos: ww Tot n  25 1


al

23 24
Interpretación: de la variable; obviamente k  n . El cuadro toma la
forma:
f 4  6 ; seis laboratorios tienen 3 computadoras
defectuosas.
Xi fi hi Fi Hi
X1 f1 f
h1  1 F1  f 1 H 1  h1
6 n
100 h4  100 ( )  024 % : El 24% de los laboratorios tienen
25 X2 f2 h2 
f2 F2  f1  f 2 H 2  H 1  h2
n
3 computadoras defectuosas.  … … … ….
Xi fi f
h4  i Fi  Fi1  f i H i  H i1  hi
n
F4  15  6  21 : 21 laboratorios tienen 3 o menos … … … …

computadoras defectuosas. Xk fk f
hk  k
Fk  Fk1  fk  n H k  H k 1  hk  1
n
Total n 1
H 4  100 (0,84)  84% : el 84% de los laboratorios tienen 3 o
menos computadoras defectuosas. En general se cumplen las siguientes propiedades:
w
Ejercicio 1.- Usando los datos del Ejemplo anterior;
k

1)  fi  n
pero añadiendo a la data original los siguientes 11 i 1
k

datos: 2)  hi  1
i 1
2 4 6 1 6 2 3 2 2 3 2 3) Fk  n
Se pide rehacer lo realizado en el mencionado
4) H k 1
Ejemplo; pero ahora n  2511 36
5) f1  F1  F2  ...Fi1  Fi  ...  Fk  n
6) h1  H1  H 2  ...Hi 1  Hi  ...  H k  1
7) Fi  Fi 1  f i  ( f1  f 2  ...  f i1 )  f i
6) CUADRO GENERAL DE DISTRIBUCIÓN
DE FRECUENCIAS Y PROPIEDADES. 8) H i  h1  h2  ...hi  (h1  h2  ...  hi1 )  hi  H i1  hi
Fi
9) Hi  ; Fi  n H i
n
En general para construir un cuadro de distribución 10) Fi  Fi1  f i
de frecuencias para caso discreto se debe tener la data 11) H i  H i1  hi
con un tamaño de muestra n y sin tabular (o datos en
bruto) de la forma: X ; X 2 ;...; X n 7) |CONSTRUCCION DE CUADROS DE
Se hace el conteo para obtener las frecuencias DISTRIBUCIÓN DE FRECUENCIAS: CASO
absolutas f i : i  1;2;...,k ; donde k es el número distintos CONTINUO ww

25 26
Este procedimiento es recomendable solamente Existen tres criterios para la elección del número de
cuando se tienen por lo menos un tamaño de muestra intervalos de clase; los cuales son:
mayor o igual 25 o mejor aún tener una muestra de 1) Tomar un k moderado entre 5 y 15; es decir
tamaño grande; es decir un n  30 (muestras grandes) 5  k  15 ; nosotros hemos elegido k=5 como
La metodología se presentará con un ejemplo práctico ejemplo.
dado a continuación. 2) Otro criterio es tomar próximo a la raíz
cuadrada de n; es decir k  n  26  5,0990
Ejemplo 16. Los siguientes datos corresponden a las 3) Otro criterio es el de Sturges; el cual dice
notas finales (n=26 alumnos) en un curso de tomar k como el valor más próximo a
especialidad, las notas son dados con decimales y en 1+3,3log(n); donde log es el logaritmo en base
una escala vigesimal: 10; es decir:
n  1 3,3log(n)
14,6 13,8 11,8 12,0 14,1 En nuestro caso
09,7 15,9 15,8 17,0 12,7
16,5 14,8 09,3 13,0 12,6
n  1  3,3log(26)  1  3,3log(26)  1  3,3(1,4149)  5,6691
13,8 10,0 11,6 08,0 11,6
18,0 12,7 12,8 10,5 13,6 Paso 3.- Se calcula la amplitud de los intervalos de
10,5
R
clase (c) definida como c  .
k
Paso 1.- Se halla el valor máximo (Xmax) y el valor En nuestro caso
mínimo de la muestra (Xmin),
Se calcula el Recorrido muestral ,dado por: R 10
c  2
R  X max  X min k 5
En nuestro caso:
X max  18; X min  8; Paso 3.- Cada intervalo de clase tendrá amplitud
R  X max  X min  18  8  10 constante igual a c=2 y se crean los k=5 intervalos de
w clase; desde el Xmin se va sumando la amplitud c; de la
Paso 2.- Se determina el número de intervalos de siguiente forma:
clases k; obviamente k es un entero positivo; a
trabajar; como ejemplo tomemos k  5 . [8; 10>; [10; 12>; [12; 14>; [14; 16>; [16; 18]

Observación.- Observe la forma de los intervalos de clase; los cuatro


La elección del número de intervalos es controversial, primeros son cerrados en límite inferior (incluye) y
ninguna elección se puede decir que es mejor que la abierto en el límite superior (excluye); excepto el
otra u otras. último el cual es cerrado en ambos extremos.

27 28
ww
Paso 4.- Cada una de las observaciones es colocada en F3=18: Dieciocho estudiantes tienen notas entre 8 y
cada uno de los intervalos 14 puntos

[ 8; 10> : 09,7 09,3 08,0 f1=3 100H3=69,21%: el 69,21% de los estudiantes tienen
[10; 12> :11,6 10,0 11,6 11,6 10,5 10,5 f2=6 notas entre 8 y 14
[12; 14> :13,8 12,0 12,7 13,0 12,6 13,8 12,7 12,8 13,6 f3=9 Un gráfico de la distribución de frecuencias absolutas
[14; 16>: 14,6 14,1 15,9 15,8 14,8 f4=5 usando el SPSS; muestra lo siguiente:
[16; 18] : 17,0 16,5 18,0 f5=3

Paso 5.- Se hallan las marcas de clase ( X i ) que


simplemente es el punto medio de los intervalos de
clase; decir si el intervalo de clase es [ X i*1  X i*  ;
X i*1  X i*
entonces X i ; i  1;2;...; k
2

Luego se crea el cuadro de distribución de


frecuencias el cual es similar al caso discreto:

Intervalos X i f i hi Fi Hi fi X i 2
fi X i
Un gráfico de barra es proporcionado a continuación:
[8; 10> 9 3 0,1153 3 0,1153 27 243
[10; 12> 11 6 0,2307 9 0,3460 66 726
[12; 14> 13 9 0,3461 18 0,6921 117 1521
[14; 16> 15 5 0,1923 23 0,8844 75 1125
[16; 18] 17 3 0,1153 26 0,9997 51 867
Totales n=26 0,9997 1 336 4482

Interpretación:
f3: 9 estudiantes tienen notas entre 12 y 14 puntos

X3=13; la nota trece es la nota “representativa” de los


estudiantes que han obtenido notas entre 12 y 14.
ww
100h3=34,64%: el 34,64% de los estudiantes tienen
notas entre 12 y 14.

29 30
Ejercicio 2.- Con la data del Ejemplo anterior; pero [12,98 14,64> [14,64 16,3> [16,3 18,0]
agregando cuatro datos adicionales: 10,9 13,4 17,1
12,3 Ejemplo 17. Ejemplo.- Del archivo que contiene las
Se pide rehacer el Ejemplo anterior con todos sus historias clínicas de los pacientes con problemas de
pasos; recuerde que ahora Ud. tiene n=30 datos. visión de un hospital de la capital; se tomó una
muestra de tamaño n=50, y se consideró la estatura de
ellos (en metros), resultando:
Ejercicio 3.- Con los datos de Ejercicio anterior,
donde n=30 tomar k=6 intervalos de clase y 1,65 1,43 1,88 1,59 1,35 1,76 1,22 1,45 1,62 1,41
reconstruir el cuadro como se hizo en el Ejemplo 13, 1,36 1,78 1,50 1,48 1,62 1,60 1,35 1,53 1,65 1,74
considerando los 5 pasos; tenga presente que tendrá 1,49 1,37 1,60 1,76 1,52 1,48 1,61 1,34 1,55 1,82
que hacer nuevamente el conteo. 1,84 1,40 1,56 1,74 1,63 1,55 1,45 1,67 1,61 1,58
1,79 1,68 1,57 1,70 1,32 1,51 1,33 1,42 1,73 1,26
Sugerencia: En este caso la amplitud de los intervalos
R 18  8 10 Los pasos a seguir para construir una distribución de
de clase es: c     1,6666 ; observe que la
k 6 6 frecuencias en el caso continuo son:
división no es exacta como en el ejemplo anterior. 1) Se calcula el rango R, el cual es definido como la
En estos casos se recomienda tomar la amplitud c con diferencia entre el mayor valor de la variable X (xmax )
un decimal más de los que tiene la data original, el y el menor valor de X (xmin ) ; es decir:
cual tiene un decimal; tomo la amplitud c con un R  xmax  xmin
decimal más; es decir elijo c=1,66 (amplitud En nuestro caso tenemos:
constante de cada intervalo). Con estos los seis xmax  1,88
intervalos de clase son: xmin  1,22
es decir, R=1,88-1,22=0,66
[8 9,66> [9,66 11,32> [11,32 12,98> 2) El investigador fija el número de intervalos de clase
con que se trabajará, se recomienda un número de
[12,98 14,64> [14,64 16,3> [16,3 17,96]
intervalos de clase comprendido entre 5 y 15 como
máximo. El número de intervalos de clase se
Observe que el último intervalo no incluye a la nota representa por k.
18, la medida conveniente es ampliar un poco más,
para considerar el último intervalo como [16,3 18]; Por ejemplo en nuestro caso fijemos ejemplo k=6
cuya amplitud es de 1,7; el cual es ligeramente mayor intervalos de clase
que los cinco primeros intervalos. Con esto los k=6
intervalos a trabajar son: 3) Se halla la longitud c de los intervalos de clase, para
esto hallamos el cociente:
[8 9,66> [9,66 11,32> [11,32 12,98> ww c  Rk

31 32
Como en nuestro caso como hemos establecido que el x , i 1  xi,1 xi,1  xi,
xi  ( )
número de intervalos de clase es k=6 y R=0,66, 2
entonces la amplitud de cada intervalo de clase es:
[1.22-1,33> 1,275
c  0,666  0,11
[1,33-1,44> 1,385
[1,44-1,55> 1,495
4) Luego se determina los límites de cada intervalo de [1,55-166> 1,605
clase, para esto se busca el menor valor de la [1,66-1,77> 1,715
variable X , es decir el (xmin ) , se le suma c=0,11 y se [1,77-1.88] 1,825
obtiene el límite superior del primer intervalo de
clase y así sucesivamente. 6) Se realiza el proceso de conteo, es decir se obtiene
el número de valores de la variable X que pertenece
Para nuestro caso xmin =1,22, el cual es el límite inferior a cada intervalo.
del primer intervalo de clase, se le suma 0,11
resultando 1,22+0,11=1,33, el cual es el límite superior En nuestro caso, se tiene:
del primer intervalo de clase, a continuación el límite
inferior del segundo intervalo de clase es 1,33, le Intervalos Marca de Frecuencia
sumamos otra vez 0,11 resultando el límite superior del de clase clase absoluta
segundo intervalo de clase, resumiendo: fi
1,22-1,33 1,275 ///=3
1,22-1,33 primer intervalo de clase 1,33-1,44 1,385 //////////=10
1,33-1,44 segundo intervalo de clase
1,44-1,55 1,495 /////////=9
1,44-1,55 tercer intervalo de clase
1,55-1,66 1,605 ///////////////=15
1,55-1,66 cuarto intervalo de clase
1,66-1,77 1,715 ////////=8
1,66-1,77 quinto intervalo de clase
1,77-1,88 sexto intervalo de clase. 1,77-1,88 1,825 /////=5

5) Determinamos la marca de clase de cada intervalo de A partir de este momento se trabaja igual que el caso
clase, el cual es el punto medio de cada intervalo, discreto, es decir se agregan las tres columnas
para esto sumamos el límite inferior y superior de correspondientes a las frecuencias relativas,
cada intervalo de clase y lo dividimos entre dos, frecuencias absolutas acumuladas y finalmente las
resultando el punto medio de cada intervalo de frecuencias relativas acumuladas.
clase.
Para el ejemplo dado tenemos: A continuación presentamos el cuadro de distribución
de frecuencias respectivo, es importante recordar que
las interpretaciones son vitales para cualquier estudio
Intervalos Marca de de tipo descriptivo.
de clase clase

33 34
tamaño de la muestra, en nuestro caso
K= 50 7,07, en cuyo caso se puede tomar k=7
Intervalos Marca de Frecuencia Frecuencia Frecuencia Frecuencia por ser el entero más próximo a 7,07
de clase clase absoluta relativa absoluta relativa
xi,1  xi, xi fi hi acumulada acumulada  Existe también una fórmula para determinar el
Fi Hi número de intervalos, denominada Fórmula de
[ 1.22-1,33> 1,275 3 3/50 = 0,06 3 0.06 Sturges; dada por:
[1,33-1,44> 1,385 10 10/50 = 0,2 13 0,26 K  1  3,22 log( n)
[1,44-1,55> 1,495 9 9/50 = 0,18 22 0,44
[1,55-1,66> 1,605 15 15/50 = 0,30 37 0,74 Donde log(10) es el logaritmo de n en base 10.
[1,66-1,77> 1,715 8 8/50 = 0,16 45 0,9 En nuestro caso se tiene
[1,77-1,88] 1,825 5 5/50 = 0,1 50 1 K=1+3,22 log(50)=1+3,22(1,6989)=6,47 6
n = 50 1
b) Las dos últimas propuestas para la elección del
número de intervalos K son alternativas viables a la
Interpretación.- que hemos usado para la construcción de la tabla de
frecuencias con las n=50 estaturas. En todo caso no
f 2  10 ; significa que existen 10 pacientes cuyas tallas
hay que olvidar que siempre que se haga intervalos
están comprendidas entre 1,33 y 1,44 mts. de clase implicará cierta pérdida de información;
pues todos los valores en un intervalo de clase
h3  0,18 ;
significa que el 18% de los pacientes tienen una pasan a ser representados por la marca de clase
talla comprendida entre 1,44 y .1,55 mts. respectiva.
c) Para construir intervalos de clase se recomienda
F4  37 ; significa que existen 37 pacientes cuyas tallas tener un tamaño de muestra grande, es decir n  30 ;
están comprendidas entre 1,22 y 1,66 mts. en caso contrario sería mejor trabajar los datos
H 5
;significa que el 90% de los pacientes tienen una continuos como si fueran datos discretos.
estatura comprendida entre 1,22 y 1,77 mts. d) Si bien es cierto que existe pérdida de información
en la construcción de los intervalos de clase;
Ejercicio 1.- Con los mismos datos del ejemplo también es cierto que se gana otras cosas; como por
anterior, pero con k=5, hacer el cuadro de distribución ejemplo cuando se dibuja el histograma esta revela
de frecuencias; interpretar algunos valores; hacer sus algunas cosas importantes como simetría o
respectivos gráficos. asimetría de la curva; en que intervalo está el mayor
número de observaciones (moda).
Observaciones:
a) El tomar como criterio la elección del número de
intervalos k entre 5 y 15 es solamente una
alternativa; otras formas que también se usan son
las siguientes:
 Elegir K de forma tal que K= n ; donde k es el
entero más próximo a la raíz cuadrada del

35 36
 Gráficos circulares

8) DISTRIBUCIÓN DE FRECUENCIAS CASO


CUALITATIVO.
En este caso no se hace distinción entre las variables
cualitativas ordinales y las cualitativas nominales; en
ambos casos se trabaja igual.
Se mostrará un ejemplo concreto para ver la
metodología.

Ejemplo 18. En una universidad existen alumnos de


 Gráficos de barras
diversas regiones: Costa (1); Sierra (2) y Selva (3).
Una muestra aleatoria proporcionó el siguiente
resultado:
2 1 1 2 1 1 3 1 2 3 2 1 1 1 1 3 32 1 2 2 1 1 1
Luego el tamaño de la muestra es n  24 ; se puede
construir un de distribución de frecuencias absolutas
y de frecuencias relativas de la siguiente manera:

Xi fi hi
C 1 13 13 / 24  0,5416
7 / 24  0,2916
 Diagrama de pastel
SI  2 7
Se  3 4 4 / 24  0,1666
n  24 0,9998 1

Se interpreta así:
f 2  7 : siete estudiantes son de la sierra.
100h2  29,16 : el 29,16% de los estudiantes son de la
sierra.

Existen varias formas de representar gráficamente


esta distribución de frecuencias; destacan los
gráficos: ww ww

37 38
 Gráficos de cilindros

w
 Gráficos combinados

Ejemplo 19. Hacer un diagrama circular y diagrama


de barras para la data de ejemplo anterior
 Pictogramas Solución.-
ww El cuadro de distribución de frecuencias es: ww
Xi fi hi
C 1 13 13 / 24  0,5416
SI  2 7 7 / 24  0,2916
Se  3 4 4 / 24  0,1666
n  24 0,9998 1

39 40
simplemente media o promedio, esta medida
X Frecuencia Porcentaje
usualmente se representa por X o M X  .
1,00 13 54,2
w
2,00 7 29,2
Válidos
3,00 4 16,7
La media muestral es sin lugar a duda la más usada y
Total 24 100,0 conocida de todas las medidas de tendencia central,
aparte están también otras medidas de tendencia
central por mencionar alguna de ellas e incluida la
w media muestral (o simplemente media o promedio
son:

a) Media muestral o media aritmética: X  M [X ]

b) Moda: M d

c) Mediana: M e

d) Cuartiles : Q1 ; Q2  Me ; Q3

e) Deciles: D1 ; D2 ;...;D9

ww f) Centiles : C1 ; C2 ;...;C99

g) Media geométrica: M g

h) Media armónica: M h
ww
9) MEDIDAS DE TENDENCIA CENTRAL O a) La X  M [ X ] es una medida resumen de la muestra más
POSICIÓN O TAMBIÉN LLAMADOS importante y la más usada para los datos muestrales
PROMEDIOS.(VARIABLES CUANTITATIVA) provenientes de variables cuantitativas y es dado por:

Si bien es cierto existen varias medidas de tendencia Suma datos muestrales


X
central, nos dedicaremos en primer lugar a la más n
importante de todas; conocida como media muestral o

41 42
Usualmente para su cálculo se presentan tres casos:

Caso 1.- (datos sin tabular) Si los datos están sin


tabular, es decir los datos están en bruto, sin ningún
tipo de ordenamiento o tratamiento y se presentan de
la siguiente manera: X1, X 2,..., X n donde n es el tamaño
Ejercicio 4.- (Alumno) Los siguientes datos
de la muestra, en este caso se tiene:
corresponden a las notas finales de un grupo de
n
alumnos (H) y de un grupo de alumnas (M) en el
 Xi curso de Historia I w
X  M X   i 1

n
(H) 12 13 11 16 10 11 18
Ejemplo 20. Los siguientes datos corresponden a las (M) 11 13 12 16 15 12 14 15 17
edades (años) de un grupo de alumnos tomados al
azar del registro de matrícula, los cuales resultaron a) Hallar la nota promedio de los estudiantes
ser: hombres.
b)Hallar la nota promedio de las estudiantes
22, 24, 25, 20, 23, 23, 24, 26 mujeres.
c) Junte ambos grupos y obtenga la nota promedio,
En este caso n  8 (tamaño de la muestra), luego: d) ¿Cómo podría obtener la nota promedio de c)
usando solamente los resultados en a) y en b)?
22  24  25  20  23  23  24  26
X
8
187 Caso 2.- (datos tabulados, como en el caso
X  23,375 años
8 cuantitativo discreto)
ww ww
Es decir la edad promedio de los ocho estudiantes es Supongamos que los datos originales proporcionada
de 23,375 años, observe que la media siempre va por la muestra X1, X 2 ,..., X n y que han recibido un
expresada en las unidades originales proporcionados tratamiento, por ejemplo ya se ha construido un
por los datos muestrales. cuadro de distribución de frecuencias, siendo
X1, X 2 ,..., X k los valores distintos de la variable, con
Un gráfico ilustrativo sobre la estatura en mts frecuencias absolutas f1, f2 ,..., fk respectivamente y se
promedio es: tiene el cuadro:

43 44
X i fi Observe que si bien es cierto son n  16 datos, no todos
X 1 f1 son distintos. En este caso k  5 valores distintos de la
X 2 f2 variable, de la fórmula dada se obtiene:
.. ..
3(1)  6(2)  5(3)  1(4)  1(5) 39
X k fk X   2,4375 hijos por
16 16
n
familia.
Donde, f1 es el número de veces que se repite X 1 , f 2 es
Ejercicio 5.- (Alumno)En base al siguiente cuadro
el número de veces que se repite X 2 y así
correspondiente al número de televisores por familia
sucesivamente, en este caso la media muestral se
en una muestra tomada en el distrito de San Miguel;
calcula por la fórmula:
se pide calcular el promedio de televisores por familia.
k
 fi X i Xi fi fi X i f i X i2
i 1 0 1
X
n 1 7
Ejemplo 21. La siguiente información corresponde 2 10
4 2
al número de hijos por familia en una muestra de 5 ¿
hogares tomados al azar del distrito de Lince:

2 1 3 2 5 4 3 2 3 1 3 2 3 2 1 2 a) Teniendo en cuenta que F5=20; hallar el


X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 promedio de televisores por familia.
ww 2
b)Calcular  f i X i ww
Tenemos n  16 datos muestrales, estos pueden ser
Caso 3.- (datos tabulados como en el caso cuantitativo
ordenados fácilmente en un cuadro de distribución de
continuo en intervalos de clase)
frecuencias de la siguiente manera:
En este caso la fórmula es igual al caso anterior, es
decir también
Xi fi fi X i
1 3 3
k
2
3
6
5
12
15
 fi X i
4 1 4 X  i 1
5 1 5 n
n  16 39

45 46
Ahora los X i son las marcas de clase de los intervalos 25
(puntos medios de los intervalos) y k es el número de 10
intervalos de clase. 8
Total
Ejemplo 22. El siguiente cuadro muestra la
distribución de sueldos mensuales en soles de un a) Calcular el peso promedio de los pacientes con
grupo de trabajadores de construcción civil en k=6 diabetes.
intervalos de clase; cada intervalo clase tiene b)Hallar la suma de los cuadrados de las
amplitud c=100 observaciones.
c) Calcular  f i X i2
Intervalos Xi fi fi X i
700-800 750 5 3750 10) PROPIEDADES DE LA MEDIA
800-900 850 10 8500 MUESTRAL O MEDIA ARITMÉTICA O
900-1000 950 20 19000 SIMPLEMENTE MEDIA O PROMEDIO
1000-1100 1050 30 31500
1100-1200 1150 25 28750 La media muestral tiene propiedades interesantes y
1200-1300 1250 10 12500 que nos permiten resolver algunos problemas de
n  100 104000 aplicación.

Luego: Propiedad 1 La media muestral (o también llamada


media aritmética) de una constante k es la misma
k constante k. Simbólicamente:
 fi X i104000
i 1
X   1040 soles mensuales. ww M[k ]  k ww
n 100
Ejercicio 6.- (Alumno) El siguiente cuadro muestra Esto quiere decir que si todos los datos muestrales son
los pesos en kilos de un grupo de personas con iguales a una constante k; entonces la media
problemas de diabetes ingresados en el Hospital aritmética de ellos también es la constante k.
María Auxiliadora del distrito de SJM: ww
Intervalos X i fi f i X i2 Ejemplo 23. En una reunión de amigos
contemporáneos se juntan 5 personas; todos ellos de
60,0-62,5 6
edad igual a k=28 años; es decir n=5 y los datos
62,5-65,0 11
muestrales son.
65,0-67,5 20
35

47 48
X1=28; X2=28; X3=28; X4=28; X5=28 k=5 centímetros equivales a 0,05 metros, es decir
k=0,05 mts.
28  28  28  28  28 5(28)
Por lo tanto X  M [k ]    28
5 5 X1+0;05=1,67+0,05=1,72;
X2+0,05=1,70+0,05=1,75;
Ejercicio 7.- (Alumno)En un salón del kínder hay 49 X3+0,05=1,75+0,05=1,80;
niños que asisten a clases, todos ellos tienen 4 años X4+0,05=1,68+0,05=1,73
cumplidos.
a) Hallar la edad promedio de los estudiantes de La nueva media aritmética es:
kínder.
b)Supongamos que se incorpora al salón un alumno 1,72  1,75  1,80  1,73 7
M [ X  0,05]    1,75  M [ X ]  0,05  1,70  0,05
de 5 años ¿Cuál es la nueva edad promedio? 4 4

Propiedad 2 La media aritmética de una variable X Ejercicio 8.- (Alumno)Se pesó a un grupo de sacos de
más o menos una constante k, es la media aritmética arroz, resultando un peso promedio de 52 kilos por
de la variable X más o menos la constante k. saco. Posteriormente se hizo un chequeo la balanza
Simbólicamente: electrónica y se verificó que estaba defectuosa, en el
sentido que pesaba 1,5 kilos por encima de lo que
M[ X  k ]  M[ X ]  k realmente es.
Hallar el peso promedio verdadero.
Ejemplo 24. Los siguientes datos se refieren a
estaturas en metros de un grupo de pacientes de la
tercera edad: Propiedad 3 La media aritmética de una constante c
por una variable X es la constante c multiplicada por
X1=1,67; X2=1,70; X3=1,75; X4=1,68 ww la media de X.
La media muestral o media aritmética de los n=4 Simbólicamente: ww
datos es dado por: M[cX ]  cM[ X ]

1,67  1,70  1,75  1,68 6,8 Ejemplo 25. Un profesor ha calificado a sus 6
X  M[X ]    1,7 mts.
4 4 alumnos y les ha puesto las notas de 12; 14; 16; 10; 15;
13.
Si a cada datos se les suma la constante k= 5 Con estos resultados la nota promedio es
centímetros y calculemos la nueva media aritmética.

49 50
12  14  16  10  15  13 80 Ejercicio 10.- (Alumno)Demuestre
M[X ]    13,3333 puntos
6 6 matemáticamente la Propiedad 4). Use propiedades
de sumatorias.
El profesor en vista del buen comportamiento,
asistencia, puntualidad ha decidido bonificar a cada Propiedad 5 Si X e Y son dos variables que expresan
alumno con un 20% adicional sobre la nota original. una característica común en cada unidad poblacional;
El nuevo promedio se obtiene cambiando la nota X entonces:
por X+(0,2)X=(1+0,2)X=1,2X; esto se hace a cada
nota: M [ X  Y ]  M [ X ]  M [Y ]

1,2(12)=14,4; 1,2(14)=16,8; 1,2(16)=19,2; 1,2(10)=12; 1,2(15)=18;


1,2(13)=15,6 ww Ejemplo 26. Se tomado una muestra de n=5 familias
14,4  16,8  19,2  12  18  15,6 96
de un distrito de la capital, se consideran las
M [1,2 X ]    16 siguientes variables:
6 6
 1,2M [ X ]  1,2(13,3333)  15,99996 16
X: ingreso mensual en soles del esposo.
Ejercicio 9.- (Alumno) Los trabajadores de construcción Y: ingreso mensual en soles de la esposa.
civil de la ciudad de Huancayo gana en promedio por día 68,5
soles. Después de una negociación con los dueños de la
empresa constructora se acordó otorgarle un aumento del Los datos se muestran en el siguiente cuadro:
15% por día sobre el jornal que percibían, además de una
bonificación de 5 soles diarios por movilidad.
a) Hallar el nuevo jornal promedio por día de los X 1350 1800 1200 1100 1500
trabajadores. Y 1400 1700 900 1000 1430
b) Si en lugar de considerar por día los jornales y bajo las
mismas condiciones ¿Cuál es el nuevo ingreso promedio
mensual de los trabajadores? Considere el mes de 30
La variable Z=X+Y es el ingreso mensual familiar de
días. las n=5 familias.
ww
Propiedad 4 Esta propiedad combina las propiedades 2 y X 1350 1800 1200 1100 1500
3. Simbólicamente: Y 1400 1700 900 1000 1450
Z=X+Y 2750 3500 2100 2100 2950
M[cX  k ]  cM[ X ]  k Se puede calcular el ingreso promedio mensual
familiar de las n=5 familias.

2750  3500  2100  2100  2950 13400


Z    2680 soles.
5 5

51 52
comienza y no tiene experiencia, sólo percibe el 65%
También se pueden calcular el ingreso promedio de del sueldo del padre.
los esposos por separado: Hallar en nuevo ingreso promedio familiar.

1350  1800  1200  1100  1500 6950


X    1390 soles.
5 5 Propiedad 6 (Media global) Si se tienen dos grupos 1
y 2; en los cuales se ha medido una característica
En forma similar el sueldo promedio de las esposas cuantitativa común X; supongamos que el primer
grupo es de tamaño n1 con media X1 ; el segundo grupo
1400  1700  900  1000  1450 6450
Y    1290 soles. es de tamaño n2 con media X 2 ; entonces la media
5 5
global o conjunta de ambos grupos es:
Se observa que n1 X 1  n2 X 2
X
n1  n2
M[Z ]  M[ X  Y ]  2680 M[ X ]  M[Y ]  13901290 soles.
Propiedad 7 La media muestral como todo promedio
Ejemplo 27. Las temperaturas registradas en una está entre el valor mínimo y el valor máximo de las
ciudad; a las 12 del día en grados Fahrenheit (F 0) son observaciones; es decir.
las siguientes 51; 60; 58; 62; 57; 49; 52; 62; 61; 63.
Hallar la media aritmética de las temperaturas en X min  X  X max
F 0  32
grados Centígrados (C0) si se cumple C0 
1,8 Propiedad 8 Las desviaciones respecto a la media se
Solución.- define como ( X i  X ); i  1;2;...,n ww
La temperatura en F0 es: Esta propiedad dice “La suma de las desviaciones
51  60  ....  63 575 respecto a la media es idénticamente cero”.
M [F 0 ]    57,5 n  10
10 10
Simbólicamente:
F 0  32 1 32 1 32
M [C 0 ]  M [ ]  M[ F 0]   M [F 0 ]  n
1,8 1,8 1,8 1,8 1,8 (Xi  X )  0
1 32 i 1
M [C 0 ]  [57,5]   14,1666C 0 ww
1,8 1,8
Ejercicio 11.- (Alumno) Con respecto un Ejemplo Ejemplo 28. Consideremos los siguientes datos:
24), supongamos que al ingreso familiar se incorpora 3 5 4 6 2
el hijo mayor por familia que también trabaja y
percibe un ingreso mensual; pero como recién Comprobar que la suma de las desviaciones con
respecto a la media es idénticamente nulo.

53 54
Con los datos obtenemos la media muestral 11) MEDIA PONDERADA
Es un caso especial de la media muestral y se usa en
35 4 6 2 condiciones especiales donde existen pesos o
X  4
5 ponderaciones i ; i  1 : 2;...;k . En este caso se calcula con
la fórmula:
Las desviaciones con respecto a la media son:
(3-4)=-1; (5-4)=1; (4-4)=0; (6-4)=2; (2-4)=-2 1 X 1   2 X 2  ...   k X k
X 
1   2  ...   k
n

 ( X i  X )  (1)  (1)  0  (2)  (2)  0


i 1

Ejemplo 30. Las notas de un estudiante en cuatro


Ejemplo 29. En dos salones de clase 1 y 2 se han
asignaturas(A; B; C; D), así como sus respectivos
tomado un examen común de matemáticas; en el
créditos se muestran en el siguiente cuadro:
primer salón tiene 16 alumnos y una nota promedio
de 12,5. En el segundo salón hay 20 alumnos y con
Curso Nota: X i Crédito:  i
una nota promedio de 13,8.
Hallar la notal global (juntando las dos aulas) A 11 3
Solución.- B 13 7
C 12 5
n1  16; X 1 12,5 puntos D 15 2
n2  20; X 2 13,8 puntos Total  X i  51   i  17
Entonces la media global es dado por
ww Luego la media global es dada por:
n1 X 1  n2 X 2 16(12,5)  20(13,8) 476
X    13,2222 puntos. 3(11)  7(13)  5(12)  2(15) 214
n1  n2 16  20 36 X    12,5882 puntos.
3 7 5 2 17

Ejercicio 12.-(Alumno) Con respecto al ejemplo


La media aritmética es:
anterior, supongamos un tercer salón de clases, del
ww
cual se conocen los siguientes datos: ww 11  13  12  15 51
n X    12,75 puntos.
X  15 puntos;  X i  525 4 4
i 1

Hallar la media global considerando los tres salones


Ejercicio 13.-(Alumno) Con respecto al Ejemplo
de clases.
anterior:

55 56
a) Si se agrega un quinto curso más (E) con Grupo C: 01 10 19; X C  10 puntos.
creditaje igual al promedio simple de los cuatro
primeros cursos y que la nota de ese quinto curso Observemos que los tres grupos tienen la misma
es 14. Hallar el nuevo promedio ponderado. media muestral y son iguales a 10; sin embargo la
b)¿Qué tendría que suceder con el creditaje para variabilidad no es la misma en los tres grupos, es
que la media ponderada coincida con la media necesario definir una medida que capte esta
aritmética? variabilidad, una medida de muy usada es la
desviación estándar o desviación típica muestral, la
cual es definida por:
12) MEDIDAS DE DISPERSIÓN (ABSOLUTA)
O MEDIDAS DE VARIABILIDAD. n
2
(Xi  X )
S i 1

Existen varias medidas de dispersión; las más n 1


utilizadas son:
a) Desviación estándar (d.e.) muestral o típica: S Vamos a calcular esta medida de variabilidad para los
tres grupos; resultando:
2
b)Varianza muestral: S 2 2 2
(9  10)  (10  10)  (11 10)
SA   1 puntos.
c) Desviación Media: DM 3 1
(7  10) 2  (10  10) 2  (13  10) 2
SB   9  3 puntos.
d) Rango Intercuartílico: RI 3 1
(1  10) 2  (10  10) 2  (19  10) 2
SC   81  9 puntos.
3 1
Ejemplo 31. Si bien es cierto la media muestral es
importante, esta no es suficiente, pues hace falta
Si analizamos los tres grupos de datos, se nota que en
definir una medida de variabilidad de los datos
el primer grupo los datos está más concentrados
alrededor de X , para esto imaginemos tres grupos de
alrededor de X A , en el segundo grupo los datos se
alumnos, donde cada grupo es de tres alumnos y que
abren un poco más alrededor de su media y
la variable de interés sea la nota en la escala vigesimal
finalmente el tercer grupo los datos están mucho más
en cada grupo y tenemos los siguientes resultados:
dispersos alrededor de la media muestral.

Grupo A: 09 10 11; X A  10 puntos.


Esto se ve reflejado en la desviación estándar
Grupo B: 07 10 13; X B  10 puntos. muestral, pues si los datos están muy dispersos la

57 58
desviación estándar es “grande”, si los datos están este caso la desviación estándar (d.e.) o desviación
muy pegados alrededor de su media la varianza es típica se calcula mediante la fórmula:
“pequeña”; por esa razón la desviación estándar es
una medida de variabilidad excelente alrededor de la n
( X i ) 2
media muestral en el siguiente sentido: n n

“Si la desviación es estándar (d.e.) es “grande”


(Xi  X )2  X i2  i 1
n
i 1 i 1
S 
significa más dipersión de los datos alrededor de la n 1 n 1
media, si la d,e, es pequeña significa más
concentración de los datos alrededor de la media”. Ejemplo 32. Con los siguientes datos , referente a las
a las edades de ocho alumnos; es decir:

13) DESVIACIÓN ESTÁNDAR O DESVIACIÓN 22, 24, 25, 20, 23, 23, 24, 26
TÍPICA s
en este caso n  8 y para el cálculo de la d.e. se
Es la medida de dispersión absoluta más usada y es necesitan dos cantidades, la suma de datos y la suma
dada por: de los cuadrados de los datos, en este caso se tiene:
n
2
(Xi  X ) 8 8
S
 X i  187 ,  X i2  (22)2  (24)2  ...  (26)2  4395
i 1

n 1
i 1 i 1

Luego reemplazando se obtiene:


Propiedad: (demostrable)

n (187) 2
n n
( X i ) 2 n 4395 
 (X i  X )2 X i
2
 i 1
n
X i
2
 n( X ) 2
S 8  1,8468 años
S i 1
 i 1
 i 1
8 1
n 1 n 1 n 1
ww ww
También como en la media aritmética se presentan Ejercicio 14.- (Alumno) Los siguientes datos son los
tres casos en el cálculo de la desviación estándar: pesos de un grupo de adolecentes : 54; 60; 48; 52;
45
Caso 1.- (datos sin tabular) a) Hallar la desviación estándar.
Si los datos están sin ningún tipo de tratamiento o b)Sume 2 kilos a cada peso y luego calcular la
datos sin tabular y se tiene la muestra X1, X 2,..., X n , en desviación estándar asociada. ¿ Es igual a la
obtenida en la parte a)?

59 60
Ejercicio 15.- (Alumno) Con los n=16 datos del
Caso 2.- (datos tabulados, como en el caso ejemplo anterior se aumenta 3 datos más
cuantitativo discreto) correspondientes a tres familias los que tienen 3; 4; 3
En este caso se tiene: hijos. Hallar la d.e. correspondiente.

k Caso 3.- (datos tabulados como en el caso cuantitativo


( f i X i ) 2
k continuo en intervalos de clase)
 f i X i2  i 1
n En este caso la fórmula es similar que en el caso
i 1
S
n 1 anterior, es decir:

donde k es el número de valores distintos de la v,a, X k


ww k
( f i X i ) 2
Ejemplo 33. Con los datos de un ejemplo anterior  f i X i2  i 1
n
i 1
correspondientes al número de hijos por familia: S
n 1
2 1 3 2 5 4 3 2 3 1 3 2 3 2 1 2
En este caso los X i son las marcas de clase y k es el
Se necesita una columna que tenga la suma de número de intervalos de clase.
cuadrados, es decir:

Ejemplo 34. Usando los datos de un Ejemplo


Xi fi fi X i fi X i2
1 3 3 3
anterior, referente a los sueldos mensuales en soles
2 6 12 24 de un grupo de trabajadores, es necesario agregar una
3 5 15 45 columna más que contenga la suma de cuadrados, es
4 1 4 16 decir:
5 1 5 25
n  16 39 113 ww
ww
Reemplazando, se tiene:
Intervalos Xi fi fi X i fi X i2
39 2 700-800 750 5 3750 2812500
113  800-900 850 10 8500 7225000
S 16  1,0935 hijos por familia
16  1 900-1000 950 20 19000 18050000
1000-1100 1050 30 31500 33075000

61 62
1100-1200 1150 25 28750 33062500 originales, mientras que S 2 está expresada en
1200-1300 1250 10 12500 15625000 unidades originales al cuadrado.
n  100 104000 109850000
Obviamente si se conoce la d.e. muestral S elevando al
Reemplazando se obtiene: cuadrado se obtiene la varianza muestral S y
2

2
viceversa si se conoce la varianza muestral S sacando
104000 2 la raíz cuadrada positiva se obtiene la d.e. muestral S ;
109850000 
S 100  130,6549 soles mensuales . es decir:
100  1
2
S  d .e.   S  Var [ X ]
Ejercicio 16.-(Alumno) Si a los datos del ejemplo
anterior se le agrega un intervalo más cuya marca de
Considerando lo anterior en la que se estudió la
clase es 1350 y Frecuencia Absoluta Acumulada F7
desviación estándar muestral S y su fórmula de
es 105. Hallar la d.e. correspondiente.
cálculo en Caso 1; Caso 2 y Caso 3 se repiten sin la
raíz cuadrada; es decir para el cálculo de la varianza
Ejercicio 17.- Probar que se tienen n datos numéricos muestral surgen tres casos:
y tos iguales a una constante k; entonces M [K ]  K ; S  0

2
Caso 1.- (Datos sin tabular)
14) VARIANZA MUESTRAL S  Var[ X ]
n
2
n
2
( X i )
Definición 5. ( varianza muestral) La varianza 2
 Xi  i 1

S  i 1 n
muestral representa por S 2 = Var[X ] y es el cuadrado n 1
de la desviación estándar; es decir:
Caso 2.- (Datos tabulados como en el caso
2 2
S  Var[ X ]  (d.e.) ; donde cuantitativo discreto)
d.e.  desviaciónestándar S ww ww
k
2
k
2
( f i X i )
Ambas; el S (varianza muestral) y el S (desviación
2
2
 fi X i  i 1

S  i 1 n
estándar muestral) son medidas de variabilidad de los n 1
datos alrededor de la media muestral, la diferencia
estriba en la S está expresada en la unidades Caso 3.- (Datos tabulados como en el caso
cuantitativo continuo)

63 64
Solución:
k
k

( f i X i )
2 a) Se necesitan dos resultados: Suma de datos y
Suma de cuadrados de datos; es decir:
2

2
 fi X i  i 1

S  i 1 n ; donde 5 5
2
n 1  X i  14,7 ;  X i  43,93; n  5
i 1 i 1

Por lo tanto:
X i : marca de clase del iésimo intervalo. 14,7
X  M[X ]   2,94 kilos;
k : número de intervalos de clase. 5
2
(14,7)
43,93 
2
S  5  0,712  0,178 (kilos)2
Ejemplo 35. Los siguientes datos corresponden al 5 1 4
peso de un grupo de recién nacidos en kilos escogidos Tomando raíz cuadrada
al azar en verano del presente año: 2,8 3,2 3,4 3,0
2
S   S  0,178  0,4219 (kilos)
2,3.
a) Calcular la media muestral, la varianza muestral 5

b) n  4;  X i  3,1  3,1  3,1  3,1  3,1  5(3,1)  15,5


y luego obtenga la d.e. muestral para esta i 1
4
muestra de tamaño n=5. 2
 X i  5(3,1)  48,05 ; luego
2

i 1

15.5
b)En invierno del mismo año se registró otro grupo X  M[X ]   3,1 (kilos)
5
de recién nacidos, resultando: 3,1 3,1 3,1 3,1 (15,5)
2

3,1 48,05 
2
2
S  5  0 0
Calcular S y S 5 1 4
Entonces la d.e. es S  0
c) Si los datos: 2,8 3,2 3,4 3,0 2,3 les sumamos ww
100 gramos ¿Cambia la varianza obtenida en a)? Este resultado de varianza cero se debe la
siguiente propiedad de la varianza muestral que
d) Si a cada uno de los datos: 2,8 3,2 3,4 3,0 2,3 dice lo siguiente:
los reducimos en un 5% ¿Cambia la varianza “Si a todos los datos son iguales a una constante
obtenida en a)? k; entonces la varianza muestral es igual a cero”

e) La varianza muestral
2
S  Var[ X ] ¿Puede ser Simbólicamente:
negativa?
Var[k ]  0

65 66
Observe el siguiente detalle: d) Si a cada dato los reducimos un 5% entonces a
cada dato hay que multiplicarlo por la constante
Si todos los datos son iguales la media muestral k=0,95; es decir:
coincide con el dato común; en este caso no hay
variabilidad alrededor de la media; eso se ve 0,95(2,8)=2,66 0,95(3,2)=3,04 0,95(3,4)=3,23
reflejado con una d.e. igual a cero o 0,95(3,0)=2,85 0,95(2,3)=2,185
equivalentemente una varianza muestral igual a
cero.  X i  13,965
2 (Verificar)
 X i  39,646825
c) Si a cada uno de los datos: 2,8 3,2 3,4 3,0 2,3
se les suma 100 gramos que es equivalente a 0,1 (13,965)
2

39,646825
kilos. La nueva data es ahora: 2,9 3,3 3,5 3,1 2
5 2
S  Var[ X ]   0,160645 (0,95) Var[ X ]
2,4 4
Entonces:
2
 (0,95) (0,178)  0,160645
5 5
2
 X i  15,2  X i  46,92
i 1 i 1
Lo anterior es una propiedad de la varianza
2 muestral, que dice lo siguiente:
(15,2)
46,92 
2
S  5  0,712  0,178
“La varianza de una constante c multiplicada por
5 1 4
la variable X es el la constante al cuadrado
Este resultado coincide con el obtenido en la multiplicada por la varianza de la variable X”
parte a); esto no es una coincidencia, en realidad Simbólicamente
es una propiedad de la varianza muestral que ww
2

dice lo siguiente: Var[kX ]  c Var[ X ]


|
“La varianza de la variable X más o menos una e) La varianza nunca puede ser negativa, pues suma
2
constante k es igual a la varianza de X” de cuadrados; es decir S  0

Simbólicamente: 15) PROPIEDADES DE LA VARIANZA


2
MUESTRAL S
Var[ X  k ]  Var[ X ]
Propiedad 1 .- Var( X )  S 2  0

67 68
Propiedad 2 .- Var[k ]  0
Se les aumenta un 3%. Obtener la varianza
Propiedad 3 .- Var[ X  k ]  Var[ X ] muestral. ¿Cambian los resultados con respecto
a la parte f)?
2
Propiedad 4 .- Var[cX ]  c Var[ X ]
j) La desviación estándar ¿Puede ser negativa?
2
Propiedad 5 .- Var[cX  k ]  c Var[ X ]
16) MEDIDAS DE DISPERSIÓN RELATIVA:
Ejercicio 18.- (Alumno) El COEFICIENTE DE VARIACIÓN (C.V.)
Los siguientes datos corresponden a la estatura en Cuando dos o más grupos tienen la misma media
metros de un grupo de estudiantes varones: muestral la desviación estándar sirve directamente
ww para decidir el grupo que tiene menos dispersión
alrededor de la media.
1,67 1,70 1,68 1,71 1,69 1,71 1,72 1,75 Sin embargo tener dos o más grupos con la misma
media muestral por lo general no es posible; para
f) Calcular la media muestral, la varianza muestral poder comparar la variabilidad en estos casos se
y luego obtenga la d.e. muestral. define el Coeficiente de Variación (CV) y es una
medida de dispersión relativa pues es adimensional y
g) Un grupo de estudiantes mujeres registro que 8 es dada por:
de ellas registraron un estatura común de 1,68 ww
metros, S
CV 
Calcular la media muestral considerando a X
varones y mujeres.
En la definición anterior se supone que la media
h) Si a los datos: 1,67 1,70 1,68 1,71 1,69 1,71 muestral es positiva; es decir X  0 ; si la media
1,72 1,75 se les resta 2 centímetros, calcular la muestral fuese negativa se le puede tomar el valor
varianza muestral y la desviación estándar absoluto y con esto el Coeficiente de Variación queda
muestral. ¿Cambian los resultados con los definida así:
obtenidos en la parte f)
S
CV 
i) Si a cada uno de los datos: X

1,67 1,70 1,68 1,71 1,69 1,71 1,72 1,75

69 70
Ejemplo 36. Las notas promedios finales de tres
salones (A; B y C) son X A  11,5 ; X B  13,0 ; X C  10,0 Xi fi
puntos con desviaciones estándar de S A  0,6 ; S B  0,55 ; 0 1
S C  0,53 1 4
¿Qué salón tiene notas menos variable alrededor de la 2 5
media? ¿Qué salón tiene notas más variables 3 4
alrededor la media? 4 2
Distrito B
Los datos presentados y los CV asociados se resumen
en el siguiente cuadro: Xi fi
1 0
2 1
X A  11,5 S A  0,6 0,6 100CVA  5,21% 3 3
CVA   0,0521
11,5 4 7
X B  13,0 S B  0,55 0,55 100CVB  4,23%
CVB   0,0423 5 4
13,0
6 1
X C  10,0 S C  0,53 0,53 100CVC  5,3%
CVC   0,053 ¿Cuál de los dos grupos tiene mayor variabilidad
10,0
respecto a la media?
El salón con notas menos alrededor de la media (más Solución.-
concentrados alrededor de la media) es aquel que Para cada grupo hay que calcular la suma de datos y
tiene menos CV en este caso es el salón B; pues su CV la suma de sus cuadrados
en % tiene un valor de 100CVB  4,23% Distrito A.-
2
 f i X i  34 ;  f i X i  92 ; n  16
El salón con notas más variables alrededor de la
34
media (más dispersos alrededor de la media) es aquel X   2,125 dormitorios;
16
que tiene alto CV, en este caso es el salón C; pues tien 2

un valor de 100CVC  5,3% 92 


(34)
S 16  19,75  1,1474 dormitorios ww
15 15
Ejemplo 37. Se tomaron al azar dos distritos de la
capital (A y B) y la variable de interés es el número de 1,1474
CV   0,8194; 100CV  81,94%
dormitorios por familia; se tienen los dos siguientes 2,125
cuadros: Distrito B.-
Distrito A

71 72
2
 f i X i  65 ;  f i X i  279; n  16 2) Si CV>0,05 (100CV>5%) se considera una
varianza “grande”.
65 ww
X   4,0625 dormitorios,
16 Ejemplo 38. Con respecto al Ejemplo anterior donde
la variable de interés es número de dormitorios por
(65)
2
familia, decidir para cada caso si se trata de varianza
279
S 16  14,9375  0,9979 pequeña o grande.
15 15
Se tiene los siguientes cálculos ya hechos:
0,9979 Para el distrito A se tiene CV=0,8194>0,05
CV   0,2456; 100CV  24,26%
4,0625 (Varianza grande)

El grupo más variable alrededor de la media es aquel Para el distrito B se tiene CV=0,2426>0,05
que tiene mayor CV; en este caso es el número de (Varianza grande)
dormitorios del distrito A.
Ejercicio 19.- (Alumno) Decir si es V o F la siguiente
17) APLICACIONES DEL COEFICIENTE DE afirmación: “Si a un conjunto de datos numéricos se
VARIACIÓN les suma una constante k; entonces el CV no cambia.”
El Coeficiente de Variación CV tiene dos importantes ww
aplicaciones:

a) Si se tienen dos o más grupos, el CV permite


decidir el grupo que tiene menos variabilidad
relativa alrededor de la media; para esto se busca
el CV más pequeño o el 100CV más pequeño

b) Permite tener un criterio para decidir cuando


una varianza puede ser llamada “grande” o pueda
ser denominada “pequeña”; en el siguiente
sentido:

1) Si CV<0,05 (100CV<5%) se considera una


varianza “pequeña”.

73 74
2) Consideremos la población de alpacas de
una región de la sierra peruana, dicha población
quiere ser estudiada de acuerdo a su composición
por sexo (macho=m, hembra=h)

a) Defina un parámetro de interés.


b)Se cazan 150 animales de esta especie, de ellas
resultan 78 machos, estime la proporción
Ejercicios poblacional de machos de las alpacas de esa zona.
Parte 1
3) Los datos siguientes son referentes a la
1) Clasificar las siguientes variables: duración de un grupo de focos (marca A) de luz
medido en horas: 1200, 1050, 1100, 1000,
1.1 Número de errores por página de un libro. 1111, 1150, 1000
1.2 Nivel de humedad en una ciudad.
1.3 Número de latidos del corazón por minuto. a) Hallar la media muestral X ,
1.4 Color del cabello. b)Hallar la desviación estándar muestral S y la
1.5 Duración de los focos de luz. varianza muestral S 2 .
1.6 Marca de autos. c) Calcular el coeficiente de variación.¿Varianza
1.7 Número de cabellos por persona. pequeña o grande?
1.8 Color de tinta de lapiceros.
1.9 Número de teléfono de los usuarios. 4) Los siguientes datos son referentes al
1.10 Nivel de glucosa en la sangre en pacientes. número de visitas al seguro social en un año
1.11 Altitud de las ciudades de la Sierra del Perú. determinado de una muestra de jubilados:
1.12 Estado civil de las personas adultas.
1.13 Temperatura medioambiente. 2, 4, 3, 4, 5, 4, 3, 3, 4, 5, 2, 4, 2, 4, 3, 3, 4, 3, 3, 5
1.14 Diámetro interior de tuercas de precisión.
1.15 Tipo de diabetes en personas adultas. a) Construir un cuadro de distribución de
1.16 Número de mascotas por familia. frecuencias.
1.17 Número de ríos que llegan a la costa en los Obtener X , S 2 , S
diferentes países del mundo. b)Si a cada dato se le suma 1. ¿Cambia la media
1.18 La clase social de los peruanos. muestral?. ¿cambia la desviación estándar
muestral?. Justifique.

75 76
1145
a) X   21,3037 años
5) El siguiente cuadro muestra la distribución 53
2
de las edades de un grupo de alumnos 25109
(1145)
universitarios:
2
b) S  53  382,6792  7,3592 (años)2
52 52
S  7,3592  2.7127 años
Intervalos Xi fi CV  2,7127 / 21,3037  0,1273
16-18 17 5 100CV  12,73%
18-20 19 10 Varianza grande
20-22 21 15
22-24 23 13 6) Decir si es Posible (P) o No Posible (NP),
24-26 25 7 las siguientes afirmaciones, justifique sus
26-28 27 3 respuestas:

a) Calcular X , S , S 2 . ¿Varianza pequeña o grande? a) La media muestral nunca puede ser negativa.
b) Obtener hi , Fi , H i , e interpretar algunos valores b) La desviación estandar de un conjunto de datos
Solución: puede ser cero.
Primero creamos el siguiente cuadro c) La proporción muestral siempre es menor que la
Intervalos X i fi hi Fi H i fi X i f X 2 proporción poblacional.
i i
d) La proporción poblacional puede ser mayor que
[16-18> 17 5 0,094 5 0,094 85 1445 uno.
3 3 e) Siempre que se quita un dato de un conjunto de
[18-20> 19 10 0,188 15 0,282 190 3610 n datos entonces la media muestral cambia
6 9 necesariamente.
[20- 21 15 0,283 3 0,565 315 6615
22> 0 0 9
7) En un salón de clases A se tienen 25 alumnos y
[22-24> 2 13 0,245 4 0,8111 299 6877
3 2 3 una nota promedio de 12,5 puntos; otro salón B
[24-26> 2 7 0,132 5 0,943 175 4375 tiene el doble de alumnos con respecto al del
5 0 0 1 salón A; la nota promedio es de 13 puntos, Hallar
[26-28> 27 3 0,056 5 0,999 81 2187 la nota promedio de juntando ambos grupos.
6 3 7
Totales n=5 114 2510 8) Anteriormente se dieron cuatro propiedades
3 5 9 2
de la varianza muestral S ; reformularlas para el
caso de desviación estándar muestral.

77 78
transformados calcular su media aritmética y su
varianza.
9) Un estudiante obtiene las notas en exámenes
parciales de 7; 5 y 3. 14) En estas notas de clase se ha definido la
En el examen final consigue un 6; supongamos
k
2
(Xi  X )
varianza muestral S 
2
i ; (dividida entre n-
que esta nota final tiene doble valor que los n 1

parciales. ¿Cuál es su nota promedio? 1) también se conoce varianza muestral


insesgada o cuasivarianza.
10) Si el ingreso anual promedio de los En algunos libros presentan una varianza
trabajadores del campo es de 12000 soles y el ligeramente diferente y se conoce como varianza
ingreso anual promedio de los trabajadores de la muestral sesgada (dividida entre n); y se define
ciudad es de 15000 soles ¿El ingreso promedio así:
k

para ambos grupos será de 13500 soles?


2

*2 (Xi  X )
S  i
Justifique. n
La diferencia entre ambas es el denominador; si
11) Decir si es V o F la siguiente afirmación “Si n>30 (muestras grandes); la diferencia entre
la d.e. de un conjunto de datos es cero, entonces ambas es mínima.
todos los datos son iguales” Encontrar una relación matemática entre ambas
2 *2
varianzas S y S .
12) La media aritmética de seis números es 10.
Se sabe que cinco de ellos son 8 12 13 5 9. 15) Se presenta siguiente cuadro en la que se
Hallar el elemento que falta. considera el número de hijos por familia
provenientes de una encuesta hecha a 50 familas
13) Se dice que un conjuntos de datos están Xi fi
tipificados, si a cada uno ellos se le resta la media 0 2
aritmética y se lo divide entre la desviación
1 12
estándar; es decir si la data original es:
2 21
Si se tiene la data original X 1 ; X 2 ;...; X n a cada uno 3 8
de ellos se les hace la transformación 4 5
(Xi  X ) 5 2
Zi  ; i  1;2;...;n
S
n=50
Con la siguiente data: 4 3 4 1. Se pide tipificar
los cuatro datos y luego con los cuatro datos

79 80
a) Hacer una representación gráfica de dos c) Estimar el número de personas con ingresos
formas distintas: Gráfico de barras; Gráfico de semanales entre 253 y 359 soles.
sectores circulares.
b) Hallar la media muestral; la desviación 18) (RM 159) El ingreso percápite mensual de
estándar muestral y la varianza muestral un departamento es de $310 (x1000). El sector
c) Obtener el C.V. e interpretar. obrero que constituye el 59% de esa población
percibe 1/5 del ingreso total. Hallar el ingreso
16) En una distribución simétrica con 7 medio por habitante de ese departamento.
intervalos de clase tal que
h1  0,05; h3  0,20; H5  0,95; n  100. Observación.- El ingreso per cápita se define
a) Reconstruya el cuadro de distribución de como
frecuencias; con la información adicional de que
la marca de clase del primer intervalo de clase es
5 y la marca de clase del tercer intervalo de clase Renta o ingreso per cápita
es 15. La renta per cápita, PIB/PBI per cápita o ingreso
per cápita es un indicador macroeconómico de
b) Calcular X ; S ; S 2 ; C.V .
productividad y desarrollo económico, usado para
entregar una visión respecto al rendimiento de las
17) Los ingresos semanales de 40 personas se condiciones económicas y sociales de un país, esto en
muestran en el siguiente cuadro: consideración del crecimiento real y la fuerza
xi*1  xi* fi Fi
laboral
200  x 2
*
1 x
x1*  300 x x
12 22 El PIB per cápita, ingreso per cápita o renta per
x 29 cápita es un indicador económico que mide la
x 34 relación existente entre el nivel de renta de un país y
4 x su población. Para ello, se divide el Producto Interior
x x Bruto (PIB) de dicho territorio entre el número de
a) Complete el cuadro de
distribución de habitantes.
frecuencias.
El empleo de la renta per cápita como indicador de
b) Calcular la media muestral; la desviación
riqueza o estabilidad económica de un territorio tiene
estándar muestral y el C.V.
sentido. Esto, porque a través de su cálculo se
interrelacionan la renta nacional (mediante el

81 82
PIB en un periodo concreto) y los habitantes de ese EL PIB per cápita se mide anualmente. Se supone
lugar. que su incremento delata el crecimiento de una
economía durante un determinado período.
El objetivo del PIB per cápita es obtener un dato que
muestre el nivel de riqueza o bienestar de un En teoría, este dato describe el promedio de ingresos
territorio en un momento determinado. Con en función del número de habitantes, lo que
frecuencia se emplea como medida de comparación permitiría diagnosticar el nivel económico de la
entre diferentes países, para mostrar las diferencias sociedad.
en cuanto a condiciones económicas.
Sin embargo, al ser apenas un promedio, este
Significado de PIB per capita indicador no permite comprender con claridad cómo
esta riqueza es repartida entre los diferentes
Qué es PIB per capita: individuos de un país, de manera que las
desigualdades económicas no se visibilizan.
El PIB per cápita es un indicador económico que
mide la relación entre el nivel de ingresos de un país y Por ejemplo, en un país con un PIB per cápita de 10
cada uno de sus pobladores. También suele ser mil dólares, ocurre a menudo que unos ganan
conocido con el nombre de ingresos per cápita o renta muchísimo menos y otros ganan muchísimo más. Así,
per cápita. el PIB per cápita no es un indicador fiable para
medir la distribución de la riqueza sino apenas la
La expresión está formada por las siglas PIB que totalidad de los ingresos y su potencial de inversión.
significan 'producto interno bruto', y las palabras
latinas per cápita , que quieren decir 'por cabeza'. Así, En efecto, el PIB per cápita no ofrece información
se resume como el producto interno bruto por cabeza contundente sobre los datos relacionados con
de un país. educación y salud, fundamentales en la evaluación de
la distribución de la riqueza.
Para medir el PIB per cápita se utiliza una fórmula
que consta de los siguiente elementos: PIB per cápita
= PIB / nro de habitantes
Qué es el Producto Bruto Interno (PBI)?
Por ejemplo, en una nación que percibe en un año un
¿Qué es el PBI? El Producto Bruto Interno (PBI)
producto interno bruto de 300 mil millones de
es el valor de los bienes y servicios finales producidos
dólares y que tiene 30 millones de habitantes, el PIB
durante un período de tiempo en un territorio. Sólo se
per cápita será de 10 mil dólares por habitante.
refiere a bienes y servicios finales porque sus precios
Función del PIB per cápita incorporan el valor de los bienes intermedios. Por

83 84
tanto, incluir los bienes intermedios conllevaría a una PBI per cápita 6.977,70 USD (2019)
doble contabilización. Tasa de crecimiento del 2,2% cambio anual
PIB (2019)
Existen 3 métodos para calcular el PBI: método de
gasto, el método de la producción y el método del
ingreso. Las dos primeras son las formas más usuales.
En el primer método, se contabiliza la compra
agregada de los bienes y servicios de la economía, es
decir, se suma el gasto de: los consumidores de bienes
y servicios locales (consumo privado), el gobierno
(consumo e inversión pública), las empresas
(inversión privada), los extranjeros que compran
nuestros productos (exportaciones), y, finalmente, se
excluye del cálculo el gasto en bienes no producidos
en el país (importaciones).

Por su parte, en el método de la producción, se suma


el valor de mercado del producto en cada etapa de la
producción de cada sector productivo y restándole el
valor de los insumos utilizados. Los sectores de
producción se clasifican en: manufactura, minería,
agricultura, pesca, comercio, etc.

Por último, el método del ingreso consiste en


cuantificar los ingresos recibidos por todos los
agentes de la economía en razón de su participación
en la producción. Se considera como ingresos a: las
remuneraciones, el consumo de capital fijo, los
impuestos a la producción e importación y el
excedente de explotación.

Solución.-
Estadísticas relacionadas
Sea
Población 32,51 millones (2019)

85 86
X: ingreso total de la región. se sabe que los grupos A y B eran el 40% y el
25% del total respectivamente; y que en
N: tamaño de la población de esa región. grupo C habían 15 alumnos más que en grupo
X: ingreso medio por habitante de esa región. D. Hallar la nota promedio del grupo D.
Solución.-
Ingreso per cápita o ingreso medio por X A  75; X B  62; X B  80; X  72
ingresototal de la región X
habitante    310 $ n A  40; n B  25; nD  nC  15
N N
Luego:
Luego X  310N . 40  25  nc  nc  15  100; nC  25; nD  15
40(75)  25(62)  25(80)  10( X D )
X  72 
Para el sector obrero; el ingreso medio por 100
habitante<: Despejando
X D  65 puntos.
1 1
X (310N )
62
X obreros  5 5   105,0847 $
0,59N 0,59N 0,59 21) (RM169) El ingreso medio mensual de 16500
obreros es de 1160 soles y de los 12900
19) La empresa A tiene 100 empleados; con un empleados de esta compañía es de 1480 soles.
sueldo mensual de 2500 soles. La empresa B Si los obreros reciben un aumento del 20%
tiene 200 empleados con un sueldo mensual de sobre sus ingresos más una bonificación de 500
2400 soles. soles por condiciones de trabajo.
a) Hallar el sueldo promedio mensual de los Los empleados reciben un aumento del 30%
empleados al juntar las dos empresas. más 600 soles por condiciones de trabajo.
b) Si a las dos empresas se agrega una tercera con Hallar el nuevo ingreso promedio de todos los
50 empleados con un ingreso promedio trabajadores de esa gran compañía.
mensual de 3000 soles. Hallar el sueldo
promedio mensual de los empleados de las tres 22) (RM173) Se compraron 40 kilos de carne a 20
empresas. soles por kilo; 20 kilos de carne a 25 soles por
kilo y 20 kilos de carne al 30 soles por kilo de
20) En un examen común que rindieron cuatro carne. Hallar el peso promedio por kilo de carne.
secciones A; B; C; D con un total de 100 alumnos; Solución.-
habiendo un promedio mensual de 72 puntos. El siguiente cuadro muestra la información del
Los puntajes promedios de los grupos A; B; C son problema:
de 75; 62; y 80 puntos respectivamente. La Xi ni
información sobre el grupo D se perdieron; pero 20 40

87 88
25 20 c) ¿Qué porcentaje de trabajadores gana entre
30 20
$139.000 y $168.000?
80
d) ¿Cuántos trabajadores ganan a lo menos
Donde: $159.000?

e) ¿Cuántos trabajadores ganan a lo más


Xi :
precio por kl. de carne. ni :cantidad de kl. de
carne. $148.000?
20(40)  25(20)  30(20) 1900
X   23,75 soles.
80 80

24) En una industria es necesario realizar un estudio


respecto al peso de engranajes de gran tamaño.
Los siguientes datos corresponden al peso, en
----------0----------
kilógramos, de 30 de estas piezas, que poseen las
23) Los siguientes datos corresponden al sueldo (en
mismas dimensiones, pero distinta aleación.
miles de pesos) de 40 trabajadores de una
empresa:
58 52 50 42 40 50 38 52 50 45
36 45 55 42 42 52 50 45 42 38
119 135 138 144 146 150 156 164 42 38 40 46 45 45 55 42 45 40

125 135 140 144 147 150 157 165 a)Construir una tabla de frecuencias de
126 135 140 145 147 152 158 168 amplitud 5 comenzando desde 36.

128 136 142 145 148 153 161 173 b) ¿Cuántos engranajes pesan entre 46 y 55

132 138 142 146 149 154 163 176 Kg.?

a) Construya la tabla de frecuencia con todos c) ¿Qué porcentaje representa a aquellos

sus elementos. engranajes cuyo peso es inferior a 51 Kg.?

b) ¿En qué clase se encuentra el mayor d) ¿Cuál es la frecuencia relativa para aquel

número de trabajadores? intervalo cuya marca de clase es 48?

89 90
e) ¿Qué porcentaje representa a aquellas d) ¿Qué porcentaje representan los discos
piezas que pesan más de 50 Kg.? que duraron entre 310 y 314 horas?
e) ¿Qué porcentaje representa los discos
25) En una industria automotriz es necesario que duraron menos de 305 horas?
realizar un estudio debido a una partida
f) ¿Cuántos discos duraron más de 309 horas?
defectuosa de discos de embrague. Para ello se ha
recopilado la siguiente información referente a la g) ¿Cuántos discos duraron menos de 305
duración en horas de 50 de ellos.
horas?

285 30 28 30 313 314 28 29 321 327


h) ¿Qué porcentaje representan los discos que
0 6 2 9 2 duraron entre 285 y 294 horas?
29 278 28 289 30 32 30 287 29 32
i) ¿Cuál es el intervalo de mayor frecuencia
3 2 8 6 3 3 2
absoluta?
30 32 285 307 297 30 29 201 28 313
4 9 2 4 5
30 307 30 291 28 297 316 32 317 30
26) En un conjunto habitacional se pretende hacer
8 4 8 2 8 un estudio del número de personas que
321 324 32 316 29 28 29 29 32 29 consumen productos enlatados. Los datos que
3 2 6 9 4 8 6 han sido obtenidos de 50 bloques del conjunto
habitacional son:

a) Construir una tabla de frecuencia de


63 69 83 85 93 73 81 94 10 12
amplitud cinco comenzado desde 285.
4 5
b) ¿Cuántos discos duraron entre 290 y
64 13 115 12 12 13 10 114 12 12
299 horas?
2 0 7 0 5 3 1
c) ¿Cuántos discos no alcanzaron a durar
12 90 75 13 13 73 62 10 10 117
300 horas?
8 7 1 0 9

91 92
12 10 13 13 13 11 60 91 87 13 a)Construya una distribución de frecuencias
4 3 3 8 3 0 6 que comience en 0,1 y tenga una amplitud de

13 13 12 96 99 72 10 97 84 98 2,0.
7 4 9 4 b) ¿Cuál es la frecuencia absoluta del tercer
intervalo?

a)Construir una tabla de frecuencia de c) ¿Qué porcentaje de las compañías tienen a lo

amplitud 10 partiendo desde 60. más una ganancia de 6,0?

b) ¿Cuántas personan consumen entre 100 y d) ¿Cuántas compañías tienen una ganancia

129 productos enlatados? de a lo menos de 4,1?

c) ¿Qué porcentaje representa a las personas e) Interprete la frecuencia acumulada del

que consumen menos de 90 productos segundo intervalo.

enlatados? f) Interprete la frecuencia relativa acumulada

d) ¿Qué cantidad de personas consumen más del cuarto intervalo.

de 80 productos enlatados?

28) Dada la información referente a la ubicación de


27) Las ganancias por acción de 40 compañías de la personas dentro de cuatro departamentos de una
industria de la construcción son: empresa, se pide:

4,6 0,3 1,1 5,7 0,1 1,3 2,5 1,6 a) Tabular la información.
1,3 2,1 2,1 1,4 7,3 5,4 3,5 1,9
b) Realizar gráfico circular.
6,0 0,8 1,9 2,1 3,2 0,2 7,1 2,8
9,6 3,7 5,1 3,6 4,9 2,3 1,8 0,4
c) Indique frecuencias relativas porcentuales en
4,2 2,1 0,9 3,2 3,7 1,1 0,5 1,9 cada grupo.
M A P CC A CC M P P M

93 94
P CC M A M CC P P M P d) ¿Cuántas compras se realizaron entre 16 y 25
A P A M M A M A P M m3?

M A CC A A M P M M P e) ¿Qué porcentaje de compras se realizaron entre


16 y 20 m3?
f) ¿Cuántas compras se realizaron en total?
donde: A = abastecimiento; CC = control de
calidad; M = mantención; P = producción.
30) Los siguientes datos corresponden a la duración,
29) Se realizó un número determinado de compras en horas, de 50 válvulas que fueron sometidas a
de materia prima. El volumen de la materia un cierto control:
prima viene dado en m3. Parte de la información
se registra en la siguiente tabla: Tiempo Límites reales
xi fi hi Fi Hi
450 – 499 5
Volumen Límites reales
xi fi hi Fi Hi
500 – 549 4
6 – 10 1 550 – 599 12
11 – 15 600 – 649 10
16 – 20 6 9 650 – 699 15
21 – 25 18 700 – 749 3
26 – 30 27 750 - 799 1
Total 27 Total 50

a) Complete la tabla dada. a) Complete la tabla dada.


b) En un solo gráfico, dibuje un histograma y un b) Grafique la ojiva.
polígono de frecuencia. c) ¿Qué porcentaje de las válvulas duraron, en
c) ¿Cuántas compras se realizaron entre 11 y 30 promedio 674,5 horas?
m? 3

95 96
d) ¿Qué porcentaje de las válvulas duraron entre c) Realice, en un mismo gráfico, los polígonos de
650 y 749 horas? frecuencia.
e) ¿Cuántas válvulas duraron menos de 550 d) Realice, en un mismo gráfico, las ojivas.
horas?
f) ¿Qué porcentaje de las válvulas duraron más de 32) Dado el siguiente Polígono de Frecuencias:
649 horas?
OJO: FALTA GRÁFICO
PÁGINA 27
31) Se realizaron dos experimentos referentes al
peso, en Kg., aplicado sobre una cierta cantidad
de tableros.

Peso A B
(Kg.)
15 – 19 7 3
20 – 24 3 6
25 – 29 2 8
30 – 34 11 8 a) ¿Cuáles son los límites reales del cuarto

35 – 39 10 12 intervalo?

40 – 44 7 3 b) Interprete la frecuencia del cuarto intervalo.

Total 40 40 c) Interprete el porcentaje de datos que hay en el


quinto intervalo.

a) Grafique el histograma del experimenta A. d) ¿Qué porcentaje de pesos es igual o menor que

b) Grafique la ojiva porcentual del experimento B. 60,5 Kg.?

97 98
e) ¿Cuántos pesos son iguales o mayores que 50,5
Kg.?

99
CAPÍTULO 2 Por definición la Moda es el valor de la variable que se
repite o se presenta más veces.
26/10/21
FACULTAD DE INGNERIA ELECTRÓNICA
Ejemplo 1. Los siguientes datos corresponden a las
Mg. Wilfredo Domínguez C.
edades en años de un grupo de amigos en la universidad:
21 23 24 21 25 22 21 20 22 21
1) MEDIDAS ADICIONALES DE TENDENCIA CENTRAL Claramente la edad que se presenta más veces es 21
En las notas de clase Parte 1; se estudió una medida de años (4 veces); luego M d  21 años (Unimodal: una sola
tendencia central llamada media muestral o media moda)
aritmética o promedio o simplemente media; sin lugar a
dudas este promedio es el más importante de todos, pero Ejemplo 2. Se ha tomado una muestra de un grupo de
no es el único que y hay otras que también tienen sus personas de la tercera edad que padecen diabetes y se
aplicaciones; por ejemplo también son medidas de les ha registrado sus respectivos pesos en kilos;
tendencia central los siguientes: resultando:
76 67 62 80 66 62 77 71 62 80 71 89 71
 Moda: M d Observamos que hay dos valores de la variable que se
 Mediana: M e presentan 3 veces, ambos valores son modas; es decir:
 Cuartiles: Q1 ; Q2  M e ; Q3 M d  62 años; M d  71 años (bimodal: dos modas)
1 2

 Deciles
 Centiles Ejemplo 3. En nuestra universidad existen
 Percentiles o cuantiles numerosos cursos en las diferentes facultades;
 Media Geométrica: M G inevitablemente en cada curso existen alumnos que
 Media armónica: M H WW abandonan el curso en que se ha matriculado. Se tomó
Se dará énfasis a la M d ; M e ; Q1 ; Q2  M e ; Q3 (cuartiles ) ; se una muestra de cursos y se contó el número de alumnos
estudiará en primer lugar la Moda. que han abandonado en n=25 cursos , resultando:
ww
ww
2) MODA (Md) 0 1 2 1 3 2 2 3 3 4 1 2 2 3 4 2 3 0 2 1 2 3 4 5 1
. . . . . . . . . . . . . . . . . . . . . . . . .

2 2
La moda evidentemente 2; pues se repite 8 veces; es
decir la moda es el valor de la variable con mayor
Los datos se organizaran en una tabla contando el
frecuencia absoluta; por lo tanto
número de veces que se repite cada valor de la variable M d  2 alumnos (Unimodal)
distinto; es decir hallando las frecuencias absolutas.

Xi
Observaciones:
0: 0 0 f1  2
1) La moda existe y no necesariamente es única; sin
1: 1 1 1 1 1 f2  5 embargo la media muestral existe y es única.
2: 2 2 2 2 2 2 2 2 f3  8 2) La moda también se define como el valor de la
3: 3 3 3 3 3 3 f4  6 variable con mayor frecuencia absoluta.
4: 4 4 4 f5  3
3) La moda se puede definir así: es la abscisa (eje
5: 5 f6  1
horizontal) con mayor ordenada (eje vertical)
4) Matemáticamente la moda es la abscisa donde
El esquema anterior puede ser puesto verticalmente y ocurre un máximo de la curva.
esto nos dará una idea de la forma de la distribución de
los datos. Ejemplo 4. Las notas de un grupo de alumnos en la
Observe que en el gráfico anterior están los mismos
escala vigesimal; resultando:
datos; contando cuantas veces se repiten cada valor
distinto de la variable. 11 10 12 13 17
Las veces que se repiten los valores distintos se llaman Todas las notas se presentan una vez; es decir todos son
frecuencias absolutas y se representan por fi . ww modas; es un caso multimodal; es decir:
M d  10 puntos;
1
M d  11 puntos;
2
M d  12 puntos; M d  13 puntos
3 4

f1=2 f2=5 f3=8 f4=6 f5=3 .f6=1 M d  17 puntos


5

x
x
x x Ejemplo 5. En base al siguiente cuadro
x x x correspondiente al número de televisores por familia en
x x x una muestra tomada en el distrito de San Miguel; se pide
x x x x
calcular la moda:
x x x x x
x x x x x x
X 0 1 2 3 4 5
i

Xi fi fi X i

2 2
0 1 s
1 7 [8; 10> 9 3
3 10 [10; 12> 1 6
4 2
1
5 1 Interv. Modal
n=21 [12; 14> 1 9
3
Observamos que el valor de la variable que se repite más [14; 16> 1 5
5
veces es 3 (frecuencia absoluta 10); luego se tiene:
[16; 18] 1 3
M d  3 televisores (unimodal) 7
Totales n=2
Ejemplo 6. El siguiente cuadro muestra el número de 6
dormitorios por familia: ww
El intervalo de clase [12; 14> (intervalo modal: intervalo
fi Xi
fi X i con mayor frecuencia absoluta) tiene mayor frecuencia
1 0 absoluta ( f 3  9) ; se puede asumir que la marca de clase
11 1 del intervalo modal es la moda:
11 3 M d  13 puntos .
4 4
2 5 Existe una fórmula de refinamiento para hallar la moda
n=2 para el caso continuo.
9 La fórmula a aplicar es:
Este es un caso bimodal; pues el 1 y el 3 se repiten 11
veces; luego M d  1 dormitorio; M d  3 dormitorios.  ( f j  f j 1 ) 
M d  x *j 1  c 
1 2


(
 j f  f j 1
)  ( f j
 f )
j 1 

3) MODA EN EL CASO CONTINUO Donde:


 x*j 1 : límite inferior del intervalo modal; en nuestro
Ejemplo 7. El siguiente cuadro muestra las notas en 0

la escala vigesimal de un grupo de alumnos.(Caso caso x j1  12


 c : amplitud del intervalo de clase; para el ejemplo
continuo)
c2
 f j : frecuencia absoluta del intervalo modal; en
Intervalo Xi fi
nuestro ejemplo f j  9

2 2
 f j 1 : frecuencia absoluta inmediato anterior del d) fj-1=190; fj=200; fj+1=23
intervalo modal. Para el ejemplo f j1  6 Reemplazando
 f j 1 : frecuencia absoluta intervalo inmediato  (200  190) 
M d  1500  100 
superior del intervalo modal. En nuestro caso f j1  5  (200  190)  (200  23) 
 10 
Reemplazando los valores dados anteriormente: M d  1500  100  1505,3475
10  177 
 ( f j  f j 1 )   (9  6)  Es decir el sueldo que se presenta más veces es de
M d  x *j 1  c    12  2  
( f  f )  ( f  f )  (9  6)  (9  5)  1505,3475 soles.
 j j 1 j j 1 

 3  3
M d  12  2    12  2    12,8571 puntos Ejemplo 9. Se tiene el sueldo mensual en soles de un
 3  4  7 
grupo de trabajadores de una gran empresa:
850 850 850 850 11000 15000 850
Ejemplo 8. El siguiente cuadro muestra los sueldos
a) Hallar el sueldo promedio mensual de los siete
en soles de un grupo de empleados de esta universidad:
trabajadores.
Intervalos X i fi b) Hallar la Moda de este grupo de trabajadores.
[1200; 13 c) ¿Qué medida de tendencia central es más
1300> representativa?
[1300; 16 Solución:
1400> 5(850)  11000  15000 30250
[1400; fj-1= 190 X    4321,4285
a) 7 7 soles
1500>
mensuales.
[1500; fj =200 Interval
1600> o Modal b) Moda= M d =850 soles mensuales ww
[1600; 1700] fj+1= 23 c) Evidentemente la Moda es más representativa que
Totales n=442 la media muestral; pues la mayoría gana 850 soles.

Hallar la moda e interpretar. Ejemplo 10. El siguiente muestra el tiempo en minutos


Necesitamos las siguientes cantidades: de permanencia en la cola de un banco de la capital:
a) Intervalo Modal = [1500; 1600>
Límite inferior del Intervalo Modal = x j 1  1500
*
b) Intervalo Xi fi
c) Longitud del Intervalo modal= c  100 s

2 2
[1; 5> 11 [25; 27> 8
[5; 10> 17 [27;29] 4
[10; 15> 19 Totales n=5
[15; 20> 25 9
[20; 25> 30
[25;30] 45 Interval
o Modal Este es una caso bimodal; existen dos intervalos
Totales n=14 modales:
7
 [19; 21>; M d : fj=13; fj-1=11; fj+1=10; c=2
1

En este caso el intervalo modal es [25; 30] Reemplazando:


 (13  11)  2
.f j= 45; fj-1=30; fj+1=0 M d  19  2 
(13  11)  (13  10 )   19  2[ 2  3 ]  19,8 años
 
1

Reemplazando:
 (45  30)  15 15
M d  25  5   25  5[15  25 ]  25[15  45 ]
 ( 45  30)  ( 45  0)   [23; 25>; M d : fj=13; fj-1=10; fj+1=8; c=2
2

45
M d  25  5[ ]  28,75 min utos
60  (13  10)  3
M d  23  2    23  2[ 3  5 ]  23,75 años
 (13  10)  (13  8) 
2

Ejemplo 11. El siguiente cuadro muestra las edades en


años de un grupo de estudiantes universitarios en una
reunión de confraternidad son: Ejercicio 1 El siguiente cuadro correspondiente al
ww peso de recién nacidos en gramos un hospital de la
capital son:
Intervalo Xi fi
s ww
[17; 19> 11 Intervalos Xi fi
[19; 21> 13 Interval [1700; 03
o Modal 1900>
1
[1900; 12
[21; 23> 10 2100>
[23; 25> 13 Interval [2100; 9
o Modal 2300>
2
[2300; 10

2 2
2500> Esto significa que para calcular mediana primero hay que
[2500; 8 ordenar los datos de menor a mayor.
2700>
[2700;2900> 7 Ejemplo 12. Los siguientes datos corresponden a los
[2900; 6
pesos en kilos de un grupo de personas:
3100>
[3100; 3300] 12
X 1  54; X 2  71; X 3  52; X 4  81; X 5  79; X 6  57; X 7  51
Totales n=6
7
Como se observa los n=7 datos están desordenados;
cuando están desordenados dichos datos se representan
Hallar la moda o modas: interprete.
por X i i  1;2;...; n .
Cuando se ordenan los datos de menor a mayor se
Ejercicio 2 Sea el conjunto de datos correspondiente denota por X ( i ) ; i  1;2;...; n .Observe que cuando hay orden
a las estaturas en metros de un grupo de personas los subíndices van entre paréntesis; es decir:
adultas:
X (1)  51; X ( 2)  52; X (3)  54; X ( 4)  57; X (5)  71; X ( 6)  79; X ( 7 )  81

1,67 1,79 1,72 1,71 1,80 1,72 1,71 1,72 1,72


En este caso se cumple:
Hallar dos medidas de tendencia central e interprételas. X (1)  X ( 2 )  ....  X ( 7 )
En general para una muestra de tamaño n ww
4) MEDIANA: ( M e )
X (1)  X ( 2 )  ....  X ( n1)  X ( n )
Aparte de la media muestral ( X ) y de la Moda ( M d ) existen
otras medidas de tendencia central; por ejemplo la
Mediana; la cual tiene algunas aplicaciones importante en Ejemplo 13. Hallar la mediana de los siete pesos de
el área de educación, psicología y en general en muchas personas ordenadas de menor a mayor.
otras áreas de la investigación científica. Los datos ordenados de menor a mayor son:
X (1)  51; X ( 2)  52; X (3)  54; X ( 4)  57; X (5)  71; X ( 6)  79; X ( 7 )  81
Por definición la Mediana es el término central de los
datos ordenados de menor a mayor. Observamos que el término central ocupa la cuarta
posición contando de menor a mayor, es decir X ( 4 )  57

2 2
kilos es la mediana de este conjunto de n=7 (impar) de n 1 5 1
 3
datos; este valor deja 3 valores a la izquierda de la 2 2 ; es decir ocupa la tercera posición de los
mediana y 3 valores a su derecha. datos ordenados de menor a mayor; es decir
Por lo M e  X ( 4 )  57 con n=7 (impar de datos)
Me  X X  X ( 3)  12 puntos; n  5 impar
En general la Mediana es el término central de los datos (
n 1
2
) (
51
2
)

ordenados de menor a mayor que deja el 50% de las


observaciones a su izquierda y 50% a su derecha. Ejemplo 16. El siguiente cuadro de distribución de
frecuencias muestra el número de cursos matriculados
Ejemplo 14. Hallar la mediana de los datos: en una Escuela Profesional de esta universidad:
X (1)  51; X ( 2)  52 ; X (3)  54 ; X ( 4)  57 ; [ X (5)  71] ; X ( 6)  79 ; X ( 7 )  81; X (8)  83; X (9)  85

Claramente el quinto término está en el centro de los Xi 1 2 3 4 5


fi 3 4 5 2 1 n=15
datos de menor a mayor; luego M e  71 kilos. ; con n=9
datos (impar).
Observe que en este cuadro hay un orden implícito de
En general si se tienen n datos (impar); la mediana ocupa
menor a mayor; es decir el cuadro equivale a la data:
n 1
la posición 2 ; es decir:
Me  X n 1
; n impar 1 1 1 2 2 2 2 3 3 3 3 3 4 4 5
( )
2
ww
ww Como n=15 impar la mediana ocupa la posición
n  1 15  1
Ejemplo 15. Se tienen las notas de cinco alumnos en la  8
2 2
escala vigesimal:
12 13 10 13 11 Entonces
Para calcular Mediana, primero hay que ordenar los datos Me  X X  X (8 )  3 cursos; n  15 impar
n 1 151
de menor a mayor: (
2
) (
2
)

10; 11; 12; 13; 13; n=5 impar


Por definición Me  12 puntos
Según la fórmula general la mediana ocupa la posición Ejemplo 17. En base al siguiente cuadro
correspondiente al número de televisores por familia en

2 2
una muestra tomada en el distrito de San Miguel; se pide Ejemplo 18. Se realizó un examen odontológico a un
calcular la mediana: grupo de niños de un colegio del cercado de Lima
observándose el número de dientes careados por
Xi fi fi X i alumno; resultando el siguiente cuadro de distribución de
frecuencias:
0 1
1 7
3 10 Xi fi fi X i
4 2
1 1 1
5 1
2 6 12
n=2
3 9 27
1
4 6 24
5 1 5
En este caso n=21 (impar) entonces la mediana ocupa la n=2 69
n 1 21  1 3
  11
posición 2 2

Para localizar la mediana es suficiente considerar la Calcular la media muestral; la Moda y la Mediana.
frecuencias absolutas: El 0 tiene frecuencia absoluta 69
1(f1=1); el 1 tiene frecuencia absoluta 7 (f2=7). ww X   3 dientes careados
23
Si se suma estas dos frecuencias absolutas f1+f2=8; el M d  3 dientes careados ww
siguiente valor de la variable es 3 con f3=10; si se suman
Para el cálculo de la mediana se suman las frecuencias
estas tres frecuencias absolutas:
absolutas f1+f2+f3=1+6+9=16
f1+f2+f3=1+7+10=18; esto significa que la Mediana
n  1 23  1
necesariamente es 3; pues la mediana ocupa la posición   12
La mediana ocupa la posición 2 2
11; es decir:
Luego la mediana tiene que ser 3; es decir:
Me  X n 1
X 211
 X (11)  3 tv.; n  21 impar
( ) ( )
2 2
Me  X n 1
X 231
 X (12 )  3 dientes careados.; n  23 impar
( ) ( )
2 2

Observe que las tres medidas de tendencia central son


iguales. ¿Es una coincidencia?

2 2
La respuesta no es una coincidencia; pues la distribución Maximum
5,00
es simétrica alrededor de la abscisa 3; observe el
Sum
siguiente gráfico: SPSS 21 (programa estadístico)  fi X i
69,00

Ejercicio 3 Con el siguiente cuadro de distribución de


frecuencias:
Xifi fi X i
1 1
2 6
3 9
4 6
6 1
n=2
3
Calcular las tres medidas de tendencia central ¿Por qué
no coinciden?
Statistics En general si la distribución es estrictamente simétrica y
unimodal, se cumple: X  M d  M e
x
Valid ww
(válid 23
n os) Ejemplo 19. En este caso se estudiará el cálculo de la
Missin
0 mediana para el caso par.
g
Mean X 3,0000 Sean los siguientes datos de la talla en centímetros de
Median M e 3,0000 un grupo de estudiantes de secundaria:
Mode M d 3,0000
Variance 160 165 149 161 166 160 n=6 (par)
2 0,909
S
Range
R  X max X min 4,00 También como en el caso impar para el cálculo de la
Minimum mediana hay que ordenar los datos de menor a mayor:
X min 1,00

2 2
X (1)  149 X ( 2 )  160 X ( 3)  160 X ( 4 )  161 X ( 5)  165 X ( 5)  166
En este caso como n=6 es par, no hay un único término
5) MEDIANA CASO CONTINUO
central y son dos los términos centrales el tercero y el
La mediana para el caso continuo en tablas de
cuarto; el dato ordenado que ocupa el tercer lugar; es
n 6 n 6
distribución de frecuencias agrupados en intervalos de
 3 1  1  3 1  4 clase tiene una fórmula que se explicará en detalle en un
decir 2 2 ; el término cuarto es 2 2
ejemplo, la fórmula se aplica igual para el caso par o
En el caso n par por definición se saca el semi promedio impar:
de los dos términos centrales; es decir:
X X X X n 
X ( 3)  X ( 4 ) 160  161  2  F j 1 
n n 6 6
( ) ( 1) ( ) ( 1)
M e     160,5 cms.
2 2 2 2 *

2 2 2 2 M e x j 1  c  
 F j  F j 1 
 
Donde:
Ejemplo 20. Consideremos los siguientes datos: *
x j 1 : límite inferior del intervalo de clase que contiene a la
X (1)  51; X ( 2 )  52 ; X ( 3)  54 ; X ( 4 )  57 ;
mediana.
X ( 5)  71 ; X ( 6 )  73 c : tamaño común de los intervalos de clase
X ( 7 )  79 ; X (8)  81; X ( 9 )  83 ; X (10 )  85 n : tamaño de la muestra ww
Los datos ya están ordenados de menor a mayor y F j : Frecuencia Absoluta Acumulada del intervalo que
corresponden a pesos en kilos de un grupo de personas.
contiene a la mediana. (Ver detalles en Ejemplo que
Como de observa n=10 (par) y hay dos términos centrales
sigue)
el quinto y el sexto; por lo tanto: F j 1 : Frecuencia Absoluta Acumulada del intervalo

X X X X anterior que contiene a la mediana.


n
( )
n
( 1) (
10
) (
10
1) X (5)  X ( 6) 71  73
M e 2 2
 2 2
   72 kilos.
2 2 2 2 Ejemplo 21.
El siguiente cuadro muestra las notas en la escala
En general para tamaño de muestra n par se tiene: vigesimal de un grupo de alumnos.(Caso continuo)

X n X n
( ) ( 1)
M e 2 2
; n par Intervalo Xi fi Fj
2
s

2 2
[8; 10> 3 3 s
[10; 12> 6 9=Fj-1 [6; 8> 1 1
[12; 14> 9 18=Fj Me [8; 10> 3 4
[10; 12> 6 10=Fj-1
[14; 16> 5 23 [12; 14> 9 19=Fj
[16; 18> 3 26 [14; 16> 5 24
[18; 20] 2 28 [16; 18> 3 27
Totales n=2 [18; 20] 2 29
8 Total n=2 ww
9
Para el caso del cálculo de la mediana en el caso
continuo se trabaja igual para el caso impar o par; los Seguimos los mismos pasos del Ejemplo anterior
pasos a seguir son: n n 29
  14,5
n n 28 1) Se calcula 2 ; en nuestro caso 2 2
  14
1) Se calcula 2 ; en nuestro caso 2 2 ww 2) Se busca la menor Frecuencia Absoluta Acumulada
2) Se busca la menor Frecuencia Absoluta Acumulada Fj n F j  19
Fj n F j  18 mayor o igual a 2 . En nuestro caso . Luego el
mayor o igual a 2 . En nuestro caso . Luego el intervalo que contiene a la mediana es [12; 14>
intervalo que contiene a la mediana es [12; 14>
3) Se busca la Frecuencia Absoluta Acumulada 3) Se busca la Frecuencia Absoluta Acumulada
anterior al F j .En nuestro caso F j 1  9 anterior al F j .En nuestro caso F j1  10
Aplicando la fórmula: Aplicando la fórmula:

n   28  n   29 
*  2  F j 1   2  9 5 *  2  F j 1   2  10   4,5 
M e x j 1  c    12  2    12  2   M e x j 1  c    12  2    12  2  
 F j  F j 1   18  9  9   F j  F j 1   19  10   9 
       
M e  13,1111 puntos. M e  13 puntos.
Ejemplo 22. Hallar la Mediana en el siguiente cuadro de
distribución de frecuencias referentes a las notas en Ejemplo 23. El siguiente cuadro de distribución de
escala vigesimal: frecuencias muestra la temperatura corporal de un grupo

Intervalo Xi fi Fj

2 2
de pacientes afectados de corona virus después del día 5
diez de contagio: [36,5; 37> 36,7 5 8 183,75
5
Intervalo Xi fi Fj fi X i [37; 37,5> 37,2 7 15 260,75
s 5
[36; 36,5> 3 36,25
3 108,75 [37,5; 38> 37,7 9 24 339,75
[36,5; 37> 5 36,75
8 183,75 5
[37; 37,5> 7 37,25
15 260,75 [38; 38,5> 38,2 7 31 267,75
[37,5; 38> 9 37,75
24 339,75 5
[38; 38,5> 5 38,25
29 191,25 [38,5; 39> 38,7 5 36 193,75
[38,5; 39> 3 38,75
32 116,25 5
[39; 39,5] 2 39,25
34 78,5 [39; 39,5] 39,2 3 39 117,75
Total n=3 1279w 5
4 w Total n=3 1472,2
Hallar las tres medidas de tendencia central estudiadas 9 5
hasta el momento
1279 1472
X   37,61764706 grados X   37,75 grados
 34  39
 ww
 (9  7)   2   (9  7)   2 
M d  37,5  0,5   37,5  0,5 2  4   37,6666 grados M d  37,5  0,5   37,5  0,5 2  2   37,75 grados
 (9  7)  (9  5)      (9  7)  (9  7)   
 34  n   39 
 2  15  *  2  F j 1   2  15   4,5 
M e  37,5  0,5   37,6111 grados M e x j 1  c    37,5  0,5   37,5  0,5 
 24  15  F
 j  F j 1   24  15   9 
      
 M e  37,75 grados

Ejemplo 24. El siguiente cuadro es similar al Observe que las tres medidas de tendencia central
presentado en el Ejemplo anterior coinciden; esto ocurre pues la distribución es simétrica.
Intervalo Xi fi Fj fi X i
s Ejercicio 4 Calcular las tres medidas de tendencia
[36; 36,5> 36,2 3 3 108,75 central del siguiente cuadro de distribución de

2 2
frecuencias correspondiente a la temperatura corporal en Los cuartiles (Q1; Q2=Me; Q3) dividen a la masa de datos
grados centígrados de un grupo de pacientes: ¿Por qué en cuatro grupos de los datos ordenados de menor a
no coinciden? mayor; de forma tal que:

X(1) Q1 Q2 Q3 X(n)
Intervalo Xi fi Fj fi X i
s
Q1: Deja 25% de los datos ordenados a su izquierda y
[36; 36,5> 36,2 3
5 75% a su derecha.
[36,5; 37> 36,7 8
5 Q2=Me: Deja 50% de los datos ordenados a su izquierda y
[37; 37,5> 37,2 7 50% a su derecha
5
[37,5; 38> 37,7 9 Q3: Deja 75% de los datos ordenados a su izquierda y
5
25% a su derecha
[38; 38,5> 38,2 7
5
[38,5; 39> 38,7 4 El cálculo de los cuartiles es muy parecido que el de la
5 mediana; incluso el segundo cuartil ya se sabe la forma
[39; 39,5] 39,2 3 de calcularlo.
5 Las fórmulas para el cálculo de los tres cuartiles son:
Total n=4
1 n
 Fl 1
Q1  xl 1  c[ 4
*
]
Fl  Fl 1
6) CUARTILES CASO CONTINUO (Q1; Q2=Me; Q3)
Los cuartiles son tres Q1; Q2=Me; Q3 y dividen a la masa
ordenados de menor a mayor y extienden el concepto de
 2n 
mediana. La mediana Q2=Me divide la masa de datos   F j 1 
Q2  M e x*j 1  c  4 
ordenados de menor a mayor en dos grupos, de forma tal  F j  F j 1 
que a la derecha de la mediana deja el 50% de los datos y  

su izquierda el 50%. ww

2 2
3n
 Fk 1 ii) Se halla la menor Frecuencia Absoluta Acumulada
Q3  xk 1  c[ 4
*
] n
Fk  Fk 1 que supera o es igual a 4 :
En nuestro caso Fi=11 y Fi-1=3
Ejemplo 25. Calcular los tres cuartiles del siguiente El intervalo que contiene es [36,5;37>
cuadro de distribución de frecuencias correspondiente a Aplico la fórmula:
la temperatura corporal en grados centígrados de un ww
grupo de pacientes. n
 Fl 1
10,25  3
Q1  xl 1  c[ 4
*
]  36,5  0,5[ ]  36,9531 grados
Fl  Fl 1 11  3
Intervalo X i fi Fj fi X i
s
Para el cálculo del segundo cuartil no es necesario
[36; 36,5> 36,2 3 3
5 explicación, pues ya se hizo:
[36,5; 37> 36,7 8 11 Q1
5 n 
*  2  F j 1 
[37; 37,5> 37,2 7 18 Q2  M e x j 1  c  
5  F j  F j 1 
[37,5; 38> 37,7 9 27 Q2  
5 20,5  18
Q2  M e  37,5  0,5[ ]  37,6388 grados
[38; 38,5> 38,2 7 34 Q3 27  18
5
[38,5; 39> 38,7 4 38 Para el cálculo del tercer cuartil se hacen los siguientes
5 pasos
[39; 39,5] 39,2 3 41 3n 3n 3(41)
  30,75
5 iii) Se calcula 4 ; en nuestro caso 4 4
Total n=4 iv) Se halla la menor Frecuencia Absoluta Acumulada
1 3n
 30,75
que supera o es igual a 4 :
Para el cálculo del primer cuartil se hacen los siguientes En nuestro caso Fk=34 y Fk-1=27
pasos El intervalo que contiene es [38;38,5>
n n 41 Aplico la fórmula:
  10,25
i) Se calcula 4 ; en nuestro caso 4 4

2 2
3n
 Fk 1
n
30,75  27  Fl 1
Q3  xk 1  c[ 4
*
10,75  3
Fk  Fk 1
]  38  0,5[
34  27
]  38,2678 grados Q1  xl 1  c[ 4
*
]  36,5  0,5[ ]  36,98 grados
Fl  Fl 1 11  3

Ejemplo 26. Calcular los tres cuartiles del siguiente


n 
cuadro de distribución de frecuencias correspondiente a  2  F j 1 
la temperatura corporal en grados centígrados de un Q2  M e x j 1  c 
*

 F j  F j 1 
grupo de pacientes.  
Intervalos Xi fi Fi fi X i 21,5  18
Q2  M e  37,5  0,5[ ]  37,6944 grados
[36; 36,5> 36,2 3 3 27  18
5
[36,5; 37> 36,7 8 11 Q1 3n
5  Fk 1
32,25  27
[37; 37,5> 37,2 7 18 Q3  xk*1  c[ 4 ]  38  0,5[ ]  38,375 grados
Fk  Fk 1 34  27
5
[37,5; 38> 37,7 9 27 Q2
5 Ejercicio 5 En un gran colegio donde existen
[38; 38,5> 38,2 7 34 Q3 alumnos de kínder, de primaria y secundaria se tomó una
5 muestra y la variable de interés es la estatura en
[38,5; 38,7 4 38 centímetros, resultando el siguiente cuadro de
39> 5 distribución de frecuencias.
[39; 39,5] 39,2 3 41
5 Intervalos Xi fi hi Fi Hi fi X i 2
fi X i
[39,5;40] 39,7 2 43 [80;90> 85 3 0,0681 3 0.0681 255
5 [90;100> 95 6 0,1363 9 0,2044 570
Total n=4 [100;110> 105 8 0,1818 17 0,3962 840
3 [110;120> 115 1 0,0227 18 0,4089 115
[120;130> 125 6 0,1363 24 0,5452 750
Hallar los tres cuartiles e interpretar [130;140> 135 4 0,0909 28 0,6361 540
Solución: [140;150> 145 7 0,1590 35 0,7951 1015
[150;160] 155 9 0,2045 44 0,9996 1395
Totales n=44 0,9996

2 2
a) Completar el cuadro de distribución de frecuencias. X  M d M e
b) Obtener e interpretar X ; M d ; M e b) En distribuciones asimétricas, con asimetría
c)
2
Calcular S ; S . positiva (sesgo a la derecha) se verifica:
d) ¿Varianza grande o pequeña? Md  Me  X
e) Hallar los tres cuartiles Q1; Q2 y Q3
f) Si los tres cuartiles obtenidos en e) dividen a la c) Para distribuciones asimétricas, con asimetría
masa de datos ordenados de menor a mayor en cuatro negativa (asimetría negativa); se cumple:
partes; los deciles son nueve: di i=1,2,3,….,9 y dividen a X  Me  Md
la masa de datos ordenados en 10 partes.
Calcular el decil 3, es decir d3 e interpretar. Ejercicio 6 Sea la siguiente distribución de una
variable discreta:
7) RELACIÓN ENTRE LA MEDIA MUESTRAL ( X ) ; LA Xi 0 1 2 3 4 5 6
MODA ( M d) Y LA MEDIANA ( M e ) fi 1 2 17 8 5 1 1
a) Haga un gráfico ¿es asimétrica? ¿qué tipo de
Existe una relación entre las tres medidas de tendencia asimetría tiene?
central estudiadas para distribuciones unimodales y son b) Halla las tres medidas de tendencia central.
las siguientes:

a) Para distribuciones simétricas como el de la Figura


1; en este caso se cumple: Ejercicios 1

2 2
1) intervalos de clase; la amplitud de cada intervalo y
Las notas (escala de 0-10) de inglés de una clase de los límites de dichos intervalos.
40 estudiantes han sido las siguientes: Solución.-
R  X max  X min  9  1  8 puntos
1 7 9 2 5 4 4 3 7 8 k  1  3,3 log(n)  1  3,3 log(40)  6,2864 ; se tomará k 6
4 5 6 7 6 4 3 1 5 9 intervalos de clase.
2 6 4 6 5 2 2 8 3 6 R 8
4 5 2 4 3 5 6 5 2 4 c   1,3
k 6 ; es suficiente tomar un decimal más
precisión; pues los datos tienen 0 decimales. Por lo
a) Calcular la nota promedio; sin hacer tabulación tanto los k=6 intervalos de clase son:
de datos (no hacer intervalos de clase) [1,0-2,3>; [2,3-3,6>; [3,6-4,9>;[4,9-6,2>; [6,2-7,5>;
Solución.- [7,5-8,8>: el último intervalo se extiende hasta llegar
n

X i
184
al X max  9 puntos.
n  40; X  i 1
  4,6 puntos Por lo tanto este intervalo es [7,5-9]
n 40
b) Si las cinco primeras columnas de la data
anterior corresponden a las notas obtenidas por los e) Realizar el conteo para obtener las frecuencias
hombres y las cinco últimas columnas a las absolutas e interpretar f3
mujeres; hallar las notas de ambos grupos por Solución.-
I .C. fi
separado.
[1,0  2,3  8
Hombres Mujeres
[2,3  3,6  4
1 7 9 2 5 4 4 3 7 8
4 5 6 7 6 4 3 1 5 9 [3,6  4,9  8
2 6 4 6 5 2 2 8 3 6 [4,9  6,2  13
4 5 2 4 3 5 6 5 2 4 [6,2  7,5  3
Solución.- [7,5  9] 4
20 20

X Hi
93
X Mi
91
n  40
XH  i 1
  4,65 puntos X M  i 1
  4,55 puntos
nH 20 ; nM 20
c) Usando la propiedad de la media aritmética f3  8 :
existen 8 alumnos que han obtenido notas
conocida como la “media global”; obtener el entre 3,6 y 4,9 puntos.
resultado de la parte a)
Solución.- f) Con los resultados obtenidos en la parte e)
n X  n M X M 20(4,65)  20(4,55) 184 calcular la media aritmética y compararlos con la
XG  A H    4,6 puntos.
nH  nM 20  20 40 parte a)
d) Hallar el recorrido de la variable asociada y Solución.-
usar la fórmula de Sturges para hallar el número de

2 2
La data original tiene n=40; hay que ordenar de
I .C. fi Xi fi X i menor a mayor:
[1,0  2,3  8 1,65 13,2
[2,3  3,6  4 2,95 11,8 X: puntaje escala de 0-10
[3,6  4,9  8 4,25 34,0 Frecue Porcen
[4,9  6,2  13 5,55 72,15 ncia taje
[6,2  7,5  3 6,85 20,55 1,00 2 5,0
[7,5  9] 4 8,25 33,0 2,00 6 15,0
n  40 184,7 3,00 4 10,0
4,00 8 20,0
X e) 
184,7
 4,6175 puntos X
n
5,00 7 17,5
40 i
185 Válid
n  40; X  i 1
  4,6 puntos 6,00 6 15,0
; a)
n 40 os
7,00 3 7,5
Observe que existe una pequeña diferencia; esto 8,00 2 5,0
ocurre porqué se hacen intervalos de clase se 9,00 2 5,0
pierden los datos originales; pues todos los datos Tota
en un intervalo de clase pasan a ser reemplazados 40 100,0
l
por su marca de clase.
Md  4 puntos :
es la nota con mayor incidencia o es la
g) Completar el cuadro de distribución de
nota que se presenta más frecuencia.
frecuencias; también obtenga la suma y suma de
cuadrados de datos.
i) Hallar la moda para los datos para los datos
Solución.-
tabulados en intervalos.
I .C. fi Xi fi X i hi Fi Hi f i X i2
Solución.-
[1,0  2,3  8 1,65 13,2 0,2 8 0,2 21,78
I .C. fi Xi fi X i hi Fi Hi f i X i2
[2,3  3,6  4 2,95 11,8 0,1 12 0,3 34,81
[1,0  2,3  8 1,65 13,2 0,2 8 0,2 21,78
[3,6  4,9  8 4,25 34,0 0,2 20 0,6 144,5
[2,3  3,6  4 2,95 11,8 0,1 12 0,3 34,81
[4,9  6,2  13 5,55 72,15 0,325 33 0,925 400,4325
[3,6  4,9  8 4,25 34,0 0,2 20 M e 0,6 144,5
[6,2  7,5  3 6,85 20,55 0,075 36 0,925 140,7675
[4,9  6,2  13M d 5,55 72,15 0,325 33 0,925 400,4325
[7,5  9] 4 8,25 33,0 0,1 40 1 272,25
[6,2  7,5  3 6,85 20,55 0,075 36 0,925 140,7675
n  40 184,7 1 1014,54
[7,5  9] 4 8,25 33,0 0,1 40 1 272,25
n  40 184,7 1 1014,54
h) Obtenga la moda de los datos originales.
Solución.-

2 2

M d  4,9  1,3
(13  8)  5 tiene:
  4,9  1,315   5,3333 puntos M [Y ]  M [2 X ]  2 M [ X ]  2(4,6175)  9,235 puntos.
 (13  8)  (13  3)   
j) Hallar la mediana para los datos sin tabular M d [Y ]  M d [2 X ]  2 M d [ X ]  2(5,3333)  10,6666 puntos.
Solución.- M e [Y ]  M e [2 X ]  2 M e [ X ]  2(4,9)  9,8 puntos.
X X
n
( )
n
( ) 1 X ( 20 )  X ( 21) 45
n  40; par ; M e  2 2
   4,5 puntos. m) Hallar tres medidas de dispersión con los datos
2 2 2
tabulados.
k) Hallar la mediana para casos tabulados en Solución.-
intervalos de clase.
I .C. fi Xi fi X i hi Fi Hi f i X i2
Solución.-
 40  [1,0  2,3  8 1,65 13,2 0,2 8 0,2 21,78
  12  [2,3  3,6  4 2,95 11,8 0,1 12 0,3 34,81
M e  3,6  1,3 2   3,6  1,3(1)  4,9 puntos.
 20  12  [3,6  4,9  8 4,25 34,0 0,2 20 M e 0,6 144,5
  [4,9  6,2  5,55 72,15 0,325 33 0,925 400,4325
13M d
l) La escala de medición para la calificación es de [6,2  7,5  3 6,85 20,55 0,075 36 0,925 140,7675
cero a diez; se desea modificar la escala de [7,5  9] 4 8,25 33,0 0,1 40 1 272,25
calificación a la escala vigesimal. Hallar la nueva n  40 184,7 1 1014,54
media; la moda y la nueva mediana.
Solución.-
(184,7) 2
Sea la variable X que denota la nota en la escala de 1014,54 
40
cero a diez; por lo tanto Y  2 X son las notas en la 
S
39
 2,0361 puntos.
escala vigesimal.  S  (2,0361)  4,1457 puntos 2
2 2

Por lo tanto si se considera estas medidas de  R  9  1  8 puntos.


tendencia central obtenidas cuando se han hecho
intervalos de clase en la escala de calificación de 2)
cero a diez; se tiene: En una clase de Educación Física se medido en
centímetros la altura de los 25 alumnos. Sus
184,7
X e) 
40
 4,6175 puntos
; medidas, y sus correspondientes pesos en kilos
 (13  8)  5 (entre paréntesis)
M d  4,9  1,3   4,9  1,315   5,3333 puntos
 (13  8)  (13  3)    167(62) 159(55) 164(62) 170(68) 164(61)
 40  151(57) 168(65) 174(71) 158(56) 163(63)
  12  160(58) 175(73) 150(49) 172(71) 169(67)
M e  3,6  1,3 2   3,6  1,3(1)  4,9 puntos.
 20  12  159(58) 158(55) 153(55) 157(58) 156(52)
 
173(65) 165(66) 164(65) 158(57) 163(61)
Por lo tanto en la escala de calificación vigesimal se

2 2
a) Elabora una tabla que represente estos
resultados de las estaturas con sus frecuencias
absolutas, relativas y porcentajes. Toma intervalos
de amplitud 5 cm comenzando por 150.
Solución.-

I .C. Xi fi hi Fi Hi fi X i f i X i2
[150 155  152,5 3 457,5 69768,75
[155 160  157,5 7 1102,5 173643,75
[160 165  162,5 6 975,0 158437,5
[165 170  167,5 4 670,0 112225,0
[170  175] 172,5 5 862,5 148781,25
n  25 4067,5 662856,25
d) Hallar la estatura promedio y la desviación
estándar expresada en pulgadas
b) Hallar la talla promedio en centímetros y
Solución.-
también la desviación estándar.
Se conoce 1 pulgada------2,54 centímetros
Solución.-
4067,5 y-------------- 100
X   162,7 centímetros. centímetros
25
(4067,5) 2 y=100/2,54 = 39,37 pulgadas.
662856,25 
S 25  6,6895 centímetros.
Luego sean
24 W : medición en pu lg adas; X : medición en centímetros
c) Hacer un histograma de frecuencias absolutas. W 
1
X
Solución.- 2,54 ; por lo tanto:
1 1 1
M [W ]  M [ X] M[X ]  [162,7]  64,0551 pu lg adas.
2,54 2,54 2,54
2 2
1  1   1 
Var[W ]  Var[ X]   Var[ X ]   2,54  (6,6895)
2

2,54  2,54   
 1  1
SW  Var[W ]   (6,6895) 2   (6,6895)  2,6336 pu lg adas.
 2,54  2,54

e) El Índice de Masa Corporal se define mediante


la fórmula:

2 2
IMC 
PESO ( KILOS )

85
 30,47 Solución.-
( ESTATURA) 2 ( METROS ) (1,67) 2
x
n
Válido 25
s

22,996
Media
0
23,000
Mediana
0
Moda 21,70a
Desviación 0,9025
standar 3
Hallar el IMC para los datos usados en la parte a)` Varianza
,815
IMC en rojo: (POR COMODIDAD SÓLO SE DA UN muestral
DECIMAL) Rango 3,60
Mínimo 21,30
Máximo 24,90
167(62) 159(55) 164(62) 170(68) 164(61) Suma 574,90
22,2 21,7 23,0 23,5 22,6 Q 1 22,300
25
151(57) 168(65) 174(71) 158(56) 163(63) 0
24.9 23,0 23,4 22,4 23,7 Percent Q 2 23,000
50
160(58) 175(73) 150(49) 172(71) 169(67) iles 0
22,6 23,8 21,7 23,9 23,4 Q 3 23,600
75
159(58) 158(55) 153(55) 157(58) 156(52) 0
22,9 22,0 23,4 23,5 21,3 a. Existen varias
173(65) 165(66) 164(65) 158(57) 163(61) modas. Se mostrará
21,7 24,2 24,1 22,8 23,2 el menor de los
valores.

¿Qué porcentaje de los participantes están con un


peso normal? Sin hacer intervalos de clase;
obtenga las características más resaltante de la x
data.

2 2
24,9
1 4,0 n=25 100,0
21,3 0
1 4,0 1 4,0 Tota
0 25 100,0
21,7 l
3 12,0 4 16,0
0
22,0
1 4,0 5 20,0
0
22,2
1 4,0 6 24,0
0
22,4
1 4,0 7 28,0
0
22,6
2 8,0 9 36,0
0
22,8
1 4,0 10 40,0
0
22,9
1 4,0 11 44,0
0
23,0 Según la tabla que usan los médicos y dietistas; se
2 8,0 13 52,0
0 tiene:
23,2 <20 [20-25> [25-30> [30-35>
1 4,0 14 56,0
0 (peso bajo) (normal) (sobrepeso) (obesidad
23,4 1)
3 12,0 17 68,0
0
23,5 En nuestro caso: Xmin=21,3; Xmax=24,9 todos están
2 8,0 19 76,0
0 con un peso normal.
23,7
1 4,0 20 80,0
0 f) Redondear el IMC de data dada e) al entero más
23,8 próximo y rehacer lo pedido en e)
1 4,0 21 84,0
0 Solución.-
23,9
1 4,0 22 88,0
0 167(62) 22 159(55) 164(62 170(68 164(61
24,1 22 ) ) )
1 4,0 23 92,0
0 23 24 23
24,2 151(57) 168(65) 174(71 158(56 163(63
1 4,0 24 96,0
0

2 2
25 23 ) ) ) 22,0
6 24,0 8 32,0
23 22 24 0
160(58) 175(73) 150(49 172(71 169(67 23,0
9 36,0 17 68,0
23 24 ) ) ) 0
22 24 23 24,0
7 28,0 24 96,0
159(58) 158(55) 153(55 157(58 156(52 0
23 22 ) ) ) 25,0
1 4,0 n=25 100,0
23 24 21 0
173(65) 165(66) 164(65 158(57 163(61 Tota
n=25 100,0
22 24 ) ) ) l
24 23 23
Estadísticos
x
n
25
Válidos

Media 22,9600
Mediana 23,0000
Moda 23,00
Desv. típ. 1,01980
Varianza 1,040
Rango 4,00
3) En un examen de matemáticas los 30 alumnos
Mínimo 21,00
de una clase han obtenido las puntuaciones
Máximo 25,00
recogidas en la siguiente tabla:
Suma 574,00
25  Q1 22,0000
Percentile  Q IC Xi fi hi Fi Hi fi X i f i X i2
50 2 23,0000
s [0 1  0,5 2 1
75  Q3 24,0000 [1  2  1,5 2 3
[2  3  2,5 3 7,5
x [3  4  3,5 6 21
fi 100hi Fi 100 H i
[4  5  4,5 7 31,5
21,0 [5  6  5,5 6 33
2 8,0 2 8,0
0 [6  7  6,5 1 6,5
[7  8  7,5 1 7,5
[8  9  8,5 1 8,5

2 2
Pregunta 4
[9  10] 9,5 1 9,5
n  30 129
En una clase de 25 alumnos hemos preguntado la
edad de cada uno, obteniendo estos resultados:
a) Calcular la media aritmética.
Solución.- 14, 14, 15, 13, 15, 14, 14, 14, 14, 15, 13, 14, 15, 16, 14,
129
X   4,3 puntos 15, 13, 14, 15, 13, 14, 14, 14, 15, 14
30
b) Aparte de las medidas de dispersión
Haz una tabla donde aparezcan las frecuencias
presentadas como la desviación estándar; la
absolutas acumuladas y las frecuencias relativas
varianza y el recorrido; existen otras medidas de
acumuladas.
dispersión como la Desviación Media (DM) y el
Recorrido Intercuartílico (RI); dadas por:
n k

X i X f i Xi  X Solución:
DM  i 1
(datos sin tabular ); DM  i 1
(datos tabulados )
n n
En nuestro caso de datos tabulados: Edad
13
F. absoluta
4
F. absoluta acumulada
4
F. relativa
0,16
F. relativa acumulada
0,16
14 13 17 0,52 0,68
k 15 7 24 0,28 0,96
f
i 1
i Xi  X
2 0,5  4,3  2 1,5  4,3  3 2,5  4,3  6 3,5  4,3  7 4,5  4,3 16 1 25 0,04 1
DM  
n 30
 6 5,5  4,3  1 6,5  4,3  1 7,5  4,3  1 8,5  4,3  1 9,5  4,3 Pregunta 5
30


2  3,8  2  2,8  3  1,8  6  0,8  7 0,2  6 1,2  1 2,2  1 3,2  1 4,2  1 5,2 Calcula la varianza y la desviación típica de los
30 siguientes datos:
2(3,8)  2(2,8)  3(1,8)  6(0,8)  7(0,2)  6(1,2)  2,2  3,2  4,2  5,2

30
45,8
4, 7, 5, 3, 6.
DM   1,5266 puntos.
30
Solución:

Halla la varianza y la desviación típica. Varianza = 2

Desviación típica = 1,41.


Solución:

Varianza = 4,23 Desviación típica = 2,06. Pregunta 6

2 2
Halla el número medio de hijos por mujer en 1998
en España a partir de los datos de las comunidades Calcula la media de viajeros en establecimientos
autónomas: hoteleros durante 1999. Después calcula la
desviación típica para ver si esa media es
Andalucía 1,28 representativa de todos los meses del año.
Aragón 1,05
Asturas (Principado de) 0,8
Baleares (Islas) 1,44 Mes Viajeros
Canarias 1,24 Enero 2.775.738
Cantabria 0,94 Febrero 3.205.892
Castilla y León 0,91 Marzo 4.143.343
Castilla-La Mancha 1,24 Abril 4.931.385
Cataluña 1,21 Mayo 5.724.555
Comunidad Valenciana 1,17 Junio 5.834.331
Extremadura 1,2 Julio 6.415.298
Galicia 0,9 Agosto 6.986.211
Madrid (Comunidad de) 1,19 Septiembre 6.349.504
Murcia (Región de) 1,41 Octubre 5.447.890
Navarra (C. Foral de) 1,7 Noviembre 3.570.715
País Vasco 0,97 Diciembre 3.204.082
Rioja (La) 1,12
Ceuta y Melilla 1,87 (Fuente: INE)
(Fuente: INE)
Solución:
Solución:
Nº medio de hijos por mujer = 1,20. Media = 4.882.412 viajeros.
Pregunta 7
Desviación típica = 1.390.381 viajeros.
Calcula el percentil P65 de los siguientes datos:
La desviación típica es alta, por lo que podemos
x i fi
deducir que hay algunos meses que difieren mucho
2 12
4 10 de la media.
6 8
8 7
10 5 Pregunta 9
12 8
14 10
Representa mediante diagrama de barras las
ganancias medias de los trabajadores, según el
Solución:
sexo, en el cuarto trimestre de 1999, que se recogen
en la siguiente tabla:
P65 = 10.

Pregunta 8

2 2
Sueldo en ptas.
Sector Varones Mujeres
Industria 284.363 206.204
Construcción 214.446 205.372 Solución:
Servicios 263.554 195.447
(Fuente: INE)
Procedencia de extranjeros en España

Solución: Des
con
Oce ocid
anía a
Sueldo medio en ptas.
Áfri
ca
Eur
300,000
opa
250,000 Asia
200,000 Varones
Mujeres Am
150,000 éric
100,000 a

50,000
0
Pregunta 11
Industria

Construcción

Servicios

Calcula la media de la población en las


Comunidades Autónomas que nos indica la
siguiente tabla:
Pregunta 10

Haz un diagrama de sectores que represente la


procedencia de los extranjeros residentes en
España, en diciembre de 1999, recogidos en la
siguiente tabla:

Procedencia
Europa 353.556
América 166.709
Asia 66.340
África 213.012
Oceanía 1.013
Desconocida 699
(Fuente: INE)

2 2
CCAA Habitantes
Andalucía 7.236.459
Aragón 1.183.234
Asturias 1.081.834 Nº hijos F. absoluta F. absoluta acumulada F. relativa F. relativa acumulada
Baleares (Islas) 796.483 0 6 6 0,12 0,12
Canarias 1.630.015 1 13 19 0,26 0,38
Cantabria 527.137 2 16 35 0,32 0,7
Castilla y León 2.484.603 3 9 44 0,18 0,88
Castilla-La Mancha 1.716.152 4 4 48 0,08 0,96
Cataluña 6.147.610 5 2 50 0,04 1
Ceuta 72.117
Comunidad Valenciana 4.023.441
Extremadura 1.069.419 Pregunta 13
Galicia 2.724.544
Madrid 5.091.336
Melilla 60.108 Las edades de los jugadores de un equipo de
Murcia 1.115.068 baloncesto son: 27, 18, 28, 26, 25, 19, 31, 19, 24 y 26
Navarra 530.819
País Vasco 2.098.628 años. ¿Cuál es la edad media?
Rioja (La) 263.644
TOTAL ESPAÑA 39.852.651
Solución:

24'3 (redondeando, 24 años).


Solución:
Pregunta 14
2.490.791 habitantes.
Lanzamos un dado 25 veces y obtenemos los
Pregunta 12
siguientes resultados:
Se ha hecho una encuesta sobre el número de hijos
5, 3, 2, 6, 5, 1, 2, 3, 2, 1, 5, 1, 5, 2, 4, 5, 6, 1, 2, 4, 4, 2,
en 50 familias, con los siguientes resultados:
2, 4, 3.
0 2 1 2 5 2 1 1 1 4 0 0 2
0 4 4 1 1 2 2 3 1 2 3 0 Calcula el percentil P30.
3 1 3 2 2 3 3 1 5 4 3 3
1 2 2 2 3 2 2 1 0 2 2 1
1 Solución:

Haz una tabla donde se recojan estos datos con sus P30 = 2.
frecuencias absolutas acumuladas y relativas
acumuladas. Pregunta 15

Solución: Representa mediante un diagrama de barras las

2 2
ciudades más pobladas (en 1995): Alturas Nº alumnos (fi)
[150,155) 3
[155,160) 7
Ciudad Habitantes (en millones) [160,165) 6
Tokio (Japón) 26,8 [165,170) 4
Sao Paulo (Brasil) 16,4 [170,175) 5
Nueva York (EE.UU.) 16,3
C. De México (México) 15,6
Bombay (India) 15,1 Calcula la varianza y la desviación típica.
Shangai (China) 15,1
Los Ángeles (EE.UU.) 12,4
Pekín (China) 12,4 Solución:
Calcuta (India) 11,7
Seúl (Corea del Sur) 11,6
(Fuente: Naciones Unidas) Varianza = 42,96

Solución: Desviación típica = 6,55.

30 Pregunta 17
25
20
Calcula el sueldo medio en España de varones y
15
10 mujeres en la industria y los servicios, según los
5 datos de 1999 ofrecidos por el INE:
0
Tokio (Japón)

Sao Paulo (Brasil)

Nueva York (EEUU)

C. de México (México)

Bombay (India)

Shangai (China)

Los Ángeles (EEUU)

Pekín (China)

Calcuta (India)

Seúl (Corea del Sur)

Sueldo medio
CC.AA.
Varones Mujeres
Andalucía 248.389 158.901
Aragón 282.054 156.485
Asturias (Principado de) 275.406 177.203
Baleares (Islas) 253.681 176.835
Canarias 217.843 167.953
Cantabria 270.570 163.153
Castilla y León 260.336 171.002
Pregunta 16 Castilla-La Mancha 226.887 146.525
Cataluña 281.496 195.771
Comunidad Valenciana 244.350 159.117
En una clase de un IES hemos medido la altura de Extremadura 220.644 133.952
los 25 alumnos. Sus medidas, en cm, se reflejan en Galicia 229.395 163.609
la siguiente tabla agrupados en intervalos: Madrid (Comunidad de)
Murcia (Región de)
308.122
218.924
235.456
144.544
Navarra (C. Foral de) 289.006 195.560
País Vasco 322.222 232.367
Rioja (La) 255.193 166.257

Solución:

2 2
calcula los porcentajes que hay de cada tipo.
Sueldo medio de varones = 259.089.
Uso del suelo español Superficie (Ha.)
Cultivos herbáceos 11.123.000
Sueldo medio de mujeres = 173.217. Cultivos leñosos 5.060.000
Barbechos 4.048.000
Prados y pastizales 2.530.000
Forestal desarbolado 12.650.000
Forestal arbolado ralo 4.048.000
Forestal arbolado normal 8.602.000
Otros usos 2.530.000
(Fuente: INE)

Solución:
Pregunta 18
Uso del suelo español Superficie (Ha.) Porcentaje
Cultivos herbáceos 11.123.000 22%
Las calificaciones de 180 alumnos se recogen en la Cultivos leñosos 5.060.000 10%
siguiente tabla: Barbechos 4.048.000 8%
Prados y pastizales 2.530.000 5%
Forestal desarbolado 12.650.000 25%
Calificación Alumnos Forestal arbolado ralo 4.048.000 8%
0 1 Forestal arbolado normal 8.602.000 17%
1 5 Otros usos 2.530.000 5%
2 15
3 20
4 30
5
6
35
22
Pregunta 20
7 14
8
9
16
14
Se han pesado 40 piezas. Los resultados de las
10 8 pesadas, expresados en gramos, son:

Calcula P90. 64,1 66,4 64 66,7 65,3 64,4 63,9 63 65,4 64,3
68,8 66,6 65,1 64,2 68,5 65,7 65,8 63,1 64,6 63,5
65 66,4 67,3 65,7 64 61,5 64,1 65 63 63,2
Solución: 66,9 66,3 67 66,1 66,8 65,3 64,4 64,5 63,1 65,5

P90 = 9. Confecciona una tabla estadística para presentar


los resultados agrupando en intervalos los valores
observados y donde aparezcan también las
Pregunta 19 frecuencias absolutas acumuladas y las frecuencias
relativas acumuladas. Toma intervalos de amplitud
La siguiente tabla muestra el uso del suelo español, de 1 cm. comenzando por 61.

2 2
Solución:

Solución: Media = 902 establecimientos hoteleros por


comunidad.
Peso F. absoluta F. absoluta acumulada F. relativa F. relativa acumulada
[61, 62) 1 1 0,025 0,025
[62, 63) 0 1 0 0,025 Desviación típica = 731,14.
[63, 64) 7 8 0,175 0,2
[64, 65) 10 18 0,25 0,45
[65, 66) 10 28 0,25 0,7 Como la desviación típica es muy alta, esto me
[66, 67) 8 36 0,2 0,9
[67, 68) 2 38 0,05 0,95
indica que los datos reales se diferencian mucho de
[68, 69) 2 40 0,05 1 la media, luego el dato de la media no es
representativo.
Pregunta 21
Pregunta 22
Halla la media del número de establecimientos
hoteleros que hay en las distintas Comunidades Calcula el porcentaje de participación en las
Autónomas de España. Después, con ayuda de la elecciones a Cortes Generales de marzo de 2000,
desviación típica, comenta si esta media es teniendo en cuenta los datos de la tabla siguiente:
representativa de todas las comunidades
autónomas. Total electores con derecho a voto Votantes
Andalucía 5.916.783 4.068.793
CC.AA. Nº establecimientos Aragón 1.019.845 728.060
hoteleros Asturias (Principado de) 981.504 657.553
Andalucía 2.266 Baleares (Islas) 652.009 400.559
Aragón 712 Canarias 1.393.410 845.348
Asturas (Principado de) 620 Cantabria 468.607 336.508
Baleares (Islas) 1.483 Castilla y León 2.186.659 1.586.950
Canarias 532 Castilla-La Mancha 1.420.894 1.084.236
Cantabria 496 Cataluña 5.293.465 3.388.128
Castilla y León 1.452 Comunidad Valenciana 3.366.210 2.447.384
Castilla-La Mancha 842 Extremadura 878.292 662.393
Cataluña 2.713 Galicia 2.547.784 1.656.662
Comunidad Valenciana 1.019 Madrid (Comunidad de) 4.317.146 3.111.662
Extremadura 418 Murcia (Región de) 917.217 674.516
Galicia 1.526 Navarra (C. Foral de) 463.892 306.494
Madrid (Comunidad de) 1.242 País Vasco 1.810.666 1.155.999
Murcia (Región de) 209 Rioja (La) 230.427 170.997
Navarra (C. Foral de) 150 Ceuta 55.848 30.801
País Vasco 396 Melilla 48.985 26.450
Rioja (La) 117 ESPAÑA 33.969.640 23.339.490
Ceuta y Melilla 36
(Fuente: INE)
(Fuente: INE)
Solución:

2 2
(Fuente: INE)
Total electores con derecho a voto Votantes % Participación
Andalucía 5.916.783 4.068.793 68,77
Aragón
Asturias (Principado de)
1.019.845
981.504
728.060
657.553
71,39
66,99
Solución:
Baleares (Islas) 652.009 400.559 61,43
Canarias 1.393.410 845.348 60,67
Cantabria 468.607 336.508 71,81
Castilla y León 2.186.659 1.586.950 72,57
Castilla-La Mancha 1.420.894 1.084.236 76,13
Cataluña 5.293.465 3.388.128 64,01
Comunidad Valenciana 3.366.210 2.447.384 72,7
Extremadura 878.292 662.393 75,42
Galicia 2.547.784 1.656.662 65,02
Madrid (Comunidad de) 4.317.146 3.111.662 72,08
Murcia (Región de) 917.217 674.516 73,54 Ejercicios 1 (Parte 2)
Navarra (C. Foral de) 463.892 306.494 66,07
País Vasco 1.810.666 1.155.999 63,84
Rioja (La) 230.427 170.997 74,21
Ceuta 55.848 30.801 55,15
Melilla
ESPAÑA
48.985 26.450
33.969.640 23.339.490
54
68,71
1) En una industria; dos operarios en siete días
de trabajo, son capaces de producir, por día, y en
forma individual una cantidad de adornos de pared.

Operario 105 106 104 102 103 100 101


Pregunta 23
A
Representa mediante un gráfico de sectores la Operario 103 102 107 101 105 102 103
distribución de escaños en las elecciones a Cortes
Generales de 2000. B

Partidos políticos Escaños


PP 183
PSOE 125 Hallar:
CIU 15
IU 8
EAJ-PNV 7 a) Producción media de cada operario.
CC 4
Otros* 8 Solución.-
105  106  ...  101 721
(* BNG, PA, ERC, IC-V, EA, CHA) XA    103 artículos por día
7 7

2 2
103  102  ...  103 723 M d 2  103 artículos por día
XB    103,2857 artículos por dìa.
7 7
Se piden tres medidas de dispersión:
b) Moda del operario A.
S; S2; R=Xmax - Xmin
Solución.-
Considerando los n=14 datos
M d1  100; M d2  101; ... M d7  106; (Multimodal)
14

c) Moda del operario B. X


i 1
i  1(100)  2(101)  3(102)  3(103)  1(104)  2(105)  1(106)  1(107)

M d1  102; M d 2  103;  1444


(bimodal)
8

d) Juntando la producción de ambos obreros; f X


i 1
i i
2
 1(100) 2  2(101) 2  3(102) 2  3(103) 2  1(104) 2  2(105) 2  1(106) 2  1(107) 2

hallar tres medidas de tendencia central y  148992

tres medidas de dispersión. 148992 


(1444) 2
S 14  2,0326
Solución.-  14  1 (artículos)
La media global es:  S  (2,0326)  4,1314
2 2
(artículos)2
7(103)  7(103,2857) 1444,9999
XG    103,14285 
77 14 artículos
R  Re corrido muestral  X max  X min  107  100  7 artículos
por día.
2) Se hace una encuesta a 100 personas acerca
Para el cálculo de la moda junto en total
del número de horas diarias que se dedican a ver
7+7=14 datos:
televisión, obteniéndose la siguiente información:
105 106 104 102 103 100 101
103 102 107 101 105 102 103 Xi fi
Se puede hacer un cuadro de distribución de 0–1 30
frecuencias
2–3 20
Xi 100 101 102 103 104 105 106 107
4–5 15
fi 1 2 3 3 1 2 1 1
6-7 32
M d1  102 artículos por día
8–9 1

2 2
10 – 11 2 3) De un total de 100 datos, 20 son 4, 40 son 5, 30
n 100 son 6 y el resto 7. Hallar la media; la moda y la
Calcule la media, la mediana y la moda. mediana.
Solución.-
Solución.-

Intervalos Xi fi fi X i Fi 4) Cuatro grupos de estudiantes, consistentes en


[0 – 1> 0,5 30 15 30 15, 20, 10 y 18 individuos, dieron pesos de 60, 72, 55
[2 – 3> 2,5 20 50 50Me y 65 kilos. Hallar el peso medio de los estudiantes.
[4 – 5> 4,5 15 67,5 65 5) Las notas de un estudiante en sus exámenes
[6 – 7> 6,5 32 Md 208 97 han sido 84, 78, 72, 68, 87 y 78. Hallar la media, la
[8 – 9> 8,5 1 8,5 98 mediana y la moda.
[10 – 11] 10,5 2 21 100 6) La siguiente tabla corresponde a la estatura de

n=100 370 80 estudiantes de una determinada carrera.

Xi fi
370
X   3,7 1,65 – 6
 100 horas.
 (32  15) 
1,69
 17  17
M d  6  (1)    6  17  31  6  48  6,3541
  (32  15)  (32  1)    horas. 1,70 – 12
 n/2=100/2=50 1,74
 100  1,75 – 30
  30 
M e  2  (1)  2 3
 50  30  1,79
  horas.
1,80 – 22
1,84
1,85 – 8

2 2
1,89 40 – 44 450 656
1,90 – 2 45 – 49 295 409
1,94 50 – 54 174 200
Total 80 Total 1770 2751
ww

a) Hallar la media, mediana y moda de la a) Obtener las medidas de tendencia central por
estatura. separado.
b) Si a cada edad en metros se le suma dos Solución.-
centímetros. Hallar tres medidas de tendencia
Edad Hombre
central y tres medidas de dispersión. ¿Quién o
Intervalos (fi) fi X i Fi
quienes cambian? ¿Por qué?
[15 – 19> 2 2(17)= 34 2
[20 – 24> 80 80(22)=1760 82

7) La oficina de Censo hizo un muestreo y [25 – 29> 174 174(27)=4698 256

proporcionó las edades de hombres y mujeres [30 – 34> 210 210(32)=6720 466

divorciados (en miles de personas de 15 años de [35 – 39> 385 385(37)=14245 851

edad o más). [40 – 44> 450 450(42)=18900 1301


Moda Mediana
Edad Hombre Mujer
[45 – 49> 295 295(47)= 1596
15 – 19 2 2
13865
20 – 24 80 210
[50 – 54] 174 174(52)= 9048 1770
25 – 29 174 303
Total 1770 69270
30 – 34 210 315
Solución.-
35 – 39 385 656

2 2
69270 n 2751
X   39,1355 años   1375,5
1770 2 2

M d  40  4 
( 450  385)   65  1375,5  830   545,5 
  40  4  65  155   41,1818 años M e  35  4    35  4  656   38,3262 años.
 ( 450  385)  ( 450  295)     1486  830   
 1770 
  851
 34 
b) Obtener tres medidas de dispersión por
M e  40  4  2   45  4   45,3022 años
 1301  851   450 
  separado.
Solución.-

Edad Xi Mujer fi fiXi Fi Edad Hombre


15 – 19 17 2 34 2 Intervalos (fi) fi Xi fi Xi 2

20 – 24 22 210 4620 212 [15 – 19> 2 2(17)= 34 578

25 – 29 27 303 8181 515


30 – 34 32 315 10080 830 [20 – 24> 80 80(22)=1760 38720

35 – 39 37 656 Md1 24272 1486


Me [25 – 29> 174 174(27)=4698 126846

40 – 44 42 656 Md2 27552 2142


45 – 49 47 409 19223 2551 [30 – 34> 210 210(32)=6720 215000

50 – 54 52 200 10400 2751


Total 2751 104362 [35 – 39> 385 385(37)=14245 527065

104362 [40 – 44> 450 450(42)=18900 793800


X   37,9360 años
2751

 (656  315)   341


M d 1  35  4    35  4  341  39 años. [45 – 49> 295 295(47)= 651655
 ( 656  315)  ( 656  626 )   

 (656  656)  13865


M d 2  40  4    40 años.
 (656  656)  (656  409)  [50 – 54] 174 174(52)= 9048 470496

2 2
c) Si se juntan hombres y mujeres en una sola
Total 1770 69270 2824160 muestra; hallar tres medidas de tendencia
central y tres medidas de dispersión. ¿Varianza

2824160 
(69270) 2
grande o pequeña? ww
S 1770  8,1639 años
1770  1 Solución.-
S  (8,1639)  66,6492 (años )
2 2 2

R  X max  X min  54  15  39 años

Ed Hom Muj Tot fi X i f i X i2 Fi


Edad Xi Mujer fi fiXi fiXi2
ad bre er al
15 – 19 17 2 34 578
15 2 2 4 4(17)=68 4(172)=1156 4
20 – 24 22 210 4620 101640

25 – 29 27 303 8181 220887
19
30 – 34 32 315 10080 322560
20 80 210 290 290(22)=63 290(222)=140 29
35 – 39 37 656 24272 898064
– 80 360 4
40 – 44 42 656 27552 1157184
24
45 – 49 47 409 19223 903481
25 174 303 477 477(27)=12 477(272)=347 77
50 – 54 52 200 10400 540800
– 879 733 1
Total 2751 104362 4145191
29
30 210 315 525 525(32)168 525(322)=537 12
(104362) 2
4145191  – 00 600 96
S 2751  8,2266 años
2750
34
S 2  (8,2266) 2  64,6769 (años ) 2
35 385 656 104 1041(37)=3 1041(372)=14 23
– 1 8517 25129 37

2 2
39 ** 1) (ok)Sea una muestra conformada por los
40 450 656 110 1106(42)=4 1106(42 )=19 2
34 siguientes números impares: 3, 5, 7, 9, 11, , 2n  1 . Hallar
– 6* 6452 50984 43 la varianza muestral asociada.
44 Solución.-
45 295 409 704 704(47)=33 704(472)=155 41 Los elementos de la muestra forman una serie
– 088 5136 47 aritmética cuya razón es r=2 y la frecuencia
49 absoluta de cada uno de los elementos es fi  1 .

50 174 200 374 374(52)=19 374(522)=101 45 Xi fi X i2

– 448 1296 21 3 1 32
54 5 1 52
Tot 1770 275 452 173632 6969394 7 1 72
al 1 1 9 1 92

2n  1 1 2n  12


173632
X   38,4056 años 2n  1
4521 1 2n  12
 (1106  1041)   65 
M d  44  4    44  4  65  402   44,5567 años
*  (1106  10)  (1106  704)   
n 4521 Se pide calcular la varianza muestral:
  2260,5
2 2
Solución.-
 2260,5  1296   964,5 
M  35  4   35  4   38,7060 años
** e  2337  1296   1041  Se conoce que es una progresión aritmética de
2
(173632)
6969394  razón r =2 ; se tienen las siguientes fórmulas:
S 4521  8,1596 años
4520 an=a1+(n-1)r; Sn=(n(a1+an)) / 2; n=[(an - a1) / r ] +1
S 2  (8,1596) 2  66,5791 (años ) 2 ; R  54  15  39 años
Por lo tanto el número de términos en esta P.A. es:
Ejercicios 2 Parte 2 (11/06/21) n=[(2n+1)-3) / 2 ] +1 = n

2 2
n
( X i ) 2 la empresa un grupo nuevo de obreros igual al 25%
n

X  i
2 i 1
n de los que estaban anteriormente.
Var  X   i 1
n 1
El nuevo grupo ingresa a la empresa con un salario
n
n(a1  an ) n(3  (2n  1))
X i  3  5  7  9  11   2n  1  2n  1    2n  n 2 medio igual al 60% de los antiguos. Dos meses más
i 1 2 2
2 tarde la empresa concede a todos un aumento de

 n( n  1) 
  n( n  1)(2n  1) 
n n n

X i
2
  (3  (i  1)(2))   1  4i  4i 2  n  4 
 2   4  6 
i 1 i 1 i 1
salario de 30 $. Determinar:
n
4 n 3
 12 n 2
 11n
 X i2 
i 1 3
a) El promedio de salarios del total de los dos
Entonces: grupos obreros.
n

n
( X i ) 2 b) Si el aumento hubiera sido del 20% de los
4n 3  12n 2  11n (n 2  2n) 2 n 4  n 2
 X i2  i 1
n

salarios, cuál habría sido la media de los salarios
Var  X   i 1
 3 n  3n
n 1 n 1 n 1
así ajustados.
n3  n
Var ( X ) 
3(n  1) Solución:
Verificaremos la valides de la fórmula para el caso a) Sea:
n=3 con los datos 3; 5; 7. n1 : Número de obreros antiguos
3 3

X i  3  5  7  15
; X i
2
 32  52  7 2  83
. Entonces
i 1 i 1 X1 : Promedio de los salarios de los obreros

83 
(15) 2
antiguos X 1  500  dólares mensuales.
Var ( X )  3  8 4
(3  1) 2
n2 : Número de obreros incorporados n2  0,25 n1 
n3  n 33  3 24
S  Var ( X ) 
2
  4
Según la fórmula 3(n  1) 3(3  1) 6 X2 : Promedio de los salarios de los obreros
incorporados X 2  0,6500  300 $ mensuales.
2) (0k)Los salarios de una empresa son, en n: Número total de obreros actuales n  n1  n2  1,25 n1 
promedio 500 $ mensuales; luego se incorporan a

2 2
X: Promedio de los salarios de todos los obreros El cuadro de ingresos soles se muestran en el
actuales. siguiente cuadro:

X  n1 X 1  n2 X 2  n  500 n1  3000,25 n1  1,25 n1


Haberes Número de
En soles trabajadores
X  460 $ (promedio mensual de todos los obreros 600, 1000 5
de la empresa actual)
1000, 1500 10
Promedio con aumento de salario de 30 $ 1500, 2100 20
Si Xi : salario actual de los obreros, Yi : nuevo salario 2100, 2500 8
de los obreros considerando el aumento de 30 $ 2500, 2600 7
Yi  X i  30
n=50
La media: M Yi   M  X i  30  X  30  460  30  490 $ Observe que los intervalos de clase son de distinta
b) Promedio con un aumento de salario del 20% longitud; pero se trabaja de manera similar como si
La media de Yi  X i  0,2 X i  1,2 X i
fuesen de la misma longitud.
M Yi   M 1,2 X i   1,2 X X  1,2460   552 $.
a) Hallar el sueldo promedio de este grupo de
trabajadores su media muestral y también su
3) La siguiente tabla presenta la distribución de varianza muestral.
sueldos de un grupo trabajadores de una Solución.-
Universidad Nacional durante el mes de julio del Es necesario construir un cuadro de distribución de
2020. frecuencias.
Por el incremento del costo de vida se plantean dos Sueldo Xi fi fi X i f i X i2
alternativas de aumento de sueldo para el mes Mensual
siguiente (Agosto). 600, 1000 800 5 4000 3200000
1000, 1500 1250 10 12500 15625000

2 2
1800 20 36000 64800000 5(800)  10(1250)  20(1800) 52500
X1    1500
5  10  20 35 soles.
2100, 2500 2300 8 18400 42320000
2500, 2600 2550 7 17850 45517500
d) Hallar el sueldo promedio de los trabajadores
Total n=50 88 750 171 462 500 que ganan más de 2100 soles.
88750
X  1775
soles. Solución.-
50

(88750) 2
En este caso hay que considerar los dos últimos
171462500 
S 2  Var ( X )  50  284311,2245 intervalos de clase; resultando:
49 (soles)2.
8(2300)  7(2550) 36250
d .e.  S  Var ( X )  533,2084 (soles) X2    2416,6666
87 15 soles.
Por el incremento del costo de vida se plantean dos También se puede hallar el sueldo promedio de los
alternativas de aumento de sueldo para el mes n=50 trabajadores usando la propiedad de la media
siguiente (Agosto). global:
35(1500)  15(2416,6666) 88749,999
X   1774,9999  1775
35  15 50 soles.
b) La primera propuesta consiste en un aumento
Interva fi Xi fi X i Interva fi Xi fi X i
general de 350 soles mensuales. Hallar el nuevo
los lo
sueldo promedio mensual.
600, 1000 5 800 4000 2100; 2500 8 2300 1840
Solución.-
0
Sea Yi  X i  350 el nuevo sueldo mensual.
1000, 1500 10 125 1250 2500, 2600 7 2550 1785
Entonces Y  X  350  1775  350  2125 soles.
0 0 0
c) Hallar el sueldo promedio de los trabajadores
1500, 2100 20 180 3600
que ganen menos de 2100 soles.
0 0
Solución.-
TOTA 35 5250 TOTA 15 3625
Hay que usar los tres primeros intervalos de clase
L 0 L 0
del primer cuadro; resultando:

2 2
Promedio de los salarios de los trabajadores con
e) La segunda propuesta para subir los salarios aumento de acuerdo a la segunda propuesta:
consiste en un aumento del 30% de los salarios Y  n1 Y1  n2 Y2  n1  n2   35  2050  15  2637,4999  50  2226,2499
de Julio a los trabajadores que ganan menos de
2100 soles y del 5% a los trabajadores que
f) ¿Cuál de las propuestas convendría a los
ganan más de 2100 soles y un aumento adicional
trabajadores?
de 100 soles para todos los trabajadores para
Solución.-
gastos de movilidad.
g) Para los trabajadores que ganan menos de 2100
Solución.-
soles, ¿qué propuesta convendría?
 Sea: Yi1 : nuevo salario para los que ganan menos
h) Si se acepta la segunda propuesta, ¿en la
de 210 mil intis
distribución de salarios del mes de Agosto es
Y1i  X i  30% X i   100
más homogénea que la distribución de salarios
Y1i  1,3 X i  100 del mes de Julio?
Solución: Completamos el cuadro de frecuencias.
Media: Y1  1,3 X 1  100

Y1  1,31500   100  2050


El sueldo promedio global es:
soles.
 52500   36250 
 Sea: Y2i : nuevo salario para los que ganan más 35   15 
   88750
X  35   50    1775
de 2100 soles, 35  15 50 soles.
Y2i  X i  5% X i   100
Promedio de los salarios de la segunda propuesta:
Y2i  1,05 X i  100
 Sea: Yi1 : nuevo salario para los que ganan menos
Media: Y2  1,05 X 2  100
de 210 mil intis
Y1i  X i  30% X i   100
Y2  1,052416,6666  100  2637,4999 soles

2 2
Y1i  1,3 X i  100 b) Primera propuesta: Yi  X i  350 

Y1  X 1  35  1500  350  1850 soles.


Media: Y1  1,3 X 1  100
Segunda propuesta: Y1  2050
Y1  1,31500   100  2050 soles. Conviene la segunda propuesta puesto que su
 Sea: Y2i : nuevo salario para los que ganan más media es mayor.
de 210 mil intis c) La distribución del mes de Julio está dado por el
Y2i  X i  5% X i   100 cuadro siguiente:

Y2i  1,05 X i  100


Xi ni X i ni X i 
2
 X ni
Media: Y2  1,05 X 2  100
80 5 400 47531.25
Y2  1,052416,6666  100  2637,4999 soles 125 10 1250 27562.00
180 20 3600 125.00 Promedio:
Promedio de los salarios de los trabajadores con
X  8875 50  177.5
230 8 1840 22050.00
aumento de acuerdo a la segunda propuesta:
255 7 1785 42043.75 Desviación:
Y  n1 Y1  n2 Y2  n1  n2   35  2050  15  2637,4999  50  2226,2499 S X2  139312 50
50 8875 139312.00
soles.
S X  52.78

a) Primera propuesta Para la distribución del mes de Agosto tenemos


Sea: W: nuevo salario con aumento de 350 soles. que:
Wi  X i  350  W  X  350  1775  350  2125 soles, Yi  1.3 X i  10 i  1, 2, 3
,
Segunda propuesta: Y  2226,2499 Yi  1.05 X i  10 , i  3, 4

Comparando los promedios convendría la segunda


propuesta por que la media de la segunda La distribución para la segunda propuesta está
propuesta es mayor a la primera propuesta. dada por:

2 2
tabla de frecuencias. Por incremento del costo de
Yi ni X i ni Y  Y  n
i
2
i
vida la gerencia de la empresa propone dos

114.00 5 570 58996.95 alternativas de aumento a partir de Octubre.

172.50 10 1725 25125.52


244.00 20 4880 9137.81 Nº de
SUELDOS
251.50 8 2012 6670.12 trabajadores

277.75 7 1944.25 21271.36 100, 150 10

50 11131.25 121201.77 150, 200 14


200, 300 20
Promedio: Y  1131.25 50 300, 400 6

Y  222.625
TOTAL 50

S Y2  121201.77 50  2424.0354
PRIMERA PROPUESTA: Consiste en un aumento de
S Y  49.23 60,000 intis a todos los trabajadores.
SEGUNDA PROPUESTA: Consiste en un aumento
Para determinar que distribución es más
del 35% de sus sueldos.
homogénea se debe comparar las varianzas o
¿Cuál de las propuestas conviene más a los
desviaciones típicas, el de menor varianza será más
trabajadores?
homogénea, luego como SY es menor que SX los
salarios del mes de Agosto será más homogénea.
Solución
4) En una empresa Química, la distribución de los
sueldos (en miles de intis) de los 50 trabajadores en Li , Li 1 Xi ni X i ni
el mes de setiembre se presenta en la siguiente 100, 150 125 10 1250

2 2
175 14 2450 De acuerdo a los nuevos sueldos, parecería que la
200, 300 250 20 5000 segunda alternativa es la que conviene, porque es
300, 400 350 6 2100 291600 intis contra 276000 intis de la primera

TOTAL 50 10800 alternativa.

De acuerdo a la segunda alternativa los


1) Cálculo del sueldo promedio actual trabajadores que ganen entre 30,,, y 40,000 intis
X  1 n   X n 
i i recibirán un aumento promedio de: 350,000  0.35  122,500

X  10800 50  216 mil intis intis, mientras que los que ganan entre 10,000 y
15,000 intis recibirán en promedio 125,000  0.35  43,750
ó 216,000 intis
2) Análisis de las propuestas usando las intis de aumento, por lo que esta alternativa no será
propiedades de la media. adecuada ya que según la primera alternativa
recibirán 60,000 intis, independientemente del
PRIMERA PROPUESTA: Sea Z : el nuevo sueldo a sueldo actual, que será más justo.
partir del mes de octubre de acuerdo a la primera
propuesta,
Z i  X i  60000 , propiedad de la media
Z  X  60000  216000  60000  276000 intis

SEGUNDA PROPUESTA: Aumento del 35% de susu


sueldos. Ejercicios 3 Parte2 (C.V.C.)
Z i  0.35 X i  X i  1.35 X i , por propiedad de la media
1) (ok) Calcular la media, la mediana y la moda de
Z  1.35 X  1.35216000   291600 intis
los datos 2 5 5 6 6 6 7 7 60. Comentar los

2 2
resultados. ¿Cuál de las medias calculadas 2 11
describe mejor el centro de la distribución de 3 16
los datos? 4 17
Respuesta: X  11,5555 , M 0  6 , M e  6 . La medida o 5 9
promedio que mejor describe el centro de la
distribución de datos es la Moda. Usar la información de la tabla para calcular la
media, la mediana y la desviación estándar del
2) El siguiente conjunto de datos, corresponde a número de empleados.
los porcentajes de humedad en diferentes
lugares en una determinada región: 90, 63, 20, 4) Los siguientes resultados indican el
18, 12, 60, 24, 28, 14, 11, 85, 29, 25, 8, 10, 86, 16, rendimiento de dos marcas de llantas:
25, 6, 11, 80, 16, 20, 16, 6.
a) Calcula le media y la desviación estándar s .
Mediana en Media en
Llanta
Respuesta: x  31.1600 s   27.2597 kilómetros kilómetros
b) ¿Qué porcentaje de datos está en el A 25000 27000
intervalo x  2s , x  2s ? B 27000 25000

3) A continuación se presenta la distribución de 53 Si las llantas de cualquier marca se venden al


tiendas de abarrotes de acuerdo al número de mismo precio, ¿qué marca de llanta se
empleados que tienen: recomienda?

Número de Número de
empleados tiendas

2 2
5) Los datos siguientes corresponden al tiempo, 6) Se informa que en el salón B las notas de
en minutos, que demora una oficina “en darle Historia de los alumnos que lo forman se
trámite” a 50 documentos que ha recibido. distribuyen tal como lo indica la siguiente tabla
y en donde fi son las frecuencias relativas.
400 392 358 304 108 156 438 60 360 168
448 224 576 384 194 216 120 208 232 72 Notas fi

264 168 128 256 72 136 168 308 340 64 8, 12 f1

480 114 80 246 224 184 104 112 184 152 12, 16 f2

152 536 224 464 72 152 168 288 264 208 16, 20 f3

a) A partir de la tabla de frecuencias, construir Calcular aproximadamente la media de las notas


el histograma de frecuencias relativas. en B si el 45% tiene una nota inferior a 11 y el
Graficar el polígono de frecuencias relativas. 70% tiene una nota inferior a 17.
Indicar las características de la distribución. Respuesta: Los valores respectivos de las
b) Calcula la media, varianzas, desviación frecuencias relativas son 0.60, 0 y 0.4. La
estándar y el coeficiente de variación de los media es 13.2
datos.
c) Calcular la mediana, utilizando directamente 7) Indicar una lista de 10 números de forma que la
los datos y utilizando la ojiva de la desviación estándar sea lo más grande posible
frecuencia acumulada relativa. con la condición de que:
d) Calcular los porcentajes C10 , C 20 , C 75 y c90 . a) cada número sea un 1 o un 5.
b) cada número sea un 1 o un 5 o un 9 y, a lo
más, dos de ellos sean 5.

2 2
puntos, otro estudiante 3 puntos y así
8) Un investigador toma una muestra de 100 sucesivamente hasta llegar el estudiante
hombres cuyas edades están comprendidas número 99 que logró los 99 puntos.
entre 18 y 24 años de edad en una ciudad a) ¿Existe alguna clase que tenga una media
determinada. Otro investigador toma una de notas superior a las demás o todas las
muestra de 1000 hombres cuyas edades medias son iguales?
también están entre 18 y 24 años. b) ¿Existe alguna clase que tenga una
a) ¿Habrá una muestra con una edad media de desviación estándar de notas superior a las
los hombres más elevada o serán ambas demás o todas las desviaciones estándar
parecidas? son iguales?
b) ¿Habrá una muestra con una desviación
estándar de la edad de los hombres más 10) En un conjunto de números positivos, ¿puede
elevada o serán ambas parecidas? ser mayor la desviación estándar que la media
en alguna ocasión?
9) Tres profesores están comparando las notas de
los exámenes finales. Cada profesor tiene 99 11) Un conjunto está formado por 10 números. Cada
alumnos. En la clase A, un estudiante obtuvo 1 número es: o el 1, o el 2 o el 3.
punto, otro obtuvo 99 puntos, y el resto a) La media es 2 y la desviación estándar es 0.
obtuvieron 50 puntos. En la clase B, 49 ¿Cómo es el conjunto de datos
estudiantes lograron una puntuación de 1, un exactamente?
estudiante logró 50 puntos y 49 alumnos b) La desviación estándar es 1. ¿Cómo es el
llegaron a los 99 puntos. En la clase C, un conjunto exactamente?
estudiante logró 1 punto, otro estudiante 2

2 2
c) ¿Puede ser la desviación estándar superior 4
a 1? 85, 90 14
90, 95 23
12) Un profesor está haciendo a sus alumnos un 95, 100 17
examen que tiene una calificación máxima de 20 100, 105 11
puntos. Su sistema es tal, que las notas deben 105, 110 6
ser necesariamente múltiplos de 5. Al final, una
vez corregidos los exámenes obtiene la a) Graficar la frecuencia relativa y la frecuencia
siguiente distribución de notas: 40% obtuvieron acumulada relativa.
la nota 20, 30% obtuvieron 15, 20% obtuvieron b) Usar las marcas de clase para aproximar la
10 y 20% obtuvieron 5. media, la mediana y la desviación estándar.
a) Si se supone que hay 20 alumnos, ¿se
puede hallar la media y la desviación 14) A continuación se presenta la distribución de
estándar? los tiempos totales, en minutos, que diferentes
b) Si no se sabe el número de alumnos, ¿se estaciones de radio dedican a los avisos
puede calcular la media y la desviación comerciales entre las 8:00 a.m. y 12:00 m.
estándar?

13) La repartición de un grupo de 75 alumnos de un


colegio de acuerdo a su talla en cm, es como se
indica en la siguiente tabla:
Tiempo Número de radios
0.5, 6.5 1
Talla Frecuencia

2 2
2 tal como indica la siguiente tabla ( ni indica la
12.5, 18.5 18 frecuencia).
18.5, 24.5 2
24.5, 30.5 1 Notas ni

30.5, 36.5 10 8, 10 28


36.5, 42.5 0 10, 12 50
42.5,48.5 0 12, 14 22
48.5, 54.5 2
54.5, 60.5 14 De manera aproximada, calcular la nota debajo
de la cual está 40% de las notas. También
a) Usar las marcas de clase para aproximar la calcular, aproximadamente, la mediana.
media y la desviación estándar del tiempo Respuesta: El percentil 40 es 10.48.
que las estaciones de radio dedican a los
avisos comerciales entre las 8:00 a.m. y las 16) Se encontró que en 800 datos la media
12:00 m. aritmética y la desviación estándar eran 9.496 y
b) Calcular el porcentaje de tiempo de avisos 0.345, respectivamente. Una revisión de los
comerciales que están en el intervalo resultados mostró que en lugar del valor 9.56 se
x  3s , x  3s  . introdujo 1.56. Recalcular la media aritmética y
c) Calcular la mediana, utilizando la ojiva de la la desviación estándar.
frecuencia acumulada relativa. Respuesta: 9.506, 0.200.

15) Los 100 alumnos de una sección A se 17) Calcular la media de un grupo de 80 datos que
distribuyen de acuerdo a sus notas de Historia ha sido dividido en tres subgrupos: A, B y C,

2 2
para los cuales se tienen las medias y el número el grupo de mujeres es $ 600. Hallar el sueldo
de datos correspondiente: promedio del personal de la compañía.
x A  50 , N A   A  10 , x B  80 , N B  B   20 , xC  60 ,

N C  C   50 21) La media y la varianza de los tiempos x1 , , xn ,


n
Respuesta: 63.75. utilizados en realizar tareas similares son 14 y
2.89, respectivamente. El costo por realizar cada
18) Aplicando las propiedades de la media, probar tarea es y i  10  0.5 xi  0.1xi2 , hallar la media de los
que si x1 , , xm , es un conjunto de datos cuya costos.
media es x, entonces el conjunto de datos
y1 , , ym , obtenidos al realizar la transformación 22) En una empresa pública el promedio de los
y i  axi  b , donde a
y b son constantes, tienen sueldos de los obreros es 40 unidades

media y  ax  b . monetarias (u. m.) y el de los empleados, 50 u.


m. Si la empresa decide aumentar 20 u. m. a

19) Calcular la media y la desviación estándar de un cada empleado y obrero; hallar el promedio

grupo de 30 datos que ha sido dividido en dos general de los sueldos actuales (considerando

grupos A y B, para los cuales se tiene: el aumento) si el número de obreros es el 10%


x A  50 , N A  10 , s A  5 , x B  80 , N B  20 , s B  8 del número de empleados.

Respuesta: La media es 70 y la desviación Respuesta: 69.09.

estándar, 15.84.
23) Durante el mes de marzo el sueldo promedio de

20) El 70% del personal de una compañía son los trabajadores del sector industrial era de

varones y el resto, mujeres. El promedio de los $100. Para el mes de abril se considera para

sueldos de los valores es $ 700 y el promedio en cada trabajador un aumento del 30%, con
respecto del mes de marzo más un adicional de

2 2
%50. Si el coeficiente de variación en marzo era el valor de la media y la varianza de los datos
de 0.25, ¿se puede decir que la distribución de originales. Halle el valor de la media y la
sueldos en abril es más homogénea? varianza después del aumento.
Respuesta: Si, el nuevo coeficiente de variación Respuesta: La media y la desviación estándar
es 0.1805. originales son: 4.1666, 0.4166.

24) En el mes de enero, el promedio de los salarios 26) El tiempo que 30 operarios demoraron en
de los empleados de una empresa era 40 u. m.; ejecutar una tarea fue registrado en minutos,
en el mes de febrero, la empresa consideró un obteniéndose:
incremento del 25% en el número de empleados
7.0 9.0 11.4 7.2 10.2 13.5 17.0 14.0 14.5 8.0
y con un salario igual al 80% del promedio de
9.1 9.4 13.1 8.5 10.4 15.5 12.0 11.0 11.2 9.6
los salarios de los antiguos empleados. En el
9.2 9.5 15.6 8.4 10.8 13.0 12.5 12.4 10.5 7.8
mes de marzo, la empresa hizo efectivo un
aumento del 25% en el salario de cada uno de
Construir una distribución de frecuencias con
los empleados, más una asignación de 20 u. m.
cinco intervalos de igual longitud y a partir de
por escolaridad. Hallar el sueldo promedio de
ésta estudiar, usando medidas estadísticas
los salarios de los empleados en el mes de
adecuadas las siguientes afirmaciones:
marzo.
a) “Calculando una medida central
representativa para esta distribución, se
25) El coeficiente de variación de un grupo de
deduce que el tiempo promedio de ejecución
datos es 0.1. Si a cada dato se le aumenta
de la tarea por operario llega a superar los
primero el 20% de su valor y luego 5 unidades,
11 minutos”
el coeficiente de variación es igual a 0.05. Halle

2 2
b) “La mitad de los operarios no demoró más Número de hijos A B
de 10.8 minutos” 0 6 8
c) “Un operario cualquiera nunca demoró un 1 9 15
tiempo que excedió al tiempo medio en más 2 23 20
de dos desviaciones estándar” 3 28 15
Si se eligiera al azar uno de los operarios y se 4 22 10
deseara predecir el tiempo en que éste ejecutó
la tarea, da tal manera que el promedio de los Comparar las distribuciones en A y B usando
cuadrados de los errores fuera mínimo, ¿cuál las medias y los coeficientes de variación.
sería el valor de predicción?” a) ¿Las mujeres, de qué comunidad, tienen el
mayor promedio de hijos?
Si se eligiera al azar uno de los operarios y se
b) ¿Para qué comunidad, la distribución del
deseara predecir el tiempo en que éste ejecutó
número de hijos es más homogénea?
la tarea, da tal manera que el promedio de los
errores en valor absoluto fuera mínimo, ¿cuál
28) En un grupo de datos, el 1 se repite el 25% de
sería el valor de predicción?”
las veces y el 2 se repite el 75% restante. Para
a
tal grupo, hallar el valor que hace que la suma
27) La distribución de mujeres cuyas edades 1  a 2   1  a   2  a  
2 2
 2  a 
2
, sea mínima.
fluctúan entre 40 y 50 años, de acuerdo al Respuesta: 1.75.
número de hijos en las comunidades A y B es
como se indica en la siguiente tabla: 29) Las ciudades A, B y C (en ese orden) están
unidas en línea recta por una carretera. La
Número de mujeres distancia entre las ciudades A y B es 4 km,

2 2
mientras que entre B y C la distancia es 5 km.
Se desea construir un centro de recreo en un 33) El aumento de la tasa de cambio en el país

punto de la carretera para un total de 200 niños durante las cuatro semanas del mes de Junio y

distribuidos de la siguiente manera: 25% de los con respecto a la semana anterior fue como

niños viven en A, 35% de los niños viven en B y sigue: 1%, 2%, 3%, y 2%. Calcular, usando la

el resto vive en C. ¿Cuál debe ser la ubicación media geométrica, el aumento promedio de la

del centro de recreo si se considera que el costo tasa de cambio. Si al comenzar la primera

de transporte por cada niño es proporcional a la semana de Junio el dólar costaba 2.10 soles,

distancia recorrida y el costo total al transportar estimar el precio del dólar al comenzar la

a todos los niños debe ser mínima? primera semana de Julio.

Respuesta: La respuesta corresponde a la Respuesta: El aumento promedio de la tasa de

mediana de los valores: 0, repetido 50 veces, 4 cambio es 1.9975%.

repetido 70 veces y 9 repetido 50 veces.


34) Determinar la tasa de crecimiento promedio de
la población en los últimos tres años si en 1992
30) Usando los datos del ejercicio 5, calcular los
la población fue 18000000, en 1993 fue 2000000
percentiles 10, 20, 50 y 70.
y en 1994 fue 25500000. Indicar por qué la media
aritmética no es adecuada para indicar el
31) Usando los datos de la tabla del ejercicio 8,
cambio promedio de crecimiento.
calcular aproximadamente el intercuartil.

32) Durante cuatro años consecutivos un banco 35) La velocidad con que escriben tres personas el

aumentó su capital en 100%, 150%, 300% y mismo texto es 60, 70 y 65 palabras por minuto,

400%. Indicar la tasa de aumento promedio del respectivamente. Calcular la velocidad

capital si al inicio fue 50 millones de dólares. promedio.

2 2
Respuesta: 64.74 palabras por minuto.
38) Una propiedad importante de la media dice que
36) En la siguiente tabla se registrar: el tiempo que si x1 , , xn tienen media x y si y  f x  es una
emplean 5 obreros en fabricar un artículo así función cóncava hacia abajo entonces
como el tiempo total trabajado por cada uno de f x  
1 n

 f x  (Desigualdad de Jensen).
i
n i 1
ellos. Calcular el tiempo promedio que se utiliza
Usando la desigualdad de Jensen, probar que
en fabricar un artículo.
Gx, en donde G es la media geométrica de los
datos.
Tiempo total Tiempo usado
Obreros trabajado en por artículo en
39) Para los datos del ejercicio 5, hallar el sesgo y el
minutos minuto
coeficiente de curtosis. ¿A qué tipo de curva
1 480 0.80
corresponde?
2 480 1.00
3 480 1.20
40) El índice de Gini puede usarse también para
4 480 1.20
analizar la concentración de la población de una
5 240 1.50
determinada región. A partir de la siguiente
información, analizar la concentración de la
37) Dos alumnos desarrollaron, cada uno, una
población.
prueba que tenía 40 “ítems”. El primero hizo una
pregunta cada 2 minutos y el segundo una Número de Población
pregunta cada 2.5 minutos. Calcular el promedio Habitantes
distritos total
de preguntas desarrolladas cada 5 minutos. 500, 1000 320 192000
Respuesta: 2.22 preguntas cada 5 minutos. 1000, 1500 130 143000

2 2
110 187000
2000, 2500 80 192000
2500, 3000 30 79500
3500, 4000 10 34500

2
CAPITULO 3 De forma tal que las observaciones vienen en forma
(04/08/21) de un par ordenado. ( X i ; Yi ) i  1;2; , , , n ; donde n es el
Conceptos básicos de Estadística Descriptiva tamaño de la muestra.
Bidimensional Por ejemplo se han encuestados n  36 hogares;
Prof. Mg. Wilfredo Domínguez C. resultando la siguiente información muestral:

Xi Yi Xi Yi Xi Yi
1) DISTRIBUCIÓNES DE FRECUENCIAS BIDIMENSIONALES (2 3) (3 4) (2 1)
(3 3) (4 3) (4 3)
Lo presentado en las dos partes anteriores se tratado (2 2) (4 2) (2 2)
un estudio descriptivo de datos de tipo (4 3) (3 3) (3 1)
unidimensional, es decir sólo se estudió una sola (3 2) (4 3) (3 3)
variable X ; por ejemplo la estatura de una persona (3 3) (3 1) (2 2)
en metros o la nota final de un curso de un grupo de (2 4) (4 2) (4 1)
(3 3) (2 1) (3 3)
alumnos.
(3 4) (4 3) (2 3)
En muchas ocasiones hay estudiar dos variables (3 2) (3 3) (4 2)
simultáneamente en cada unidad poblacional; en este (4 2) (3 3) (2 2)
caso se está haciendo estadística bidimensional; los (2 1) (4 3) (3 2)
siguientes son ejemplos de esta situación.
De forma tal que las observaciones vienen en forma Como se nota la masa de datos es difusa y no se
de par ordenado. ( X i ; Yi ) i  1;2; , , , n ; donde n es el observa a simple vista características resaltantes;
tamaño de la muestra; X i es la primera característica hay ordenar esta data en un cuadro de distribución
de interés (por ejemplo la estatura una persona); Yi de frecuencias bidimensional; para esto hay que
(peso de la misma persona) hacer proceso de conteo; cada par de datos debe ser
colocada en una celdilla, para obtener las frecuencias
Ejemplo 1. Sea la población compuesta por todos absolutas bidimensional:
los hogares del distrito de San Miguel; se desea
estudiar simultáneamente dos variables en cada  X /Y  1 2 3 4
Total fila 
2 +++ +++++ ++ + 11
hogar: (3) (5) (2) (1)
3 ++ ++ ++++++++ ++ 14
X i : número de integrantes de la familia (2) (2) (8) (2)
4 + +++++ +++++ 11
Yi : número de dormitorios por familia (1) (5) (5) (0)
Total columna  6 12 15 3 n=36

1 2
Observe que este proceso de conteo hay que hacerlo Asociado a toda distribución bidimensional existen dos
con mucho cuidado; pues no hay forma de rehacerlo distribuciones marginales: marginal de X; marginal de
parcialmente, lo que aparece entre paréntesis son las Y.
frecuencias absolutas bidimensionales; que se
presentan en el siguiente cuadro:
a) Marginal de X
Total de filas marcado en color amarillo, se llama
 X /Y  1 2 3 4 Total fila 
2 f11 f12 f13 f14 11 distribución marginal de X ( número de integrantes por
(3) (5) (2) (1) familia); el cual se puede presentar así:
3 f21 f22 f23 f24 14
(2) (2) (8) (2)
4 f31 f32 f33 f34 11 Xi fi X
(1) (5) (5) (0) 2 11
Total columna  6 12 15 3 n=36 3 14
4 11
Tenga presente que las frecuencias absolutas n=36
bidimensionales se representan con dos subíndices
fij; donde i denota la fila; j representa la columna.
Observe que se puede calcular la media muestral; la
Por ejemplo: moda; la mediana de la variable X:
f23=8; indica que 8 familias tiene 3 integrantes y 3 11(2)  14(3)  11(4) 108
 X   3 integrantes por familia.
dormitorios 36 36
f12=5 existen 5 familias que tienen 2 integrantes y 2  Md( X )  3 integrantes por familia.
dormitorios. X 36  X 18
( ) ( 1) X (18)  X (19) 3  3
 Me( X )  2 2
   3 integrantes
2 2 2
Si se suma la primera fila: por familia
f11+f12+f13+f14=3+5+2+1=11; esto significa que
existen 11 familias que tienen dos integrantes.
b) Marginal de Y
Si se suman los elementos de la tercera columna: El total por columna marcado en celeste se llama
f13+f23+f33=2+8+5=15; esto significa que existen 15 distribución marginal de Y (número de dormitorios por
familias tienen 3 dormitorios. familia, y se puede presentar así:

2) DISTRIBUCIONES MARGINALES

3 4
Yj 1 2 3 4 Ejercicio 1 Se han obtenido los siguientes datos de
f j
Y
6 12 15 3 n=36 las edades de los padres (X) y edad de la madre (Y) de
niños nacidos en la maternidad de Lima; en una
En este caso también se puede calcular la media muestra de tamaño n=38:
muestral; la moda; la mediana de la variable Y
(número de dormitorios por familia) X/Y 21 23 27 30 34 35 36 Total
23 2 7
6(1)  12(2)  15(3)  3(4) 87 26 8 2
Y   2,4166 dormitorios. 31 4 1
36 36 35 4 6
 Md(Y )  3 dormitorios. 36 3 1
Total n=38
Y 36  Y 18
( ) ( 1) Y(18)  Y(19) 23
 Me(Y )  2 2
   2,5 dormitorios.
2 2 2 a) Calcule las distribuciones marginales de la
variable X e interprete; y también la marginal de la
3) FRECUENCIAS RELATIVAS BIDIMENSIONALES
variable Y; interprete:
f
hij  ij
n
Resultando el cuadro: b) Obtenga X ; Y ; S X ; S Y ; Md( X ); Md(Y ); Me( X ); Me(Y )

 X /Y 
1 2 3 4 Total
fila
4) DISTRIBUCIONES CONDICIONALES
 Asociado a toda distribución bidimensional existen dos
2
3 5 2 1 11 tipos de frecuencias relativas condicionales:
36 36 36 36 36
3
2 2 8 2 14
36 36 36 36 36
4
a) Distribución condicional de X i dado Yj ; por
1 5 5 0 11
36 36 36 36 36 notación: X i / Y j  i / j ; la frecuencia condicional se
Total columna  6 12 15 3 1
denota por hiX/ j/ Y y es por definición es:
36 36 36 36

Se puede interpretar f ij
hiX/ j/ Y  ; j  1;2;....,n :
f jY
h23  8 / 36  0,2222 ; multiplicando por 100; resulta un
( Elementos de la columna j entre el total de la columna j)
22,22% de los hogares tienen 3 integrantes y 3
Existen n (número de columnas) distribuciones
dormitorios.
condicionales de la forma X i / Y j  i / j

5 6
Ejemplo 2. En el caso del Ejemplo 1)  100(h2X/ 3/ Y )  100(5 /15)  33,3333% ; es decir que de las
 X /Y 
Total fila
1 2 3 4 familias que tienen y=3 dormitorios; el 33,3333%

marginal tienen x=4 integrantes.
de X
2 f11 f12 f13 f14 f1 X  11
(3) (5) (2) (1) b) Distribución condicional de Yj dado Xi ; por
3 f21 f22 f23 f24 f 2X  14 notación: Y j / X i  j / i ; la frecuencia condicional se
(2) (2) (8) (2)
4 f31 f32 f33 f34 f 3X  11 denota por f j / i y por definición es:
(1) (5) (5) (0)
Total columna
 f1Y  6 f 2Y  12 f 3Y  15 f 4Y  3 n=36
f ij
marginal de f j/i  ; : (Elementos fila i entre el total de la fila i)
Y fi X
Existen m (número de filas) distribuciones
condicionales de la forma f j / i i  1,2;....,m
m=3 (3 filas) y n=4 (4 columnas); luego existen 4
distribuciones condicionales.
Ejemplo 3. Para el cuadro del Ejemplo 1) se tiene m=3
h X /Y
i /1 hX /Y
i/2 h X /Y
i/3 h X /Y
i/4
filas y n=4 columnas.
x y 1 y2 y3 y4

2 h1X/ 1/ Y  3 / 6 h1X/ 2/ Y  5 / 12 h1X/ 3/ Y  2 / 15 h1X/ 4/ Y  1/ 3

 X /Y 
Total fila
1 2 3 4

3 hX /Y
2 /1  2/6 X /Y
h
2/ 2 2 / 12 hX /Y
2/3  8 / 15 h X /Y
2/ 4  2/3
2 f11 f12 f13 f14 f1  11
X

(3) (5) (2) (1)


4 h3X/ 1/ Y  1/ 6 h3X/ 2/ Y  5 / 12 h2X/ 3/ Y  5 / 15 h3X/ 4/ Y  0 / 3 3 f21 f22 f23 f24 f 2X  14
(2) (2) (8) (2)
4 f31 f32 f33 f34 f 3X  11
Total
1 1 1 1 (1) (5) (5) (0)
column
 f1Y  6 f 2Y  12 f 3Y  15 f 4Y  3
Total columna
n=36
a

Interpretación.-
 100h2X/ 3/ Y  100(8 / 15)  53,3333% ; es decir que de las Existen m=3 distribuciones condicionales de la forma
familias que tienen y=2 dormitorios el 53,3333% f ij
f j/i ; i  1;2;3
tienen x=3 integrantes. fi X

7 8
Estas se presentan en el siguiente cuadro:
3) X: número de horas de práctica en tipeo.
Y: número de errores de tipeo.
y y 1 y2 y3 y4
4) X: edad de la madre gestante menor de edad.
h Yj//1X h1Y/ 1/ X  3 / 11 h2Y//1X  5 / 11 h3Y/ /1X  2 / 11 h4Y//1X  1/ 11 1 Y: peso del hijo recién nacido.
x 1
h Yj//2X h1Y/ /2X  2 /14 h2Y//2X  2 /14 h3Y/ /2X  8 / 14 h4Y//2X  2 /14 1
5) X: ingreso mensual en soles.
x2 Y: consumo mensual en soles.
f j/3 h1Y/ 3/ X  1/ 11 h2Y//3X  5 / 11 h3Y/ /3X  5 / 11 h4Y//3X  0 / 3 1
x3
6) X: sexo de la persona.
Interpretación: Y: número de días en la semana de consumo
en bebidas con alcohol.
 100h3Y/ /2X  100(8 /14)  57,1481% ; esto significa que el
57,1481 % de las familias que tienen x=2 Existen numerosas formas con que se pueden
integrantes tienen y=3 dormitorios. relacionar dos variables:
 100h2Y//3X  100(5 / 11)  45,4545% ; es decir que el 45,4545%
de familias que tienen x=3 integrantes tienen y=2 a) Relación de tipo lineal:
dormitorios.

5) RELACIÓN ENTRE DOS VARIABLES X; Y


En la práctica y con mucha frecuencia se interesa
conocer la relación existente entre dos variables: X e Y;
mencionemos algunos casos:

Ejemplo 4. b) Relación de tipo parabólica (o cuadrática)


1) X: número de horas dedicadas al estudio
en un curso
Y: nota final obtenida.

2) X: edad de una persona


Y: presión arterial.

9 10
4 14
5 16

a) Hacer un diagrama de dispersión o nube de


puntos o scatter plots. Comente de la posible
linealidad.
b) ¿De qué tipo es la relación lineal?
c) A la data original agregue el par (5; 6) y haga
c) Relación de tipo exponencial nuevamente el diagrama de dispersión ¿Se destruye la
tendencia lineal? Explique
Solución:
a) El diagrama se hace en plano coordenado, en
el eje horizontal se colocan los valores de X
(abscisas) y en el eje vertical los valores de Y
(ordenadas)

Ejemplo 5. La relación más sencilla es sin lugar a


dudas la relación de tipo lineal; se dará un ejemplo a
b) El gráfico muestra una clara relación de tipo lineal
continuación:
en X e Y en sentido positivo; aumenta X aumenta Y;
Consideremos las variables relacionadas:
disminuye X disminuye Y. Es de decir entre las
X: nro. de horas de estudios semanal dedicados a un
variables son directamente proporcionales.
determinado curso.
Y: nota final en dicho curso.
c) La nueva data tiene n=6 pares ordenados; está
dado por:
Xi Yi
Xi Yi
0 5 0 5
2 9
2 9
3 12

11 12
3 12
4 14
5 16
5 6

d) El nuevo gráfico está dado por:

Se observa cierta tendencia lineal entre las


variables X e Y; pero en sentido negativo; es decir:
aumenta X disminuye Y; disminuye X aumenta Y; es
decir las variables son inversamente proporcionales.
Se observa que la linealidad ha “disminuido” por ese
par ordenado (5;6) es discordante con los demás datos.
6) MEDIDAS DE ASOCIACIÓN LINEAL: EL
| COEFICIENTE DE CORRELACIÓN LINEAL DE
PEARSON
Ejemplo 6. Los siguientes datos corresponden a dos
Para medir la asociación lineal entre dos variables X e
variables relacionadas:
Y se usa el coeficiente de correlación lineal entre
X: número de horas semanal de práctica en digitación
ambas variables; y se denota por rXY  r ; este es un
de textos.
número entre -1 y 1; es decir 1  r  1 y cuantifica la
Y: número de errores por página.
asociación lineal entre las variables X e Y; en el
siguiente sentido:
Xi Yi
0 12
2 7 A) En sentido positivo; o directamente
2 6 proporcionales.
3 2
4 0 (1) Si r  1; existe una perfecta asociación lineal en
X e Y en sentido positivo.
Hacer un diagrama de dispersión y analizar si (2) Si 0,95  r  1 ; existe una excelente asociación
linealidad. lineal entre X e Y en sentido positivo.
Solución: (3) Si 0,85  r  0,95 ; existe una buena asociación
lineal entre X e Y en sentido positivo.

13 14
7) (4) Si 0,75  r  0,85 ; existe una regular
asociación lineal entre X e Y en sentido positivo. Xi Yi X iYi X 2i Yi 2
A medida de que el coeficiente de correlación se 0 5 0 0 25
2 9 18 4 81
acerca a cero por la derecha (0 ) ; por ejemplo un 3 12 36 9 144
rXY  0,10 es muy bajo y prácticamente no hay 4 14 56 16 196
5 16 80 25 256
asociación lineal.  X i  14 Yi  56  X iYi  190  X i2  54 Yi 2  702
B) En sentido negativo; o inversamente
proporcionales. Considerando que n  5 (cinco pares de datos);
(1*) Si r  1; existe una perfecta asociación lineal reemplazando:
en X e Y en sentido negativo.
n  X i Yi  ( X i )( Yi )
(2*) Si 1  r  0,95; existe una excelente asociación r 2 2 2 2
( n  X i  ( X i ) )( n  Yi  ( Yi ) )
lineal entre X e Y en sentido negativo.
5(190)  (14)(56) 166 166
(3*) Si  0,95  r  0,85; existe una buena asociación r 2 2
 
5(54)  (14) 5(702)  (56) 74 374 74(374)
lineal entre X e Y en sentido negativo.
166
(4*) Si  0,75  r  0,85; existe una regular asociación r  0,9978
27676
lineal entre X e Y en sentido negativo. Se ha obtenido un coeficiente de correlación muy
A medida de que el coeficiente de correlación se cercano a 1; y está en el intervalo [0,95; 1> y se
acerca a cero por la izquierda ( 0) ; por ejemplo un puede decir que existe una excelente asociación
rXY  0,05 es muy bajo y prácticamente no hay lineal entre X e Y en sentido positivo.
asociación lineal.
La fórmula para el cálculo del coeficiente de Ejemplo 8. Hallar el coeficiente de correlación del
correlación lineal de Pearson es: Ejemplo 3) parte c)
Solución:
r
n X Y  ( X )(Y )
i i i i Xi Yi
( n X  ( X ) )( nY  (Y ) )
2 2 2 2 0 5
i i i i
2 9
3 12
4 14
Ejemplo 7. Hallar el coeficiente de correlación lineal 5 16
para los datos del Ejemplo 3). 5 6
Los cálculos necesarios se resumen en el siguiente
cuadro:

15 16
La data tiene ahora n  6 datos; los cálculos 5 17
necesarios se resumen en el siguiente cuadro: Con el SPSS obtenemos el coeficiente de correlación:

Xi Yi X iYi X 2i Yi 2 x y

Pearson 0,99
0 5 0 0 25 1
Correlation 6**
2 9 18 4 81 x
3 12 36 9 144 Sig. (2-tailed) ,000

4 14 56 16 196 N 6 6
5 16 80 25 256 Pearson
5 6 30 25 36
**
,99 1
Correlation
 X i  19  Yi  62  X iYi  220  X 2  79  Y 2  738 Y
Sig. (2-tailed) ,000
i i
N 6 6

Reemplazando: Observe que el coeficiente de correlación se ha


n  X i Yi  ( X i )( Yi ) vuelto a incrementar; eso debido a que par ordenado
r 2 2 2 2
( n  X i  ( X i ) )( n  Yi  ( Yi ) ) cambiado si está en la tendencia lineal.
6(220)  (19)(62) 142 142
r 2 2
 
6(79)  (19) 6(738)  (62) 113 584 113(584) Ejercicio 2 Verificar con su calculadora el
142 cálculo obtenido en el Ejemplo anterior mediante el
r  0,5527
65992 SPSS.
Observe como ha disminuido el coeficiente de
correlación de 0,9978 a 0,5527; esto ha ocurrido por Ejemplo 10. Considere los tres puntos en el
el dato discordante (5; 6) espacio bidimensional: (0; 4) (1; 3) (2; 2)
Grafique estos tres puntos, comente su linealidad y
halle el coeficiente de correlación. ¿qué explicación
Ejemplo 9. Con la data del Ejemplo 6); cambiar el da a este resultado?
último dato (5; 6) por (5; 17) y calcular el coeficiente de Solución.-
correlación. El diagrama de dispersión (scater-plots) es :
La nueva data es:
Xi Yi
0 5
2 9
3 12
4 14
5 16

17 18
Se observa que los tres puntos son colineales; es decir
están en una misma recta; esta recta es y=4-x; esto implica
que el coeficiente de correlación lineal de Pearson debe ser -
1; pues la asociación lineal es perfecta en sentido negativo.
En efecto el SPSS lo confirma:

correlations
7) AJUSTE DE UNA RECTA POR REGRESIÓN
x y

Pearson
LINEAL SIMPLE POR EL MÉTODO DE LOS MÍNIMOS
1 -1,0
Correlation CUADRADOS.
x
Sig. (2-tailed) ,000 Lo que se va a presentar a continuación es parte de
N 3 3
la estadística que se conoce como análisis de
Pearson

Correlation
-1,0 1 regresión; pero se estudiará su parte básica; pues
y
Sig. (2-tailed) ,000 sólo se consideran dos variables:
N 3 3

**. Correlation is significant at the 0.01 level (2-


Y: variable dependiente o variable respuesta
tailed).
X: variable independiente o variable explicativa o
Ejercicio 3 Comprobar el resultado anterior regresor.
obtenido por el SPSS con su calculadora. Recordemos los datos del Ejemplo 3); si bien los
Ejercicio 4 datos no están alineados en una recta; existe y se
demuestra que hay una recta de mejor ajuste; es
decir hay una recta que se acomoda mejor a los
datos; esto se hace por el principio de los Mínimos
Cuadrados; (M.C.)
La recta de mejor ajuste es dada por:

19 20
Yˆi  a  bXi Observe que el numerador de la primera fórmula ya
se calculó para obtener el coeficiente lineal de
Donde:
Pearson.
Yˆi : se lee yi estimado
a : intercepto con el eje de la ordenadas Y
Ejemplo 11. Con la siguiente data empleada en
b : pendiente de la recta.
el Ejemplo 3) ; hallar la recta de regresión de Y sobre
Si b  0 las variables están relacionadas en sentido
X
positivo.
Solución.-
Xi Yi
0 12
2 7
2 6
3 2
4 0

Si b  0 las variables están relacionadas en sentido Varios de los cálculos ya están hechos para hallar el
negativo. coeficiente de correlación lineal; a continuación se
reproduce un cuadro anterior:
Xi Yi X iYi X 2i Yi 2
0 5 0 0 25
2 9 18 4 81
3 12 36 9 144
4 14 56 16 196
5 16 80 25 256
 X i  14 Yi  56  X iYi  190  X i2  54 Yi 2  702

Se demuestra en estadística matemática las Procedemos a obtener la pendiente de la recta:


siguientes fórmulas:
n X iYi  ( X i )( Yi ) 5(190)  (14)(56) 166
n X iYi  ( X i )( Yi ) b    2,2432
b 2 2
2
n X i  ( X i )
2
5(54)  (14)
2
74
n X i  ( X i )
Por lo tanto:
a  Y  bX

21 22
a  Y  bX 
56 14
 (2,2432 )( )  4,9190
también calculan regresión lineal simple; el
5 5 coeficiente de correlación; la desviación estándar
Por lo tanto el modelo estimado es: muestral y otras cosas más. Con el SPSS

Yˆi  a  bXi  4,9190 2,2432Xi


Model Unstandardized Standardi t Sig.
Coefficients zed
Este modelo sirve para propósitos de predicción:
Coefficients

Yˆ i ei  Yi  Yˆi
Xi Yi B Std. Beta
Error
0 5 4,9190+2,2432(0)=4,9190 e1=5-4,9190= 0,081
2 9 4,9190+2,2432(2)=9,4054 e2=9-9,4054= - 0,4054 17,5 ,00
3 12 4,9190+2,2432(3)=11,6486 e3=12-11,6486= 0,3514 a 4,919 ,281
13 0
4 14 4,9190+2,2432(4)=13,8918 e4=14-13,8918= 0,1082 1
5 16 4,9190+2,2432(5)=16,135 e5=16-16,135= - 0,135 26,2 ,00
 X i  14  Yi  56  Yˆi  55,9998  56  ei  0,0002  0 b 2,243 ,085 ,998
47 0

Más aún se puede hacer un gráfico para mostrar la


bondad del ajuste del modelo:
El modelo hallado sirve para predecir; por ejemplo se
puede predecir la nota que obtendrá un estudiante
que ha estudiado 3,5 horas a la semana; para esto
usamos el modelo estimado;
ˆ
Y (3,5)i  a  b(3,5)  4,9190 2,2432(3,5)  12,7702 puntos.

El modelo de regresión muestral es


Yi  a  bXi  ei  4,9190 2,2432Xi  ei

En general se tiene

Yi  a  bXi  ei  (a  bXi )  ei  Yˆi  ei ; dondeYˆi  a  bXi

Donde los ei son denominados los errores


muestrales; estos ei son positivos o negativos; pero
se demuestra que  ei  0 ; el cual es uno de las
8) PREDICCIÓN USANDO LA RECTA DE
propiedades de los Mínimos Cuadrados. REGRESIÓN POR MÍNIMOS CUADRADOS
El SPSS ver. 21 también hace el cálculo anterior; Una vez obtenida la recta de regresión por Mínimos
incluso las calculadoras científicas de bolsillo Cuadrados; esta puede ser usada para predecir para

23 24
un valor particular X0 y obtener su correspondiente
2 2
valor Y0; por ejemplo es interesante usar el modelo 100R  100r
obtenido para predecir que nota obtendrá un alumno
que estudia 3,5 horas a la semana. Ejemplo 12. Con los datos del Ejemplo 9)
Para esto se usa el modelo de regresión obtenida 2
calcular el coeficiente de determinación R e
por Mínimos Cuadrados (M.C.)
interpretar.
Solución:
Yˆi ( X 0 )  a  b( X 0 ) Por el Ejemplo 5); se ha obtenido:

n  X i Yi  (  X i )( Yi )
Similar para predecir que nota obtendría un r  2 2 2 2
( n  X i  ( X i ) )( n  Yi  (  Yi ) )
estudiante que estudia 4,5 horas a la semana; en este 5(190)  (14)(56) 166 166
r   
caso: 5(54)  (14)
2
5(702)  (56)
2
74 374 74(374)

Yˆi (4,5)  a  bxi  4,9190 2,2432(4,5)  15,0134 puntos. r 


166
 0,9978
27676

9) MEDIDA DE BONDAD DEL AJUSTE DEL


MODELO DE REGRESIÓN LINEAL
Una cuestión interesante es medir o cuantificar que Luego el coeficiente de determinación es dado
2 2
tan bueno es nuestro modelo de regresión lineal 100R  100r ; es decir:
simple; en el sentido saber que tanto explica. 2 2 2
100R  100r  100(0,9978)  99,5604%
La medida más usada es el coeficiente de
2 Es decir el modelo explica un 99,5604 % de la
determinación de notada por R ; este coeficiente es variación de la variable Y
2
tal que: 0  R  1 ; mientras más cercano esté de 1
2
mejor es el modelo; por ejemplo si R  0,98 o
equivalentemente en porcentaje multiplicándolo por
2
100; es decir 100R  100(0,98)  98% ; esto significa que
el modelo explica un 98% de la variación de Y y deja
solamente un 2% sin explicar.
Se demuestra en estadística matemática que para el
modelo de regresión lineal simple se cumple:
2 2
R r
Equivalentemente

25 26
*  ( f j  f j 1 ) 
M d  x j 1  c  
 ( f j  f j 1 )  ( f j  f j 1 ) 
1

(20  10)
M d  92  4( )  96 puntosCI
1
(20  10)  (20  20)
 (20  20) 
M d  96  4   96C.I . puntos
2
 ( 20  20)  ( 20  10) 

n 74
  37
2 2
PRÁCTICA 1 ( ENSAY0) RESUELTO 74
 37
20
M e  92  4( 2 )  92  4( )  96 unidades de CI
57  37 20
1) El siguiente cuadro muestra el cociente de
b) Coinciden las tres medidas de tendencia
inteligencia de un grupo de estudiantes
central ¿por qué?
universitarios:
Solución.-
Intervalos Xi fi Fi fi Xi fiXi2
Las tres medidas de tendencia central coinciden;
[80-84> 82 2 2 164 13448 pues la distribución es estrictamente simétrica.
[84-88> 86 5 7 430 36980
[88;92> 90 10 17 900 81000
[92;96> 94 20 Md1 37Me;Q1 1880 176720 c) Obtenga los tres cuartiles.
[96;100> 98 20 Md2 57; Q3 1960 192080 n 74
[100;104> 102 10 67 1020 104040   18,5
[104;108> 106 5 72 530 56180 4 4
[108-112] 110 2 74 220 24200 74
n=74 7104 684648  17
Total 1,5
Q1  92  4( 4 )  92  4( )  92,3 puntos de CI.
37  17 20
Obs.- Lo que está es rojo es lo que se puso Q2  M e  96 puntos de CI.
originalmente en el examen y lo que está en negro es 3n 3(74)
  55,5
lo que el alumno debería de completar. 4 4
3(74)
 37
18,5
a) Hallar tres medidas de tendencia central e Q3  96  4( 4 )  96  4( )  99,7 puntos de CI.
57  17 20
interprete en cada caso.
Solución.-
d) Una generalización de los cuartiles son los
X  (7104) / 74  96 unidades de C.I.
deciles, que son nueve d1;d2;….;d9.
Bimodal

27 28
¿Qué decil coincide con la mediana?
Solución.-
decil 1: 10% a su izquierda; 90% a su derecha.
decil 2: 20% a su izquierda; 80% a su derecha.
decil 3: 30% a su izquierda: 70% a su derecha.
decil 4: 40% a su izquierda; 60% a su derecha.
decil 5: 50% a su izquierda=Me ; 50% a su izquierda.
b) ¿Existe algún tipo de asociación? Comente.
2) Consideremos las siguientes variables: Solución.-
X: número de máquinas vendidas. Se nota claramente una asociación lineal entre las
Y: precio de las máquinas en miles de dólares variables X e Y en sentido positivo.

Xi Yi Xi2 Yi2 XiYi c) Calcular el coeficiente de correlación lineal e


1 1 1 1 1 interprételo.
2 3 4 9 6 Solución.-
4 4 16 16 16 El coeficiente de correlación lineal de Pearson se
6 4 36 16 24 calcula mediante la fórmula:
8 5 64 25 40 n  X i Yi  (  X i )( Yi )
r  ;
9 7 81 49 63 (
2 2
n  X i  (  X i ) )(
2
n  Yi  (  Yi ) )
2

11 8 121 64 88 n  8 d ato s
14 9 196 81 126 8(3 64)  (5 5)(4 1)
r  2 2

55 41 519 261 364 8(5 19)  (5 5) 8( 2 61)  ( 4 1)


6 57 6 57
   0,9 70 0
1 12 7 4 07 1 12 7( 4 07)
a) Hacer un diagrama de dispersión (nube de Con el SPSS se corroboran los resultados:
puntos o scatter plots)
Solución.-
Correlations
Un diagrama con lápiz o papel muestra: x y

Pearson ,97
1 **
Correlation 0

,00
x Sig. (2-tailed)
0

N 8 8
Pearson ,97
**
1
y Correlation 0

29 30
,00
Sig. (2-tailed)
0

N 8 8

**. Correlation is significant at the 0.01 level (2-


tailed).

d) Hallar la recta de mejor ajuste por Mínimos


Cuadrados.
Solución.-
La recta de mejor ajuste por Mínimos cuadrados e) Use la recta anterior para predecir el precio de
es: una máquina en el caso de que se venda 7 máquinas.
Yˆ i a  bX i ; donde: Solución.-
Hay que predecir el valor de Y para X=7; es decir:
n X iYi  ( X i )( Yi )
b 2 2 Yˆ i(7)  a  b(7)  1,1175  0,5829 (7)  5,1978 miles de dólares.
n X i  ( X i )

3) Consideremos las siguientes variables:


a  Y  bX
X: número de integrantes de la familia
Reemplazando:
Y: número de televisores por familia
n  X iYi  ( X i )(  Yi ) 8(364 )  (55)( 41)
b 2 2
 2
n X i  ( X i ) 8(519 )  (55)
657
b  0,5829
1127 X/Y 1 2 3 Total…
41 55 2 1 5 3 9
a  Y  bX   (0,5529 )( )  1,1175
8 8 3 3 2 3 8
Luego la recta de mejor ajuste es dado por: Total 4 7 6 n=17

Yˆ i a  bX i  1,1175  0,5829 X i a) Hallar las dos distribuciones marginales; e


interprete.
Solución.-
Las dos distribuciones marginales son:
Marginal de X (número de integrantes de la familia);
se suma por fila (marcado en amarillo).

31 32
Marginal de Y (número de televisores por familia); Solución:
se suma por columna (marcado en verde) X 
14100
 94 unidades de CI.
150
(50  30)
b) Hallar el porcentaje de las familias que tienen Md  92  4( )
(50  30)  (50  30)
dos integrantes y dos televisores.
20
Solución.- Md  92  4( )  96 unidades de CI
40
h12=(5/17)=0,2941
150
Expresado en porcentaje  50
Me  92  4( 2 )
100h12=100(5/17)=100(0,2941)=29,41% 100 50
25
Md  92  4( )  96 unidadesde CI
c) Obtener X e Y e interpretar. 50
Solución.- b) Coinciden las tres medidas de tendencia
2(9)  3(8) 42 central ¿por qué? (2,5p)
X   2,4705 integrantes.
17 17 Solución.-
Las tres medidas de tendencia central coinciden,
4(1)  7(2)  6(3) 36 pues la distribución es estrictamente simétrica.
Y    2,1176 tv. por familia.
17 17 c) Obtenga los el primer cuartil. (2,5p)
Solución.-
150
 20
PRÁCTICA 2 DE ENSAYO Q1  88  4( 4 )
50  20
Q1  88  4(17,5 / 30)  90,3333unidadesde CI
1) El siguiente cuadro muestra el cociente de
inteligencia de un grupo de estudiantes d) Una generalización de los cuartiles son los
universitarios: deciles, que son nueve d1;d2;….;d9.
Intervalos Xi fi Fi fi Xi ¿Algún decil coincide con Q1? (2,5p)
[84-88> 86 20 20 1720 Solución.-
[88-92> 90 30 50 2700 Por definición el primer cuartil Q1 deja 25% de las
[92-96> 94 50 100 4700 observaciones ordenadas a su izquierda.
[96-100> 98 30 130 2940 d1: deja 10% a su izquierda.
[100;104> 102 20 150 2040 d1: deja 10% a su izquierda..
Total n=150 14100 d3: deja 30% a su izquierda.
a) Hallar tres medidas de tendencia central e Por lo tanto ningún decil coincide con mediana.
interprete en cada caso. (2,5p)

33 34
n5
2) Consideremos las siguientes variables: 5(197)  (32)(26)
r 2 2
X: número de computadoras vendidas. 5(258)  (32) 5(154)  (26)
Y: precio de las computadoras en miles de soles. 153 153 153
r    0,9675
Intervalos Xi fi Fi fi Xi 266 94 266(94) 25004
[84-88> 86 20 20 1720 Existe una excelente asociación lineal entre X e Y
[88-92> 90 30 50 2700
en sentido positivo.
[92-96> 94 50 100 4700
[96-100> 98 30 130 2940
[100;104> 102 20 150 2040 d) Hallar la recta de mejor ajuste por Mínimos
Total n=150 14100 Cuadrados. (2,5p)
Solución.-
a) Hacer un diagrama de dispersión (nube de
puntos o scatter plots) (2,5p) n  X iYi  ( X i )(  Y ) i
b 2 2
Solución.- n X i  ( X i )
153 153
b 2
  0,5751
5(258 )  (32) 266
26 32
a  Y  bX   (0,5751)  1,5193
5 5
Yˆi  1,5193  0.5751 X i

Práctica 2 de Ensayo (Sin resolver)


b) ¿Existe algún tipo de asociación? Comente.
(2,5p) 1) El siguiente cuadro muestra duración (en
Solución.- miles de horas) de un componente electrónico
En el gráfico anterior se nota una relación lineal
entre ambas variables en sentido positivo,
c) Calcular el coeficiente de correlación lineal e Intervalos Xi fi Fi fi Xi
interprételo. (2,5p) [0,6-0,75> 25
Solución.- [0,75-0,90> 28
32
19
12

35 36
a) Hallar tres medidas de tendencia central e 5 2
interprete en cada caso.
Solución.-
a) Hacer un diagrama de dispersión (nube de
¿Cuáles son las duraciones con mayor incidencia puntos o scatter plots). ¿Existe asociación lineal?
en esta masa de datos? Explique
Solución.- Solución.-

b) Decir si es V o F la siguiente afirmación: b) Calcular el coeficiente de correlación lineal e


” Si se disminuye 0,2 miles de horas de duración interprételo.
a cada una de los datos entonces la media muestral Solución.-
aumenta en 0,2 miles y también la mediana aumenta
en 0,2 miles de horas”
JUSTIFIQUE c) Hallar la recta de mejor ajuste por Mínimos
Solución.- Cuadrados.
Solución.-
c) Una generalización de los cuartiles son los
deciles que dividen a la masa de datos ordenados en d) Usar la parte c) para predecir el valor de Y
10 partes. para 2,8
¿Algún decil coincide con Q3? Solución.-
Solución.-

d) Calcular dos medidas de dispersión.¿Varianza


grande o pequeña?. Justifique
e) Calcular dos medidas de dispersión.
GUÍA 2 DE EJERCICIOS CAPÍTULO 3
2) Consideremos las siguientes variables X e Y
tales que:
Xi Yi Xi2 Yi2 XiYi
1) La distribución de la producción de minerales, en
1 4
2 5 toneladas métricas de un país, durante los años
3 3
1985, 1986, 1987, 1988 y 1989 fue como sigue:
4 1

37 38
xi 200 300 400 600 900
1985 1986 1987 1988 1989 yi 180 270 320 480 700
Cobre 10000 12000 15000 11000 13000
Oro 2 2.5 0.89 3.2 2.4
a) la gráfica de dispersión de los puntos x, y .
Hierro 80000 77000 75000 78000 82000
b) el índice de correlación.
c) la recta de ajuste de mínimos cuadrados de Y
Representar la distribución con una o más gráficos
en X . ¿Ajusta satisfactoriamente esta recta a
de tal modo que se puedan hacer comparaciones
los datos? ¿Qué porcentaje de la varianza de
entre las producciones de los diferentes minerales.
los valores de Y explica la recta de regresión?
Respuesta: b) r  0.9991 , c) y  36.2337 0.7370x , el
2) La distribución de la población, en millones de
porcentaje de la varianza de los valores y que la
personas de un país entre los años 1985 y 1989 en
recta explica es 99.82%.
las regiones A, B y C APARECEN EN LA SIGUIENTE
TABLA. Realizar gráficos adecuados para estudiar 4) Un investigador de una fábrica de refrescos ha
el movimiento de la población. tomado al “azar” 8 semanas del año, observando
Año A B C en cada semana la temperatura media, X , y la
1985 60 30 10 cantidad de refrescos, Y , pedidos durante cada uno
1986 58 32 10 de dichos períodos. La información es la siguiente:
1987 70 25 5
1988 75 20 5 X 10 28 12 13 30 19 24 5
1989 76 22 2 Y 21 65 19 72 75 36 67 24

3) Con los datos de la tabla que se acompaña, a) Hallar e interpretar el índice de correlación.
relacionados con ingresos  X  y consumo Y  de 5 b) Calcular la recta de regresión de Y en X.

personas, hallar:

39 40
c) ¿Qué porcentaje de la varianza total de la 53 43 46 47 49 55
cantidad de refrescos pedidos explica la recta 54 44 46 49 51 60
de regresión?
d) Estimar la cantidad de refrescos pedidos en una a) Encontrar el índice de correlación entre X e Y.
semana si la temperatura media ¿Es correcta la suposición lineal entre X y Y?
correspondiente a esa semana es de 20 grados. b) Hallar la recta de mínimos cuadrados de X en Y

e) Si cuando la temperatura fue de 25 grados, el .


número de pedidos no se conociera, ¿cuál sería c) ¿Qué porcentaje de la varianza total de Y

el número de pedidos de refrescos que se explica la recta hallada en b)?


espera? d) ¿Qué longitud tiene aproximadamente un
Respuesta: r  0.9458, b) y  0.7890 2.3439x , c) 89.47% carrete que pesa 43.5 libras? ¿Es correcta la
aproximación?
5) Para estimar la longitud de un carrete de alambre y
Sugerencia: Los pares que indica la tabla son: (50,
suponiendo previamente que existe una relación
40), …, (50, 44), (51, 41), …, (54, 44), …, (54, 60).
lineal entre la longitud Y y el peso X del alambre, se
tomó una muestra de 25 pares de valores x e y , 6) Los pares x1, y1 , , xn , yn  se repiten k1 , , kn veces,
correspondientes al peso y la longitud, respectivamente, hallar el índice de correlación
respectivamente. La distribución de frecuencias correspondiente.
aparece a continuación:
7) Al hacer una investigación entre las horas de
Y X estudio y el rendimiento en Matemática un grupo de
(pulgadas) (libras) alumnos se han determinado los siguientes
50 40 41 42 43 44 indicadores:
51 41 43 44 46 46
52 41 44 45 48 57
Horas de Rendimiento

41 42
estudio Si un empleado tiene un ingreso de $760, ¿qué
Media 8 14 porcentaje del ingreso se estima que lo dedica en
Desviación estándar 2 3
educación?
r  0.9

9) El gerente de personal de una fábrica de artículos


a) Hallar la ecuación de la recta de regresión del
electrónicos prepara un manual de pruebas de
rendimiento Y en horas de estudio X.
aptitud para candidatos a fin de conocer su
b) Si un alumno acostumbra estudiar A horas,
productividad en el departamento de ensamble.
pero por diferentes motivos estudió 2 horas
Para esto, selecciona una muestra de 20 candidatos
menos, ¿en cuánto se espera que baje su
quienes rinden la prueba y posteriormente se les
rendimiento?
asigna una tasa de producción. Al graficar los
Respuestas: a) 3,2  1.35x , b) 2.70
pares x, y , donde x corresponde al rendimiento X e
y corresponde a la tasa de productividad Y de cada
8) Una encuesta dio los siguientes datos sobre el candidato, se observó una cierta relación lineal.
ingreso y el gasto mensual en educación para las Los datos se pueden resumir como sigue:
familias de los empleados de una compañía y su
ingreso.
 X  1101, Y  1122,  X 2
 68005, Y 2
 69994,  XY  68740

Ingreso promedio = $600, desviación estándar del


a) Encuentre la recta de regresión.
ingreso = $60, promedio de gastos en educación =
b) Calcular el porcentaje de la varianza total de la
$170, desviación estándar del gasto = $16,
tasa de productividad que el rendimiento
correlación entre el ingreso y el gasto = 0.95.
obtenido explica.
c) ¿Qué tasa de productividad se espera que
tenga un candidato que tiene calificación de 88?

43 44
Respuesta: x  55.05 , y  56.10 , CovX , Y   348.6895,  X  19.23 , 11) Resolver las ecuaciones normales
 Y  18.77 , r  0.9660. correspondientes al método de los mínimos
cuadrados.
a) y  4.1933 0.9429x .

12) Probar que  yi  y yi  yi   0 .


n

10) Una compañía de alimentos maneja una cadena de i 1

tiendas al menudeo. Para medir la eficiencia de las


tiendas, se estudió la relación del número de 13) Ajustar los datos de la siguiente tabla a una curva
empleados, X, y el promedio del volumen de ventas de la forma y  Abx

mensuales, Y , expresado en dólares para todas las


tiendas durante el año pasado. La gráfica de los xi 2 3 4.5 6
datos indica que aproximadamente existe una yi 11 25 45 98
relación lineal. Los datos se pueden resumir como
sigue: n  100 = número de tiendas. Respuesta: La curva es y  4.36531.6897
x

 X  600, Y  1600,  X 2
 5200, Y 2
 37700,  XY  13600
a) Encontrar la ecuación de la recta de regresión. 14) Para diferentes compañías, los valores x en la
b) Calcular el porcentaje de la varianza de las siguiente tabla corresponden a las inversiones en
ventas que es explicada por el número de investigación, en millones de soles, mientras que
empleados. los valores de y corresponden a los beneficios
c) La tienda número 64 emplea 10 personas y sus obtenidos, en millones de dólares.
ventas mensuales son de $20000 dólares,
¿difieren, significativamente, las actividades de xi 2 3 4.5 6
esta tienda con respecto a las otras tiendas? yi 150 200 580 1130

45 46
a) Hallar la gráfica de los pares x, y en un sistema e) ¿Cuál es la ecuación de la curva que mejor
de ejes coordenados cartesianos X Y . ajusta a los puntos xi , yi ? Con la ecuación de la
b) Hallar la gráfica de los pares x, y en un sistema recta de mejor ajuste aproximar el valor de y

de ejes coordenados cartesianos X  lnY  . para x  5.5 .

c) ¿Sugiere la gráfica en a), alguna relación lineal


entre x y ln y ? 16) Calcular el índice de correlación de Spearman entre
el orden de mérito general y las notas de Geografía
15) correspondientes a 10 alumnos de cuarto grado de
a) Graficar los puntos x p yi  de la siguiente tabla: primaria y que se indica a continuación:

xi 0.5 1.2 3 4.5 5 Orden de


1 2 3 4 5 6 7 8 9 10
yi 0.2 1.6 10 21 25 mérito
Nota en
17 14 17 15 12 13 15 12 11 09
en un sistema de ejes coordenados cartesianos Geografía

X Y . Calcular el índice de correlación entre X e


Y.
Respuesta: 0.8030.

b) Hallar la recta de mínimos cuadrados para los 17) Durante un cierto tiempo, las personas con nivel

puntos xi , yi . educativo más elevado tendían a sufrir períodos de


desocupación más cortos. ¿Protege la educación
c) Graficar los datos en un sistema lnX   lnY  . Hallar
contra la desocupación?. Si se desea evaluar de
el índice de correlación entre lnX  y lnY  .
forma justa el efecto del nivel educativo sobre la
d) Hallar la ecuación de la recta de mejor ajuste a
desocupación, ¿qué factor debe ser controlado?
los puntos lnxi  , lnyi  . ¿Ajusta esta recta
satisfactoriamente a los puntos indicados.

47 48
18) En cierto país se notó que la correlación entre el
consumo diario de grasas por persona y la tasa de Nivel socioeconómico
mortalidad por cáncer al colon era positiva y Opinión Bajo Medio Alto
elevada. Ello se empleó para argumentar que la Lo aprueba 48 47 52
grasa en la dieta causa la aparición de cáncer al No lo aprueba 52 53 48
colon. ¿Es fiable esta evidencia? 100 100 100

19) Los resultados de diversos estudios muestran que


Introduciendo la variable de control “religiosidad”,
existe una correlación negativa entre las horas que
medida por asistencia o no a misa, se obtuvo los
la gente ve televisión y las calificaciones que
siguientes datos porcentuales:
obtienen en test de lectura. ¿Es el hábito de ver la
televisión la causa que disminuya la capacidad de Asistencia a Misa No asisten a Misa
lectura de la gente? Nivel Nivel
socioeconómico socioeconómico
Opinión Bajo Medio Alto Bajo Medio Alto
20) La relación entre el hábito de fumar y las
Lo aprueba 42 25 21 62 66 74
enfermedades cardíacas es un resultado que No lo aprueba 58 75 79 38 34 26
aparece en muchos estudios. Un estudio ha puesto 100 100 100 100 100 100

en evidencia una relación entre el hábito de beber


café y las enfermedades cardíacas. ¿Podemos ¿Qué puede afirmar acerca de la información que
concluir que beber café provoca enfermedades se lee en las tablas anteriores?
cardíacas?
21) En un estudio de la opinión sobre el control de la 22) Se está estudiando las tasas de delincuencia en las
natalidad de los habitantes de una comunidad, se ciudades de un país. Los primeros resultados han
hallaron los resultados porcentuales que se puesto de manifiesto una cierta relación lineal
presentan en la siguiente tabla: positiva (0.33) entre la proporción de población de
inmigrantes en las ciudades y la tasa de

49 50
delincuencia. Sin embargo, se sospecha que la país se calculó la correlación entre las siete medias
relación es espuria y se debe, en realidad a los de la renta y las siete medias del nivel educativo
efectos de otras variables: tasa de desempleo, correspondientes. El resultado fue r  0.93 , muy
tamaño de la ciudad. Las correlaciones de estas distinto del 0.4 inicial. ¿Cuál resultado explica
últimas variables con las variables originales se mejor la realidad? ¿Por qué?
observan en la siguiente tabla de correlaciones.
24) Un estudio determinó que para once países la
% inmigrante Tasa de Tamaño de Tasa de correlación entre el número promedio de cigarrillos
desempleo población delincuencia
(por persona) y el porcentaje de muertes por cáncer
% inmigrante 1.00 0.49 0.38 0.33
de pulmón es igual a 0.9. Esta cifra se tomó como
Tasa de desempleo 0.49 1.00 0.26 0.60
Tamaño de población 0.38 0.26 1.00 0.47 demostración de la importante relación entre
Tasa de delincuencia 0.33 0.60 0.47 1.00 tabaco y cáncer. ¿Qué comentarios se pueden
realizar al respecto?
¿La información indicada en la tabla, confirma la
sospecha del investigador?

23) Las correlaciones llamadas ecológicas se realizan


entre proporciones o medios y son muy utilizadas
en política. Deben utilizarse con sumo cuidado.

En un cierto estudio en un determinado país se


calculó la correlación entre la renta y el nivel
educativo de los hombres de 25 a 64 años. El
resultado fue r  0.4 . Posteriormente y tomando en
cuenta las siete regiones en que estaba dividido el

51 52

También podría gustarte