Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Walter Luna
Sergio Pavletich
Ana Valdivia
Presentacin
La presente gua del curso Estadstica (EST145) de Estudios Generales
Ciencias de la Pontificia Universidad Catlica del Per ha sido elaborada con la finalidad de brindar a los alumnos un material que apoye el proceso educativo y
una herramienta que colabore en el dictado de las clases. Es muy importante indicar que este material no sustituye la clase del profesor y tampoco equivale a un libro de texto.
Los autores agradeceremos que los usuarios de esta gua nos hagan llegar
sus crticas y comentarios a esta publicacin a fin de contar con una retroalimentacin importante para la mejora de las siguientes ediciones.
Ana Valdivia L.
Walter Luna F.
Sergio Pavletich S.
Contenido
Captulo 1. Nociones de Estadstica Descriptiva ................................................................. 5
1.1. Conceptos bsicos ...................................................................................................................5
1.2. Organizacin y tratamiento de datos ....................................................................................13
1.3. Grficos y tablas estadsticas .................................................................................................16
1.4. Estadsticos de posicin .........................................................................................................26
1.5. Medidas de tendencia central ...............................................................................................31
1.6. Medidas de dispersin ..........................................................................................................40
1.7. Indicadores de asimetra .......................................................................................................48
1.8. Estadstica bivariada para datos categricos .........................................................................54
1.9. Estadstica descriptiva bidimensional: Regresin lineal simple .............................................67
Estadstica EEGGCC
Estadstica Descriptiva
Son mtodos y tcnicas de recoleccin, caracterizacin y presentacin que permiten describir, apropiadamente, las caractersticas de un conjunto de datos. Comprende el uso de grficos, tablas y medidas resumen adems de otras tcnicas.
Estadstica Inferencial
Son mtodos y tcnicas que hacen posible estudiar una o ms caractersticas de una poblacin o
tomar decisiones sobre la poblacin basados en el resultado de muestras. La generalizacin de los
resultados muestrales a toda la poblacin cae en el dominio de la Estadstica Inferencial; en dicha
generalizacin juega un papel muy importante la probabilidad.
Ejemplo 1
Indique si las siguientes afirmaciones son de tipo descriptivo o inferencial:
a) El 32% de los encuestados cuenta con servicio de internet en casa. _______________________
b) La edad media de los estudiantes seleccionados es 19 aos. _____________________________
c) Sueldos de profesionales peruanos estn estancados en S/.2300 desde 2004. _______________
d) El 47% de las personas encuestadas es de sexo femenino. _______________________________
e) El 23% de los peruanos ha visitado Machu Picchu por lo menos una vez. ____________________
Poblacin
Es el conjunto de todos los elementos de inters en determinado estudio.
Los elementos que forman la poblacin pueden ser personas, cosas, animales, instituciones, etc.
A cada elemento de la poblacin se le llama unidad estadstica.
Muestra
Es un subconjunto de elementos de la poblacin.
Cuando el objetivo es hacer inferencia estadstica es necesario que la muestra sea seleccionada
de acuerdo a un diseo aleatorio, es decir, que sus elementos sean escogidos al azar.
Notas
Estadstica EEGGCC
Ejemplo 2
El Programa para la Evaluacin Internacional de Alumnos de la OCDE (PISA, por sus siglas en ingls)
es el estudio internacional en educacin de mayor escala del mundo. Evala estudiantes de 15 aos
de edad que estn cursando algn grado de secundaria en comprensin lectora, matemtica y ciencias. El Per se reintegr a este programa para la evaluacin del 2009. Defina la poblacin del estudio
para el caso peruano.
Resultados del estudio PISA 2013 por pases
Puesto
1
2
3
4
M
65
66
Pas
Shanghai-China
Singapur
Hong Kong-China
Taipei
M
Indonesia
Per
Comprensin lectora
Matemtica
Ciencias
613
573
561
560
M
375
368
570
542
545
523
M
396
384
580
551
555
523
M
382
373
Ejemplo 3
Se desea determinar el porcentaje de choferes de transporte pblico en Lima Metropolitana que
tiene al menos una multa de trnsito pendiente de pago. Defina la poblacin para este estudio.
Ejemplo 4
Se desea determinar el porcentaje de agencias del Banco de Crdito con menos de 25 trabajadores.
Defina la poblacin.
Notas
Estadstica EEGGCC
Variable estadstica
Una variable es una caracterstica que interesa observar o medir en las unidades estadsticas de la
poblacin de inters y que puede asumir al menos dos valores diferentes.
Una variable estadstica es una funcin que a cada elemento de la poblacin le asigna un nmero.
Los nmeros se asignan de acuerdo con una escala y representan la medicin de una determinada caracterstica en cada unidad estadstica.
En una poblacin se pueden definir muchas variables estadsticas.
Dato
Es el valor de la medicin de una variable, realizada en una unidad estadstica.
Ejemplo 5
En una investigacin, se quiere estimar el porcentaje de personas, por sexo y por grupos de edades,
que votaran por cierto candidato a la presidencia del Per. Indique la poblacin, las variables a medir y sus rangos.
Ejemplo 6
En una investigacin, se quiere estimar el tiempo promedio diario de conexin a Facebook para un
grupo de adolescentes de 12 a 15 aos. Indique la poblacin y la variable a medir.
Ejemplo 7
En una investigacin, se quiere estimar el porcentaje de peruanas, en edad frtil, que usan mtodos
anticonceptivos no naturales. Indique la poblacin y la variable a medir.
Notas
Estadstica EEGGCC
Parmetro
Es un valor que describe una caracterstica de la poblacin.
Para calcular un parmetro se requiere medir la caracterstica de inters en todos los elementos que
conforman la poblacin.
Estadstico
Es un valor que describe una caracterstica de la muestra.
Para calcular el estadstico se usan las mediciones de la caracterstica de inters en los elementos
que conforman la muestra de estudio.
Ejemplo 8
Poblacin: Alumnos regulares matriculados en EEGGCC en el semestre 201502.
Parmetro: Edad media, en aos, calculada con todas las edades de los alumnos en la poblacin.
Parmetro: ______________________________________________________________________
Muestra: Un conjunto de 100 alumnos regulares matriculados en EEGGCC en el semestre 201502,
seleccionados al azar.
Estadstico: Edad media, en aos, calculada con las edades de los alumnos en la muestra.
Estadstico: _________________________________________________________________________
Ejemplo 9
Segn los Censos Nacionales X de Poblacin y V de Vivienda 2007 ejecutados por el INEI, el 50,06%
de los peruanos es mujer. Indique si este valor es un parmetro o un estadstico.
Ejemplo 10
Segn una encuesta reciente realizada por Ipsos Per, el 54% de los encuestados opin que el alcalde
de Lima, Luis Castaeda, debe continuar con la reforma del transporte. Indique si este valor es un
parmetro o un estadstico. (Fuente: http://www.rpp.com.pe/2015-02-16-ipsos-limenos-pasan-1-hora-y-45-minutos-por-dia-entransporte-publico-noticia_769867.html)
Ejemplo 11
En una muestra de viviendas del rea urbana de Ica se observ que en el 35% de los casos, el material predominante de las paredes exteriores era adobe. Indique si este valor es un parmetro o un
estadstico.
Notas
Estadstica EEGGCC
Tipos de variables
Las variables se pueden clasificar en cualitativas o cuantitativas.
Variables cualitativas
Son las variables que miden una cualidad. Son de carcter no numrico y por lo general clasifican a
las unidades estadsticas en categoras.
Algunos ejemplos de variables cualitativas son: gnero de una persona, sector industrial al que pertenece una empresa, tipo de material de construccin de una vivienda.
Variables cuantitativas
Son variables que miden una cantidad. Son de carcter numrico.
A su vez, las variables cuantitativas se pueden clasificar en discretas y continuas.
Tipo de variable
Estadstica EEGGCC
10
Escala de medicin
Regla de asignacin de nmeros para las mediciones realizadas en cada unidad estadstica respecto a
una variable de inters.
Nominal
Los nmeros asignados segn una escala nominal clasifican a las unidades estadsticas en categoras
iguales o diferentes. Estos nmeros solamente se usan como etiquetas que identifican a cada unidad
estadstica como perteneciente a una determinada categora de la variable de inters; por lo tanto,
con estos valores no debe realizarse comparaciones de orden u operaciones aritmticas.
Ejemplos: Sexo: 1 = femenino; 2 = masculino.
Estado civil: 1 = casado; 2 = soltero; 3 = viudo; 4 = otro.
Ordinal
Una escala ordinal funciona como una escala nominal pero los nmeros asignados a las unidades
estadsticas tienen la propiedad adicional de reflejar el orden existente entre las diferentes categoras de la variable medida. Los valores de una escala ordinal se asignan segn el mayor o menor grado en el que se encuentre presente la caracterstica de inters en cada unidad estadstica, por lo
tanto, con estos valores s se pueden realizar comparaciones de orden pero no operaciones aritmticas.
Ejemplos: Escala de pagos de un alumno de la PUCP: 1, 2, 3, 4, 5.
Grado de instruccin: 1 = primaria completa; 2 = secundaria completa; 3 = superior completa.
Grado de satisfaccin de un cliente: 1 = muy insatisfecho; 2 = insatisfecho; 3 = satisfecho; 4 = muy
satisfecho.
Notas
11
Estadstica EEGGCC
Intervalo
Una escala de intervalo tiene las propiedades de una escala ordinal pero adems cuenta con una
unidad de medida y por lo tanto tiene sentido medir e interpretar las distancias entre los valores de
la escala. En una escala de intervalo, las diferencias entre los valores asignados a las unidades estadsticas proporcionan informacin acerca de la diferencia en el grado en que se presenta la caracterstica observada. Por ejemplo, la diferencia de temperatura entre 10 C y 15C es la misma que entre
30C y 35C; en ambos casos se observa un incremento de cinco grados centgrados.
Una escala de intervalo no tiene un cero real o absoluto sino un cero relativo, definido arbitrariamente y que no indica ausencia de la caracterstica medida, por esta razn, es incorrecto afirmar, por
ejemplo, que 20C representa el doble de temperatura que 10C ya que si empleamos una escala
diferente para medir temperatura esta relacin no se mantiene (10C = 50F, 20C = 68F pero 68 no
es el doble de 50).
Ejemplos: Temperatura, en grados centgrados.
Altura de una ciudad, en metros sobre el nivel del mar.
Ejemplo 13
Calcular cuntos grados Fahrenheit corresponden a X grados centgrados, si se sabe que las temperaturas 10C y 20C equivalen a 50F y 68F respectivamente.
Solucin
De los datos, podemos plantear de la siguiente ecuacin
X 10 Y 50
9
, de donde Y = X + 32
=
20 10 68 50
5
Notas
12
Estadstica EEGGCC
Razn
Una escala de razn tiene las caractersticas de una escala de intervalo y, adems, cuenta con un cero
absoluto que indica ausencia total de la propiedad medida; por ello, los nmeros asignados a las
unidades estadsticas reflejan las cantidades de la caracterstica que se mide. La proporcin entre dos
valores de una escala de razn corresponde a la misma proporcin entre las cantidades de la caracterstica medida.
Ejemplos: Sueldo bruto mensual, en nuevos soles, de los empleados de una empresa.
Tiempo, en minutos, que tarda un alumno en terminar una prueba de agilidad mental.
Peso, en kilogramos, de una persona.
Ejemplo 14
Indique el tipo y la escala de medicin adecuada para las siguientes variables.
Variable
Cdigo de una alumna o alumno
de la PUCP
Distancia recorrida por un taxista
en un da (en km.)
Nmero de servidores de un centro de cmputo
Material de una tubera (cobre,
bronce, pvc, etc.)
Ao de nacimiento de una persona
Facultad (Letras y CCHH; Ciencias
Sociales, Derecho, Gestin y Alta
Direccin, otras)
Nota en la primera prctica de
Estadstica
Notas
Tipo de variable
Escala de medicin
13
Estadstica EEGGCC
Ejemplo 15
Se define como poblacin de inters al conjunto de todas las pelculas estrenadas en los cines de
Lima durante el ao 2014. De dos ejemplos de variables cualitativas y dos ejemplos de variables
cuantitativas en esta poblacin, indique el tipo de cada variable y la escala adecuada para medirla.
Variable
Tipo de variable
Escala de medicin
Distribucin de frecuencias
Es la representacin estructurada, en forma de tabla, de los datos que se han recolectado sobre una
variable en estudio.
Es til para resumir grandes volmenes de datos.
Permite que quienes toman decisiones puedan extraer directamente la informacin relevante.
Frecuencias simples
La frecuencia absoluta de la clase i se denota ni y representa el nmero de datos que pertenecen a
esa clase.
La frecuencia relativa de la clase i se denota fi y representa la proporcin de datos que pertenecen a
esa clase.
frecuencia relativa ( fi ) =
La frecuencia porcentual de la clase i se denota pi y representa el porcentaje de datos que pertenecen a esa clase.
frecuencia porcentual
Notas
(p i ) =
fi * 100 %
14
Estadstica EEGGCC
Frecuencias acumuladas
Dado un conjunto de n datos cuantitativos, organizados en k clases ordenadas de menor a mayor, se
define:
La frecuencia acumulada absoluta de la clase i se denota Ni y es la suma de las frecuencias absolutas
desde la clase 1 hasta la clase i, es decir, es el nmero total de datos que pertenecen a la clase i o a
alguna clase anterior.
Se tiene que Ni = n1 + n2 + ... + ni =
, i = 1, 2,..., k
j =1
Luego N1 = n1 y Ni = Ni 1 + ni , i = 2, 3,..., k
La frecuencia acumulada relativa de la clase i se denota Fi y es la proporcin de datos que pertenecen hasta esa clase.
frecuencia relativa acumulada (Fi ) =
La frecuencia acumulada porcentual Pi de una clase es el porcentaje de datos que pertenecen hasta
esa clase. Se cumple que Pi = Fi x 100%.
Ejemplo 16
Como parte de un estudio se seleccion una muestra de personas y se les solicit que mencionen la
primera marca de televisores que recuerden. Los resultados se muestran en la siguiente tabla. Construya la distribucin de frecuencias de la variable en estudio.
Sony
LG
Sony
Panasonic
Philips
LG
Sony
Panasonic
Sony
LG
Sony
Samsung
Sony
Samsung
Philips
Panasonic
Samsung
Philips
Sony
Sony
LG
Sony
Samsung
LG
Samsung
Samsung
LG
Samsung
Sony
Philips
Sony
Samsung
Samsung
Panasonic
Otra marca
LG
Samsung
Philips
Marca de televisor
Sony
ni : Nmero de
personas
Total
A partir de la informacin de la tabla complete las siguientes afirmaciones.
Notas
pi: Porcentaje de
personas
15
Estadstica EEGGCC
_________________ fue la marca de televisores mencionada con ms frecuencia por las personas de la muestra; el ______% de los entrevistados mencionaron esta marca
Ejemplo 17
A un grupo de 64 alumnos de Estudios Generales Ciencias se les pregunt acerca del nmero de veces que fueron al cine durante el ltimo mes. Las respuestas de estos alumnos fueron las siguientes:
1
ni: Nmero de
alumnos
pi: Porcentaje de
alumnos
Total
A partir de la informacin de la tabla complete las siguientes afirmaciones.
El __________% de los alumnos entrevistados fueron al cine al menos una vez en el ltimo mes.
EL nmero de veces que fueron al cine el ltimo mes los alumnos entrevistados vari entre ____
y ____ veces.
Solamente _______% de los alumnos de la muestra respondi que fue ocho veces al cine durante el ltimo mes. Los dems alumnos respondieron que fueron ___________ o menos veces al
cine el ltimo mes.
El ___________% de los alumnos entrevistados fueron al cine dos o menos veces el ltimo mes.
Notas
Estadstica EEGGCC
16
17
Estadstica EEGGCC
Ejemplo 18
En el aula hay presentes _________ alumnas mujeres y ___________ alumnos hombres. Si queremos
presentar esta informacin en un grfico circular primero debemos calcular el ngulo en el centro
para cada sector circular:
Sexo
Femenino
Masculino
Total
Ttulo: __________________________________________________________________
Femenino
Masculino
Notas
18
Estadstica EEGGCC
Ejemplo 19
Los siguientes datos muestran el nmero de veces que fueron al cine el ltimo mes un grupo de
alumnos de Estudios Generales Ciencias.
1
1
2
1
3
0
1
4
4
0
2
0
0
1
1
1
0
1
0
1
8
1
1
5
1
2
4
1
0
0
0
2
5
0
1
1
3
3
0
0
2
2
0
0
1
1
2
0
2
5
2
2
1
1
3
2
2
1
1
3
3
4
4
0
Construya el grfico de bastones correspondiente, (recuerde que ya construy la distribucin de frecuencias para estos datos en el ejemplo 17). Comente la distribucin de los datos.
Notas
19
Estadstica EEGGCC
Cantidad de clases: k
Se recomienda usar entre 5 y 20 intervalos o clases.
La idea es emplear suficientes clases para mostrar la variacin de los datos, pero no tantas que
varias contendran muy pocos o ningn elemento.
Hay algunas reglas que sugieren el nmero de clases o intervalos que se deben usar que dependen del nmero de datos disponibles, sin embargo en la prctica la decisin generalmente se
toma atendiendo a una necesidad especfica o por experiencia.
A = Amplitud =
x
x mn
dato mximo dato mnimo
Rango
= mx
=
k
k
k
La amplitud se aproxima por exceso de acuerdo con la cantidad de decimales que tienen los datos o segn la precisin con la que se desea trabajar.
Se usa la aproximacin por exceso para asegurar que el mayor de los datos pertenezca a alguna
de las clases.
Notas
20
Estadstica EEGGCC
Marca de clase
La marca de clase es el punto medio de cada intervalo. Se obtiene calculando la semi suma de los
lmites de cada intervalo o clase.
Cuando los datos se presentan organizados en una distribucin de frecuencias por intervalos, ya
no es posible determinar el valor exacto de cada dato. La marca de clase se usa como el valor
que representa a cada uno de los datos que pertenecen al intervalo o clase correspondiente.
Es importante que los intervalos no sean demasiado grandes, porque la marca de clase no sera
un buen representante, ni demasiado pequeos como para complicar la construccin de la tabla
o como para que hayan varias clases sin datos.
La marca de clase del intervalo i se denota mi
Ejemplo 20
Construya una distribucin de frecuencias de siete intervalos o clases para los siguientes datos que
representan los tiempos (en minutos), que demoraron 48 alumnos en resolver una prueba.
8,8
8,9
12,7
8,7
12,4
8,4
10,2
9,6
10,5
10,3
10,1
10,9
8,2
9,6
11,9
11,7
9,7
9,9
7,8
9,6
9,5
9,8
11,3
10,7
11,1
10,9
12,6
8,9
9,8
10,8
9,3
9,5
8,6
8,3
12,0
9,2
8,2
10,9
8,5
9,0
12,4
9,6
9,2
9,3
10,0
8,5
9,4
9,8
Solucin
El rango R se calcula con: R = dato mximo dato mnimo = xmax xmin = 12,7 - 7,8 = 4,9
De acuerdo a lo indicado, el nmero de clases o intervalos a usar es k = 7.
La amplitud de cada intervalo es:
A=
R 4 ,9
=
= 0,7
k
7
En el curso usaremos intervalos abiertos a la izquierda, pero tambin puede usarse intervalos abiertos a la derecha. Los intervalos o clases para los datos de este ejemplo son:
I1: [xmin ; xmin + A] = [7,8 ; 7,8 + 0,7] = [7,8 ; 8,5]
I2: ]xmin + A ; xmin + 2A] = ]7,8 + 0,7;7,8 + 1,4] = ]8,5 ; 9,2]
...
I7: ]xmin + 6A ; xmin + 7A] = ]12,0 ; 12,7]
Distribucin de frecuencias
Tiempo (min.)
Marca de clase
(mi)
ni: nmero de
alumnos
fi: proporcin
de alumnos
[7,8
8,5]
8,15
0,1458
0,1458
]8,5
9,2]
8,85
0,1667
15
0,3125
]9,2
9,9]
9,55
14
0,2917
29
0,6042
]9,9
10,6]
10,25
0,1042
34
0,7083
]10,6
11,3]
10,95
0,1458
41
0,8542
]11,3
12,0]
11,65
0,0625
44
0,9167
]12,0
12,7]
12,35
0,0833
48
1,0000
Notas
21
Estadstica EEGGCC
Distribucin de frecuencias por intervalos para datos de una variable cuantitativa discretas
Si los datos que se quiere organizar en una distribucin de frecuencias corresponden a mediciones de
una variable discreta pero se han observado muchos valores diferentes, entonces tambin podemos
utilizar una distribucin de frecuencias por intervalos para facilitar el anlisis de estos datos.
Ejemplo 21
La manzana delicia (manzana Red Delicious), tiene piel o cscara color rojo brillante, pulpa blanquecina, es algo arenosa y con un sabor algo cido, de esta variedad procede la variedad Royal Red Delicious. Se ha tomado una muestra de estas manzanas obtenindose los siguientes pesos, en gramos.
130
158
163
166
168
170
171
174
178
180
183
185
186
187
189
190
190
192
192
193
193
193
193
194
195
196
198
198
199
203
205
211
214
215
217
218
222
224
226
227
233
235
238
239
305
Construya una distribucin de frecuencias usando seis intervalos para los pesos de las manzanas de
la muestra.
Ttulo: _____________________________________________________________________________
mi:
]
Total
Notas
ni:
pi :
Ni:
Pi:
22
Estadstica EEGGCC
Interprete el valor de n4
Interprete el valor de p2
Interprete el valor de P3
Experiencia
laboral
(en aos)
mi: marca
de clase
ni: nmero de
obreros
fi: proporcin de
obreros
Fi: proporcin
acumulada de
obreros
[0;4]
57
0,2780
57
0,2780
]4;8]
78
0,3805
135
0,6585
] 8 ; 12 ]
10
43
0,2098
178
0,8683
] 12 ; 16 ]
14
25
0,1220
203
0,9903
]16 ; 20 ]
18
0,0098
205
Total
205
Notas
Estadstica EEGGCC
23
Histograma
Se construye a partir de una distribucin de frecuencias por intervalos.
Los datos de cada clase se representan con un rectngulo, cuya base es el intervalo de clase y
cuya altura es proporcional a la frecuencia correspondiente (absoluta, relativa o porcentual).
Los rectngulos adyacentes se tocan entre s.
El histograma muestra la forma de la distribucin de los datos. Se observa: la simetra y dispersin de los datos; los intervalos con alta concentracin, las brechas (intervalos sin observaciones), as como la existencia de datos muy alejados de los dems.
Polgono de frecuencias
Es la representacin por medio de una figura
poligonal cerrada de una distribucin de frecuencias absolutas, relativas o porcentuales.
Se obtiene uniendo con segmentos de
recta los puntos con la marca de clase como abscisa y la correspondiente frecuencia
absoluta o relativa como ordenada.
Los polgonos de frecuencias se cierran en
los puntos del eje horizontal correspondientes al lmite inferior del primer intervalo y al lmite superior del ltimo intervalo.
Ojiva
Es la grfica de una distribucin de frecuencias
acumuladas (absolutas, relativas o porcentuales).
La ojiva parte del punto que tiene al lmite
inferior del primer intervalo como abscisa
y a cero como ordenada.
Se obtiene uniendo con segmentos de
recta los puntos con el lmite superior de
cada intervalo como abscisa y la frecuencia
acumulada respectiva como ordenada.
Con la ojiva se puede estimar el nmero o
porcentaje aproximado de observaciones
que corresponden a un intervalo determinado.
Ejemplo 22
24
Estadstica EEGGCC
Ttulo: _______________________________________________________________________
Tamao
mi:
(centmetros)
Marca de clase
ni:
f i:
Ni:
Fi:
0,10
65
180
30
0,96
17
0,04
Total
b) Grafique el histograma de frecuencias relativas y escriba dos comentarios respecto a la distribucin de los datos.
Notas
Estadstica EEGGCC
25
e) Determine aproximadamente la longitud mnima que debera tener una de estas anchovetas para
estar considerada dentro de las 10% ms grandes.
Notas
26
Estadstica EEGGCC
Cuartil
Se denomina as a cada uno de los tres percentiles: P25, P50, P75 y se les denota como Q1, Q2 y Q3 respectivamente.
Ejemplo 23
Percentiles
Edad
Conocimientos generales
Neuroticismo
25 (Primer cuartil)
29,0
26,0
48,0
50 (Segundo cuartil)
31,0
30,0
63,0
75 (Tercer cuartil)
36,0
34,0
77,5
El primer cuartil de la variable Edad es 29, esto quiere decir que al menos el 25% de los postulantes tiene 29 aos o menos.
El segundo cuartil de la variable Conocimientos generales es 30, esto quiere decir que al menos
el 50% de los postulantes obtuvieron 30 o menos puntos en la prueba de conocimientos generales.
El tercer cuartil de la variable Neuroticismo es 77,5, esto quiere decir que al menos el 75% de los
postulantes obtuvieron 77,5 o menos puntos en la evaluacin de Neuroticismo.
Ejemplo 24
En los ltimos 150 aos, los holandeses han pasado a ser los habitantes ms altos del mundo, y segn los expertos siguen creciendo. El estudio de la altura de los holandeses a lo largo de los siglos
ofrece un panorama sobre la salud y riqueza de la nacin. No siempre fue as, en 1848, uno de cada
cuatro varones era rechazado del servicio militar porque no alcanzaba la estatura de 1,57 metros.
Actualmente, el percentil 1 de la estatura de los varones holandeses es 1,57 metros y el percentil 70
es 1,88 metros. Indique el significado de estos percentiles. Fuente http://www.ap.org/ Associated Press.
27
Estadstica EEGGCC
Si el valor calculado de i es un nmero entero, el percentil k-simo, Pk, es igual a la semi suma de
los datos en las posiciones i e (i+1), es decir, Pk = ( xi+ xi+1)/2
Si el valor calculado de i no es entero,el percentil k-simo Pk es el dato que tiene la posicin del
entero inmediato superior a i, es decir, Pk = x i + 1
Ejemplo 25
Dadas las siguientes edades de una muestra de personas asistentes al Tnel de la Ciencia, calcule e
interprete el percentil 50 y el percentil 20.
10
12
15
14
25
19
10
14
12
18
13
11
15
13
15
16
14
13
Ejemplo 26
En la tabla siguiente se muestra la distribucin de los trabajadores de una empresa segn el nmero de
tardanzas en el mes pasado. Calcule e interprete el percentil 30 y el percentil 75 de los datos.
xi : Nmero de
tardanzas
48
80
57
15
Total
Notas
fi: Proporcin de
trabajadores
Ni :
Fi :
15
28
Estadstica EEGGCC
A k
Fi 1
fi 100
donde:
Ui Li
F F
= i i 1
k
Pk Li
Fi1
100
De donde se tiene que:
A
fi
=
k
Pk Li
Fi1
100
Despejando se obtiene la frmula del percentil k.
Pk = Li +
Notas
A k
Fi 1
fi 100
29
Estadstica EEGGCC
Cuartiles
Primer cuartil:
Q1 = P25
Segundo cuartil:
Q2 = P50
Tercer cuartil:
Q3 = P75
Ejemplo 27
A continuacin, se presenta la distribucin de los tiempos totales, en minutos, que diferentes estaciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un da de la
semana pasada. Calcule e interprete el primer cuartil de la distribucin.
Tiempo
[0 - 6]
ni: Nmero
de emisoras
]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]
3
17
10
14
fi :
Fi :
Ejemplo 28
En la ciudad A se realizaron 120 mediciones de una hora de la cantidad de lluvia, en una muestra de
120 das del ao pasado, obtenindose los siguientes resultados.
Notas
30
Estadstica EEGGCC
Ciudad A: Distribucin de precipitaciones segn su intensidad (en mm/h)
Intensidad (mm/h)
mi: marca de
clase
Ni:
Fi:
[0
16]
30
0,2500
30
0,2500
]16
32]
24
55
0,4583
85
0,7083
]32
48]
40
21
0,1750
106
0,8833
]48
64]
56
0,0750
115
0,9583
]64
80]
72
0,0417
120
1,0000
b. Calcule la cantidad de precipitacin mxima para estar en el 15% de las precipitaciones ms bajas
de las 120 medidas.
c. Calcule el porcentaje de mediciones que fueron clasificadas como lluvia dbil o moderada.
d. Calcule el porcentaje de mediciones que fueron clasificadas como lluvia fuerte o muy fuerte.
Notas
31
Estadstica EEGGCC
Moda
La moda de un conjunto de datos o mediciones de una variable es el valor que se presenta con mayor frecuencia.
Caractersticas de la moda
Agrupe los datos de acuerdo con sus frecuencias, el dato con mayor frecuencia es la moda.
Ejemplo 29
Determine e interprete la moda de los siguientes datos, que representan las escalas de pago de una
muestra de 20 alumnos de la PUCP.
3
Notas
32
Estadstica EEGGCC
Calcule e interprete la moda de los siguientes datos, que representan el sexo de los postulantes a un
puesto de Gerente de Logstica de una empresa. La escala usada es 1: Femenino y 2: Masculino
2
Ejemplo 30
En la empresa A, se midi el nmero de errores por da que cometieron 158 obreros al ensamblar un
determinado producto. Calcule e interprete la moda del nmero de errores diarios por obrero.
ni : Nmero de obreros
25
45
60
28
Notas
33
Estadstica EEGGCC
Mediana
La mediana es el percentil 50, tambin llamado segundo cuartil.
Caractersticas de la mediana
i =1
Ejemplo 31
El tiempo, en horas, que tard cada uno de 17 obreros para realizar una tarea se muestra en la siguiente tabla. Entre los obreros evaluados algunos recibieron una capacitacin previa y otros no.
Capacitados
4,5
4,3
2,7
8,2
8,3
6,4
5,4
No capacitados
8,3
7,4
8,5
8,5
9,0
8,4
18
3,4
2,7
Calcule e interprete la mediana para cada grupo. Compare los valores hallados y comente.
Notas
5,6
34
Estadstica EEGGCC
Ejemplo 32
En la empresa A se tom una muestra aleatoria de 560 trabajadores y se les pregunt por su sueldo
mensual, en dlares, obtenindose los siguientes resultados.
Distribucin de trabajadores por sus sueldos mensuales (en US$)
mi: Marca de
clase
Sueldo
[
275
275
275
325
325
325
ni: Nmero de
f
trabajadores i
Ni
Fi
30
77170000
0,1339
190
130
22500
25
Complete la tabla de distribucin de frecuencias y calcule aproximadamente la mediana de los ingresos de los trabajadores de la muestra. Interprete.
Grafique el histograma y ubique en el grfico la posicin de la mediana dira que este valor es un
buen representante del conjunto de datos?
Notas
35
Estadstica EEGGCC
Media aritmtica
La media aritmtica (o simplemente media) de n datos es el valor que se obtiene al dividir la suma
total de los datos entre el nmero de datos:
Media aritmtica = x =
x1 + x 2 + .... + x n
n
Caractersticas de la media
Solamente se puede calcular para datos cuantitativos, medidos en escala de intervalo o razn.
El clculo de la media es sencillo y es la medida de tendencia central ms conocida.
El valor de la media depende de todos los datos, por lo que la presencia de valores muy grandes
o muy pequeos con respecto a los dems pueden cambiar drsticamente su valor.
= nx
i =1
n
(x x ) = 0
i
i =1
(x c )
i =1
Ejemplo 33
Notas
36
Estadstica EEGGCC
b. Si decide fijar el precio de venta de tal manera que gane 20% sobre el costo de cada computadora, cul sera el precio medio de venta de las computadoras?
c. Si decide fijar el precio de venta aumentando un 10% sobre el costo de cada computadora ms
un monto fijo de 50 dlares, cul sera el precio medio de venta de las computadoras?, cul sera el monto total de los ingresos obtenidos por la venta de las 30 computadoras?
Sean x1, x2, xn un conjunto de n datos de una variable cuantitativa X. La media aritmtica de estos n
datos es:
n
x + x + .... + x n
=
Media = x = 1 2
n
i =1
Ejemplo 34
Calcule la media de los siguientes datos que representan el nmero de papeletas pendientes de pago
de cada uno de 11 choferes de vehculos de transporte pblico seleccionados al azar.
12
Notas
13
25
20
17
19
15
14
28
37
Estadstica EEGGCC
Media aritmtica para datos en una distribucin de frecuencias para variable discreta
Sean x1, x2, , xk los valores observados de una variable discreta X con frecuencias absolutas respectivas n1, n2, , nk y frecuencias relativas respectivas f1, f2, , fk La media aritmtica de estos datos es:
k
Media = x =
x 1 n 1 + x 2 n 2 + ... + x k n k
=
n 1 + n 2 + ... + n k
xn
i
i =1
i fi
i =1
Ejemplo 35
En la empresa A, se cont el nmero de errores que cometieron 158 obreros al ensamblar un determinado producto. Calcule la media y la mediana del nmero de errores por obrero. Cul de estas
dos medidas le parece ms adecuada para representar al conjunto de datos?
Empresa A. Distribucin de errores al ensamblar un producto
xi: Nmero de errores
25
45
60
28
Cuando solamente se cuenta con los datos organizados en una distribucin de frecuencias por intervalos no es posible calcular la media aritmtica usando la definicin porque no se conoce el valor
exacto de cada dato. En ese caso, se obtiene un valor aproximado de la media usando las marcas de
clase de los intervalos.
El valor aproximado de la media aritmtica para n datos organizados en una distribucin de frecuencias con k intervalos o clases, con marcas de clase m1, m2, mk; fercuencias absolutas n1, n2, , nk y
frecuencias relativas f1, f2, , fk respectivamente es:
k
m n + m 2 n 2 + ... + m k n k
Media = x = 1 1
=
n 1 + n 2 + ... + n k
Notas
mn
i
i =1
m
i =1
i fi
38
Estadstica EEGGCC
Ejemplo 36
En el distrito A se seleccion una muestra aleatoria de jvenes y se determin la estatura, en centmetros, de cada uno obtenindose los siguientes resultados.
ni:
fi:
Ni :
Fi:
clase
150
158
158
166
166
174
174
182
0,48
0,32
0,95
800
Ejemplo 37
En los reportes estadsticos de una empresa, correspondientes al perodo de los ltimos 200 das, se
lee la siguiente informacin sobre el nmero de facturas diarias emitidas por la empresa en dicho
perodo.
Nmero de facturas
Nmero de das
Proporcin de das
[30 ; 60]
0,30
]60 ; 90]
0,40
]90 ; 120]
0,20
]120 ; 150]
0,06
]150 ; 180]
0,04
Calcule el valor aproximado de la media y la mediana del nmero de facturas diarias emitidas por la
empresa en dicho perodo, compare los valores y comente cul le parece ms adecuado para representar este conjunto de datos.
Notas
39
Estadstica EEGGCC
w x + w2 x2 + ... + wn x n
Media ponderada = x p = 1 1
=
w1 + w2 + ... + w n
w x
i
i =i
n
i =1
Si todos los pesos son iguales, entonces el valor de la media ponderada es igual al de la media:
xp = x .
Ejemplo 38
Calcule la nota final de un alumno del curso de Estadstica de Estudios Generales Ciencias que tiene
las siguientes notas: prctica calificada 1 = 17, prctica calificada 2 = 10, prctica calificada 3 = 14,
prctica calificada 4 = 18, examen parcial = 12 y examen final = 15. Los pesos del promedio de prcticas, examen parcial y examen final son 3, 3 y 4, respectivamente. La prctica con menor nota se anula.
Notas
40
Estadstica EEGGCC
-20
30
Grupo 2
Grupo 3
Qu conclusin deduce de los clculos?
Rango
El rango de un conjunto de datos se define como:
Rango = R = dato mximo dato mnimo
El rango se puede calcular para datos cuantitativos, medidos en escala de intervalo o de razn.
Solo depende del valor mximo y mnimo de los datos e ignora cmo estn distribuidos los dems datos.
Se ve afectado por datos extremos, es decir, por datos muy grandes o muy pequeos respecto a
los dems.
El rango mide la longitud del intervalo de variacin de los datos.
Notas
41
Estadstica EEGGCC
Rango intercuartil
Es la diferencia entre el tercer y primer cuartil.
Rango intercuartil = RIC = Q3 Q1= P75 P25
Desviacin absoluta
Dados n datos x1, x2,, xn, la desviacin absoluta de estos datos se define como:
n
x x
i
x1 x + x2 x + ... + xn x
= i =1
n
n
La desviacin absoluta es la media de las distancias de cada dato a la media aritmtica
Desviacin absoluta = DA =
Varianza
Dados n datos cuantitativos x1, x2,, xn la varianza de estos datos se define como la media de las distancias al cuadrado de cada dato a la media aritmtica.
n
Varianza = S 2 =
(x1 x ) + (x2 x )
2
+ ... + (x n x )
(x
x )2
i =1
2
i
i =1
2
x
Si los n datos son una muestra aleatoria de una poblacin mayor y se requiere estimar la varianza
poblacional que es desconocida, entonces se usa la varianza muestral que se calcula:
n
(x x ) + (x2 x )
Varianza muestral = s 2 = 1
2
n 1
Notas
+ ... + (x n x )
(x x )
i =1
n 1
42
Estadstica EEGGCC
Desviacin estndar
Dados n datos cuantitativos x1, x2,, xn la desviacin estndar de los datos se define como la raz cuadrada de la varianza:
Desviacin estndar = s = s2
La desviacin estndar representa el alejamiento tpico de un dato respecto a la media.
La desviacin estndar es la medida de dispersin ms utilizada, sin embargo, resulta realmente til
e informativa para distribuciones simtricas o aproximadamente simtricas.
Ejemplo 40
Calcule e interprete la media y la desviacin estndar de los siguientes datos que representan el nmero de personas atendidas por da en la caseta de informacin de un proyecto inmobiliario, en una
muestra de 15 das.
18
10
11
n (x x )
Varianza = S 2 =
i =1
n
i
Varianza muestral = s 2 =
i =1
f (x x )
i =1
n (x
x )2
n 1
k
n
2
=
fi (x i x )
n 1 i =1
Ejemplo 41
Calcule la varianza y la desviacin estndar de los siguientes datos que representan el nmero artculos defectuosos encontrados en cada uno de 122 lotes recibidos la semana pasada. Cada lote tiene
1000 artculos.
Notas
58
26
10
30
43
Estadstica EEGGCC
n (m x )
Varianza = S 2 =
i =1
f (m x )
i =1
n (m x )
Varianza muestral = s2 =
i =1
n 1
k
n
2
=
fi (mi x )
n
i =1
Ejemplo 42
Calcule la media y la desviacin estndar de los siguientes datos que corresponden a los pesos de los
equipajes de los pasajeros de un vuelo Lima a Arequipa.
Peso (kilos)
[10,0
15,0]
75
56
Total
Notas
Marca de clase
Estadstica EEGGCC
44
Ejemplo 43
En una muestra de ferreteras se ha registrado el precio de las varillas de acero de 12 mm, encontrndose un precio medio de 19,80 nuevos soles y una desviacin estndar de 0,85 nuevos soles.
a.
Si los precios se redujeran en un 5% en todas las tiendas, calcule el nuevo precio medio y la nueva desviacin estndar de los precios.
b.
Si los precios de las varillas se aumentaran en un 2% del precio inicial ms un monto fijo de 0,80
nuevos soles en todas las ferreteras de la muestra, calcule el nuevo precio medio y la nueva
desviacin estndar de los precios.
Desigualdad de Chebyshev
Sea k > 1, entonces el porcentaje de datos en el intervalo [ x k sd x , x + k sd x ] es mayor o igual que
1
1 2 % . Particularmente:
k
Notas
45
Estadstica EEGGCC
Ejemplo 44
Dados los siguientes datos, compruebe que se cumple la desigualdad de Chebyshev para k = 2,5.
12
18
12
Ejemplo 45
Si el ingreso de 120 obreros tiene una media de 300 dlares y una desviacin estndar de 30 dlares.
a. Cuntos obreros, por lo menos, tienen sueldos comprendidos en el intervalo de 240 a 360 dlares?
b. Si el mnimo sueldo es 210 dlares, en qu porcentaje se puede afirmar que los ingresos son
superiores a 390 dlares?
Coeficiente de variacin
El coeficiente de variacin (CV) de un conjunto de datos no negativos es una medida de dispersin
relativa e indica qu proporcin de la media es la desviacin estndar.
El coeficiente de variacin se determina calculando el cociente de la desviacin estndar de los
datos entre la media de los datos
Coeficiente de variacin = CV =
desviacin stndar sx
=
media
x
Notas
46
Estadstica EEGGCC
Ejemplo 46
En una tienda de ropa, el precio medio y la desviacin estndar del precio de los pantalones tipo jean
son 74 y 15,4 nuevos soles, respectivamente. Si se rebaja 10 nuevos soles a todos los precios, calcule
la desviacin estndar y el coeficiente de variacin de los precios luego de la rebaja. Comente.
Ejemplo 47
El coeficiente de variacin de los salarios un grupo de trabajadores es 0,12. Si se aprueba un aumento del 20% ms una bonificacin especial fija de S/.115 para cada trabajador, el nuevo coeficiente de
variacin ser igual a 0,06. Si el objetivo del aumento aprobado era lograr homogenizar los salarios,
se ha logrado este objetivo?
Ejemplo 48
El siguiente cuadro muestra la distribucin los empleados de las empresas A y B de acuerdo a sus
sueldos mensuales en el mes de julio del 2014.
Empresas A y B. Sueldos mensuales en julio del 2014 (en nuevos soles)
Sueldos
Marca de clase
Empleados de la empresa A
[2 500 3 500]
14
]3 500 4 500]
25
25
]4 500 5 500]
35
83
]5 500 6 500]
15
Notas
Empleados de la empresa B
47
Estadstica EEGGCC
Puntuacin estandarizada Z
Dado un conjunto de datos: x1 x2, . , xn, con media x y desviacin estndar sx, entonces cada uno de
estos datos puede transformarse en puntaje estandarizado o puntaje Z mediante:
zi =
xi x
sx
i = 1, 2,, n
Se cumple que el conjunto de datos o puntajes estandarizados (z1, z2, , zn) tiene media cero y
varianza uno, es decir: z = 0 y sz 2 = 1
El valor zi mide a cuntas desviaciones estndar, por arriba o por debajo de la media de los datos
se encuentra el dato xi. Por ejemplo, si x1 representa la nota final de un alumno en un curso y
luego de estandarizar su nota se obtiene un puntaje z1=1,2, esto significa que la nota final de este
alumno es 1,2 desviaciones estndar mayor que la media de las notas finales de todos los alumnos del curso.
Es comn utilizar el puntaje z para evaluar si un dato es inusualmente grande o pequeo respecto a los dems. Por ejemplo, un dato cuyo puntaje estandarizado es menor que -3 o mayor que 3
se considera un dato extremo o atpico.
Ejemplo 49
Segn los resultados de un estudio realizado por encargo de una aerolnea comercial, el peso medio
y la desviacin estndar de los equipajes de mano de los pasajeros de los vuelos Lima - Miami son 6,5
kg y 2kg respectivamente. Este estudio tambin reporta que en los vuelos de regreso de Miami a
Lima, la media y la desviacin estndar de los pesos de los equipajes de mano son 8,6 kg y 4,1 kg
respectivamente.
Julio estuvo en Miami el mes pasado y su equipaje de mano pes 7,2 kg en el vuelo de ida y 9,4 kg en
el vuelo de regreso, en cul de los dos vuelos su equipaje tuvo un mayor peso relativo?
Si se ha establecido que en los vuelos Miami - Lima cualquier pasajero que porte un equipaje de
mano con peso estandarizado mayor que 0,35 deber pagar por el exceso, hasta cunto puede pesar el equipaje de mano de un pasajero de esta ruta para que no le cobren por el exceso de peso?
Notas
48
Estadstica EEGGCC
x Q2
As = 3
sx
Notas
49
Estadstica EEGGCC
Ejemplo 50
El siguiente cuadro muestra la distribucin del sueldo mensual de los empleados de dos empresas A y
B en julio del 2013.
Empresas A y B: Sueldos mensuales en julio del 2011
Empresa A
Empresa B
Nmero de trabajadores
Nmero de trabajadores
[1 500 2 500]
]2 500 3 500]
40
]3 500 4 500]
12
25
]4 500 5 500]
]5 500 6 500]
Marca de
clase
a) En un solo grfico muestre los dos polgonos de frecuencias para los sueldos de los trabajadores
de las empresas A y B..
b) Compare la simetra de las distribuciones de los sueldos en las empresa A y B grficamente (use el
grfico de la parte a) y usando el coeficiente de asimetra de Pearson. Comente.
Notas
Estadstica EEGGCC
50
Diagrama de cajas
Es una grfica que describe la distribucin de un conjunto de datos tomando como referencia los
valores de los cuartiles como medidas de posicin, la mediana como medida de tendencia central y el
valor del rango intercuartil (RIC) como medida de dispersin. Adems, permite apreciar la forma de
la distribucin de los datos (simtrica o asimtrica).
Dato atpico
Es un dato inusualmente grande o pequeo con respecto a los otros datos. Se considera atpico a
cualquier dato que cumpla una de las dos siguientes condiciones:
El dato es ms de 1,5*(RIC) unidades menor que el primer cuartil
El dato es ms de 1,5*(RIC) unidades mayor que el tercer cuartil
Detectar los datos atpicos que son aquellos que no pertenecen al intervalo [Linf ; Lsup]. A los datos
que s pertenecen al intervalo anterior se les llama datos tpicos.
Sobre un eje horizontal, se traza un rectngulo con los extremos en el primer cuartil (Q1) y tercer
cuartil (Q3).
En la caja rectangular se traza un segmento vertical en el lugar de la mediana.
Se traza el bigote izquierdo desde el primer cuartil hasta el mnimo de los datos tpicos y el bigote
derecho desde el tercer cuartil hasta el mximo de los datos tpicos.
Se marcan con un asterisco (*) las localizaciones de los datos atpicos.
La siguiente figura presenta un diagrama de cajas con datos hipotticos.
Notas
Estadstica EEGGCC
51
Ejemplo 51
Se seleccion una muestra de 45 viviendas y se registr el monto (en nuevos soles), cobrado por la
empresa proveedora, por consumo de luz en el ltimo mes. Elabore un diagrama de caja. A partir de
lo observado en el grfico escriba una descripcin de la distribucin de los datos.
10,7 45,0 59,8 65,7 87,4 97,1 98,1 98,8 99,2 99,5 99,6 99,7 102,4 106,3 107,3
108,2 108,7 109,2 109,3 109,9 111,4 112,1 112,6 112,9 115,0 115,4 116,4 116,5 119,1 119,2
119,6 120,4 120,6 121,5 122,1 122,7 124,0 124,5 124,9 125,1 125,2 127,1 128,1 129,0 200,8
Notas
52
Estadstica EEGGCC
Ejemplo 52
Se desea comparar los resultados de un examen sobre el Reglamento Nacional de Trnsito, aplicado
a los choferes de tres empresas de taxi. Las notas obtenidas por los choferes evaluados se muestran
a continuacin:
Empresa A
11 11 12 12 12 12 12 12 12 13 13 13 14 14 15 15 15 15 15 15 20 20
Empresa B 11 12 12 12 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 17 17 18 18 18 18
Empresa C
10 10 11 11 12 12 13 13 13 14 15 15 16 16 16 17 17 17
Construya un diagrama de cajas que permita comparar las distribuciones de notas obtenidas por los
choferes de las tres empresas.
Ttulo: ...
Notas
Estadstica EEGGCC
53
b. Escriba una descripcin comparativa de las distribuciones de notas obtenidas por los choferes
de las tres empresas.
Notas
54
Estadstica EEGGCC
Ejemplo 53
Como parte del estudio que se est realizando a fin de resolver un antiguo problema limtrofe entre dos
distritos vecinos A y B, se ha seleccionado una muestra aleatoria de 120 edificios del distrito A y 180 del
distrito B. En la siguiente tabla se muestra la distribucin de la muestra edificios de acuerdo al distrito en
que estn ubicados y al nmero de pisos.
Tabla 1. Distribucin de edificios por distrito de ubicacin y nmero de pisos
De 3 a 5 pisos
De 6 a 10 pisos
Ms de 10 pisos
Total
Distrito A
50
40
30
120
Distrito B
70
20
90
180
120
60
120
300
Total
De 6 a 10 pisos
Ms de 10 pisos
Total
Distrito A
Distrito B
Total
100%
Evale la verdad o falsedad de las siguientes afirmaciones respecto a los edificios de la muestra:
i. El 50% de los edificios ubicados en el distrito B tienen ms de 10 pisos ( )
iii. El 33,3% de los edificios estn ubicados en el distrito A y tienen entre 6 y 10 pisos ( )
iv. En la muestra hay 230 edificios que estn en el distrito B o tienen menos de 6 pisos ( )
Notas
55
Estadstica EEGGCC
Considerando la situacin planteada en el ejemplo anterior, podra interesar presentar comparativamente las distribuciones de los edificios segn el nmero de pisos en los dos distritos, A y B. Para
ello se construye una tabla que muestre la distribucin porcentual de los edificios segn el nmero
de pisos, para cada distrito.
Tabla3. Distribucin porcentual de edificios por distrito segn nmero de pisos por distrito de ubicacin
De 3 a 5 pisos
De 6 a 10 pisos
Ms de 10 pisos
Total
Distrito A
100%
Distrito B
100%
Notemos que la informacin presentada en la tabla 3 nos permite observar claramente que en la
muestra seleccionada, la distribucin de los edificios segn el nmero de pisos es muy diferente en el
distrito A que en el distrito B. es importante sealar que esta comparacin es posible porque se han
presentado frecuencias porcentuales y no frecuencias absolutas. La comparacin directa de frecuencias absolutas no es adecuada porque el nmero total de edificios del distrito A es diferente al total
de edificios del distrito B.
Notas
Estadstica EEGGCC
56
Notas
57
Estadstica EEGGCC
Ejemplo 54
En el II Censo Nacional Universitario del ao 2010 realizado por el INEI se pregunt a los alumnos de
pregrado de todo el Per por su tipo de universidad y su gnero. Los datos se muestran en los siguientes cuadros.
Pblica
Privada
Total
Femenino
135 082
247 743
382 825
Masculino
174 093
226 052
400 145
Total
309 175
473 795
782 970
a) Elabore un grfico de barras apiladas que permita ver la composicin porcentual por gnero y
tipo de universidad.
Ttulo ....
Gnero
Pblica
Privada
Total
Femenino
Masculino
Total
100%
Fuente:
Ttulo ....
Notas
58
Estadstica EEGGCC
b) Elabore un grfico de barras agrupadas o apiladas al 100% que permita ver la composicin porcentual segn gnero por tipo de universidad.
Gnero
Pblica
Privada
100%
100%
Femenino
Masculino
Total
Ttulo ....
Parece haber relacin entre el gnero del estudiante y el tipo de universidad en que estudia?
Ejemplo 55
Se seleccion una muestra de 3300 clientes de un banco que tienen prstamos con el banco hace al
menos dos aos. En esta muestra se encontr que:
- 600 de los clientes tienen sueldos de S/.3000 o menos y de ellos 400 son buenos pagadores.
- 2700 de los clientes tienen sueldos mayores a S/.3000
- 1100 clientes son malos pagadores.
Use la informacin anterior para completar la tabla siguiente:
Sueldo de S/.3000 o
menos
Buen pagador
Mal pagador
Total
Notas
Sueldo mayor a
S/.3000
Total
Estadstica EEGGCC
59
Tomando como referencia la informacin de la tabla, un ejecutivo del banco afirma que los que
ganan ms son mejores pagadores, est usted de acuerdo con esta afirmacin?
Ejemplo 56
Interprete el siguiente grfico de barras agrupadas extrado del documento Per: Perfil del productor
agropecuario, 2008, publicado por el INEI y disponible en:
http://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0851/Libro.pdf
Notas
Estadstica EEGGCC
60
Ejercicios
1.
2.
3.
Tiempo (minutos) [0 - 6] ]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]
Nmero de radios
1
3
17
2
1
10
0
0
2
14
a) Calcule e interprete el coeficiente de variacin del tiempo dedicado a los avisos comerciales.
b) Halle e interprete los cuartiles de la distribucin.
c) Grafique el histograma, el polgono de frecuencias y la ojiva de la distribucin. Comente la
simetra de la distribucin de tiempos.
4.
Los salarios que ofrece una empresa a los practicantes varan entre $180 y $300. Si los salarios
se agrupan en cuatro intervalos de clase de longitudes iguales de manera que el 40% de los
practicantes tienen salarios menores o iguales que $225, el 80% tienen salarios menores o iguales que $255 y el 15% tiene salarios mayores que $262,50.
a) Hallar el porcentaje de practicantes en cada intervalo.
b) Si el ingreso mnimo se fija en $265 y la empresa aumenta una misma cantidad a todos los
practicantes de modo que el 25% supere el ingreso mnimo, cunto sera el aumento?
5.
El porcentaje de grasa corporal es el mtodo ms fiable para establecer el peso ideal de una
persona pero es el ms difcil y complicado de medir. En un grupo de hombres adultos se midi
el porcentaje de grasa corporal obteniendo la tabla siguiente.
Porcentaje de grasa [ 3 , 7 ] ]7 , 11] ]11,15] ]15,19] ]19,23] ]23,27]
Frecuencia absoluta
16
66
44
60
10
4
61
Estadstica EEGGCC
6.
La anchoveta es el pez ms importante del ecosistema de la Corriente de Humboldt. Su abundancia ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamferos e invertebrados que hoy en da habitan en nuestro mar. Una muestra de 250 anchovetas de
un ao de edad ha dado una longitud media de 11,24 cm. Los datos se muestran en la tabla.
Tamao (centmetros)
Marca de
clase
Frecuencia
absoluta
Frecuencia
relativa
0,10
Frecuencia absoluta
acumulada
Frecuencia relativa
acumulada
65
180
30
0,96
17
0,04
El porcentaje de germinacin es uno de los principales factores para decidir la calidad de las
semillas. Un fabricante afirma que el porcentaje de germinacin de sus semillas de maz es del
85%. Para verificar tal afirmacin, una cooperativa de agricultores seleccion 120 muestras de
100 semillas cada una y anot el porcentaje de germinacin en cada muestra. Los valores observados se organizaron en la siguiente tabla.
Germinacin
(%)
[ 70 ; ]
Frecuencia absoluta
Frecuencia relativa
Frecuencia absoluta
acumulada
10
Frecuencia relativa
acumulada
0,20
0,70
22
] ; 95 ]
2
En dos ros de determinada regin se han soltado cras de truchas marcadas y se han recogido
muestras de las mismas despus de cierto periodo de tiempo. Se ha medido el peso (en gramos)
de esos ejemplares resultando la tabla siguiente:
Peso (en gramos)
[0 , 50]
]50 , 100]
]100, 150]
]150, 200]
]200, 250]
62
Estadstica EEGGCC
9.
En los reportes estadsticos de una empresa, correspondientes al perodo de los ltimos 100
das, se lee la siguiente informacin sobre el nmero de facturas diarias emitidas por la empresa
en dicho perodo.
Nmero de facturas
[30 ; 60]
]60 ; 90]
]90 ; 120]
]120 ; 150]
]150 ; 180]
Frecuencia relativa
0,25
0,40
0,20
0,10
0,05
] ; ]
0,12
0,24
];]
0,23
0,15
]9,5; ]
0,27
0,13
] ; ]
a
b
a) Realizar un grfico que permita llegar al objetivo deseado y escribir dos conclusiones a partir del grfico.
b) Encontrar, en cada uno de los dos sistemas, el porcentaje de notas que son mayores que su
respectiva media.
11. Los pesos (en kilogramos) de una muestra de estudiantes se organizan en una distribucin de
frecuencias simtrica:
Pesos (kg.)
0,96
]60 ; 70]
n = 50
a)
b)
c)
d)
Notas
63
Estadstica EEGGCC
12. Se ha encuestado a un grupo de alumnos de una facultad de ingeniera sobre el tiempo, en minutos, que usan al da la Internet obtenindose los siguientes resultados.
Tiempo
(min)
fi :
[0 ; 45]
0,0548
0,1905
0,2500
0,2857
0,1071
0,0762
0,0357
a) Calcule el tiempo mnimo para estar en el quinto superior de los que usan la Internet.
b) Calcule el porcentaje de alumnos que usan una hora o menos la Internet.
c) Encuentre la media y la varianza del nmero de minutos diarios que usan la Internet.
13. Se aplic un cuestionario a 16 trabajadores de una gran empresa y se obtuvieron los datos presentados en la siguiente tabla:
Cdigo del
Ao de naciGnero
trabajador
miento
9534
F
1966
2041
F
1960
1187
F
1952
1842
F
1980
1813
F
1960
2519
F
1979
3338
F
1985
3012
F
1973
1056
M
1980
2087
M
1960
1004
M
1967
6589
M
1975
1723
M
1962
2013
M
1968
1096
M
1981
2873
M
1979
(Gnero: F = Femenino, M = Masculino)
Nivel educativo
(aos)
10
12
16
12
12
12
16
12
8
19
12
12
20
16
12
16
Categora
laboral
Empleado
Empleado
Ejecutivo
Empleado
Empleado
Empleado
Ejecutivo
Empleado
Empleado
Directivo
Empleado
Empleado
Directivo
Directivo
Empleado
Ejecutivo
Salario anual
actual en S/.
27,900
26,250
41,500
24,000
27,450
23,100
37,050
24,450
28,350
95,000
30,900
26,700
69,250
48,200
27,900
40,350
Salario anual
inicial en S/.
12,750
11,550
18,750
12,750
10,200
11,250
18,000
12,450
12,000
56,980
15,000
14,500
42,800
21,000
16,500
19,500
a) Clasifique cada una de las variables e indique la escala de medicin adecuada para cada caso.
b) Presente grficamente los datos correspondientes a las variables gnero y categora laboral.
c) Calcule la moda, la media y la mediana de la variable nivel educativo y comente su simetra.
d) Organice los datos correspondientes a los salarios anuales actuales en una distribucin de
frecuencias de cinco intervalos y grafique el histograma de frecuencias porcentuales. Comente.
e) Haga un grfico que permita comparar el rango y los cuartiles de los salarios iniciales de los
hombres y mujeres. Comente el grfico.
Notas
64
Estadstica EEGGCC
14. En la siguiente tabla se muestra la distribucin de frecuencias del nmero de hojas impresas por
un grupo de impresoras durante un da:
Nmero de
hojas
[20 ; ]
Marca de clase
Frecuencia relativa
0,20
0,45
0,60
125
0,10
1,946
1,957
1,969
1,971
1,973
1,984
1,996
1,997
1,999
2,003
2,013
2,014
2,014
2,015
2,034
2,045
2,066
2,075
2,086
2,088
a) Las especificaciones del proceso de llenado de las botellas establecen que el contenido
medio debe estar entre 1,950 y 2,050 litros y que la desviacin estndar del contenido debe ser menor a 0,050 litros. A partir de los datos de la muestra, dira usted que el proceso
cumple las especificaciones?
b) Determine e interprete el rango y los cuartiles para la muestra de contenidos de gaseosa.
c) Construya un diagrama de cajas y comente la simetra de la distribucin de los contenidos
de gaseosa observados.
16. En un estudio sobre consumo de petrleo en una gran ciudad se eligi dos grifos y se tom una
muestra de 100 camiones en cada uno de ellos y se observ el nmero de galones que consuman en un da, obtenindose la siguiente distribucin de frecuencias.
Grifo A
Nmero de galones Nmero de camiones
4
[1 ; 5]
8
]5 ; 9]
35
]9 ; 13]
30
]13 ; 17]
20
]17 ; 21]
3
]21 ; 25]
Grifo B
Nmero de galones Nmero de camiones
10
20
15
37
20
25
25
10
30
8
Notas
65
Estadstica EEGGCC
17. Se tom una muestra aleatoria de 80 viajes de la empresa de transporte interprovincial A y una
muestra aleatoria de 20 viajes de la empresa B. Las tablas siguientes muestran los datos del
nmero de pasajeros por viaje de esas muestras.
Nmero de pasajeros por viaje
[10 ; 14]
]14 ; 18]
]18 ; 22]
]22 ; 26]
]26 ; 30]
Empresa A
20
30
15
10
5
Fi
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1000
2000
3000
4000
5000
6000
7000
8000
Ingresos
Notas
Nmero de asistentes
Ingeniera
24
Administracin
Contabilidad
10
Economa
15
Derecho
66
Estadstica EEGGCC
a) Construya un grfico que permita observar la composicin porcentual de los asistentes, segn sus profesiones, a la charla informativa. El grfico debe tener un ttulo adecuado.
b) Calcule una medida de tendencia central para la variable cualitativa.
20. Una urbanizadora ha comprado una serie de terrenos a un precio medio de 750 dlares por
metro cuadrado.
a) Si los vende con una ganancia del 25%, calcule el precio de venta medio por metro cuadrado.
b) Si fija el precio de venta por metro cuadrado estableciendo un incremento fijo de 60 dlares y un incremento variable de 10% sobre el precio de compra, calcule el precio medio de
venta por metro cuadrado de terreno.
21. Una compaa requiere los servicios de un tcnico especializado. De los expedientes presentados, se han seleccionado 2 candidatos: A y B, los cuales renen los requisitos mnimos requeridos. Para decidir cul de los 2 se va a contratar, los miembros del jurado deciden tomarles 7
pruebas. Todas las pruebas se calificaron utilizando una escala de 0 a 80, donde 80 es el mximo
puntaje posible. Los resultados se dan a continuacin:
1
57
80
2
55
40
3
54
62
Prueba
4
52
72
5
62
46
6
55
80
7
59
40
Notas
67
Estadstica EEGGCC
Regresin
La regresin encuentra una relacin funcional entre las variables cuantitativas X e Y.
Diagrama de dispersin
Dado un conjunto de n observaciones de las variables cuantitativas X e Y: (x1, y1), (x2, y2),, (xn, yn), el
primer paso para evaluar la posible asociacin entre estas variables es construir una grfica de los
datos en un plano bidimensional. Esta grfica se denomina diagrama de dispersin o scatter plot.
Covarianza
Dada una muestra de n pares de observaciones de las variables cuantitativas X e Y, (x1 , y1), (x2 ,
y2),, (xn , yn), la covarianza muestral se define como:
n
(x
cov( X ,Y ) = s xy =
Notas
i =1
x )(y i y )
=
n 1
nx y
n 1
x y
i i
i =1
68
Estadstica EEGGCC
sxy
sx sy
Este coeficiente de correlacin mide el grado de asociacin lineal que existe entre las variables X e Y.
El coeficiente de correlacin r es mayor o igual a -1 y menor o igual a 1.
Si r = 0 entonces indica que no existe una asociacin lineal entre las variables (pero puede existir
otro tipo de asociacin entre ellas).
Si r se acerca a 1 o a -1 indica que existe una asociacin lineal fuerte entre las variables, directa si
r = 1 e inversa si r = -1.
|r| = 1 solamente cuando todos los datos observados pertenecen a una recta, es decir, cuando la
asociacin lineal es perfecta.
Observaciones
Una correlacin alta no indica que una variable dependa de la otra o que sea causa de las variaciones en la otra. La asociacin entre ellas no necesariamente es causal.
Una correlacin alta indica que el modelo lineal podra ser adecuado para hacer predicciones en
el intervalo de variacin de los datos; fuera de l, el tipo de relacin entre las variables puede
cambiar o no existir.
Podemos obtener valores de correlacin muy altos si usamos una muestra de dos o tres pares de
datos pero en ese caso es claro que la conclusin acerca de la asociacin entre las variables puede no ser vlida.
Diversos grupos de datos pueden tener el mismo coeficiente de correlacin (como se observa en
el grfico siguiente); sin embargo, el tipo de relacin entre las variables es distinta, lo que muestra la importancia de realizar el diagrama de dispersin. El coeficiente de correlacin slo se debera calcular interpretar para nubes de puntos de tipo franja, ya sea creciente o decreciente.
Ejemplo 57
En la figura se muestran cuatro conjuntos de datos
bivariados, en todos los casos se cumple que:
Nmero de datos n = 11
Media de los xi = 9,0
Media de los yi =7,5
Corr(x, y) = rxy =0,82
Fuente: http://www.itl.nist.gov/div898/handbook/eda/section1/eda16.htm
Notas
69
Estadstica EEGGCC
2
i
i =1
(y
yi ) =
2
i =1
(y
(a + bx i ))2
i =1
La recta de regresin de mnimos cuadrados de Y sobre X, es L: y = a + bx; sus coeficientes son los
valores a y b que minimizan la suma de los cuadrados de los errores.
Los valores de b y a que minimizan SCE son:
b=r
sy
sx
s xy
sx
a = y bx
y = y , la media de los valores estimados con la recta es igual a la media de los valores observados.
Prediccin
Para predecir el valor de la variable dependiente para un valor dado de la variable independiente,
basta con reemplazar el valor dado en la frmula de la recta de mnimos cuadrados.
Notas
70
Estadstica EEGGCC
Coeficiente de determinacin
Se puede demostrar que:
(y
Var(Y) es la varianza de los valores observados de la variable dependiente: sy 2 =
i =1
y )2
n 1
(y y )
(e e ) (y
2
i =1
n 1
i =1
i =1
n 1
yi )2
n 1
Var (Y)
Var (Y )
Ejemplo 58
Durante ocho semanas se observ la relacin, entre el nmero de comerciales contratados y el valor
de las ventas, en miles de soles, de un artculo.
X: Comerciales
58
51
85
35
62
70
98
104
Y: Ventas
208
171
253
126
206
220
275
281
a. Grafique el diagrama de dispersin, evale si las variables en estudio parecen estar asociadas.
b. Calcule e interprete el coeficiente de correlacin lineal de Pearson.
c. Determine la ecuacin de la recta de regresin de las ventas sobre el nmero de comerciales.
d. Si en una semana se contratan 75 comerciales, estimar las ventas en esa semana.
e. Calcule e interprete el coeficiente de determinacin.
Notas
Estadstica EEGGCC
71
Solucin
a. El diagrama de dispersin muestra un comportamiento de franja creciente, esto nos sugiere asociacin lineal directa entre las variables.
b. El coeficiente de correlacin es r = 0 ,981 , este valor indica una asociacin lineal fuerte y directa
entre el nmero de comerciales contratados por semana y el valor de las ventas semanales.
c. Calculemos los coeficientes de la recta de regresin.
x = 70,375 y = 217,5 sx = 22,242 sy = 49,196 sxy = 1074,187
d. Si x es igual a 75, entonces, y = a + b (75) = 227,5 ; entonces, en una semana en que se contratan
75 comerciales se estima que el valor de las ventas sera 227 500 soles.
e. El coeficiente de determinacin es R = r 2 = 0 ,96 = 96 % . La varianza explicada por la recta de
regresin es el 96% de la varianza de la variable valor de las ventas semanales. El ajuste de los
datos al modelo lineal es muy bueno.
Notas
72
Estadstica EEGGCC
Ejemplo 59
Las notas siguientes corresponden a la primera prctica de un horario de un curso de Estadstica y la
cantidad de horas dedicadas a estudiar para dicha prctica.
Horas
5,0
6,0
12,0
10,0
8,0
8,5
4,5
5,0
2,0
2,5
4,0
5,0
6,0
3,0
4,0
6,0
12,5
Notas
15
12
17
14
15
15
13
13
10
10
10
14
12
12
13
11
17
a. Grafique el diagrama de dispersin y evale si parece existir relacin lineal entre el tiempo de
estudio y la nota obtenida en el examen de Estadstica.
Notas
Estadstica EEGGCC
73
Ejemplo 60
Se llev a cabo un estudio para investigar la relacin entre Y: el precio de reventa (en cientos de dlares) y X: la antigedad (en aos) de automviles compactos de lujo. Se determin que la ecuacin
de la recta de regresin de mnimos cuadrados fue y = 192,7 + bx. Tambin se determin que por
cada mes adicional de antigedad del automvil, la estimacin del precio de reventa baja en 153,50
dlares. Con esta informacin estime el precio de reventa de un automvil compacto de lujo con
cuatro aos de antigedad.
Notas
74
Estadstica EEGGCC
Ejercicios
23. A continuacin, se muestran los datos recogidos del valor en dlares de dos acciones, una de un
mercado externo cuya cotizacin termina a las 9 am. hora peruana, y otra de la Bolsa de Valores
de Lima cuya cotizacin concluye a las 3 pm.
Da
Accin de la BVL
2-Feb-2009
14,29
16,24
3-Feb-2009
14,32
16,28
4-Feb-2009
14,33
16,33
5-Feb-2009
14,28
16,32
6-Feb-2009
14,36
16,47
9-Feb-2009
14,43
16,52
10-Feb-2009
14,35
16,38
11-Feb-2009
14,41
16,45
12-Feb-2009
14,43
16,47
13-Feb-2009
14,36
16,33
a) Encuentre la recta de regresin que mejor se ajuste a los datos y que permita predecir el
precio de la accin que cotiza en la BVL cuando se conoce el precio de la accin del mercado externo.
b) Estime el precio de la accin que cotiza en la BVL cuando el precio de la accin del mercado
externo es de 14,25 soles.
c) Calcule el coeficiente de determinacin y comente sus resultados.
24. Los datos de la siguiente tabla muestran el rea construida (en metros cuadrados) y el precio de
venta (en miles de dlares) de 10 departamentos nuevos ubicados en el mismo distrito.
Notas
Departamento
126
78,5
180
175,7
162
139,5
144
129,8
166
95,6
163
110,3
207
260,5
149
105,2
134
88,6
10
174
165,7
75
Estadstica EEGGCC
25. En un estudio para determinar la relacin entre la edad y la presin sangunea en mujeres se
tom una muestra aleatoria de 9 mujeres dando los siguientes resultados:
Edad (aos)
Presin sangunea
(mm Hg)
56
41
70
37
63
46
57
50
39
146
125
153
117
151
124
151
142
118
a) Grafique el diagrama de dispersin y evale la posible asociacin entre las variables edad y
presin sangunea.
b) Calcule e interprete el coeficiente de correlacin lineal.
c) Determine la ecuacin de la recta de regresin lineal y estime la presin sangunea de una
mujer de 65 aos.
26. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para
absorber hierro y plomo. A cada participante del estudio se le da una dosis oral idntica de hierro y plomo. Despus de 12 das se mide la cantidad de cada componente retenida en el sistema
corporal y, a partir de sta, se determina el porcentaje absorbido por el cuerpo. Se obtienen los
siguientes resultados:
Notas
Sujeto
10
Porcentaje de hierro
17
22
35
43
80
85
91
92
96
99
Porcentaje de plomo
17
18
25
58
59
62
65
70
72
a)
Grafique el diagrama de dispersin. Parece haber asociacin entre las variables estudiadas?
b)
Prediga el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe
el 20% del plomo ingerido. Le parece adecuado un modelo de regresin lineal para hacer esta prediccin?
c)
Calcule e interprete el coeficiente de determinacin. Considerado el valor calculado, evale nuevamente su respuesta a la pregunta de la parte b.