Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística,
Probabilidad
< y Tecnología
Salida Matemática y Tecnología
cu
<
O
I
«ft
LJ
?
f
un
» I
•A,ll> *
tí
?
PROYECTO
I
SABER
HACER
V SANTILLANA
índice
4. La m oda (Mo) 17
© Santillana, S. A.
U n id a d 2: M e d id a s d e p o s ic ió n 29
1. M edidas de posición 30
►Percentiles (Pk)........................ ............................................................................... 30
2. Percentiles para datos agrupados 32
3. Cuartiles (Q k) ... ............................................................................ 34
4. Deciles (Dk) ................ ................. .............................................35
►Usando la tecnología: M icroso ft Excel 35
►Usando la tecnología: Lenguaje R 37
U n id a d 3: M e d id a s d e d is p e rs ió n 41
©Santillana, S. A.
_______________
U n id a d 4; P ro b a b ilid a d e s ta d ís tic a 61
1. Probabilidad estadística 62
►Conceptos previos 62
2. Definición de probabilidad 65
1. C orrelacción 82
©Santillana, S. A.
Estructura de las unidades
La estructura de las unidades del libro E stadística, P ro b ab ilid ad e s y Tecnología es la siguiente:
Página inicial
C o m p e te n c ia s esp ecíficas
D e strezas q u e se e sp e ra n del
estudiante al cu lm inar el trabajo
con la unidad.
C o n te n id o s
Desglose de los conceptos
presentes y trabajados
a lo largo de la unidad.
E jem plos
Ejem plos resueltos para apoyar
Páginas de contenido el proceso de enseñanza-aprendizaje.
Exposición
de conceptos y Medidas de tendencia central
procedim ientos Es evidente que un número importante de datos tiende a agruparse alrededor
de ciertos valores centrales (intervalos), y consecuentemente, el resto se distri
buye por encima y por debajo de estos intervalos de mayor frecuencia. A partir
presentes en la de este comportamiento, se determina que en las distribuciones muéstrales
hay un valor que es el más frecuente y alrededor del cual se agrupa el resto de
El precio en ro$ de la gasolina premium para las 10 semanas desde el 8
de septiembre 2017 al 17 de noviembre 2017 fueron los siguientes:
221.8,220.3,216.3,215.3,211.3,210.3,211.8,215.8.220.8,225.8.
los valores; este puntaje se considera representativo de toda la distribución a
doble página. estos valores, que representan la tendencia de una distribución, se les deno- ¿Sabes cuál fue el precio promedio de ia gasolina premium en esa
semanas?
De acuerdo con la fórmula 1.1, el promedio para el precio de la gasi
premium es:
Maniquíes no son Iguales a la Media de gasolina premium , « " » “ * “ g S j f f n T ”
jf 2218+220.3*216.3*2153.211.3+210.3+211,8*215.8*220é*225.8
,a las medidas que
lasmujeresreales: Estatura en ma ■ La puntuación promedio de los estudiantes del Nivel Secundario en la asig
niquíes 6 pies, en muieres Spies a natura de Matemáticas en las Pruebas Nacionales fue de 17.17 en la primera
pulgadas: cintura en manquies 23 convocatoria del ario 2017.
pulgadas, en las moeres29 pulga
das. y así con las demás medidas
denotando notables diferencias
dia geométrica y la
Donde I * indica el total de sumar todos los valores de una distribución de valores del conjunto de datos, puede verse afectad
que no son representativos del resto de los datos de retroali-
armónica y las relaciones La media aritmética, también «amada promedio o simplemente media, es la medi
biecieron las 8 notas de la
da de tendencia central más conocida y usada en la práctica debido básicamente,
a la sencillez de su cálculo y a que es el fundamento de un gran número de técni en el centro educativo y
ss muy grande, podría ser tedioso calcular la
m entación
escala musical que conoce cas estadísticas, la media aritmética indica la tendencia general de una distribu compara con los demás
mos hoy en dia (do re mi
(a sol la si DO)
ción de frecuencias de una variable y es el valor central alrededor del cual están la
mayoría de las oOseivaciones Por otro lado, a diferencia de otros índices de ten
compañeros ¿Quién tiene
el promedio más alto? y refuerzo.
dencia central, solo puede calcularse para var
©Santillana, S. A.
5
Páginas de actividades y de evaluación
y
C o n tro l del a p re n d iza je . Ejercicios de final de unidad, donde se ponen a prueba
los conocim ientos adquiridos por los estudiantes al térm in o del trabajo con la unidad.
M e d id a s d e p o sició n
i Una encuesta sobre el número de llamadas telefónicas por celular realizada con una 5. La siguiente distribución de frecuencias corresponde a los salarios de los emplea
muestra de usuarios la semana pasada reveló la siguiente información. dos de una empresa manufacturera.
30 42 12 46 39 37 34 46 32 f,
15.0-15.49 7 7
• Calcula e interprete: 15.5-15.99 18 25
Percentil: 33,66 y 85 Cuartil: 1 y 3 Decil: 2 y 5 16.0 -16.49 32 57
2. La siguiente información se refiere a los precios de venta, en miles de dólares, de 16.5 -16.99 45 102
casas que se vendieron en la ciudad, durante el 2010 .
17.0-17.49 52 154
Total 206
• Calcula e interpreta:
Cuartil 2
• Calcula e interpreta:
Años
Percentil: 30,65 y 92
1987 1990 1992 1994 1996 1998
3. una muestra de ocho estudiantes reveló que poseían la siguiente calificación e
Física: I 4.3 4.4 4.6 4.3 4.1 4.1
4 los siguientes datos corresponden a la masa (en kg) de 24 mujeres de 17 años. V 572 56.9 56.3 56.9 56.7 56.9
• Investiga sobre el monto de ingresos per cápita en los años que indica el cuadro y
actualiza los valores por año y quintil (Consultar Enhogar 2007).
• Calcula e interpreta: • Establece el significado de los quintiles y su aporte como complemento a la media
Cuartil 1 aritmética que es el ingreso per cápita.
c„mu»w a.„*»aEí°"*"caV
„„eBMdaanm*»"'
I , txp»“ '“ " 1* * 0 M ¡tn.P„ortatrte'
„ „ m e t » 18® 16
E valuación
. Niveles te
resenta Prueba de la adquisición
W0de.aV-eP'«e- _ aegere„e8^ *
,c asonantes al muestran ' ^ ^ 10 pu.— - de las destrezas propias
oucióh°e'
. u , m« # a a *a » c a
— de la asignatura, desglosadas
en térm in os de las com petencias
específicas.
, dominica"8 *“
4 0«re"*^fv1V7S. fle,rerema",0(l0'Cert“a'
rica?
! mediana,
. oetermma 'a _ o mayor QU
media aritmética ■ia media a" BT^ t'Ca'
ntn de datos-tórne
n\nica na so n
"■
u « i i i a M « am'
o t a s « " " 0168 . , » e l * » KCOT
^ ^ a i e « ¿ aro6„,oa. ^ « n g K W ia l.aRepa*800“ '
5SÍgi'e" __ .........
© Santillana, S. A.
6
1 I 2 3 4 5 6 7 8 9 10
Medidas de tendencia
central
El Ministerio de industria y Comercio de la República Dominicana coordina el proceso de aná
lisis de variables económicas y financieras para determinar los precios de los combustibles.
C o m p e te n c ia s
Identifica m edia geom étrica y
arm ó n ica , c o m o m edid a de
tendencia central.
Define media, mediana, moda,
m edia g e o m é tric a y m e d ia
arm ónica.
Utiliza herram ientas te c n o ló
gicas para re a liza r cá lcu lo s
con m e d id a s de te n d e n c ia
central usando herram ientas
tales com o: M icrosoft Excel y
Lenguaje R.
C o n te n id o s
■ M edia aritm ética
■ M ediana
■ M oda
■ M edia geom étrica
■ M edia arm ónica
©Santillana, S. A.
7
€ § Medidas de tendencia central
Es evidente que un núm ero im portante de datos tiend e a agruparse alrededor
de ciertos valores centrales (intervalos), y consecuentem ente, el resto se d istri
buye por encim a y por debajo de estos intervalos de m ayor frecuencia. A partir
de este co m porta m iento, se d e term ina que en las d istrib u cio n e s m uéstrales
hay un valor que es el más frecuente y alrededor del cual se agrupa el resto de
los valores; este puntaje se considera representativo de toda la distribución. A
estos valores, que representan la tenden cia de una distrib ución , se les d en o
m ina: m e d id a s de te n d e n c ia c e n tra l
De seguro has escuchado el concepto de prom edio, m edida de tendencia cen
tral que m uestra el valor central de los datos. Los prom edios aparecen a diario
en televisión, en el periódico, en Internet y en otras publicaciones. He aquí al
Maniquíes no son iguales a la gunos ejem plos:
realidad. La revista Health deter
minó en un estudio que las medi ■ El precio prom edio de un galón de gasolina prem ium , en la República Dom i
das "promedio" de los maniquíes nicana, era de RDS215.47 de a cu e rd o con un e stu d io llevado a cabo por
no son iguales a las medidas que ProConsum idor.
estas deberían de representar en
■ La puntuación prom edio de los estudiantes del Nivel Secundario en la asig
las mujeres reales: Estatura en ma
natura de M atem áticas en las Pruebas Nacionales fue de 17.17 en la prim era
niquíes 6 pies, en mujeres 5 pies 4
pulgadas; cintura en maniquíes 23 convocatoria del año 2017.
pulgadas, en las mujeres 29 pulga ■ La puntuación prom edio de un estudiante al finalizar el prim er sem estre de
das, y así con las demás medidas clases en la asignatura de Lengua Española fue de 92.4.
denotando notables diferencias.
■ El gasto prom edio sem anal en com ida en un hogar es de RD$250.0.
Las m edidas de tendencia central perm iten representar toda la distribución de
frecuencias con un único valor y, adem ás, facilitan la com paración de dife re n
tes conjuntos de puntuaciones de una variable. A continuación, se van a des
cribir las m edidas de tendencia central, representativas de la distribución, más
utilizadas en el análisis de datos: la m edia aritm ética, m edia geom étrica, m edia
arm ónica, la m ediana y la m oda.
8 ©Santillana, S. A.
Ejemplo: precio gasolina premium
El precio en RD$ de la gasolina prem ium para las 10 sem anas desde el 8
de s e p tie m b re 2017 al 17 de n o vie m b re 2017 fu e ro n los sig u ie n te s:
221. 8 , 220.3, 216.3, 215.3, 211.3, 210.3, 211. 8 , 215.8, 220.8, 225.8.
¿Sabes cuál fue el precio prom edio de la gasolina prem ium en esas 10
semanas?
De acuerdo con la fórm ula 1.1, el prom edio para el precio de la gasolina
prem ium es:
©Santillana, S. A. 9
€È Media aritmética para datos agrupados
Cuando la variable está agrupada en una distribución de frecuencias, la m edia
aritm ética se calcula por la fórm ula:
em plea un valor para representar a todos los que se encuentran en cada clase.
Este valor que representa a todos los de su clase es el punto m edio de clase o
el valor central de cada clase (Xi) el cual es, precisam ente, el prom edio entre
los 2 lím ites de cada clase.
10 © Santillana, S. A.
B C
GASOLINA
Fecha Rango de vigencia GASOLINA
i PREMIUM 1
Fecha Rango de vigencia
PREMIUM
2 10/11/2017 11 A L 1 7 D E NOV 2017 225.80 2 10/11/2017 11 AL 17 DE NOV 2017 225.80
3 03/11/2017 04 AL 10 DE NOV 2017 220.80 3 03/11/2017 04 AL 10 DE NOV 2017 220.80
4 27/10/2017 28 O C T A L 03 DE NOV 2017 215.80 4 27/10/2017 28 O C T A L 03 DE NOV 2017 215.80
g ¡ C O M P E T E N C IA A M B IE N T A L Y DE LA S A L U D
©Santillana, S. A. 11
2.2 Usando la tecnología: Lenguaje R
Al ejecutar el program a R, nos aparece la siguiente ventana de com andos:
!*lí|a¡M«|o|[S||S|
HKCMOte
>1
R es un program a estadístico basado en com andos, al cual debem os de in tro d u cir los
com andos y los datos para que este nos m uestre los resultados deseados.
Para in troducir un conjunto de datos {d a to l, dato2,...} con el nom bre Y escribim os:
x= c (d a to i,d a to 2 ,...)
El com ando en R se usa para o b tene r la m edia aritm é tica o prom edio de un conjunto
de datos en mean(x).
Para o b te n e r en R el p ro m e d io de los precios de la gasolina prem ium , en la línea de
com andos (después del sím bolo de línea "> ") digitam os lo siguiente:
> X = C (221.8, 220.3, 216.3, 215.3, 211.3, 210.3, 211.8, 215.8, 220.8, 225.8) > m ean(x)
[11216.95
.inangflgBB,
|> x = c (221.8, 220.3, 216.3, 215.3, 211.3, 210.3, 211.8, 215.8, 220.8, 225.8)
I > mean(x)
[ (1) 216.95
12 © Santillana, S. A.
2.3 La mediana (Me)
La m ediana de una variable X, representada por M e, se define com o el valor
que divide la d istrib u ció n de frecu encias en dos partes iguales, co n teniend o
cada una el 50 % de las observaciones. Esta sola observación es el elem ento
que está m ás al centro del conjunto de valores.
Las p rin cip ales p ro p ie d a d e s d e la m e d ia n a son las siguientes:
■ No influyen en ella valores extrem adam ente grandes o pequeños. Por consi
guiente, la m ediana es una valiosa m edida de ubicación cuando dichos valo
res se presentan.
■ Es calculable para datos de nivel ordinal o más altos.
El p ro c e d im ie n to para e n c o n tra r la m edia na en d a to s no a g ru p a d o s es el
siguiente:
■ O rdenar la serie (conjunto de valores), de m enor a mayor, aunque no nece
sariam ente en ese orden.
■ D eterm inar la posición central, esta se encuentra dividiendo entre 2 el núm e
ro de elem entos m ás 1 o, en sím bolos, Posición M e = -Ü ± L .
2
■ Identificar el valor que ocupa esta posición central, que es la m ediana.
■ Cuando el núm ero de observaciones es impar, la m ediana coincide con uno
de los valores de la distribución, pero cuando el núm ero de observaciones es
par, la posición de la m ediana será una fracción, es decir se ubicará en m edio
de los dos valores que están en el centro de la distribución; debido a esto se
prom edian estos dos valores para determ inar la m ediana.
N u n ca u tilic e s el té rm in o
p ro m e d io para r e fe rirte a
c u a lq u ie r m e d id a de te n
den cia c e n tra l. La m edia na
no se debe c o n fu n d ir con la
m edia a ritm é tic a , ya que lo
norm al es que sean d ife re n La mediana, además de ser una medida de tendencia central, también es con
tes entre sí. siderada una medida de posición.
©Santillana, S. A. 13
Elemento del arreglo de datos 1 2 3 4 5 6 7
Tiempo en minutos 4.2 5.0 4.3 9.0 5.1 4.8 4.7
Pacientes Posición M e = = 7 +1 = — = 4
2 2 2
Posición M e = n + 1 = 8 + 1 = — = 4.5
2 2 2
14 ©Santillana, S. A.
w Mediana para datos agrupados
C uando los d atos están agrupa dos en ta b la s de fre cu e n cia s, la m ediana se
calcula u tiliza n d o un p ro c e d im ie n to de in te rp o la ció n , sie ndo su fó rm u la de
cálculo la siguiente:
( y - Fr 1)
M e d ia n a para d a to s agrup ados: M e = L, + f * AC
Donde:
L¡: lím ite inferior real del intervalo en que debe caer la m ediana.
f¡: frecuencias sim ples dentro del intervalo en donde debe caer la m ediana.
Puntuaciones fi x¡ F,
6 5 -7 0 3 67.5 3
7 0 -75 5 72.5 8
7 5 -8 0 8 77.5 16
8 0 -85 12 82.5 28
8 5 -9 0 10 87.5 38
9 0 -9 5 7 92.5 45
95-100 5 97.5 50
Total 50
■ Se calcula — = ~ = 25.
2 2
■ 25 se ubica en las frecuencias acum uladas en el intervalo 80 - 85. A
este Intervalo se le denom ina la clase mediana.
©Santillana, S. A. "j 5
■ Se determ ina F 1 que corresponde a la frecuencia acum ulada a n te rio r a ia clase
m ediana; en este caso es igual a 16.
■ De igual m anera, se señala el va lo r de f¡, o sea, la fre cu encia sim ple d e n tro de la
clase m ediana, que resultó ser igual a 1 2 .
■ El tam año del intervalo, AC, para este problem a es de (5).
■ Finalm ente, se sustituye en la fórm ula de la m ediana:
'
M e = 80 + 2 5 -1 6 * 5 -8 0 + — * 5
12 I 12
El valor de la m ediana para estos datos es de 83.75 y se considera que deja por enci
ma y por debajo de él al 50 % de los datos de la distribución.
Com o se puede observar, el valor de la m ediana es prácticam ente Igual al de la media
aritm ética, situación que se presentará siem pre que se analicen datos muéstrales. Sin
em bargo, siem pre aspirarem os a que la diferencia entre estos dos estadísticos sea la
m enor posible.
16 ©Santillana, S. A.
¡ T a s a s d e C a m b io d e l d ó la r d e R e f e r e n c ia
d e l M e r c a d o S p o t , P r o m e d io M e n s u a l *
Año M es Compra Venta
2016 Ene 45.5254 45.6154
2016 Feb 45.6625 45.7642
2016 Mar 45.7152 45.8094
2016 Abr 45.7682 45.8535
2016 May 45.8115 45.9010
2016 Jun 45.8652 45.9541
2016 Jul 45.9255 45.9945
2016 Ago 45.9421 46.0061
2016 Sep 46.0803 46.1746
2016 Oct 46.3447 46.4371
2016 Nov 46.4897 46.5893
2016 Die 46.5858 46.6741
- .................. '
J«N%o Inicio Irwcrtar DncñodepAgiiM Fó-mul*i flitoí Pcvnii VnU Pioqumaitor 9 ' ■ -.
- - A A - 3 «* - S Afuctaltolto 6+v* ■1 f c m m ■ □ ■ e s a . p t •
*• i-p'»'fornaio N * i B — ' A ' ■ 1 íimbmíi ycenti,. • S • % « • ; *onr-.Wo Unífornuto | jj S J H B SISS■ ■ mm M R BZSB&m SSZE9HI = *««*» b»™«í» <*#" .■ bu* « y
• i A
A a B C D E G H M *
|Tasas de Cam bio del dólar de Referencia
del Mercado Spot, Promedio M ensual *
Año Mes Compra Venta
2016 Ene 45.5254 45.6154
2016 Feb 45.6625 1 45.7642
2016 Mar 45.7152 45.8094
2016 Abr 45.7682 45.8535
2016 May 45.8115 45.9010
2016 Jun 45.8652 45.9541
2016 Jul 45.9255 45.9945
2016 Ago 45.9421 46.0061 La m ediana
2016 Sep 46.0803 46.1746
2016 Oct 46.3447 46.4371
de la tasa de cam bio
2016 Nov 46.4897 ; 46.5893 del dólar
2016 Die 46.5858 ! 46.6741
Fuente: Estadísticas Económicas del Banco C
estadounidense
la República Dominicana, Año 2016. para la venta en el año
45.9743 2016 fue de 45.9743
pesos por dólar.
o? «¡ -j A
C Santillana, S. A.
3.2 Usando la tecnología: Lenguaje R
utilizan do R para obtene r la m ediana de la tasa de cam bio del dólar estadounidense para la
com pra en el año 2016, debem os utilizar el com ando m edian (x).
ingresando en la línea de com andos (>) los datos de la tasa de cam bio para la com pra del
dólar:
> X = c(45.5254, 45.6625, 45.7152, 45.7682, 45.8115, 45.8652, 45.9255, 45.9421, 46.0803,
46.3447, 46.4897, 46.5858)
> m edian(x)
[1] 45.89535
Año 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
C o m p ra 48.55 35.68 40.55 44.17 49.39 48.91 47.58 52.68 50.42 55.41 57.69 49.83 50.89 53.62
18 © Santillana, S. A.
Q í La moda (Mo)
La m oda es el valor que m ás se repite, es decir, el que tiene m ayor frecuencia.
La m oda es de especial utilidad para resum ir datos de nivel nom inal. Es posible
determ inar la m oda para todos los niveles de datos, nom inal, ordinal, de inter
valo y de razón. La m oda tam b ién tie n e la ventaja de que no Influyen en ella
valores extrem adam ente grandes o pequeños.
No obstante, la m oda tiene sus desventajas, por las cuales se le utiliza con m e
nor frecuencia que la m edia o la m ediana. Entre sus desventajas está el caso
de que en m uchos conjuntos de datos no existe la m oda, porque ningún valor
se presenta m ás de una vez.
Por ejemplo, no hay m oda en el siguiente conjunto de datos de precios: $19, $21,
$23, $20 y $18. Sin embargo, com o cada valor es diferente, podría argum entarse
que cada valor es la m oda. Cuando un conjunto de datos no tiene m oda, este
conjunto se considera com o am odal, es decir, que carece de moda.
Por el contrario, en el caso de algunos conjuntos de datos hay más de una moda.
$upongam os que las edades de los m iem bros de un club son 2 2 ,2 6 ,2 7 ,2 7 ,3 1 ,3 5
y 35. Am bas edades, 27 y 35 son modas. Así, este agrupam iento de edades se de
nomina bimodal (tiene dos modas). Alguien podría cuestionar la utilización de dos
modas para representar la ubicación de este conjunto de datos de edades.
Donde:
L¡ = lím ite in ferio r de la clase m odal (la clase que contiene la m oda, esta es la
que contiene la m ayor frecuencia absoluta).
©Santillana, S. A. "| g
AC = tam a ño del intervalo de la clase.
d 1 = la diferencia entre la frecuencia absoluta de la clase m odal y la frecuencia
absoluta de la clase anterior.
d 2 = la diferencia entre la frecuencia absoluta de la clase m odal y la frecuencia
absoluta de la clase siguiente.
G rupo d e ed a d f¡
4 5 -5 0 4
5 0 -5 5 21
En estos datos agrupa dos ya
5 5 -6 0 14
s o lo se tie n e una cla se con
6 0 -6 5 7
m a yo r fre c u e n c ia , la q u e va
6 5 -7 0 10 de 50 a 55 y, por lo tanto, solo
7 0 -7 5 1 se tiene una m oda.
7 5 -8 0 3
Total 50
Me = 50+ - 2 1 ~ 4 ---------- * 5 = 50 + - ~ 1 / • * 5 = 50 + 4 f * 5
(2 1 -4 )+ (21-14) 17 + 17 24
= 50 + (0.7083) * 5 = 53.542
B C O M P E T E N C IA A M B IE N T A L Y DE LA S A L U D
C3 Se ha d e sa rro lla d o una nueva vacuna co n tra la d ifte ria para ap lica rla a niños. A n
te rio rm e n te el nivel de p ro te c c ió n e stá n d a r o b te n id o por a n tig uas vacunas es de
1 p g /m l un m es después de la in m u n iza ció n . Con la nueva vacuna se han o b te n id o
los sig u ie n te s d a to s del nivel de p ro te cció n en p g /m l al tra n s c u rrir un m es:
12.5 13.5 13 13.5 13 12.5 13.5 14 13.5 13 13 14 14.5 13 12 13.5 13.5 12.5 12.5 12.5
20 © Santillana, S. A.
4.2 Usando la tecnología: Microsoft Excel
M icrosoft Excel calcula la m oda con la función MODAO. H aciendo uso de esta
función no es necesario agrupar u ordenar los datos para determ inarla; la fu n
ción de Excel hace to d o el trabajo.
Las ca lifica cio n e s de un e stu d ia n te en 20 p ru e b in e s fu e ro n 5 , 3 , 6 , 5 ,4 ,5 ,2 ,
8 , 6 , 5 ,4 , 8 , 3, 4, 5 ,4 , 8 , 2, 5 ,4 . H allar la m oda de estas calificaciones.
©Santillana, S. A. 21
4.3 Usando la tecnología: Lenguaje R
Al ser R un program a estadístico, para el cálculo de algunos datos estadísticos
es necesario instalar bibliotecas que contienen funciones específicas para rea
lizar dichos cálculos, un e jem p lo es la biblioteca "M odee st", la cual se utiliza
para calcular la m oda de una distribución. Para instalar la biblioteca es necesa
rio te n e r acceso a Internet y posicionarse en la barra de estado en paquetes ->•
Instalar paquetes y, luego, elegir un mirror, para luego descargar las bibliotecas
deseadas.
Al descargar la biblioteca "M odeest" se debe usar la función mfv(x) para deter
m inar la m oda de un conjunto de datos.
D espués de desca rga r la b ib lio te ca "M o d e e s t" d e b e m o s de cargar esta en
nuestro sistem a R. Para cargarla debem os de:
1) Ir al m enú principal y hacer clic en Paquetes.
2) Hacer clic en cargar paquetes.
3) De la lista de paquetes seleccionar "M odeest".
4) Hacer clic en A ce p ta r.
Después de tener cargada la biblioteca "M odeest" en nuestro R, procedem os a
Ingresar los datos a los cuales querem os calcular la m oda.
> X = C(5, 3, 6 , 5, 4, 5, 2, 8 , 6 , 5, 4, 8 , 3, 4, 5, 4, 8 , 2, 5, 4)
> mfv(x)
[1] 5
Warning message:
package 'modeest' was built under R version 3.4.3
> x=c(5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4)
> mfv(x)
[1] 5
>l
22 ©Santillana, S. A.
& La media geométrica (G)
La m edia geom étrica resulta útil para de te rm in a r el cam bio prom edio de por
centajes, razones, índices o tasas de cre cim ie n to , y se d e fin e co m o la raíz
n-ésim a del producto de los n datos o valores de la variable.
Posee am plias aplica cione s en la a d m in istra ció n y la econom ía, ya que con
frecuencia hay interés en d e term inar los cam bios porcentuales de ventas, sa
larios o cifras económ icas, com o el producto interno bruto, los cuales se com
binan o se basan unos en otros.
La m edia geo m é trica siem pre es m enor o igual (nunca m ayor) que la m edia
aritm ética. Todos los datos deben ser positivos.
1ro. 96.1 % 2dO. 95.5 % 3ro. 89.9 % 4tO. 91.8 % 5tO. 92.8 % 6tO. 93.6 %
= f¡ 657,849,108,739.37 = 9 3 .3 %
La tasa de p ro m o ció n p ro m e d io de los 6 grados de Básica de un c e n
tro e d u c a tiv o es de 93.3 %.
■2«
asi 18S2 3S?J ÍÍS * 18« S98é 1«17 1*28 19 » 1950 l«M 59T2 It t i 19« 20« 20«
gíwranweIiíia-Mt-CBPfMSaESíftM»!»} — M a M in a iC O f fM ortk {ngh»«eiUJ
23
5.1 Usando la tecnología: Microsoft Excel
M icrosoft Excel calcula la m edia geom ètrica con la función MEDIA.GEOMO.
Calculando la tasa prom edio de prom oción de los 6 grados de un centro edu
cativo de Prim aria del ejem plo a n te rio r haciendo uso de Excel, se tiene:
Usando la función de Excel para determ inar la m edia geom étrica de la tasa de
prom oción, se realizan los siguientes pasos:
■ Ubicarnos en la celda en la que querem os almacenar el resultado de la media.
■ Hacer clic en la opción In s e rta r función (fx).
■ En la ventana re su lta n te elegir la fu n ció n (MEDIA.GEOM) de las fu n cio n e s
estadísticas.
■ Después seleccionar los valores (tasa de prom oción) de los que querem os
obtene r la m edia geom étrica, rango de celdas desde B3 hasta B 8 .
■ Hacer clic en A ce p ta r.
La tasa de p ro m o c ió n p ro m e d io de los 6 g ra d o s de P rim a ria de un c e n tro
e d u ca tivo es de 93.3 %.
© Santillana, S. A.
5.2 Usando la tecnología: Lenguaje R
Para calcular la m edia geom étrica en R hacem os uso de dos funciones (prod(x) y
length(x)), ya que no hay una fu nció n específica para este estadístico. H arem os
uso de los datos de la tasa de prom oción de los grados del centro de Primarla.
Ingresando en la línea de com andos lo siguiente:
> X = C(96.1, 95.5, 89.9, 91.8, 92.8, 93.8)
> m ediaGeom = prod(x)A(1/length(x))
> mediaGeom
[1] 93.29248
\c RGui (64-bit)
firc h iv o £ditar Visualizar M «c Paquetes Ventanas Ayuda
l<*lálHIM*|o||»||«|
U R Consolé
> x = c (9 6 .1 , 9 5 .5 , 8 9 .9 , 9 1 .8 , 9 2 .8 , 93.8)
> mediaGeom = prod(x)A (1/length(x))
> mediaGeom
[1 ] 9 3 .2 9 2 4 8
>I
OSantillana, S. A. 25
La media armónica (H)
La m edia arm ónica es el recíproco de la m edia aritm ética de los recíprocos de
los valores individuales.
Se le suele utilizar para p rom edia r distintas velocidades desarrolladas en dis
tancias iguales, tiem pos, rendim iento, etc.
Una desventaja de esta es que cuando algún valor de la variable es 0 o cerca
no a cero no se puede calcular.
M e d ia arm ó n ic a H = — — ——
— + — + ... - X
x, x2 xn
Juan Pablo Montoya fue quien esta
bleció el tiem po de la vuelta más
rápida de la historia en la Fórmula 1
(F1), un récord que hoy sigue vigen Ejemplo: Velocidad media
te. El colom biano rodó en Monza
con su Williams FW36 a una Increí
Supóngase que una fam ilia realiza un viaje en autom óvil a una ciudad y
ble velocidad media de 262.24 km/h cubre los prim eros 100 km a 60 km /h, los siguientes 100 km a 70 km /h y
(162,950 m/h). los últim o s 100 km a 80 km /h. Calcular, en esas condiciones, la ve lo ci
dad m edia realizada.
D ebido a que estos d a to s co rre sp o n d e n a ve lo cid a d e s en d istan cias
iguales, es útil utilizar la m edia arm ónica:
H= = 69.04 km /h
1 1 1 0.0167 + 0.0143 + 0.0125 0.0435
60 70 80
■ í *
X ■/ MItNA.ABMOfB/B/)
A B C D E
Trabajador Productividad
MCDU.UMO
1 8 i«-«".' «M» 53 ■«I W W
2 11
3 7
. |TUTTI
4 7
5 18
6 6 ■lUMtkkllMl. UM0KII1
26 ©Santillana, S. A.
■ U bicarnos en la celda que que rem os alm acenar el resultado de la m edia
arm ónica.
■ Hacer clic en la opción In s e rta r función (fx).
■ En la ventana resultante elegir la fu nció n (MEDIA.ARMO) de las fu n cio n e s
estadísticas.
■ Después seleccionar los valores (Productividad) de los que querem os obtener
la m edia arm ónica, rango de celdas desde B3 hasta B8 .
■ Hacer clic en A ce p ta r.
La p ro d u c tiv id a d p ro m e d io de lo s 6 e m p le a d o s es de 8.29 m in u to s p o r
a rtícu lo .
CSantillana, S. A. 27
M e d id a s d e t e n d e n c ia c e n tr a l
CONTROL DEL APRENDIZAJE
1. Diez personas adultas que visitaban una pizzería, elegidas al azar, calificaron el sabor
de una nueva pizza de sushi en una escala de 1 a 50, en la que el 1 indica que no les
gusta el sabor y 50 que sí les gusta. Las calificaciones fueron las siguientes:
34 39 40 46 33 31 34 14 15 45
• Obtén la m edia aritm ética, m ediana y moda de la puntuación obtenida para la nueva
pizza.
2 0 6 3 10 4 1 2
10 a 20 3
20 a 30 7
30 a 40 18
40 a 50 20
50 a 60 12
5 a 10 23
1 0 a 15 38
15 a 20 20
20 a 25 11
© Santillana, S. A.
v e d ia g e o m é tric a
M ed ia a rm ó n ica
En una com petencia participan 5 pilotos, que realizan un recorrido de 1 000 kiló m e
tros. Se m uestra a contin uación el tie m p o en segundos que ta rd ó cada uno de ellos
en te rm in a r el trayecto. Calcula e in terpreta el tie m p o m edio de la com petencia.
T erren o Producción
A 1 500
B 2 100
C 1 234
D 2 356
E 3 478
©Santillana, S. A.
C o m u n ic a
1. Explica la relación entre la m edia aritm ética, m edia geom étrica y la m edia arm ónica.
R a z o n a y a r g u m e n ta
2. Para cada uno de los sig u ie n te s casos, id e n tific a una razón im p o rta n te p o r la que
la m edia y la m ediana no son esta d ístico s que tenga s e n tid o utilizarlo s.
• Códigos postales: 12601, 90210, 02116, 76177,19102.
• Niveles de estrés de distintos em pleados: 2 ,3 ,1 ,7 ,9 .
M o d e la y r e p r e s e n ta
3. A 35 aspirantes al puesto de gerente general de una im portante em presa se les aplica un exam en de aptitud
gerencial. A continuación se m uestran las calificaciones obtenidas por ellos. Representa en una tabla de d istri
bución de frecuencias con intervalos de clase de 1 0 puntos y obtén:
60 65 74 78 85 89 94
63 67 75 79 86 89 94
65 67 75 79 86 90 97
65 68 77 85 87 91 97
66 69 77 85 87 93 100
R e s u e lv e p r o b le m a s
4. El increm ento porcentual de ventas de los pasados 7 años en una em presa dom inicana fue de 5.91,8.75,3.12,
12.60, 4.75, 9.23 y 11.78.
• Determ ina la m edia geom étrica del increm ento porcentual.
• Determ ina la m edia aritm ética del increm ento porcentual.
• ¿La m edia aritm ética es igual o m ayor que la m edia geom étrica?
U tiliz a h e r r a m ie n t a s te c n o ló g ic a s
• Haciendo uso de Excel y Lenguaje R, calcula el siguiente conjunto de datos: la m edia aritm ética, la m ediana,
la m oda, la m edia geom étrica y la m edia arm ónica.
• Las edades de una m uestra de turista s canadienses que vuelan de Hong Kong a la República Dom inicana son
las siguientes: 32, 21, 60, 47, 54,17, 72, 55, 33, 41, 52, 45, 63, 75,15, 32 y 23.
APRENDIZAJE AUTÓNOMO
Reconoce los conceptos de m edia, m ediana, m oda, m edia geom étrica
y m edia arm ónica com o m edidas de tendencia central.
□ □ □
Calcula las m edidas de tendencia central: utilizando hoja de cálculo,
Lenguaje R.
□ □ □
Establece la diferencia entre la m edia aritm ética y la m edia geom étrica
utilizando diferentes softwares. □ □ □
30 ©Santillana, S. A.
i 2 ! 3 4 5 6 7 8 9 10
Medidas de posición
La Encuesta de Ingresos y Gastos de los Hogares (ENIGH) llevada a cabo por la Oficina Nacional
de Estadística (ONE) recurre a las medidas de posición para describir la intensidad de los ingre
sos y gastos por hogar; la última fue llevada a cabo en el año 2007.
@ne
O ficin a n ac io n al de e s ta d ís tic a
2007
cas para realizar cálculos con
m edidas de posición usando
herram ientas tales com o; M i
crosoft Excel y Lenguaje R.
C o n te n id o s
■ Percentiles.
O Santillana, S. A. 31
Medidas de posición
Las m e d id a s o ín d ice s de p o sició n , ta m b ié n d e n o m in a d o s fra c tile s , in for
m an acerca de la posición relativa de un su je to con respecto a su g ru p o de
referencia, den tro de la distribución de frecuencias de la variable. Es decir, indi
can la posición de una puntuación con respecto a un grupo, utilizando a este
com o m arco de referencia.
Dado que se trata de localizar la posición de un sujeto en una distribución deter
minada, para construir un índice de posición, debem os dividir la distribución en un
núm ero de partes o secciones ¡guales entre sí en cuanto al núm ero de observa
ciones. Por ejemplo, si querem os dividir una distribución en dos partes iguales,
necesitamos un único valor para esa partición, que coincide con la mediana de la
distribución (recuerda que la m ediana divide la distribución en dos partes, cada
una con el 50 % de los sujetos). En el caso de querer dividirla en tres partes, cada
una con un tercio de los sujetos, necesitam os dos valores de la variable, y así su
cesivamente. Dependiendo de cuántos valores de la variable utilicem os para divi
dir la distribución, podemos hablar de diferentes medidas de posición.
A continuación, vam os a describir tres m edidas de posición o fractiles: los per-
ce n tile s, los c u a rtile s y los deciles. Estos fractiles se utilizan con m ucha fre
cuencia en la práctica, especialm ente los dos prim eros.
En cam bio, en los percentiles, y de form a más general, se hace en base al nú
Las medidas de posición requieren m ero k ■Este núm ero es igual a ( n * ^ cuando calculam os el per
que exista un orden en las catego
rías de los datos, por lo que solo se centil 50. En efecto, k = 50 por lo que (n + D * 50 = id + H .
100 2
pueden determinar a partir de la
escala ordinal. Por eso antes de em
pezar a calcularlas hay que ordenar Loca lización de p e rc e n til P„ = (n + V * k
y k 100
los datos de manera ascendente.
32 © Santillana, S. A.
Ejemplo: Ausencias de estudiantes
En un centro educativo, al final del año escolar se ha obtenido la cantidad
de estudiantes que se han ausentado durante al m enos un día en 28 se
m anas de clases. Se desea o b tene r los percentiles 23 y 71 de la cantidad
de estudiantes que faltaron a clases al m enos un día en 28 semanas.
43 47 10 14 5 34 11 11 5 37 41 11 24 9 10 12 25 31 3 34 16 1 7 20 38 32 12
48
■ Primero, ordenam os los 28 datos (nótese entonces que n = 28).
1 3 5 5 7 9 1 0 1 0 1 1 11 11 12 12 1 41 6 20 24 25 31 32 34 34 37 38 41 43
47 48
ggf C O M P E T E N C IA C IE N T ÍF IC A
C Santillana, S. A.
33
Percentiles para datos agrupados
P „ = 10.5
El p ro ce d im ie n to que se sigue para d e te rm in a r el va lo r de los percentiles en
, * « • • • • ëlSl una serie de clases y frecuencias es el m ism o que se vio antes para la m edia
OBD is i B i E í i a D B I I S K a E i
na, salvo que se sustituye en el proceso de interpolación (en la fórm ula) la po
25%' 75%
sición correspondiente. Así, la fórm ula es la siguiente:
El percentil 25 deja por debajo al
25 % de la distribución de datos y n* k
deja por encima el 75 % de esta. 100
Percentil para datos agrupados P : AC
Donde:
L¡: lím ite inferio r real del intervalo en que debe caer el percentil.
n * k
: lugar(intervalo) en la co lu m n a de fre cu e n cia s a cum uladas en que
debe caer el percentil.
f ¡ : frecuencias sim ples den tro del intervalo en donde debe caer el percentil.
Puntuaciones f, F¡
6 5 -7 0 3 3
70 -7 5 5 8
7 5 -8 0 8 16
80 -8 5 12 28
8 5 -9 0 10 38
90 -9 5 7 45
95-100 5 50
50
Para el cálculo del percentil se requiere de las colum nas intervalos, fre
cuen cias y fre cu e n cia s acum uladas de la tabla de in tervalos (ver tabla
anterior). C om o se puede observar, la tabla está organizada de m enor a
mayor. A continuación, se detalla el p rocedim iento para el cálculo de d i
cho estadístico: CALCULAR EL PERCENTIL 85.
34 © Santillana, S. A.
■ s e c a lc u la ^ f = ^ = 4 2 . 5 .
= 90 + 3.21 = 93.21
El va lo r del percentil 85 para estos datos es de 93.21 y se considera
que deja por debajo de él al 85 % de los datos de la d istrib u ció n , e x
presando esto que "El 85 % de los e stu d ia n te s alcanzaron una c a lifi
c a ció n m e n o r de 93.21 p u n to s ", en otras palabras, "el 85 % de los
e stu d ia n te s o b tu v ie ro n una ca lifica ció n in fe rio r a 93.21 p un tos".
8 C O M P E T E N C IA A M B IE N T A L Y DE LA S A L U D
Q Una de las aplicaciones prácticas m ás conocidas de los percentiles está en la m edida del peso y la altura
de los bebés para conocer si hay algún problem a en su desarrollo. Según los m édicos, el peso ideal para
una niña de 12 m eses es de 9.53 kg y la estatura ideal es de 74.3 cm . A contin uación, se m uestran los
pesos en kg de una m uestra de 50 niñas de 12 meses. D eterm ina los percentiles 3 3 ,7 5 y 90.
Peso en Kg. f, F,
9 .0 3 -1 0 .0 3 8 8
1 0 .0 3 -1 1 .0 3 11 19
1 1 .0 3 -1 2 .0 3 3 22
1 2 .0 3 -1 3 .0 3 4 26
1 3 .0 3 -1 4 .0 3 11 37
1 4 .0 3 -1 5 .0 3 13 50
Total g e n eral 50
©Santillana, S. A. 35
0 Cuartiles (Qk)
_______03 Los cuartiles son tres valores de la distrib u ció n que dividen en cuatro partes
02 de igual frecuencia a la distribución.
01 El p rim e r cu a rtil, que se representa por Qv deja por debajo de sí al 25 % de los
sujetos y por encim a al 75 % restante. Com o se puede d ed ucir fácilm ente, se
25% 25% 25% 25%
corresponde con el percentil 25 de la distribución, esto es, Q 1 = P25.
i i
El segundo cuartil, Q2, deja por debajo de sí al 50 % de los sujetos y por encim a
Qi ^2 Q3 al o tro 50 %. Es equivalente al percentil 50, y, por ende, a la m ediana de la dis
tribución, Q 2 = P50 = Me.
Los cuartiles dividen en 4 partes
iguales una distribución de datos. Por últim o, el te rc e r cuartil, Q3, deja por debajo de sí al 75 % de los sujetos y
por encim a al 25 % restante. Se corresponde con el percentil 75 de la d istrib u
ción, Q 3 = P75.
Debido a la equivalencia con los percentiles, para el cálculo de los tres cu a rti
les vam os a utilizar los m étodos propuestos para los percentiles. En concreto,
Q 1 lo calculam os m ediante P25, Q 2 con P50, y Q 3 con P75.
Por otra parte, los cuartiles se utilizan para construir índices para el estudio de
la variabilidad de una distribución de frecuencias.
A continuación, se muestra un diagrama que representa las equivalencias de los
cuartiles con los percentiles. Q 1 = P25 = 25 %; Q2 = = M e = 50%; Q3 = P75 = 75%.
Valor Q2 = M e Valor
P25 = Q1 P75 = Q3
m ínim o Q2 = P50 m áxim o
P50 = 50%
36 © Santillana, S. A.
© Deciles (Dk)
Los deciles son nueve valores que dividen en diez partes iguales a la d istrib u
ción. Se representan por D ¡( donde i = 1,2,
El prim er decil, D 1 deja por debajo de sí al 10 % de los sujetos, el D2 al 20 %, el
D3 al 30 % y así hasta el D 9 que deja por debajo de sí al 90% de los sujetos. De
este modo,
D 1= Pr 10' D2= P 20' ’‘ '
D 5 = P50 = M e D = P90
‘'*' ^ 9
JTJ
n
o
O
Los hogares, en las encuestas de D 2 = P20
Ingresos y gastos, son clasificados
en declles. ^ Qi ” 25
D 3 = P30
Q
CL
II
o
D = P
^2 "50
D 6 = P 60
D 7 = P 70
^ ^3 W5
D 8 = P80
D 9 = 1P90
Por lo tanto, tam b ién podem os calcular los deciles a p a rtir de los percentiles
correspondientes.
I in ¡-i /
Deciles para datos agrupados D„ = L + — — f7
K i
*AC
©Santillana, S. A.
37
PERÍODOS SEMANALES - AVISOS DE PRECIOS GLP
31 DIC. AL 06 ENE 2017 103.10
07 Al 13 ENE 2017 106.10
14 AL 20 ENE 2017 104.60
21 AL 27 ENE 2017 103.60
28 Al 03 DE FEB 2017 105.00
04 AL 10 FEB 2017 108.00
11 AL 17 FEB 2017 108.00
18 al 24 FEB 2017 111.00
25 FEB AL 03 MARZO 2017 109.50
Usando la función de Excel para determ inar los percentiles deseados, se reali
zan los siguientes pasos:
■ Ubicarnos en la celda que querem os alm acenar el resultado de los percenti
les o cuartiles deseados.
■ Hacer clic en la opción Insertar función (fx).
■ En la ventana resultante elegir la función (PERCENTIL.EXC) de las funciones
estadísticas.
B14 X ✓ -*PLRCENIIL.FXC(B2:B10,0.3i)
<
CO
Á C D E F G H 1 J K *
PERIODOS SEMANALES -
AVISOS DE PRECIOS GLP v:' ' ' "i ’ xJ
31 DIC. AL 06 ENE 2017 103.10 PERCEHTtLEXC
Matriz BiBtO f t ] • (103.1;106.1;104.6(103.6;105; 108(106...
07 Al 13 ENE 2017 106.10 K 0.33 ¡ t ] • 0J3
• 104.72
14 AL 20 ENE 2017 104.60 Cevuehre el percent« » esimo de lot vaio es de un rango, donde » está en el rango 0- 1, enduswo.
Matin s la matri; o rango de datos aue detine la posición relativa.
21 AL 27 ENE 2017 103.60
28 Al 03 DE FEB 2017 105.00 Resultado de la fórmula » 104.72
04 AL 10 FEB 2017 108.00 Aceptar Cancelar |
■ Después seleccionar los valores (GLP) de los que querem os obtene r los per
centiles o cuartiles deseados, rango de celdas desde B2 hasta B10.
■ Indicar el percentil a obtener. SI deseam os el percentil 25 = cuartil 1, Ingresa
m os el valor 0.25; si deseam os el percentil 33, Ingresam os en el valor 0.33, y
así sucesivam ente.
■ Hacer clic en Aceptar.
38 © Santillana, S. A.
PERIODOS SEMANALES -
AVISOS DE PRECIOS GLP
31DIC. AL 06 ENE 2017 103.10
07 Al 13 ENE 2017 106.10
14 AL 20 ENE 2017 104.60
21 AL 27 ENE 2017 103.60
28 Al 03 DE FEB 2017 105.00
04 AL 10 FEB 2017 108.00
11 AL 17 FEB 2017 108.00
18 al 24 FEB 2017 111.00
25 FEB AL 03 MARZO 2017 109.50
Percentil 25 = Cuartil 1 104.1
Percentil 75 = Cuartil 3 108.75
Percentil 90 = Decil 9 111
Percentil 33 104.72
P25: En el 25 % de las sem anas consultadas el precio del GLP estuvo por debajo
de los 104.1 pesos.
P75: En el 5 % de las sem anas consultadas el precio del GLP estuvo por debajo
de los 108.75 pesos.
P ^: En el 90 % de las sem anas consultadas el precio del GLP estuvo por debajo
de los 1 1 1 pesos.
P 33 : En el 33 % de las sem anas consultadas el precio del GLP estuvo por debajo
de los 104.72 pesos.
Em pleando los datos del precio sem anal del GLP para obtene r los m ism os per
centiles, obtenem os en R lo siguiente:
OSantillana, S. A. 39
M e d id a s d e p o s ic ió n
CONTROL DEL APRENDIZAJE
1. Una encuesta sobre el núm ero de llam adas telefónicas por celular realizada con una
m uestra de usuarios la sem ana pasada reveló la siguiente inform ación.
52 43 30 38 30 42 12 46 39 37 34 46 32 18
• Calcula e interprete:
Percentil: 33 , 6 6 y 85 - Cuartil: 1 y 3 Decil: 2 y 5
P recio de v e n ta
Frecu encia
(M ile s de US$)
1 2 0 -1 5 0 4
1 5 0 -1 8 0 18
1 8 0 -2 1 0 30
2 1 0 -2 4 0 20
240 - 270 17
270 - 300 10
300 - 330 6
• Calcula e interpreta:
Percentil: 3 0 ,6 5 y 92
52 76 64 79 80 74 66 69
44 48 48 48 48 50 50 51
52 52 54 54 54 55 55 55
55 57 57 57 57 58 60 61
• Calcula e interpreta:
40 © Santillana, S. A.
La sig u ie n te d is trib u c ió n de fre cu e n cia s co rre sp o n d e a los salarios de los e m p le a
dos de una em presa m a n u fa ctu re ra .
1 5 .5 -1 5 .9 9 18 25
1 6 .0 -1 6 .4 9 32 57
1 6 .5 -1 6 .9 9 45 102
1 7 .0 -1 7 .4 9 52 154
1 7 .5 -1 7 .9 9 28 182
1 8 .0 -1 8 .4 9 16 198
1 8 .5 -1 8 .9 9 8 206
Total 206
Calcula e interpreta:
Cuartil 2 Percentil 30 - Decil 90
Analiza el siguiente cuadro que m uestra la evolución de la distribución del ingreso per
cápita entre 1987 y 1998 según quintiles (divide a la m uestra en 5 partes ¡guales).
A ños
q u in til
1987 1990 1 99 2 1 99 4 1996 1 99 8
ii 7.9 8 .2 8.5 8 .2 8 .2 8 .2
Investiga sobre el m onto de ingresos per cápita en los años que indica el cuadro y
actualiza los valores por año y quintil (Consultar Enhogar 2007).
Establece el significado de los quintiles y su aporte com o com plem e nto a la m edia
aritm ética que es el ingreso per cápita.
O Santillana, S. A. 41
C o m u n ic a
1. Define y establece las diferencias entre los percentiles, los cuartlles y los deciles. Explica con ejemplos.
R a z o n a y a r g u m e n ta
0 20 5 0 0 35 10 5 20 0 15 45 10 0 0 20 40 5 0 45 20
M o d e la y r e p r e s e n ta
3. E stablecim iento de lím ites de velocidad: Aquí se presentan las velocidades registradas (en Km/h) de vehículos,
seleccionados al azar, que viajaban en una sección de la Carretera Duarte de República Dominicana (según datos
de MOPC). Esta sección posee un aviso de límite de velocidad de 80 Km/h. Los Ingenieros de tránsito adscritos a
este ministerio a m enudo establecen los límites de velocidad utilizando la "Regla Del Percentil 85", la cual establece
que la velocidad límite debe ser tal que el 85% de los conductores manejen a esa velocidad o a una más baja.
• Calcula el percentil 85 de las velocidades listadas a continuación.
• C om únm ente los lím ites de velocidad suelen redondearse a un m últip lo de 5, ¿qué lím ite de velocidad sugie
ren estos datos? Explique su decisión.
• ¿El límite de velocidad que existe en la carretera Duarte sigue la regla del percentil 85?
89 89 94 95 85 97 95 94 89 85 85 95 86 93 89 97 86 93 85 95
77 98 91 73 86 98 89 98 81 94 78 95 80 98 76 97 78 95 76 98
R e s u e lv e p r o b le m a s
4. El departam ento de control de calidad de una em presa de cosm éticos verifica el peso de un frasco de crem a
para la piel de ocho onzas. Los pesos de la m uestra de 10 frascos fabricados la hora pasada son los siguientes:
C o n e c ta
• Ingresa a la siguiente dirección w eb: h ttp s ://w w w .o n e .g o b .d o /e n c u e s ta s /e n ig h
• Consulta la Encuesta Nacional de Ingresos y Gastos de los Hogares y com enta la distribución de hogares que
fueron encuestados para dicha encuesta. Identifica que porcentaje de hogares está en los diferentes quintiles,
según tu provincia.
APRENDIZAJE AUTONOMO
--------------------------------------------------------------------------m s m m e s m m M s n m
Calcula cuartiles, deciles, percentiles y quintiles com o m edidas de posición
para datos no agrupados con y sin herram ientas tecnológicas (Geogebra o
Lenguaje R).
42 © Santillana, S. A.
Medidas de dispersión
El servicio postal cada año intenta satisfacer más al cliente. En una encuesta llevada a cabo se
determinó que los clientes estaban interesados en recibir sus paquetes o cartas en el tiempo
establecido, ya que esto variaba mucho.
C o m p e te n c ia s
D efine y aplica m e d id a s de
dispersión. Calcula e interpre
ta las m edidas de dispersión
Analiza las m edidas de disper
sión a p a rtir de una tabla de
frecuencias y la m odela a tra
vés de so ftw a re tales com o:
Lenguaje R o Excel.
C o n te n id o s
■ Rango (R).
■ Desviación m edia (DM).
■ Varianza (S2).
■ Desviación típica o estándar (S).
■ C oeficiente de variación CV.
©Santillana, S. A. 43
Medidas de dispersión o variabilidad
El grado de dispersión de los datos num érico s respecto a un valor prom edio
se llama d isp ersió n o va ria c ió n de los datos. Existen varias m edidas de dis
persión (o variación), las cuales son: el rango, desviación m edia, la varlanza, la
desviación estándar y el coeficiente de variación.
¿Por q u é e s tu d ia r la dispersión?
Una m edida de ubicación, com o la m edia o la m ediana, solo describe el centro
de los datos. Desde este punto de vista resulta valiosa, pero no dice nada so
bre la dispersión de los datos. Una m edida de dispersión pequeña Indica que
los datos se acum ulan con proxim idad alred edor de la m edia aritm é tica. Por
consiguiente, la m edia se considera representativa de los datos. Por el contra
rio, una m edida grande de dispersión indica que la m edia no es confiable.
Una segunda razón para estudiar la dispersión en un co n ju n to de datos co n
siste en com parar la variabilidad en dos o más distribuciones.
Las m edidas de dispersión hacen referencia a la variabilidad, o la evaluación de
cuán separados o extendidos están los datos o bien cuánto difieren unos de otros.
Entendiéndose la variación com o el grado en que los datos num éricos tienden a
distribuirse alrededor de un valor central, ¿para qu é sirven? Identificar si una
medida central es adecuada para representar la población de datos, Indicar la re
lación de un dato con los otros, com prender el riesgo para poder tom ar decisiones
y tam bién son de gran utilidad al com parar distribuciones.
R ango R = V a lo r m a y o r - V alo r m e n o r
44 © Santillana, S. A.
1.2 Usando la fenologia: Microsoft Excel
En M icrosoft Excel no existe una función para calcular el rango de un conjunto
de datos. D ebido a e sto se u tilizan dos fu n c io n e s que d e te rm in a n el va lo r
m áxim o y el valor m ínim o de un conjunto de datos. Usando estas dos fu n c io
nes se realiza la operación de resta entre estas dos. La función que obtiene el
valor m enor de un conjunto de datos es MINO, y la que obtiene el valor m ayor
es MAX().
Por lo que para obtener el rango de un conjunto de datos en Excel se debe de
realizar la siguiente expresión: = M A X(x) - M lN (x).
Las horas de estudio que 13 estudiantes dedicaron para la preparación de un
exam en se m uestran a continuación.
5 22 10 14 16 18 20 23 25 27 31 11 40
Horas
_ _ _Estudio
___
22
10
14
16
18
20
23
25
27
31
11
___40___
Máxim o |=MAX(B2:B14)
M ínimo
Rango
■ JL
B
1B i Horas Estudio
5
22
10
14 !
16
18
1
20
23
25
27 1
1
31
11 1
40 ¡
1 1 Máximo 40
| i Mínimo =MIN(B2:B14)
i 9 Rango
©Santillana, S. A. 45
P A R A C O M EN TA R
Usando las fu n cio n e s de MAX() y MINO de Excel para d e te rm in a r el rango, s e |
C onsulta en tu clase cuál realizan los siguientes pasos:
de tus com pañeros obtuvo
la m ayor calificación en el ■ Ubicarnos en la celda en la cual querem os alm acenar nuestro resultado.
ú ltim o e xa m e n de M a te ■ Hacer clic en la opción Insertar función (fx).
m áticas y quién o b tu v o la
■ En la ventana resultante, elegir la función (MAXO) de las funciones Estadísticas.
m e n o r c a lific a c ió n en el
m ism o exam en, calcula el ■ D espués se le ccio n a r los valore s (Horas de Estudio) de los que querem os j
ra ngo y c o m e n ta co n tu obtene r el valor m áxim o, rango de celdas desde B2 hasta B14.
profesor y com pañeros.
■ Hacer clic en Aceptar.
■ Ubicarnos en otra celda y volver a repetir los pasos anteriores, pero se debe
elegir la función (MINO)
■ Después se le ccio n a r los valore s (Horas de Estudio) de los que q ue rem os
obtene r el valor m ínim o, rango de celdas desde B2 hasta B14.
■ Hacer clic en Aceptar.
■ Ubicarnos en la celda en donde calcularem os el Rango.
■ En la celda don de ca lcu la re m o s el rango co locam os el signo de igual (=),
después hacem os clic en la celda que contiene el v a lo r m á x im o calculado,
luego colocam os el signo de m enos (-) y hacem os clic en la celda que con
tiene el v a lo r m e n o r calculado y presionam os Enter.
Archivo Inicio Insertar Diseño de página Fórmulas Datos Revisar Vista Programador Ç ¿0 c <:> •
VCortar
Mh % Copiar •
S a
% ■ JL m mmma IBiBHIWGB
Portapapeles Q- Fuente Alineación Número Estilos
B16 * : x U -B15-B16
_ _ _ _ _ _
A A C D E F G H
1 H oras Estudio
2 5
3 22
4 10
5 14
6 16
7 18
8 20
9 23
10 25
11 27
12 31
13 11
14 40
15 M á x im o 40
16 M ín im o 5
17 Rango =B15-B16 |
18
i M H o j, ' ■ ©
Señalar
*s p o e □ « a i' ®* % R - >s «i
46 © Santillana, S. A.
Esta im agen m uestra el resultado del rango de horas de estudio que 13 estu
diantes dedicaron para la preparación de un exam en, 35 horas.
laaaKiaoiiga
R RCómate _ o x
© Santillana, S. A. 47
m Desviación media
2.1 Desviación media
Una desventaja que presenta el rango radica en que parte de dos valores, el
m ás a lto y el m ás bajo; no to m a en cuen ta to d o s los valores. La desviación
m edia sí tom a to d o s los valores de una distribución; m ide la cantidad pro m e
dio respecto de la cual los valores de una población o m uestra varían. En otras
palabras, la d es viació n m e d ia es el prom edio de los valores absolutos de las
desviaciones con respecto a la m edia aritm ética.
D e sviació n m ed ia, d a to s no ag ru p a d o s dm =
D esviació n m e d ia , d a to s ag ru p a d o s DM =
©Santillana, S. A.
Ejemplo: Calificaciones de Pruebas Nacionales, Matemáticas
A continuación, se m uestra la distribución de frecuencias de la cantidad
de estudiantes que tom a ron Pruebas Nacionales en la 1ra. convocatoria
según el rango de calificación obtenida en la asignatura de M atem áticas
por los estudiantes del Liceo Federico Henríquez y Carvajal del nivel m e
dio en el año 2016.
Calif fi
6 -9 5
10-13 97
14-17 299
18-21 83
2 2 -2 5 10
2 6 -2 9 5
Total 499
Calif f, x¡ x ,* f , | X, - *1 \xr X \ * f ,
6 -9 5 7.5 37.5 8.09 40.44
10-13 97 11.5 1,115.50 4.09 396.55
14-17 299 15.5 4,634.50 0.09 26.36
18-21 83 19.5 1,618.50 3.91 324.68
22 -25 10 23.5 235 7.91 79.12
2 6 -2 9 5 27.5 137.5 11.91 59.56
Total 449 7,778.50 926.72
SXi * f l _ 7,778.50 _ 8o
F- N 499 1 5 8 9
DM = ~ x l * tí - -?26.72 _
n 499
© Santillana, S. A. 41
2.2 Usando tecnología: Microsoft Excel
En M icrosoft Excel existe la funció n DESVPROMO para o b tene r la desviación
m edia de un conjunto de valores de una distribución de datos.
Haciendo uso de las calificaciones obtenidas en Pruebas Nacionales en la asig
natura de Lengua Española por una m uestra de estudiantes del Liceo M anuel
de Jesús Galván del Nivel M edio en el año 2016 del e je m p lo para datos no
agrupados, procedem os a calcular la desviación m edia en Excel para este con
ju n to de calificaciones.
Después de in tro d u c ir los d atos en Excel, p ro ce d e m o s a u tiliza r la fu n ció n
DESVPROMO siguiendo los siguientes pasos:
■ D ebem os ubicarnos en la celda que se desea m ostrar el resultado de la des
viación media.
■ Hacer clic en la opción insertar función (fx).
■ En el co n ju n to de fu n cio n e s estadísticas, se le ccio n a m o s la fu n c ió n DES
VPROMO.
■ Después seleccionam os el rango de valores (Xi) de los que querem os obtener
la desviación media.
© Santillana, S. A.
50
2.3 Usando tecnología: Lenguaje R
En R no existe una funció n específica para calcular la desviación m edia
de un co n ju n to de datos por lo que debem os de darle las instrucciones La desviación de una variable
paso por paso para obtenerla. x con respecto a la media arit
m ética X está dada por la di
Debido a que la desviación m edia es el cociente de la sum atoria de las
ferencia: d = x - X La sum a
diferencias absolutas de cada valor m enos la m edia a ritm é tica entre el
de las desviaciones de todos
total de datos, procedem os de la siguiente manera.
los d atos con respecto a su
■ Introducim os los datos y los alm acenam os en una variable, en este caso, media aritm ética es cero. Para
las calificaciones se han alm acenado en el variable x. c o n o c e r q u ié n pre se n ta un
valor de desviación, que nos
■ Calculam os la cantidad de datos introducidos con la función lengthO y
se alm acenan en una variable, en este caso n. indique cuán cercano o lejano
está de la m edia aritm é tica ,
■ Calculamos la desviación media indicándole a R la fórm ula 3.2. Para este será necesario calcular el valor
caso se usan las fu n cio n e s absO, sum() y meanO, com o vem os en la absoluto de la desviación.
imagen. La función meanO se refiere al prom edio, absO, al valor absolu
to de las diferencias de cada valor de x respecto a su m edia, y sum o, es
la sum a de cada va lor abso luto de las diferencias calculadas. Esto lo
alm acenam os en la variable DesvMedia y se obtiene el resultado o b te
nido en el m ism o ejem plo calculado anteriorm ente.
0 C O M P E T E N C IA R E S O L U C IÓ N DE P R O B L E M A S
v _______________________________________________________________________________________________ y
©Santillana, S. A. 51
% Varianza (S2)
Cada m uestra tiene una varianza, su sím bolo es S2. Para calcular la varianza de
una m uestra, la suma de los cuadrados de las diferencias entre la media y cada
elem ento de la m uestra se divide entre el núm ero total de observaciones en la
muestra m enos 1. Al elevar al cuadrado cada diferencia, logramos que todos los
núm eros sean positivos y, al m ism o tiempo, asignamos más peso a las desviacio
nes más grandes (desviación es la distancia entre la media y un valor).
La varianza es el prom edio de los cuadrados de las desviaciones de cada dato en
relación con su media, la fórm ula para calcular la varianza de una muestra es:
v a ria n za , d a to s no ag ru p ad o s S2 =
52 © Santillana, S. A.
varian za, d a to s ag ru p ad o s 5 2= ^ (x t- x ì 2* f /
n -1
2 6 -2 9 5
Total 499
x = J j^ f , = 7,778.50
n 499
©Santillana, S. A.
Desviación típica o estándar (S)
Con el fin de lograr una medida de
dispersión en las m ismas unidades
que la variable y que sea más fácil
m ente interpretable, se calcula la
raíz cuadrada de la varianza y se
obtiene un índice que se denomina
desviación típica o están d ar
Tanto la varianza com o la d es via
ción típ ic a son índices de dispersión m uy útiles en el desarrollo posterior de
la estadística inferencial estando en la base de num erosas técnicas estadísti
cas. Por lo general, a la hora de cuan tificar la variabilidad de los datos, la des
viación típica se suele utilizar m ás que la varianza debido a que se expresa en
las m ism as unidades de m edida que la variable objeto de estudio. Asim ism o,
am bos índices presentan una serie de propiedades de las que pueden desta
carse las siguientes:
■ El cálculo de la varianza y la desviación típica, a diferencia de otros índices de
dispersión, requieren que se usen todas las puntuaciones observadas en la
distribución.
■ La varianza y la desviación típica m iden la variabilidad de los datos con res
T e o re m a d e C h e b y s h e v pecto a la media aritm ética, por lo que únicam ente deben aplicarse si estam os
En un c o n ju n to de d a to s utilizando la m edia com o m edida de tendencia central.
(m u e s tra o p o b la c ió n ), la ■ La varianza y la desviación típica siem pre son positivas, nunca serán negativas,
p ro p o rció n de va lore s que es decir, pueden ser iguales o m ayores que cero. Son iguales a cero única
se e n c u e n tra n a K d e svia m ente si todas las puntuaciones son iguales entre sí. En este caso, no habría
ciones estándares de la m e variabilidad o dispersión en los datos. En el resto de los casos la varianza y la
d ia es d e p o r lo m e n o s desviación típica son positivas, siendo sus valores m ayores a m edida que
1 - 1/K 2, siendo K cualquier aum enta la variabilidad de las puntuaciones.
constan te m ayor que 1 .
La desviación estándar es la raíz cuadrada de la varianza, la fórm ula para cal
De este te o re m a se deriva cular la d es via ció n e s tá n d a r en una m uestra ya sea en d a to s no a g ru p a
la siguiente regla em pírica: dos o ag ru p ad o s es:
En cualquier distribución de
fre c u e n c ia s s im é tric a con
Ejemplo: Calificaciones de Pruebas Nacionales,
form a de cam pana, ap ro xi
Lengua Española y Matemáticas
m adam ente 6 8 % de las ob
servaciones se encontrarán Em pleando los m ism os resultados de las varianzas calculadas anterior
entre más y m enos una des m ente, ta n to para las calificaciones de Pruebas N acionales de Lengua
via ción e stá n d a r de la m e Española com o tam bién para M atem áticas, tenem os lo siguiente:
dia; cerca de 95 % de las
observaciones se enco ntra C álculo p ara d a to s no ag ru p ad o s (Lengua Española):
rán entre m ás y m enos dos
desviaciones estándares de s = n/ í S2T = ^ (2.767) =1.66
la m edia y, de hecho, todas
(99.7 %) estarán e n tre m ás C álculo para d a to s ag ru p ad o s (M a te m á tic a s ):
y m enos tre s desviaciones
estándares de la m edia. S = \¡S r = \J 9 .1 4 9 = 3 .0 2 5
54 © Santillana, S. A.
4.1 Usando la tecnología: Microsoft Excel
En M ic ro s o ft Excel existe n las fu n cio n e s VAR.SO y DESVEST.MO
para o b te n e r la varianza y la desviación e stá n d a r de un c o n ju n
to de valore s de una d is trib u c ió n de datos.
H aciendo uso de las ca lifica cio n e s o b te n id a s en Pruebas N a cio
nales en la a signatura de Lengua Española p o r una m u e stra de
e s tu d ia n te s del Liceo M an u e l de Jesús G alván del N ivel M e d io
en el año 2016 del e je m p lo para d a to s no agrupados, p ro c e d e
m os a ca lcu la r la varianza y la desviación e stá n d a r en Excel pa
ra e ste co n ju n to de calificaciones.
D espués de in tro d u c ir los d atos en Excel, p ro ce d e m o s a u tiliz a r
la fu n c ió n VAR.SO para la varianza y la fu n ció n DESVEST.MO pa
ra la desviación e stá n d a r sig uie ndo los sig u ie n te s pasos:
■ Debem os ubicarnos en la celda que se desea m ostrar el resulta
do de la varianza o de la desviación estándar.
■ Hacer clic en la opción insertar función (fx).
■ En el conjunto de funciones estadísticas, seleccionam os la función
VAR.SO 0 DESVEST.MO
■ Después seleccionam os el rango de valores (Xi) de los que que
rem os obtener la varianza o desviación estándar.
■ Hacemos clic en Aceptar.
© Santillana, S. A.
55
4.2 Usando la tecnología: Lenguaje R
En R existe una función específica para calcular la varianza y la desviación típ i
ca o está n d a r de un conjunto de datos, estas son var() y sd(), respectivamente.
El p ro ce d im ie n to es m uy sencillo, solo ingresar los datos de la d istrib u ció n y
hacer uso de la función, tal com o se explica a continuación:
■ Introducim os los datos y los alm acenam os en una variable, en este caso, las
calificaciones se han alm acenado en la variable Nota.
■ La función para obtene r la varianza es var(), por lo que ingresam os var(Nota).
■ La función para obtener la desviación estándar es sdO, por lo que ingresam os
sd(Nota).
56 © Santillana, S. A.
y Coeficiente de variación (CV)
La varianza y la desviación estándar son m edidas absolutas, porque se basan en
los valores originales de las variables correspondientes. El coe ficien te de varia
ción es el cociente entre la desviación estándar y la media aritm ética m ultiplicado
por 100. Es una medida relativa de dispersión, ya que esa form a de cálculo Implica
que su valor indica qué proporción de la media representa la desviación estándar.
G eneralm ente interesa establecer com paraciones de la dispersión, entre dife
rentes m uestras que poseen distintas m agnitudes o unidades de m edida.
El coeficiente de variación tiene en cuenta el valor de la m edia aritm ética, para
establecer un n ú m ero relativo, que hace com parable el grado de dispersión
entre dos o m ás variables,
El coeficiente de variación es Independiente de las unidades que se em pleen.
Debido a esto, el C oeficiente De Variación es útil cuando se trata de com parar
distribuciones en las que las unidades son diferentes, una desventaja del coe
ficiente de variación es que no es útil cuando el valor de X es cercano a cero.
A continuación, se m uestra una tabla que puede ayudar a la interpretación del
coeficiente de variación. Esta m uestra la variabilidad y la estabilidad de los da
tos según el coeficiente de variación resultante.
© Santillana, S. A. 57
5.1 Usando la tecnología: Microsoft Excel
En M icrosoft Excel no existe una función específica para obtene r el coeficiente
de variación, debido a esto debem os de realizar la operación de división entre
la m edia aritm ética y la desviación estándar de las observaciones y m ultiplicar
este resultado por 1 0 0 .
H aciendo uso de las calificaciones obtenidas en Pruebas Nacionales en la asig
natura de Lengua Española por una m uestra de estudiantes del Liceo M anuel
de Jesús Galván del Nivel M edio en el año 2016.
Después de Introdu cir los datos en Excel, procedem os a utilizar las funciones
PROM EDIOO y DESVEST.MO com o se hizo en los capítulos anteriores:
■ Debemos ubicarnos en la celda que se desea mostrar el resultado del PROMEDIO.
■ Calculam os el prom edio en Excel com o se hizo en el tem a 1.
■ Después, nos ubicam os en la celda que se desea m ostrar el resultado de la
desviación estándar.
■ Calculam os la desviación estándar en Excel com o se hizo en el tem a 3.
■ Dividim os los dos resultados obtenidos; colocam os el signo de Igual (=) en la
celda donde se m ostrará el resultado del coeficiente de variación, escribim os
la fórm ula =B13/B12*100. B13 y B12 son las celdas que contienen la desviación
estándar y el prom edio. Después presionam os Enter.
B m* OUM
birl-CñuKÚdo .*»>1
ficv. V-.U v ....
2V«ur»"«o HQE3S1HBS23ZBHÍ »“ ■" ¡y
Ef CSSHi ESBHBBSSS2S3H
■ £-A £MMyam.' •$- %W:»: BHHBHQQSSHHICBHIBB2Z3HIH f
B c D E F G H 1 J K
Xi XI
20 20
19 19
19 19
15 15
20 20
16 :! 16
18 18
17 17
18 18
19 19
18.1 18.1
idar 1.663 idar 1.663
/ar. 9.19 = / *1 0 0
.i ...
i ■ n tf os C- « *fl
58 © Santillana, S. A.
5.2 Usando la Tecnología; Lenguaje R
En R no existe una función específica para calcular el coeficiente de variación
de un co njunto de datos, por lo que debem os de darle las instrucciones paso
por paso para obtenerla.
Debido a que el coeficiente de variación es el cociente entre la desviación es
tándar y la m edia aritm ética m ultip lica do por 1 0 0 , debem os de in tro d u cir esta
m ism a operación en R.
El pro ce d im ie n to es m uy sencillo, solo ingresar los datos de la d istrib u ció n y
realizar la operación com o se explica a continuación:
■ Introducim os los datos y los alm acenam os en una variable, en este caso, las
calificaciones se han alm acenado en la variable x.
> X = C(20, 19, 19, 15, 20, 16, 18, 17, 18, 19)
l* |g |a lM 1Q II« IW
Itft Contele
E p o e a ■ ■ • «• % »i c % y
59
M e d id a s d e d is p e r s ió n o v a r ia b ilid a d
CONTROL DEL APRENDIZAJE
m|
1. Una fábrica de dulces elabora 10 diferentes productos. A continuación, se presentan
los costos de producción por cada 1 0 0 piezas de las diferentes golosinas.
Calcula:
P rod ucto C o stro RD$
a) M edia a ritm é tic a del co s to de los
• i
Bombón $20 productos.
Caramelo duro $33
b) El rango de costo.
Caramelo suave $41
c) La desviación media del costo de los
Chocolate $63 productos.
Cocada $38 d) La desviación típica o estánda r del
Mentas $27 costo de los productos.
2. La sig uie nte d istrib u ció n de fre cu encias co n tie n e los costo s de e le ctricid a d de una
m uestra de 70 hogares de dos habitaciones durante el m es de m ayo del año pasado.
• Calcule:
C osto
C o stro RD$ a) La m edia a ritm é tica del costo
e le c tric id a d (RD$)
de electricidad.
701 a 900 2
b) El rango de costo.
901 a 1 100 5
c) La desviación m edia
1101 a 1 300 3
del costo de electricidad.
1 301 a 1 500 10
d) La varianza del costo
1 501 a 1 700 15 de electricidad.
1 701 a 1 900 18 e) La desviación típica o estándar del
1 901 a 2 100 9 costo de electricidad.
2 101 a 2 300 5 f) El coeficiente de variación
del costo de electricidad.
2 301 a 2 500 3
g) Interpreta los resultados
Total 70
de los incisos a, b, c, d, e y f.
3. Un gru p o de a lum n os o b tu v o las sig uie nte s m arcas, en sa lto con garrocha, e xp re
sadas en m etros:
60 ©Santillana, S. A
4, En una m ism a p ru e b a de M a te m á tic a s dos cu rso s A y B, o b tu v ie ro n re s u lta d o s
cuyos d atos esta d ístico s son los siguientes:
©Santillana, S. A.
I* y
6'
11
EVALUACIÓN fí
C o m u n ic a p-
*
V
1. Define con tus propias palabras las m edidas de dispersión.
rs a
2. Expresa la diferencia entre desviación m edia y desviación estándar.
>-• -
R a z o n a y a r g u m e n ta
3. En un examen de un centro educativo, el profesor debe aprobar al 10 % de los estudiantes. Calcular la nota prom e
dio de los estudiantes. ¿Cuál es la medida de dispersión ideal para representar la variabilidad de estas notas?
0 20 5 0 0 35 10 5 20 0 15 45 10 0 0 20 40 5 0 45 20
M o d e la y r e p r e s e n ta
4. La siguiente tabla m uestra la estatura de 25 alum nos (en centím etros), agrupados en 5 equipos de basquetbol.
E1 E2 E3 E4 E5
165 172 151 162 162
175 174 170 168 169 - * ^
180 165 160 168 156
168 169 172 164 159
162 170 150 162 158
• Calcula el rango de estatura para cada equipo. • Calcula la desviación estándar para cada equipo.
• Calcula la m edia de estatura para cada equipo. • Calcula el coeficiente de variación para cada equipo.
R e s u e lv e p r o b le m a s
5. Dos em presas m uestran los siguientes índices de porcentuales de rentabilidad (en porcentajes).
APRENDIZAJE AUTONOMO
Analiza las m edidas de dispersión a p a rtir de una tabla de frecu encias y la
m odela a través de softw are tales com o: (Lenguaje R o Geogebra).
Resuelve problem as diversos que im pliquen el cálculo de las m edidas de dis
persión utilizando program as y softw ares tales com o Lenguaje R, Geogebra,
Gretl, R proyectos u otros.
62 ©Santillana, S. A.
Probabilidad estadística
La probabilidad ofrece la transición entre la estadística descriptiva y los métodos ¡nferenciales.
Cada uno de los componentes de la probabilidad permiten que los resultados sean expresados
en un lenguaje que los Ingenieros y científicos requieren.
C o m p e te n c ia s
■ Reconoce d ife re n te s fo rm a s
para calcula r probabilidades
de e v e n to s s im p le s y c o m
puestos. C onstruye y realiza
c á lc u lo s de p ro b a b ilid a d e s
con eventos y fenóm enos na-
tu ra le s c o m o m o d e lo s para
predecir otras situaciones
■ Utiliza la calculadora para in
fe rir re su lta d o s p re ciso s de
situaciones que im pliquen el
uso de probabilidades. Utiliza
diversas herram ientas te cn o
lógicas para realizar cálculos
de probabilidades.
C o n te n id o s
■ Probabilidad estadística, Con
ceptos y propiedades. Eventos
m utuam ente excluyentes y no
m utuam ente excluyentes. Dia
grama del árbol. Valor esperado.
©Santillana, S. A. 63
Probabilidad estadística
%
La probabilidad es un conce pto que la m ayor parte de las personas com pren
de intuitivam ente. Por ejem plo, casi todas las personas saben que la probabili
dad de ganar o perder una apuesta con el lanzam iento de una m oneda es de
r 50 %. En otras palabras, al lanzar una m oneda, existe la m ism a probabilidad de
que caiga hacia arriba cualquiera de sus 2 lados, cara o escudo.
64 © Santillana, S. A.
► Eventos sim ples: se especifican de acuerdo con una sola característica;
por ejem plo, los eventos sim ples del lanzam iento de un dado son los nú
m eros 1,2, 3 ,4 ,5 y 6 .
► E v e n to s c o m p u e s to s : están fo rm a d o por 2 o m ás e ve n to s sim ples.
M ientras que un evento com puesto en el experim ento aleatorio de lanzar
un dado podría ser la ocurrencia de un núm ero impar, ya que incluiría a
los eventos sim ples 1 ,2 y 3.
► Evento seguro: es el que ocurre siempre en un determ inado experimento.
► E v e n to im p o sib le : es el que nunca ocurre en un d e te rm in a d o e xp e ri
m ento. Se representa por 0 .
©Santillana, S. A. 65
Cuando la Intersección de dos sucesos no contie ne ningún elem e nto se dice
que son Incom patibles o excluyentes y, por tanto, no pueden verificarse sim ul
táneam ente. Siguiendo con el ejem plo, los sucesos A y c lo son.
Ejemplo: A n C = { } = 0
CO M PLEM ENTARIO :
Llamaremos com plem entario de un suceso A, y lo representaremos por A, al sub-
conjunto de E form ado por los sucesos elementales que no pertenecen a A:
Ejemplo: Á = {1, 2, 3, 5, 6}
Para su representación podem os utilizar los diagram as de V enn, am pliam ente
utilizados en la Teoría de Conjuntos. En la figura siguiente se representan gráfi
cam ente los sucesos anteriores.
A U B
A n b
D ia g ra m a d e v e n n
A
Los diagram as de Venn son
una form a para representar
g rá fic a m e n te c o n ju n to s ,
s u b co n ju n to s, in te rs e c c io
nes y u n io n e s . E stos son
lla m a d o s así en h o n o r de
John Venn, que los com enzó
a usar en 1880.
9 Definición de probabilidad
La probabilidad de un evento es un núm ero real (o m edida) que se le asigna al
evento y que, de algún m odo, Indica qué tan verosím il se considera. Si A es un
evento, entonces la probabilidad de A se denota con el sím bolo P(A). El fin de
la probabilidad es ca lcu lar la «p o sib ilid ad » d e o cu rren cia d e un suceso
La defin ición clásica, form ulada por Lap lace, indica que: «La p ro b a b ilid a d
d e un suceso es igual al c o c ie n te e n tre el n ú m e ro d e casos fa v o ra b le s
d e q u e ocu rra ese suceso y el n ú m e ro d e casos posibles en el su p u es
to d e q u e to d o s los casos te n g a n la m ism a o p o rtu n id a d de o c u rrir (es
decir, sean ig u a lm e n te probables)».
P (n ú m ero par) = = 0 .5
(0 .5 x 1 0 0 = 50 %)
Al la n za r un d ad o hay un 5 0 %
d e p ro b a b ilid a d d e q u e nos salga
un n ú m e ro par.
©Santillana, S. A. 67
P ro p ied ad es d e la p robabilidad:
Por lo tanto, si m ultiplicam os este resultado por 100, (0.8889 x 100 = 88.89 %), exis
te una probabilidad de 88.89 % de que la persona elegida esté sana o fume.
3 C O M P E T E N C IA P E N S A M IE N T O LÓ G IC O , C R E A T IV O Y C R ÍT IC O
68 ©Santillana, S. A.
Eventos mutuamente excluyentes
r y no mutuamente excluyentes
■ Eventos m u tu a m e n te excluyentes. El hecho de que un evento se presente
significa que ninguno de los demás eventos puede ocurrir al mism o tiempo.
La variable género da origen a resultados m utuam ente excluyentes: hom bre
y mujer. Un em pleado seleccionado al azar es hom bre o mujer, pero no pue
de te n e r am bos géneros. Una pieza fabricada es defectuosa o no lo es. La
pieza no puede ser defectuosa o no defectuosa al m ism o tiem po.
Eventos m utuam ente
■ Regla d e la a d ic ió n p ara e v e n to s m u tu a m e n te e x c lu y e n te s : Si dos
excluyentes.
eventos A y B son m utuam ente excluyentes, la regla de la adición establece
que la p ro b a b ilid a d d e q u e o cu rra uno u o tro es igual a la su m a d e
sus p ro b a b ilid ad es . Esta regla se expresa m ediante la siguiente fórm ula:
Total 4 000 1
©Santillana, S. A. 69
Eventos no M u tu a m e n te Excluyentes Dos o más eventos son no m utua
m ente excluyentes cuando estos pueden ocurrir al m ism o tiempo, es decir, que
a la hora de que suceda no se descarta la posibilidad de que suceda otro.
Ejem plo: si se lanzan 2 dados al aire existe la posibilidad de que salga 6 en
cualquiera de los 2 dados lanzados, o tro caso puede ser, sacar un 5 y una
carta de espadas, es un evento no m utu am e nte excluyente, pues podem os
to m a r una carta y sacar un 5 de espadas. Tam bién, sacar un 9 y una carta
Eventos no m utuam ente negra, es un evento no m u tu am e nte excluyente, pues podem os to m a r el 9
excluyentes. de espadas o el 9 de trébol.
Ahora, una vez definida la probabilidad y descritas sus diferentes propiedades,
cabe atender al cálculo de la probabilidad de dos o más eventos aplicando la
regla d e la adición
Regla d e la A d ición para Eventos no M u tu a m e n te Excluyentes: SI dos
eventos A y B son no m utu am e nte excluyentes, la regla de la adición esta
blece que la probabilidad de que ocurra uno u o tro es Igual a la sum a de sus
probabilidades m enos la probabilidad de que am bos ocurran al m ism o tie m
po. Esta regla se expresa m ediante la siguiente fórm ula:
Fumador 60
No fumador 20
Total 80
70 © Santillana, S. A.
Si denom inam os NF el evento de que la persona No Fuma, entonces la proba-
110
bilidad de la persona no fum e es P(NF) = es decir, 110 no fum adores de
loU
un total de 180 Individuos.
C O M P E T E N C IA R E S O L U C IO N DE P R O B L E M A S
Q Reglas de la adició n
• En una escuela de Idiom as de 300 estudiantes inscritos, 100 se encuentran en curso de inglés y 80
en curso de Francés. Estas cifras incluyen a 30 inscritos en am bos cursos. Si se elige un estudiante
al azar, ¿cuál es la probabilidad de que esté inscrito en inglés o en Francés?
Se encontró que 70 % de los turistas viajan a Venecia, 80 % visitan Roma y 6 0 1 i van a am bas ciuda-
des. ¿Cuál es la probabilidad de que un turista vaya a Venecia o Roma?
©Santillana, S. A. 71
Q Diagrama del árbol
Esta es una técnica de conteo que nos perm ite enum erar los resultados posibles
F —- FFF de un experim ento aleatorio que consta de dos o más pasos. En el cálculo de la
G—- FFG probabilidad se requiere conocer el núm ero de elem entos que form an parte del
F ---- - FGF espacio muestral, estos se pueden determ inar con la construcción del diagrama
de árbol.
G — - FGG
El diagrama de árbol es una representación gráfica de los posibles resultados del
F — - GFF
experimento, el cual consta de una serie de pasos, donde cada uno de los pasos
G— - GFG tiene un núm ero finito de maneras de ser llevado a cabo. Se utiliza en los proble
F— - GGF mas de conteo y probabilidad.
G — ^ GGG Para la construcción de un diagrama en árbol se partirá poniendo una rama para
cada una de las posibilidades, acompañada de su probabilidad. Cada una de estas
Diagrama de árbol. El diagrama ramas se conoce com o rama de primera generación.
de árbol nos permite enumerar
todos los resultados posibles de En el final de cada rama de primera generación se constituye a su vez, un nudo del
un experim ento aleatorio que cual parten nuevas ramas conocidas com o ramas de segunda generación, según
consta de dos o más pasos. las posibilidades del siguiente paso, salvo si el nudo representa un posible final del
experim ento (nudo final).
Hay que tener en cuenta que la construcción de un árbol no depende de tener el
m ism o núm ero de ramas de segunda generación que salen de cada rama de pri
mera generación y que la suma de probabilidades de las ramas de cada nudo ha
de dar 1 .
El siguiente diagrama de árbol m uestra todos los posibles resultados y sus proba
bilidades al lanzar una m oneda 3 veces.
72 © Santillana, S. A.
Q Valor esperado de un evento
El valor que se espera obtene r de un experim ento estadístico se llama el v a lo r
e s p e ra d o , ta m b ié n llam ado " e s p e ra n z a m a te m á tic a " . Tam bién lo llam a
m os "m edia", y esta es la palabra que vam os a seguir usando. Si tiram o s una
m oneda 10 veces, esperam os que salga 5 veces "cara" y 5 veces "cruz". Espe
ram os obtene r este valor porque la probabilidad de que salga "cara" es 0.5, y si
lanzam os la m oneda 10 veces, obtenem os 5. Por lo tanto, 5 es la media.
Debido a que una variable X puede adoptar diferentes valores con probabilida
des dadas, a esta variable se le denom ina v a ria b le a le a to ria . Cuando se tie
nen todos los valores que una variable aleatoria puede adoptar y sus probabi
lidades, entonces tenem os una fu n ció n de prob ab ilid ad .
La e s p e ra n za m a te m á tic a o v a lo r e s p e ra d o de una variable aleatoria es la
sum a de los pro d u cto s que se obtie nen al m u ltip lica r todos los valores de la
variab le aleatoria con sus respectivas probabilidades. La e s p e ra n z a m a te
m á tic a o v a lo r e s p e ra d o de una variable aleatoria se expresa en form ula de
la siguiente manera:
Número
0 1 2 3 4
de caras (X)
PARA COMENTAR
Probabilidad
- V = 0.0625 ^ 0 .3 7 5 - U 0.0625
de x P(X) 16 f ? = ° - 25 tV 0-25 16
© Santillana, S. A. 73
5.1 Usando la tecnología: Microsoft Excel
En M icrosoft Excel no existe una función específica para obtene r el valor espe
rado o esperanza m atem ática de una variable aleatoria. Se debe de especificar
a Excel la operación m atem ática a realizar para obtenerla.
A continuación, se m uestra la función de probabilidad del núm ero de unidades
que se vendieron en una distribuidora de autom óviles los últim os 500 días. Desea
mos determ inar la cantidad esperada de vehículos que se venderían en un día, es
decir, determ inar el prom edio de vehículos que se venderían diariamente.
0 90 90/500 =0.18
1 200 200/500 = 0.4
2 100 100/500 = 0.2
3 80 80/500 =0.16
4 25 25/500 =0.05
5 5 5/500 =0.01
Total 500 1
A B C D 1 E
á A B C D | E F
N úm ero de Au tos Núm ero de Autos
N úm ero de Número de
V end idos por día P(X) X * P(X) Vendidos por día P(X) X * P(X)
Días (f) Días (f)
1 (X) 1 (X)
i 2 0 90 90/500 = 0.18 0
2 0 90 90/500 = 0.18 i = +D 2*A 2
3 1 200 200/500 = 0.4 0.4
3 1 200 200/500 = 0.4 0.4
4 2 100 100/500 = 0.2 0.4
4 2 100 100/500 = 0.2 0.4 5 3 80 80/500 = 0.16 j =+D5*A5
5 3 80 80/500 = 0.16 0.48 6 4 25 25/500 = 0.05 0.2
6 4 25 25/500 = 0.05 0.2 7 5 5 5/500 = 0.01 0.05
74 ©Santillana, S. A.
■ Al finalizar de calcular cada producto se procede a sum ar dichos productos. Para esto utili
zamos la función SUMAO, hacemos clic en insertar función (fx), y elegimos la función SUMAO
■ Seleccionam os los valores a ; ;umar, desde la celda E2 hasta la celda E7, la función en
Excel se verá así = SU M A (E 2 E7), y hacem os clic en Aceptar.
d A B
■■
■
N úm ero de Autos
w
Vendidos por día
. .
N um ero de
^ P(X ) X * P(X)
Ü 0 90 90/500 - 0.18 0
1 1 200 200/500= 0.4 0.4
M
H 2
3
100
80
100/500 -
80/500 =
0.2
0.16
0.4
0.48
L __________
■ Introducim os los datos de la probabilidad de los autos vendidos por día y se han alm a
cenado en el variable Px.
> PX = C(0.18, 0.4, 0.2, 0.16, 0.05, 0.01)
■ Com o el valor esperado es la sum atorla del producto de x m ultip lica do por su corres
pon dien te probabilidad P(x), le Indicam os a R que nos sum e dichos resultados con la
función sumO.
> sum (xPx)
[1] 1.53
En p rom edio se espera que d iariam ente se vendan 1.53 vehículos durante 500 días.
© Santillana, S. A. 75
P r o b a b ilid a d E s ta d ís tic a
CONTROL DEL APRENDIZAJE
3 Se realizó un estudio para conocer el estado civil de los padres de 540 alum nos de una
escuela primaria. Hay 333 parejas casadas, 183 divorciadas y 24 viudos. ¿Cuál es la proba
bilidad de que, al elegir un niño al azar, tenga padres divorciados?
4. Una em isora de radio anunció que daría un prem io en efectivo a 50 personas selec
cionadas al azar de entre 1 0 , 0 0 0 llam adas que se recibieron d u ra n te los ú ltim o s 2
meses. ¿Cuál es la probabilidad de que los participantes ganen un prem io?
5 Una persona debe e legir una ru le ta de las que aparecen a c o n tin u a ció n para ju gar
con dos a m igo s m ás. ¿Cuál deb ería e le g ir si q u ie re te n e r m ás p ro b a b ilid a d e s de
ganar (cada c o lo r re p resenta a un p a rticipante)? Justificar.
76
6 En la figura, se tie n e una ru le ta en que la flecha puede in d ica r cualesqu iera de los
4 s e c to re s y ella nunca cae en los lím ite s de d ich o s se ctores. ¿Cuál(es) de las s i
g u ie n te s p ro p o sicio n e s es(son) verdadera(s)?
1
• La probabilidad de que la flecha apunte al num ero 1 es de - y .
7. C uatro co rre dores ig ualm en te calificados, Juan, G uillerm o, Eduardo y David, corren
los 1 0 0 m etros planos y se registra el orden de llegada:
• ¿Cuántos eventos sim ples hay en el espacio m uestral?
• Si los corredores están igualm ente calificados, ¿qué probabilidad se debe asignar a
cada evento sim ple?
• ¿Cuál es la probabilidad de que David gane la com petencia?
• ¿Cuál es la probabilidad de que David gane y Juan quede en segundo lugar?
8
• ¿Cuál es la probabilidad de que Eduardo llegue en últim o lugar?
9 Al lanzar dos m oneda s se consideran los sig u ie n te s even tos: A: O btener al m enos
una cara; B: O btener solo una cara.
• D eterm inar
a) P(A o B)
b) P(A y B)
©Santillana, S. A. 77
C o m u n ic a
EVALUACIÓN
R a z o n a y a r g u m e n ta
2. En una bodega hay 200 sillas con algún d e sp e rfe cto : 40 sin respaldo, 45 sin asiento, 60 con una pata rota
y 55 con 2 patas rotas. Si se to m a una silla al azar:
• ¿Cuál es la probabilidad de que no tenga respaldo?
• ¿Cuál es la probabilidad de que no tenga ni una pata rota?
M o d e la y r e p r e s e n ta
3. Unos e stu d ia n te s diseñan ca m ise ta s para la realización de su p ro m o ció n de fin de estudios. Los ta m a ñ o s
de las ca m ise tas son: (S = Sm all, M = M é d iu m , L = Large y XL = X tra Large); con dos diseños (T = T radicio
nal, I = in novad or) y de tre s co lo re s (A = A zul, V = Verde, N = Negro), ¿C uántos m o d e lo s d ife re n te s se p u e
den realizar? Realiza un d ia g ra m a de á rb o l. ¿Cuál es la p ro b a b ilid a d de cada p o sib le c o m b in a c ió n , si la
pro b a b ilid a d de cada o p ció n es la siguiente?:
R e s u e lv e p r o b le m a s
4. Se sabe que, en intervalos de 15 m inutos tom ados aleatoriam ente, el núm ero de clientes que llegan a una ca
fetería sigue la d istrib u ció n de probab ilidad es que se m uestra en la sig uie nte tabla. Calcula la cantid ad de
clientes prom edio a esperar en los próxim os 15 m inutos.
4 0.25
5 0.19
6 0 .1 0
7 0.05
8 0 .0 2
Total 1
APRENDIZAJE AUTONOMO
Correlación y regresión
simple
Mayormente nos interesa saber las relaciones que existen entre dos o más variables, asumien
do que estas no funcionan Independientemente, sino que los valores de una afectan o se re
lacionan con la otra.
C o m p e te n c ia s
Define correlación y regresión
simple.
■ in terpreta co e ficie n te de co
rrelación y coeficientes de la
ecuación de regresión.
■ Utiliza herram ientas te c n o ló
gicas para realizar cálculos de
c o e fic ie n te de co rre la ció n y
an á lisis de re g re sió n lineal,
usando h e rra m ie n ta s com o
M icrosoft Excel y Lenguaje R.
C o n te n id o s
■ Análisis de correlación sim ple
■ Análisis de regresión sim ple
©Santillana, S. A. 79
Correlación
1.1 Análisis de correlación simple
Correlación: Grupo de técnicas para m edir la asociación entre dos variables. En
el análisis de correlación se obtiene el c o e fic ie n te de correlación (r), el cual
brinda una medida cuantitativa de la fuerza de la relación entre dos variables.
La ¡dea básica del análisis de corre lación es re p o rta r la asociación entre dos
variables. Por lo general, el prim er paso es representar los datos en un d ia g ra
m a d e dispersión
El diagram a de dispersión consiste en localizar cada par de puntos (X, Y) en un
sistema de coordenadas rectangulares, que se construye en el cuadrante carte
siano en el cual tanto X (eje horizontal) com o Y (eje vertical) son positivos.
Las características del coeficiente de correlación son las siguientes:
■ El coeficiente de correlación de la m uestra se identifica con la letra minúscula (r).
■ M uestra la dirección y fuerza de la relación lineal (recta) entre dos variables
en escala de intervalo o en escala de razón.
■ Varía de - 1 hasta 1, Inclusive.
■ Un valor cercano a 0 indica que hay poca asociación entre las variables.
■ Un valor cercano a 1 indica una asociación directa o positiva entre las variables.
■ Un va lo r cercano a - 1 Indica una asociación Inversa o negativa entre las
variables.
Un coeficiente de correlación es una estim ación m atem ática de la relación entre
dos o más variables. El valor del coeficiente de correlación estará com prendido
entre 1 y - 1, pasando por cero. El m áxim o valor que puede alcanzar un coeficien
te de correlación positivo es 1; esto Indica que la relación es perfecta entre los
valores de X e Y. Por lo tanto, decim os que estam os ante una relación de este tipo,
cuando la posición que ocupa el sujeto en la variable X es exactam ente la misma
que ocupa en la variable Y. En el m om ento en que esta situación no se dé siste
máticamente, el valor de r será m enor a 1.00, y se aproximará a cero (0) a medida
que las diferencias de posición (rango) sean mayores.
Por o tro lado, cuando el valor de r es igual a - 1 , estam os ante una correlación
perfecta negativa y corresponde al valor de r más alto con este signo. Esto nos
indica que el sujeto m ás alto en X es el m ás bajo en Y, el segundo sujeto más
alto en X es, a su vez, el segundo sujeto más bajo en Y, y así sucesivam ente. SI
esta relación in versam e nte p ro porcio nal no se cu m ple sistem áticam ente, el
valor de r va a d ism inuir y se aproxim ará a cero en la m edida en que las d ife
rencias de posición en am bas variables sean mayores.
La correlación se centra en dos aspectos de la relación: la dirección que puede
ser positiva o negativa, y el grado, fuerza o m agnitud, que se refiere al va lo r
cu a n tita tivo de la relación. Cuando la relación es perfecta (1 o - 1), la p redic
ción de una variable hacia la otra es exacta; cuando la correlación es im perfec
ta (r < 1) ó (r > - 1), la predicción es aproxim ada y se debe establecer el m ar
gen de error, sie n d o esta la s itu a c ió n m ás co m ú n cu a n d o se tra b a ja con
Karl Pearson. muestras. Cuando no hay correlación (r = 0), no se puede hacer predicción.
80 © Santillana, S. A.
Relación buena pero Relación débil Relación buena pero
no m u y fuerte no m u y fuerte
1 - c ).5 t .5 1
O
Correlación Correlación
positiva perfecta negativa perfecta
Ix y £ x ) gy)
C o e fic ie n te d e c o rrelació n r= n
£ y )2
xy n
_•••••••••.
•••••
• • • • • • • • • • , • ;•
•••••••
•
*••••••••
o
c) Relación curvilínea d) Ninguna relación
©Santillana, S. A. 81
Ejemplo: El ingreso y ahorro de las familias
El gerente de un banco desea saber si puede considerarse que el ahorro
de las fam ilias (variable Y) está relacionado con sus ingresos (variable
X). En la tabla siguiente se m uestran los resultados obtenidos para una
m uestra de 10 fam ilias. Los ingresos y ahorros están expresados en m i
les de pesos dom inicanos (RD$).
2 44.0 2 .2 0
3 27.0 0.90
4 2 2 .0 1 .0 0
5 23.0 0.85
6 41.0 2.80
7 39.0 2 .0 0
8 42.0 1.50
9 31.0 1.50
10 41.0 2.50
2 1 500
O
< 1 000
500
0
o 5 000 10 000 15 000 20 000 25 000 30 000 35 000 40 000 45 000 50 000
Ingresos (x)
82 © Santillana, S. A.
Ahora debem os de obtener el coeficiente de correlación (r) para d e te rm i
nar la d irección y fuerza de la relación lineal entre estas dos variables,
para esto utilizarem os la fórm ula del coeficiente de correlación (r). Orga
nizando los cálculos en una tabla, obtenem os lo siguiente:
Ingresos A h o rro s
Fam ilia X * Y X2 Y2
(X) (Y)
1 28.0 1.00 28.00 784.0 1 000
2 44.0 2.20 96.80 1 936.0 4 840
3 27.0 0.90 24.30 729.0 0.810
4 22.0 1.00 22.00 484.0 1 000
5 23.0 0.85 19.55 529.0 0.723
6 41.0 2.80 114.80 1 681.0 7 840
7 39.0 2.00 78.00 1 521.0 4 000
8 42.0 1.50 63.00 1 764.0 2 250
9 31.0 1.50 46.50 961.0 2 250
10 41.0 2.50 102.50 1 681.0 6 250
Total 338 16.25 595.45 12 070 30 963
(338) (16.25)
595.45 -
r= 10
12 0 70 - J338FI * [30 963 - (16-25)2 ]
10 J L 10 J
5 492 50
595.45- - 5 VZSU
10
©Santillana, S. A. 83
1.2 Regresión lineal simple
A travé s del e stu d io de las co rre la cio n e s se lo g ró ana lizar la asociación que
existe e n tre dos o m ás variables. Se con sig u ió e sta b le ce r que las m a g n itu
des de e stas re la c io n e s se podían d e te rm in a r c u a n tita tiv a m e n te a tra vé s
del c o e fic ie n te de c o rre la c ió n , ade m á s de e s ta b le c e rs e el s e n tid o de las
m ism as: positivo, n e g ativo o ausencia de co rre la ció n .
Pero la re la ció n de va ria b le s nos p e rm ite o b te n e r in fo rm a c ió n que va m ás
allá de lo a n te rio rm e n te se ñ a la d o . T am bién p e rm ite a lc a n z a r u n o de los
o b je tiv o s m ás a p re c ia d o s en la In ve stig a ció n : la p re d ic c ió n , es decir, se
d e s e a e s tim a r el v a lo r d e la v a ria b le d e p e n d ie n te Y con b as e en un
v a lo r s e lecc io n ad o d e la v a ria b le in d e p e n d ie n te X.
La té c n ic a para d e s a rro lla r la e cu a ció n y p ro p o rc io n a r las e s tim a c io n e s o
p re d iccio n e s se d e n o m in a análisis de regresión.
En el aná lisis de reg re sió n , el o b je tiv o es u tiliz a r los d a to s para tra z a r una
línea re cta que re p re se n te m e jo r la re la ció n e n tre las dos variables. N u es
tro p rim e r e n fo q u e es u tiliz a r un diagram a de d isp e rsió n para visu a liza r la
posició n de la línea, tal co m o vim o s en el diagram a de d ispersión del e je m
plo de a n á lis is de c o rre la c ió n . E xiste un m é to d o que p ro p o rc io n a lo que
c o m ú n m e n te se co n o ce c o m o re cta del "m e jo r a ju s te ", e ste es el P rin ci
pio de los M ín im o s C uadrados.
La e cua ción de una re cta tie n e la fo rm a :
donde:
Y, que se lee Y prim a, es el v a lo r de la e stim a ció n de la va ria b le Y para un
Francis G alton
v a lo r X seleccionado.
(1 8 2 2 -1 9 1 1 )
a, es la in te rs e c c ió n Y. Es el v a lo r e s tim a d o de Y cu a n d o X = 0. En o tra s
In tro d u jo el té rm in o regre
palabras, a es el v a lo r e s tim a d o de Y d o n d e la re cta de re g re sió n cruza el
sión en su libro Natural In
eje Y cuando X es cero.
h e rita n c e (1889). Se c o n
c e n tró en el e s tu d io de la b, es la pendiente de la recta, o el cam bio prom edio en Y por cada cam bio de
altura de hijos a partir de la una unidad (ya sea aum ento o reducción) de la variable independiente X.
a ltu ra de sus p a d re s, lle
X, es cu a lq u ie r va lo r de la va ria b le in d e p e n d ie n te que se seleccione.
g a n d o a la c o n c lu s ió n de
que los p a d re s m u y a lto s La e cu a ció n de la re g re sió n lineal es e x a c ta m e n te la m ism a que la e c u a
tenían una te n d e n cia a te ció n de c u a lq u ie r línea, a es la in te rs e c c ió n con Y y b es la p e n d ie n te . El
n e r h ijo s q u e h e re d a b a n p ro p ó s ito de un a ná lisis de re g re sió n es ca lcu la r los va lo re s de a y b para
p a rte de esta a ltu ra , pero d e sa rro lla r una e cua ción lineal que se a ju ste m e jo r a los datos.
que revelaban tam bién una Las fó rm u la s de los c o e fic ie n te s a y b son:
te n d e n c ia a re g re s a r a la
m edia. A esto Galton le d e y xv Ex) gy)
nom inó Ley de la Regresión C o e fic ie n te b b = — - - ----------- 0 ----------
Universal.
84 ©Santillana, S. A.
C o e fic ie n te a a = Y - bx
2 44.0 2 .2 0
3 27.0 0.90
4 2 2 .0 1 .0 0
5 23.0 0.85
6 41.0 2.80
7 39.0 2 .0 0
8 42.0 1.50
9 31.0 1.50
10 41.0 2.50
Total 338 16 .2 5 5 9 5 .4 5 12 0 7 0
© Santillana, S. A. 85
Sustituyendo en las fórm ulas los coeficientes a y b son los siguientes:
a = -1-6-2^ -0.0716 ' 338 1.625 - 0.0716 (33.8) = 1.625 - 2.42 = a = - 0.795
10 l 10
Y = - 0 .7 9 5 + 0 .0 7 1 6 X
SI deseam os e stim ar o predecir cuál sería el a ho rro de una fam ilia que tiene
Ingresos de RD$ 50 000, debem os de sustituir X por 50, debido a que los coefi
cientes están expresados en m iles de pesos, por lo que la ecuación quedaría
de la siguiente form a:
Y = - 0 .7 9 5 + 0 .0 7 1 6 (5 0 ) = - 0 .7 9 5 + 3 .5 8 = 2 .7 8 5
Esto quiere decir, que si una fam ilia posee ingresos de RD$50 000 el ahorro de
esta fam ilia sería de RD$2 785 pesos.
86 ©Santillana, S. A.
^ ---- H : D ft • :
Archivo Irwro V Insertar Oseño de pagina Formulas D
* ¿SP*
H Copar -
Calibo • i: - A A
Complementos
■ E f *
Aceptar j
iij£j Herramientas para análisis - v p ( Cantetar __j
N^Soltei
Automatización .
©Santillana, S. A. 87
D ñ s « í§3
C om o puede verse, deb erá n a n o ta rse los rangos de la hoja de Excel en las
casillas de "R ango Y d e e n tra d a " y de "Rango X d e e n tra d a " . Le in d ic a
m o s las re fe re n c ia s de ce ld a s q u e c o n tie n e n los d a to s de In g re s o (X ) y
A h o rro (Y) con sus co rre s p o n d ie n te s encabezados; ta m b ié n d eb e a ctiv a r
se la casilla "R ótulos" en e s te c u a d ro de d iá lo g o de Excel para in d ic a r al
p ro g ra m a q u e se in c lu y e ro n los e n ca bezad os. De e sta m a n e ra so lo resta
a c tiv a r la casilla "R ango d e salida" en la se cció n "O p cio nes d e salida" y
m a rca r alguna celda vacía ubicada hacia abajo y a la d e recha de los datos
para q u e a p a rtir de ella aparezca n los d a to s re s u lta n te s de e s te c o m p le
m ento. Finalm ente, se hace clic el b o tó n "A ce p ta r" y se o b tie n e n los re su l
ta d o s que se m u e stra n en las sig u ie n te s tablas.
©Santillana, S. A.
Resumen
2.50
Error típico 0.395303075
Observaciones 10
A n álisis d e varia n za
Total 9 4.55625
ingresos (X) 0.071561 0.015558 4.599705 0.001756 0.035685 0.107438 0.035685 0.107438
Estas tablas de resultados contienen mucha más inform ación que aquella que se
ha revisado hasta aquí. Por ahora solo se contem plan los conceptos que se han
aprendido. Solo utilizaremos la tabla de Estadísticas de Resumen, ya que contiene
el coeficiente de correlación, que resultó igual que el calculado en el ejemplo, pero
más preciso, con m ayor núm ero de decimales, y la cantidad de observaciones, y la
última tabla, ya que contiene los coeficientes de la ecuación de regresión.
En la últim a tabla, en la colum na "C oeficientes" pueden apreciarse los valores
-0 .7 9 3 7 7 3 y 0.071561, catalogados com o In te rc e p c ió n e In g re s o (X), res
pectivam ente. Intercepción es la m ism a ordenada al origen (coeficiente a), es
decir, el punto en el que la recta cruza (intercepta) al eje vertical, solo que con
m ayor precisión que la ob te n id a en el cá lculo m anual. En ta n to que Ingreso
m arca la pendiente, lo cual lleva a la m ism a ecuación de regresión, pero m ás
o 'e c s a , con m ayor núm ero de decim ales:
Y = - 0 .7 9 3 7 7 3 + 0 .0 7 1 5 6 1 X
© Santillana, S. A. 89
1.4 Usando la tecnología: Lenguaje R
En el softw are R los com andos básicos para realizar una C o rrelació n y obtener
los coeficientes de la Ecuación d e reg resió n lin eal son: "cor" (correlation) y
"Im" (linear m odels), respectivam ente.
Para ejecutar am bos com andos, prim ero Ingresam os a R los datos de cada va
riable; utilizarem os los datos de Ingreso y A h o rro d e las fam ilia s, que hem os
visto en ejem plos anteriores para verificar que los resultados obtenidos sean los
mismos.
■ in g resar los d a to s d e Ingresos y A h o rro s a R:
> Ingresos = C(28, 44, 27, 22, 23, 41, 39, 42, 31, 41)
> A horros = C(1, 2.2, 0.9, 1, 0.85, 2.8, 2 ,1 .5 ,1 .5 , 2.5)
■ Para re a liza r un d ia g ra m a d e d ispersión y v e rific a r v is u a lm e n te la re
lación e n tr e a m b a s v a ria b le s , in g re s a m o s el c o m a n d o "plotO " de la
s ig u ie n te m anera:
> plot(Ahorros~lngresos)
« e C) * *1 c 4
© Santillana, S. A.
■ Para o b te n e r los c o e fic ie n te s de la Ecuación d e R egresión Lineal e m
p le a m o s la fu n ció n "Im O ", donde el p rim e r argum ento es el nom bre de la
variable dependiente y el segundo es el de la variable independiente "Im (Y -X )";
p rim e ro alm acenam os el resultado en una variab le y después utilizam os la
fu n ció n "su m m aryO " para que nos brinde un resum en con los datos de la
regresión lineal obtenida:
> Regresión = Im (A horros-ingresos)
> s u m m a ry (Regresión)
Com o podem os ver, este resultado es el m ism o que el calculado m anualm en
te com o el obtenido utilizando Excel.
■ Con los siguientes com andos le agregam os la re c ta d e regresión que m ejor
se ajusta a los datos con la función "ablineO" y tam bién estim am os o podem os
predecir el valor de Y según los coeficientes de la ecuación de regresión, sus
titu ye n d o los valores de estos en la ecuación y asignándole un valor a X, por
ejem plo el valor usado en el ejem plo anterior.
> a b lin e (Regresión)
> Y = -0.7 9377+ 0.07156 * 50
>Y
[1] 2 .7 8 4 2 3
I R Graphics. Om m 2 (ACTIVE)
p o e cj *i + <? 4 1
©Santillana, S. A. 91
C o r r e la c ió n y R e g re s ió n S im p le
CONTROL DEL APRENDIZAJE
Horas de Puntuación
Estudiante
Estudio (X) (Y)
1 10 98
2 5 91
3 1 62
4 2.5 73
5 8 96
6 4 92
7 3 88
8 7 93
9 6.5 95
10 4 90
92 © Santillana, S. A.
A c o n tin u a c ió n , se m u e s tra n la tasa de p ro m o v id o s del s is te m a e d u c a tiv o y el
p o rc e n ta je de hog are s pobres, según p ro vin cia , para el p e río d o 2010-2011 en la
R epública D om inicana.
©Santillana, S. A.
C o m u n ic a
1. Expresa la im p o rta n c ia del diagram a de dispersión.
2. D efine el c o e fic ie n te de co rre la ció n .
3. D efine regresión lineal sim ple.
R a z o n a y a r g u m e n ta
O
4. Una em presa eléctrica estudia la relación entre kilow atts-hora (KW/h) (miles) consum idos y el núm ero de habi
taciones de una residencia privada familiar, una m uestra aleatoria de 1 0 casas reveló lo siguiente:
Núm de viviendas 1 2 3 4 5 6 7 8 9 10
Número de habitaciones 12 9 14 6 10 8 10 10 5 7
Kilowatts-hora (miles) 9 7 10 5 8 6 8 10 4 7
M o d e la y r e p r e s e n ta
5. El jefe de la Policía Nacional aum entará el núm ero de policías para reducir los delitos de una determ inada ciudad.
Antes de tom ar una decisión final, este realiza una encuesta en otras ciudades, de tam año similar, para determ inar
la relación entre el núm ero de policías y el núm ero de delitos reportados. A continuación, la inform ación muestral.
Ciudad 1 2 3 4 5 6 7 8
Policías 15 17 25 27 17 12 11 22
Número de delitos 17 13 5 7 7 21 19 6
R e s u e lv e p r o b le m a s
6 . Una m uestra de 10 fam ilias del área de Punta Cana reveló las siguientes cifras por tam a ño de fam ilia y canti
dad gastada (en US$) en diversión por semana.
Familia
Tamaño fam iliar
D
3
2
6
3
5 6
5
6
6
3 4
8
4
9
5
10
3
Cantidad gastada en diversión 99 104 151 129 142 111 74 91 119 91
APRENDIZAJE AUTONOMO
1 C
M uestra interés en resolver problem as de la vida diaria que im pliquen
determ inar la relación y predicción entre dos variables.
□ □ □
A precia el uso de la calculadora, so ftw ares diversos, com o el Lenguaje R y
otros, para d e term inar la relación y realizar predicciones entre dos variables.
□ □ □
94 ©Santillana, S. A.
Glosario...
■ A n álisis de reg resió n y correlació n . Estudia la relación que puede existir entre dos o más
variables de una m uestra.
■ C o e fic ie n te d e variació n . Cociente entre la desviación estándar y la m edia aritm ética m ul
tiplicad o por 1 0 0 .
■ C o m p le m e n to . El com plem ento de un conjunto A es el conjunto que se form a por todos los
elem entos que no pertenecen a ese conjunto.
■ D atos. Constituyen la m ateria prim a de la estadística.
■ D a to s con tinuos. Se pueden expresar con tal precisión que llega un m o d e rn o e r e c u e e :
difícil distinguir entre un núm ero y el siguiente.
■ D a to s d isco n tin u o s o d iscretos. Por su naturaleza expresan ra rtiria riK s q H n i t K y f i r « .
m ente distinguibles unas de otras.
■ D esviación es tá n d a r. M ide la dispersión de los d a to s alrededor déla m a fe a a tm é a B a .R á E
cuadrada de la varianza.
■ D esviación m e d ia P rom edio de los valores absolutos de las (Herencias entre c ate dalo y
su media.
■ Escala d e in te rv a lo . En esta la distancia entre dos unidades de metfida es tr t fcrm eypep
m ite que se realicen operaciones aritm éticas (adición, sustracción, división y m ultipfecacnt
■ Escala de razón. Funciona com o la escala de intervalo, pero el cero absoluto se ra a a ca
rencia total de la característica que mide.
■ Escala no m in al. La m edición consiste en determ inar si los casos que se presentan pertene
cen o no a determ inados objetos de una distribución.
■ Escalas o rd in a le s . Son ordenaciones en las que se presentan relaciones de m ayor que o
después de (>) y m enor que o antes de (<).
■ Espacio m u estral. C onjunto de todos los sucesos m utuam ente excluyentes y colectivam en
te exhaustivos de un experim ento aleatorio.
■ E stadística. Disciplina m atem ática considerada com o un conjunto de técnicas para el análi
sis de datos.
■ E stad ística D e scrip tiva. Se ocupa del análisis de los datos sin utilizar m uestras para hacer
inferencias.
■ E stad ística In fe re n cial. Parte de la Estadística que por m edio del m uestreo infiere con clu
siones acerca de la totalidad de una población.
■ E vento. Suceso o hecho de interés para algún estudio estadístico.
■ E ven to s in d e p e n d ie n te s . Suceden cuando la ocurrencia de uno de ellos no tie n e efecto
sobre la probabilidad de ocurrencia del otro.
■ Eventos m u tu a m e n te exc lu y e n te s . Eventos que no pueden ocu rrir al m ism o tiem po.
■ E x p e rim e n to ale a to rio . Situaciones o ensayos que im plican resultados inciertos.
■ F recu encia re la tiv a Es la proporción de casos en cada categoría.
©Santillana, S. A. 95
■ in te rc e p c ió n . Es la m ism a ordenada al origen, es decir, el p u n to en el que la recta cruza
(intercepta) al eje vertical.
■ In te rp re ta c ió n te ó ric a o clásica d e la p ro b a b ilid ad Parte de que cuando no hay razones
para preferir uno de los posibles resultados o sucesos, se considera que todos tienen la m is
ma probabilidad de ocurrir.
■ M e d ia a ritm é tic a o p ro m ed io . M edida que se calcula sum ando el total de los datos o va
lores de la variable para luego dividir esa sum a entre el núm ero de datos sumados.
■ M e d ia a rm ó n ic a . Es el recíproco de la m edia a ritm é tica de los recíprocos de los valores
individuales.
■ M e d ia g e o m é tric a . Raíz n-ésim a del producto de los n datos o valores de la variable.
■ M e d ia p o n d erad a. Se utiliza principalm ente para darle un peso relativo diferente a cada uno
de los valores de la variable.
■ M e d ia n a . Valor que ocupa el lugar central en una serle ordenada.
■ M ed id as. N úm eros sim ples que representan características de conjuntos de datos.
■ M o d a, valor que m ás se repite, es decir, el que tiene m ayor frecuencia.
■ M u e s tra . S ubconjunto de los elem entos de una población.
■ Población. Conjunto de todos los elem entos o unidades de interés para un estudio determinado.
■ Proporción. Se calcula dividiendo el núm ero de casos que tienen la característica de interés
entre el total de elem entos de la m uestra (o de la población).
■ P u n to m ed io de clase o v a lo r c e n tra l d e cada clase Valor que se considera representa
tivo de todos los de su clase.
■ R. Es un entorno de softw are libre para com putación y gráficos estadísticos.
■ Rango. Diferencia entre el m ayor y el m enor de los valores; m ide qué tan separados están los
datos.
■ S eries d e d ato s agrup ados. Tablas de datos en las que se resum en estos de acuerdo con
la frecuencia con la que se repiten o según determ inados intervalos de valores.
■ T eo re m a d e C h ebysh ev. D eterm ina la proporción m ínim a de valores que se encuentran en
un núm ero específico de desviaciones estándar en relación con la media.
■ Teoría d e la p ro b a b ilid ad . Se ocupa de analizar y determ inar la opo rtunidad de ocurrencia
de diversos sucesos aleatorios.
■ V ariable. Característica que se m ide al hacer determ inadas observaciones y que puede asu
m ir diferentes valores.
■ V a ria b le a le a to ria . Es aquella cuyo valor num érico se determ ina m ediante el resultado de
una situación incierta.
■ v a ria b le p re d ic to ra . Es una variable in dependiente que se utiliza para hacer pronósticos
sobre la variable dependiente.
■ V a ria n za . M ide la dispersión de los datos alred edor de la m edia aritm é tica. / P rom edio de
cuadrados.