Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Aplicada Al Turismo
Estadistica Aplicada Al Turismo
su
UNIVERSIDAD NACIONAL
JOSÉ FAUSTINO SÁNCHEZ CARRIÓN
La historia nos narra, que desde que el hombre empezó a comunicarse por medio de lenguaje
escrito, los pueblos del continente africano se destacaron por hacer algunas anotaciones de mucha
importancia en su diario convivir.
Los chinos, desde la época del sabio Kung-futse (2500 A.D.C.) que hicieron recolecciones.
Los egipcios (2500 anos A.D.C.) cuando se encontraban gobernados por los faraones,
establecieron los márgenes del rio Nilo. Estos, cada vez que se producían las grandes
inundaciones provocadas por el desbordamiento de dicho rio, ordenaban a los sacerdotes (sabios
del palacio) a que realizaran las respectivas mediciones de las tierras afectadas, a fin de que sus
propietarios pagaran el impuesto solo de lo que les quedaba.
También fueron los griegos los y los romanos que en sus frecuentes acciones bélicas,
cuantificaban: soldados, vituallas, caballos, provisiones de armas, como: lanzas, escudos, arcos,
etc.
En el continente americano, se destacan los pueblos: maya, azteca e inca. Así, los primeros tenían
el calendario igual que los egipcios y los chinos, y los incas racionaban los excesos de las
cosechas para épocas que había escasez.
¿QUE ES LA ESTADÍSTICA?
Esta palabra derivada de Staat, que significa gobierno, su fundador la definió como "el
conocimiento profundo de la situación respectiva y comparativa de cada estado".
Conocemos que desde la más remota antigüedad el concepto de estadística se identifico con el de
"ciencia de los números y de las figuras".
Muchos la llaman como "la representación del pensamiento científico", puesto que se basa en la
investigación para llegar a conclusiones, análisis, interpretaciones, abstracciones, deducciones,
etc.
Pero también la concebimos como una ciencia auxiliar de otras disciplinas, sin su aplicación no
podríamos orientar muchos aspectos. Es decir es el hilo conductor en todos los campos.
La mayoría de las personas estamos familiarizadas con frases como estas: Los salarios de los
militares aumentan en un 30%. El partido triunfador en las elecciones próximas pasadas supero a
lo que informaban las encuestadoras.
Por el fenómeno del niño tenemos que importar tales alimentos. El rendimiento de los alumnos en
esta materia está por debajo de lo normal. 10 de cada 100 niños sufren problemas respiratorios. En
este planeta el promedio de vida es de 70 anos. La gran mayoría de emigrantes son de sexo
masculino.
Todos los días experimentamos, manipulamos símbolos y palabras. Hasta emitimos juicios de valor
que seguro se basan en algo para una información cualquiera; pero para una información
estadística debemos estar ligados al método estadístico, en su forma, organización, recopilación,
presentación y análisis de datos.
La Estadística es una ciencia que nos proporciona un método importante para la toma de
decisiones y resolver problemas en forma sistemática y reproducible, a diferencia de otros métodos
que difícilmente puede ser explicado o reproducido hasta por la misma persona que lo ejecuta. Por
lo anterior es importante analizar detenidamente cada uno de los conceptos en los que se
fundamenta esta para lograr acercarnos profundamente a su
Conocimiento.
La estadística es una ciencia que estudia la recolección, análisis e interpretación de datos, ya sea
para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún
fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo
estadística es más que eso, en otras palabras es el vehículo que permite llevar a cabo el proceso
relacionado con la investigación científica.
La estadística, en general, es la ciencia que trata de la recopilacion, organización presentación,
análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más
efectiva.
Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no
tan semejantes. Para Chacon esta se define como “la ciencia que tiene por objeto el estudio
cuantitativo de los colectivos”; otros la definen como la expresión cuantitativa del conocimiento
dispuesta en forma adecuada para el escrutinio y análisis.
La más aceptada, sin embargo, es la de Minguez, que define la Estadística como “La ciencia que
tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad,
deducir las leyes que los rigen y hacer su predicción próxima”.
Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas, una
confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra
estadística, en primer término se usa para referirse a la información estadística; también se utiliza
para referirse al conjunto de técnicas y métodos que se utilizan para analizar la información
estadística; y el termino estadístico, en singular y en masculino, se refiere a una medida derivada
de una muestra.
Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y
resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su
presentación en forma grafica o ilustrativa y el cálculo de medidas descriptivas.
Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad,
control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en
deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por
otras personas que intervienen en la toma de decisiones.
Como se ha visto anteriormente la estadística se ocupa de los métodos científicos que se utilizan
para recolectar, organizar, resumir, presentar y analizar datos así como para obtener conclusiones
validas y tomar decisiones razonables con base en este análisis.
El término estadística también se usa para denotar los datos o los números que se obtienen de
esos datos; por ejemplo, los promedios. Así, se habla de estadística de empleo, estadística de
accidentes, etcétera.
Cuando se recolectan datos sobre las características de un grupo de individuos o de objetos, por
ejemplo, estatura y peso de los estudiantes de la universidad o cantidad de pernos defectuosos y
no defectuosos producidos en determinado día en una fábrica, suele ser imposible o poco práctico
observar todo el grupo, en especial si se trata de un grupo grande. En vez de examinar todo el
grupo, al que se le conoce como población o universo, se examina solo una pequeña parte del
grupo, al que se le llama muestra.
Las poblaciones pueden ser finitas o infinitas. Por ejemplo, la población que consta de todos los
pernos producidos determinado día en una fabrica es finita, en tanto la población que consta de los
resultados (cara o cruz) que se pueden obtener lanzando una y otra vez una moneda es infinita.
Si la muestra es representativa de una población, el análisis de la muestra permite inferir
conclusiones validas acerca de la población. A la parte de la estadística que se ocupa de las
condiciones bajo las cuales tales inferencias son validas se le llama estadística inductiva o
inferencia. Como estas inferencias no pueden ser absolutamente ciertas, para presentar estas
conclusiones se emplea el lenguaje de la probabilidad.
A la parte de la estadística que únicamente trata de describir y analizar un grupo dado, sin sacar
ninguna conclusión ni hacer inferencia alguna acerca de un grupo más grande, se le conoce como
estadística descriptiva o deductiva.
Antes de proceder al estudio de la estadística, se analizaran algunos conceptos matemáticos
importantes.
El resultado de redondear un número por ejemplo 72.8 a la unidad más cercana es 73 debido a que
72.8 está más cerca de 73 que de 72. De igual manera 72.8146 redondeando a la centésima más
cercana (o a dos lugares decimales) es de 72.81, ya que 72.8146 está más cerca de 72.81 que de
72.82.
Sin embargo, para redondear 72.465 a la centésima más cercana, ocurre un dilema debido a que
72.465 se encuentra precisamente a la mitad entre 72.46 y 72.47. En estos casos, lo que se
acostumbra hacer es redondear al entero par antes del 5. Así 72.465 se redondea a 72.46, 183.575
se redondea a 183.58 y 116 500 000, redondeado al millón más cercano 116 000 000. Hacer
esto es especialmente útil cuando se realiza una gran cantidad de operaciones para minimizar, así,
el error de redondeo acumulado (ver problema 1.4)
NOTACIÓN CIENTÍFICA.
Al escribir números, en especial aquellos en los que hay muchos ceros antes o después del punto
decimal, es conveniente usar la notación científica empleando potencias de 10.
EJEMPLO 3
101 =
2
10 =
105 =
108 =
EJEMPLO 4
100 =
−1
10 =
10−2 =
10−5 =
EJEMPLO 5
864 000 000 =
0.00003416 =
8
Obsérvese que el efecto de multiplicar un número, por ejemplo 10 , es recorrer el punto decimal
−6
del número ocho lugares a la derecha. El efecto de multiplicar un numero por 10 eso recorrer el
punto decimal del número seis lugares a la izquierda.
Con frecuencia, para hacer énfasis en que no se ha omitido un número distinto de cero antes del
punto decimal, se escribe 0.1253 en lugar de .1253. Sin embargo, en casos en los que no pueda
haber lugar a confusión, como en tablas, el cero antes del punto decimal puede omitirse.
Para indicar la multiplicación de dos o más números se acostumbra usar paréntesis o puntos. Así
(5) (3)=5.3=5x3= 15 y (10) (10) (10)=10.10.10=10x10x10=1000. Cuando se utilizan letras para
representar números suelen omitirse los paréntesis y los puntos; por ejemplo, ab=(a) (b)=a.b=axb.
La notación científica es útil al hacer cálculos, en especial para localizar el punto decimal, entonces
se hace uso de las reglas siguientes:
10 p 10 q =10 p+q
p
10
q
=10 p−q
10
Donde p y q son números cualesquiera.
p
Entonces 10 , p es el exponente y 10 es la base.
EJEMPLO 6
(103 )(102 )=
10 6
=
10 4
EJEMPLO 7
(4 000 000)(0.0000000002)=
EJEMPLO 8
(0 .006 )(80000 )
=
0 .04
CIFRAS SIGNIFICATIVAS
Si se anota la estatura de una persona como 65.4 in, esto significa que la estatura verdadera
estará entre 65.35 y 65.45 in. Los dígitos exactos, fuera de los ceros necesarios para localizar el
punto decimal, son los dígitos significativos o cifras significativas del número.
EJEMPLO 9 65.4…………………
EJEMPLO 10 4.5300………………………..
EJEMPLO 11 .0018= = ………………………….
EJEMPLO 12 .001800= = ……………………………….
Los números obtenidos de enumeración (o conteo), a diferencia de los obtenidos de mediciones,
por su puesto son exactos y por lo tanto tienen un número ilimitado de cifras significativas. Sin
embargo, en algunos de estos casos puede ser difícil decidir, sin más información, cuales cifras
son significativas. Por ejemplo, el numero 186 000 000 puede tener 3, 4,….9 cifras significativas. Si
se sabe que tiene cinco cifras significativas puede ser más adecuado escribirlo como 186.00
8
millones o como 1.8600x 10 .
Cálculos.
EJEMPLO 15 √ 38.7=
EJEMPLO 16 (8.416) (50) =
Cuando se suman o se restan números, el resultado final no puede tener más cifras significativas
después del punto decimal que los números con menos cifras significativas después del punto
decimal (ver problema 1.10)
EJEMPLO 17 3.16 +2.7=
EJEMPLO 18 83.42-72 =
EJEMPLO 19 47.816-25=
La regla anterior para la suma y la resta puede extenderse (ver problema 1.11)
FUNCIONES.
Si a cada valor que puede tomar la variable X le corresponde un valor de una variable Y, se dice
que Y es función de X y se escribe Y=F(X) (se lee “Y es igual a F de X”) para indicar esta
dependencia funcional. En lugar de F también puede usarse otras letras (G,θ, etcétera).
La variable X es la variable independiente y la variable Y es la variable dependiente.
Si a cada valor de X le corresponde únicamente un valor de Y, se dice que Y es una función
univaluada de X; de lo contrario, se dice que es una función multivaluada de X.
EJEMPLO 20 La población P de los Estados Unidos es función del tiempo t, lo que se escribe P=F
(t)
EJEMPLO 21 El estiramiento S de un resorte vertical es función del peso W que hay en el
extremo del resorte, es decir, S=G (W).
La dependencia (o correspondencia) funcional entre variables puede describirse mediante una
tabla. Pero también puede indicarse mediante una ecuación que relaciona las variables, por
ejemplo, Y=2x-3, a partir de la cual puede determinarse el valor de Y que corresponde a los
diversos valores de x.
Si Y=F(X), F (3) denota “el valor de Y cuando X=3”, F (10) denota “el valor de Y cuando X=10”, etc.
2 2
Así, si Y=F(X)= X , entonces, F (3)= 3 = 9 es el valor de Y cuando X=3
El concepto de función puede ampliarse a dos o más variables (ver problema 1.17)
COORDENADAS RECTANGULARES.
En la figura 1-1 se muestra un diagrama de dispersión de EXCEL con cuatro puntos. Este diagrama
de dispersión está formado por dos rectas mutuamente perpendiculares llamadas ejes X y Y. el eje
X es horizontal y el eje Y vertical. Estos dos ejes se cortan en un punto llamado origen. Estas dos
rectas dividen el plano XY en cuatro regiones que se denotan I, II, III, IV, a las que se les conoce
como primer, segundo, tercer y cuarto cuadrantes. En la figura 1-1 se muestran cuatro puntos. El
punto (2, 3) está en el primer cuadrante y se grafica avanzando, desde el origen, 2 unidades a la
derecha sobre el eje X y desde ahí, 3 unidades hacia arriba. El punto (-2.3, 4.5) está en el segundo
cuadrante y se grafica avanzando desde el origen, 2.3 unidades a la izquierda sobre el eje X y
desde allí 4.5 unidades hacia arriba. El punto (-4, -3) está en el tercer cuadrante y se grafica
avanzando, desde el origen, 4 unidades a la izquierda sobre el eje X, y desde ahí tres unidades
hacia abajo. El punto (3.5, -4) está en el cuarto cuadrante y se grafica avanzando 3.5 unidades a la
derecha sobre el eje X, y desde ahí cuatro unidades hacia abajo. El primer número de cada uno de
estos pares es la abscisa del punto y el segundo número es la ordenada del punto. La abscisa y la
ordenada, juntas, son coordenadas del punto.
Las ideas anteriores pueden ampliarse construyendo un eje z a través del origen y perpendicular
al plano XY. En este caso las coordenadas de cada punto se denotan (X, Y, Z)
GRAFICAS
Una grafica es una representación visual de la relación entre las variables. En estadística,
dependiendo de la naturaleza de los datos y del propósito que se persiga, se emplean distintos
tipos de graficas: graficas de barras, de pastel, pictogramas, etc. A las graficas también se les
suele llamar cartas o diagramas. Así se habla de cartas de barra, diagramas de pastel, etc. (ver los
problemas 1.23, 1.24, 1.25, 1.26 y 1.27)
ECUACIONES.
Las ecuaciones son expresiones de la forma A=B, donde A es el miembro (o lado) izquierdo de la
ecuación y B es el miembro (o lado) derecho. Si se aplican las mismas operaciones a ambos lados
de una ecuación se obtienen ecuaciones equivalentes. Así, si a ambos miembros de una ecuación
se suman o se restan un mismo número se obtiene una ecuación equivalente; también, si ambos
lados se multiplican por un mismo número o se dividen entre un mismo número, con excepción de
la división entre cero que no es validad, se obtiene una ecuación equivalente.
EJEMPLO 22
Dada la ecuación 2x + 3 = 9, se resta 3 a ambos miembros: 2x+3-3=9-3 o 2x=6. Se divide ambos
miembros entre 2: 2x/2=6/2 o x=3. Este valor de X es una solución de la ecuación dada, como se
puede ver sustituyendo X por 3, con lo que se obtiene 2(3)+3=9 o 9=9, que es una identidad. Al
proceso de obtener soluciones de una ecuación se le conoce como resolver una ecuación.
Las ideas anteriores pueden extenderse a hallar soluciones de dos ecuaciones con dos incógnitas,
de tres ecuaciones en tres incógnitas, etc. A tales ecuaciones se les conoce como ecuaciones
simultáneas (ver problema 1.30)
DESIGUALDADES.
Los símbolos ˂ y ˃ significan “menor que” y “mayor que”, respectivamente. Los símbolos ≤ y ≥
significan “menor o igual a” y “mayor o igual a”, respectivamente. Todos estos símbolos se conocen
como signos de desigualdad.
EJEMPLO 23
3˂ 5 se lee…………………
EJEMPLO 24
5˃ 3 se lee…….
EJEMPLO 25
X ˂ 8 se lee………………
EJEMPLO 26
X ≥ 10 se lee……..
EJEMPLO 30 como 15 ˃12, (15) (-3) ˂ (12) (-3) (es decir, -45 ˂ -36) y 15/-3˂ 12/-3 (es decir, -5 ˂-
4)
LOGARITMO
Si X ˃ 0, b˃0 y b≠ 1, y=
logb x si y solo si log b y= X . Un logaritmo es un exponente. Es la potencia
a la que hay que elevar la base b para obtener el numero del que se busca el logaritmo. Las dos
base más utilizadas son el 10 y la e, que es igual a 2.71828182…… a los logaritmos base 10 se
log 10 1000 . La potencia a la que hay que elevar al 2 para obtener 8 es tres, así log 2 8 =3. La
Calcule los logaritmos naturales de los número del 1 al 5 usando Excel. Los números 1 a 5 se
ingresan en las celdas B1:F1 y en la celda B2 se ingresa la expresión =LN (B1), se hace clic y se
arrastra desde B2 hasta F2. Excel proporciona el siguiente resultado.
X 1 2 3 4 5
LN(x) 0 0,69314718 1,09861229 1,38629436 1,60943791
EJEMPLO 33
xy 4
log b ( )
Escriba z 3 como suma o diferencia de logaritmos de x, y y z
ECUACIONES LOGARÍTMICAS.
Para resolver ecuaciones logarítmicas:
1. Todos los logaritmos se aíslan en un lado de la ecuación.
2. Las sumas y diferencias de logaritmos se expresan como un solo logaritmo.
3. La ecuación obtenida en el paso 2 se expresa en forma exponencial.
4. Se resuelve la ecuación obtenida en el paso 3
5. Se verifican las soluciones.
EJEMPLO 34
Solucione la siguiente ecuación logarítmica:
log 4 ( x +5 )=3 .
EJEMPLO 34
Resuelva la siguiente ecuación logarítmica
Log (6y-7) + log (y)=log (5)
Problemas para resolver en clase:
VARIABLES
1.1 En cada uno de los siguientes casos indique si se trata de datos continuos o
Datos discretos
1.6 Sumar los números 4.35, 8.65, 2.95, 12.45, 6.65, 7.55 y 9.75: a) directamente, b) redondeando
a la decima más cercana de acuerdo con la convención del “entero par” y c) redondeando de
manera que se incremente el digito antes del 5.
1.7 Expresar cada uno de los siguientes números sin utilizar potencias de 10
7
a) 4.823x 10
−6
b) 8.4x 10
−7
c) 3.8x 10
5
d) 1.86x 10
8
e) 300x 10
−10
f) 70000x 10
1.8 En cada inciso diga cuantas cifras significativas hay, entendiéndose que los números se han
dado exactamente.
a) 149.8 in
b) 149.80 in
c) 0.0028 metros (m)
d) 0.00280 m
e) 1.00280 m
f) 9 gramos (g)
g) 9 casas
3
h) 4.0x 10 libras (lb)
−5
i) 7.584x 10 dinas
1.9 ¿Cuál es el error máximo en cada una de las mediciones siguientes, entendiéndose que se han
registrado exactamente?
a) 73.854 in
b) 0.09800 pies cúbicos
8
c) 3,867x 10 kilómetros (km)
1.10 Escribir cada número empleando la notación científica. A menos que se indique otra cosa,
supóngase que todas las cifras son significativas.
a) 24 380 000 (cuatro cifras significativas)
b) 0.00000985
c) 7300 000 000 (cinco cifras significativas)
d) 0.00018400
CÁLCULOS
1.11 Mostrar que el producto de los números 5.74 y 3.8, entendiéndose que tienen tres y dos
cifras significativas, respectivamente, no puede ser exacto a más de dos cifras significativas.
1.12 Sume los números 4.19355, 15.28, 5.9561, 12.3 y 8.472, entendiéndose que todas las cifras
son significativas.
1.13 Calcular 475 000 000 + 12 684000-1372410 si estos números tienen tres, cinco y siete cifras
significativas, respectivamente.
g) 3.1416 √ 71.35
h) √ 128.5−89.24
1.15 Evaluar cada una de las expresiones siguientes, con X=3, Y=-5, A=4 y B=-7, donde todos los
números se supone que son exactos:
a) 2x-3y
b) 4y-8x+28
AX+BY
c) BX− AY
2 2
d) X −3 XY −2 Y
e) 2(X+3Y)-4(3X-2Y)
2 2
X −Y
f) A 2−B2 +1
g) √ 2 X 2−Y 2−3 A2 +4 B2 +3
h) √ 6 A2 2 B2
X
+
Y
FUNCIONES Y GRAFICAS
1.16 En la tabla 1.1 se representan las cantidades de búshels (bu) de trigo y maíz producidos en
una granja en los años 2002, 2003, 2004, 2005 y 2006. De acuerdo con esta tabla, determinar
el año o los años en los que: a) se produjeron menos búshels de trigo, b) se produjo la mayor
cantidad de búshels de maíz, c) hubo la mayor disminución en la producción de trigo, d) se
produjo una misma cantidad de trigo, e) la suma de la producción de trigo y maíz fue máxima.
Tabla 1.1 producción de trigo y maíz desde 2002 hasta 2006
Año Búshels de trigo Búshels de maíz
2002 205 80
2003 215 105
2004 190 110
2005 205 115
2006 225 120
1.17 Sean W y C, respectivamente, las cantidades de búshels de trigo y maíz producidos en el año
t en la granja del problema 1.14. es claro que W y C son funciones de t, esto se indica como
W=F(t) y C=G(t)
a) Encontrar W para t=2004
b) Encontrar C para t=2002
c) Encontrar t para W=205
d) Encontrar F(2005)
e) Encontrar G(2005)
f) Encontrar C para W=190
1.20 Los gasto fijos de una empresa son de $1 000 por día y los costo de producción de cada
artículo son de $25.
a) Escribir una ecuación que exprese el costo total de producción de x unidades por día
b) Usando Excel, elaborar una tabla en la que se den los costos de producción de 5, 10, 15,
20, 25, 30, 35, 40, 45, y 50 unidades por día.
c) Evaluar e interpretar f(100)
1.22 En un sistema de coordenada rectangulares localizar los puntos que tienen como
coordenadas: a) (5,2), b) (2,5), c) (-5, 1), d) (1, -3), e) (3, -4), f) (-2.5, 4.8), g) (0,-2.5) y h) (4, 0)
usar MAPLE para graficar estos puntos.
1.23 Graficar la ecuación Y=4x-4
2
1.24 Graficar la ecuación Y =2 X −3 X −9
1.25 La tabla 1.4 muestra el aumento de la cantidad de diabéticos desde 1997 hasta 2005.
Grafique estos datos.
1.26 Grafique los datos del problema 1.14 usando una grafica de MINITAB para serie de tiempos,
una grafica de barras agrupadas con efecto tridimensional (3-D) de Excel y una grafica de
barras apiladas con efecto 3-D de Excel.
1.27 a) expresar las cantidades anuales de búshels de trigo y maíz, presentadas en la tabla 1.1 del
problema 1.4, como porcentaje de producción anual total
b) graficar los porcentajes obtenidos en el inciso a)
1.28 en un numero reciente de USA today, una nota titulada “peligro en línea”, informa de un
estudio realizado a 1500 niños entre 10 y 17 años de edad. Presentar la información de la
tabla 1.6 en una grafica de barras agrupadas y en una grafica de barras apiladas.
Tabla 1.6
Año Prostitución Contacto con la Acoso
pornografía
2000 19% 25% 6%
2005 13% 34% 9%
1.29 En una nota reciente de USA today titulada “¿Dónde están los estudiantes universitarios?”, se
informo que en estados Unidos hay más de 17.5 millones de universitarios que estudian en
más de 6400 escuelas. En la tabla 1.7 se da la matricula de acuerdo al tipo de escuela.
Tabla 1.7 ¿Dónde están los estudiantes universitarios?
Tipo de escuela Porcentaje
Publica de 2 años 43
Publica de 4 años 32
Privada no lucrativa de 4 años 15
Privada de 2 y 4 años 6
Privada con menos de 4 años 3
Otras 1
Construya una grafica de barras
1.30 los estadounidenses tienen un promedio 2.8 televisores por hogar. Con los datos de la tabla
1.8 elabore una grafica de pastel usando Excel.
Tabla 1.8 televisores por hogar
televisores Porcentajes
ninguno 2
Uno 15
Dos 29
Tres 26
cuatro 16
Más de 12
cinco
ECUACIONES
1.31 resuelva las siguientes ecuaciones:
a) 4a-20=8
b) 3x+4=24-2x
c) 18-5b=3(b+8)+10
Y +2 Y
+1=
d) 3 2
1.32 Resolver los siguientes sistemas de ecuaciones simultaneas:
a) 3a -2b =11
5a+7b=39
b) 5x+14y=78
7x+3y=-7
c) 3a +2b + 5c= 15
7a -3b + 2c = 52
5a + b -4c = 2
DESIGUALDADES
a) N˃30
b) x≤12
c) 0˂p≤1
d) µ-2t˂x˂µ+2t
1.35 Empleando los signos de desigualdad, ordenar los números 3.42, -0.6, -2.1, 1.45 y -3 en a)
en orden creciente de magnitud y en b) en orden decreciente de magnitud.
1.38 Empleando las propiedades de los logaritmos, volver a escribir los logaritmos siguientes
como suma y diferencias de logaritmos.
a)
ln ( )
x2 y3 z
ab
log (
yz )
2 3
abc
b)
Empleando las propiedades de los logaritmos, reescribir los logaritmos siguientes como un solo
logaritmo.
d) Ln(5) + ln(10) -2 ln(5)
e) 2 log(5) -3 log(5) +5log(5)
ECUACIONES LOGARITMICAS.
2
1.43 Resolver la ecuación logarítmica ln ( x ) -1=0
ORDENACIONES
Ordenación se le llama a los datos numéricos en bruto dispuestos en orden creciente o decreciente
de magnitud. A la diferencia entre el número mayor y el número menor se le conoce como el rango
de los datos. Por ejemplo, si la estatura mayor en los 100 estudiantes es de 74 pulgadas (in) y la
menor es 60 in, el rango es 74-60=14 pulgadas (in).
DISTRIBUCIÓN DE FRECUENCIA.
Al organizar una gran cantidad de datos en bruto, suele resultar útil distribuirlo en clase o
categorías y determinar la cantidad de datos que pertenecen a cada clase; esta cantidad se conoce
como la frecuencia de clase. A la disposición tabular de los datos en clases con sus respectivas
frecuencias de clase se le conoce como distribución de frecuencias o tabla de frecuencia. La tabla
2.1 es una distribución de frecuencia de las estaturas (registradas a la pulgada más cercana) de
100 estudiantes de la universidad XYZ
Tabla 2.1 estaturas de 100 estudiantes de la universidad XYZ
La primera clase o categoría, por ejemplo, consta de las estaturas que van desde 60 hasta 62
pulgadas y queda identificada por el símbolo 60-62. Como hay 5 estudiantes cuyas estaturas
pertenecen a esta clase, la frecuencia de clase correspondientes es 5.
A los datos organizados y resumidos como en la distribución de frecuencias anterior se les llama
datos agrupado. Aunque la agrupar los datos se pierde muchos de los detalles originales de los
datos, esto tiene la ventaja de que se obtiene una visión general clara y se hacen evidentes las
relaciones.
INTERVALOS DE CLASE Y LÍMITES DE CLASE.
El símbolo que representa una clase, como 60-62 en la tabla 2.1, se le conoce como intervalo de
clase. A los números de los extremos, 60 y 62, se les conoce como limites de clase; el número
menor (60) es el límite inferior de clase, y el numero mayor (62) es el límite superior de clase. Los
términos clase e intervalo de clase se suelen usar indistintamente, aunque el intervalo de clase en
realidad es un símbolo para la clase.
Un intervalo de clase que, por lo menos teóricamente, no tenga indicado el límite de clase superior
o el límite de clase inferior, se conoce como intervalo de clase abierto. Por ejemplo, al considerar
grupos de edades de personas, un intervalo que “65 años o mayores” es un intervalo de clase
abierto.
FRONTERAS DE CLASE.
Si las estaturas se registraban a la pulgada más cercana, el intervalos de clase 60-62 comprende
teóricamente todas las mediciones desde 59.50000 hasta 62.50000 in. Estos números que se
indican brevemente mediante los números exactos 59.5 y 62.5 son las fronteras de clase o los
límites reales de clase; el menor de los números (59.5) es la frontera inferior de clase y el número
mayor (62.5) es la frontera superior de clase.
En la práctica, las fronteras de clase se obtienen sumando el límite superior de un intervalo de
clase al límite inferior del intervalo de clase inmediato superior y dividido entre dos.
Algunas veces, las fronteras de clase se usan para representar a las clases. Por ejemplo, las
clases de la tabla 2.1 pueden identificarse como 59.5-62.5, 62.5-65.5, etc. Para evitar
ambigüedades cuando se usa esta notación, las fronteras de clase no deben coincidir con las
observaciones. Por lo tanto, si una observación es 62.5, no es posible decidir si pertenece al
intervalo 59.5 -62.5 o al intervalo 62.5-65.5
LA MARCA DE CLASE
La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites de
clase inferior y superior y dividiendo entre 2... Así, la marca de clase del intervalo 60-62 es
(60+62)/2=61. A la marca de clase también se le conoce como punto medio de clase.
Para los análisis matemáticos posteriores, se supone que todas las observaciones que pertenecen
a un intervalo dado coinciden con la marca de clase. Así, se considera que todas las estaturas en
el intervalo de clase 60-62 in son de 61 in.
las marcas de clase (o puntos medio de clase) coincidan con los datos observados. Esto
tiende a disminuir el llamado error de agrupamiento en los análisis matemáticos
subsiguientes. En cambio, las fronteras de clase no deben coincidir con los datos
observados.
3. Se determina la cantidad de observaciones que caen dentro de cada intervalo de clase, es
decir, se encuentran las frecuencias de clase. La mejor manera de hacer esto es utilizando
una hoja de conteo (ver problema 2.8)
Los histogramas y los polígonos de frecuencias son dos representaciones graficas de las
distribuciones de frecuencias.
1. Un histograma o histograma de frecuencia consisten en un conjunto de rectángulos que
tienen: a) sus bases sobre un eje horizontal (el eje X), con sus centros coincidiendo con las
marcas de clase de longitudes iguales a la amplitud del intervalo de clase, y b) aéreas
proporcionales a las frecuencias de clase.
2. Un polígono de frecuencias es una grafica de líneas que presenta las frecuencia de clase
graficadas contra las marca de clase. Se puede obtener conectando los puntos medios de
las partes superiores de los rectángulos de un histograma.
En la figuras 2.1 y 2.2 se muestran el histograma y el polígono de frecuencias
correspondientes a la distribución de frecuencias de las esturas presentadas en la tabla 2.1
40
30
20
10
0 61 64 67 70 73
Figura 2-1 MINITAB, histograma que muestra los puntos medios y las frecuencias de clase.
La frecuencia relativa de una clase es la frecuencia de la clase dividida entre la suma de las
frecuencias de todas las clases y generalmente se expresa como porcentaje, por ejemplo
en la tabla 2.1, la frecuencia relativa de la clase 66-68 es 42/100=42%. Por supuesto, la
suma de la frecuencia relativa, de todas las clases es 1 o 100%
Si en tabla 2.1 las frecuencias se sustituyen por frecuencias relativas, la tabla que se
obtiene es una distribución de frecuencias relativas, distribución porcentual o tabla de
frecuencias relativas.
Las representaciones graficas de las distribuciones de frecuencias relativas se obtienen a
partir de los histogramas o polígonos de frecuencias, cambiando únicamente, en la escala
vertical, las frecuencias por las frecuencias relativas y conservando la grafica exactamente
igual. A las graficas que se obtienen se les llama histogramas de frecuencias relativas (o
histogramas porcentuales) y polígonos de frecuencia relativas (o polígonos porcentuales),
respectivamente.
DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS Y OJIVAS.
A la suma de todas las frecuencias menores que la frontera superior de un intervalo de
clase dado se le llama frecuencia acumulada hasta ese intervalo de clase inclusive. Por
ejemplo, en la tabla 2.1, la frecuencia acumulada hasta el intervalo de clase 66-68 inclusive
es 5+18+42=65, lo que significa que 65 estudiantes tienen una estatura menor a 68.5 in
Frecuencia
40
30
20
10
0 58 61 64 67 70 73 76
Tabla 2.2
Estaturas (in) Cantidad de estudiantes
Menos de 0
59.5 5
Menos de 23
62.5 65
Menos de 92
65.5 100
Menos de
68.5
Menos de
71.5
Menos de
74.5
Una grafica que muestra las frecuencias acumuladas de menores de cada frontera superior
de la clase respecto a cada frontera superior de clase se le conoce como grafica de
frecuencias acumulada u ojivas. En algunas ocasiones se desea considerar distribuciones
de frecuencias mayores o iguales que la frontera inferior de cada intervalo de clase. Como
en ese caso se consideran las estaturas de 59.5 in o más, de 62.5 in o más, etc. A estas
distribuciones se le suelen llamar distribuciones acumuladas “o más que”, en tanto que las
distribuciones consideradas antes son distribuciones acumuladas “o menos qué”. Una
puede obtenerse fácilmente de la otra. A las ojivas correspondientes se les llama ojivas
“mas que” y ojivas “menos que”. Aquí, siempre que se hable de distribuciones acumuladas
o de ojivas, sin más, se tratara del tipo “menos que”.
Suele considerarse que los datos recolectados pertenecen a una muestra obtenida de una
población grande. Como de esta población se pueden obtener muchos observaciones,
teóricamente es posible (si son datos continuos) elegir intervalos de clase muy pequeños
y, a pesar de ello, tener un número adecuado de observaciones que caiga en cada clase.
De esta manera, cuando se tienen poblaciones grandes puede esperarse que los polígonos
de frecuencias, o lo polígonos de frecuencia relativa, correspondientes a estas poblaciones
estén formados por una gran cantidad de pequeños segmentos de recta de maneras que
en sus formas se aproxime a las de una curvas, a las cuales se les llama curvas de
frecuencias o curvas de frecuencia relativas, respectivamente.
Es razonable esperar que estas curvas teóricas puedan ser aproximadas suavizando
los polígonos de frecuencias o los polígonos de frecuencias relativas de la muestra; esta
aproximación mejorara a medida que aumenta el tamaño de la muestra. Esta es la razón
por la que a las curvas de frecuencia se les suele llamar polígonos de frecuencia
suavizados.
De igual manera, suavizando las graficas de frecuencia acumuladas u ojivas, se obtiene
ojivas suavizadas. Por lo general, es más fácil suavizar una ojiva que un polígono de
frecuencia.
2.2 En la tabla siguiente se presentan las calificaciones finales que obtuvieron en matemática
80 alumnos de una universidad
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
De acuerdo con la tabla, encontrar:
a) La calificación más alta
b) La calificación más baja
c) El rango
d) Las calificaciones de los cincos mejores estudiantes
e) Las calificaciones de los cinco peores estudiantes.
f) La calificación del alumno que tiene el decimo lugar entre las mejores calificaciones.
g) El número de estudiantes que obtuvieron 75 o más.
h) El número de estudiantes que obtuvieron 85 o menos
i) El porcentaje de los estudiantes que obtuvieron calificaciones mayores a 65 pero no
mayores a 85.
j) Las calificaciones que no aparecen en esta tabla.
Solución:
DISTRIBUCIÓN DE FRECUENCIAS, HISTOGRAMAS Y POLÍGONOS DE FRECUENCIA
2.3 la tabla 2.5 muestra una distribución de frecuencias de los salarios semanales de 65 empleados
de la empresa P&R, con los datos de la tabla determinar:
a) el límite inferior de la sexta clase.
b) El límite superior de la cuarta clase.
Tabla 2.5
salarios Número de empleados
$250.00- 8
$259.99 10
$260.00- 16
$269.99 14
$270.00- 10
$279.99 5
$280.00- 2
$289.99
$290.00- 299.99
$300.00-
$309.99
$310.00-
$319.99
Total 65
2.4 si las marcas de clase en una distribución de frecuencia de pesos de estudiantes son de 128, 137,
146, 155, 164, 173 y 182 libras, encuentre: a) la amplitud de intervalo de clase, b) las fronteras
de clase y c) los límites de clase, suponiendo que los pesos se hayan redondeado a la libra
más cercana.
2.5 se toma una muestra de la cantidad de tiempo, en horas por semana, que los estudiantes
universitarios usan su celular. Usando SPSS , la secuencia “Analyze→descriptive
statistics→frequencies” da el resultado mostrado en la figura 2.4
Tiempo
2.7 Al resolver el problema 2.6 a), un estudiante elije un intervalo de clase 5.10-5.40, 5.40-
5.70,……….6.90-7.20 y 7.20-7.50. ¿hay algún problema con esta elección?
Solución:
2.8 En la tabla siguiente se presentan los pesos, dados a la libra más cercana, de 40
estudiantes de una universidad. Elaborar una distribución de frecuencias.
2.9 Se toman las estaturas de 45 estudiantes del sexo femenino de una universidad; a
continuación se presentan estas estaturas registradas a la pulgada más cercana.
elaborar un histograma.
67 67 64 64 74 61 68 71 69 61 65 64 62 63 59
70 66 66 63 59 64 67 70 65 66 66 56 65 67 69
64 67 68 67 67 65 74 64 62 68 65 65 65 66 67
2.10 En la tabla 2.8 se dan las distancias, en millas, que recorren 50 estudiantes
del metropolitan college de sus casas a la universidad.
2.11 Con la distancia de la tabla 2.8 . se muestran los puntos medio (marca de
clase) de los intervalos de clase. Las clases son de 0 a 2.5, 2.5 a 5.0, 5.0 a 7.5, 7.5
a 10.0, 10.0 a 12.5, 12.5 a 15.0, 15.0 a 17.5, 17.5 a 20.0. los primeros que caen en
el limite inferior de clase se cuentan dentro de esa clase, pero si caen en el limite
superior se cuentan dentro de la clase siguiente. Elabore el histograma y responda:
a) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la primera clase?
b) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la segunda clase?
c) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la tercera clase?
d) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la cuarta clase?
e) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la quinta clase?
f) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la sexta clase?
g) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la séptima clase?
Solución:
2.12 La empresa P&R (problema 2.3) contrata cinco empleados nuevos, cuyos
salarios semanales son $285.34, $316.83, $335.78, $356.21 y $374.50. construir
una distribución de frecuencias con los salario de los 70 empleados
2.13 Con las distancias de la tabla 2.8 . las clase son 0 a 3, 3 a 6, 6 a 9, 9 a 12, 12
a 15, y 15 a 18. Los números que caigan en el limite superior de clase se cuentan
dentro de esa clase, pero si caen en el limite inferior se cuentan dentro de la clase
anterior. Elabore el histograma y responda:
a) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la primera clase?
b) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la segunda clase?
c) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la tercera clase?
d) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la cuarta clase?
e) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la quinta clase?
f) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la sexta clase?
2.15 a partir de la distribución de frecuencias dada en la tabla 2.5 del problema 2.3,
construir, a) una distribución de frecuencia “o mas” y b) una ojiva “o mas”
Tabla 2.11
salarios Frecuencia acumulada
“O mas”
$250.00 o mas
$260.00 o mas
$270.00 o mas
$280.00 o mas
$290.00 o mas
$300.00 o mas
$310.00 o mas
$320.00 o mas
Total 65
2.16 a partir de las grafica del problema 2.14 y 2.15 respectivamente, estimar la cantidad
de empleados que ganan: a) menos de $288.00 por semana, b) $296.00 o más por
semana, c) por lo menos $263.00 por semana, pero menos de $275.00 por semana.
Solución:
2.17 se lanzan 5 monedas 1000 veces y en cada lanzamiento se anota el numero de caras
que se obtiene. En la tabla 2.12 se muestran las cantidades 0, 1, 2, 3,4, y 5 de caras que
se obtuvieron:
a) Graficar los datos de la tabla 2.12
b) elaborar una tabla en el que se le dé un porcentaje de los lanzamientos en los que
se obtuvo menos de 0, 1,2, 3, 4, y 6 caras.
c) graficar los datos de la tabla del inciso b)
Tabla 2.12
Cantidad de Cantidad de lanzamientos
caras (frecuencias)
0 38
1 144
2 342
3 287
4 164
5 25
Total 1000
CAPÍTULO III
Los datos organizados en una distribución de frecuencias destacan sus características mas esenciales, como
marcas de clases, centro, forma de distribución (asimétrica, simétrica) etc. Sin embargo, los indicadores que
describen a los datos en forma más precisa, deben calcularse. Estos indicadores que resumen los datos en
números denominados medidas descriptivas se refieren a la centralización, a la dispersión o variabilidad, a la
asimetría y a la curtosis. También, son métodos numéricos para describir los datos indicadores conocidos
como, medidas de posición relativa que describen la posición de una observación relativa a las demás
observaciones de la distribución, estos son los percentiles y los valores estandarizados Z.
Las medidas de tendencia central, denominadas también promedios, ubican el centro de los datos, como la
media aritmética (la media geométrica, la media armónica), la mediana y la moda.
La moda, puede ser también interpretada como una medida de posición en el sentido que indica el lugar de los
datos más frecuentes.
Se sugiere al usuario de este texto, utilizar una calculadora estadística o correr paquetes de computo, entre
otros el MCEST, en la solución de los diversos problemas de métodos numéricos para describir datos que
contiene.
La mediana.
Definición.- La mediana (me) o valor mediano de una serie de valores observados es el numero que separa a
la serie de datos ordenados (en forma creciente o decreciente) en dos partes de igual número de datos.la
mediana es el percentil 50 de los datos observados no agrupados o agrupados por intervalos.
La mediana es la medida promedio que depende del número de orden de los datos y no de los valores de estos
datos, por lo tanto no la afectan los valores aislados grandes o pequeños.
Calculo de la mediana
Para realizar el cómputo de la mediana de n valores no agrupados de una variable cuantitativa X se siguen los
siguientes pasos:
Ejemplo 2.1
2a) si los valores de una variable discreta se agrupan en una distribución de frecuencias de la forma dato ↔
frecuencia, el cálculo de la mediana se hace siguiendo el método de datos no agrupados. Como los datos ya
están ordenados, solo bastara ubicar su centro. Por ejemplo, la mediana para la distribución de frecuencias del
número de hijos por familia del ejemplo. 1.2 es igual a 2.
2b) si los valores de la variable se agrupan en una distribución de la frecuencia por intervalos, la mediana se
determina aproximadamente por interpolación de manera que la mitad inferior a 50% de los datos agrupados
sean menores o iguales que la mediana.
En el modo gráfico de la distribución de frecuencias por intervalos, la mediana es el valor de la variable que
divide el área total en dos áreas iguales.
El método de cálculo de la mediana propuesto en aplicaciones de la ojiva de la sección 1.4.4 lo formalizamos
en esta sección.
Primero ubica el intervalo que contiene a la mediante Me en la mitad inferior del total de la frecuencias:
0.5xn, (50% del total de las frecuencias de cualquier tipo), de la siguiente manera.
Desde la mitad inferior del total de la frecuencias 0.5xn, (en el eje de las frecuencias acumuladas), se hace un
trazo horizontal a la ojiva, y de la ojiva se traza una vertical al eje de los intervalos, ubicándose un intervalo
que contiene a la mediana:[Li, Ui]. Este intervalo tiene amplitud A, Frecuencia absoluta acumulada Fi y
F −F
frecuencia absoluta no acumulada f1= i i−1
Segundo, la mediana Me € [Li, Ui ] y está dada por: Me= Li + a donde, a se obtiene por
interpolación(semejanzas de triángulos ABE y ACD de la figura 2.1) comparando intervalos con frecuencias
esto es:
a Δf i Δf i
= a= xA
A fi y fi
Δf i
Me=Li ⊕ xA
fi
Donde:
Li es el limite del intervalo de la mediana.
Fi es la frecuencia absoluta del intervalo de la mediana.
A es la amplitud del intervalo de la mediana.
∆fi=0.5xn-Fi-1 es la parte o porción de frecuencia fi, para llegar a 0x5xn desde Fi-1.
Ojiva
Fi C
fi
n/2 B
A ∆fi
Fi-1 a E D f
Li Me Ui intervalos
Ejemplo 2.2.
Calcule la mediana de los 45 salarios según cuadro adjunto, agrupados en 7 intervalos de amplitud iguales.
Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son;
63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución.
Los 45 salarios organizados en 7 intervalos, se repiten en el cuadro 2.1
1) la mediana solo depende del número de datos ordenados y no del valor de los datos.
Por lo tanto, no es sesgada por algún valor aislado grande o pequeño como se observa en el e ejemplo 2.1.
2) la mediana puede ser calculada para las distribuciones de frecuencias con intervalos de diferente amplitud,
siempre que se pueda determinar el límite inferior Li del intervalo que contiene a la mediana.
3) la mediana puede ser calculada para variables con valores en escala ordinal.
4) la suma de la diferencias en valor absoluto de n datos con respecto a su mediaba es mínima. En el caso de
datos sin agrupar se tiene que:
n
∑|x i −c|
i=1 = mínimo, si c es la mediana de los xi
Ejemplo 2.3.
Cinco personas que viven en Lugares situados a distancias en kilómetros a los largo de una carretera en línea
recta como se indica en la figura que sigue, deben reunirse en algún punto de la carretera. Determine el lugar
de reunión de manera que el costo total del trasporte sea mínimo, si el costo de cada transporte es proporcional
al recorrido.
Distancia 20 15 6 10
Lugares A B C D E
SOLUCION.
2.3. LA MODA
Definición.- la moda de una serie de datos es el valor Mo que se define como el dato que ocurre con mayor
frecuencia.
En la distribución de frecuencias por intervalos la moda se ubica en el intervalo que tiene la mayor frecuencia
de cualquiera de los tres tipos.
La moda de una función cualesquiera es el valor de la variable en el que existe un máximo absoluto ( o dos o
más máximos relativos iguales).
La moda no siempre existe y si existe, no siempre es única. La moda es el promedio menos importante debido
a su ambigüedad.
El empleo de la moda como medida promedio puede estar justificado cuando se quiera señalar el valor más
común de una serie de datos o se precise rápidamente de una medida promedio y no haya tiempo de calcular
las otras. Por ejemplo, los comerciantes se estoquean con productos que están de moda. Esta es una aplicación
común del promedio.
Ejemplo 2.4.
Para calcular la moda de n datos organizados por intervalos se siguen los siguientes pasos.
Primero se determina al intervalo que tiene la moda Mo. Este intervalo [Li, Ui], denominado intervalo modal
y que debe ser el único con la mayor frecuencia, tiene amplitud A , frecuencia absoluta fi y sus frecuencias
f f
vecinas antes y después son i−1 y i ⊕1 respectivamente.
Luego se aplica la formula
d1
Mo=Li + xA
+ Mo= d 1 +d2
Donde.
Li es el limite inferior del intervalo modal
d1= fi-fi-1
d2= fi-fi+1
A es la amplitud del intervalo modal.
Nota. La formula de la moda se aplica en distribuciones con una sola frecuencia máxima.
Ejemplo 2.5 calcule la moda de los 45 salarios quincenales ,agrupados en 7 intervalos de amplitudes iguales.
Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son;
63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución.
Definición.- Denominada simplemente media, es el valor numérico que se obtiene dividiendo la suma total de
los valores observados de una variable entre el número de observaciones.
Para valores de una variable X observados en una muestra, la media aritmética será denotada por.
x
2.4.1 cálculo de la media aritmética.
La media aritmética de n valores X1, X2,.....Xn de la variable cuantitativa X, observados en una muestra es el
número:
n
∑ xi
sumatotal i=1
x= O =
N dedatos n
Ejemplo 2.6
Calcule la media aritmética de los 45 salarios sin agrupar del ejemplo 2.2. Los salarios quincenales, en
dólares, recopilados en una muestra de 45 empleados son;
63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución.
Si n valores de una variable estadística discreta X se clasifican en k valores distintos X1,X2,....Xk con
frecuencias absolutas respectivas f1,f2,...fk, entonces la suma total de los datos n datos es igual X1 × f1 +X2
f2,+...+ Xk× fk y la media aritmética es el numero:
k
∑ f 1 . xi
sumatotal i=1
x= =
N O dedatos n
Ejemplo 2.7.
Calcule la media aritmética de la distribución de frecuencia del número de hijos por familia, una muestra de
20 hogares marco las siguientes respuestas.
2, 1, 2, 4, 1, 3, 2, 3, 2, 0
3, 2, 1, 3, 2, 3, 3, 1, 2, 4
Solución .
Se tiene el cuadro 2.2 donde se debe incluir la columna fi.xi
k
∑ f 1 . mi
sumatotal i =1
x= =
N O dedatos n
Ejemplo 2.8
Calcule la media aritmética de la muestra de 45 salarios quincenales del ejemplo 2.2 agrupados en 7 intervalos
de amplitudes iguales. Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son;
63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución .
k
∑ f 1 . mi
i=1
x=
La media es n =
NOTA. La media aritmética de la población. La media aritmética de una población se denota por μ. Si la
población es finita de tamaño N con valores x1,x2, ……………Xn, la media aritmética es el numero.
N
∑ xi
i =1
μ=
N
1) la suma total de n valores cuya media es x es igual a n x . En efecto, para n datos no agrupados y
agrupados respectivamente se tiene:
N k
∑ x i=n x , ∑ f i xi =n x ,
i =1 i=1
Si Y= b entonces y= b. Esto es, si los n valores de la variable son iguales a una constante, entonces su media
es igual a esa constante.
Si Y=X+a entonces y=ax + b. Esto es, si a cada dato se suma una constante la media queda sumada por esa
constante.
Si Y= aX, entonces, y=ax Esto es, si a cada dato se multiplica por una constante, la media queda
multiplicada por esa constante.
3) la suma algebraica de las desviaciones de n datos xi con respecto a su media x es igual a cero. En efecto,
para datos no agrupados y agrupados se tiene respectivamente:
n k
∑ ( x i −x )=0 ∑ f i ( x i−x ) =0
i=1 i =1
4) la suma de los cuadrados de las desviaciones de n datos con respectos a su media es mínima. Para datos no
tabulados por ejemplo:
n
∑ ( x i −c )2=
i=1 mínima, si c= x
5) media global:
Si los valora de la variable X se observan en k grupos de tamaños respectivos n1,n2,....nk resultando las
medias respectivas x 1, x 2.... x k entonces, la media global o del total de datos es igual a:
Por ejemplo, si un examen de matemática, 110 alumnos del horario H1 obtuvieron una media de 12.6 y 120
alumnos del horario H2 obtuvieron una media de 13,48, entonces, la media global o del total de alumnos es :
Media ponderada.
k k
∑ f i xi /∑ f i
La media aritmética x= i=1 i=1 es una media de los valores x1,x2...xk ponderada por las
frecuencias f1,f2,....fk.
En general, la media de los valores x1,x2,...xk ponderada por los pesos w1,w2...wk es el numero:
w1 x 1 +w 2 x 2 +. . .. .. .. . .. .. . .+w k x k ∑ w i xi
x= = i=1k
w1 +w 2 + .. .. . .. .. . .. .. . +w k
∑ wi
i=1
En realidad, toda media aritmética es ponderada. En el caso de la media de datos no agrupados el peso de cada
valor de la variable es igual a uno.
Por ejemplo si en este mes el aumento de los alimentos fue del 5% de vivienda el 10% y de educación. 8%.
Entonces, el aumento en los tres rubros para una persona que gastada el 40% de su sueldo en alimentos el
35% en vivienda y el 25% en estudios esta dado por:
Pero el aumento promedio en los tres rubros para una persona que gasta $1200 en alimentos $600 en vivienda
y $1000 en estudios esta dado por:
Ejemplo 2.9:
Los sueldos del mes de enero de 200 empleados de una empresa tienen una medida de $230.
A) si el 60% de los empleados son hombres el esto sobre mujeres y tiene un sueldo promedio de $250, cuanto
es el sueldo medio de las mujeres en enero?
B) si para el mes de julio, se propone un aumento general que consiste de un aumento variable del 30% a cada
sueldo de enero mas una bonificación de $30 cuánto dinero adicional necesitará la empresa para pagar los
sueldos incrementados?
Ejemplo 2.10.
Aplicando los datos del ejemplo 2.3 determine el lugar de reunión de manera que el costo total del transporte
sea mínimo, si el costo de cada transporte es proporcional al cuadrado del recorrido.
Distancia 20 15 6 10
Lugares A B C D E
Ejemplo 2.11
Un conjunto de n artículos cuyos valores de venta serían de $5 en el 30% de los casos, $7 en el 45% de los
casos y 10$ en el 25% de la casos, tienen un costo de producción fijo de $k . hallar el valor de k si se quiere
hacer una inversión Mínima y si se supone que la inversión es igual a la suma de los cuadrado de todas las
utilidades.
1. Si la distribución de frecuencia de los datos es simétrica, entonces, la media, la mediana y la moda tienen el
mismo valor. Esto es:
x = Me=Lo
2. Si la distribución es asimétrica de cola a la derecha, entonces, la moda es mejor que la mediana y esta a su
ces es menor que la media. Es decir:
Mo<Me< x
x <Me<Mo
x -Mo=3.( x -Me)
5. Los tres promedios pueden calcularse también para distribuciones de frecuencia con intervalos de diferente
longitud, siempre que puedan determinarse o las marcas de clase para la media o el límite inferior Li del
intervalo para la mediana y la moda.
1. De los promedios definidos la media aritmética se usa con más frecuencia por su mejor tratamiento
algebraico. Pero no siempre es un buen promedio o promedio representativo.
3. Si la distribución de los datos tiene marcada asimetría entonces la mediana es la medida promedio más
representativa ya que la media no es segada por datos asilados grandes o pequeños.
La media geométrica.
Definición.-La media geométrica de n valores positivos x1,x2,.....xn es el número real x G que se define
como la raíz enésima de estos n valores. Esto es:.
n
x G=√ x1 . x 2 ...........x n
La media geométrica se aplica para promedia razones (a/b), índices (a/b en %) proporciones (a/(a+b)) tasas de
cambio (a-b)/b, que varían con el tiempo , etc.
Ejemplo 2.12
Si la producción de un bien ha experimentado un crecimiento del 30% del primero al segundo año y un
incremento del 35% del segundo al tercer año y un decrecimiento del 15% del tercer año al cuarto año.
a. Calcule la tasa promedio de cambio y el porcentaje promedio de crecimiento de la
producción de los 3 últimos años.
b. Calcule la producción del quinto año, si la del primer año fue 100.
Ejemplo 2.13.
Suponga que la población de una ciudad aumento de 10000 a 12600 en el periodo comprendido del año 2000
al año 2004 como se indica en el cuadro 2.5. Calcule la tasa promedio y el porcentaje promedio del
crecimiento de la población.
La media armónica.
Definición.- La media armónica de n valore no nulos x1,x2....xn es el numero real , x H que se define como
el reciproco de la media aritmética de los recíprocos de esos valores n. Esto es:
n
xH = n
∑ x1
i=1 1
La media armónica se aplica para obtener promedios de un conjunto de valores expresados en forma de tasas
de unidades de un tipo por unidades de otro tipo. Dicho de otro modo se aplica para promediar datos cuyas
unidades de medición son cocientes de unidades de medición de dos variables, por ejemplo, datos expresados
en km/hora.
Una manera práctica de calcular la media armónica de datos cuyas mediciones son cocientes variable 1/
variable 2, es la siguiente:
Total de mediciones de la variable 1
x H = total de mediciones de la variable 2
Nota:
La media armónica es siempre menor que la media geométrica. Esta a su vez es menor que la media
aritmética. Esto es:
xH < xG < x
Ejemplo 2.14.
Una persona manejando su automóvil recorre los primeros 10 km a 60 km por hora y los siguientes 10 km a
70 km por hora calculen la velocidad promedio.
Ejemplo 2.15
Una empresa de transporte gasta $400 en latas de aceite que cuestan $10 la docena; $500 en latas que cuestan
$12.5 la docena ; $600 más en latas que cuestan $20 la docena y $300 en otras que cuestan $25 la docena.
Calcule el costo promedio por docena de las latas de aceite.
Ejercicios
1. A) los costos de producción en soles de diez objetos son los siguientes:
Si la utilidad neta por objeto es 3 veces su costo de producción menos 5 soles, calcule la media de la utilidad
neta por objeto.
B) en una evaluación 5 alumnos tienen cada uno nota 12 y un alumno tiene 18. Si se indica como nota
promedio 13 . Que nota promedio es? Es el promedio adecuado? Cuanto es el promedio adecuado?
2) de las edades de cuatro personas se sabe que la media es igual a 24 años la media es 23 y la moda es 22
Encuentre las edades de las cuatro personas.
A) defina la variable, su tipo y escala de medición. Luego obtenga t grafuque la distribución de frecuencias
absolutas el numero defectuosos por lote y calcule los promedios.
B) obtenga y grafiwue la distribución acumulativa relativa. Luego, calcule los cuarteles y ubiquelos en la
gráfica.
4. De la curva de frecuencias de los sueldos de 30 empleados de una empresa. Se sabe que Mo=$200, Me$220
y x=$250 califique cono verdadera o falsa las siguientes afirmaciones justificando su respuesta:
A) el sueldo mas frecuente es de $200 y más de la mitas de los empleados gana mas de esa cantidad.
B) con una suma de $3300 se asegura el pago de la mitad de los empleados y con $7500 el de todos los
empleados.
5) para calcular el suministro de agua que una ciudad requiere mensualmentr , se escogen 15 hogares de la
ciudad,resultando los siguientes sonsumos en metros cúbicos:
Si en la ciudad hay 5000 hogares. Cuantos metros cúbicos de agua se requieren mensualmente si el consumo
promedio por hogar permanece igual?
7. Al calcular la media de 125 datos, resulto 42. Un chequeo posterior mostró que eb lugar del valor 12.4 se
introdujo 124. Corregir la media.
9. De los horarios de clase de la facultad se sabe qyr ninguno tiene nad de 100 o menos d 70 alumnos
matriculados. Se sabe que cada uno de cada 5 tiene 80 alumnos qubel 30% tiene 100 y la mayoría 90 alumnos.
Calcule la media aritmética de alumnos por horario.
10. En tres grupos distintos de 100000, 90000, y 20000 personas el porcentaje de personas con educación
superior es 21%, 42% y 40% respectivamente. Calcule el porcentaje de personas con educación superior.
Capitulo 4
Medidas de dispersión
Introducción
Las medidas de tendencia central no son suficientes para describir un conjunto de valores
de alguna variable estadística. Los promedios determinan el centro, pero nada indican
acerca de cómo están situados los datos respecto al centro.
En primer lugar se necesita una medida del nivel de la dispersión o la variabilidad de los
datos con respecto a su centro con la finalidad de ampliar la descripción de los datos o de
comparar dos o mas series de datos.
En segundo lugar se necesita una media del grado o nivel de la asimetría o la deformación
de ambos lados del centro de una serie de datos, con el fin de describir la forma de la
distribución de los datos. Esta medida se denomina índice de asimetría.
En tercer lugar se necesita una medida que nos permita comparar el apuntamiento o
curtosis de distribuciones simétrica con respecto a la distribución simétrica normal. Esta
medida se denomina índice de apuntamiento o curtosis.
Las estadísticas de asimetría y apuntamiento se incluyen en este capítulo de medida de
variabilidad dada su poca importancia para tratarlos como un capitulo aislado. Por otro
lado, la forma de la distribución queda descrita por la ubicación de los promedios en la
distribución de frecuencias o por la ubicación de los cuartiles en una grafica de caja.
Finalmente las medidas de curtosis son validas solo para distribuciones simétricas.
El lector debería correr paquetes de cómputo entre otros MCEST para las aplicaciones de
este capítulo o usar una calculadora con aplicaciones estadísticas.
R
= X max −X min
El rango de los datos es una medida de dispersión muy fácilmente calculable, pero es
muy inestable, ya que depende únicamente de los dos valores extremos de los datos. Su
valor puede cambiar grandemente si se añade o elimina un solo dato. Por tanto, su uso es
muy limitado.
Por ejemplo. Las dos series de datos:
A) 1,4,4,5,5,5,5,6,6,9
B) 1,2,3,4,5,6,7,8,9
Tienen ambas la misma media 5, y el mismo rango 8, pero, las dos series no tienen la
misma dispersión, ya que la segunda tiene mayor variabilidad.
El empleo del rango como medida de comparación de variación puede estar justificado
cuando se precise rápidamente de una medida de dispersión y no haya tiempo de calcular
algunas de las otras.
Definición.- el rango intercaurtil, denotado por RI, es el número que resulta de la diferencia
del cuartil 3 menos el cuartil 1 de los datos. Esto es,
RI=
=Q3 −Q1
El rango intercuartil es una medida que excluye el 25% superior (cuarto superior) y el 25%
inferior(cuarto inferior), dando un rango dentro del cual se encuentra el 50% central de los
datos observados y a diferencia del rango de los datos no se encuentra afectada por los
valores extremos.
Si el rango intercuartil es muy pequeño entonces describe una alta uniformidad o pequeña
variabilidad de los valores centrales.
Por ejemplo en la distribución de frecuencia de los 45 salarios quincenales se obtuvo los
cuartiles Q1=53.4 Dolares y Q3=66.76 dólares, entonces, el rango intercuartil es
RI=Q3-Q1=13.35 .
El rango semiintercuartil denotado por RSI, es igual al rango intercuartil dividido por 2.
Si la distribución de frecuencias de los datos es simetrica, entonces, los cuartiles Q1 y Q3
son equidistantes de la mediana Q2. En este caso, el rango intercuartil es equidistante a
Q2 ± RSI. Por lo tanto, Q2 ± RSI contiene exactamente el 50% de los datos.
Si la distribución es casi simetrica, se concluye que el intervalo, mediana ± RSI contiene
exactamente el 50% de los datos.
Por ejemplo, si en una distribución de frecuencias simetrica de 100 datos observados se
obtiene Q1=62, Q2=66, entonces Q3=70, por lo tanto, el 50% de los datos se hallan
comprendidos en el intervalo 66 ± 4
Nota. Si la distribución de frecuencias tiene marcada simetría, el rango intercuartil es
preferible a la desviación estándar como medida de dispersión.
Por otro lado, el rango intercuartil se aplica a variables medidas en escala por lo menos
ordinal.
La varianza
Definición.- la varianza se define como la media aritmética de los cuadrado de las
diferencia de los datos con respecto a su media aritmética.
La varianza entendida como una media cuadrática calculada de una muestra será
s 2
denotada por n2 y si es calculada de una población se denotara por σ . Los métodos
de cálculo para las dos varianzas son idénticos, por esto, el método es conocido como
método de población (ver nota sobre varianza poblacional).
La varianza es una medida de dispersión que genera unidades de medición al
cuadrado, por ejemplo km², etc.
La desviación estándar
Definición.- la desviación estándar es una raíz cuadrada positiva de la varianza.
La desviación estándar definida como la raíz cuadrada de la media cuadrática de una
muestra se denotara por Sn.
Esto es,
√
Sn= S
n2
Calculo de la varianza
Calculo de la varianza de datos no agrupados.
La varianza de n mediciones: X1,X2, ………Xn de alguna variable cuantitativa X cuya
s
n2 = suma total de los cuadrados de diferencia/numero de datos
n
∑ ( x i −x )2
i =1
s 2=
n n
Se comprueba que:
n n
∑ ( x i −x ) =∑ x i2 −n x2
2
i=1 i=1
Por lo tanto,
n
∑ x i2
i =1
s 2= −x 2
n n
Ejemplo 4.1
Calcule la varianza y la desviación estándar de los 45 salarios quincenales sin agrupar del
ejemplo anterior
Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son;
63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución
total de los cuadrados de diferencias de los valores de X con respecto a la media x esta
dada por :
2 2
( x 1−x ) . f 1+. .. . . ( x k−x ) . f k Y su varianza es el número:
s
n2 = suma total de cuadrados de diferencias/numero de datos
k
∑ f 1 . ( xi −x )2
i =1
s 2=
n n
Se comprueba que:
k k
∑ f 1 . ( xi −x )2 ∑ f 1 . x 12−n. x 2
i=1 = i=1
k
∑ f 1 . x 12
i=1
s 2= −x 2
n n
Ejemplo 4.2
Calcule la varianza y la desviación estándar de la distribución de frecuencias del número
de hijos de la muestra de 20 familias.
2, 1, 2, 4, 1, 3, 2, 3, 2, 0
3, 2, 1, 3, 2, 3, 3, 1, 2, 4
Solución.
s
n2 = suma total de cuadrados de diferencias/numero de datos
k
∑ f 1 ( mi−x ) 2
i=1
s 2=
n n
Se comprueba que:
k k
∑ f 1 ( mi −x ) =∑ f 1 . mi2 −n x 2
2
i=1 i=1
k
∑ f 1 m i2
i =1
s 2= −x 2
Por lo tanto, n n
Ejemplo 4.3
Calcule la varianza y la desviación estándar de los 45 salarios quincenales organizados en
7 intervalos del ejemplo anterior.
Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son;
63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución.
Computo de la varianza de X= salarios
k k
k
fi k fi
x=∑ . mi =∑ hi . mi x=∑ . m 2=∑ hi .m 2
i =1 n i=1 y i =1 n i i=1 i
Y la varianza es el numero:
k
s 2=∑ hi .m 2 −x 2
n i=1 i
Varianza de la población
2
La varianza σ de una población finita de N datos x1,x2,x3….., xn sin agrupar y cuya
media es μ se define por:
N N
∑ ( x i−μ )2 ∑ x i2
2 i=1 i =1
σ = =
N N
Si formamos todas las muestras posibles de tamaño n y calculamos sus varianzas
n
s 2=∑ ( x i−x ) /n
n
utilizando la formula i=1 (método de población), resulta que la media de todas
estas varianzas valen:
n−1 2
σ
n
σ²
Para que el promedio de todas las varianzas sea igual a se aplica la varianza
n
s 2 =∑ ( x i−x ) /n−1 s
n−1 i=1 n2
Por esta razón, algunos autores de esta materia definen la varianza (en estadística
0 en %
series de datos que tengan medias iguales o diferentes o que tengan unidades de medida
iguales o diferentes (por ejemplo, comparar la variabilidad de una serie de datos medidos
la misma desviación estándar igual a 14, no podemos concluir que los dos horarios tienen
que las notas de H2 son mas dispersas que las de H1. La variabilidad de estos dos grupos
En el primer caso, si se indica que la media del horario H1 es 16 y la media del horario H2
S1 14 s2 14
CV 1= = =0 .875 , o 87 . 5 %, CV 2 = = =1. 27 o 127 %
x 1 16 x 2 11
resulta un numero abstracto (carece de las unidades en las que vienen expresados
los datos).
serie que tiene mayor valor, una cualesquiera de sus medidas de variación:
intercuartil.
Valores estandarizados.
X−x
Z=
sn
x
La variable Z estandarizada en cero cualquier media y estandarizada en 1
s
n2
cualquier varianza . (Se deja como tarea para el lector comprobar que Z tiene
dentro de su grupo. Por lo tanto Z es otra medida de posición, además, de los percentiles.
Ejemplo 4.4
matemáticas y 16 en Historia. En cuál de los dos cursos tiene mejor rendimiento relativo?
Solución.
negativo que viene expresada en las mismas unidades en las que se observan los
datos.
s
2. Dada la media x n2
n . ( s 2 +x ² )
n
n
∑ x i2=n . ( s n2 +x ² )
i=1
¡comprobar¡:
Var(Y)=a². Var(x)
Consiguientemente, desvEstdr(y)=/a/DesvEstdr(X).
Si Y=b, entonces, Var(b)=0 . es decir, si los n datos de una variable son iguales a una
Si Y=X +b, entonces, Var(Y)= Var(X). Es decir, si sumamos una constante a cada valor de
cada valor de la variable, la varianza de los nuevos valores es igual que la varianza de los
las marcas de las clases. por otra parte, esta medida dependen de todos los datos y
son sensibles a los cambios de cada uno de estos, basta que uno de los datos
n1 , x ,s 2 , n2 , x 2 , s n ,, . .. .. . ..nk , x k , sn
2 s
n2
2
n 2 k entonces la varianza total de los n=n1+n2+
……+nk datos es el numero:
k k
∑ n1 . ( s ni2 + x ² ) ∑ n1 . x i
i=1 2 i=1
s 2= −( x n ) xn=
n n , donde n
6. Desigualdad de chebyshev
El intervalo [
x n −3 s n . x +3. sn ] contiene por lo menos el 88.88% (8/9), del total de los
datos.
El intervalo [
x n −4 s n . x +4 . s n ] contiene por lo menos el 93.75%,(15/16), del total de
los datos.
Ejemplo 4.5
En el mes de enero el sueldo promedio de los trabajadores del sector industrial era
de S/. 200. Para el mes de julio se considera un aumento del 30% al sueldo del mes
de enero más un adicional de S/. 50. Si el coeficiente de variación en enero era de
0.25, se puede decir que la distribución de sueldos en julio es más homogénea?
Solución.
Ejemplo 4.6
Si los salarios no agrupados de 120 obreros tienen una media de S/. 300 y una
desviación estándar de S/ 30.
a. Cuantos obreros por lo menos tiene salarios comprendidos en el intervalo [S/.
240. S/. 360]?
b. Determine el intervalo que contiene al menos el 88.88% de los salarios.
c. Si el salario mínimo es S/. 210, en que porcentaje se puede afirmar que los
salarios son superiores a S/.390?
SOLUCION.
EJEMPLO 4.7
El costo inicial de producción X de una muestra de 80 objetos de cierto tipo, tiene
una media de S/. 250 para el 60% de la muestra y de S/. 200 para el resto,
además una desviación estándar de S/.30 para el 60% de la muestra y de S/. 25
para el resto.
a. Calcule la varianza del costo inicial de los 80 objetos.
b. Si el costo final de producción Y es igual al 20% más del costo inicial, mas 5
soles y si el precio de venta de cada objeto de la muestra proporcional al
cuadrado del costo final de producción. cuanto se recaudara por la venta
total? Cuanto será la utilidad neta?
1. ASIMETRÍA
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor
del punto central (Media aritmética). La asimetría presenta tres estados diferentes, cada
uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje
de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se
encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se
distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y
se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en
los valores menores que la media.
x−Mo
As= s
3 ( x−Me )
As= s
Interpretación de la asimetría As.
Si la distribución de los datos es simétrica, As=0, donde se observa, además que coinciden
Si ASǂ0, La distribución es asimétrica. Además, es asimétrica positiva o sesgada o de cola a la derecha, si As>o, Mo<Me< x.
4.4. Curtosis
La curtosis es la propiedad de una distribución de frecuencias por la cual se compara
la dispersión de los datos observados cercanos al valor central con la dispersión de
los datos cercanos a ambos extremos de la distribución. La curtosis se mide en
comparación a la curva simétrica normal o mesocurvitica.
Una curva simétrica con curtosis mayor que la normal es denominada curva leptocurtica fig
3.3c
Una curva simetrica con curtosis menor que de la norma es denominada curva platicurtica
fig. 3.3b
Existen varias manera de medir la curtosis de la distribución de los datos. Pero, se aplica
solo si la distribución es simetrica.
Curtosis basado en percentiles
Esta medida de curtosis es muy poco usada por ser muy inestable. Sin embargo, describe
muy bien el concepto.
Es una curva normal, el cociente del rango intercuartil (percentil 75 menos el percentil 25)
entre la diferencia del percentil 90 menos el percentil 10 es aproximadamente igual a 0.5.
A media que
P75−P25 , yP 90 −P10 sean iguales (valor del cociente casi nulo), la distribución
n
M j =∑ ( X i −x ) j
Donde i =1 , n= número de casos, s=la desviación estándar
Esta curtosis es utilizada por los paquetes de cómputo estadístico para determinar la
curtosis de distribución de la forma dato-frecuencia.
Para n datos tabulados en k intervalos, la curtosis se calcula por:
M4/n
k= −3
s
n4
k
M 4 = ∑ f i ( m i− x ) 4
Donde, i =1
s n = desviación estándar.
Si la distribución es normal k=o si k>0, es leptocurtica y si k<0 es platicurtica.
Por ejemplo, continuando con el ejemplo anterior, la curtosis de los 45 salarios quicenales
tabulados en la forma dato-frecuencia es k=1.021. Y de los mismos datos tabulados en 8
intervalos es k=0.244 . Sin embargo, no se puede decir que es leptocurtica, por que la
distribución de los datos no es simétrica.
Una grafica útil para reflejar propiedades y describir la forma como se distribuyen los datos
es la grafica de caja (box plots) que se basa generalmente en la mediana (en algunos
casos en la media), los cuartiles y valores extremos. La caja representa el rango intercuartil
que encierra el 50% de los valores observados de una variable cuantitativa y tiene la
mediana (Me) dibujada dentro. El rango intercuartil tiene como extremos el percentil 75,
P75 (o cuarto superior Q3) y el percentil 25, P25 (cuarto inferior Q1)
Además de la caja se incluye la extensión de los datos mediante segmentos (bigotes de
caja) que se extiende de la caja hacia el valor máximo (U) y hacia un valor mínimo (L) de
los datos. Este recuadro se dibuja con el eje de la variable en forma horizontal o vertical
como se indica en la figura que sigue.
Los datos atípicos o discordantes o raros llamados ‘outliers’ (aislados) son aquellos que se
ubican fuera del intervalo [p25-1.5RI, P75+1.5RI] , donde RI= p75-p25 es el rango
intercuartil. En este caso, el extremo inferior l es el dato mínimo no outlier y el extremo
superior U es el dato máximo no outlier.
Los outlier son ‘posibles valores fuera del intervalo’. Empíricamente un dato esta fuera de
intervalo si su valor estandarizado Z esta fuera del intervalo [-3,3]
Ejercicio 4.9
Los salarios quincenales en dólares registrados de 40 empleados son.
109, 174, 158, 211, 164, 179, 137, 175
192, 147, 203, 186, 072, 246, 193, 163
231, 197, 170, 190, 169, 188, 140, 237
179, 085, 217, 168, 185, 208, 164, 175
288, 124, 255, 151, 182, 167, 209, 169
CAPITULO 5
REGRESION LINEAL SIMPLE
5.1 INTRODUCCION
El objetivo de este capítulo, es estudiar la asociación entre dos variables conocida
también como asociación simple, solo en forma descriptiva. Este capítulo contiene
la aplicación de los métodos descriptivos a muestras bivariantes cuantitativas
medibles X e Y por ejemplo, salario y gastos mensuales.
La primera forma de estudio de asociación entre las variables X e Y es denominada
regresión, que consiste en determinar la relación funcional lineal (recta de
regresión) entre ellas, con el fin de predecir el valor de una variable en base a la
otra. La variable que se va a predecir se denomina variable dependiente y la
variable que es la base de la predicción se denomina variable independiente.
La segunda forma del estudio de asociación entre las variables X e Y , es
denominada correlación, que consiste en determinar la variación conjunta de las
dos variables, su grado o nivel de relación, y su sentido (positivo o negativo). La
medida del nivel de relación se denomina coeficiente o índice de correlación. El
cuadrado del índice de correlacion se denomina coeficiente de determinación.
En este capítulo realizaremos un estudio descriptivo de la regresión lineal en el
sentido que, la ecuación de regresión lineal que se calcula será válida, solo si hay la
seguridad de que existe un alto grado o nivel de correlación entre las variables
medido por el coeficiente de determinación.
Un estudio más avanzado de este tema se expone en el capítulo de la estadística
inferencial que viene a ser la segunda parte de estadística aplicada a la ingeniería
industrial.
5.1.1. DATOS Y GRAFICAS DE DISPERSION.
Los datos de la regresión simple
Los n datos en pareja (x1,y1), (x2,y2)…….,(xn, yn) son valores de la variable
bidimensional (Y,X), donde los xi son los valores de la variable independiente X y los
Yi son los valores de la variable dependiente Y.
conjunta de los valores de las variables (X,Y) con respecto a las medias ( x, y )
Ii y los datos de Y se
variables. Si los datos de X se tabulan en r intervalos;
tabulan en s intervalos;
jj
, se tendrá una distribución conjunta de frecuencias que
( Ii , J j ) f ij
consiste de los intervalos , y frecuencia . En esta guía, no tocaremos el
LA GRAFICA DE DISPERSION
variables (X,Y) analizando la grafica en el plano cartesiano de los datos ( xi, yi),
Por ejemplo, en la figura 5.1, a ) los datos visualizan una relación lineal con
relación es lineal con tendencia negativa o decreciente. en la figura 5.1 los datos
visualizan una relación no lineal, y en la figura 5.1 d) los datos visualizan ninguna
bidimensional (X,Y) es el número real que denotaremos por cov XY y que se define como la
media aritmética de los productos de las desviaciones conjuntas de los datos con respecto
a su correspondiente medias. Esto es:
n
∑ ( x i−x )( y i − y )
i=1
cov XY =
n
n n
S XY =∑ ( xi −x )( y i− y )=∑ x i y i −n x y
i=1 i=1
Luego,
n
S XY
∑ xi yi
i=1
cov XY = = −x y
N n
La covarianza a diferencia de la varianza, puede ser negativa.
cov XY
r=
S x SY
n n
S XX =∑ x 2 −n x 2 S YY =∑ y 2 −n y 2
i i
i=1 Y i=1 es fácil verificar que:
r=
cov XY
=
∑ xy−n x . y
√ S XX √ SYY
√∑ x 2−n x 2
√∑ y 2 −n y 2
i
Y=a+bX
Que mejor se ajuste a los valores de la muestra, con el fin de poder predecir o pronosticar
los valores de Y dado X. ( ver figura 5.2)
Hallar la función lineal Y=a+bX, es un proceso que consiste en determinar los valores de a
y b aplicando los datos de la muestra.
¿
¿
d i= y i− y i
¿
∑ d i =0 . Por esta razón es que se minimiza la suma de los cuadrados de los residuos.
La recta de regresión de mínimos cuadrados de Y en X es aquella que hace mínima la
suma de los cuadrados de los residuos o errores (SCE) cuya expresión es:
n n ¿ n
SCE =∑ d 2 =∑ ( yi − y i )=∑ ( y i−a−bx i ) 2
i=1 i i=1 i=1
Es decir, determinar una recta de regresión de mínimos cuadrados aplicando los datos de
la muestra, consiste en hallar los valores de a y b de manera que hagan mínima, la suma
(que resulta ser una función de a y de b)
n
SCE =∑ ( y i −(a+ bx i ) )
2
i=1
Estas ecuaciones se obtienen de igualar a cero las derivadas de SCE con respecto a y con
respecto a b respectivamente consideradas como variables, ya que (xi,yi) son datos
observados
Resolviendo el sistema de ecuaciones normales para b, se obtiene:
n ∑ xy −∑ x ∑ y
b= 2
n ∑ x2 −( ∑ x )
Y dividiendo por n la primera ecuación norma, se tiene:
a= y−b x
Notas
S XY cov XY
b= b=
S XX , También como S
1. El coeficiente b se puede escribir como X2 ,
S
donde X2 es la varianza de X
Y- y=b ( X−x )
d) Aplique la regresión para predecir la venta de una semana donde se harían 100
minutos de propaganda. ¿es confiable su predicción?
e) Según la regresión obtenida si la publicidad de una semana cualquiera se
incrementara en 5 minutos, ¿Cuánto seria el incremento de las ventas?
EJEMPLO 5.2 los ingresos (X) y los gastos (Y) mensuales en dólares de una muestra
de 100 familias han dado los siguientes resultados:
x=210 , y=200 , S 2 =5 .76 , S 2=2. 56 , r=0 . 96
X Y
( )( )
¿ ¿
y i− y= y i− y i + y i − y
Error total= error no explicado + error explicado
¿
Esta terminología surge, debido a que las desviaciones y i− yi con respecto a la recta de
regresión, se comportan de una manera aleatoria o impredecible, debido a que yi es
aleatorio
¿
Mientras que las desviaciones y i− y de la recta de regresión con respecto al eje de las X
¿
se explican por la recta de regresión de Y en X ya que solo depende de los y i que están
sobre la recta.
yi
¿
yi
n n n
( ) ( )
¿ 2 ¿
∑ ( y i− y ) 2=∑ y i − y i + ∑ y i− y
i= i= i=
SCT= SCE+SCR
La SCT, suma de cuadrados total, es la cantidad de variación de los valores de Y con
respecto a la media y.
n
∑ ( y i− y )
¿ 2
SCR i=1
r2= = n
SCT
∑ ( y i − y )2
i =1
SCR 2
1= +r
SCT (*)
Por lo tanto, para interpretar la partición de varianzas relativas bastara con calcular r luego
2
r Y escribir:
2 2
1= (1−r )+r
2
Y concluir afirmando que, el 100% de la varianza total es igual (1−r ) x100 % de la varianza
2
no explicada más r x100% de la variación explicada por la recta de regresión.
2
Continuando con el ejemplo 5.1, r=0.9705, r =0.94, entonces se tiene:
2 2
1= (1−r )+r o 1=0.06 +0.94
Es decir, el 94% de la variabilidad en las ventas semanales se explican por la asociación
con los tiempos de publicidad del producto. Quedan 6% de variabilidad en las ventas que
no se explica por la regresión obtenida.
¿
2
2. r = 1, solo si, SCR=0 o solo si y i= y i
para los n datos de la muestra. Esto significa
yi
que todos los valores está en la recta de regresión. Si este es el caso, se dice
yi xi
Es decir, no cambia cuando cambia , o todas las predicciones son iguales a
regresión.
2
4. El coeficiente de determinación r , es pues una medida de la proximidad del ajuste
2
de la recta de regresión. Cuanto mayor sea el valor de r , mejor será el ajuste y
Esto se interpreta como que es muy bueno el ajuste de la ecuación lineal a los datos
30 000,000 26 000,000
25 000,000 23 000,000
Solución.
Ejemplo 5.5
Al estudiar la relación entre los costo (X) y las ventas (Y) en dólares de ciertos productos,
se obtuvo la siguiente información de la muestra:
Ejemplo 4.7
Aplicando el método de mínimos cuadrados, ajuste el modelo de regresión
potencia
B
Y = AX
A los siguientes datos observado de una muestra:
X 1.5 2 3 3. 4 5
5
Y 2.6 2.4 1.2 1. 1.6 1.4
8
Solución:
Ejemplo 4.8
Para los siguientes datos experimentales
X 1 2 3 4 5 6
Y 10 4 120 300 80 1500
0 0
Ejercicio 1
¿
d i= y i− y i = y i−a−bxi
Si , Compruebe que:
n
a ) ∑ d i=0 ,
i=1
n
b ) ∑ di x i =0
i=1
n ¿
c ) ∑ d i y i=0
i=1
n
( )( )
¿ ¿
d ) ∑ y i − y y i − y i =0
i=1
Ejercicio 2
Compruebe que
( )
2
¿ 2
∑ ( yi−y )2=∑ ( yi −yi) +∑ yi−y
¿
Ejercicios 3
( y − y) = SCR
2
¿
S XY 2 ∑ i
r= ,Entonces ,r =
√ S XX √ SYY
( )
2 SCT
Demuestre que si
∑ yi− y
SOLUCION:
CAPITULO 6
NUMERO INDICES
6.1 INTRODUCCION
Uno de los métodos estadísticos que se utilizan con mayor frecuencia en economía,
administración de empresa, demografía y otros campos de la estadística aplicada,
es el número índices.
Básicamente un número índices, es el cociente de cualquier medición de una
variable (o más variables) con respecto a una de sus mediciones que se toma como
base.
El objetivo de los números índices es cuantificar variaciones de las mediciones de
una variable a través del tiempo. En este sentido el número índice es el cociente de
la medición de la variable en un periodo determinado con respecto a un periodo
base.
Las mediciones pueden estar relacionadas con la cantidad, precio o valor.
Los números índices se clasifican en índices simples o elementales e índices
compuestos o agregados.
El número índice simple se calcula a partir de una sola variable. Mientras que un
índice compuesto se calcula a partir de dos o más variables.
Los índices compuestos se clasifican en índices no ponderados e índices
ponderados
6.6.1 índices simples
Definición.
Sea
x t la medición de una variable cuantitativa X registrada en un periodo
base
t 0 . Se denomina índice simple de X para el periodo t con respecto al periodo
base
t 0 , al numero que lo denotaremos por I t /t 0 o I t /t 0 ( X ) o It y que se define por :
xt xt
I t /t ( X )= ,0 I t /t ( X )= x 100
0 x0 0 x0 %
0
198
1
198
2
198
3
Solución.
Definición. Si
pt y p0 son dos valores de la variable precio P en los periodos
respectivos t y
t 0 entonces, el índice simple de los precios en el periodo t con
Definición. Si
q t y q 0 son los valores de la variable cantidad, Q, en los periodos
respectivos t y
t 0 , entonces, el índice simple de cantidades en el periodo t con
Donde
pt qt y p0 q 0 son los valores respectivos en el periodo t y en el periodo base.
Ejemplo 6.2
En la tabla 6.7 se dan los precios promedios en dólares y las cantidades de
consumo promedios en kilogramos de un articulo desde 1980 a 1982.
Tomando como base el año 1980, calcule los índices de precios, de cantidades, y
de valores para 1981 y 1982.
Tabla 6.7 . Índice de precios, cantidad y valor.
Año Precio Cantidad Índice Índice Índice
$ Kg. precios cantida Valor
d
198 15 6.5 100 100 100
0 20 7.4 133 114 152
198 25 7.8 167 120 200
1
198
2
Solución.
I t /t ( P)=
∑ Pt
0
∑ P0
I t /t (Q)=
∑ qt
0
∑ q0
Nota. El índice compuesto no ponderado de valor se define por:
I t /t (V )=
∑ Pt q t
0
∑ P0 q 0
Ejemplo 6.3
En el cuadro 4.8 se da una canasta de artículos básicos que comprende 4 ítems A, B, C y
D , los precios en dólares y las cantidades consumidas en kilogramos durante los años
1980 y 1985.
Tomando el año 1980 como base, calcule los índices compuestos no ponderados de
precios y cantidades de 1985.
p
∑ P 0 q0 p t ∑ p q
0 t 0
ILt /t (P )= =
0
∑ P 0 q0 ∑ p 0 q 0
Definición.- el índice de cantidades de Laspeyres en un periodo t con respecto a un
periodo base to es la media aritmética ponderada de los índices simples de cantidades
qt/qo que usa como ponderación a los valores del año base
P0 q 0 , esto es.
p
∑ P 0 q0 p t ∑ p q
0 0 t
ILt /t (Q )= =
0
∑ P 0 q0 ∑ p 0 q 0
Definición. El índice de precios de Paasche en un periodo t con respecto a un periodo
base to es la media aritmética ponderada de los índices simples de precios Pt/Po que usa
base to es la media aritmética ponderada de los índices simples de cantidades qt/qo que
pt q 0
usa como ponderación a los valores del año base esto es,
q
∑ Pt q 0 q t ∑ p q
0 t t
IPt /t (Q)= =
0
∑ P t q0 ∑ p t q 0
ILt /t (P ). IPt / t (Q)=
∑ pt q 0 ∑ pt q t = ∑ pt q t =I (V )
0 0
∑ p0 q 0 ∑ pt q 0 ∑ p 0 q 0 t / t
0
Nota.
Paasche.
Ejemplo 6.11
La tabla 6.9 contiene las unidades, precios promedios y consumo per cápita de 3 artículos
básicos en una ciudad en los periodos de 1980 y 1985.
Calcule los índices compuestos: a) de precios y b) de cantidades, por los métodos de
Laspeyres, Paashe y Fisher del periodo 1985, tomando como base el año 1980.
Tabla 6.9 . precios y cantidades de tres ítems
Íte unidades Precio promedio Cantidad consumo
m 1980 1985(Pt) 1980(Po) 1985(Pt)
(Po)
A Litro 10 15 40 60
B Pieza 15 20 80 100
C Docena 20 25 20 40
Solución:
Ejemplo 6.12
En la tabla 6.11 se dan los índices A tomando a 1980 como año base. Obtenga los índices
a) B tomando como base nueva al año 1990
b) C tomando como base nueva al año 1985
Tabla 6.11. Cambio de base
año Índice A Índice B Índice C
1980 100 B1=22.2 C1=33.33
1985 300 2 C2=100
1990 450 B2=66.6 C3=150
7
B3=100.
0
Solución:
Con frecuencia una serie de números índices sufre cambios por adición de ciertos
productos o exclusión de otros, así como por cambio del periodo base obteniéndose una
nueva serie de números índices. El problema es fusionar ambas series de números índices
a partir de un nuevo periodo base.
Para fusionar dos series distintas de números índices y formar una serie nueva de
números índices, esta nueva serie debe tener un índice de empalme, fusión o traslape para
las dos series, de manera que se puedan calcular ambos tipos de índices para ese año de
traslape.
Para retroceder los índices de la serie nueva, cada índice de la serie antigua se convierte
en un índice de la serie nueva dividiendo el índice de empalme (100), entre el índice
antiguo de la base nueva, luego multiplicando por el índice antiguo.
Esto es,
100
Índice nuevo = x índice antiguo
Índice antiguo de la base nueva
También, para avanzar los índices de la serie antigua, cada numero índice de la serie
nueva se convierte en un índice de la serie antigua dividiendo el índice antiguo de la base
nueva entre el índice de empalme (100), luego multiplicando por el índice nuevo.
Esto es,
Índice antiguo de la base nueva
Índice antiguo= x índice nuevo
100
Ejemplo 6.13
En la tabla 6.12 , la segunda columna muestra los índices antiguos desde 1980 hasta 1982
con respecto al año base 1980.
La tercera columna muestra los nuevos índices de 1982 a 1984 con año base 1982.
Efectúe el empalme de los índices con base en los años
a) 1982
b) 1980
Tabla 6.12 . Empalme de dos series de índices
Año Índice antiguo Índice nuevo Índice empalmado Índice empalmado
Pt
IPC= x 100
P0
El valor (precio o salario) deflacionado o valor real en el periodo t con respecto al periodo
base to, se obtiene dividiendo el valor nominal del periodo t entre el IPC de ese periodo,
esto es,
Valor nominal
Valor deflacionado = x 100.
IPC
Si el valor es el precio, se tendrá el precio real o deflacinado y si el valor es el ingreso o
salario, se tendrá el salario real o deflacionado.
Pro ejemplo, si el salario de una persona fue de 4,000 unidades monetarias en 1990 y de
8,000 unidades monetarias en 1991, entonces hubo un incremento nominal de 4,00. Pero,
si el índice de precio al consumidor fue de 1.2 en 1991 con respecto a 1990 , entonces su
salario real es de 8000/1.2 =6,666.67 dólares, y ha tenido un incremento real de solo
2,666.67 dólares.
NOTA:
Si los IPC van decreciendo en una serie de tiempo, los salarios nominales de un periodo t
se indexan, de manera que no pierdan su poder adquisitivo con respecto a un periodo base
SR t
ISRt /t = x 100
0 SR0
PA= ( )
1
IPC
.100
%
El índice del poder adquisitivo del dinero, IPA, es el cociente entre el índice de precio del
año base, IPC 0 que se toma como base de comparación, y el índice de precio al
IPA=
( )
IPC 0
IPC t
. 100
.
La pérdida del poder adquisitivo, PPA, o el porcentaje de desvalorización del dinero, se
cuantifica por:
PPA= 1−
( IPC0
IPCt).100
Por ejemplo, si el IPC fue de 1.25 en 1980 tomando como base 1979, entonces, el índice
del poder adquisitivo del dinero en ese año es:
IPA=1.00/1.25= 0.8 0 80%
Entonces, la pérdida del poder adquisitivo es la cifra , PPA=20%
Ejemplo 6.14
En la tabla 6.13 se dan los salarios nominales (en dólares) y los índices de precio al
consumidor de 1980 a 1986 con base a 1980, en una determinada ciudad . para cada
periodo y en base a 1980, calcule:
A) Los salarios reales
B) Los índices de salarios reales
C) Los índices del poder adquisitivo.
Tabla 6.13. Salarios nominales e índices de precios
Definición.- sean
It , t=1,2,……..n los índices medidos en los periodos (meses o años):
1,2,…..t, respectivamente. Las tasa o índices de variación del índice correspondientes al
Definición de (Inflación): sien la formula anterior los índices son de precios al consumidor
(IPC), la tasa de de variación se le denomina inflación.
Por ejemplo, si en diciembre de 1982 el IPC fue de 653.1 y en diciembre de 1983 el IPC
fue de 796.1, entonces, el porcentaje de variación de los precios (inflación anual) de 1983
es:
796 .1−653. 1
×100≡21 . 896
653 .1
Definición. El índice de variación adecuado del periodo al periodo t, se define por:
6.4.9 Devaluación.
La devaluación es la pérdida del valor o del poder adquisitivo externo del dinero que se
cuantifica generalmente con el precio del dólar.
Sea
Ct el nuevo tipo de cambio y C0 el antiguo tipo de cambio, el porcentaje de aumento
del tipo de cambio se define por:
%aumento=
( )
Ct
Ca
−1 x 100 %
Por ejemplo, si el tipo de cambio de 2.08 soles por dólar sustituye a uno de 2.02 soles
por dólar, entonces el porcentaje de alza del dólar
%alza =
( 2. 08
2. 02
−1 ) x 100 %=2. 97 %
% devaluación =
( ) 1−
Ca
Ct
x 100 %
Por ejemplo, si el tipo de cambio de 2.08 soles por dólar sustituye a uno de 2.02
soles por dólar, entonces el porcentaje devaluación del sol es.
% devaluación =
( 1−
2 .08 )
2 .02
x 100 %=2. 88 %
EJEMPLO 1.
Suponga que en un hospital, el nivel de azúcar en la sangre de cada paciente se mide tres veces por
semana. En cierta semana los registros de dos pacientes indican:
En efecto:
90+100+110 300
= =100
Paciente A: 3 3
40+100+160 300
= =100
Paciente B: 3 3
Observe la diferencia en variabilidad. Mientras que el paciente A es bastante estable, el nivel del
paciente B fluctúa ampliamente. Este resultado deberá tomarse en cuenta cuando se prescriba su
tratamiento.
EJEMPLO 2.
Se va a seleccionar a un atleta para que represente a la Universidad en los juegos estudiantiles, en la
prueba de los 100 metros. Se tienen dos candidatos: A y B. Para decidir por uno de ellos se les
toman los tiempos que se tardan en recorrer los 100 metros en cinco ocasiones. A continuación de
detallan:
El tiempo promedio de ambos atletas es 11.6 segundos (verificarlo) pero el grado de variabilidad
del atleta B es menos que el del atleta A. Por tener menos altibajos, el atleta B tendría que ser el
seleccionado.
Casos como los anteriores (medicina, deportes) muestran la necesidad de descripciones estadísticas
que midan el grado en que se dispersan (o varían) los
datos, respecto a su centro; es decir; la necesidad de las medidas de dispersión. Dos de ellas son: la
amplitud (o rango) y la desviación típica.
EJEMPLO 3.
En el ejemplo 1, el rango para el nivel de azúcar en la sangre del paciente A es 110 – 90 = 20 y de
160 – 40 = 120, para el paciente B.
En el ejemplo 2, el rango para el tiempo del atleta A es de 12.3 – 11.0 = 1.3 segundos, y de 11.8 –
11.5 = 0.3 segundos, para el atleta B.
El rango se utiliza principalmente como indicación fácil y rápida de la variabilidad, pero por lo
general, no es medida de dispersión útil. Su principal inconveniente radica en que nada se dice
acerca de la dispersión de los valores que están entre el mayor y el menor valor.
Por ejemplo, cada uno de los conjuntos de datos siguientes:
Conjunto A: 3,4,5,6,11,16,17,18 y 19
Conjunto B: 3,8,9,10,11,12,13,14 y 19.
media
Conjunto A:
3 4 5 6 11 16 17 18 19
media
Conjunto B:
3 8 9 10 11 12 13 14 19
Es pequeña si los datos están ubicados muy cerca alrededor de su media aritmética y
Es grande si los datos están ubicados distantes alrededor de su media.
Por lo tanto, parece razonable tener una medida para la dispersión de un conjunto de datos, en
términos de las cantidades por las que difieren de su media aritmética. A estas cantidades les
asignaremos un nombre, en la siguiente definición.
DEFINICION: La desviación típica de una población de N datos: se denota por σ , (letra griega
sigma) y se define como
√
N
∑ ( x i −x )2
i =1
σ=
N
Si
x 1 ,x 2 ,.....,.x N ocurren con frecuencias f 1 ,f 2 ,.. ... f N respectivamente, la desviación típica puede
expresarse como
√
N
∑ f i ( x i−x )2 N
σ=
i =1
∑ fi
N donde N = i=1
√
N
∑ ( x i−x )2
i=1
S=
N −1 para datos sin agrupar
√
N
∑ f i ( xi −x )2
i=1
S=
N −1 para datos agrupados en tablas de frecuencia
NOTA: “Muestra” es el conjunto de datos que se pueden utilizar, en forma razonable, para hacer
generalizaciones acerca de la población de la cual provienen.
ADVIERTA: Las fórmulas para S se obtienen escribiendo N-1 en el denominador de las formulas
para σ .
6 -5 25
11 0 0
16 5 25
17 6 36
18 7 49
19 8 64
9
S=∑ ( x i−x )2
i=1 = 64 + 49 + 36 + 25 + 0 + 25 + 36 + 49 + 64 = 348 y
√
9
∑ ( x i−x )2
S=
i=1
N −1 √
348 348
√
= 9−1 = 9−1 = 6.6
Para la muestra B
3+8+9+10+ 11+12+13+14+19 99
x= = =11
Paso 1. 9 9
9
∑ (x i −x )2
Paso 2. Calculamos i=1
9
∑ (x i −x )2
i=1 = 64 + 9 + 4 + 1 + 0 + 1 + 4 + 9 + 64 = 156 y
√
9
∑ ( x i−x )2
S=
i=1
N −1 √
3156 3156
= 9−1 = 9−1 = 4.4√
Puesto que la desviación típica del conjunta A es mayor que la del conjunto B, concluimos que la
muestra A es la más dispersa.
VERIFICANDO SU COMPRENSION
X F 2 2 2
f (x ) ( xi −x ) f (x i −x ) f (x i −x )
14 6 84 -1.4 1.96 11.76
15 15 225 -0.4 0.16 2.40
16 16 256 0.6 0.36 5.76
17 3 51 1.6 2.56 7.68
TOTAL 40 616 27.60
√
4 N
∑ f i xi ∑ f i ( xi −x )2
x=
i=1
N
=
616
40
=15 . 4 S= i=1
N −1
=
√ 27 . 6
39
=0 . 84
VERIFICANDO SU COMPRENSION
1. Hallar en cada caso, la desviación típica y la varianza.
a) 3,2,4,6,2,8,5,2,4 y 4 b) 0,0,0,0,0,1,1 y 1
2. Hallar el valor de S para los datos agrupados en la siguientes tablas de frecuencia
a) X f x f
6 5 2 4
5 4 3 3
3 6 4 5
5 2