Está en la página 1de 120

2023-I

su

UNIVERSIDAD NACIONAL
JOSÉ FAUSTINO SÁNCHEZ CARRIÓN

Facultad de ciencias empresariales


Escuela de turismo, hotelería y gastronomía

Semestre Académico : 2023 - I


Docente : Solís Huertas Carlos Jorge
Colegiatura : 092047
Correo Electrónico : jokarso@hotmail.com

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 1


2023-I

1.1 HISTORIA DE LA ESTADÍSTICA

La historia nos narra, que desde que el hombre empezó a comunicarse por medio de lenguaje
escrito, los pueblos del continente africano se destacaron por hacer algunas anotaciones de mucha
importancia en su diario convivir.

Los chinos, desde la época del sabio Kung-futse (2500 A.D.C.) que hicieron recolecciones.
Los egipcios (2500 anos A.D.C.) cuando se encontraban gobernados por los faraones,
establecieron los márgenes del rio Nilo. Estos, cada vez que se producían las grandes
inundaciones provocadas por el desbordamiento de dicho rio, ordenaban a los sacerdotes (sabios
del palacio) a que realizaran las respectivas mediciones de las tierras afectadas, a fin de que sus
propietarios pagaran el impuesto solo de lo que les quedaba.

También fueron los griegos los y los romanos que en sus frecuentes acciones bélicas,
cuantificaban: soldados, vituallas, caballos, provisiones de armas, como: lanzas, escudos, arcos,
etc.

En el continente americano, se destacan los pueblos: maya, azteca e inca. Así, los primeros tenían
el calendario igual que los egipcios y los chinos, y los incas racionaban los excesos de las
cosechas para épocas que había escasez.

Se considera como fundador de la estadística a Godofredo Achenwall (1719 – 1772), economista


alemán, quien siendo profesor de la universidad de Leipzig, escribió el descubrimiento de una
nueva ciencia que el mismo llamo Estadística.
"Se dice que el análisis estadístico se inicio con los estudios de un tendero Ingles, John Graunt
(1620 –1674), quien intento analizar las causas de las defunciones en Londres alrededor de la
primera mitad del siglo XVII.
Después de este sencillo inicio muchos matemáticos, algunos muy famosos como: Laplace (1749 –
1827 y Gauss (1777- 1855) hicieron constantes contribuciones a las ideas básicas de esta ciencia.
Además, el análisis de los datos numéricos es fundamental en tantos campos, que bien se podría
elaborar una larga lista de científicos, en áreas como: la biología, la geología, la genética, que han
contribuido ampliamente en este estudio. Por citar: Charles Darwin (1809 – 1882), Gregory Mendel
(1822- 1884, Karl Pearson (1857 – 1936).
Es de anotar que Achenwall y sus seguidores estructuraron los métodos estadísticos; los mismos
que al inicio estuvieron orientados a: investigar, medir y comparar las riquezas las naciones.
Como dijera Huntsberger: "La palabra estadística a menudo nos trae a la mente imágenes de
números apilados en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos,
muertes, impuestos, poblaciones, ingresos, deudas, créditos y así sucesivamente. Huntsberger
tiene razón pues al instante de escuchar esta palabra estas son las imágenes que llegan a nuestra
cabeza.
La Estadística es mucho más que solo números apilados y graficas bonitas. Es una ciencia con
tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias. Los
mercados, la medicina, la ingeniería, los gobiernos, etc. Se nombran entre los más destacados
clientes de esta.
La ausencia de esta conllevaría a un caos generalizado, dejando a los administradores y ejecutivos
sin información vital a la hora de tomar decisiones en tiempos de incertidumbre.
La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos
matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se
adhirió a la Estadística a las ciencias formales.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 2


2023-I

¿QUE ES LA ESTADÍSTICA?

Esta palabra derivada de Staat, que significa gobierno, su fundador la definió como "el
conocimiento profundo de la situación respectiva y comparativa de cada estado".
Conocemos que desde la más remota antigüedad el concepto de estadística se identifico con el de
"ciencia de los números y de las figuras".
Muchos la llaman como "la representación del pensamiento científico", puesto que se basa en la
investigación para llegar a conclusiones, análisis, interpretaciones, abstracciones, deducciones,
etc.
Pero también la concebimos como una ciencia auxiliar de otras disciplinas, sin su aplicación no
podríamos orientar muchos aspectos. Es decir es el hilo conductor en todos los campos.

¿Para qué conocer esta ciencia?

La mayoría de las personas estamos familiarizadas con frases como estas: Los salarios de los
militares aumentan en un 30%. El partido triunfador en las elecciones próximas pasadas supero a
lo que informaban las encuestadoras.
Por el fenómeno del niño tenemos que importar tales alimentos. El rendimiento de los alumnos en
esta materia está por debajo de lo normal. 10 de cada 100 niños sufren problemas respiratorios. En
este planeta el promedio de vida es de 70 anos. La gran mayoría de emigrantes son de sexo
masculino.
Todos los días experimentamos, manipulamos símbolos y palabras. Hasta emitimos juicios de valor
que seguro se basan en algo para una información cualquiera; pero para una información
estadística debemos estar ligados al método estadístico, en su forma, organización, recopilación,
presentación y análisis de datos.

1.2 CONCEPTOS GENERALES DE ESTADÍSTICAS

Al respecto a continuación realizamos algunas definiciones de Estadística:

La Estadística es una ciencia que nos proporciona un método importante para la toma de
decisiones y resolver problemas en forma sistemática y reproducible, a diferencia de otros métodos
que difícilmente puede ser explicado o reproducido hasta por la misma persona que lo ejecuta. Por
lo anterior es importante analizar detenidamente cada uno de los conceptos en los que se
fundamenta esta para lograr acercarnos profundamente a su
Conocimiento.
La estadística es una ciencia que estudia la recolección, análisis e interpretación de datos, ya sea
para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún
fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo
estadística es más que eso, en otras palabras es el vehículo que permite llevar a cabo el proceso
relacionado con la investigación científica.
La estadística, en general, es la ciencia que trata de la recopilacion, organización presentación,
análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más
efectiva.
Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no
tan semejantes. Para Chacon esta se define como “la ciencia que tiene por objeto el estudio
cuantitativo de los colectivos”; otros la definen como la expresión cuantitativa del conocimiento
dispuesta en forma adecuada para el escrutinio y análisis.
La más aceptada, sin embargo, es la de Minguez, que define la Estadística como “La ciencia que
tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad,
deducir las leyes que los rigen y hacer su predicción próxima”.
Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas, una
confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 3


2023-I

estadística, en primer término se usa para referirse a la información estadística; también se utiliza
para referirse al conjunto de técnicas y métodos que se utilizan para analizar la información
estadística; y el termino estadístico, en singular y en masculino, se refiere a una medida derivada
de una muestra.
Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y
resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su
presentación en forma grafica o ilustrativa y el cálculo de medidas descriptivas.
Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad,
control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en
deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por
otras personas que intervienen en la toma de decisiones.

1.3 DIVISION DE LA ESTADISTICA

La estadística se divide en dos grandes áreas:


La estadística descriptiva, se dedica a la descripción, visualización y resumen de datos
originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o
gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar.
Algunos ejemplos gráficos son: histograma, pirámide poblacional, clúster, entre otros.
La estadística inferencial, se dedica a la generación de los modelos, inferencias y
predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las
observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la
población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no
(prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de
futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones
entre variables (análisis de regresión).
Otras técnicas de moldeamiento incluyen anjova, series de tiempo y minería de datos.
POBLACIÓN (N).- Conjunto de individuos, objetos, o fenómenos a observar y que tienen alguna
característica en común y que son motivo de una investigación.
Por ejemplo: Habitantes del Ecuador, Las aves de nuestro archipiélago.
La población puede ser finita o infinita:
En los ejemplos anteriores. ¿Cual es finito y cual ejemplo pertenece a una población infinita?
MUESTRA (n).- Es el subconjunto de una población, es un pequeño universo. Se la usa cuando la
población es infinita o sumamente grande y es imposible observar todos sus elementos.
Ejemplo: Estatura de los empleados de una fabrica. Calificaciones de los alumnos matriculados en
Estadística en la Modalidad de Estudios a Distancia
ELEMENTO (e).- Se denomina a cada integrante de la población o muestra. En estadística un
elemento puede ser algo con existencia real. Por ejemplo: un automóvil, o algo más abstracto,
como un voto, la temperatura, el tiempo. También puede ser unidades naturales: obreros, turistas,
empleados, emigrantes, etc.
PARÁMETRO.- Conjunto de características (resultados), o valores numéricos cuando se han
obtenido a partir de una población.
Ejemplo: Edad promedio de los alumnos de la UNIVERSIDAD
ESTADÍSTICO.- Conjunto de características (resultados) cuando se han obtenido a partir de una
muestra.
Ejemplo: Alcaldes de la ciudad de Lima.
DATOS.- Son medidas, valores, o variables, o características susceptibles de ser observados y
contados.
DATO ESTADÍSTICO: .- Información numérica o cuantitativa que cumple ciertos requisitos (un dato
aislado que no se integra o que no muestra relación significativa con otro, no es dato estadístico).
VARIABLE ESTADÍSTICA.- Es el objeto en estudio de una determinada población. La misma que
puede ser cualitativa y cuantitativa.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 4


2023-I

VARIABLE CUALITATIVA.- Cuando las variables se expresan mediante una cualidad o


característica. Aquellas que no se pueden medir.
Ejemplo: Color de los ojos de un determinado sector. El sexo de los miembros de una familia.
VARIABLE CUANTITATIVA.- Todo aquello que se puede medir o expresar mediante números.
Ejemplo: Numero de profesores en la UNJFSC. Una variable cuantitativa puede ser: discreta y
continua.
VARIABLE DISCRETA.- Cuando toma valores enteros (no toma valores entre dos números
enteros).
Ejemplo: Alumnos de la carrera de Comunicación social. Edad en años de los
alumnos.
VARIABLE CONTINUA.- Cuando puede tomar valores intermedios entre dos números enteros
consecutivos.
Ejemplo: El peso, el sueldo.

Como se ha visto anteriormente la estadística se ocupa de los métodos científicos que se utilizan
para recolectar, organizar, resumir, presentar y analizar datos así como para obtener conclusiones
validas y tomar decisiones razonables con base en este análisis.
El término estadística también se usa para denotar los datos o los números que se obtienen de
esos datos; por ejemplo, los promedios. Así, se habla de estadística de empleo, estadística de
accidentes, etcétera.

POBLACIÓN Y MUESTRA; ESTADÍSTICA INDUCTIVA (O INFERENCIAL) Y ESTADÍSTICA


DESCRIPTIVA.

Cuando se recolectan datos sobre las características de un grupo de individuos o de objetos, por
ejemplo, estatura y peso de los estudiantes de la universidad o cantidad de pernos defectuosos y
no defectuosos producidos en determinado día en una fábrica, suele ser imposible o poco práctico
observar todo el grupo, en especial si se trata de un grupo grande. En vez de examinar todo el
grupo, al que se le conoce como población o universo, se examina solo una pequeña parte del
grupo, al que se le llama muestra.
Las poblaciones pueden ser finitas o infinitas. Por ejemplo, la población que consta de todos los
pernos producidos determinado día en una fabrica es finita, en tanto la población que consta de los
resultados (cara o cruz) que se pueden obtener lanzando una y otra vez una moneda es infinita.
Si la muestra es representativa de una población, el análisis de la muestra permite inferir
conclusiones validas acerca de la población. A la parte de la estadística que se ocupa de las
condiciones bajo las cuales tales inferencias son validas se le llama estadística inductiva o
inferencia. Como estas inferencias no pueden ser absolutamente ciertas, para presentar estas
conclusiones se emplea el lenguaje de la probabilidad.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 5


2023-I

A la parte de la estadística que únicamente trata de describir y analizar un grupo dado, sin sacar
ninguna conclusión ni hacer inferencia alguna acerca de un grupo más grande, se le conoce como
estadística descriptiva o deductiva.
Antes de proceder al estudio de la estadística, se analizaran algunos conceptos matemáticos
importantes.

VARIABLES: DISCRETAS Y CONTINUAS.

Una variable es un símbolo; X, Y, H, x o B, que puede tomar cualquiera de los valores de


determinado conjunto que se le conoce como dominio de la variable. A una variable que solo puede
tomar un valor se le llama constante.
Una variable que puede tomar cualquiera de los valores entre dos número dado es una variable
continua; de lo contrario es una variable discreta.
EJEMPLO 1. La cantidad N de hijos que tiene una familia puede tomar los valores o, 1, 2, 3,……
pero no puede tomar valores como 2.5 o 3.842; esta es una variable discreta.
EJEMPLO 2. La estatura H de una persona puede ser 62 pulgadas (in), 63.8 in o 65.8341 in,
dependiendo de la exactitud con que se mida, es una variable continua.
Los datos descritos mediante una variable discreta son datos discretos y los datos descritos
mediante una variable continua son datos continuos. Un ejemplo de datos discreto es la cantidad
de hijos que tiene cada una de 1000 familias, en tanto que en un ejemplo de datos continuos son
las estaturas de 100 estudiantes universitarios. En general, una medición proporciona datos
continuos; en cambio, una enumeración o un conteo proporcionan datos discretos.
Es útil ampliar el concepto de variables entidades no numéricas; por ejemplo, en el arco iris, color C
es una variable que puede tomar “valores” rojo, anaranjado, amarillo, verde, azul, índigo o violeta.
Estas variables se pueden reemplazar por números; por ejemplo, se puede denotar rojo con 1,
anaranjado 2, etc.

REDONDEO DE CANTIDADES NUMÉRICAS.

El resultado de redondear un número por ejemplo 72.8 a la unidad más cercana es 73 debido a que
72.8 está más cerca de 73 que de 72. De igual manera 72.8146 redondeando a la centésima más
cercana (o a dos lugares decimales) es de 72.81, ya que 72.8146 está más cerca de 72.81 que de
72.82.
Sin embargo, para redondear 72.465 a la centésima más cercana, ocurre un dilema debido a que
72.465 se encuentra precisamente a la mitad entre 72.46 y 72.47. En estos casos, lo que se

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 6


2023-I

acostumbra hacer es redondear al entero par antes del 5. Así 72.465 se redondea a 72.46, 183.575
se redondea a 183.58 y 116 500 000, redondeado al millón más cercano 116 000 000. Hacer
esto es especialmente útil cuando se realiza una gran cantidad de operaciones para minimizar, así,
el error de redondeo acumulado (ver problema 1.4)

NOTACIÓN CIENTÍFICA.
Al escribir números, en especial aquellos en los que hay muchos ceros antes o después del punto
decimal, es conveniente usar la notación científica empleando potencias de 10.
EJEMPLO 3

101 =
2
10 =
105 =
108 =
EJEMPLO 4

100 =
−1
10 =
10−2 =
10−5 =
EJEMPLO 5
864 000 000 =
0.00003416 =
8
Obsérvese que el efecto de multiplicar un número, por ejemplo 10 , es recorrer el punto decimal
−6
del número ocho lugares a la derecha. El efecto de multiplicar un numero por 10 eso recorrer el
punto decimal del número seis lugares a la izquierda.
Con frecuencia, para hacer énfasis en que no se ha omitido un número distinto de cero antes del
punto decimal, se escribe 0.1253 en lugar de .1253. Sin embargo, en casos en los que no pueda
haber lugar a confusión, como en tablas, el cero antes del punto decimal puede omitirse.
Para indicar la multiplicación de dos o más números se acostumbra usar paréntesis o puntos. Así
(5) (3)=5.3=5x3= 15 y (10) (10) (10)=10.10.10=10x10x10=1000. Cuando se utilizan letras para
representar números suelen omitirse los paréntesis y los puntos; por ejemplo, ab=(a) (b)=a.b=axb.
La notación científica es útil al hacer cálculos, en especial para localizar el punto decimal, entonces
se hace uso de las reglas siguientes:

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 7


2023-I

10 p 10 q =10 p+q
p
10
q
=10 p−q
10
Donde p y q son números cualesquiera.
p
Entonces 10 , p es el exponente y 10 es la base.

EJEMPLO 6

(103 )(102 )=
10 6
=
10 4
EJEMPLO 7
(4 000 000)(0.0000000002)=
EJEMPLO 8
(0 .006 )(80000 )
=
0 .04

CIFRAS SIGNIFICATIVAS

Si se anota la estatura de una persona como 65.4 in, esto significa que la estatura verdadera
estará entre 65.35 y 65.45 in. Los dígitos exactos, fuera de los ceros necesarios para localizar el
punto decimal, son los dígitos significativos o cifras significativas del número.
EJEMPLO 9 65.4…………………
EJEMPLO 10 4.5300………………………..
EJEMPLO 11 .0018= = ………………………….
EJEMPLO 12 .001800= = ……………………………….
Los números obtenidos de enumeración (o conteo), a diferencia de los obtenidos de mediciones,
por su puesto son exactos y por lo tanto tienen un número ilimitado de cifras significativas. Sin
embargo, en algunos de estos casos puede ser difícil decidir, sin más información, cuales cifras
son significativas. Por ejemplo, el numero 186 000 000 puede tener 3, 4,….9 cifras significativas. Si
se sabe que tiene cinco cifras significativas puede ser más adecuado escribirlo como 186.00
8
millones o como 1.8600x 10 .
Cálculos.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 8


2023-I

Al realizar cálculos en los que intervienen multiplicaciones, divisiones o raíces de números, el


resultado final puede tener más cifras significativas que el numero con menos cifras significativas
(ver problemas 1.9)
EJEMPLO 13 73.24x4.53= (73.24) (4.53)=
EJEMPLO 14 1.648/0.023=

EJEMPLO 15 √ 38.7=
EJEMPLO 16 (8.416) (50) =
Cuando se suman o se restan números, el resultado final no puede tener más cifras significativas
después del punto decimal que los números con menos cifras significativas después del punto
decimal (ver problema 1.10)
EJEMPLO 17 3.16 +2.7=
EJEMPLO 18 83.42-72 =
EJEMPLO 19 47.816-25=
La regla anterior para la suma y la resta puede extenderse (ver problema 1.11)

FUNCIONES.

Si a cada valor que puede tomar la variable X le corresponde un valor de una variable Y, se dice
que Y es función de X y se escribe Y=F(X) (se lee “Y es igual a F de X”) para indicar esta
dependencia funcional. En lugar de F también puede usarse otras letras (G,θ, etcétera).
La variable X es la variable independiente y la variable Y es la variable dependiente.
Si a cada valor de X le corresponde únicamente un valor de Y, se dice que Y es una función
univaluada de X; de lo contrario, se dice que es una función multivaluada de X.
EJEMPLO 20 La población P de los Estados Unidos es función del tiempo t, lo que se escribe P=F
(t)
EJEMPLO 21 El estiramiento S de un resorte vertical es función del peso W que hay en el
extremo del resorte, es decir, S=G (W).
La dependencia (o correspondencia) funcional entre variables puede describirse mediante una
tabla. Pero también puede indicarse mediante una ecuación que relaciona las variables, por
ejemplo, Y=2x-3, a partir de la cual puede determinarse el valor de Y que corresponde a los
diversos valores de x.

Si Y=F(X), F (3) denota “el valor de Y cuando X=3”, F (10) denota “el valor de Y cuando X=10”, etc.
2 2
Así, si Y=F(X)= X , entonces, F (3)= 3 = 9 es el valor de Y cuando X=3

El concepto de función puede ampliarse a dos o más variables (ver problema 1.17)

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 9


2023-I

COORDENADAS RECTANGULARES.

En la figura 1-1 se muestra un diagrama de dispersión de EXCEL con cuatro puntos. Este diagrama
de dispersión está formado por dos rectas mutuamente perpendiculares llamadas ejes X y Y. el eje
X es horizontal y el eje Y vertical. Estos dos ejes se cortan en un punto llamado origen. Estas dos
rectas dividen el plano XY en cuatro regiones que se denotan I, II, III, IV, a las que se les conoce
como primer, segundo, tercer y cuarto cuadrantes. En la figura 1-1 se muestran cuatro puntos. El
punto (2, 3) está en el primer cuadrante y se grafica avanzando, desde el origen, 2 unidades a la
derecha sobre el eje X y desde ahí, 3 unidades hacia arriba. El punto (-2.3, 4.5) está en el segundo
cuadrante y se grafica avanzando desde el origen, 2.3 unidades a la izquierda sobre el eje X y
desde allí 4.5 unidades hacia arriba. El punto (-4, -3) está en el tercer cuadrante y se grafica
avanzando, desde el origen, 4 unidades a la izquierda sobre el eje X, y desde ahí tres unidades
hacia abajo. El punto (3.5, -4) está en el cuarto cuadrante y se grafica avanzando 3.5 unidades a la
derecha sobre el eje X, y desde ahí cuatro unidades hacia abajo. El primer número de cada uno de
estos pares es la abscisa del punto y el segundo número es la ordenada del punto. La abscisa y la
ordenada, juntas, son coordenadas del punto.

Las ideas anteriores pueden ampliarse construyendo un eje z a través del origen y perpendicular
al plano XY. En este caso las coordenadas de cada punto se denotan (X, Y, Z)

Figura 1-1 grafica de los puntos en los cuatro cuadrantes.

GRAFICAS

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 10


2023-I

Una grafica es una representación visual de la relación entre las variables. En estadística,
dependiendo de la naturaleza de los datos y del propósito que se persiga, se emplean distintos
tipos de graficas: graficas de barras, de pastel, pictogramas, etc. A las graficas también se les
suele llamar cartas o diagramas. Así se habla de cartas de barra, diagramas de pastel, etc. (ver los
problemas 1.23, 1.24, 1.25, 1.26 y 1.27)

ECUACIONES.
Las ecuaciones son expresiones de la forma A=B, donde A es el miembro (o lado) izquierdo de la
ecuación y B es el miembro (o lado) derecho. Si se aplican las mismas operaciones a ambos lados
de una ecuación se obtienen ecuaciones equivalentes. Así, si a ambos miembros de una ecuación
se suman o se restan un mismo número se obtiene una ecuación equivalente; también, si ambos
lados se multiplican por un mismo número o se dividen entre un mismo número, con excepción de
la división entre cero que no es validad, se obtiene una ecuación equivalente.
EJEMPLO 22
Dada la ecuación 2x + 3 = 9, se resta 3 a ambos miembros: 2x+3-3=9-3 o 2x=6. Se divide ambos
miembros entre 2: 2x/2=6/2 o x=3. Este valor de X es una solución de la ecuación dada, como se
puede ver sustituyendo X por 3, con lo que se obtiene 2(3)+3=9 o 9=9, que es una identidad. Al
proceso de obtener soluciones de una ecuación se le conoce como resolver una ecuación.
Las ideas anteriores pueden extenderse a hallar soluciones de dos ecuaciones con dos incógnitas,
de tres ecuaciones en tres incógnitas, etc. A tales ecuaciones se les conoce como ecuaciones
simultáneas (ver problema 1.30)

DESIGUALDADES.
Los símbolos ˂ y ˃ significan “menor que” y “mayor que”, respectivamente. Los símbolos ≤ y ≥
significan “menor o igual a” y “mayor o igual a”, respectivamente. Todos estos símbolos se conocen
como signos de desigualdad.
EJEMPLO 23
3˂ 5 se lee…………………
EJEMPLO 24
5˃ 3 se lee…….
EJEMPLO 25
X ˂ 8 se lee………………
EJEMPLO 26
X ≥ 10 se lee……..

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 11


2023-I

EJEMPLO 27 4˂Y≤6 se lee “4 es menor que Y y Y es menor o igual a 6” o “Y está entre 4 y 6,


excluyendo al 4 e incluyendo al 6” o “Y es mayor que 4 y menor o igual a 6”.
A las relaciones en las que intervienen signos de desigualdad se les llama desigualdades. Así
como se habla de miembros de una ecuación, también se habla de miembros de una desigualdad.
Por lo tanto, en la desigualdad 4 ˂ Y ≤6, los miembros son 4, Y y 6.
Una desigualdad valida sigue siendo válida si:
1. A cada miembro de la desigualdad se le suma o se le resta un mismo número.
EJEMPLO 28 como 15 ˃ 12, 15 +3 ˃ 12 +3 (es decir, 18˃ 15) y 15 -3 ˃ 12-3 (es decir, 12˃9)
2. Cada miembro de la desigualdad se multiplica por un mismo número positivo o se divide
entre un mismo número positivo.
EJEMPLO 29 como 15 ˃ 12, (15) (3) ˃ (12) (3) (es decir, 45˃36) y 15/3˃12/3 (es decir, 5˃4)
3. Cada miembro se multiplica o se divide por un mismo número negativo, lo que indica
que los símbolos de la desigualdad son invertido.

EJEMPLO 30 como 15 ˃12, (15) (-3) ˂ (12) (-3) (es decir, -45 ˂ -36) y 15/-3˂ 12/-3 (es decir, -5 ˂-
4)

LOGARITMO

Si X ˃ 0, b˃0 y b≠ 1, y=
logb x si y solo si log b y= X . Un logaritmo es un exponente. Es la potencia
a la que hay que elevar la base b para obtener el numero del que se busca el logaritmo. Las dos
base más utilizadas son el 10 y la e, que es igual a 2.71828182…… a los logaritmos base 10 se

les llama logaritmo comunes y se escriben


log10 x o simplemente log( x) . A los logaritmos base e

se les llama logaritmos naturales y se escriben ln( x)


EJEMPLO 31

Encuentre los siguientes logaritmos y después encuéntrelos usando Excel;


log 2 8 , log5 25 , y

log 10 1000 . La potencia a la que hay que elevar al 2 para obtener 8 es tres, así log 2 8 =3. La

potencia al que hay que elevar 5 para obtener 25 es dos, así


log 5 25 =2. La potencia al que hay que

elevar 10 para obtener 1000 es 3, así


log 10 1000 =3. Excel tiene tres funciones para calcular
logaritmos. La función LN calcula logaritmos naturales, la función LOG10 calcula logaritmos
comunes y la función LOG(x, b) calcula el logaritmo de x base b. =LOG (8,2) da 3, =LOG (25,5) da
2, =LOG10 (1000) da 3.
EJEMPLO 32

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 12


2023-I

Calcule los logaritmos naturales de los número del 1 al 5 usando Excel. Los números 1 a 5 se
ingresan en las celdas B1:F1 y en la celda B2 se ingresa la expresión =LN (B1), se hace clic y se
arrastra desde B2 hasta F2. Excel proporciona el siguiente resultado.
X 1 2 3 4 5
LN(x) 0 0,69314718 1,09861229 1,38629436 1,60943791

PROPIEDADES DE LOS LOGARITMOS

Las propiedades más importantes de los logaritmos son las siguientes:


1. log b MN=log b M + log b N
M
2. log b =log b M −log b N
N
3 . log b M p = p log b M

EJEMPLO 33
xy 4
log b ( )
Escriba z 3 como suma o diferencia de logaritmos de x, y y z

ECUACIONES LOGARÍTMICAS.
Para resolver ecuaciones logarítmicas:
1. Todos los logaritmos se aíslan en un lado de la ecuación.
2. Las sumas y diferencias de logaritmos se expresan como un solo logaritmo.
3. La ecuación obtenida en el paso 2 se expresa en forma exponencial.
4. Se resuelve la ecuación obtenida en el paso 3
5. Se verifican las soluciones.
EJEMPLO 34
Solucione la siguiente ecuación logarítmica:
log 4 ( x +5 )=3 .
EJEMPLO 34
Resuelva la siguiente ecuación logarítmica
Log (6y-7) + log (y)=log (5)
Problemas para resolver en clase:
VARIABLES
1.1 En cada uno de los siguientes casos indique si se trata de datos continuos o
Datos discretos

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 13


2023-I

a) Cantidad de acciones que se venden diariamente en la bolsa de valores.


b) Temperatura registrada cada media hora en un observatorio.
c) Vida media de los cinescopios producidos por una empresa.
d) Ingreso anual de los profesores universitarios.
e) Longitud de 100 pernos producidos en una fabrica
1.4 Dar el dominio de cada una de las siguientes variables e indicar si es una variable
continua o discreta
a) Cantidad G de galones (gal) de agua en una lavadora.
b) Cantidad B de libros en un anaquel
c) Suma S de la cantidad de puntos que se obtienen al lanzar un par de dados.
d) Diámetro D de una esfera.
e) País C en Europa

REDONDEO DE CANTIDADES NUMERICAS


1.5 Redondear cada uno de los números siguientes como se indica:
a) 48.6 a la unidad más cercana
b) 136.5 a la unidad más cerca
c) 2.484 a la centésima más cercana
d) 0.0435 a la milésima más cercana
e) 4.50001 a la unidad más cercana
f) 143.95 a la decima más cercana
g) 368 a la centena más cercana
h) 24448 al millar más cercano
i) 5.56500 a la centésima más cercana.
j) 5.56501 a la centésima más cercana.

1.6 Sumar los números 4.35, 8.65, 2.95, 12.45, 6.65, 7.55 y 9.75: a) directamente, b) redondeando
a la decima más cercana de acuerdo con la convención del “entero par” y c) redondeando de
manera que se incremente el digito antes del 5.

NOTACIÓN CIENTÍFICA Y CIFRAS SIGNIFICATIVAS

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 14


2023-I

1.7 Expresar cada uno de los siguientes números sin utilizar potencias de 10
7
a) 4.823x 10
−6
b) 8.4x 10
−7
c) 3.8x 10
5
d) 1.86x 10
8
e) 300x 10
−10
f) 70000x 10
1.8 En cada inciso diga cuantas cifras significativas hay, entendiéndose que los números se han
dado exactamente.
a) 149.8 in
b) 149.80 in
c) 0.0028 metros (m)
d) 0.00280 m
e) 1.00280 m
f) 9 gramos (g)
g) 9 casas
3
h) 4.0x 10 libras (lb)
−5
i) 7.584x 10 dinas
1.9 ¿Cuál es el error máximo en cada una de las mediciones siguientes, entendiéndose que se han
registrado exactamente?
a) 73.854 in
b) 0.09800 pies cúbicos
8
c) 3,867x 10 kilómetros (km)
1.10 Escribir cada número empleando la notación científica. A menos que se indique otra cosa,
supóngase que todas las cifras son significativas.
a) 24 380 000 (cuatro cifras significativas)
b) 0.00000985
c) 7300 000 000 (cinco cifras significativas)
d) 0.00018400

CÁLCULOS

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 15


2023-I

1.11 Mostrar que el producto de los números 5.74 y 3.8, entendiéndose que tienen tres y dos
cifras significativas, respectivamente, no puede ser exacto a más de dos cifras significativas.

1.12 Sume los números 4.19355, 15.28, 5.9561, 12.3 y 8.472, entendiéndose que todas las cifras
son significativas.

1.13 Calcular 475 000 000 + 12 684000-1372410 si estos números tienen tres, cinco y siete cifras
significativas, respectivamente.

1.14 Realizar las siguientes operaciones.


a) 48.0x943
b) 8.35/98
c) (28)(4193)(182)
d) (526.7)(0.001280)/0.000034921
(1.47562−1. 47322 )( 4895 .36 )
e) 0 . 000159180
( 4 . 38 )2 ( 5 . 482 )2
+
f) Si los denominadores 5 y 6 son exactos, 5 6

g) 3.1416 √ 71.35
h) √ 128.5−89.24
1.15 Evaluar cada una de las expresiones siguientes, con X=3, Y=-5, A=4 y B=-7, donde todos los
números se supone que son exactos:
a) 2x-3y
b) 4y-8x+28
AX+BY
c) BX− AY
2 2
d) X −3 XY −2 Y
e) 2(X+3Y)-4(3X-2Y)

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 16


2023-I

2 2
X −Y
f) A 2−B2 +1

g) √ 2 X 2−Y 2−3 A2 +4 B2 +3

h) √ 6 A2 2 B2
X
+
Y

FUNCIONES Y GRAFICAS

1.16 En la tabla 1.1 se representan las cantidades de búshels (bu) de trigo y maíz producidos en
una granja en los años 2002, 2003, 2004, 2005 y 2006. De acuerdo con esta tabla, determinar
el año o los años en los que: a) se produjeron menos búshels de trigo, b) se produjo la mayor
cantidad de búshels de maíz, c) hubo la mayor disminución en la producción de trigo, d) se
produjo una misma cantidad de trigo, e) la suma de la producción de trigo y maíz fue máxima.
Tabla 1.1 producción de trigo y maíz desde 2002 hasta 2006
Año Búshels de trigo Búshels de maíz
2002 205 80
2003 215 105
2004 190 110
2005 205 115
2006 225 120

1.17 Sean W y C, respectivamente, las cantidades de búshels de trigo y maíz producidos en el año
t en la granja del problema 1.14. es claro que W y C son funciones de t, esto se indica como
W=F(t) y C=G(t)
a) Encontrar W para t=2004
b) Encontrar C para t=2002
c) Encontrar t para W=205
d) Encontrar F(2005)
e) Encontrar G(2005)
f) Encontrar C para W=190

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 17


2023-I

g) ¿Cuál es el dominio de la variable t?


h) ¿es W una función univalente de t?
i) ¿es t función de W?
j) ¿es C función de W?
k) ¿Cuál es una variable independiente, t o W?
1.18 Una variable Y está determinada por otra variable X de acuerdo con la ecuación Y=2x-3,
donde el 2 y el 3 son exactos.
a) Encontrar Y para X=3, -2 y 1.5.
b) Construir una tabla en la que se den los valores de Y para X=-2, -1, 0, 1, 2, 3 y 4
c) Si Y=F(x) denota que Y depende de X, determinar F(2.4) y F(0.8)
d) ¿Cuál es el valor de X que corresponde a Y=15?
e) ¿puede expresarse X como función de Y?
f) ¿es Y una función univalente de X?
g) ¿es X una función univalente de Y?
1.19 Si Z=16+4X-3Y, hallar el valor de Z que corresponda a: a) X=2, Y=5; b) X=-3, Y=-7; c) X=-4,
Y=2

1.20 Los gasto fijos de una empresa son de $1 000 por día y los costo de producción de cada
artículo son de $25.
a) Escribir una ecuación que exprese el costo total de producción de x unidades por día
b) Usando Excel, elaborar una tabla en la que se den los costos de producción de 5, 10, 15,
20, 25, 30, 35, 40, 45, y 50 unidades por día.
c) Evaluar e interpretar f(100)

1.21 El ancho de un rectángulo es x y el largo es x+10


a) Escribir una función, A(x), que exprese el área en función de x.
b) Usar Excel, para elaborar una tabla que de el valor de A(x) para x=0, 1, ……, 5
c) Escribir una función, P(x), que exprese el perímetro en función de x.
d) Usar Excel para elaborar una tabla que de el valor de P(x) para x= 0, 1,……..,5.

1.22 En un sistema de coordenada rectangulares localizar los puntos que tienen como
coordenadas: a) (5,2), b) (2,5), c) (-5, 1), d) (1, -3), e) (3, -4), f) (-2.5, 4.8), g) (0,-2.5) y h) (4, 0)
usar MAPLE para graficar estos puntos.
1.23 Graficar la ecuación Y=4x-4

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 18


2023-I

2
1.24 Graficar la ecuación Y =2 X −3 X −9
1.25 La tabla 1.4 muestra el aumento de la cantidad de diabéticos desde 1997 hasta 2005.
Grafique estos datos.

Tabla 1.4 cantidad de nuevos diabéticos.


Año 1997 1998 199 2000 2001 2002 200 2004 2005
9 3
millones 0.88 0.90 1.01 1.10 1.20 1.25 1.28 1.36 1.41

1.26 Grafique los datos del problema 1.14 usando una grafica de MINITAB para serie de tiempos,
una grafica de barras agrupadas con efecto tridimensional (3-D) de Excel y una grafica de
barras apiladas con efecto 3-D de Excel.

1.27 a) expresar las cantidades anuales de búshels de trigo y maíz, presentadas en la tabla 1.1 del
problema 1.4, como porcentaje de producción anual total
b) graficar los porcentajes obtenidos en el inciso a)

1.28 en un numero reciente de USA today, una nota titulada “peligro en línea”, informa de un
estudio realizado a 1500 niños entre 10 y 17 años de edad. Presentar la información de la
tabla 1.6 en una grafica de barras agrupadas y en una grafica de barras apiladas.
Tabla 1.6
Año Prostitución Contacto con la Acoso
pornografía
2000 19% 25% 6%
2005 13% 34% 9%

1.29 En una nota reciente de USA today titulada “¿Dónde están los estudiantes universitarios?”, se
informo que en estados Unidos hay más de 17.5 millones de universitarios que estudian en
más de 6400 escuelas. En la tabla 1.7 se da la matricula de acuerdo al tipo de escuela.
Tabla 1.7 ¿Dónde están los estudiantes universitarios?
Tipo de escuela Porcentaje
Publica de 2 años 43
Publica de 4 años 32
Privada no lucrativa de 4 años 15

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 19


2023-I

Privada de 2 y 4 años 6
Privada con menos de 4 años 3
Otras 1
Construya una grafica de barras
1.30 los estadounidenses tienen un promedio 2.8 televisores por hogar. Con los datos de la tabla
1.8 elabore una grafica de pastel usando Excel.
Tabla 1.8 televisores por hogar
televisores Porcentajes
ninguno 2
Uno 15
Dos 29
Tres 26
cuatro 16
Más de 12
cinco

ECUACIONES
1.31 resuelva las siguientes ecuaciones:
a) 4a-20=8
b) 3x+4=24-2x
c) 18-5b=3(b+8)+10
Y +2 Y
+1=
d) 3 2
1.32 Resolver los siguientes sistemas de ecuaciones simultaneas:
a) 3a -2b =11
5a+7b=39
b) 5x+14y=78
7x+3y=-7
c) 3a +2b + 5c= 15
7a -3b + 2c = 52
5a + b -4c = 2
DESIGUALDADES

1.33 Expresar con palabras el significado de :

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 20


2023-I

a) N˃30
b) x≤12
c) 0˂p≤1
d) µ-2t˂x˂µ+2t

1.34 traducir a símbolos lo siguiente:

a) la variable x toma valores entre 2 y 5 inclusive.

b) La media aritmética x es mayor que 28.42 y menor que 31.56.


c) M es un numero positivo menor o igual a 10
d) P es un número no negativo

1.35 Empleando los signos de desigualdad, ordenar los números 3.42, -0.6, -2.1, 1.45 y -3 en a)
en orden creciente de magnitud y en b) en orden decreciente de magnitud.

1.36 Resolver cada una de las desigualdades siguientes ( es decir , despejar X)


a) 2x˂6
b) 3x-8≥4
c) 6-4x˂-2
x−5
d) -3˂ 2 ˂3
3−2 x
e) -1˂ 5 ˂7

LOGARITMOS Y PROPIEDADES DE LOS LOGARITMOS

1.37 Utilizar la definición y=


log b x para hallar los logaritmos siguientes y después usar Excel para

verificar la respuesta .(observes que y=


log b x significa que b y=x .
a) Encontrar el log de base 2 de 32
b) Encontrar el log de base 4 de 64
c) Encontrar el log de base 6 de 216
d) Encontrar el log de base 8 de 4096
e) Encontrar el log de base 10 de 10 000

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 21


2023-I

1.38 Empleando las propiedades de los logaritmos, volver a escribir los logaritmos siguientes
como suma y diferencias de logaritmos.

a)
ln ( )
x2 y3 z
ab

log (
yz )
2 3
abc
b)
Empleando las propiedades de los logaritmos, reescribir los logaritmos siguientes como un solo
logaritmo.
d) Ln(5) + ln(10) -2 ln(5)
e) 2 log(5) -3 log(5) +5log(5)

1.39 Graficar y =ln(x)

ECUACIONES LOGARITMICAS.

1.40 Resolver la ecuación logarítmica ln(x)=10


1.41 Resolver la ecuación logarítmica log(x+2) + log (x-2)=log (5)

1.42 Resuelva la ecuación logarítmica log (a+4)-log (a-2)=1

2
1.43 Resolver la ecuación logarítmica ln ( x ) -1=0

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 22


2023-I

1.44 En la ecuación logarítmica siguiente, despejar x: 2log(x+1)-3log(x+1)=2


UNIVERSIDAD NACIONAL
JOSÉ FAUSTINO SÁNCHEZ CARRIÓN

Facultad de Ciencias Empresariales


Escuela Académico turismo

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 23


2023-I

ASIGNATURA: ESTADISTICA APLICADA AL TURISMO


TEMA 2: DISTRIBUCIÓN DE FRECUENCIAS

Semestre Académico : 2023 - I


Docente : Solís Huertas Carlos Jorge
Colegiatura : 092047
Correo Electrónico : jokarso@hotmail.com,
DISTRIBUCIÓN DE FRECUENCIAS
DATOS EN BRUTO
Los datos en brutos son los datos recolectados que aun no se han organizado. Por ejemplo, las
estaturas de 100 estudiantes tomados de la lista alfabética de una universidad.

ORDENACIONES
Ordenación se le llama a los datos numéricos en bruto dispuestos en orden creciente o decreciente
de magnitud. A la diferencia entre el número mayor y el número menor se le conoce como el rango
de los datos. Por ejemplo, si la estatura mayor en los 100 estudiantes es de 74 pulgadas (in) y la
menor es 60 in, el rango es 74-60=14 pulgadas (in).

DISTRIBUCIÓN DE FRECUENCIA.
Al organizar una gran cantidad de datos en bruto, suele resultar útil distribuirlo en clase o
categorías y determinar la cantidad de datos que pertenecen a cada clase; esta cantidad se conoce
como la frecuencia de clase. A la disposición tabular de los datos en clases con sus respectivas
frecuencias de clase se le conoce como distribución de frecuencias o tabla de frecuencia. La tabla
2.1 es una distribución de frecuencia de las estaturas (registradas a la pulgada más cercana) de
100 estudiantes de la universidad XYZ
Tabla 2.1 estaturas de 100 estudiantes de la universidad XYZ

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 24


2023-I

Estatura (in) Cantidad de estudiantes


60-62 5
63-65 18
66-68 42
69-71 27
72-74 8
Total 100

La primera clase o categoría, por ejemplo, consta de las estaturas que van desde 60 hasta 62
pulgadas y queda identificada por el símbolo 60-62. Como hay 5 estudiantes cuyas estaturas
pertenecen a esta clase, la frecuencia de clase correspondientes es 5.
A los datos organizados y resumidos como en la distribución de frecuencias anterior se les llama
datos agrupado. Aunque la agrupar los datos se pierde muchos de los detalles originales de los
datos, esto tiene la ventaja de que se obtiene una visión general clara y se hacen evidentes las
relaciones.
INTERVALOS DE CLASE Y LÍMITES DE CLASE.
El símbolo que representa una clase, como 60-62 en la tabla 2.1, se le conoce como intervalo de
clase. A los números de los extremos, 60 y 62, se les conoce como limites de clase; el número
menor (60) es el límite inferior de clase, y el numero mayor (62) es el límite superior de clase. Los
términos clase e intervalo de clase se suelen usar indistintamente, aunque el intervalo de clase en
realidad es un símbolo para la clase.
Un intervalo de clase que, por lo menos teóricamente, no tenga indicado el límite de clase superior
o el límite de clase inferior, se conoce como intervalo de clase abierto. Por ejemplo, al considerar
grupos de edades de personas, un intervalo que “65 años o mayores” es un intervalo de clase
abierto.

FRONTERAS DE CLASE.
Si las estaturas se registraban a la pulgada más cercana, el intervalos de clase 60-62 comprende
teóricamente todas las mediciones desde 59.50000 hasta 62.50000 in. Estos números que se
indican brevemente mediante los números exactos 59.5 y 62.5 son las fronteras de clase o los
límites reales de clase; el menor de los números (59.5) es la frontera inferior de clase y el número
mayor (62.5) es la frontera superior de clase.
En la práctica, las fronteras de clase se obtienen sumando el límite superior de un intervalo de
clase al límite inferior del intervalo de clase inmediato superior y dividido entre dos.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 25


2023-I

Algunas veces, las fronteras de clase se usan para representar a las clases. Por ejemplo, las
clases de la tabla 2.1 pueden identificarse como 59.5-62.5, 62.5-65.5, etc. Para evitar
ambigüedades cuando se usa esta notación, las fronteras de clase no deben coincidir con las
observaciones. Por lo tanto, si una observación es 62.5, no es posible decidir si pertenece al
intervalo 59.5 -62.5 o al intervalo 62.5-65.5

TAMAÑO O AMPLITUD DE UN INTERVALO DE CLASE.

El tamaño, o la amplitud, de un intervalo de clase es la diferencia entre su frontera superior e


inferior y se le conoce también como amplitud de clase, tamaño de clase o longitud de clase. Si en
una distribución de frecuencia todos los intervalos de clase tienen la misma amplitud, esta amplitud
común se denota C. en este caso, C es igual a la diferencia entre dos límites inferiores de clases
sucesivas o entre los límites superiores de clases sucesivas. Por ejemplo, en los datos de la tabla
2.1, el intervalo de clase es c=62.5-59.5=65.5-62.5=3

LA MARCA DE CLASE
La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites de
clase inferior y superior y dividiendo entre 2... Así, la marca de clase del intervalo 60-62 es
(60+62)/2=61. A la marca de clase también se le conoce como punto medio de clase.
Para los análisis matemáticos posteriores, se supone que todas las observaciones que pertenecen
a un intervalo dado coinciden con la marca de clase. Así, se considera que todas las estaturas en
el intervalo de clase 60-62 in son de 61 in.

REGLAS GENERALES PARA FORMAR UNA DISTRIBUCIÓN DE


FRECUENCIAS.

1. En el conjunto de los datos en bruto, se determina el número mayor y el número menor y se


halla, así, el rango (la diferencia entre los números mayor y menor).
2. Se divide el rango en una cantidad adecuada de intervalos de clase de una misma amplitud.
Si esto no es posible, se usan intervalos de clase de diferentes amplitudes o intervalos de
clase abiertos (ver problema 2.12). la cantidad de intervalo suele ser de 5 a 20,
dependiendo de los datos. Los intervalos de clase también suelen elegirse de manera que

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 26


2023-I

las marcas de clase (o puntos medio de clase) coincidan con los datos observados. Esto
tiende a disminuir el llamado error de agrupamiento en los análisis matemáticos
subsiguientes. En cambio, las fronteras de clase no deben coincidir con los datos
observados.
3. Se determina la cantidad de observaciones que caen dentro de cada intervalo de clase, es
decir, se encuentran las frecuencias de clase. La mejor manera de hacer esto es utilizando
una hoja de conteo (ver problema 2.8)

HISTOGRAMAS Y POLÍGONOS DE FRECUENCIAS.

Los histogramas y los polígonos de frecuencias son dos representaciones graficas de las
distribuciones de frecuencias.
1. Un histograma o histograma de frecuencia consisten en un conjunto de rectángulos que
tienen: a) sus bases sobre un eje horizontal (el eje X), con sus centros coincidiendo con las
marcas de clase de longitudes iguales a la amplitud del intervalo de clase, y b) aéreas
proporcionales a las frecuencias de clase.
2. Un polígono de frecuencias es una grafica de líneas que presenta las frecuencia de clase
graficadas contra las marca de clase. Se puede obtener conectando los puntos medios de
las partes superiores de los rectángulos de un histograma.
En la figuras 2.1 y 2.2 se muestran el histograma y el polígono de frecuencias
correspondientes a la distribución de frecuencias de las esturas presentadas en la tabla 2.1

40

30

20

10

0 61 64 67 70 73

Figura 2-1 MINITAB, histograma que muestra los puntos medios y las frecuencias de clase.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 27


2023-I

Obsérvese en la figura 2.2 como el polígono de frecuencia se ha anclado en sus extremos,


es decir, en 58 y 76.

DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS.

La frecuencia relativa de una clase es la frecuencia de la clase dividida entre la suma de las
frecuencias de todas las clases y generalmente se expresa como porcentaje, por ejemplo
en la tabla 2.1, la frecuencia relativa de la clase 66-68 es 42/100=42%. Por supuesto, la
suma de la frecuencia relativa, de todas las clases es 1 o 100%
Si en tabla 2.1 las frecuencias se sustituyen por frecuencias relativas, la tabla que se
obtiene es una distribución de frecuencias relativas, distribución porcentual o tabla de
frecuencias relativas.
Las representaciones graficas de las distribuciones de frecuencias relativas se obtienen a
partir de los histogramas o polígonos de frecuencias, cambiando únicamente, en la escala
vertical, las frecuencias por las frecuencias relativas y conservando la grafica exactamente
igual. A las graficas que se obtienen se les llama histogramas de frecuencias relativas (o
histogramas porcentuales) y polígonos de frecuencia relativas (o polígonos porcentuales),
respectivamente.
DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS Y OJIVAS.
A la suma de todas las frecuencias menores que la frontera superior de un intervalo de
clase dado se le llama frecuencia acumulada hasta ese intervalo de clase inclusive. Por
ejemplo, en la tabla 2.1, la frecuencia acumulada hasta el intervalo de clase 66-68 inclusive
es 5+18+42=65, lo que significa que 65 estudiantes tienen una estatura menor a 68.5 in

Frecuencia

40

30

20

10

0 58 61 64 67 70 73 76

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 28


2023-I

Figura 2.2 Polígono de frecuencia de las estaturas de los estudiantes.

A una tabla en la que se presentan las frecuencias acumuladas se le llama distribución de


frecuencia acumuladas, tabla de frecuencia acumulada o simplemente distribución
acumulada y se presenta en la tabla 2.2 para la distribución de las estaturas de los
estudiantes de la tabla 2.1

Tabla 2.2
Estaturas (in) Cantidad de estudiantes
Menos de 0
59.5 5
Menos de 23
62.5 65
Menos de 92
65.5 100
Menos de
68.5
Menos de
71.5
Menos de
74.5

Una grafica que muestra las frecuencias acumuladas de menores de cada frontera superior
de la clase respecto a cada frontera superior de clase se le conoce como grafica de
frecuencias acumulada u ojivas. En algunas ocasiones se desea considerar distribuciones
de frecuencias mayores o iguales que la frontera inferior de cada intervalo de clase. Como
en ese caso se consideran las estaturas de 59.5 in o más, de 62.5 in o más, etc. A estas
distribuciones se le suelen llamar distribuciones acumuladas “o más que”, en tanto que las
distribuciones consideradas antes son distribuciones acumuladas “o menos qué”. Una
puede obtenerse fácilmente de la otra. A las ojivas correspondientes se les llama ojivas
“mas que” y ojivas “menos que”. Aquí, siempre que se hable de distribuciones acumuladas
o de ojivas, sin más, se tratara del tipo “menos que”.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 29


2023-I

DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS RELATIVAS Y


OJIVAS PORCENTUALES.
La frecuencia acumulada relativa o frecuencia acumulada porcentual es la frecuencia
acumulada dividida entre la suma de todas las frecuencias (frecuencia total). Por ejemplo, la
frecuencia acumulada relativa de las estaturas menores que 68.5 in es 65/100=0.65 o 65%,
lo que significa que 65% de los estudiantes tienen estaturas menores a 68.5 in. Si en la
tabla 2.2 se emplea la frecuencia acumuladas relativas en lugar de las frecuencias
acumuladas, se obtiene una distribución de frecuencia acumulada relativa (o distribución
acumulada porcentual) y una grafica de frecuencias acumuladas relativas (u ojiva
porcentual) respectivamente.

CURVAS DE FRECUENCIA Y OJIVAS SUAVIZADAS.

Suele considerarse que los datos recolectados pertenecen a una muestra obtenida de una
población grande. Como de esta población se pueden obtener muchos observaciones,
teóricamente es posible (si son datos continuos) elegir intervalos de clase muy pequeños
y, a pesar de ello, tener un número adecuado de observaciones que caiga en cada clase.
De esta manera, cuando se tienen poblaciones grandes puede esperarse que los polígonos
de frecuencias, o lo polígonos de frecuencia relativa, correspondientes a estas poblaciones
estén formados por una gran cantidad de pequeños segmentos de recta de maneras que
en sus formas se aproxime a las de una curvas, a las cuales se les llama curvas de
frecuencias o curvas de frecuencia relativas, respectivamente.
Es razonable esperar que estas curvas teóricas puedan ser aproximadas suavizando
los polígonos de frecuencias o los polígonos de frecuencias relativas de la muestra; esta
aproximación mejorara a medida que aumenta el tamaño de la muestra. Esta es la razón
por la que a las curvas de frecuencia se les suele llamar polígonos de frecuencia
suavizados.
De igual manera, suavizando las graficas de frecuencia acumuladas u ojivas, se obtiene
ojivas suavizadas. Por lo general, es más fácil suavizar una ojiva que un polígono de
frecuencia.

TIPOS DE CURVAS DE FRECUENCIA


Las curvas de frecuencia que surgen en la práctica toman ciertas características, como las
que se muestran en la figura 2.3

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 30


2023-I

Simétrica o en forma sesgada a la derecha


De campana

Sesgada a la izquierda uniforme

Figura 2-3 cuatro distribuciones que se encuentran con por lo común.

1. Las curvas simétricas o en forma de campana se caracterizan por que las


observaciones equidistantes del máximo central tienen la misma frecuencia. Las
estaturas tanto de hombres como de mujeres adultos tienen distribuciones en forma
de campana
2. Las curvas que tienen colas hacia la izquierda se dice que son sesgadas a la
izquierda. Las curvas de la cantidad de años que viven hombre y mujeres son
sesgadas a la izquierda. Pocos mueren jóvenes y la mayoría muere entre los 60 a
80 años. En general, las mujeres viven en promedio diez años más que los hombres.
3. Las curvas que tienen cola hacia ala derecha se dicen que son sesgadas a la
derecha. Las curvas a las edades en que se casan tanto hombres como mujeres son
sesgadas a la derecha. La mayoría se casan entre los 20 y 30 años y pocos se
casan alrededor de los cuarenta, cincuenta, sesenta o setenta años.
4. Las curvas que tienen aproximadamente las mismas frecuencias para todos sus
valores se dice que son curvas distribuidas uniformemente. Por ejemplo, las
maquinas dispensadoras de refresco lo hacen de manera uniforme entre 15.9 y 16.1
onzas.
5. Las curvas de frecuencia en forma de J o en forma de J inversa son curvas en el que
el máximo se presenta en uno de sus extremos.
6. Las curvas de frecuencia en forma de U son curvas que tienen un máximo en ambos
extremos y un mínimo en medio.
7. Las curvas bimodales son curvas que tiene dos máximos.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 31


2023-I

8. Las curvas multimodales tiene más de dos máximos


PROBLEMAS PARA RESOLVER EN CLASE.
OBSERVACIONES
2.1 a) disponer los números 17, 45, 38, 27, 6, 48, 11, 57, 34 y 22 en una ordenación
b) determinar el rango de estos números.

2.2 En la tabla siguiente se presentan las calificaciones finales que obtuvieron en matemática
80 alumnos de una universidad
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
De acuerdo con la tabla, encontrar:
a) La calificación más alta
b) La calificación más baja
c) El rango
d) Las calificaciones de los cincos mejores estudiantes
e) Las calificaciones de los cinco peores estudiantes.
f) La calificación del alumno que tiene el decimo lugar entre las mejores calificaciones.
g) El número de estudiantes que obtuvieron 75 o más.
h) El número de estudiantes que obtuvieron 85 o menos
i) El porcentaje de los estudiantes que obtuvieron calificaciones mayores a 65 pero no
mayores a 85.
j) Las calificaciones que no aparecen en esta tabla.
Solución:
DISTRIBUCIÓN DE FRECUENCIAS, HISTOGRAMAS Y POLÍGONOS DE FRECUENCIA
2.3 la tabla 2.5 muestra una distribución de frecuencias de los salarios semanales de 65 empleados
de la empresa P&R, con los datos de la tabla determinar:
a) el límite inferior de la sexta clase.
b) El límite superior de la cuarta clase.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 32


2023-I

c) La marca de clase (o punto medio de clase) de la tercera clase.


d) Las fronteras de clase de la quinta clase.
e) La amplitud del intervalo de la quinta clase.
f) La frecuencia de la tercera clase.
g) La frecuencia relativa de la tercera clase.
h) El intervalo de clase de mayor frecuencia. A este intervalo se le suele llamar intervalo de
clase modal y su frecuencia se le conoce como frecuencia de la clase modal.
i) El porcentaje de empleados que gana menos de $280.00 por semana.
j) El porcentaje de empleados que gana menos de $300.00 por semana, pero por lo
menos $260.00 por semana.

Tabla 2.5
salarios Número de empleados
$250.00- 8
$259.99 10
$260.00- 16
$269.99 14
$270.00- 10
$279.99 5
$280.00- 2
$289.99
$290.00- 299.99
$300.00-
$309.99
$310.00-
$319.99
Total 65

2.4 si las marcas de clase en una distribución de frecuencia de pesos de estudiantes son de 128, 137,
146, 155, 164, 173 y 182 libras, encuentre: a) la amplitud de intervalo de clase, b) las fronteras
de clase y c) los límites de clase, suponiendo que los pesos se hayan redondeado a la libra
más cercana.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 33


2023-I

2.5 se toma una muestra de la cantidad de tiempo, en horas por semana, que los estudiantes
universitarios usan su celular. Usando SPSS , la secuencia “Analyze→descriptive
statistics→frequencies” da el resultado mostrado en la figura 2.4
Tiempo

frecuencias porcentaj Porcentaje Porcentajes


e validos acumulados
valido 3.00 3 6.0 6.0 6.00
4.00 3 6.0 6.0 12.00
5.00 5 10.0 10.0 22.00
6.00 3 6.0 6.0 28.00
7.00 4 8.0 8.0 36.00
8.00 4 8.0 8.0 44.00
9.00 3 6.0 6.0 50.00
10.00 4 8.0 8.0 58.00
11.00 2 4.0 4.0 62.00
12.00 2 4.0 4.0 66.00
13.00 3 6.0 6.0 72.00
14.00 1 2.0 2.0 74.00
15.00 2 4.0 4.0 78.00
16.00 5 10.0 10.0 88.00
17.00 2 4.0 4.0 92.00
18.00 1 2.0 2.0 94.00
19.00 2 4.0 4.0 98.00
20.00 1 2.0 2.0 100.00
total 50 100.00 100.00

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 34


2023-I

Figura 2-4 SPSS, resultado para el problema 2.5


a) ¿Qué porcentaje usa su celular 15 o menos horas por semana?
b) ¿Qué porcentaje usa su celular 10 o más horas por semana?
Solución:

2.6 De 150 mediciones, la menor es 5.18 in y la mayor es 7.44 in. Determinar un


conjunto adecuado: a) de intervalo de clase, b) de fronteras de clase y c) de marca
de clase que se pueda usar para elaborar una distribución de frecuencias con estas
mediciones.
Solución:

2.7 Al resolver el problema 2.6 a), un estudiante elije un intervalo de clase 5.10-5.40, 5.40-
5.70,……….6.90-7.20 y 7.20-7.50. ¿hay algún problema con esta elección?
Solución:

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 35


2023-I

2.8 En la tabla siguiente se presentan los pesos, dados a la libra más cercana, de 40
estudiantes de una universidad. Elaborar una distribución de frecuencias.

138 164 150 132 144 125 149 157


146 158 140 147 136 148 152 144
168 126 138 176 163 119 154 165
146 173 142 147 135 153 140 135
161 145 135 142 150 156 145 128
Solución:

2.9 Se toman las estaturas de 45 estudiantes del sexo femenino de una universidad; a
continuación se presentan estas estaturas registradas a la pulgada más cercana.
elaborar un histograma.
67 67 64 64 74 61 68 71 69 61 65 64 62 63 59
70 66 66 63 59 64 67 70 65 66 66 56 65 67 69
64 67 68 67 67 65 74 64 62 68 65 65 65 66 67

2.10 En la tabla 2.8 se dan las distancias, en millas, que recorren 50 estudiantes
del metropolitan college de sus casas a la universidad.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 36


2023-I

Tabla 2.8 Distancia al metropolitan college (millas)


4.3 7.0 8.0 3.9 3.7 8.4 2.6 1.0 15.7 3.9
6.5 8.7 0.9 0.9 12.6 4.0 10.3 10.0 6.2 1.1
7.2 8.8 7.8 4.9 2.0 3.0 4.2 3.3 4.8 4.4
7.7 2.4 8.0 8.0 4.6 1.4 2.2 1.9 3.2 4.8
5.0 10.3 12.3 3.8 3.8 6.6 2.0 1.6 4.4 4.3

Elabore el histograma y responda:


a) ¿Cuáles son los valores que pertenecen a la primera clase?
b) ¿Cuáles son los valores que pertenecen a la segunda clase?
c) ¿Cuáles son los valores que pertenecen a la tercera clase?
d) ¿Cuáles son los valores que pertenecen a la cuarta clase?
e) ¿Cuáles son los valores que pertenecen a la quinta clase?
f) ¿Cuáles son los valores que pertenecen a la sexta clase?
g) ¿Cuáles son los valores que pertenecen a la séptima clase?
h) ¿Cuáles son los valores que pertenecen a la octava clase?
Solución:

2.11 Con la distancia de la tabla 2.8 . se muestran los puntos medio (marca de
clase) de los intervalos de clase. Las clases son de 0 a 2.5, 2.5 a 5.0, 5.0 a 7.5, 7.5
a 10.0, 10.0 a 12.5, 12.5 a 15.0, 15.0 a 17.5, 17.5 a 20.0. los primeros que caen en
el limite inferior de clase se cuentan dentro de esa clase, pero si caen en el limite
superior se cuentan dentro de la clase siguiente. Elabore el histograma y responda:
a) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la primera clase?

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 37


2023-I

b) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la segunda clase?
c) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la tercera clase?
d) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la cuarta clase?
e) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la quinta clase?
f) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la sexta clase?
g) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la séptima clase?
Solución:

2.12 La empresa P&R (problema 2.3) contrata cinco empleados nuevos, cuyos
salarios semanales son $285.34, $316.83, $335.78, $356.21 y $374.50. construir
una distribución de frecuencias con los salario de los 70 empleados

2.13 Con las distancias de la tabla 2.8 . las clase son 0 a 3, 3 a 6, 6 a 9, 9 a 12, 12
a 15, y 15 a 18. Los números que caigan en el limite superior de clase se cuentan
dentro de esa clase, pero si caen en el limite inferior se cuentan dentro de la clase
anterior. Elabore el histograma y responda:
a) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la primera clase?
b) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la segunda clase?
c) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la tercera clase?
d) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la cuarta clase?
e) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la quinta clase?

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 38


2023-I

f) ¿Cuáles son los valores (de la tabla 2.8) que pertenecen a la sexta clase?

DISTRIBUCIÓN DE FRECUENCIAS ACUMULADAS Y OJIVAS


2.14 A partir de la distribución de frecuencias dada en la tabla 2.5 del problema
2.3, construir: a) una distribución de frecuencias acumuladas, b) una distribución
acumulada porcentual, c) una ojiva y d) una ojiva porcentual.
Tabla 2.10
salarios Frecuencia acumulada Distribución Acumulada
porcentual
Menos de $250.00
Menos de $260.00
Menos de $270.00
Menos de $280.00
Menos de $290.00
Menos de $300.00
Menos de $310.00
Menos de $320.00
Total 65
Solución:

2.15 a partir de la distribución de frecuencias dada en la tabla 2.5 del problema 2.3,
construir, a) una distribución de frecuencia “o mas” y b) una ojiva “o mas”
Tabla 2.11
salarios Frecuencia acumulada
“O mas”
$250.00 o mas
$260.00 o mas
$270.00 o mas
$280.00 o mas

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 39


2023-I

$290.00 o mas
$300.00 o mas
$310.00 o mas
$320.00 o mas
Total 65

2.16 a partir de las grafica del problema 2.14 y 2.15 respectivamente, estimar la cantidad
de empleados que ganan: a) menos de $288.00 por semana, b) $296.00 o más por
semana, c) por lo menos $263.00 por semana, pero menos de $275.00 por semana.
Solución:

2.17 se lanzan 5 monedas 1000 veces y en cada lanzamiento se anota el numero de caras
que se obtiene. En la tabla 2.12 se muestran las cantidades 0, 1, 2, 3,4, y 5 de caras que
se obtuvieron:
a) Graficar los datos de la tabla 2.12
b) elaborar una tabla en el que se le dé un porcentaje de los lanzamientos en los que
se obtuvo menos de 0, 1,2, 3, 4, y 6 caras.
c) graficar los datos de la tabla del inciso b)
Tabla 2.12
Cantidad de Cantidad de lanzamientos
caras (frecuencias)
0 38
1 144
2 342
3 287
4 164
5 25
Total 1000

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 40


2023-I

CAPÍTULO III

MEDIDA DE TENDENCIA CENTRAL


INTRODUCCIÓN

Los datos organizados en una distribución de frecuencias destacan sus características mas esenciales, como
marcas de clases, centro, forma de distribución (asimétrica, simétrica) etc. Sin embargo, los indicadores que
describen a los datos en forma más precisa, deben calcularse. Estos indicadores que resumen los datos en
números denominados medidas descriptivas se refieren a la centralización, a la dispersión o variabilidad, a la

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 41


2023-I

asimetría y a la curtosis. También, son métodos numéricos para describir los datos indicadores conocidos
como, medidas de posición relativa que describen la posición de una observación relativa a las demás
observaciones de la distribución, estos son los percentiles y los valores estandarizados Z.

Las medidas de tendencia central, denominadas también promedios, ubican el centro de los datos, como la
media aritmética (la media geométrica, la media armónica), la mediana y la moda.
La moda, puede ser también interpretada como una medida de posición en el sentido que indica el lugar de los
datos más frecuentes.

Se sugiere al usuario de este texto, utilizar una calculadora estadística o correr paquetes de computo, entre
otros el MCEST, en la solución de los diversos problemas de métodos numéricos para describir datos que
contiene.

La mediana.

Definición.- La mediana (me) o valor mediano de una serie de valores observados es el numero que separa a
la serie de datos ordenados (en forma creciente o decreciente) en dos partes de igual número de datos.la
mediana es el percentil 50 de los datos observados no agrupados o agrupados por intervalos.
La mediana es la medida promedio que depende del número de orden de los datos y no de los valores de estos
datos, por lo tanto no la afectan los valores aislados grandes o pequeños.

Calculo de la mediana

I) mediana de datos no agrupados

Para realizar el cómputo de la mediana de n valores no agrupados de una variable cuantitativa X se siguen los
siguientes pasos:

1) se ordenan los datos en forma creciente.


2) luego, se ubica el valor central Me.
Si n es impar, la mediana es el dato ordenado del centro, pero si n es par la mediana es la semisuma de los dos
valores ordenados centrales.

Ejemplo 2.1

Calcular la mediana para las siguientes series de datos:

a) 120, 3, 14, 1,99, 7, 30,2000, 16.


b) 30, 77, 3, 300, 36, 11, 10000, 29.

2) Mediana de datos agrupados

2a) si los valores de una variable discreta se agrupan en una distribución de frecuencias de la forma dato ↔
frecuencia, el cálculo de la mediana se hace siguiendo el método de datos no agrupados. Como los datos ya
están ordenados, solo bastara ubicar su centro. Por ejemplo, la mediana para la distribución de frecuencias del
número de hijos por familia del ejemplo. 1.2 es igual a 2.

2b) si los valores de la variable se agrupan en una distribución de la frecuencia por intervalos, la mediana se
determina aproximadamente por interpolación de manera que la mitad inferior a 50% de los datos agrupados
sean menores o iguales que la mediana.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 42


2023-I

En el modo gráfico de la distribución de frecuencias por intervalos, la mediana es el valor de la variable que
divide el área total en dos áreas iguales.
El método de cálculo de la mediana propuesto en aplicaciones de la ojiva de la sección 1.4.4 lo formalizamos
en esta sección.

Primero ubica el intervalo que contiene a la mediante Me en la mitad inferior del total de la frecuencias:
0.5xn, (50% del total de las frecuencias de cualquier tipo), de la siguiente manera.

Desde la mitad inferior del total de la frecuencias 0.5xn, (en el eje de las frecuencias acumuladas), se hace un
trazo horizontal a la ojiva, y de la ojiva se traza una vertical al eje de los intervalos, ubicándose un intervalo
que contiene a la mediana:[Li, Ui]. Este intervalo tiene amplitud A, Frecuencia absoluta acumulada Fi y
F −F
frecuencia absoluta no acumulada f1= i i−1

Segundo, la mediana Me € [Li, Ui ] y está dada por: Me= Li + a donde, a se obtiene por
interpolación(semejanzas de triángulos ABE y ACD de la figura 2.1) comparando intervalos con frecuencias
esto es:

a Δf i Δf i
= a= xA
A fi y fi

Δf i
Me=Li ⊕ xA
fi

Donde:
Li es el limite del intervalo de la mediana.
Fi es la frecuencia absoluta del intervalo de la mediana.
A es la amplitud del intervalo de la mediana.
∆fi=0.5xn-Fi-1 es la parte o porción de frecuencia fi, para llegar a 0x5xn desde Fi-1.

Ojiva
Fi C

fi
n/2 B
A ∆fi
Fi-1 a E D f

Li Me Ui intervalos
Ejemplo 2.2.
Calcule la mediana de los 45 salarios según cuadro adjunto, agrupados en 7 intervalos de amplitud iguales.
Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son;

63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución.
Los 45 salarios organizados en 7 intervalos, se repiten en el cuadro 2.1

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 43


2023-I

Cuadro 2.1 . calculo de la mediana de X= salarios


Salarios Numeros de empleados Frecuencia acumuladas
Ii Fi Fi
[26,34[
[34,42[
[42, 50[
[50, 58[
[58, 66[
[66, 74[
[74,82[
total

2.2.2 propiedades de la mediana

1) la mediana solo depende del número de datos ordenados y no del valor de los datos.
Por lo tanto, no es sesgada por algún valor aislado grande o pequeño como se observa en el e ejemplo 2.1.

2) la mediana puede ser calculada para las distribuciones de frecuencias con intervalos de diferente amplitud,
siempre que se pueda determinar el límite inferior Li del intervalo que contiene a la mediana.

3) la mediana puede ser calculada para variables con valores en escala ordinal.

4) la suma de la diferencias en valor absoluto de n datos con respecto a su mediaba es mínima. En el caso de
datos sin agrupar se tiene que:
n
∑|x i −c|
i=1 = mínimo, si c es la mediana de los xi

Ejemplo 2.3.
Cinco personas que viven en Lugares situados a distancias en kilómetros a los largo de una carretera en línea
recta como se indica en la figura que sigue, deben reunirse en algún punto de la carretera. Determine el lugar
de reunión de manera que el costo total del trasporte sea mínimo, si el costo de cada transporte es proporcional
al recorrido.

Distancia 20 15 6 10

Lugares A B C D E

SOLUCION.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 44


2023-I

2.3. LA MODA

Definición.- la moda de una serie de datos es el valor Mo que se define como el dato que ocurre con mayor
frecuencia.

En la distribución de frecuencias por intervalos la moda se ubica en el intervalo que tiene la mayor frecuencia
de cualquiera de los tres tipos.

La moda de una función cualesquiera es el valor de la variable en el que existe un máximo absoluto ( o dos o
más máximos relativos iguales).

La moda no siempre existe y si existe, no siempre es única. La moda es el promedio menos importante debido
a su ambigüedad.
El empleo de la moda como medida promedio puede estar justificado cuando se quiera señalar el valor más
común de una serie de datos o se precise rápidamente de una medida promedio y no haya tiempo de calcular
las otras. Por ejemplo, los comerciantes se estoquean con productos que están de moda. Esta es una aplicación
común del promedio.

Ejemplo 2.4.

La moda de los datos:


A) 7,9,7,8,7,4,7,13,7 es …………. Esta serie de datos es unimodal.
B) 5,3,4,5,7,3,5,6,3 es ………………….. Esta serie de datos es bimodal.
C) 31,11,12,19 es …………………. También se dice que cada uno de los datos es una moda.

Calculo de la moda de datos agrupado por intervalos

Para calcular la moda de n datos organizados por intervalos se siguen los siguientes pasos.
Primero se determina al intervalo que tiene la moda Mo. Este intervalo [Li, Ui], denominado intervalo modal
y que debe ser el único con la mayor frecuencia, tiene amplitud A , frecuencia absoluta fi y sus frecuencias
f f
vecinas antes y después son i−1 y i ⊕1 respectivamente.
Luego se aplica la formula

d1
Mo=Li + xA
+ Mo= d 1 +d2
Donde.
Li es el limite inferior del intervalo modal
d1= fi-fi-1
d2= fi-fi+1
A es la amplitud del intervalo modal.

Nota. La formula de la moda se aplica en distribuciones con una sola frecuencia máxima.

Ejemplo 2.5 calcule la moda de los 45 salarios quincenales ,agrupados en 7 intervalos de amplitudes iguales.
Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son;

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 45


2023-I

63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60

Salarios Números de empleados Frecuencia acumuladas


Ii Fi Fi
[26,34[
[34,42[
[42, 50[
[50, 58[
[58, 66[
[66, 74[
[74,82[
total

Solución.

2.4 LA MEDIANA ARITMÉTICA

Definición.- Denominada simplemente media, es el valor numérico que se obtiene dividiendo la suma total de
los valores observados de una variable entre el número de observaciones.

Para valores de una variable X observados en una muestra, la media aritmética será denotada por.
x
2.4.1 cálculo de la media aritmética.

1) media aritmética de datos no agrupados.

La media aritmética de n valores X1, X2,.....Xn de la variable cuantitativa X, observados en una muestra es el
número:

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 46


2023-I

n
∑ xi
sumatotal i=1
x= O =
N dedatos n

Ejemplo 2.6

Calcule la media aritmética de los 45 salarios sin agrupar del ejemplo 2.2. Los salarios quincenales, en
dólares, recopilados en una muestra de 45 empleados son;

63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución.

2) MEDIA ARITMÉTICA DE DATOS AGRUPADOS.

2a) media para datos agrupados de variable discreta.

Si n valores de una variable estadística discreta X se clasifican en k valores distintos X1,X2,....Xk con
frecuencias absolutas respectivas f1,f2,...fk, entonces la suma total de los datos n datos es igual X1 × f1 +X2
f2,+...+ Xk× fk y la media aritmética es el numero:
k
∑ f 1 . xi
sumatotal i=1
x= =
N O dedatos n

Ejemplo 2.7.

Calcule la media aritmética de la distribución de frecuencia del número de hijos por familia, una muestra de
20 hogares marco las siguientes respuestas.

2, 1, 2, 4, 1, 3, 2, 3, 2, 0

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 47


2023-I

3, 2, 1, 3, 2, 3, 3, 1, 2, 4

Solución .
Se tiene el cuadro 2.2 donde se debe incluir la columna fi.xi

Cuadro 2.2 cálculo de la media de x= número de hijos por familia

N de hijos N de familias Productos


Xi fi fixXi
0
1
2
3
4
Total
k
∑ f 1 . xi
i=1
x=
La media de la distribución es. n =

2b) media para datos agrupados por intervalos.

Si n valores de una variable cuantitativa X están organizados en una distribución se frecuencias de k


intervalos, donde:

m1,m2.....mk son las marcas de clase, y.

f1,f2.....fk son las frecuencias absolutas respectivas.

Entonces la suma total de los datos n es igual m1 × f1 + m2 × f2 +....+ mk × fk y la media aritmética es el


número:

k
∑ f 1 . mi
sumatotal i =1
x= =
N O dedatos n

Ejemplo 2.8

Calcule la media aritmética de la muestra de 45 salarios quincenales del ejemplo 2.2 agrupados en 7 intervalos
de amplitudes iguales. Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son;

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 48


2023-I

63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60

Salarios Marcas N de empleados Productos


Ii mi Fi fixmi
[26,34[
[34,42[
[42, 50[
[50, 58[
[58, 66[
[66, 74[
[74,82[
total

Solución .
k
∑ f 1 . mi
i=1
x=
La media es n =

NOTA. La media aritmética de la población. La media aritmética de una población se denota por μ. Si la
población es finita de tamaño N con valores x1,x2, ……………Xn, la media aritmética es el numero.
N
∑ xi
i =1
μ=
N

2.4.2 propiedades de la media aritmética

1) la suma total de n valores cuya media es x es igual a n x . En efecto, para n datos no agrupados y
agrupados respectivamente se tiene:
N k
∑ x i=n x , ∑ f i xi =n x ,
i =1 i=1

2) si a la variable X se le hace la transformación lineal Y= aX + b , es decir si a cada uno de los n valores xi


de X es transformado en el valor. Yi=axi+ b de Y, siendo a y b constantes, entonces, la media de los n valores
yi es:
y=ax +b
Como casos particulares se obtiene:

Si Y= b entonces y= b. Esto es, si los n valores de la variable son iguales a una constante, entonces su media
es igual a esa constante.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 49


2023-I

Si Y=X+a entonces y=ax + b. Esto es, si a cada dato se suma una constante la media queda sumada por esa
constante.

Si Y= aX, entonces, y=ax Esto es, si a cada dato se multiplica por una constante, la media queda
multiplicada por esa constante.

3) la suma algebraica de las desviaciones de n datos xi con respecto a su media x es igual a cero. En efecto,
para datos no agrupados y agrupados se tiene respectivamente:

n k
∑ ( x i −x )=0 ∑ f i ( x i−x ) =0
i=1 i =1

4) la suma de los cuadrados de las desviaciones de n datos con respectos a su media es mínima. Para datos no
tabulados por ejemplo:

n
∑ ( x i −c )2=
i=1 mínima, si c= x

5) media global:

Si los valora de la variable X se observan en k grupos de tamaños respectivos n1,n2,....nk resultando las
medias respectivas x 1, x 2.... x k entonces, la media global o del total de datos es igual a:

sumatotal n1 x 1 +n2 x 2 +. . .. .. . .. .. .. . .+n k x k


x= =
N 0 dedatos n1 +n2 +.. .. . .. .. . .. .. . +nk

Por ejemplo, si un examen de matemática, 110 alumnos del horario H1 obtuvieron una media de 12.6 y 120
alumnos del horario H2 obtuvieron una media de 13,48, entonces, la media global o del total de alumnos es :

Media ponderada.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 50


2023-I

k k
∑ f i xi /∑ f i
La media aritmética x= i=1 i=1 es una media de los valores x1,x2...xk ponderada por las
frecuencias f1,f2,....fk.

En general, la media de los valores x1,x2,...xk ponderada por los pesos w1,w2...wk es el numero:

w1 x 1 +w 2 x 2 +. . .. .. .. . .. .. . .+w k x k ∑ w i xi
x= = i=1k
w1 +w 2 + .. .. . .. .. . .. .. . +w k
∑ wi
i=1

Por ejemplo, si un alumno en el semestre anterior ha obtenido 11 en el curso A de 5 créditos, 13 en el curso B


de 4 créditos y 16 en el curso C de 3 créditos, entonces, su promedio de notas (ponderado por créditos) es.

En realidad, toda media aritmética es ponderada. En el caso de la media de datos no agrupados el peso de cada
valor de la variable es igual a uno.

Los pesos pueden ser también números relativos o porcentajes.

Por ejemplo si en este mes el aumento de los alimentos fue del 5% de vivienda el 10% y de educación. 8%.
Entonces, el aumento en los tres rubros para una persona que gastada el 40% de su sueldo en alimentos el
35% en vivienda y el 25% en estudios esta dado por:

Pero el aumento promedio en los tres rubros para una persona que gasta $1200 en alimentos $600 en vivienda
y $1000 en estudios esta dado por:

Ejemplo 2.9:

Los sueldos del mes de enero de 200 empleados de una empresa tienen una medida de $230.

A) si el 60% de los empleados son hombres el esto sobre mujeres y tiene un sueldo promedio de $250, cuanto
es el sueldo medio de las mujeres en enero?

B) si para el mes de julio, se propone un aumento general que consiste de un aumento variable del 30% a cada
sueldo de enero mas una bonificación de $30 cuánto dinero adicional necesitará la empresa para pagar los
sueldos incrementados?

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 51


2023-I

Ejemplo 2.10.

Aplicando los datos del ejemplo 2.3 determine el lugar de reunión de manera que el costo total del transporte
sea mínimo, si el costo de cada transporte es proporcional al cuadrado del recorrido.

Distancia 20 15 6 10

Lugares A B C D E

Ejemplo 2.11

Un conjunto de n artículos cuyos valores de venta serían de $5 en el 30% de los casos, $7 en el 45% de los
casos y 10$ en el 25% de la casos, tienen un costo de producción fijo de $k . hallar el valor de k si se quiere
hacer una inversión Mínima y si se supone que la inversión es igual a la suma de los cuadrado de todas las
utilidades.

2.5 relación entre media, mediana y moda.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 52


2023-I

1. Si la distribución de frecuencia de los datos es simétrica, entonces, la media, la mediana y la moda tienen el
mismo valor. Esto es:
x = Me=Lo

2. Si la distribución es asimétrica de cola a la derecha, entonces, la moda es mejor que la mediana y esta a su
ces es menor que la media. Es decir:
Mo<Me< x

3. Si la distribución es asimétrica de cola a la izquierda entonces la relación es:

x <Me<Mo

4. Para distribuciones unimodales y de marcada asimetría, se tiene la siguiente relación empírica:

x -Mo=3.( x -Me)

5. Los tres promedios pueden calcularse también para distribuciones de frecuencia con intervalos de diferente
longitud, siempre que puedan determinarse o las marcas de clase para la media o el límite inferior Li del
intervalo para la mediana y la moda.

2.6 usos de los promedios.

1. De los promedios definidos la media aritmética se usa con más frecuencia por su mejor tratamiento
algebraico. Pero no siempre es un buen promedio o promedio representativo.

2. Si la distribución de los datos es simétrica, la media, la mediana y la moda coinciden en el centro de la


distribución por lo tanto, en este caso cualquiera de los tres es el promedio representativo.

3. Si la distribución de los datos tiene marcada asimetría entonces la mediana es la medida promedio más
representativa ya que la media no es segada por datos asilados grandes o pequeños.

2.7 otras medias.

La media geométrica.

Definición.-La media geométrica de n valores positivos x1,x2,.....xn es el número real x G que se define
como la raíz enésima de estos n valores. Esto es:.

n
x G=√ x1 . x 2 ...........x n

Por ejemplo la media geométrica de los valores 3,9,27 es igual a:

La media geométrica se aplica para promedia razones (a/b), índices (a/b en %) proporciones (a/(a+b)) tasas de
cambio (a-b)/b, que varían con el tiempo , etc.

Ejemplo 2.12

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 53


2023-I

Si la producción de un bien ha experimentado un crecimiento del 30% del primero al segundo año y un
incremento del 35% del segundo al tercer año y un decrecimiento del 15% del tercer año al cuarto año.
a. Calcule la tasa promedio de cambio y el porcentaje promedio de crecimiento de la
producción de los 3 últimos años.
b. Calcule la producción del quinto año, si la del primer año fue 100.

Ejemplo 2.13.

Suponga que la población de una ciudad aumento de 10000 a 12600 en el periodo comprendido del año 2000
al año 2004 como se indica en el cuadro 2.5. Calcule la tasa promedio y el porcentaje promedio del
crecimiento de la población.

Año población Tasa de cambio ‘x’ Log x


Año base 2000
2000 10,000 -------- ------
2001 10,500 1.050 0.0212
2002 11,200 1.067 0.0282
2003 12,000 1.071 0.0298
2004 12,600 1.050 0.0212
0.1004
Solución.

La media armónica.

Definición.- La media armónica de n valore no nulos x1,x2....xn es el numero real , x H que se define como
el reciproco de la media aritmética de los recíprocos de esos valores n. Esto es:

n
xH = n
∑ x1
i=1 1

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 54


2023-I

Por ejemplo la media armónica de los valores 6,4 y 3 es igual a 4.

La media armónica se aplica para obtener promedios de un conjunto de valores expresados en forma de tasas
de unidades de un tipo por unidades de otro tipo. Dicho de otro modo se aplica para promediar datos cuyas
unidades de medición son cocientes de unidades de medición de dos variables, por ejemplo, datos expresados
en km/hora.
Una manera práctica de calcular la media armónica de datos cuyas mediciones son cocientes variable 1/
variable 2, es la siguiente:
Total de mediciones de la variable 1
x H = total de mediciones de la variable 2

Nota:

La media armónica es siempre menor que la media geométrica. Esta a su vez es menor que la media
aritmética. Esto es:

xH < xG < x

Ejemplo 2.14.

Una persona manejando su automóvil recorre los primeros 10 km a 60 km por hora y los siguientes 10 km a
70 km por hora calculen la velocidad promedio.

Ejemplo 2.15

Una empresa de transporte gasta $400 en latas de aceite que cuestan $10 la docena; $500 en latas que cuestan
$12.5 la docena ; $600 más en latas que cuestan $20 la docena y $300 en otras que cuestan $25 la docena.
Calcule el costo promedio por docena de las latas de aceite.

Ejercicios
1. A) los costos de producción en soles de diez objetos son los siguientes:

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 55


2023-I

9.35; 9.46; 9.20; 9.00; 9.99; 9.36; 9.50; 9.60.

Si la utilidad neta por objeto es 3 veces su costo de producción menos 5 soles, calcule la media de la utilidad
neta por objeto.
B) en una evaluación 5 alumnos tienen cada uno nota 12 y un alumno tiene 18. Si se indica como nota
promedio 13 . Que nota promedio es? Es el promedio adecuado? Cuanto es el promedio adecuado?

2) de las edades de cuatro personas se sabe que la media es igual a 24 años la media es 23 y la moda es 22
Encuentre las edades de las cuatro personas.

3. Eb el control de calidad de 120 lotes de determinado productos se observo el nuemor de artículos


defectuosos por lote obteniendo los siguientes resultados. El 5% de los lotes no tueb artículos defectuosos el
15% tiene un artículo defectuoso, el 24% tiene 2 artículos defectuosos, el 45% tiene 3 artículos defectuosos y
el resto contiene 4 defectuosos.

A) defina la variable, su tipo y escala de medición. Luego obtenga t grafuque la distribución de frecuencias
absolutas el numero defectuosos por lote y calcule los promedios.

B) obtenga y grafiwue la distribución acumulativa relativa. Luego, calcule los cuarteles y ubiquelos en la
gráfica.

4. De la curva de frecuencias de los sueldos de 30 empleados de una empresa. Se sabe que Mo=$200, Me$220
y x=$250 califique cono verdadera o falsa las siguientes afirmaciones justificando su respuesta:

A) el sueldo mas frecuente es de $200 y más de la mitas de los empleados gana mas de esa cantidad.

B) con una suma de $3300 se asegura el pago de la mitad de los empleados y con $7500 el de todos los
empleados.

5) para calcular el suministro de agua que una ciudad requiere mensualmentr , se escogen 15 hogares de la
ciudad,resultando los siguientes sonsumos en metros cúbicos:

11.2; 21.5; 16.4; 19.7; 14.6


16.9; 32.2; 18.2; 13.1; 23.8
18.3; 15.5; 18.8; 22.7; 14.0

Si en la ciudad hay 5000 hogares. Cuantos metros cúbicos de agua se requieren mensualmente si el consumo
promedio por hogar permanece igual?

6. El sueldo promedio actual de 200 empleados de una empresa es $800.


Si para el siguiente mes hay dos alternativas de aumento:
(1) $90 a cada Uno de los empleados.
(2) 5% de su sueldo mas 45$ cada uno.
Cual alternativa es mas conveniente para la empresa di esta solo dispone de $ 177.000 para pagar sueldos?

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 56


2023-I

7. Al calcular la media de 125 datos, resulto 42. Un chequeo posterior mostró que eb lugar del valor 12.4 se
introdujo 124. Corregir la media.

8. Las ventas de un distribuidor de automoviles , en cierto periodo, ascendieron a la cantidad de $1650000,


vendiendo 50 automóviles nuevos a un precio promedio de $13000 y algunos carros usadobcon un precio de
$5000 en promedio. Cuanto resultó el promedio de precio de venta por automóvil?

9. De los horarios de clase de la facultad se sabe qyr ninguno tiene nad de 100 o menos d 70 alumnos
matriculados. Se sabe que cada uno de cada 5 tiene 80 alumnos qubel 30% tiene 100 y la mayoría 90 alumnos.
Calcule la media aritmética de alumnos por horario.

10. En tres grupos distintos de 100000, 90000, y 20000 personas el porcentaje de personas con educación
superior es 21%, 42% y 40% respectivamente. Calcule el porcentaje de personas con educación superior.

Capitulo 4
Medidas de dispersión
Introducción
Las medidas de tendencia central no son suficientes para describir un conjunto de valores
de alguna variable estadística. Los promedios determinan el centro, pero nada indican
acerca de cómo están situados los datos respecto al centro.
En primer lugar se necesita una medida del nivel de la dispersión o la variabilidad de los
datos con respecto a su centro con la finalidad de ampliar la descripción de los datos o de
comparar dos o mas series de datos.
En segundo lugar se necesita una media del grado o nivel de la asimetría o la deformación
de ambos lados del centro de una serie de datos, con el fin de describir la forma de la
distribución de los datos. Esta medida se denomina índice de asimetría.
En tercer lugar se necesita una medida que nos permita comparar el apuntamiento o
curtosis de distribuciones simétrica con respecto a la distribución simétrica normal. Esta
medida se denomina índice de apuntamiento o curtosis.
Las estadísticas de asimetría y apuntamiento se incluyen en este capítulo de medida de
variabilidad dada su poca importancia para tratarlos como un capitulo aislado. Por otro
lado, la forma de la distribución queda descrita por la ubicación de los promedios en la
distribución de frecuencias o por la ubicación de los cuartiles en una grafica de caja.
Finalmente las medidas de curtosis son validas solo para distribuciones simétricas.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 57


2023-I

El lector debería correr paquetes de cómputo entre otros MCEST para las aplicaciones de
este capítulo o usar una calculadora con aplicaciones estadísticas.

4.2 mediadas de dispersión o de variación


Las mediada de dispersión o variabilidad son números reales que miden el grado o nivel
de separación de los datos con respecto a un valor central, que generalmente es la media
aritmética.
Las principales medidas de dispersión son:
El rango
El rango intercuartil
La varianza
La desviación estándar, y
El coeficiente de variación
4.2.2 el rango o recorrido de una variable

Definición. El rango de variación o recorrido, denotado por R es el numero que resulta de


la diferencia del valor máximo (Xmax) menos el valor mínimo (Xmin) de una serie de datos
observados de variable X. esto es,

R
= X max −X min
El rango de los datos es una medida de dispersión muy fácilmente calculable, pero es
muy inestable, ya que depende únicamente de los dos valores extremos de los datos. Su
valor puede cambiar grandemente si se añade o elimina un solo dato. Por tanto, su uso es
muy limitado.
Por ejemplo. Las dos series de datos:

A) 1,4,4,5,5,5,5,6,6,9
B) 1,2,3,4,5,6,7,8,9
Tienen ambas la misma media 5, y el mismo rango 8, pero, las dos series no tienen la
misma dispersión, ya que la segunda tiene mayor variabilidad.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 58


2023-I

El empleo del rango como medida de comparación de variación puede estar justificado
cuando se precise rápidamente de una medida de dispersión y no haya tiempo de calcular
algunas de las otras.

4.2.2 el rango intercuartil

Definición.- el rango intercaurtil, denotado por RI, es el número que resulta de la diferencia
del cuartil 3 menos el cuartil 1 de los datos. Esto es,

RI=
=Q3 −Q1
El rango intercuartil es una medida que excluye el 25% superior (cuarto superior) y el 25%
inferior(cuarto inferior), dando un rango dentro del cual se encuentra el 50% central de los
datos observados y a diferencia del rango de los datos no se encuentra afectada por los
valores extremos.
Si el rango intercuartil es muy pequeño entonces describe una alta uniformidad o pequeña
variabilidad de los valores centrales.
Por ejemplo en la distribución de frecuencia de los 45 salarios quincenales se obtuvo los
cuartiles Q1=53.4 Dolares y Q3=66.76 dólares, entonces, el rango intercuartil es
RI=Q3-Q1=13.35 .
El rango semiintercuartil denotado por RSI, es igual al rango intercuartil dividido por 2.
Si la distribución de frecuencias de los datos es simetrica, entonces, los cuartiles Q1 y Q3
son equidistantes de la mediana Q2. En este caso, el rango intercuartil es equidistante a
Q2 ± RSI. Por lo tanto, Q2 ± RSI contiene exactamente el 50% de los datos.
Si la distribución es casi simetrica, se concluye que el intervalo, mediana ± RSI contiene
exactamente el 50% de los datos.
Por ejemplo, si en una distribución de frecuencias simetrica de 100 datos observados se
obtiene Q1=62, Q2=66, entonces Q3=70, por lo tanto, el 50% de los datos se hallan
comprendidos en el intervalo 66 ± 4
Nota. Si la distribución de frecuencias tiene marcada simetría, el rango intercuartil es
preferible a la desviación estándar como medida de dispersión.
Por otro lado, el rango intercuartil se aplica a variables medidas en escala por lo menos
ordinal.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 59


2023-I

4.2.3 La varianza y a desviación estándar


La varianza, es una media que, en promedio, cuantifica el nivel de dispersión o de
variabilidad de los valores de una variable cuantitativa con respecto a su media
aritmética. Si los datos tienden a concentrarse alrededor de su media, la varianza será
pequeña. Si los valores tienden a distribuirse lejos de su media, la varianza será
grande.

La varianza
Definición.- la varianza se define como la media aritmética de los cuadrado de las
diferencia de los datos con respecto a su media aritmética.
La varianza entendida como una media cuadrática calculada de una muestra será
s 2
denotada por n2 y si es calculada de una población se denotara por σ . Los métodos
de cálculo para las dos varianzas son idénticos, por esto, el método es conocido como
método de población (ver nota sobre varianza poblacional).
La varianza es una medida de dispersión que genera unidades de medición al
cuadrado, por ejemplo km², etc.

La desviación estándar
Definición.- la desviación estándar es una raíz cuadrada positiva de la varianza.
La desviación estándar definida como la raíz cuadrada de la media cuadrática de una
muestra se denotara por Sn.
Esto es,


Sn= S
n2

Calculo de la varianza
Calculo de la varianza de datos no agrupados.
La varianza de n mediciones: X1,X2, ………Xn de alguna variable cuantitativa X cuya

media es x , es el número real:

s
n2 = suma total de los cuadrados de diferencia/numero de datos

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 60


2023-I

n
∑ ( x i −x )2
i =1
s 2=
n n
Se comprueba que:
n n
∑ ( x i −x ) =∑ x i2 −n x2
2

i=1 i=1

Por lo tanto,
n
∑ x i2
i =1
s 2= −x 2
n n
Ejemplo 4.1
Calcule la varianza y la desviación estándar de los 45 salarios quincenales sin agrupar del
ejemplo anterior
Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son;

63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución

La varianza de datos agrupados


2ª. Varianza de datos agrupados de variable discreta
Si n valores de una variable estadística discreta X se clasifican en k valores distintos
X1,X2,X3…… Xk con frecuencia absolutas respectivas f1,f2,f3,…….fk, entonces la suma

total de los cuadrados de diferencias de los valores de X con respecto a la media x esta
dada por :
2 2
( x 1−x ) . f 1+. .. . . ( x k−x ) . f k Y su varianza es el número:

s
n2 = suma total de cuadrados de diferencias/numero de datos

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 61


2023-I

k
∑ f 1 . ( xi −x )2
i =1
s 2=
n n
Se comprueba que:
k k
∑ f 1 . ( xi −x )2 ∑ f 1 . x 12−n. x 2
i=1 = i=1
k
∑ f 1 . x 12
i=1
s 2= −x 2
n n
Ejemplo 4.2
Calcule la varianza y la desviación estándar de la distribución de frecuencias del número
de hijos de la muestra de 20 familias.

2, 1, 2, 4, 1, 3, 2, 3, 2, 0

3, 2, 1, 3, 2, 3, 3, 1, 2, 4

Solución.

N de hijos N de familias Productos fi. x 2


i
Xi fi fixXi
0
1
2
3
4
Total
k
∑ f 1 . xi
i=1
x=
La media de la distribución es. n =
2b. varianza de datos agrupados por intervalos.
Si n valores observados de alguna variables cuantitativa X, son agrupados en K intervalos, con marcas de
clases m1, m2, ……, mk, frecuencias absolutas respectivas f1, f2, ….fk, entonces, la suma total de los
cuadrados de diferencias con respecto a la media x esta dada por. (m1- x )²xf1 + …+(mk- x )²xfk y su
varianza es el numero:

s
n2 = suma total de cuadrados de diferencias/numero de datos
k
∑ f 1 ( mi−x ) 2
i=1
s 2=
n n

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 62


2023-I

Se comprueba que:
k k
∑ f 1 ( mi −x ) =∑ f 1 . mi2 −n x 2
2

i=1 i=1
k
∑ f 1 m i2
i =1
s 2= −x 2
Por lo tanto, n n

Ejemplo 4.3
Calcule la varianza y la desviación estándar de los 45 salarios quincenales organizados en
7 intervalos del ejemplo anterior.
Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son;

63 82 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
Solución.
Computo de la varianza de X= salarios

Intervalos de Marcas Numero de fixm Fixmi


Salarios Mi Empleados fi i ²
[26,34[
[34,42[
[42,50[
[50,58[
[58,66[
[66,74[
[74,82]
Total

Calculo de la varianza con frecuencias relativas


Para calcular la varianza de n datos observados de una variable cuantitativa X organizados
en una distribución de frecuencias relativas (o porcentajes) de variables discreta o por
fi
hi =
intervalos, se n , paraca cada i=1,2,3,……k. si la distribución de frecuencias es por
intervalos, entonces,

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 63


2023-I

k k
k
fi k fi
x=∑ . mi =∑ hi . mi x=∑ . m 2=∑ hi .m 2
i =1 n i=1 y i =1 n i i=1 i

Y la varianza es el numero:
k
s 2=∑ hi .m 2 −x 2
n i=1 i

Varianza de la población
2
La varianza σ de una población finita de N datos x1,x2,x3….., xn sin agrupar y cuya
media es μ se define por:

N N
∑ ( x i−μ )2 ∑ x i2
2 i=1 i =1
σ = =
N N
Si formamos todas las muestras posibles de tamaño n y calculamos sus varianzas
n
s 2=∑ ( x i−x ) /n
n
utilizando la formula i=1 (método de población), resulta que la media de todas
estas varianzas valen:
n−1 2
σ
n
σ²
Para que el promedio de todas las varianzas sea igual a se aplica la varianza
n
s 2 =∑ ( x i−x ) /n−1 s
n−1 i=1 n2

(método de muestra) que se obtiene de multiplicar a por n/(n-1).

Por esta razón, algunos autores de esta materia definen la varianza (en estadística

descriptiva) con denominador n-1.

Estas 2 varianzas se tratan en los capítulos de estimación de parámetros.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 64


2023-I

4.2.4. Coeficiente de variación: dispersión relativa

Definición. El coeficiente de variación, denotado por CV, es una medida de dispersión


relativa (libre de unidades de medición), que se define como el cociente de la desviación
estándar entre la media aritmética. Esto es,
S
CV =
x

0 en %

El coeficiente o índice de variación se utiliza para comparar la variabilidad de dos o más

series de datos que tengan medias iguales o diferentes o que tengan unidades de medida

iguales o diferentes (por ejemplo, comparar la variabilidad de una serie de datos medidos

en kilómetros con la de otra serie de datos medidos en metros).

Por dar un ejemplo, si las calificaciones en matemática I de dos secciones H1 y H2 tienen

la misma desviación estándar igual a 14, no podemos concluir que los dos horarios tienen

la misma variabilidad (salvo que tengan medias iguales).

Del mismo modo si la desviación estándar de H1 es 2 y la de H2 es 4 no podemos concluir

que las notas de H2 son mas dispersas que las de H1. La variabilidad de estos dos grupos

depende, además, de sus medias.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 65


2023-I

En el primer caso, si se indica que la media del horario H1 es 16 y la media del horario H2

es 11, los coeficientes de variación respectivos son:

S1 14 s2 14
CV 1= = =0 .875 , o 87 . 5 %, CV 2 = = =1. 27 o 127 %
x 1 16 x 2 11

Es decir, las calificaciones obtenidas en H1 son más homogéneas o tienen menor

variabilidad que las calificaciones de los horarios H2.

4.2.5 Uso de las medidas de dispersión o de variación.

La varianza es la medida de variabilidad cuyo computo transforma en cuadráticas

las unidades de medición de los valores de la variable.

La desviación estándar es la medida de variabilidad cuyo cómputo resulta en las

mismas unidades de medición de la variable.

El coeficiente o índice de variación es la medida de variabilidad cuyo computo

resulta un numero abstracto (carece de las unidades en las que vienen expresados

los datos).

1. Si dos o más grupos de datos (observados en el mismo tipo de medición) tiene

medias aritméticas iguales, entonces, es mas dispersa o de mayor variabilidad la

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 66


2023-I

serie que tiene mayor valor, una cualesquiera de sus medidas de variación:

rango R, o RI o s², o s, o CV.

Si hay marcada asimetría, es preferible comparar la variabilidad con el rango

intercuartil.

2. Si dos o más series de datos, no tienen medias iguales (o casi iguales) o no

tienen las mismas unidades de medición (variables diferentes), entonces, es más

homogénea o de menor variabilidad la serie que tenga menor coeficiente de

variación CV, sin importar su forma de asimetría.

Valores estandarizados.

Cuando se necesitan comparar valores observados que pertenecen a diferentes

distribuciones de datos, las que difieren en su media aritmética o en su varianza,

o difieren en el tipo de unidad de medida (variables diferentes), entonces se

estandarizan los valores observados de la variable aplicando la variable

‘estandarizad ora’ o variable estándar Z.

Para una distribución de datos de variable X la variable estándar Z se define por.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 67


2023-I

X−x
Z=
sn
x
La variable Z estandarizada en cero cualquier media y estandarizada en 1

s
n2

cualquier varianza . (Se deja como tarea para el lector comprobar que Z tiene

media igual a 0 y varianza igual a 1)

Los valores estandarizados indican la posición relativa de las unidades estadísticas

dentro de su grupo. Por lo tanto Z es otra medida de posición, además, de los percentiles.

Ejemplo 4.4

Las calificación en un examen final de matemáticas e Historia generaron las medias 13 y

17 y las desviación estándar de 3 y 4 respectivamente. Si un alumno obtuvo 14 en

matemáticas y 16 en Historia. En cuál de los dos cursos tiene mejor rendimiento relativo?

Solución.

3.2.6 propiedades de la varianza.


1. La varianza es un número real no negativo y viene expresada en mediciones
cuadráticas. Mientras, que la desviación estándar es también un número real no

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 68


2023-I

negativo que viene expresada en las mismas unidades en las que se observan los
datos.
s
2. Dada la media x n2

y la varianza de n datos de una variable X, la suma total de

n . ( s 2 +x ² )
n

los cuadrados de los valores es igual a .

n
∑ x i2=n . ( s n2 +x ² )
i=1

En efecto, para datos no agrupados se tiene por ejemplo,

3. Si la variable cuantitativa X se transforma en Y=aX+b (esto es cada uno de n los

valores xi es transformado en yi=axi+b), entonces, la varianza de X y la varianza de

Y denotadas ahora por Var(X), Var(Y) respetivamente, verifican la siguiente relación.

¡comprobar¡:

Var(Y)=a². Var(x)

Consiguientemente, desvEstdr(y)=/a/DesvEstdr(X).

Como casos particulares se tiene:

Si Y=b, entonces, Var(b)=0 . es decir, si los n datos de una variable son iguales a una

constante, entonces, su varianza es igual a cero.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 69


2023-I

Si Y=X +b, entonces, Var(Y)= Var(X). Es decir, si sumamos una constante a cada valor de

la variable, la varianza y en consecuencia la desviación estándar, no cambian.

Si Y=aX, entonces, Var(Y)=a².Var(X). Es decir, si multiplicamos por una constante ‘a’ a

cada valor de la variable, la varianza de los nuevos valores es igual que la varianza de los

antiguos valores multiplicada por a².

4. La varianza y la desviación estándar se calcula también, en distribución de

frecuencias de intervalos de amplitud diferentes, siempre que puedan determinarse

las marcas de las clases. por otra parte, esta medida dependen de todos los datos y

son sensibles a los cambios de cada uno de estos, basta que uno de los datos

cambie, para que cambien estas medidas.

5. Dados k series de datos con tamaños, medias y varianzas respectivas

n1 , x ,s 2 , n2 , x 2 , s n ,, . .. .. . ..nk , x k , sn
2 s
n2
2
n 2 k entonces la varianza total de los n=n1+n2+
……+nk datos es el numero:

k k
∑ n1 . ( s ni2 + x ² ) ∑ n1 . x i
i=1 2 i=1
s 2= −( x n ) xn=
n n , donde n

6. Desigualdad de chebyshev

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 70


2023-I

Cualquiera sea la forma de la distribución (simétrica o asimétrica) de los datos

observados de una variable X, el intervalo [


x n −ks n . x +k . s n ] donde k>1, contiene por
lo menos
1
2
1- k por ciento de los datos.
El porcentaje de datos que se ubican fuera del intervalo es menor que
1
x 100
k2 %
1 3
=
x −2 sn . x +2. s n ] contiene por lo menos el 1- 22 4 o 75%,
Por ejemplo, el intervalo [ n
del total de los datos. El porcentaje de datos que se ubican fuera del intervalo es
menos de 25%.
Del mismo modo,

El intervalo [
x n −3 s n . x +3. sn ] contiene por lo menos el 88.88% (8/9), del total de los
datos.

El intervalo [
x n −4 s n . x +4 . s n ] contiene por lo menos el 93.75%,(15/16), del total de
los datos.
Ejemplo 4.5
En el mes de enero el sueldo promedio de los trabajadores del sector industrial era
de S/. 200. Para el mes de julio se considera un aumento del 30% al sueldo del mes
de enero más un adicional de S/. 50. Si el coeficiente de variación en enero era de
0.25, se puede decir que la distribución de sueldos en julio es más homogénea?
Solución.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 71


2023-I

Ejemplo 4.6
Si los salarios no agrupados de 120 obreros tienen una media de S/. 300 y una
desviación estándar de S/ 30.
a. Cuantos obreros por lo menos tiene salarios comprendidos en el intervalo [S/.
240. S/. 360]?
b. Determine el intervalo que contiene al menos el 88.88% de los salarios.
c. Si el salario mínimo es S/. 210, en que porcentaje se puede afirmar que los
salarios son superiores a S/.390?
SOLUCION.

EJEMPLO 4.7
El costo inicial de producción X de una muestra de 80 objetos de cierto tipo, tiene
una media de S/. 250 para el 60% de la muestra y de S/. 200 para el resto,
además una desviación estándar de S/.30 para el 60% de la muestra y de S/. 25
para el resto.
a. Calcule la varianza del costo inicial de los 80 objetos.
b. Si el costo final de producción Y es igual al 20% más del costo inicial, mas 5
soles y si el precio de venta de cada objeto de la muestra proporcional al
cuadrado del costo final de producción. cuanto se recaudara por la venta
total? Cuanto será la utilidad neta?

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 72


2023-I

1. ASIMETRÍA

Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor
del punto central (Media aritmética). La asimetría presenta tres estados diferentes, cada
uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje
de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se
encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se
distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y
se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en
los valores menores que la media.
 

a. Asimetría negativa b. simetrica c. asimetría positiva


x <Me<Mo x =Me=Mo Mo<Me< x
El hecho de que dos distribuciones pueden tener la misma media y la misma desviación
estándar, no garantiza que estas sean simétricas. Pueden diferir en el grado de asimetría.
Otro modo de describir la simetría o asimetría de la distribución de los datos es aplicando
una grafica de cajas.
Existen varios método de medir la asimetría o asimetría de la distribución de los datos ,
uno de estos es el coeficiente o índice de asimetría de Pearson.
Definición.- el índice de asimetría de Pearson es el número real

x−Mo
As= s

Como en distribuciones de marcada asimetría se verifica: x−Mo≃3 . ( x−Me ) , entonces,


otra forma de expresar el índice de asimetría es :

3 ( x−Me )
As= s
Interpretación de la asimetría As.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 73


2023-I

Si la distribución de los datos es simétrica, As=0, donde se observa, además que coinciden

los tres promedio x =Me=Mo.

Si ASǂ0, La distribución es asimétrica. Además, es asimétrica positiva o sesgada o de cola a la derecha, si As>o, Mo<Me< x.

Y si es asimétrica negativa o sesgada o de cola a la izquierda si As<0, x <Me<Mo .


Por ejemplo, la distribución de los 45 salarios quincenales de los ejemplos anteriores, organizados en siete intervalos tiene
asimetría negativa, pues:

3 . ( x−Me ) 3 (59 . 867−60. 75 )


As= = =−0 . 0824
s 10 .72
NOTA. (Otros índices de asimetría)
El índice de asimetría de Pearson aplicando momentos de define para n casos por:
n
nM 3
As= donde , M 3 =∑ ( X i−x )3 , sn =la
( n−1 )( n−2 ) s i=1
n3 desviación estándar.
Este índice es utilizado por los paquetes de cómputo estadístico para determinar la
asimetría de distribuciones de la forma dato-frecuencia.
Para n datos tabulados en k intervalos, un método alternativo es utilizar el índice de
asimetría de Fisher definido por:
M 3/ n k
As=
s M 3=∑ f i ( mi −x )3
n3 En donde i=1 ,
s n = la desviación estándar.
Si la distribución es simétrica As=0. Si As>0, es asimétrica positiva y si As<0, es asimétrica
negativa.
Por ejemplo, continuando con el ejemplo anterior, el índice de asimetría de los 45 salarios
quincenales organizados como variable discreta en la forma de dato ↔ frecuencia es As= -
0.375. Y de los mismos datos tabulados en 8 intervalos es: -0.3.
Nota (ojivas asimétricas y simétrica). Las ojivas o curvas de frecuencias acumuladas,
presenta formas particulares según tipo de asimetría. Por ejemplo, en la siguiente figura a
la curva de frecuencias acumulada A es de una distribución con asimetría extrema
negativa. La ojiva C es de asimetría extrema positiva. La ojiva B es de una distribución
simétrica. En la figura b la diagonal D es la ojiva de una distribución normal. La curva F es
la ojiva de una distribución simétrica leptocurtica, y la E de una platicurtica.ver curtosis.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 74


2023-I

4.4. Curtosis
La curtosis es la propiedad de una distribución de frecuencias por la cual se compara
la dispersión de los datos observados cercanos al valor central con la dispersión de
los datos cercanos a ambos extremos de la distribución. La curtosis se mide en
comparación a la curva simétrica normal o mesocurvitica.

Una curva simétrica con curtosis mayor que la normal es denominada curva leptocurtica fig
3.3c
Una curva simetrica con curtosis menor que de la norma es denominada curva platicurtica
fig. 3.3b
Existen varias manera de medir la curtosis de la distribución de los datos. Pero, se aplica
solo si la distribución es simetrica.
Curtosis basado en percentiles
Esta medida de curtosis es muy poco usada por ser muy inestable. Sin embargo, describe
muy bien el concepto.
Es una curva normal, el cociente del rango intercuartil (percentil 75 menos el percentil 25)
entre la diferencia del percentil 90 menos el percentil 10 es aproximadamente igual a 0.5.

A media que
P75−P25 , yP 90 −P10 sean iguales (valor del cociente casi nulo), la distribución

será leptocurtica, y a medida que


P75−P25 sea cada vez mas pequen, o con respeto a

P 90 −P10 (valor del cociente casi cero) la distribución será platicurtica.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 75


2023-I

La curtosis utilizando percentiles se define por el consiente:


P75 −P25
k= −0 .5
P 90 −P10
Interpretación. Si la distribución es normal, k tiende a 0. Si k tiende a 0.5 , es leptocurtica ,
y si k tiende a -0.5 , es platicurtica.
Por ejemplo, la distribución de los 45 salarios quincenales del ejemplo anterior, tabulados
en 7 intervalos tiene cutrosas k=[(66.75-53.4)/(73.5-45)]=-0.5=-0.33 si embargo, no se
puede relacionarla con una distribución norma; porque esta distribución de frecuencias no
es simétrica.
Nota .(otras medidas de curtosis)
La curtosis utilizando momentos es definida por la expresión:
n ( n +1 ) M 4 −3 M 2 M 2 ( n−1 )
k=
( n−1 ) ( n−2 ) ( n−3 ) s 4
n

n
M j =∑ ( X i −x ) j
Donde i =1 , n= número de casos, s=la desviación estándar
Esta curtosis es utilizada por los paquetes de cómputo estadístico para determinar la
curtosis de distribución de la forma dato-frecuencia.
Para n datos tabulados en k intervalos, la curtosis se calcula por:
M4/n
k= −3
s
n4

k
M 4 = ∑ f i ( m i− x ) 4
Donde, i =1
s n = desviación estándar.
Si la distribución es normal k=o si k>0, es leptocurtica y si k<0 es platicurtica.
Por ejemplo, continuando con el ejemplo anterior, la curtosis de los 45 salarios quicenales
tabulados en la forma dato-frecuencia es k=1.021. Y de los mismos datos tabulados en 8
intervalos es k=0.244 . Sin embargo, no se puede decir que es leptocurtica, por que la
distribución de los datos no es simétrica.

3.5 diagrama o grafica de caja


Existen una gran variedad de graficas estadística para extraer información acerca de las
propiedades o comportamiento de un conjunto de datos.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 76


2023-I

Una grafica útil para reflejar propiedades y describir la forma como se distribuyen los datos
es la grafica de caja (box plots) que se basa generalmente en la mediana (en algunos
casos en la media), los cuartiles y valores extremos. La caja representa el rango intercuartil
que encierra el 50% de los valores observados de una variable cuantitativa y tiene la
mediana (Me) dibujada dentro. El rango intercuartil tiene como extremos el percentil 75,
P75 (o cuarto superior Q3) y el percentil 25, P25 (cuarto inferior Q1)
Además de la caja se incluye la extensión de los datos mediante segmentos (bigotes de
caja) que se extiende de la caja hacia el valor máximo (U) y hacia un valor mínimo (L) de
los datos. Este recuadro se dibuja con el eje de la variable en forma horizontal o vertical
como se indica en la figura que sigue.
Los datos atípicos o discordantes o raros llamados ‘outliers’ (aislados) son aquellos que se
ubican fuera del intervalo [p25-1.5RI, P75+1.5RI] , donde RI= p75-p25 es el rango
intercuartil. En este caso, el extremo inferior l es el dato mínimo no outlier y el extremo
superior U es el dato máximo no outlier.
Los outlier son ‘posibles valores fuera del intervalo’. Empíricamente un dato esta fuera de
intervalo si su valor estandarizado Z esta fuera del intervalo [-3,3]

Diagrama de caja y extensiones.

De un grafico de caja, se obtiene información de los datos acerca de :


La centralización, observando la ubicación de la mediana
La dispersión o variabilidad, mediante el rango intercuartil: RI= P75-P25
La asimetría, comparando los segmentos: Me-P25 con P75-Me.
Las colas, por la longitud de los segmentos que salen de los lados de la caja hacia el
máximo y hacia el mínimo.
Ejemplo 4.8
Las calificaciones de 20 alumnos en una prueba de conocimiento son.
1,2,3,4,5,6,7,8,9,10,12,13,12,13,14,15,12,13,14,15

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 77


2023-I

Realice el análisis descriptivo de los datos aplicando una gráfica de caja


Solución

Ejercicio 4.9
Los salarios quincenales en dólares registrados de 40 empleados son.
109, 174, 158, 211, 164, 179, 137, 175
192, 147, 203, 186, 072, 246, 193, 163
231, 197, 170, 190, 169, 188, 140, 237
179, 085, 217, 168, 185, 208, 164, 175
288, 124, 255, 151, 182, 167, 209, 169

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 78


2023-I

CAPITULO 5
REGRESION LINEAL SIMPLE
5.1 INTRODUCCION
El objetivo de este capítulo, es estudiar la asociación entre dos variables conocida
también como asociación simple, solo en forma descriptiva. Este capítulo contiene
la aplicación de los métodos descriptivos a muestras bivariantes cuantitativas
medibles X e Y por ejemplo, salario y gastos mensuales.
La primera forma de estudio de asociación entre las variables X e Y es denominada
regresión, que consiste en determinar la relación funcional lineal (recta de
regresión) entre ellas, con el fin de predecir el valor de una variable en base a la
otra. La variable que se va a predecir se denomina variable dependiente y la
variable que es la base de la predicción se denomina variable independiente.
La segunda forma del estudio de asociación entre las variables X e Y , es
denominada correlación, que consiste en determinar la variación conjunta de las
dos variables, su grado o nivel de relación, y su sentido (positivo o negativo). La
medida del nivel de relación se denomina coeficiente o índice de correlación. El
cuadrado del índice de correlacion se denomina coeficiente de determinación.
En este capítulo realizaremos un estudio descriptivo de la regresión lineal en el
sentido que, la ecuación de regresión lineal que se calcula será válida, solo si hay la
seguridad de que existe un alto grado o nivel de correlación entre las variables
medido por el coeficiente de determinación.
Un estudio más avanzado de este tema se expone en el capítulo de la estadística
inferencial que viene a ser la segunda parte de estadística aplicada a la ingeniería
industrial.
5.1.1. DATOS Y GRAFICAS DE DISPERSION.
Los datos de la regresión simple
Los n datos en pareja (x1,y1), (x2,y2)…….,(xn, yn) son valores de la variable
bidimensional (Y,X), donde los xi son los valores de la variable independiente X y los
Yi son los valores de la variable dependiente Y.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 79


2023-I

Los métodos estadísticos descriptivos ya estudiados como la media, la desviación

validos en cada una de las dos variables. La estadística


estándar, etc. Son
descriptiva nueva aquí es la covarianza que mide la dispersión o variabilidad

conjunta de los valores de las variables (X,Y) con respecto a las medias ( x, y )

Además, es posible, construir distribución de frecuencias conjuntas de las dos

Ii y los datos de Y se
variables. Si los datos de X se tabulan en r intervalos;

tabulan en s intervalos;
jj
, se tendrá una distribución conjunta de frecuencias que

( Ii , J j ) f ij
consiste de los intervalos , y frecuencia . En esta guía, no tocaremos el

tema de distribuciones conjuntas por intervalos de dos variables asociadas.

LA GRAFICA DE DISPERSION

Es frecuentemente posible visualizar el tipo de relación existente entre las dos

variables (X,Y) analizando la grafica en el plano cartesiano de los datos ( xi, yi),

denominada grafica de dispersión, o XY dispersión. La grafica indica la tendencia de

la relación existente entre las dos variables.

Por ejemplo, en la figura 5.1, a ) los datos visualizan una relación lineal con

tendencia positiva o creciente entre las variables X e Y, mientras que en la 5.1 b) la

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 80


2023-I

relación es lineal con tendencia negativa o decreciente. en la figura 5.1 los datos

visualizan una relación no lineal, y en la figura 5.1 d) los datos visualizan ninguna

relación valida de regresión.

Figura 5.1 tendencias de los diagramas de dispersión.

En este capítulo, como ya se ha expresado en la introducción, estudiaremos la regresión


lineal en forma descriptiva, calculando la ecuación de regresión simple:
Y=a+bx
Que mejor se ajusta a los n datos en pareja (xi, yi) y analizando la validez de la ecuación o
modelo de regresión obtenida aplicando el coeficiente de determinación.
5.1.2 la covarianza
La covarianza de los datos observados en una muestra es la estadística que mide el nivel
de variabilidad (dispersión o concentración) conjunta de los datos de las variables en

pareja (X,Y) con respeto a sus medias respectiva ( x, y ) .


Definición. La covarianza de n valores (x1,y1), (x2,y2), ………(xn,yn) de una variable

bidimensional (X,Y) es el número real que denotaremos por cov XY y que se define como la
media aritmética de los productos de las desviaciones conjuntas de los datos con respecto
a su correspondiente medias. Esto es:

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 81


2023-I

n
∑ ( x i−x )( y i − y )
i=1
cov XY =
n

El numerado de la covarianza se denota también por s XY y verifica la relación:

n n
S XY =∑ ( xi −x )( y i− y )=∑ x i y i −n x y
i=1 i=1

Luego,
n

S XY
∑ xi yi
i=1
cov XY = = −x y
N n
La covarianza a diferencia de la varianza, puede ser negativa.

5.1.3 El coeficiente o índice de correlación.


Definición. El coeficiente o índice de correlación lineal de Pearson de los n pares de
valores (x1,y1),(x2,y2), ………, (xn,yn) de una variable bidimensional (X,Y) es el numero
abstracto o relativo r que se calcula por:

cov XY
r=
S x SY

Donde, S X es la desviación estándar de X


S y Es la desviación estándar de y
Si hacemos

n n
S XX =∑ x 2 −n x 2 S YY =∑ y 2 −n y 2
i i
i=1 Y i=1 es fácil verificar que:

r=
cov XY
=
∑ xy−n x . y
√ S XX √ SYY
√∑ x 2−n x 2
√∑ y 2 −n y 2
i

El coeficiente de correlación de la muestra es un número real comprendido entre -1 y +1.


Esto es:
-1≤ r ≤ 1

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 82


2023-I

Interpretación del índice de correlación.


Si r= 1, se dice que hay una correlación lineal perfecta positiva
Si r=-1, se dice que hay una correlación lineal perfecta negativa
Si r=0, se dice que no hay correlación entre las dos variables.
Es obvio, que cuanto más cercano este a 1 el valor absoluto de r se tendrá una ´´ buena´´
correlación, pero, ¿Qué valores de r indican una relación lineal buena o aceptable a nivel
descriptivo entre las variables X, Y?
El grado o nivel de ajuste de la ecuación a los datos se analiza en forma descriptiva
aplicando el coeficiente o índice de determinación que se define como el cuadrado del
coeficiente de correlación.

5.2 Regresión lineal simple.


Dado una muestra de n datos (x1,y1),(x2,y2), ………(xn,yn) observados de la variable
bidimensional (X, Y). la regresión lineal simple de la variable dependiente Y con respecto a
la variable independiente X, consiste en obtener la ecuación de la recta: o modelo de
regresión:

Y=a+bX
Que mejor se ajuste a los valores de la muestra, con el fin de poder predecir o pronosticar
los valores de Y dado X. ( ver figura 5.2)

Figura 5.2 desviación de valores observados y ajustados.


El proceso de obtener el modelo de regresión, analizar su validez y predecir Y dado X, es
la regresión.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 83


2023-I

Hallar la función lineal Y=a+bX, es un proceso que consiste en determinar los valores de a
y b aplicando los datos de la muestra.
¿

Usaremos la notación y i para representar un valor de Y calculado de la ecuación de


¿
x
regresión Y= a+bX cuando X es igual a i . Esto es, y i =a+bx.
¿

Al valor y i se denomina valor pronosticado o ajustado de Y cuando X= i .


x
¿
x x
Si i es un valor de la muestra, entonces ( i , y i ) es un punto de la recta de regresión
Y=a+bX.
Definición.- se denomina error o residuo a cada diferencia (positiva o negativa),

¿
d i= y i− y i
¿

Del valor observado de yi y el valor pronosticado y i , ver figura 5.2


El método que aplicaremos para determinar la recta que mejor se ajuste a los n datos de la
muestra (xi,yi) es el método de minimos cuadrados, que se exponen a continuación.

5.2.1 recta de regresión de mínimos cuadrados.


Intuitivamente, la grafica 5.2, la mejor recta de ajuste seria aquella que minimice todos los
residuos de los datos, pero no es posible aplicar este criterio, por que se demuestra que

∑ d i =0 . Por esta razón es que se minimiza la suma de los cuadrados de los residuos.
La recta de regresión de mínimos cuadrados de Y en X es aquella que hace mínima la
suma de los cuadrados de los residuos o errores (SCE) cuya expresión es:
n n ¿ n
SCE =∑ d 2 =∑ ( yi − y i )=∑ ( y i−a−bx i ) 2
i=1 i i=1 i=1

Es decir, determinar una recta de regresión de mínimos cuadrados aplicando los datos de
la muestra, consiste en hallar los valores de a y b de manera que hagan mínima, la suma
(que resulta ser una función de a y de b)
n
SCE =∑ ( y i −(a+ bx i ) )
2

i=1

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 84


2023-I

Este requisito se cumple, de acuerdo con el teorema de Gass-Markow si a y b determinan


resolviendo el siguiente sistema de ecuaciones normales
n n
∑ y i =na+b ∑ x i
i=1 i=1
n n n
∑ x i y i=a ∑ xi +b ∑ x i2
i=1 i=1 i=1

Estas ecuaciones se obtienen de igualar a cero las derivadas de SCE con respecto a y con
respecto a b respectivamente consideradas como variables, ya que (xi,yi) son datos
observados
Resolviendo el sistema de ecuaciones normales para b, se obtiene:

n ∑ xy −∑ x ∑ y
b= 2
n ∑ x2 −( ∑ x )
Y dividiendo por n la primera ecuación norma, se tiene:

a= y−b x
Notas
S XY cov XY
b= b=
S XX , También como S
1. El coeficiente b se puede escribir como X2 ,
S
donde X2 es la varianza de X

2. Sustituyendo a= y−b x en Y= a+bx, resulta,

Y- y=b ( X−x )

En consecuencia la recta de regresión escrita de este modo contien al punto ( ( x, y) cuyas


componentes son las medias de X y de Y respectivamente.
Interpretación del coeficiente de regresión b
El coeficiente b es la pendiente o el coeficiente de la regresión lineal.
La constante a es la ordenada en el origen.
Por el signo, la pendiente se interpreta como sigue.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 85


2023-I

Si b> 0, entonces, la tendencia lineal es creciente, es decir, a mayores valores de X


corresponde mayores valores de Y. también, a menores valores de X corresponden
menores valores de Y
Si b< 0, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X
corresponden mayores valores Y. también a menores valores de X corresponde mayores
valores de Y.
Si b=0, entonces, Y=a. en este caso, Y permanece constante para cualquier valor de X,
indicando esto que no hay regresión.
Por su valor numérico, la pendiente se interpreta como sigue:
b ordenada
b= =
Dado que, 1 abscisa entonces, b es el cambio promedio en Y cuando X cambia una
¿

unidad de medida. Esto es, si, xi se incrementa 1 unidad de medida, entonces y i se


incrementa en promedio b.
¿

En general, si xi se incrementa k unidades de medida, entonces y i se incrementa en


promedio kxb.
Ejemplo 5.1
Un trabajo estadístico asignado a un grupo de estudio consiste en obtener un modelo de
regresión lineal a nivel descriptivo para predecir las ventas semanales de un producto
específico en función de la publicidad del producto por la radio. Para esto, han recopilado
al azar los tiempos de duración en minutos de la publicidad de 10 semanas y el respectivo
número de unidades vendidas del producto. Los datos se dan en la tabla siguiente.
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad X 20 3 30 40 50 60 60 60 70 80
0
Ventas Y 50 7 69 87 10 128 135 132 14 140
3 8 8

a) Grafique los datos y describa su tendencia


b) Obtenga la recta de regresión lineal simple de mínimos cuadrados.
c) Calcule el coeficiente de correlación entre X e Y.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 86


2023-I

d) Aplique la regresión para predecir la venta de una semana donde se harían 100
minutos de propaganda. ¿es confiable su predicción?
e) Según la regresión obtenida si la publicidad de una semana cualquiera se
incrementara en 5 minutos, ¿Cuánto seria el incremento de las ventas?

EJEMPLO 5.2 los ingresos (X) y los gastos (Y) mensuales en dólares de una muestra
de 100 familias han dado los siguientes resultados:
x=210 , y=200 , S 2 =5 .76 , S 2=2. 56 , r=0 . 96
X Y

a) Determinar la recta de regresión de mínimos cuadrados de Y en X y pronostique el


gasto de una familia si en un mes cualquiera tiene $250 de ingresos.
b) Si para el siguiente mes se predice el gasto de una familia en $257.6. ¿a cuánto
asciende su ingreso del mes?

5.2.2. Participación de la varianza de Y


¿

Sea (xi,yi) un valor observado de la variable (X,Y) e y i el valor en la ecuación de regresión


Y=a+bX cuando X=xi
La varianza de Y es el número real:
n
∑ ( y i − y )2
i=1
S 2= y i− y de S Y 2 Se escribe y se lee del siguiente
Y n La componente principal
modo:

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 87


2023-I

( )( )
¿ ¿
y i− y= y i− y i + y i − y
Error total= error no explicado + error explicado
¿

Esta terminología surge, debido a que las desviaciones y i− yi con respecto a la recta de
regresión, se comportan de una manera aleatoria o impredecible, debido a que yi es
aleatorio
¿

Mientras que las desviaciones y i− y de la recta de regresión con respecto al eje de las X
¿

se explican por la recta de regresión de Y en X ya que solo depende de los y i que están
sobre la recta.

yi

¿
yi

Figura 5.4 . Participación de la varianza de Y


Por otro lado se verifica la siguiente participación de sumas de cuadrados:

n n n
( ) ( )
¿ 2 ¿
∑ ( y i− y ) 2=∑ y i − y i + ∑ y i− y
i= i= i=

SCT= SCE+SCR
La SCT, suma de cuadrados total, es la cantidad de variación de los valores de Y con

respecto a la media y.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 88


2023-I

La SCE, suma de cuadrados de los errores, es la cantidad de variación de los valores


aleatorios o no explicativos de Y.
La SCR, es suma de cuadrados debido a la regresión, es la cantidad de variación dse los
valores de Y explicada por la recta de regresión calculada de la muestra.
Si se divide a SCT por n, (el tamaño de la muestra), entonces, la varianza total se expresa
en términos de dos varianzas, esto es, la “varianza total de los Yi es igual a la varianza no
explicada o residual, mas la varianza explicada por la recta de regresión”.
Sin embargo, una mejor explicación de la partición se hace transformando las sumas en
porcentajes como se muestra en el siguiente ejemplo.
Ejemplo 5.3 (taller sobre la participación de la varianza de la variable Y)
En una muestra de 5 obreros de una fabrica se han observado sus años de experiencia (X)
y el tiempo que tardan en realizar una determinada tarea (Y). Los datos se muestran en la
tabla siguiente:
X 1 2 3 4 5
Y 8 9 4 3 3
Compruebe que la variación total es igual a la variación no explicada mas la variación
explicada por la regresión de Y en X, luego, exprese la partición de la varianza de Y en
porcentajes de las varianzas que la componen.
Solución:

5.2.3 el coeficiente de determinación.


2 2
El coeficiente de determinación denotado por r o por R se define como el cociente de la
suma de cuadrados de regresión sobre la suma de cuadrados total.
2
Esto es, el coeficiente de determinación r de la regresión de Y en X esta descrito por:

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 89


2023-I

n
∑ ( y i− y )
¿ 2

SCR i=1
r2= = n
SCT
∑ ( y i − y )2
i =1

Aplicando esta expresión a la participación de suma de cuadrado


SCT=SCE+SCR
Resulta:

SCR 2
1= +r
SCT (*)
Por lo tanto, para interpretar la partición de varianzas relativas bastara con calcular r luego
2
r Y escribir:
2 2
1= (1−r )+r
2
Y concluir afirmando que, el 100% de la varianza total es igual (1−r ) x100 % de la varianza
2
no explicada más r x100% de la variación explicada por la recta de regresión.
2
Continuando con el ejemplo 5.1, r=0.9705, r =0.94, entonces se tiene:
2 2
1= (1−r )+r o 1=0.06 +0.94
Es decir, el 94% de la variabilidad en las ventas semanales se explican por la asociación
con los tiempos de publicidad del producto. Quedan 6% de variabilidad en las ventas que
no se explica por la regresión obtenida.

Interpretación del coeficiente de determinación.


2
1. De la identidad (*) se concluye que 0≤ r ≤1. Entonces, -1≤r≤1
Si r > 0, se dice que existe una relación directa positiva, ambas variables aumentan
(o disminuyen) simultáneamente.
Si r< 0, se dice que existe una relación inversa negativa, mientras los valores de una
variable aumenta, los de la otra disminuye y viceversa.
Si r=0, se dice que no hay correlación entre X e Y . por lo tanto, no hay regresión de
Y en X.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 90


2023-I

¿
2
2. r = 1, solo si, SCR=0 o solo si y i= y i
para los n datos de la muestra. Esto significa

yi
que todos los valores está en la recta de regresión. Si este es el caso, se dice

que hay una correlación perfecta entre X e Y.

Si r=1, se dice que hay una correlación perfecta positiva

Si r=-1, se dice que hay una correlación perfecta negativa.


¿
2
3. r =0, solo si, SCR=0 o solo si, y i= y
para los n datos de la muestra.

yi xi
Es decir, no cambia cuando cambia , o todas las predicciones son iguales a

una misma constante. Si este es el caso, se dice que no hay correlacion ni

regresión.
2
4. El coeficiente de determinación r , es pues una medida de la proximidad del ajuste
2
de la recta de regresión. Cuanto mayor sea el valor de r , mejor será el ajuste y

mas útil la recta de regresión como instrumento de predicción.


2
Continuando con el ejemplo 4.1, r =0.94 indica en cierto modo que “ si la muestra

tuviera 100 pares de puntos, 94 de estos estarían en la recta de regresión obtenida

y solo 6 de estos se ubicarían fuera de la recta de regresión”.

Esto se interpreta como que es muy bueno el ajuste de la ecuación lineal a los datos

de la muestra. En general, es ideal tener una variabilidad de Y no explicada no

mayor del 10%.

5.2.4. Invariancia del coeficiente de regresión y del índice de correlación (tema


Opcional)

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 91


2023-I

Si el número de cifras de los datos es muy grande, de manera que no se


pueda aplicar en una calculadora, hay dos formas de simplificar los cálculos de la
pendiente b de la regresión y del coeficiente de correlacion r.
La primera forma es mediante un cambio de origen, que consiste, en transformar los
datos de X e Y o de ambos a la forma X´=X-h, Y´=Y-k con h y k constantes.
Si se hacen tales transformaciones en X o Y o en ambos, b y r no cambian, esto es:
S XY SX Y SX Y S XY
b= = = =
S XX SX´X SX X´ S XX
Cov XY Cov X ´ Y ´ Cov X ´ Y Cov XY ´
r= = = =
S X SY S X ´ SY ´ SX ´ SY SX SY ´
La segunda forma de simplificar el calculo de b y de r, es mediante una reducción de la
escala, que consiste en dividir X e Y por una constante diferente de cero.
Si X´=X/h e Y´=Y/h, entonces, la pendiente b no cambia, esto es,
S XY SX Y
b= =
S XX SX´X
Si se hace la transformación X´=X/h, Y´=Y/k en X e Y o en ambos, entonces, el coeficiente
r no cambia, esto es,
Cov XY Cov X ´ Y ´ Cov X ´ Y Cov XY ´
r= = = =
S X SY S X ´ SY ´ SX ´ SY SX SY ´
Ejemplo 5.4
El ingreso anual disponible y los gastos de consumo (en dólares) de una muestra de 10
familias de un barrio residencial de Lima fueron tabulados en el cuadro siguiente.
Halle la recta de regresión del consumo (Y) con respecto al ingreso (X), utilizando la
transformación
Ingreso Consumo
20 000,000 18 000,000
14 000,000 15 000,000
35 000,000 30 000,000
23 000,000 16 000,000
12 000,000 9 000,000
5 000,000 7 000,000
7 000,000 7 000,000
14 000,000 15 000,000

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 92


2023-I

30 000,000 26 000,000
25 000,000 23 000,000

Solución.
Ejemplo 5.5
Al estudiar la relación entre los costo (X) y las ventas (Y) en dólares de ciertos productos,
se obtuvo la siguiente información de la muestra:

n=15, Sx=5, Sy=4 x=50, y=100, Y=62+0.76X


si los costos se incrementan en 3 dólares y las ventas correspondientes se incrementan en
$ 6 dólares.
A) ¿Cómo cambia la ecuación de regresión dada?
B) ¿Qué porcentaje de la varianza de las ventas es explicada por la regresión de
ventas sobre costos?
Solución:

Ejemplo 5.6 (aplicación a serie de tiempo)


Cuando una de las variables es el tiempo (en días, meses o años), la regresión se
denomina serie de tiempo.
Supongamos que la producción (en millones) de un determinado articulo fabricado por una
compañía durante los años 1988-2007 es como sigue:
Años 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Producció 92.2 92.3 80.0 89.1 83.5 68.9 69.2 67.1 58.3 61.2

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 93


2023-I

a) Dibuje un grafico de líneas y describa la tendencia.


b) Obtenga la recta de regresión (serie de tiempo) de mínimos cuadrados de la
producción en función del tiempo en años.
c) Realice la predicción de la producción para el 2008 y establecer si significativa tal
predicción.
Solución:

5.3. Nociones de regresión no lineal.


En muchos casos, cuando los valores en pareja de las variables X e Y, no se
ajustan a una línea recta, se puede conseguir que una relación lineal sea
transformada en una relación lineal mediante una transformación de la variables.
A continuación se dan algunas ecuaciones no lineales y su transformación lineal

a )Y =AB X ( Exponencial )→ logY =log A + ( log B ) X


b )Y =AX B (Potencia )→logY =log A+B log Xç
1 1
c )Y = ( Hiperbolica )→Y ´= A+BX , Siendo→Y ´=
( A+BX ) Y

Ejemplo 4.7
Aplicando el método de mínimos cuadrados, ajuste el modelo de regresión
potencia
B
Y = AX
A los siguientes datos observado de una muestra:
X 1.5 2 3 3. 4 5
5
Y 2.6 2.4 1.2 1. 1.6 1.4
8

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 94


2023-I

Solución:

Ejemplo 4.8
Para los siguientes datos experimentales
X 1 2 3 4 5 6
Y 10 4 120 300 80 1500
0 0

Se plantean ajustar los dos siguientes modelos de regresión:


BX
Modelo exponencial Y = Ae y el modelo lineal Y=a+bX
¿Cuál de los dos modelos escogería usted como el modelo mas adecuado?

Ejercicio 1
¿
d i= y i− y i = y i−a−bxi
Si , Compruebe que:
n
a ) ∑ d i=0 ,
i=1
n
b ) ∑ di x i =0
i=1
n ¿
c ) ∑ d i y i=0
i=1
n
( )( )
¿ ¿
d ) ∑ y i − y y i − y i =0
i=1

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 95


2023-I

Ejercicio 2
Compruebe que

( )
2
¿ 2
∑ ( yi−y )2=∑ ( yi −yi) +∑ yi−y
¿

Ejercicios 3

( y − y) = SCR
2
¿
S XY 2 ∑ i
r= ,Entonces ,r =
√ S XX √ SYY
( )
2 SCT

Demuestre que si
∑ yi− y
SOLUCION:

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 96


2023-I

CAPITULO 6
NUMERO INDICES
6.1 INTRODUCCION
Uno de los métodos estadísticos que se utilizan con mayor frecuencia en economía,
administración de empresa, demografía y otros campos de la estadística aplicada,
es el número índices.
Básicamente un número índices, es el cociente de cualquier medición de una
variable (o más variables) con respecto a una de sus mediciones que se toma como
base.
El objetivo de los números índices es cuantificar variaciones de las mediciones de
una variable a través del tiempo. En este sentido el número índice es el cociente de
la medición de la variable en un periodo determinado con respecto a un periodo
base.
Las mediciones pueden estar relacionadas con la cantidad, precio o valor.
Los números índices se clasifican en índices simples o elementales e índices
compuestos o agregados.
El número índice simple se calcula a partir de una sola variable. Mientras que un
índice compuesto se calcula a partir de dos o más variables.
Los índices compuestos se clasifican en índices no ponderados e índices
ponderados
6.6.1 índices simples
Definición.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 97


2023-I

Sea
x t la medición de una variable cuantitativa X registrada en un periodo

determinado t (año, mes o dia) y


x 0 ( x 0 ǂ0) la medición de la variable para el periodo

base
t 0 . Se denomina índice simple de X para el periodo t con respecto al periodo

base
t 0 , al numero que lo denotaremos por I t /t 0 o I t /t 0 ( X ) o It y que se define por :
xt xt
I t /t ( X )= ,0 I t /t ( X )= x 100
0 x0 0 x0 %

El porcentaje de variación entre los valores


x 0 y x t se calcula por:
xt
( −1. 00 )%=( I t /t x 100−100 ) %
% variación= x0 0
.
Si el porcentaje de variación es positivo se dice que ha habido un incremento, si es
negativo se dice que ha habido una baja.
Ejemplo 6.1
En el cuadro 6.6 se dan los promedios de los salarios, en dólares, de los
trabajadores de una empresa, de 1975 a 1983. Calcule los correspondientes
números índices para cada uno de los nueve años utilizando como año base los
siguientes años:
a) 1975, b) 1978, c) 1983.
Cuadro 6.6. Calculo de números índices
años salarios Números índices con años base=100
1975=100 1978=100 1983=100
197 310 100.0 81.6 54.4
5 330 106.5 86.8 57.9
197 370 119.4 97.4 64.9
6 380 122.6 100.0 66.7
197 430 138.7 113.2 75.4
7 450 145.2 118.4 78.9
197 480 154.8 126.3 84.2
8 540 174.2 142.1 94.7
197 570 183.9 150.0 100.0
9
198

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 98


2023-I

0
198
1
198
2
198
3
Solución.

6.4.3 Índices de precios, de cantidades, y de valores

Definición. Si
pt y p0 son dos valores de la variable precio P en los periodos

respectivos t y
t 0 entonces, el índice simple de los precios en el periodo t con

respecto al periodo base


t 0 , es el número:
pt pt
I t /t 0 ( P)= ,0 I t /t 0 ( P)= x 100
p0 p0 %

Definición. Si
q t y q 0 son los valores de la variable cantidad, Q, en los periodos

respectivos t y
t 0 , entonces, el índice simple de cantidades en el periodo t con

respecto al periodo base


t 0 es el número:
qt qt
I t /t (Q)= ,0 I t /t (Q)= x 100
0 q0 0 q0 %
Definición de valor. El valor V de cierto artículo en un periodo determinado es igual
a su precio multiplicado por la cantidad vendida (o producida). El índice de valor

simple en un periodo determinado t con respeto al periodo base


t 0 , se define por:
pt q t
I t /t 0 (V )= ,0 I t /t ( P) xI t /t (Q)
p0 q 0 0 0 %

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 99


2023-I

Donde
pt qt y p0 q 0 son los valores respectivos en el periodo t y en el periodo base.
Ejemplo 6.2
En la tabla 6.7 se dan los precios promedios en dólares y las cantidades de
consumo promedios en kilogramos de un articulo desde 1980 a 1982.
Tomando como base el año 1980, calcule los índices de precios, de cantidades, y
de valores para 1981 y 1982.
Tabla 6.7 . Índice de precios, cantidad y valor.
Año Precio Cantidad Índice Índice Índice
$ Kg. precios cantida Valor
d
198 15 6.5 100 100 100
0 20 7.4 133 114 152
198 25 7.8 167 120 200
1
198
2
Solución.

6.4.4 índice compuesto o agregados


Definición.- un número índice compuesto se define como una combinación de
números índices simples cada uno de ellos referidos a una misma base.
Los índices compuestos se clasifican en compuestos no ponderados y compuestos
ponderados.
6.4.4.1 índices compuestos no ponderados

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 100


2023-I

Uno de los métodos de cálculo de índices compuestos no ponderados o simples, es


el método de la media agregada simple conocida también como índice agregado
simple.
Definición.- el índice agregado simple es el cociente de la suma de las medidas de
dos o más variables en el precio t entre la suma de las medidas de esas variables
en el periodo to.
El índice agregado simple de precios de varios artículos en un periodo t con
respecto al periodo base to se define por:

I t /t ( P)=
∑ Pt
0
∑ P0

El índice agregado simple de cantidades de varios artículos en un periodo t


con respecto al periodo base to se define por:

I t /t (Q)=
∑ qt
0
∑ q0
Nota. El índice compuesto no ponderado de valor se define por:

I t /t (V )=
∑ Pt q t
0
∑ P0 q 0

Ejemplo 6.3
En el cuadro 4.8 se da una canasta de artículos básicos que comprende 4 ítems A, B, C y
D , los precios en dólares y las cantidades consumidas en kilogramos durante los años
1980 y 1985.
Tomando el año 1980 como base, calcule los índices compuestos no ponderados de
precios y cantidades de 1985.

Tabla 6.8 . Índices compuestos no ponderados.


Precio promedio Cantidad consumo Índices
Ítem 1980 (Po) 1985(Pt 1980(qo) 1985(qt) Precio Cantidad
) s
A 0.50 0.80 5.5 6.2 1.600 1.127
B 0.80 0.90 4.0 5.0 1.125 1.250

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 101


2023-I

C 1.00 1.50 1.5 2.0 1.500 1.333


D 3.00 4.50 2.4 3.0 1.500 1.250
5.30 7.70 13.4 16.2 5.725 4.960
SOLUCION:

Nota. Otra forma de definir el índice compuesto no ponderado es el método de la


media aritmética simple;
∑ indices
numerodeindices
Por ejemplo, por este método, el índice de precios de 1985 con base en 1980, (cuadro 6.8)
es 5.725/4=1.43
Mientras que el índice de cantidades de 1985 con base en 1980 es 4.960/4=1.24
Los índices compuesto no ponderados asignan igual importancia a cada precio o cantidad
componente, esto permite que un precio o valor alto, domine el índice. Por esta razón no
es muy utilizado.
6.4.4.2 Índices compuesto ponderados: de Laspeyres, de Paasche y de Fisher
La ponderaciones usadas para índices compuestos de precios son cantidades de los
bienes o ítems.
Las ponderaciones para el índices de cantidades agregadas son los precios de los bienes
del año base.
Definición. El índice de precios de Laspeyres es un periodo t con respecto a un periodo
base to es la media aritmética ponderada de los índices simples de precios Pt/Po que usa
como ponderación a los valores del año base Poqo, esto es,

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 102


2023-I

p
∑ P 0 q0 p t ∑ p q
0 t 0
ILt /t (P )= =
0
∑ P 0 q0 ∑ p 0 q 0
Definición.- el índice de cantidades de Laspeyres en un periodo t con respecto a un
periodo base to es la media aritmética ponderada de los índices simples de cantidades

qt/qo que usa como ponderación a los valores del año base
P0 q 0 , esto es.

p
∑ P 0 q0 p t ∑ p q
0 0 t
ILt /t (Q )= =
0
∑ P 0 q0 ∑ p 0 q 0
Definición. El índice de precios de Paasche en un periodo t con respecto a un periodo
base to es la media aritmética ponderada de los índices simples de precios Pt/Po que usa

como ponderación a los valores del año base


p0 q t , esto es,
p
∑ P 0 qt p t ∑ p q
0 t t
IPt /t ( P)= =
0
∑ P0 qt ∑ p0 qt

Definición. El índice de cantidades de Paasche es un periodo t con respecto a un periodo

base to es la media aritmética ponderada de los índices simples de cantidades qt/qo que

pt q 0
usa como ponderación a los valores del año base esto es,

q
∑ Pt q 0 q t ∑ p q
0 t t
IPt /t (Q)= =
0
∑ P t q0 ∑ p t q 0
ILt /t (P ). IPt / t (Q)=
∑ pt q 0 ∑ pt q t = ∑ pt q t =I (V )
0 0
∑ p0 q 0 ∑ pt q 0 ∑ p 0 q 0 t / t
0

Nota.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 103


2023-I

Definición. El índice de Fisher es la media geométrica de los índices de Laspeyres y

Paasche.

El índice ideal de precios de Fisher en el periodo t es:

IF t/t ( p )=√ ILt /t ( P). IP t / t ( P )


0 0 0

El índice ideal de cantidades de Fisher en el periodo t es:


IF t/t (Q )=√ ILt /t (Q ). IP t / t (Q )
0 0 0

Ejemplo 6.11
La tabla 6.9 contiene las unidades, precios promedios y consumo per cápita de 3 artículos
básicos en una ciudad en los periodos de 1980 y 1985.
Calcule los índices compuestos: a) de precios y b) de cantidades, por los métodos de
Laspeyres, Paashe y Fisher del periodo 1985, tomando como base el año 1980.
Tabla 6.9 . precios y cantidades de tres ítems
Íte unidades Precio promedio Cantidad consumo
m 1980 1985(Pt) 1980(Po) 1985(Pt)
(Po)
A Litro 10 15 40 60
B Pieza 15 20 80 100
C Docena 20 25 20 40

Solución:

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 104


2023-I

6.4.5 Cambios del periodo base


Es frecuente cambiar la base de un numero índice en un periodo dado a un periodo
mas reciente para reemplazar los índices que se encuentran obsoletos con el fin de
que las comparaciones actuales resulten mas significativas.

Para cambiar el índice


I t /a de base antigua, a el índice I t /n de base nueva, n, se utiliza la
siguiente regla:
I t /a 100
I t /n = I t /n = .I
I n/ a , o expresado en %, I n /a t /a

Ejemplo 6.12
En la tabla 6.11 se dan los índices A tomando a 1980 como año base. Obtenga los índices
a) B tomando como base nueva al año 1990
b) C tomando como base nueva al año 1985
Tabla 6.11. Cambio de base
año Índice A Índice B Índice C
1980 100 B1=22.2 C1=33.33
1985 300 2 C2=100
1990 450 B2=66.6 C3=150
7
B3=100.
0
Solución:

4.4.6 Empalme o fusión de dos series de números índices.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 105


2023-I

Con frecuencia una serie de números índices sufre cambios por adición de ciertos
productos o exclusión de otros, así como por cambio del periodo base obteniéndose una
nueva serie de números índices. El problema es fusionar ambas series de números índices
a partir de un nuevo periodo base.
Para fusionar dos series distintas de números índices y formar una serie nueva de
números índices, esta nueva serie debe tener un índice de empalme, fusión o traslape para
las dos series, de manera que se puedan calcular ambos tipos de índices para ese año de
traslape.
Para retroceder los índices de la serie nueva, cada índice de la serie antigua se convierte
en un índice de la serie nueva dividiendo el índice de empalme (100), entre el índice
antiguo de la base nueva, luego multiplicando por el índice antiguo.
Esto es,
100
Índice nuevo = x índice antiguo
Índice antiguo de la base nueva

También, para avanzar los índices de la serie antigua, cada numero índice de la serie
nueva se convierte en un índice de la serie antigua dividiendo el índice antiguo de la base
nueva entre el índice de empalme (100), luego multiplicando por el índice nuevo.
Esto es,
Índice antiguo de la base nueva
Índice antiguo= x índice nuevo
100
Ejemplo 6.13
En la tabla 6.12 , la segunda columna muestra los índices antiguos desde 1980 hasta 1982
con respecto al año base 1980.
La tercera columna muestra los nuevos índices de 1982 a 1984 con año base 1982.
Efectúe el empalme de los índices con base en los años
a) 1982
b) 1980
Tabla 6.12 . Empalme de dos series de índices
Año Índice antiguo Índice nuevo Índice empalmado Índice empalmado

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 106


2023-I

base 1980 base 1982 base 1982 base 1980


198 100 ---- 83.3 100
0 110 ----- 91.6 110
198 120 100 100 120
1 ---- 130 130 156
198 ---- 140 140 168
2
198
3
198
4
Solución:

6.4.7 uso de los números índices.


Los números índices se usan con frecuencia para cuantificar las diferencias de los valores
de una o mas variables a lo largo del tiempo. Las cantidades estatales o privada
confeccionan números índices para diversos fenómenos económicos.
Uno de los usos mas importantes de los números índices e la denominada deflación de
los precios e ingresos. Esta técnica es el proceso de ajustar precios e ingresos y
expresarlo en términos del valor de la moneda de un periodo base.
Para la deflación estadística se usa como deflactor el índice simple de precios al
consumidor IPC indicador del costo de vida. Este índice simple, como ya es sabido, se
obtiene dividiendo el precio Pt en un periodo t entre el precio Po en un periodo base to .
esto es,

Pt
IPC= x 100
P0

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 107


2023-I

El valor (precio o salario) deflacionado o valor real en el periodo t con respecto al periodo
base to, se obtiene dividiendo el valor nominal del periodo t entre el IPC de ese periodo,
esto es,
Valor nominal
Valor deflacionado = x 100.
IPC
Si el valor es el precio, se tendrá el precio real o deflacinado y si el valor es el ingreso o
salario, se tendrá el salario real o deflacionado.
Pro ejemplo, si el salario de una persona fue de 4,000 unidades monetarias en 1990 y de
8,000 unidades monetarias en 1991, entonces hubo un incremento nominal de 4,00. Pero,
si el índice de precio al consumidor fue de 1.2 en 1991 con respecto a 1990 , entonces su
salario real es de 8000/1.2 =6,666.67 dólares, y ha tenido un incremento real de solo
2,666.67 dólares.

NOTA:
Si los IPC van decreciendo en una serie de tiempo, los salarios nominales de un periodo t
se indexan, de manera que no pierdan su poder adquisitivo con respecto a un periodo base

a(a<t), multiplicando el salario nominal del periodo a por


IPCt / IPC a . por ejemplo, si con
respecto al año base 1989, el IPC de 1990 fue de 110%, el de 1991 fue de 120% y si el
salario nominal en 1990 fue de 1300, entonces, el salario nominal en 1991 de manera que
no pierda el poder adquisitivo de 1990 es:

Salario nominal de 1991=(120/110)x1300=1,418.18

El índice de salarios reales, ISR, para un determinado periodo t, en base al periodo to se


calcula utilizando la formula:

SR t
ISRt /t = x 100
0 SR0

Siendo SR t el salario real en el periodo t y SR 0 el salario real en el periodo base to


El poder adquisitivo del dinero, PA, es el reciproco del índice de precio al consumidor. Esto
es,

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 108


2023-I

PA= ( )
1
IPC
.100
%
El índice del poder adquisitivo del dinero, IPA, es el cociente entre el índice de precio del

año base, IPC 0 que se toma como base de comparación, y el índice de precio al

consumidor en periodo t, IPC t , esto es,

IPA=
( )
IPC 0
IPC t
. 100
.
La pérdida del poder adquisitivo, PPA, o el porcentaje de desvalorización del dinero, se
cuantifica por:

PPA= 1−
( IPC0
IPCt).100

Por ejemplo, si el IPC fue de 1.25 en 1980 tomando como base 1979, entonces, el índice
del poder adquisitivo del dinero en ese año es:
IPA=1.00/1.25= 0.8 0 80%
Entonces, la pérdida del poder adquisitivo es la cifra , PPA=20%

Ejemplo 6.14
En la tabla 6.13 se dan los salarios nominales (en dólares) y los índices de precio al
consumidor de 1980 a 1986 con base a 1980, en una determinada ciudad . para cada
periodo y en base a 1980, calcule:
A) Los salarios reales
B) Los índices de salarios reales
C) Los índices del poder adquisitivo.
Tabla 6.13. Salarios nominales e índices de precios

años salario IPC SR ISR IPA


s Salario/IPC SR/75 100/IPC
1980 75.00 10 75.00 100.00 100.0
1981 80.45 0 73.14 97.52 90.9
1982 93.18 11 77.65 103.53 83.3

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 109


2023-I

1983 104.25 0 71.90 95.87 69.0


1984 130.35 12 68.60 91.47 52.6
1985 170.75 0 68.30 91.07 40.0
1986 200.00 14 71.43 95.24 35.7
5
19
0
25
0
28
0
SOLUCION:

6.4.8 TASA ANUALES Y MENSUALES: INFLACION


Uno de los problemas prácticos que pese a su sencillez, se presta a dificultades, es el de la
determinación de las tasas de variación (aumento o disminución) anual o mensual de un
índice.

Definición.- sean
It , t=1,2,……..n los índices medidos en los periodos (meses o años):
1,2,…..t, respectivamente. Las tasa o índices de variación del índice correspondientes al

periodo t se define por:


IV t =
( I t − I t −1
I t −1 ) x 100=
( It
I t −1 )
−1 x 100

Definición de (Inflación): sien la formula anterior los índices son de precios al consumidor
(IPC), la tasa de de variación se le denomina inflación.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 110


2023-I

Por ejemplo, si en diciembre de 1982 el IPC fue de 653.1 y en diciembre de 1983 el IPC
fue de 796.1, entonces, el porcentaje de variación de los precios (inflación anual) de 1983
es:
796 .1−653. 1
×100≡21 . 896
653 .1
Definición. El índice de variación adecuado del periodo al periodo t, se define por:

IVA t /a ≡([ 100


IV
+1)(
1IV
100
+1 ). . . (
t −1
100 )]
IV a
+1 ×100−100

Siendo de mayor aplicación cuando el periodo es mensual.


EJEMPLO 4.15
En la tabla 4.14 se dan los índices de los precios al consumidor de diciembre de 1979 a
setiembre de 1980, calcule,
a) La inflación mensual.
b) La inflación mensual acumulada de diciembre de 1979 a setiembre de 1980.
Tabla 6.14 computo de la inflación mensual y acumulada
meses Índice Inflación mensual Inflación mensual
Dic. 1979=100 IV IVA acumulada
Dic. 1979 100 …… …….
Ene. 106 6.00 6.00
1980 114 7.55 14.00
Febrero 120 5.26 20.00
Marzo 130 8.33 29.99
Abril 150 15.38 49.98
Mayo 168 12.00 67.97
Junio 180 7.14 79.96
Julio 195 8.33 94.95
Agosto 218 11.79 117.93
setiembre
SOLUCION

6.4.9 Devaluación.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 111


2023-I

La devaluación es la pérdida del valor o del poder adquisitivo externo del dinero que se
cuantifica generalmente con el precio del dólar.

Sea
Ct el nuevo tipo de cambio y C0 el antiguo tipo de cambio, el porcentaje de aumento
del tipo de cambio se define por:

%aumento=
( )
Ct
Ca
−1 x 100 %

Por ejemplo, si el tipo de cambio de 2.08 soles por dólar sustituye a uno de 2.02 soles
por dólar, entonces el porcentaje de alza del dólar

%alza =
( 2. 08
2. 02
−1 ) x 100 %=2. 97 %

Es decir, hay un aumento en el precio del dólar de 2.97%


El porcentaje de devaluación se define por

% devaluación =
( ) 1−
Ca
Ct
x 100 %

Por ejemplo, si el tipo de cambio de 2.08 soles por dólar sustituye a uno de 2.02
soles por dólar, entonces el porcentaje devaluación del sol es.

% devaluación =
( 1−
2 .08 )
2 .02
x 100 %=2. 88 %

Es decir, el aumento de 2.97% en el precio del dólar produce una devaluación en el


sol de 2.88%

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 112


2023-I

1.5 MEDIDAS DE DISPERSION

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 113


2023-I

La localización o tendencia central no necesariamente proporciona información para describir datos


de manera adecuada. Para el caso, consideramos los siguientes ejemplos.

EJEMPLO 1.
Suponga que en un hospital, el nivel de azúcar en la sangre de cada paciente se mide tres veces por
semana. En cierta semana los registros de dos pacientes indican:

Paciente A: 90, 100 y 110 miligramos por decilitro


Paciente B: 40, 100 y 160 miligramos por decilitro
El promedio de ambos pacientes es 100.

En efecto:
90+100+110 300
= =100
Paciente A: 3 3
40+100+160 300
= =100
Paciente B: 3 3
Observe la diferencia en variabilidad. Mientras que el paciente A es bastante estable, el nivel del
paciente B fluctúa ampliamente. Este resultado deberá tomarse en cuenta cuando se prescriba su
tratamiento.

COMENTARIO: Un paciente con un nivel de azúcar en la sangre de 40 mg/dl, convulsiona; con un


nivel de 160 mg/dl podría ser diabético.

EJEMPLO 2.
Se va a seleccionar a un atleta para que represente a la Universidad en los juegos estudiantiles, en la
prueba de los 100 metros. Se tienen dos candidatos: A y B. Para decidir por uno de ellos se les
toman los tiempos que se tardan en recorrer los 100 metros en cinco ocasiones. A continuación de
detallan:

Atleta A: 11.0, 11.8, 11.6, 11.3 y 12.3 segundos


Atleta B: 11.5, 11.6, 11.6, 11.8 y 11.5 segundos

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 114


2023-I

El tiempo promedio de ambos atletas es 11.6 segundos (verificarlo) pero el grado de variabilidad
del atleta B es menos que el del atleta A. Por tener menos altibajos, el atleta B tendría que ser el
seleccionado.

Casos como los anteriores (medicina, deportes) muestran la necesidad de descripciones estadísticas
que midan el grado en que se dispersan (o varían) los
datos, respecto a su centro; es decir; la necesidad de las medidas de dispersión. Dos de ellas son: la
amplitud (o rango) y la desviación típica.

1.6.1 AMPLITUD (RECORRIDO O RANGO)

DEFINICION: La amplitud (recorrido o rango) de un conjunto de datos numéricos es la diferencia


entre el mayor y el menor de todos ellos.

EJEMPLO 3.
En el ejemplo 1, el rango para el nivel de azúcar en la sangre del paciente A es 110 – 90 = 20 y de
160 – 40 = 120, para el paciente B.

En el ejemplo 2, el rango para el tiempo del atleta A es de 12.3 – 11.0 = 1.3 segundos, y de 11.8 –
11.5 = 0.3 segundos, para el atleta B.

1.6.2 DESVIACION TIPICA (O ESTANDAR)

El rango se utiliza principalmente como indicación fácil y rápida de la variabilidad, pero por lo
general, no es medida de dispersión útil. Su principal inconveniente radica en que nada se dice
acerca de la dispersión de los valores que están entre el mayor y el menor valor.
Por ejemplo, cada uno de los conjuntos de datos siguientes:
Conjunto A: 3,4,5,6,11,16,17,18 y 19
Conjunto B: 3,8,9,10,11,12,13,14 y 19.

Tiene un rango de 19 - 3 = 16 ( y una media de 11); pero la dispersión (como se ve en el diagrama


adjunto) es completamente distinta en cada caso.

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 115


2023-I

media
Conjunto A:
3 4 5 6 11 16 17 18 19

media
Conjunto B:
3 8 9 10 11 12 13 14 19

Observamos que la dispersión en un conjunto de datos:

 Es pequeña si los datos están ubicados muy cerca alrededor de su media aritmética y
 Es grande si los datos están ubicados distantes alrededor de su media.

Por lo tanto, parece razonable tener una medida para la dispersión de un conjunto de datos, en
términos de las cantidades por las que difieren de su media aritmética. A estas cantidades les
asignaremos un nombre, en la siguiente definición.

DEFINICION: Si un conjunto de datos


x 1 ,x 2 ,.....,.x N tiene la media x , las diferencias

x 1−x , x 2 −x ,. ... .. .., . x N −x , se llaman “desviaciones de la media”.

DEFINICION: La desviación típica de una población de N datos: se denota por σ , (letra griega
sigma) y se define como


N
∑ ( x i −x )2
i =1
σ=
N

Si
x 1 ,x 2 ,.....,.x N ocurren con frecuencias f 1 ,f 2 ,.. ... f N respectivamente, la desviación típica puede
expresarse como


N
∑ f i ( x i−x )2 N

σ=
i =1
∑ fi
N donde N = i=1

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 116


2023-I

En palabras: σ es la raíz cuadrada de la media aritmética de los cuadrados de las desviaciones.

DEFINICION: La desviación típica de una muestra de N datos: se denota por S y se define


como


N
∑ ( x i−x )2
i=1
S=
N −1 para datos sin agrupar


N
∑ f i ( xi −x )2
i=1
S=
N −1 para datos agrupados en tablas de frecuencia

NOTA: “Muestra” es el conjunto de datos que se pueden utilizar, en forma razonable, para hacer
generalizaciones acerca de la población de la cual provienen.

ADVIERTA: Las fórmulas para S se obtienen escribiendo N-1 en el denominador de las formulas
para σ .

CASO 1: Desviación típica para datos sin agrupar


EJEMPLO 1. Considérese cada una de las siguientes muestras:
Muestra A: 3,4,5,6,11,16,17,18 y 19
Muestra B: 3,8,9,10,11,12,13,14 y 19
Obtenga la desviación típica de cada muestra e indique cuál de ellas es la que presenta mayor
dispersión.
SOLUCION.
Para la muestra A.
3+4 +5+6+11+16+ 17+18+19 99
x= = =11
Paso 1. 9 9
9
S=∑ ( x i−x )2
Paso 2. El cálculo de i=1 se facilita con una tabla como la que sigue:
Variable x Cuadrado de la desviación
Desviación ( xi −x )
2
( xi −x)
3 -8 64
4 -7 49
5 -6 36

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 117


2023-I

6 -5 25
11 0 0
16 5 25
17 6 36
18 7 49
19 8 64
9
S=∑ ( x i−x )2
i=1 = 64 + 49 + 36 + 25 + 0 + 25 + 36 + 49 + 64 = 348 y


9
∑ ( x i−x )2
S=
i=1
N −1 √
348 348

= 9−1 = 9−1 = 6.6

Para la muestra B
3+8+9+10+ 11+12+13+14+19 99
x= = =11
Paso 1. 9 9
9
∑ (x i −x )2
Paso 2. Calculamos i=1

Variable x Cuadrado de la desviación


Desviación ( xi −x )
2
( xi −x )
3 -8 64
8 -3 9
9 -2 4
10 -1 1
11 0 0
12 1 1
13 2 4
14 3 9
19 8 64

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 118


2023-I

9
∑ (x i −x )2
i=1 = 64 + 9 + 4 + 1 + 0 + 1 + 4 + 9 + 64 = 156 y


9
∑ ( x i−x )2
S=
i=1
N −1 √
3156 3156
= 9−1 = 9−1 = 4.4√
Puesto que la desviación típica del conjunta A es mayor que la del conjunto B, concluimos que la
muestra A es la más dispersa.

DEFINICION: La varianza de un conjunto de datos se define como el cuadrado de la desviación


2 2
típica, de modo que σ y S representan la varianza de la población y la varianza de la muestra,
respectivamente.

VERIFICANDO SU COMPRENSION

1. Determine cuál de las siguientes muestras es la más dispersa.


a) 6,3,12,5,8 y 9 b) 3,5,6,7,4,10 y 8
2. Determine cuál de las siguientes muestras es la menos dispersa
a) 7,9,3,6,5,4 y 2 b) 8,7,4,11,2 y 5
3. Hallar, en cada caso, la desviación típica y la varianza
a) 3,6,2,1,7 y 5 b) 3,2,4,6,5 y 8
CASO 2: Desviación típica para datos agrupados
EJEMPLO 2. Supóngase que en 9º grado hay 40 alumnos, cuyas edades se resumen en la siguiente
tabla de frecuencias

Edades x No. de alumnos (f)


14 6
15 15
16 16
17 3
Hallar el valor de S.
SOLUCION
Para facilitar los cálculos usamos la siguiente tabla

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 119


2023-I

X F 2 2 2
f (x ) ( xi −x ) f (x i −x ) f (x i −x )
14 6 84 -1.4 1.96 11.76
15 15 225 -0.4 0.16 2.40
16 16 256 0.6 0.36 5.76
17 3 51 1.6 2.56 7.68
TOTAL 40 616 27.60


4 N
∑ f i xi ∑ f i ( xi −x )2
x=
i=1
N
=
616
40
=15 . 4 S= i=1
N −1
=
√ 27 . 6
39
=0 . 84

VERIFICANDO SU COMPRENSION
1. Hallar en cada caso, la desviación típica y la varianza.
a) 3,2,4,6,2,8,5,2,4 y 4 b) 0,0,0,0,0,1,1 y 1
2. Hallar el valor de S para los datos agrupados en la siguientes tablas de frecuencia

a) X f x f
6 5 2 4
5 4 3 3
3 6 4 5
5 2

Ing. C. Jorge Solís Huertas JFSC-TURISMOPá gina 120

También podría gustarte