Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TRABAJO SOCIAL
PSICOLOGIA
TURISMO
ESTADÍSTICA
4 créditos
Profesor Autor:
Ing. Víctor Márquez, Msc, PhD
Titulaciones Semestre
• TICS
• TRABAJO SOCIAL
• PSICOLOGIA
• TURISMO
1
Índice
Tabla de contenido
2
Medidas de Localización ......................................................................................................................... 28
. Medidas de Tendencia Central.............................................................................................................. 29
La Media ................................................................................................................................................. 29
La Mediana: ............................................................................................................................................ 31
La Moda .................................................................................................................................................. 33
Medidas de posición ............................................................................................................................... 33
Cuantiles: ................................................................................................................................................ 33
Medidas de Dispersión............................................................................................................................ 36
Medidas De Dispersión Absolutas ........................................................................................................... 37
Medidas de Dispersión Relativas ............................................................................................................ 40
Medidas de Forma .................................................................................................................................. 43
3
Resultado de aprendizaje de la asignatura
ESTADÍSTICA
Introducción
Cada vez resulta más difícil tomar decisiones apropiadas sobre situaciones que inciden
en forma significativa por ejemplo en el éxito de un producto o quizás, en nuestro
bienestar. La estadística es esencial en la investigación de tales situaciones pues permite
caracterizar y/o explicar su comportamiento. Es una disciplina de aplicabilidad en
4
cualquier campo de estudio. Esta unidad tiene como propósito establecer el marco de
referencia para el estudio de la estadística. En el mismo se destacará la importancia y
campo de acción de esta y se introducen algunas definiciones básicas
Importancia de la Estadística
1. Lanzamiento de un dado
2. número de operaciones en la bolsa de valores en un día
3. Cantidades vendidas de artículos en un Supermercado en días sucesivos.
4. Costo o rango de costos de servicios de hospedaje.
5. Precio de servicio de taxi.
6. Número de turistas que visitan de temporadas específicas.
7. Ingreso de dinero en temporadas vacacionales.
Conceptos Básicos
5
influencia de nuestro entorno. Por ejemplo, es muy común escuchar información
denominada estadística de accidentes, y sólo se hace referencia al número de accidentes.
Sin embargo, cuando profundizamos en el campo de la investigación podemos entender
que la estadística no solo son números, sino que representa la principal y a veces, la única
herramienta para la obtención y análisis de la información en cualquier tipo de
investigación, y cuyo comportamiento no puede ser abordado desde el punto de vista
determinísticos. Se puede decir entonces, que la estadística es la ciencia que establece
como obtener y usar la información referente a una investigación y cómo actuar en
situaciones practicas donde está Es la ciencia de recolectar, ordenar, presentar y describir
la información asociada a un fenómeno presente la incertidumbre.
Definición: (Estadística):
Es un ser vivo, objeto o cosa que posee características que se desean investigar.
Ejemplo: Son ejemplos de elementos y sus características:
Como se dijo antes, los elementos del universo estadístico tienen una serie de
características que pueden ser objeto del estudio estadístico. Así, por ejemplo, si el
elemento considerado es una persona, podemos distinguir en ella las siguientes
características: Sexo, Edad, Nivel de estudios, Profesión, Peso, Estatura, Color del
cabello, etc. Obsérvese que todos y cada uno de los elementos de la población,
poseen las características de interés. Por lo tanto, de cada elemento del universo se
7
puede estudiar uno o más aspectos, cualidades o caracteres. El universo estadístico
puede clasificarse de acuerdo al número de elementos que contiene en finito e infinito.
Es finito cuando el número de elementos que lo conforman es finito (el número de
alumnos de un centro de enseñanza, los niños de una comunidad, el número de
plantas en un vivero). Es infinito si el número de elementos que lo conforman es infinito,
o tan grande que pudiese considerarse infinito (todos los individuos con estaturas entre
1 y 2 metros). Hay situaciones en las que aun cuando el universo es finito, contiene
tantos elementos que el mismo puede considerarse infinito. Por ejemplo, si se
realizase un estudio sobre los productos que hay en el mercado, hay un número finito
de los mismos, pero son tantos y de tantas calidades que este universo podría
considerarse infinito.
En un estudio estadístico, el investigador está interesado en la colección o conjunto
de observaciones asociadas con una o varias características de los elementos del
Universo estadístico. A este conjunto de observaciones se le denomina población
estadística.
Definición (Población)
Es el conjunto de todas las posibles mediciones que pueden hacerse de una o varias
características comunes a todos los elementos del universo y que son de interés en
una investigación dada.
Ejemplo: Son ejemplos de población estadística:
De esta forma, puede observarse que la población estadística está constituida por
valores o datos bien sea numéricos o no. Se puede notar que sobre un mismo Universo
Estadístico se pueden definir una o varias poblaciones. Además, una población puede
estar conformada por las mediciones asociadas con una o varias características. Así,
8
una población que considera sólo valores asociados con una característica se
denomina población univariante, en caso contrario, se denomina población
multivariante. Al igual que el universo, la población puede ser finita o infinita,
dependiendo del número de valores que la constituyen. En el caso de que la población
sea finita, se dice que esta tiene tamaño N. Ahora bien, cuando se desea investigar un
fenómeno, una interrogante a responder es la relacionada con la cantidad de
información a usar en dicha investigación. Si se usa toda la información disponible, es
decir la población, se dice que se ha realizado una investigación exhaustiva o total
(Censo). Por lo general el desarrollo de este tipo de investigaciones no siempre es
posible, por diferentes motivos:
• economía;
• pruebas destructivas;
• población infinita o tan grande que exceda las posibilidades del investigador.
Definición (Muestra)
Es una parte o porción extraída de una población, mediante métodos de selección
científicos que permiten considerarla preferiblemente representativa de dicha población.
Ejemplo: Son ejemplos de muestras:
9
en una comunidad, la variabilidad en la estatura de los alumnos de una institución
educativa, son algunos ejemplos. A estos valores o medidas se les denomina parámetros.
Definición (Parámetro)
Representa cualquier característica medible de la población. Es una función de los
valores de la población que sirve para sintetizar alguna característica relevante de la
misma. Ejemplos de parámetros son: La media poblacional, La proporción poblacional,
la varianza poblacional, entre otros. Una población puede estar caracterizada por uno
o más parámetros. Para conocer el valor del o los parámetros de una población, es
necesario usar toda la información disponible, es decir, es necesario el desarrollo de
una investigación exhaustiva, lo que resulta por lo general inconveniente o imposible.
Sin embargo, se pueden establecer aproximaciones a dichos valores a través de
funciones de los elementos en la muestra.
Definición (Estadístico)
Dada una determinada población y una muestra de tamaño n, se define como
estadístico a cualquier función que se defina a partir de los n componentes que
integran dicha muestra. De la Definición se puede resaltar el hecho de que cualquier
función de la muestra, sin condición alguna, es un estadístico. De todas estas
funciones, un subconjunto de ellas es de especial interés en estadística; los
estimadores.
Definición (Estimador):
Estadístico utilizado para estimar un parámetro de una población. Es una función de
los valores de la muestra que sirve para sintetizar alguna característica relevante de
la misma. Nótese que un estimador es un estadístico que permite la estimación del
parámetro. Esto significa que no todo estadístico es un estimador pero, todo estimador
es un estadístico. La media muestral, La proporción muestral, la varianza muestral,
entre otros, son ejemplos de estimadores. Como se ha dicho anteriormente, la
estadística se encarga del estudio de un fenómeno a través del manejo de la
información que se tiene sobre una o más características del mismo. En el lenguaje
estadístico al igual que en el matemático a las características se les conocen como
variables y a las distintas formas en que pueden presentarse, modalidades o valores
de las variables.
10
Definición (Variable)
Se refiere a una característica que poseen todos los elementos del universo y que se
mide en el estudio. Representa las mediciones de una característica que poseen los
elementos del universo.
Ejemplo: Son ejemplos de variables:
1. Escala Nominal: Son aquellas en que la única relación que se define entre sus
valores es la igualdad o diferencia, es decir solo podemos decir que dos valores
de una variable son iguales o diferentes. No hay operaciones aritméticas
definidas, por lo tanto, los números no tienen sentido como magnitudes. Son
ejemplos de medidas de escala nominal:
a. El grupo sanguíneo.
b. El sexo.
c. El color de ojos.
d. El estado civil.
e. Los números que llevan los atletas en la espalda
2. Escala Ordinal: Son aquellas en las que entre sus valores están definidas las
relaciones de igualdad, diferencia, mayor que o menor que, es decir solo
podemos decir que dos valores de una variable son iguales, diferentes y en el
11
caso de que sean diferentes se puede establecer un orden entre ellos. No hay
operaciones aritméticas definidas. Las siguientes medidas corresponden a una
escala ordinal:
a. Dureza de los minerales.
b. Grado de satisfacción.
c. Intensidad de un dolor.
d. Rango militar.
e. Nivel de educación.
3. Escala de Intervalo: Los valores de las variables son números y entre ellos
tienen sentido las relaciones de igualdad, de orden y de las distancias. La resta
es la única operación aritmética definida. Esta escala posee una propiedad de
gran importancia; Posee un cero u origen relativo (arbitrario). El cero no significa
ausencia de la característica. Los siguientes son ejemplos de medidas
pertenecientes a una escala de intervalo:
a. Puntuación obtenida en una evaluación.
b. La temperatura.
c. La distancia sobre el nivel del mar.
4. Escala de Razón o Escala proporcional: Los valores de la variable son números
y entre ellos tienen sentido las relaciones de igualdad, orden y están definidas
las operaciones aritméticas de suma, diferencia y proporciones (múltiplos).
Estas escalas tienen un cero absoluto, el cual representa la ausencia de la
característica. Es una escala de intervalo con un cero absoluto. Las siguientes
medidas pertenecen a una escala de razón:
a. El Sueldo de los habitantes del Provincia de Manabí.
b. La edad de los alumnos de Métodos Estadísticos
c. El nivel de hemoglobina.
d. Presión arterial.
e. Peso en gramos o en kilos.
5. Escala Absoluta: Los valores que puede tomar la variable son el resultado de
un conteo, por lo tanto, esta escala está constituida por todos los número
enteros positivos y el cero. Son ejemplos de mediciones pertenecientes a una
escala absoluta:
a. Número de accidentes automovilísticos en una semana
b. Número de integrantes de una familia.
12
c. Número de alumnos en un salón de clase.
13
números enteros. Son variables que no admiten valor alguno entre dos valores
consecutivos de las mismas.
Ejemplo Son ejemplos de variables discretas:
• La edad.
• El peso.
• La temperatura.
• La distancia.
14
Definición (Estadística Inferencial):
Denominada también Inferencia Estadística o Estadística Inductiva. Es la que
apoyándose en la Teoría de Probabilidades y la Teoría del Muestreo, se encarga de
efectuar estimaciones, permitir la toma decisiones, predicciones u otras
generalizaciones sobre una población partiendo del estudio de una muestra. La
estadística inferencial permite obtener conclusiones o hacer inferencias, basándose
en los datos simplificados y analizados de una muestra hacia la población. La
estadística descriptiva e inductiva pueden ser usadas separadas o conjuntamente,
dependiendo de los objetivos y tipo de investigación. Lo usual es que en una
investigación parcial participen las dos.
Aun cuando en la actualidad la mayor parte del uso de la estadística esta dirigido a la Inferencia,
la Estadística descriptiva tiene una utilidad importante fundamentalmente en la primera fase de
una investigación. La estadística descriptiva se refiere al proceso en el que los datos son
ordenados, resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las
observaciones, intentando descubrir posibles relaciones entre los datos, observando similitudes y
diferencias entre los mismos, destacando hechos de posible interés, entre otras cosas. Esto es,
tiene como objetivo caracterizar, describir y extraer conclusiones sobre los datos de forma tal que
permitan sugerir cuestiones a analizar con mayor profundidad, llegando en ocasiones a ayudar en
el establecimiento de las primeras hipótesis acerca de la naturaleza del fenómeno que se estudia
o investiga. La Estadística Descriptiva además permite estudiar si pueden mantenerse algunos
supuestos necesarios para procesos de inferencia, tales como la de simetría, normalidad,
homocedasticidad, etc.
15
Organización de los Datos
La organización de los datos consiste en una agrupación apropiada de los mismos. Es importante
dicha agrupación, ya que por lo general la información obtenida de un estudio implica gran
cantidad de datos que no es fácil interpretar directamente. Esta organización depende del tipo de
variable que se maneje. Por lo tanto, se debe estudiar cómo realizar dicha agrupación cuando la
variable es cualitativa y cuando es cuantitativa. Los datos se organizan en una distribución de
frecuencias, la cual es una tabla resumen en la que los datos se disponen en agrupamientos o
categorías convenientemente establecidas de clases ordenadas numéricamente. Su estructura
dependerá del tipo de variable a analizar.
Cuando los datos son cualitativos de escala nominal, la organización consiste en la construcción
de una tabla de frecuencias con los siguientes columnas: la enumeración de las distintas
modalidades que presenta la variable, el número de datos que corresponde a cada modalidad
(frecuencia absoluta, fi) y la proporción que cada uno de ellos representa con respecto al total
(frecuencia relativa, fri ). La siguiente tabla muestra la estructura de una tabla de frecuencias para
este caso.
Donde:
16
𝑓𝑖
𝑓𝑟𝑖 = y debe cumplirse que ∑𝑛𝑖=1 𝑓𝑟𝑖 = 1
𝑛
Ejemplo 2.1 A continuación se muestran los resultados obtenidos al aplicar una encuesta a 50
familias sobre su capacidad ahorro (M: Mucha, R: Regular, P: Poca, N: Ninguna): La variable en
este ejemplo es la carrera que estudian las personas, la cual es cualitativa de escala nominal.
P M M P P M M E M P
E E P N E M P P M P
P M N P E M M P M P
P P M E E M P P P M
P P M P P P P N M E
Si los datos son cualitativos de escala ordinal, su organización implica dos cosas: en primer lugar,
las clases llevan un orden preestablecido por las modalidades de la variable; en segundo lugar
Donde:
𝐹𝑙 = ∑𝑙𝑖=1 𝑓𝑖
17
𝐹𝑙
𝐹𝑟𝑖 = ∑𝑙𝑖=1 𝑓𝑟𝑖 = y debe cumplirse que 𝐹𝑟𝑘 = 1
𝑛
Ejemplo: Los siguientes datos corresponden a una consulta realizada a 45 clientes bancarios
sobre su percepción de la calidad del servicio (MB: Muy Bueno, B: Bueno, A: Aceptable, M: Malo,
MM: Muy Malo):
MB B B A A M A MM B A
B B MM MB A A M M B B
M A MM MB B A B MB A B
B M M B B A B B M A
MB B M MM A
18
Buena 16 0,35 21 0,46
Aceptable 12 0,26 33 0,73
Mala 8 0,17 41 0,91
Muy mala 4 0,08 45 1
Tablas cruzadas
Tablas como las anteriores se utilizan cuando se está estudiando una variable. Existen situaciones
en las que se registra información acerca de dos o más variables para cada individuo o elemento.
Si este es el caso, la serie de datos se dice es multidimensional. Para el caso de dos variables,
digamos A y B, los datos se pueden organizar mediante el uso de una tabla de doble entrada,
denominada distribución conjunta o, tabla de contingencia en el caso de variables cualitativas.
Esta tabla se construye enumerando en la parte superior las modalidades o valores de una
variable (variable columna) y en el extremo derecho las modalidades de la otra variable (variable
fila). La siguiente tabla muestra la estructura de una distribución conjunta o tabla de contingencia.
Esta es una tabla con r filas y c columnas, por tanto, tiene rxc celdas. La celda correspondiente a
la fila i y la columna j, Cij , contiene el número de elementos que presenta simultáneamente la
categoría i de la variable fila y la categoría j de la variable columna. Por ejemplo, si sobre un
conjunto de individuos se miden las variables estado civil y nivel educativo, la celda Cij registrara
el número de individuos que presentan la modalidad i de estado civil y la modalidad j de nivel
educativo.
Tabla de Contingencia
19
Variable B
B1 B2 … Bc
. . . .
Variable A
. . . … .
. . . .
Si los datos son cuantitativos, los mismos pueden ser discretos o continuos. Para su organización
se usa un procedimiento similar al utilizado con los datos cualitativos, considerando otros aspectos
que la hacen más laboriosa.
3 6 1 2 3 7 5 5 4 5
4 3 2 4 6 3 7 6 1 1
2 3 5 2 7 5 5 7 6 1
4 5
20
1.55 1.55 1.57 1.59 1.65 1.70 1.73 1.58 1.57 1.60
1.56 1.60 1.61 1.62 1.69 1.68 1.71 1.71 1.74 1.79
1.77 1.67 1.65 1.65 1.59 1.58 1.55 1.63 1.62 1.61
1.64 1.68 1.70 1.72 1.72 1.76 1.74 1.71 1.75 1.75
1.58 1.71
• Intervalos de Clase: El intervalo total en que están repartidas las observaciones es dividido
en k intervalos parciales. A estos intervalos se les denomina intervalos de clase o,
simplemente clases. Deben ser excluyentes
• Límites de Clase: Extremos de los intervalos de clase. Al menor de estos valores se le
llama límite inferior y al mayor, limite superior.
• Marcas de Clase (mi): Punto medio o centro de intervalo. Es una forma abreviada de
representar el intervalo. De esta forma, todos los cálculos que se realizan como si en lugar
de tener ni valores en la clase i, se tiene ni veces el mismo valor, mi
• Frecuencia Absoluta (fi): Número de observaciones contenidas o incluidas en una clase.
Se debe satisfacer la siguiente igualdad
𝑛 = ∑ 𝑓𝑖
𝑖=1
1 = ∑ 𝑓𝑟𝑖
𝑖=1
21
• Frecuencia Relativa Acumulada (Fri): Suma de las Frecuencias Relativas hasta la clase
correspondiente. Se pueden obtener dividiendo la frecuencia absoluta acumulada entre el
número total de observaciones. Para la clase k se cumple que 1 = Frk.
Nota: En el caso discreto, cuando el número de valores diferentes que puede tomar la variable es
pequeño, entonces cada uno de ellos representa una clase. De esta forma las marcas de clase
coinciden con las clases. Lo mismo es valido en el caso continuo, cuando el número de datos es
pequeño.
𝐾 = 𝑁º 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 = √𝑛
Esta aproximación no siempre es conveniente, sobre todo cuando n es grande. Existe una fórmula
para calcular el número óptimo de clases, denominada fórmula de Stugers
𝑅
𝐴 = 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 =
𝐾
Esto permite, en resumen, particionar los datos en K clases, cada una con amplitud A. Es
importante hacer notar que, no siempre es posible contar con clases de igual amplitud. Si la
22
amplitud de los intervalos no es constante, se debe corregir entonces las frecuencias, dividiendo
las mismas por la amplitud del intervalo.
4. Construir los Intervalos de Clase: Para construir la primera clase, seleccionamos como un
límite inferior el valor mínimo (Vmin). El limite superior se obtiene al sumarle al limite inferior
la amplitud, A. Para la segunda clase se tiene que el limite inferior es el limite superior de
la primera clase y el limite superior, resulta de sumarle a este, A. Siguiendo este
procedimiento construimos las k clases. Como el limite superior de una clase representa
el limite inferior de la clase siguiente, conviene considerar las clases como intervalos del
tipo [Linf - Lsup); esto es, intervalos cerrados por la izquierda y abiertas por la derecha.
5. Calcular las marcas de clase (mi): Las marcas de clase están representadas por los puntos
medios de los intervalos de clase, es decir, mi = lsi-lii
6. Obtener las frecuencias absolutas, relativas, absolutas acumuladas y relativa acumulada.
La tabla muestra la estructura de una tabla de frecuencias para datos cuantitativos
Ejemplo: A continuación, se muestra la información sobre el número de hijos que tienen 40 familias
.
1 1 3 3 2 4 4 1
23
1 2 1 3 3 2 1 3
2 1 2 2 4 3 4 4
4 0 3 0 4 1 5 2
2 3 3 4 4 4 1 2
Antes de organizar los datos en una distribución de frecuencia, observemos que la variable es
discreta y además posee pocos valores diferentes, pues su rango esta dado por {0; 1; 2; 3; 4; 5}.
Entonces las clases de la distribución de frecuencia están dadas por los valores individuales de la
variable. En la tabla se presenta la organización de estos datos.
Nª de fi fri Fi Fri
Hijos
0 2 0,05 2 0,05
1 9 0,225 11 0,275
2 9 0,225 20 0,5
3 9 0,225 29 0,725
4 10 0,250 39 0,975
5 1 0,025 40 1
En la tabla se observa entre otras cosas que el 97.5% de la mujeres en la muestra tienen 4 o
menos hijos. Obsérvese que el 25% de las mujeres encuestadas tienen 3 hijos, representado este
el valor más frecuente. Estos porcentajes se obtienen simplemente al multiplicar los valores de fri
y Fri por 100. Es decir, 97;5% = 0;975 * 100 y 25% = 0;250 *100.
Ejemplo: Los siguientes datos corresponden al numero de transacciones bancarias en media hora
por 50 días.
24
30 28 22 28 34 32 32 23 28 35
34 28 20 29 21 30 30 19 27 19
25 30 34 32 31 24 32 20 21 30
31 19 18 27 19 26 26 27 29 34
Si se organizan los datos en una distribución de frecuencia cuyas clases son valores individuales,
como en el ejemplo anterior, el arreglo resultante es poco eficiente ya que la variable edad posee
muchos valores diferentes (modalidades), lo que conlleva a un arreglo que no tiene una fácil
interpretación. Para mejorar la organización de los datos, es necesario considerar a las clases
como intervalos. El procedimiento para tal caso se describe a continuación.
𝑅 = 𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛 = 35 − 18 = 17
c) Determinación del Número de Clases (K) y de la amplitud de las clases (A) Para determinar
el número de clases se usa la regla de Sturges, obteniéndose:
Por lo tanto, se deben tener aproximadamente 6 clases. La amplitud de las clases está
dada por:
𝑅
𝐴= = 2,7
𝐾
25
• El primer intervalo se construye utilizando como límite inferior el valor mínimo de los
datos, en este caso 18, y el límite superior se obtiene al sumarle la amplitud (A) al límite
inferior, es decir, 18 + 3 =21. Por lo tanto, el primer intervalo es [18-21).
• El segundo intervalo tiene como límite inferior el límite superior de la clase anterior, es
decir, 21, y el límite superior se obtiene al sumarle la amplitud al límite inferior, es decir,
21+3=24. Por lo tanto, el segundo intervalo es [21 - 24).
• Los demás intervalos se obtienen de manera similar al segundo intervalo. El último
intervalo construido debe contener al valor máximo. Si el límite superior de este
intervalo coincide con el valor máximo de los datos, entonces el intervalo debe ser
cerrado, es decir, de la forma [,].
e) Los intervalos de clases obtenidos al seguir el procedimiento anterior son:
[18 - 21)
[21 - 24)
[24 - 27)
[27 - 30)
[30 - 33)
[33 - 36)
f) Cálculo de las marcas de clase: La marcas de clase para cada una de los intervalos de
clases se muestran a continuación
26
g) Cálculo de las frecuencias absolutas y relativas.
• Las frecuencias absolutas (fi) representan el número de observaciones que se
encuentran en el intervalo i. Para el primer intervalo de clase, por ejemplo, la frecuencia
absoluta (f1) es 7, esto quiere decir que hay 7 turistas con edades mayores o iguales
a 18 años, pero menores a 21 años.
• Las frecuencias relativas (fri) se obtienen al dividir la frecuencia absoluta entre el
7
número de observaciones. Para el primer intervalo de clase 𝑓𝑟1 = = 0,175. Donde
40
40 es el número de observaciones.
• Las frecuencias acumuladas (Fi) se obtienen al sumar las frecuencias absolutas de esa
clase con las anteriores. En este caso, la frecuencia acumulada del tercer intervalo de
clase es F3 = f1 + f2 + f3 = 7 + 4 + 4 = 15. En general, la frecuencia acumulada para la
clase c (1 < c < k) está dada por 𝐹𝑐 = ∑𝑐1 𝑓𝑖
• Las frecuencias relativas acumuladas (Fri) se obtienen al sumar las frecuencias
relativas de esa clase con las anteriores. En este caso, la frecuencia relativa acumulada
del tercer intervalo de clase es Fr3 = fr1 + fr2 + fr3 = 0,175 + 0,100 + 0,100 = 0,375.
Otra manera de obtener esta valor es dividir la frecuencia acumulada entre el numero
15
de observaciones, 𝐹𝑟3 = = 0,375
40
De esta forma, en la tabla se muestra la distribución de frecuencia para los datos del ejemplo.
27
[30 - 33) 31,5 11 0,225 35 0,875
Esta tabla es más fácil de interpretar. Por ejemplo, se puede decir que un 27.5% de las
transacciones bancarias son inferiores a 33 y mayores o iguales a 30. El 60% de las transacciones
son inferiores a 30.
En las secciones anteriores examinamos algunas técnicas que permiten describir visualmente un
conjunto de datos, es decir, procedimientos que ofrecen una idea cualitativa de las características
del mismo. Usualmente, esa descripción gráfica o cualitativa, es acompañada por algunas
medidas numéricas sencillas de calcular e interpretar, denominadas medidas de tendencia central
y posición. El propósito de esta sección es el de introducir técnicas que permitan la descripción de
un conjunto de datos desde el punto de vista matemático.
Medidas Descriptivas
Las medidas descriptivas las podemos clasificar de acuerdo a lo que se mide en los siguientes
tres grupos: Medidas de localización, medidas de dispersión y medidas de forma. En esta unidad
se presentará las medidas de localización que se clasifican en medidas de tendencia central y
medias de posición.
Medidas de Localización
28
Son coeficientes que tratan de representar una determinada distribución de una serie de datos,
pueden ser de dos tipos; centrales (o de tendencia central) y no centrales (o de posición). Las
medidas centrales son parámetros que se localizan alrededor del centro del conjunto de datos, es
decir nos permiten describir el centro de la masa de datos. Ellos son:
• Media Aritmética
• Mediana
• Moda
Las medidas no centrales permiten ubicar partes del conjunto de datos. Ellos son:
• Cuartiles
• Deciles
• Percentiles
La Media Aritmética. Es la medida de tendencia central más popular para datos cuantitativos,
entre otras cosas por poseer propiedades matemáticas deseables. Representa el centro de
gravedad o punto de equilibrio de un conjunto de datos. La media aritmética de un conjunto de
datos es simplemente el promedio de los datos. Su cálculo depende si los datos están o no
ordenados en tablas de frecuencias.
Para datos no ordenados en tablas de frecuencias, la media aritmética está dada por:
∑𝑥
𝑥̅ =
𝑛
3 6 1 2 3 7 5 5 4 5
4 3 2 4 6 3 7 6 1 1
2 3 5 2 7 5 5 7 6 1
4 5
29
La media aritmética se calcula:
∑ 𝑥 3 + 6 + 1 + ⋯ + 6 + 1 + 4 + 5 127
𝑥̅ = = = = 3,96
𝑛 32 32
El promedio de cuartos rentados es de 3,96. Lo que indica que los datos se agrupan alrededor de
3,96.
A menudo, se quiere calcular la media a través de una tabla de frecuencias previamente hecha.
Su fórmula de cálculo depende de si las clases están conformadas por valores individuales o por
intervalos.
∑𝑘𝑖=1 𝑐𝑖 ∙ 𝑓𝑖
𝐶𝑙𝑎𝑠𝑒𝑠 𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛
𝑥̅ =
∑𝑘𝑖=1 𝑚𝑖 ∙ 𝑓𝑖
{ 𝐶𝑙𝑎𝑠𝑒𝑠 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠
𝑛
Nª de fi Fri Fi Fri
Hijos
0 2 0,05 2 0,05
1 9 0,225 11 0,275
2 9 0,225 20 0,5
3 9 0,225 29 0,725
4 10 0,250 39 0,975
5 1 0,025 40 1
∑𝑘𝑖=1 𝑐𝑖 ∙ 𝑓𝑖 0 ∗ 2 + 1 ∗ 9 + 2 ∗ 9 + ⋯ + 5 ∗ 1 99
𝑥̅ = = = = 2,47
𝑛 40 40
30
Marca de
Clase fi fri Fi Fri
Clase
[18 - 21) 19,5 7 0,175 7 0,175
[21 - 24) 22,5 4 0,100 11 0,275
[24 - 27) 25,5 4 0,100 15 0,375
[27 - 30) 28,5 9 0,225 24 0,600
[30 - 33) 31,5 11 0,225 35 0,875
[33 - 36) 34,5 5 0,125 40 1
La Mediana: La mediana de un conjunto de datos es el valor del centro de los datos, una vez
que los mismos sean ordenados de menor a mayor. Es decir, la mediana es aquel valor que deja
el mismo número de datos antes y después que el, una vez que son ordenados. Su aplicación se
ve restringida por el hecho de que solo considera el orden jerárquico de los datos y no alguna
propiedad propia de los datos, como en el caso de la media. Igual que en el caso de la media,
existen dos procedimientos para calcular la mediana, dependiendo de si los datos se consideran
tal cual, o si están agrupados en intervalos de clase. Veamos cada uno de ellos.
31
Para datos no ordenados se distinguen dos casos de acuerdo al número de datos n. Si n es impar,
la mediana es el valor central del conjunto ordenado, mientras que si el número de datos es par,
la medina es el promedio de los valores centrales del conjunto ordenado. Esto es, si denotamos
por Md a la mediana, se tiene que:
𝑥𝑛/2 + 𝑥(𝑛)+1
2
𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
𝑀𝑑 = 2
{ 𝑥(𝑛+1)/2 𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟
Si los datos están ordenados en tablas de frecuencias y las clases son intervalos, suponiendo que
los mismos están igualmente espaciados, la mediana se calcula mediante el siguiente
procedimiento:
• Calcular n/2.
• Ubicar la clase cuya frecuencia acumulada es igual o superior a n/2. A esta clase se le
llama clase medianal.
• Obtener la mediana mediante la fórmula
𝑛
− 𝐹𝑎𝑚
𝑀𝑑 = 𝑙𝑖𝑚 + 2 𝐴𝑚
𝑓𝑚
Donde:
32
Marca de
Clase fi fri Fi Fri
Clase
[18 - 21) 19,5 7 0,175 7 0,175
[21 - 24) 22,5 4 0,100 11 0,275
[24 - 27) 25,5 4 0,100 15 0,375
[27 - 30) 28,5 9 0,225 24 0,600
[30 - 33) 31,5 11 0,225 35 0,875
[33 - 36) 34,5 5 0,125 40 1
𝑛 40
Primero calculamos = = 20, entonces la clase medianal es la clase con la frecuencia
2 2
acumulada inmediatamente superior a 20. Por lo tanto es la clase numero 4. La mediana queda
calculada de la siguiente manera:
20 − 15
𝑀𝑑 = 27 + 3 = 28,66
9
Lo que indica que el 50% de los datos están por debajo de 28,66 y el otro 50% por encima de
28,66 años
La Moda: Se denota por Mo y es el valor más común entre los datos, el valor de la variable que
se presenta mayor número de veces, es decir, el valor de mayor frecuencia. La mayor ventaja es
la sencillez de su cálculo, ya que la mediana es la clase o marca de clase con mayor frecuencia
absoluta simple. En la tabla de las edades de los estudiantes la moda es igual a 31,5. Y en la tabla
de los números de hijos de las familias la moda es igual a 4 hijos.
Medidas de posición
Cuantiles: Son medidas de localización similares a las anteriores. Denotados por 𝑄ℎ , tienen
como objetivo fundamental identificar el valor de la variable por debajo del cual queda la h-esima
parte, en tanto por ciento, de todos los valores de la colección ordenada. Se puede decir que los
cuantiles son unas medidas que dividen a la distribución en Q partes de manera que en cada una
de ellas hay el mismo porcentaje de valores de la variable. Los más importantes son:
33
• Cuartiles. Dividen a la distribución en cuatro partes porcentualmente iguales (3 divisiones).
Se denotan por 𝐶1 , 𝐶2 , 𝐶3 , y corresponden al 25 %, 50 %,75 %.
• Deciles. Dividen a la distribución en 10 partes iguales (9 divisiones). Se denotan por D1,....
D9, y corresponden al 10 %,...,90 %.
• Percentiles. Dividen a la distribución en 100 partes (99 divisiones). P1, ..., P99, y
corresponden al 1 %,...,99 %.
Para datos no ordenados en tabla. Para la obtención del cuantil h, se deben seguir los siguientes
pasos:
𝑥𝑡 + 𝑥𝑡+1
𝑄ℎ =
2
en caso contrario, t debe ser redondeado y Qh será el valor en la posición asociada con el
entero inmediatamente mayor que t.
36 + 37
𝐶3 = = 36,5
2
Esto significa que el 75% de los datos se encuentran por debajo de 36.5. Para hallar el decil 7,
7
𝑡= 12 = 8,4. Como t no es entero, el decil 7 es el valor asociado con la posición 9, es decir, D7
10
= 36. El 70% de los datos está por debajo de 36. Igualmente, para obtener el percentil 85, se
34
85
obtiene t. En este caso, 𝑡 = 12 = 10,2 y su valor es aquel que ocupa la posición 11, P85 = 38.
100
Si los datos están agrupados en tablas de frecuencias y las clases son intervalos, suponiendo que
los mismos están igualmente espaciados, el cuantil Q h se calcula mediante el siguiente
procedimiento:
ℎ∗𝑛
• Calcular
𝑞
ℎ∗𝑛
• Ubicar la clase cuya frecuencia acumulada es igual o superior a . A esta clase se le
𝑞
ℎ∗𝑛
− 𝐹𝑎𝑐
𝑞
𝑄ℎ = 𝑙𝑖𝑐 + 𝐴
𝑓𝑐
donde
Ejemplo Para la tabla de frecuencia de las edades de los turistas, calcular el cuartil 1, el decil 6 y
el percentil 90.
ℎ∗𝑛
Para cada caso, se debe inicialmente obtener el valor de . Estos valores son:
𝑞
1 ∗ 40
= 10, 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑐𝑢𝑎𝑟𝑡𝑖𝑙 1
4
ℎ∗𝑛 6 ∗ 40
= = 24, 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑑𝑒𝑐𝑖𝑙 6
𝑞 10
90 ∗ 40
{ 100 = 36, 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 90
Luego, las clase 2, 4 y 6 están asociadas con el cuartil 1, decil 6 y percentil 90, respectivamente.
El valor de estos cuantiles son por lo tanto:
35
10 − 7
𝐶1 = 21 + 3 = 23,25
4
24 − 15
𝐷6 = 27 + 3 = 30
9
36 − 35
𝑃90 = 33 + 3 = 33,6
5
El 25% de los turistas tiene edad inferior a 23.25 años, un 60% inferior a 30 años y el 90% tiene
una edad inferior a 33.6 años.
Medidas de Dispersión
Para variables cuantitativas o numéricas, en las que por lo general se observa un gran número de
valores distintos, el análisis debe ser tal que de respuesta al siguiente conjunto de interrogantes:
Como se mostró en la unidad anterior, las medidas de tendencia central dan respuesta a la primera
interrogante. Estas medidas sirven para describir sólo un aspecto de los datos, no dicen nada
acerca de la dispersión de los valores observados. Para esto es necesario el uso de otro conjunto
de medidas, las medidas de dispersión o variabilidad. Si el valor de estas medidas de dispersión
es pequeño, indica que los datos están concentrados. Si es una medida de dispersión referida a
un valor central, por ejemplo, la media, para un valor pequeño de dicha medida se dice que los
datos están concentrados alrededor de la media. En este caso, la media se considera
representativa de los datos, es decir, es un promedio confiable. En caso contrario, la media no es
confiable, no es representativa de los datos.
36
Al igual que en el caso de las medidas de tendencia central, la selección de la medida de
dispersión a utilizar, dependerá, entre otras cosas, del objetivo a cumplir en el estudio. Si se quiere
tener una visión general de la variabilidad de los datos, el rango y el recorrido intercuartílico son
apropiadas. Si el objetivo es medir la variabilidad de los datos respecto de su media, entonces
deben usarse medidas como la varianza, desviación media o desviación estándar. Para comparar
grupos de datos con valores promedios diferentes y unidades de medida diferentes, las mejores
opciones resultan ser el coeficiente de variación y el rango intercuartílico relativo.
• Rango o Recorrido: Medida de poca utilidad ya que puede llevar a conclusiones erróneas
acerca del verdadero comportamiento de los datos. Viene dada por:
𝑅 = 𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛
Es decir, el rango es la diferencia entre el valor máximo y el valor mínimo del conjunto de
datos. Dos aspectos se deben resaltar:
37
𝑅𝐼𝐶 = 𝐶3 − 𝐶1
Esta medida indica la distancia máxima de los datos que se encuentran en el 50% central
del conjunto de datos. Su principal ventaja es que es una medida resistente a los datos
atípicos. Si su valor es muy pequeño, implica que la mayoría de los datos están en el
centro, existe poca o baja dispersión. En caso contrario, los datos se distribuyen
ampliamente, existe una alta dispersión.
• Desviación Media: Esta dada por el promedio de los valores absolutos de las diferencias
entre cada valor del conjunto de datos y su media. Mide la diferencia que hay en cualquier
sentido, positivo o negativo, entre los valores de una variable y su media. Su fórmula de
cálculo es,
∑𝑛𝑖=1|𝑥𝑖 − 𝑥̅ |
𝐷𝑀 =
𝑛
Si los datos están agrupados en una tabla de frecuencias, entonces su fórmula de cálculo
es:
∑𝑘𝑖=1|𝐶𝑖 − 𝑥̅ |. 𝑓𝑖
𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛
𝐷𝑀 =
∑𝑘𝑖=1|𝑚𝑖 − 𝑥̅ |. 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑆2 =
𝑛
Si los datos están agrupados en una tabla de frecuencias, entonces su fórmula de cálculo es:
38
∑𝑘𝑖=1(𝐶𝑖 − 𝑥̅ )2 . 𝑓𝑖
𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛
𝑆2 =
∑𝑘𝑖=1(𝑚𝑖 − 𝑥̅ )2 . 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛
Dado que esta medida viene expresada en unidades de los datos al cuadrado, por ejemplo, si
las observaciones se miden en metros, la varianza lo hace en metros al cuadrado. De esta
forma su interpretación se dificulta, siendo esta su principal desventaja.
𝑆 = √𝑆 2
Cuando se desea medir la dispersión o variabilidad de una variable, por lo general, esta se
mide con respecto a un valor central, es decir, se usan medidas absolutas referidas a un valor
central. Son las que tiene mayor sentido cuando los datos son simétricos o tienden a una
distribución simétrica.
Todas las medidas de dispersión consideran que, a mayor valor de la medida de dispersión, mayor
es la variabilidad.
39
Medidas de Dispersión Relativas
Por lo general están dadas por el cociente entre una medida de dispersión y una medida de
tendencia central y sirven para comparar la variabilidad de dos conjuntos de valores.
𝑄3 − 𝑄1
𝐼𝑄 =
𝑀𝑑
Indica que tamaño tiene el rango intercuartílico con respecto a la mediana. Es una medida
independiente de las unidades de medida y resulta interesante para comparar la
variabilidad de diferentes variables.
𝑆
𝐶𝑉 = ∙ 100
𝑥̅
Edades
fi fri Fi Fri mi
(años)
[21-24) 4 0,08 4 0,08 22,5
[24-27) 8 0,16 12 0,24 25,5
[27-30) 12 0,24 24 0,48 28,5
[30-33) 15 0,30 39 0,78 31,5
[33-36) 6 0,12 45 0,90 34,5
40
[36-39) 5 0,10 50 1,00 37,5
• Rango o Recorrido: Es la diferencia del dato máximo con el dato mínimo. Como los datos
se presentan en tablas de frecuencia, el recorrido o rango se calcula con las marcas de
clase. Especificamnete, la diferencia entre la ultima marca de clase y la primera.
Esto indica que la distancia máxima entre las distintas edades es de 15 años
12,5 − 12
𝐶1 = 27 + 3 = 27,125
12
37,5 − 24
𝐶3 = 30 + 3 = 32,7
15
El recorrido Intercuartílico queda: 𝐼𝑄𝑅 = 𝐶3 − 𝐶1 = 32,7 − 27,125 = 5,57 𝑎ñ𝑜𝑠. Eso quiere decir
que la distancia máxima del 50% central de los datos es de 5,57 años
• Desviación media: Para el calculo de la desviación media para datos ordenados en tablas
de frecuencias con intervalos. Debemos crear una nueva columna donde se calcule
|𝑚𝑖 − 𝑥̅ |. Para ello es necesario calcular la media
41
Edades
fi fri Fi Fri mi |𝑚𝑖 − 𝑥̅ | |𝑚𝑖 − 𝑥̅ | ∙ 𝑓𝑖
(años)
[21-24) 4 0,08 4 0,08 22,5 7,56 30,24
[24-27) 8 0,16 12 0,24 25,5 4,56 36,48
[27-30) 12 0,24 24 0,48 28,5 1,56 18,72
[30-33) 15 0,30 39 0,78 31,5 1,44 21,6
[33-36) 6 0,12 45 0,90 34,5 4,44 26,64
[36-39) 5 0,10 50 1,00 37,5 7,44 37,2
La diferencia absoluta promedio de los datos con respecto a la media es de 3,41 años
• Varianza: para el calculo de la varianza, se debe calcular una columna para (𝑚𝑖 − 𝑥̅ )2 ∙ 𝑓𝑖
Edades
fi fri Fi Fri mi (𝑚𝑖 − 𝑥̅ )2 (𝑚𝑖 − 𝑥̅ )2 ∙ 𝑓𝑖
(años)
[21-24) 4 0,08 4 0,08 22,5 57,1536 228,6144
[24-27) 8 0,16 12 0,24 25,5 20,7936 249,5232
[27-30) 12 0,24 24 0,48 28,5 2,4336 58,4064
[30-33) 15 0,30 39 0,78 31,5 2,0736 80,8704
[33-36) 6 0,12 45 0,90 34,5 19,7136 887,112
[36-39) 5 0,10 50 1,00 37,5 55,3536 2767,68
El promedio de las desviaciones al cuadrado de los datos y la media es 85,44 años cuadrado.
Interpretar esta medida es complicado porque la unidad de medida esta al cuadrado; por eso es
necesario el cálculo de la desviación estándar
42
• Coeficiente de variación:
𝑆 9,24
𝐶𝑉 = ∙ 100 = ∙ 100 = 30,7 %
𝑥̅ 30,06
Los datos tienen una variación del 30% esta medida relativa sin unidad de medida me permite
comparar.
Medidas de Forma
Hasta ahora, se han analizado y estudiado la tendencia, así como la dispersión de una distribución,
pero, parece evidente que es necesario conocer más sobre el comportamiento de una distribución.
En esta parte, se analizarán las medidas de forma. Las medidas de forma permiten comprobar si
una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de
concentración de datos o nivel de apuntamiento que la clasifiquen en un tipo particular de
distribución. Son medidas necesarias para determinar el comportamiento de los datos y así, poder
adaptar herramientas para el análisis probabilístico. Las medidas de forma de una distribución se
pueden clasificar en dos grandes grupos: medidas de asimetría y medidas de curtosis. Estas
medidas permiten evaluar la situación de los datos desde los ejes vertical (simetría) y horizontal
(curtosis).
desviaciones de la media son positivas o negativas. Una asimetría positiva implica que hay más
valores distintos a la derecha de la media. Las medidas de asimetría, junto a las medidas de
curtosis se utilizan para verificar si se puede aceptar que un conjunto de datos sigue la distribución
normal, lo que es necesario para realizar inferencia estadística.
Cuando el diagrama de líneas o histograma de frecuencias de una variable presenta una forma
acampanada, diremos que los datos tienen una distribución simétrica. En caso contrario, dicha
distribución será asimétrica o diremos que presenta asimetría. Ahora bien, comparando las
medidas de tendencia central, podemos establecer relaciones que permitan determinar la
presencia o no, de asimetría en un conjunto de datos. De esta forma podemos indicar que:
43
• Si x = Md = Mo la Distribución es simétrica.
• Si x < Md < Mo la Distribución es asimétrica negativa.
• Si x > Md > Mo la Distribución es asimétrica positiva.
44
Si AF = 0 la Distribución es simétrica.
Si AF < 0 la Distribución es asimétrica negativa.
Si AF > 0 la Distribución es asimétrica positiva.
∑𝑘𝑖=1(𝐶𝑖 − 𝑥̅ )4 . 𝑓𝑖
− 3 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛𝑆 4
𝐶𝐹 =
∑𝑘𝑖=1(𝑚𝑖 − 𝑥̅ )4 . 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛𝑆 4
45
46