Está en la página 1de 46

TICS

TRABAJO SOCIAL
PSICOLOGIA
TURISMO

ESTADÍSTICA
4 créditos

Profesor Autor:
Ing. Víctor Márquez, Msc, PhD

Titulaciones Semestre

• TICS
• TRABAJO SOCIAL
• PSICOLOGIA
• TURISMO

1
Índice

Tabla de contenido

Resultado de aprendizaje de la asignatura ................................................................................................... 4


...................................................................................................................................................................... 4
Unidad 1 Introducción y Estadística Descriptiva ........................................................................................... 4
Tema 1. Conceptos Básicos ........................................................................................................................... 4
Introducción.............................................................................................................................................. 4
Importancia de la Estadística .................................................................................................................... 5
Conceptos Básicos .................................................................................................................................... 5
Definición: (Estadística): ........................................................................................................................... 6
Definición (Elemento): .............................................................................................................................. 7
Definición (Universo Estadístico): ............................................................................................................. 7
Definición (Población) ............................................................................................................................... 8
Definición (Muestra) ................................................................................................................................. 9
Definición (Parámetro) ........................................................................................................................... 10
Definición (Estadístico) ........................................................................................................................... 10
Definición (Estimador): ........................................................................................................................... 10
Definición (Variable) ............................................................................................................................... 11
Definición (Variable Cualitativa): ............................................................................................................ 13
Definición (Variable Cuantitativa): .......................................................................................................... 13
Definición (Variables Cuantitativas Discretas) ........................................................................................ 13
Definición (Variables Cuantitativas Continuas): ...................................................................................... 14
Definición (Estadística Descriptiva): ........................................................................................................ 14
Definición (Estadística Inferencial): ......................................................................................................... 15
Tema 2: Tabla de frecuencia y gráficos ....................................................................................................... 15
Organización de los Datos ....................................................................................................................... 16
Organización de datos cualitativos ......................................................................................................... 16
Tablas cruzadas ....................................................................................................................................... 19
Organización de datos Cuantitativos ...................................................................................................... 20
Tema 3: Medidas Numéricas Descriptivas .................................................................................................. 28
Medidas Descriptivas .............................................................................................................................. 28

2
Medidas de Localización ......................................................................................................................... 28
. Medidas de Tendencia Central.............................................................................................................. 29
La Media ................................................................................................................................................. 29
La Mediana: ............................................................................................................................................ 31
La Moda .................................................................................................................................................. 33
Medidas de posición ............................................................................................................................... 33
Cuantiles: ................................................................................................................................................ 33
Medidas de Dispersión............................................................................................................................ 36
Medidas De Dispersión Absolutas ........................................................................................................... 37
Medidas de Dispersión Relativas ............................................................................................................ 40
Medidas de Forma .................................................................................................................................. 43

3
Resultado de aprendizaje de la asignatura

Conocer las distintas técnicas de resumen y presentación de datos, mediante el uso de


medidas descriptivas y tablas de frecuencias, con la finalidad de tener herramientas para
la óptima toma de decisiones. Explicar las definiciones y propiedades de las
probabilidades, con la finalidad de calcular o cuantificar el grado de incertidumbre de un
fenómeno o evento de Interés. Aplicar los distintos modelos probabilísticos en distintas
situaciones afines a la carrera, con el fin de garantizar un adecuado uso de las
probabilidades en la toma de decisiones. Construir estimaciones y pruebas de hipótesis
con la finalidad de pronosticar y refutar afirmaciones, con un nivel de confianza, sobre los
parámetros desconocidos bajo supuestos de normalidad. Analizar la relación existente
entre dos variables con el objetivo de ajustar un modelo matemático lineal que permita el
pronóstico o estudio de una variable en función de la otra

ESTADÍSTICA

Unidad 1 Introducción y Estadística Descriptiva


Resultado de aprendizaje de la unidad: Distinguir distintas técnicas de resumen y
presentación de datos, mediante el uso de medidas descriptivas y tablas de frecuencias,
con la finalidad de tener herramientas para la óptima toma de decisiones.

Tema 1. Conceptos Básicos

Introducción

Cada vez resulta más difícil tomar decisiones apropiadas sobre situaciones que inciden
en forma significativa por ejemplo en el éxito de un producto o quizás, en nuestro
bienestar. La estadística es esencial en la investigación de tales situaciones pues permite
caracterizar y/o explicar su comportamiento. Es una disciplina de aplicabilidad en

4
cualquier campo de estudio. Esta unidad tiene como propósito establecer el marco de
referencia para el estudio de la estadística. En el mismo se destacará la importancia y
campo de acción de esta y se introducen algunas definiciones básicas

Importancia de la Estadística

En el mundo real dos tipos de fenómenos pueden identificarse; fenómenos determinísticos


y fenómenos aleatorios. Los fenómenos determinísticos son aquellos que bajo las mismas
condiciones producen siempre los mismos resultados, mientras que los aleatorios se
refiere a aquellas situaciones donde está presente la incertidumbre en cuanto al resultado
del mismo. Durante mucho tiempo se consideró que el campo propio de la investigación
científica era exclusivo de fenómenos determinísticos. Sin embargo, los fenómenos
aleatorios, es decir, aquellos fenómenos en los cuales no se puede predecir el resultado
de cada experiencia particular, son de gran importancia y la información derivada de los
mismos, es objeto de estudio por parte de la Estadística.

Ejemplo: Son ejemplos de fenómenos aleatorios:

1. Lanzamiento de un dado
2. número de operaciones en la bolsa de valores en un día
3. Cantidades vendidas de artículos en un Supermercado en días sucesivos.
4. Costo o rango de costos de servicios de hospedaje.
5. Precio de servicio de taxi.
6. Número de turistas que visitan de temporadas específicas.
7. Ingreso de dinero en temporadas vacacionales.

En el estudio de fenómenos como los mencionados arriba, la Estadística constituye una


herramienta valiosa, resultando de fundamental importancia en los procesos de toma de
decisión. La estadística es de gran utilidad para evaluar, por ejemplo, la posibilidad de que
un producto nuevo tenga éxito. Igualmente, si se desea tomar la decisión acerca de qué
servicio adquirir o proponer en una temporada vacacional especifica, los métodos
estadísticos resultan indispensables para tal fin.

Conceptos Básicos

Cuando se habla de Estadística, tradicionalmente se hace referencia a números


presentados ordenada y sistemáticamente. Esta idea es consecuencia del concepto
popular que existe sobre esta ciencia y que cada vez se extiende más debido a la

5
influencia de nuestro entorno. Por ejemplo, es muy común escuchar información
denominada estadística de accidentes, y sólo se hace referencia al número de accidentes.
Sin embargo, cuando profundizamos en el campo de la investigación podemos entender
que la estadística no solo son números, sino que representa la principal y a veces, la única
herramienta para la obtención y análisis de la información en cualquier tipo de
investigación, y cuyo comportamiento no puede ser abordado desde el punto de vista
determinísticos. Se puede decir entonces, que la estadística es la ciencia que establece
como obtener y usar la información referente a una investigación y cómo actuar en
situaciones practicas donde está Es la ciencia de recolectar, ordenar, presentar y describir
la información asociada a un fenómeno presente la incertidumbre.

Definición: (Estadística):

Es la ciencia de recolectar, ordenar, presentar y describir la información asociada a un


fenómeno aleatorio, con el objeto de caracterizarlo y deducir la ley que rige dicho
fenómeno y así poder obtener conclusiones o, tomar decisiones.
Ejemplo: Las siguientes son situaciones en las que la Estadística juega un papel
importante:
1. Para el cálculo del Índice de Precios al Consumidor (IPC), el organismo
encargado aplica una encuesta que permite recolectar información sobre el
consumo de las familias ecuatorianas. Luego esta información es resumida en
un índice que representa el consumo familiar promedio ponderado.
2. Para estimar la inflación los organismos encargados usan el IPC.
3. La predicción o pronóstico de ventas por parte de una empresa.
4. Para determinar si las políticas económicas han sido efectivas, el gobierno
quiere contrastar la hipótesis de que la tasa de inflación anual no supera el 15%.
5. Una empresa estudia el histórico de sus ganancias para tomar decisiones
respeto a la aplicación de nuevas estrategias de mercado.
Para el estudio de fenómenos como los enumerados arriba, necesitamos contar con
información relacionada con el mismo. Esta información, obtenida bien sea
experimentalmente o, mediante la observación, está dada por datos. Estos datos son
el resultado de medir en un conjunto de elementos o individuos, una o varias
características de interés y que son objeto de análisis en una investigación. De esta
forma, en la estadística interesa las características y no los elementos o individuos en
sí.
6
Definición (Elemento):

Es un ser vivo, objeto o cosa que posee características que se desean investigar.
Ejemplo: Son ejemplos de elementos y sus características:

1. Elemento: Persona. Característica: Sueldos.


2. Elemento: Persona. Característica: Edad y sexo.
3. Elemento: Hotel. Característica: Numero de cuartos.
4. Elemento: Hotel. Característica: posee piscina.
5. Elemento: Supermercado. Característica: ventas.
6. Elemento: Fabrica. Característica: Proporción de artículos defectuosos por lote
de producción.

Definición (Universo Estadístico):


Se denomina universo estadístico a cualquier conjunto finito o infinito de individuos o
elementos, sobre los cuales están definidas características comunes y que pueden ser
objeto de análisis.
Ejemplo: Son ejemplos de universo estadístico:

1. Los Habitantes de la ciudad de Portoviejo.


2. Los bancos de la ciudad de Portoviejo.
3. Los Operadores de bolsa de valores.
4. Los animales en un bosque.
5. Los carros que entran en un estacionamiento al día.
6. La producción de envases plásticos durante un periodo de tiempo (día,
semana).

Como se dijo antes, los elementos del universo estadístico tienen una serie de
características que pueden ser objeto del estudio estadístico. Así, por ejemplo, si el
elemento considerado es una persona, podemos distinguir en ella las siguientes
características: Sexo, Edad, Nivel de estudios, Profesión, Peso, Estatura, Color del
cabello, etc. Obsérvese que todos y cada uno de los elementos de la población,
poseen las características de interés. Por lo tanto, de cada elemento del universo se
7
puede estudiar uno o más aspectos, cualidades o caracteres. El universo estadístico
puede clasificarse de acuerdo al número de elementos que contiene en finito e infinito.
Es finito cuando el número de elementos que lo conforman es finito (el número de
alumnos de un centro de enseñanza, los niños de una comunidad, el número de
plantas en un vivero). Es infinito si el número de elementos que lo conforman es infinito,
o tan grande que pudiese considerarse infinito (todos los individuos con estaturas entre
1 y 2 metros). Hay situaciones en las que aun cuando el universo es finito, contiene
tantos elementos que el mismo puede considerarse infinito. Por ejemplo, si se
realizase un estudio sobre los productos que hay en el mercado, hay un número finito
de los mismos, pero son tantos y de tantas calidades que este universo podría
considerarse infinito.
En un estudio estadístico, el investigador está interesado en la colección o conjunto
de observaciones asociadas con una o varias características de los elementos del
Universo estadístico. A este conjunto de observaciones se le denomina población
estadística.

Definición (Población)
Es el conjunto de todas las posibles mediciones que pueden hacerse de una o varias
características comunes a todos los elementos del universo y que son de interés en
una investigación dada.
Ejemplo: Son ejemplos de población estadística:

1. El sexo de los habitantes de la ciudad de Portoviejo


2. La edad y el sexo de los estudiantes de la Facultad de Ciencias Económicas y
Sociales.
3. El sueldo, el nivel instrucción y el cargo que ocupan los trabajadores de una
empresa.
4. El color de ojos de los animales en un bosque.
5. La marca de los carros que entran en un estacionamiento al día.

De esta forma, puede observarse que la población estadística está constituida por
valores o datos bien sea numéricos o no. Se puede notar que sobre un mismo Universo
Estadístico se pueden definir una o varias poblaciones. Además, una población puede
estar conformada por las mediciones asociadas con una o varias características. Así,

8
una población que considera sólo valores asociados con una característica se
denomina población univariante, en caso contrario, se denomina población
multivariante. Al igual que el universo, la población puede ser finita o infinita,
dependiendo del número de valores que la constituyen. En el caso de que la población
sea finita, se dice que esta tiene tamaño N. Ahora bien, cuando se desea investigar un
fenómeno, una interrogante a responder es la relacionada con la cantidad de
información a usar en dicha investigación. Si se usa toda la información disponible, es
decir la población, se dice que se ha realizado una investigación exhaustiva o total
(Censo). Por lo general el desarrollo de este tipo de investigaciones no siempre es
posible, por diferentes motivos:

• economía;
• pruebas destructivas;
• población infinita o tan grande que exceda las posibilidades del investigador.

En su lugar, se plantea una investigación parcial o por muestreo. Esta investigación se


basa en la información correspondiente a una porción de la población, denominada
muestra. Esta muestra debe ser generalmente suficiente para evaluar o estudiar toda la
población y el método que se use para su selección es determinante en el uso que pueda
hacerse de la misma.

Definición (Muestra)
Es una parte o porción extraída de una población, mediante métodos de selección
científicos que permiten considerarla preferiblemente representativa de dicha población.
Ejemplo: Son ejemplos de muestras:

1. Un grupo de 200 personas seleccionadas de todos los habitantes de la ciudad de


Portoviejo.
2. 5 bancos escogidos en la ciudad de Portoviejo, para hacer auditados.
3. Un grupo de 20 operadores financieros
4. Una selección de 25 trabajadores de la nómina de una gran empresa.
5. Los vehículos que entran a un estacionamiento en una hora.

Las poblaciones tienen características que las describen numéricamente. El ingreso


promedio de los habitantes de la provincia de Manabí, la proporción de hombres blancos

9
en una comunidad, la variabilidad en la estatura de los alumnos de una institución
educativa, son algunos ejemplos. A estos valores o medidas se les denomina parámetros.

Definición (Parámetro)
Representa cualquier característica medible de la población. Es una función de los
valores de la población que sirve para sintetizar alguna característica relevante de la
misma. Ejemplos de parámetros son: La media poblacional, La proporción poblacional,
la varianza poblacional, entre otros. Una población puede estar caracterizada por uno
o más parámetros. Para conocer el valor del o los parámetros de una población, es
necesario usar toda la información disponible, es decir, es necesario el desarrollo de
una investigación exhaustiva, lo que resulta por lo general inconveniente o imposible.
Sin embargo, se pueden establecer aproximaciones a dichos valores a través de
funciones de los elementos en la muestra.

Definición (Estadístico)
Dada una determinada población y una muestra de tamaño n, se define como
estadístico a cualquier función que se defina a partir de los n componentes que
integran dicha muestra. De la Definición se puede resaltar el hecho de que cualquier
función de la muestra, sin condición alguna, es un estadístico. De todas estas
funciones, un subconjunto de ellas es de especial interés en estadística; los
estimadores.

Definición (Estimador):
Estadístico utilizado para estimar un parámetro de una población. Es una función de
los valores de la muestra que sirve para sintetizar alguna característica relevante de
la misma. Nótese que un estimador es un estadístico que permite la estimación del
parámetro. Esto significa que no todo estadístico es un estimador pero, todo estimador
es un estadístico. La media muestral, La proporción muestral, la varianza muestral,
entre otros, son ejemplos de estimadores. Como se ha dicho anteriormente, la
estadística se encarga del estudio de un fenómeno a través del manejo de la
información que se tiene sobre una o más características del mismo. En el lenguaje
estadístico al igual que en el matemático a las características se les conocen como
variables y a las distintas formas en que pueden presentarse, modalidades o valores
de las variables.

10
Definición (Variable)
Se refiere a una característica que poseen todos los elementos del universo y que se
mide en el estudio. Representa las mediciones de una característica que poseen los
elementos del universo.
Ejemplo: Son ejemplos de variables:

• El color de ojos de las personas.


• La edad de las personas.
• El sueldo de un empleado.
• La raza de los perros.
• La nota de los alumnos de Métodos Estadísticos I.

Una variable puede tomar distintas modalidades o valores. Al conjunto de las


modalidades o valores de una variable se le denomina Escala de Medida. Las Escalas
de Medida pueden clasificarse de acuerdo a las relaciones que existen entre los
valores y las operaciones aritméticas que pueden realizarse entre las mismas en:
nominal, ordinal, de intervalos, de razón y absolutas.

1. Escala Nominal: Son aquellas en que la única relación que se define entre sus
valores es la igualdad o diferencia, es decir solo podemos decir que dos valores
de una variable son iguales o diferentes. No hay operaciones aritméticas
definidas, por lo tanto, los números no tienen sentido como magnitudes. Son
ejemplos de medidas de escala nominal:
a. El grupo sanguíneo.
b. El sexo.
c. El color de ojos.
d. El estado civil.
e. Los números que llevan los atletas en la espalda
2. Escala Ordinal: Son aquellas en las que entre sus valores están definidas las
relaciones de igualdad, diferencia, mayor que o menor que, es decir solo
podemos decir que dos valores de una variable son iguales, diferentes y en el

11
caso de que sean diferentes se puede establecer un orden entre ellos. No hay
operaciones aritméticas definidas. Las siguientes medidas corresponden a una
escala ordinal:
a. Dureza de los minerales.
b. Grado de satisfacción.
c. Intensidad de un dolor.
d. Rango militar.
e. Nivel de educación.
3. Escala de Intervalo: Los valores de las variables son números y entre ellos
tienen sentido las relaciones de igualdad, de orden y de las distancias. La resta
es la única operación aritmética definida. Esta escala posee una propiedad de
gran importancia; Posee un cero u origen relativo (arbitrario). El cero no significa
ausencia de la característica. Los siguientes son ejemplos de medidas
pertenecientes a una escala de intervalo:
a. Puntuación obtenida en una evaluación.
b. La temperatura.
c. La distancia sobre el nivel del mar.
4. Escala de Razón o Escala proporcional: Los valores de la variable son números
y entre ellos tienen sentido las relaciones de igualdad, orden y están definidas
las operaciones aritméticas de suma, diferencia y proporciones (múltiplos).
Estas escalas tienen un cero absoluto, el cual representa la ausencia de la
característica. Es una escala de intervalo con un cero absoluto. Las siguientes
medidas pertenecen a una escala de razón:
a. El Sueldo de los habitantes del Provincia de Manabí.
b. La edad de los alumnos de Métodos Estadísticos
c. El nivel de hemoglobina.
d. Presión arterial.
e. Peso en gramos o en kilos.
5. Escala Absoluta: Los valores que puede tomar la variable son el resultado de
un conteo, por lo tanto, esta escala está constituida por todos los número
enteros positivos y el cero. Son ejemplos de mediciones pertenecientes a una
escala absoluta:
a. Número de accidentes automovilísticos en una semana
b. Número de integrantes de una familia.
12
c. Número de alumnos en un salón de clase.

En una investigación, se puede clasificar las variables según la escala de medición o


la influencia que se asigne a unas variables sobre otras. De acuerdo a su escala de
medida las variables se pueden clasificar en cualitativas y cuantitativas.
Definición (Variable Cualitativa):
Son aquellas cuya escala de medida es nominal u ordinal, es decir, una variable es
cualitativa si sus valores representan una cualidad o atributo del elemento en estudio.
Según el número de categorías o modalidades, pueden ser dicotómicas cuando sólo
pueden tomar dos valores posibles como hombre y mujer o, politómicas cuando
pueden tomar tres o más valores como leve, moderado y grave.
Ejemplo: Las siguientes variables son de tipo cualitativo:

• El sexo de las personas.


• El Tipo de sangre.
• La nacionalidad.
• Lugar de residencia.
• El color de los ojos.
• Escalafón del profesor universitario.
• Grados militares.

Definición (Variable Cuantitativa):


Hablamos de variables cuantitativas cuando los valores posibles son cantidades
numéricas con las que podemos hacer operaciones aritméticas. Es decir, son aquellos
cuya escala de medidas es de intervalos, de proporción o absoluta. Las variables
cuantitativas pueden ser discretas o continuas. Si la variable presenta separaciones o
interrupciones en la escala de valores que puede tomar se dice que es discreta. Si la
variable puede tomar cualquier valor dentro de un intervalo especificado de valores se
dice que es continua.

Definición (Variables Cuantitativas Discretas)


Generalmente son el resultado de un conteo o enumeración. Son aquellas que pueden
tomar un número finito o numerable de valores, es decir, se puede establecer
correspondencia entre los valores que puede tomar la variable y el conjunto de los

13
números enteros. Son variables que no admiten valor alguno entre dos valores
consecutivos de las mismas.
Ejemplo Son ejemplos de variables discretas:

• Número de integrantes de una familia.


• Número de artículos defectuosos.
• Número de pares de zapatos que compran las mujeres al mes.
• Número de personas a favor de un candidato.

Definición (Variables Cuantitativas Continuas):


Son aquellas formadas por un conjunto no numerable de puntos, es decir, se puede
establecer correspondencia entre los valores que puede tomar la variable y el conjunto
de los números reales. Para dos valores cualesquiera, siempre hay un tercer valor
entre ellos.
Ejemplo Las siguientes son variables continuas:

• La edad.
• El peso.
• La temperatura.
• La distancia.

La Estadística puede clasificarse de acuerdo a su función en el tratamiento de los datos


en estadística descriptiva y estadística inferencial.

Definición (Estadística Descriptiva):


Denominada también Estadística Deductiva. Es la encargada de describir, analizar y
representar un conjunto de datos, utilizando métodos numéricos, tablas y gráficos que
resumen y presentan la información contenida en ellos. Puede llevarse a cabo sobre
una muestra o sobre toda una población. La estadística descriptiva se emplea
simplemente para resumir de forma numérica o gráfica un conjunto de datos. Si se
aplican las herramientas ofrecidas por la estadística descriptiva se logra describir los
datos que se analizan.

14
Definición (Estadística Inferencial):
Denominada también Inferencia Estadística o Estadística Inductiva. Es la que
apoyándose en la Teoría de Probabilidades y la Teoría del Muestreo, se encarga de
efectuar estimaciones, permitir la toma decisiones, predicciones u otras
generalizaciones sobre una población partiendo del estudio de una muestra. La
estadística inferencial permite obtener conclusiones o hacer inferencias, basándose
en los datos simplificados y analizados de una muestra hacia la población. La
estadística descriptiva e inductiva pueden ser usadas separadas o conjuntamente,
dependiendo de los objetivos y tipo de investigación. Lo usual es que en una
investigación parcial participen las dos.

Tema 2: Tabla de frecuencia y gráficos

Aun cuando en la actualidad la mayor parte del uso de la estadística esta dirigido a la Inferencia,
la Estadística descriptiva tiene una utilidad importante fundamentalmente en la primera fase de
una investigación. La estadística descriptiva se refiere al proceso en el que los datos son
ordenados, resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las
observaciones, intentando descubrir posibles relaciones entre los datos, observando similitudes y
diferencias entre los mismos, destacando hechos de posible interés, entre otras cosas. Esto es,
tiene como objetivo caracterizar, describir y extraer conclusiones sobre los datos de forma tal que
permitan sugerir cuestiones a analizar con mayor profundidad, llegando en ocasiones a ayudar en
el establecimiento de las primeras hipótesis acerca de la naturaleza del fenómeno que se estudia
o investiga. La Estadística Descriptiva además permite estudiar si pueden mantenerse algunos
supuestos necesarios para procesos de inferencia, tales como la de simetría, normalidad,
homocedasticidad, etc.

15
Organización de los Datos

La organización de los datos consiste en una agrupación apropiada de los mismos. Es importante
dicha agrupación, ya que por lo general la información obtenida de un estudio implica gran
cantidad de datos que no es fácil interpretar directamente. Esta organización depende del tipo de
variable que se maneje. Por lo tanto, se debe estudiar cómo realizar dicha agrupación cuando la
variable es cualitativa y cuando es cuantitativa. Los datos se organizan en una distribución de
frecuencias, la cual es una tabla resumen en la que los datos se disponen en agrupamientos o
categorías convenientemente establecidas de clases ordenadas numéricamente. Su estructura
dependerá del tipo de variable a analizar.

Organización de datos cualitativos

Cuando los datos son cualitativos de escala nominal, la organización consiste en la construcción
de una tabla de frecuencias con los siguientes columnas: la enumeración de las distintas
modalidades que presenta la variable, el número de datos que corresponde a cada modalidad
(frecuencia absoluta, fi) y la proporción que cada uno de ellos representa con respecto al total
(frecuencia relativa, fri ). La siguiente tabla muestra la estructura de una tabla de frecuencias para
este caso.

Tabla de Frecuencias para datos cualitativos


(escala nominal)
Modalidades fi fri
1 f1 fr1
2 f2 fr2
. . .
. . .
. . .
k fk frk

Donde:

∑𝑛𝑖=1 𝑓𝑖 = 𝑛 : representa el número total de datos

16
𝑓𝑖
𝑓𝑟𝑖 = y debe cumplirse que ∑𝑛𝑖=1 𝑓𝑟𝑖 = 1
𝑛

Ejemplo 2.1 A continuación se muestran los resultados obtenidos al aplicar una encuesta a 50
familias sobre su capacidad ahorro (M: Mucha, R: Regular, P: Poca, N: Ninguna): La variable en
este ejemplo es la carrera que estudian las personas, la cual es cualitativa de escala nominal.

P M M P P M M E M P
E E P N E M P P M P
P M N P E M M P M P
P P M E E M P P P M
P P M P P P P N M E

Tabla de frecuencia para los datos del ejemplo


Capacidad de fi fri
ahorro
Mucha 16 0,32
Regular 23 0,46
Poca 8 0,16
Ninguna 3 0,06

Si los datos son cualitativos de escala ordinal, su organización implica dos cosas: en primer lugar,
las clases llevan un orden preestablecido por las modalidades de la variable; en segundo lugar

se incorporan a la tabla, columnas que muestren la frecuencia absoluta acumulada, Fi, y la


proporción que cada uno de ellos representa con respecto al total, frecuencia relativa acumulada,
Fri. La siguiente tabla muestra la estructura de una tabla de frecuencias para este caso.

Donde:

𝐹𝑙 = ∑𝑙𝑖=1 𝑓𝑖

17
𝐹𝑙
𝐹𝑟𝑖 = ∑𝑙𝑖=1 𝑓𝑟𝑖 = y debe cumplirse que 𝐹𝑟𝑘 = 1
𝑛

Tabla de Frecuencias para datos cualitativos


(escala ordinal)
Modalidades fi fri Fi Fri
1 f1 fr1 F1 Fr1
2 f2 fr2 F2 Fr2
. . . . .
. . . . .
. . . . .
K fk frk Fk Frk

Ejemplo: Los siguientes datos corresponden a una consulta realizada a 45 clientes bancarios
sobre su percepción de la calidad del servicio (MB: Muy Bueno, B: Bueno, A: Aceptable, M: Malo,
MM: Muy Malo):

MB B B A A M A MM B A
B B MM MB A A M M B B
M A MM MB B A B MB A B
B M M B B A B B M A
MB B M MM A

Tabla: Percepción de la calidad de servicio de hospedaje


Percepción fi fri Fi Fri
Muy buena 5 0,11 5 0,11

18
Buena 16 0,35 21 0,46
Aceptable 12 0,26 33 0,73
Mala 8 0,17 41 0,91
Muy mala 4 0,08 45 1

Tablas cruzadas

Tablas como las anteriores se utilizan cuando se está estudiando una variable. Existen situaciones
en las que se registra información acerca de dos o más variables para cada individuo o elemento.
Si este es el caso, la serie de datos se dice es multidimensional. Para el caso de dos variables,
digamos A y B, los datos se pueden organizar mediante el uso de una tabla de doble entrada,
denominada distribución conjunta o, tabla de contingencia en el caso de variables cualitativas.
Esta tabla se construye enumerando en la parte superior las modalidades o valores de una
variable (variable columna) y en el extremo derecho las modalidades de la otra variable (variable
fila). La siguiente tabla muestra la estructura de una distribución conjunta o tabla de contingencia.
Esta es una tabla con r filas y c columnas, por tanto, tiene rxc celdas. La celda correspondiente a
la fila i y la columna j, Cij , contiene el número de elementos que presenta simultáneamente la
categoría i de la variable fila y la categoría j de la variable columna. Por ejemplo, si sobre un
conjunto de individuos se miden las variables estado civil y nivel educativo, la celda Cij registrara
el número de individuos que presentan la modalidad i de estado civil y la modalidad j de nivel
educativo.

Tabla de Contingencia

19
Variable B

B1 B2 … Bc

A1 C11 C12 … C1c

A2 C21 C22 … C2c

. . . .
Variable A
. . . … .

. . . .

Ar Cr1 Cr2 … Crc

Organización de datos Cuantitativos

Si los datos son cuantitativos, los mismos pueden ser discretos o continuos. Para su organización
se usa un procedimiento similar al utilizado con los datos cualitativos, considerando otros aspectos
que la hacen más laboriosa.

Ejemplo (datos discretos): se registra en 32 fines de semana el número de transacciones


bancarias en un cajero en particular:

3 6 1 2 3 7 5 5 4 5
4 3 2 4 6 3 7 6 1 1
2 3 5 2 7 5 5 7 6 1
4 5

Ejemplo (datos continuos) precio de una acción en particular :

20
1.55 1.55 1.57 1.59 1.65 1.70 1.73 1.58 1.57 1.60
1.56 1.60 1.61 1.62 1.69 1.68 1.71 1.71 1.74 1.79
1.77 1.67 1.65 1.65 1.59 1.58 1.55 1.63 1.62 1.61
1.64 1.68 1.70 1.72 1.72 1.76 1.74 1.71 1.75 1.75
1.58 1.71

La variable número de habitaciones rentadas es discreta, mientras que en el ejemplo anterior, la


variable estatura es continua. En estos casos la tabla de frecuencias contiene los siguientes
elementos:

• Intervalos de Clase: El intervalo total en que están repartidas las observaciones es dividido
en k intervalos parciales. A estos intervalos se les denomina intervalos de clase o,
simplemente clases. Deben ser excluyentes
• Límites de Clase: Extremos de los intervalos de clase. Al menor de estos valores se le
llama límite inferior y al mayor, limite superior.
• Marcas de Clase (mi): Punto medio o centro de intervalo. Es una forma abreviada de
representar el intervalo. De esta forma, todos los cálculos que se realizan como si en lugar
de tener ni valores en la clase i, se tiene ni veces el mismo valor, mi
• Frecuencia Absoluta (fi): Número de observaciones contenidas o incluidas en una clase.
Se debe satisfacer la siguiente igualdad

𝑛 = ∑ 𝑓𝑖
𝑖=1

donde n es el número total de datos.

• Frecuencia Relativa (fri): Proporción de los datos contenidos en la clase. Se obtiene al


dividir la frecuencia absoluta entre el número total de observaciones. Debe cumplirse que

1 = ∑ 𝑓𝑟𝑖
𝑖=1

• Frecuencia Absoluta Acumulada (Fi): Suma de frecuencias absolutas hasta la clase


correspondiente. De esta forma, la frecuencia acumulada para la clase k es el número total
de datos, n.

21
• Frecuencia Relativa Acumulada (Fri): Suma de las Frecuencias Relativas hasta la clase
correspondiente. Se pueden obtener dividiendo la frecuencia absoluta acumulada entre el
número total de observaciones. Para la clase k se cumple que 1 = Frk.

Nota: En el caso discreto, cuando el número de valores diferentes que puede tomar la variable es
pequeño, entonces cada uno de ellos representa una clase. De esta forma las marcas de clase
coinciden con las clases. Lo mismo es valido en el caso continuo, cuando el número de datos es
pequeño.

Para construir una tabla o distribución de frecuencias, en el caso de variables cuantitativas se


debe seguir el siguiente procedimiento:

1. Obtener los extremos del intervalo total (Vmax y Vmin).


2. Obtener el rango o recorrido de la variable, R = Vmax-Vmin.
3. Determinar el número de clases y la amplitud de las mismas. Para determinar el número
de clases no existe una regla fija. Una primera aproximación es tomar

𝐾 = 𝑁º 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 = √𝑛

Esta aproximación no siempre es conveniente, sobre todo cuando n es grande. Existe una fórmula
para calcular el número óptimo de clases, denominada fórmula de Stugers

𝐾 = 𝑁º 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 = 1 + 3,3 log 𝑛

Cuando se particionan los datos en clases, es generalmente recomendado usar entre 5 y 15


clases. Fuera de estos extremos, la organización resulta poco eficiente. Si hay pocas clases la
pérdida de información es por lo general significativa. Si hay muchas clases y adicionalmente el
número de datos es pequeño, las frecuencias de clases tienden a subir y bajar de una manera
desordenada evitando que se produzca una distribución ideal de los datos. Una vez que se toma
una decisión en cuanto al número de clases, la amplitud de las clases, es simplemente

𝑅
𝐴 = 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 =
𝐾

Esto permite, en resumen, particionar los datos en K clases, cada una con amplitud A. Es
importante hacer notar que, no siempre es posible contar con clases de igual amplitud. Si la

22
amplitud de los intervalos no es constante, se debe corregir entonces las frecuencias, dividiendo
las mismas por la amplitud del intervalo.

4. Construir los Intervalos de Clase: Para construir la primera clase, seleccionamos como un
límite inferior el valor mínimo (Vmin). El limite superior se obtiene al sumarle al limite inferior
la amplitud, A. Para la segunda clase se tiene que el limite inferior es el limite superior de
la primera clase y el limite superior, resulta de sumarle a este, A. Siguiendo este
procedimiento construimos las k clases. Como el limite superior de una clase representa
el limite inferior de la clase siguiente, conviene considerar las clases como intervalos del
tipo [Linf - Lsup); esto es, intervalos cerrados por la izquierda y abiertas por la derecha.
5. Calcular las marcas de clase (mi): Las marcas de clase están representadas por los puntos
medios de los intervalos de clase, es decir, mi = lsi-lii
6. Obtener las frecuencias absolutas, relativas, absolutas acumuladas y relativa acumulada.
La tabla muestra la estructura de una tabla de frecuencias para datos cuantitativos

Tabla: Tabla de Frecuencias para datos cuantitativos

Clases mi Fi Fri Fi Fri


[li1-ls1) m1 f1 fr1 F1 Fr1
[li2-ls2) m2 f2 fr2 F2 Fr2
. . . . . .
. . . . . .
. . . . . .
[lik-lsk) mk Fk Frk Frk Frk

Ejemplo: A continuación, se muestra la información sobre el número de hijos que tienen 40 familias

.
1 1 3 3 2 4 4 1

23
1 2 1 3 3 2 1 3
2 1 2 2 4 3 4 4
4 0 3 0 4 1 5 2
2 3 3 4 4 4 1 2

Antes de organizar los datos en una distribución de frecuencia, observemos que la variable es
discreta y además posee pocos valores diferentes, pues su rango esta dado por {0; 1; 2; 3; 4; 5}.
Entonces las clases de la distribución de frecuencia están dadas por los valores individuales de la
variable. En la tabla se presenta la organización de estos datos.

Distribución del Nª de Hijos que tienen 40 Mujeres

Nª de fi fri Fi Fri
Hijos
0 2 0,05 2 0,05
1 9 0,225 11 0,275
2 9 0,225 20 0,5
3 9 0,225 29 0,725
4 10 0,250 39 0,975
5 1 0,025 40 1

En la tabla se observa entre otras cosas que el 97.5% de la mujeres en la muestra tienen 4 o
menos hijos. Obsérvese que el 25% de las mujeres encuestadas tienen 3 hijos, representado este
el valor más frecuente. Estos porcentajes se obtienen simplemente al multiplicar los valores de fri
y Fri por 100. Es decir, 97;5% = 0;975 * 100 y 25% = 0;250 *100.

Ejemplo: Los siguientes datos corresponden al numero de transacciones bancarias en media hora
por 50 días.

24
30 28 22 28 34 32 32 23 28 35

34 28 20 29 21 30 30 19 27 19

25 30 34 32 31 24 32 20 21 30

31 19 18 27 19 26 26 27 29 34

Si se organizan los datos en una distribución de frecuencia cuyas clases son valores individuales,
como en el ejemplo anterior, el arreglo resultante es poco eficiente ya que la variable edad posee
muchos valores diferentes (modalidades), lo que conlleva a un arreglo que no tiene una fácil
interpretación. Para mejorar la organización de los datos, es necesario considerar a las clases
como intervalos. El procedimiento para tal caso se describe a continuación.

a) Identificación de los valores extremos del intervalo total

𝑉𝑚𝑎𝑥 = 35 y 𝑉𝑚𝑖𝑛 = 18.

b) Cálculo del Rango.

𝑅 = 𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛 = 35 − 18 = 17

c) Determinación del Número de Clases (K) y de la amplitud de las clases (A) Para determinar
el número de clases se usa la regla de Sturges, obteniéndose:

K = 1 + 3;3 log(n) = 1 + 3;3 log(40) = 6;28

Por lo tanto, se deben tener aproximadamente 6 clases. La amplitud de las clases está
dada por:

𝑅
𝐴= = 2,7
𝐾

lo cual se puede aproximar a 3, ya que, se ha asumido que la variable edad es discreta.

d) Construcción de los intervalos de clases.

25
• El primer intervalo se construye utilizando como límite inferior el valor mínimo de los
datos, en este caso 18, y el límite superior se obtiene al sumarle la amplitud (A) al límite
inferior, es decir, 18 + 3 =21. Por lo tanto, el primer intervalo es [18-21).
• El segundo intervalo tiene como límite inferior el límite superior de la clase anterior, es
decir, 21, y el límite superior se obtiene al sumarle la amplitud al límite inferior, es decir,
21+3=24. Por lo tanto, el segundo intervalo es [21 - 24).
• Los demás intervalos se obtienen de manera similar al segundo intervalo. El último
intervalo construido debe contener al valor máximo. Si el límite superior de este
intervalo coincide con el valor máximo de los datos, entonces el intervalo debe ser
cerrado, es decir, de la forma [,].
e) Los intervalos de clases obtenidos al seguir el procedimiento anterior son:

[18 - 21)
[21 - 24)
[24 - 27)
[27 - 30)
[30 - 33)
[33 - 36)

f) Cálculo de las marcas de clase: La marcas de clase para cada una de los intervalos de
clases se muestran a continuación

Clase Marca de Clase


[18 - 21) 19,5

[21 - 24) 22,5

[24 - 27) 25,5

[27 - 30) 28,5

[30 - 33) 31,5

[33 - 36) 34,5

26
g) Cálculo de las frecuencias absolutas y relativas.
• Las frecuencias absolutas (fi) representan el número de observaciones que se
encuentran en el intervalo i. Para el primer intervalo de clase, por ejemplo, la frecuencia
absoluta (f1) es 7, esto quiere decir que hay 7 turistas con edades mayores o iguales
a 18 años, pero menores a 21 años.
• Las frecuencias relativas (fri) se obtienen al dividir la frecuencia absoluta entre el
7
número de observaciones. Para el primer intervalo de clase 𝑓𝑟1 = = 0,175. Donde
40

40 es el número de observaciones.
• Las frecuencias acumuladas (Fi) se obtienen al sumar las frecuencias absolutas de esa
clase con las anteriores. En este caso, la frecuencia acumulada del tercer intervalo de
clase es F3 = f1 + f2 + f3 = 7 + 4 + 4 = 15. En general, la frecuencia acumulada para la
clase c (1 < c < k) está dada por 𝐹𝑐 = ∑𝑐1 𝑓𝑖
• Las frecuencias relativas acumuladas (Fri) se obtienen al sumar las frecuencias
relativas de esa clase con las anteriores. En este caso, la frecuencia relativa acumulada
del tercer intervalo de clase es Fr3 = fr1 + fr2 + fr3 = 0,175 + 0,100 + 0,100 = 0,375.
Otra manera de obtener esta valor es dividir la frecuencia acumulada entre el numero
15
de observaciones, 𝐹𝑟3 = = 0,375
40

De esta forma, en la tabla se muestra la distribución de frecuencia para los datos del ejemplo.

Tabla: Distribución de frecuencia de las edades de 40 turistas.


Marca de
Clase fi fri Fi Fri
Clase
[18 - 21) 19,5 7 0,175 7 0,175

[21 - 24) 22,5 4 0,100 11 0,275

[24 - 27) 25,5 4 0,100 15 0,375

[27 - 30) 28,5 9 0,225 24 0,600

27
[30 - 33) 31,5 11 0,225 35 0,875

[33 - 36) 34,5 5 0,125 40 1

Esta tabla es más fácil de interpretar. Por ejemplo, se puede decir que un 27.5% de las
transacciones bancarias son inferiores a 33 y mayores o iguales a 30. El 60% de las transacciones
son inferiores a 30.

Tema 3: Medidas Numéricas Descriptivas

En las secciones anteriores examinamos algunas técnicas que permiten describir visualmente un
conjunto de datos, es decir, procedimientos que ofrecen una idea cualitativa de las características
del mismo. Usualmente, esa descripción gráfica o cualitativa, es acompañada por algunas
medidas numéricas sencillas de calcular e interpretar, denominadas medidas de tendencia central
y posición. El propósito de esta sección es el de introducir técnicas que permitan la descripción de
un conjunto de datos desde el punto de vista matemático.

Medidas Descriptivas

Son cantidades que de manera resumida proveen información acerca de características


importantes de un conjunto de datos. Es decir, son índices que resumen una serie de datos y que
contienen la mayor parte de la información relevante, permitiendo así descubrir aspectos
importantes de dicha serie.

Las medidas descriptivas las podemos clasificar de acuerdo a lo que se mide en los siguientes
tres grupos: Medidas de localización, medidas de dispersión y medidas de forma. En esta unidad
se presentará las medidas de localización que se clasifican en medidas de tendencia central y
medias de posición.

Medidas de Localización

28
Son coeficientes que tratan de representar una determinada distribución de una serie de datos,
pueden ser de dos tipos; centrales (o de tendencia central) y no centrales (o de posición). Las
medidas centrales son parámetros que se localizan alrededor del centro del conjunto de datos, es
decir nos permiten describir el centro de la masa de datos. Ellos son:

• Media Aritmética
• Mediana
• Moda

Las medidas no centrales permiten ubicar partes del conjunto de datos. Ellos son:

• Cuartiles
• Deciles
• Percentiles

. Medidas de Tendencia Central

La Media Aritmética. Es la medida de tendencia central más popular para datos cuantitativos,
entre otras cosas por poseer propiedades matemáticas deseables. Representa el centro de
gravedad o punto de equilibrio de un conjunto de datos. La media aritmética de un conjunto de
datos es simplemente el promedio de los datos. Su cálculo depende si los datos están o no
ordenados en tablas de frecuencias.

Para datos no ordenados en tablas de frecuencias, la media aritmética está dada por:

∑𝑥
𝑥̅ =
𝑛

Ejemplo (datos discretos): En el número de transacciones de un cajero en una hora determinada:

3 6 1 2 3 7 5 5 4 5
4 3 2 4 6 3 7 6 1 1
2 3 5 2 7 5 5 7 6 1
4 5

29
La media aritmética se calcula:

∑ 𝑥 3 + 6 + 1 + ⋯ + 6 + 1 + 4 + 5 127
𝑥̅ = = = = 3,96
𝑛 32 32

El promedio de cuartos rentados es de 3,96. Lo que indica que los datos se agrupan alrededor de
3,96.

A menudo, se quiere calcular la media a través de una tabla de frecuencias previamente hecha.
Su fórmula de cálculo depende de si las clases están conformadas por valores individuales o por
intervalos.

∑𝑘𝑖=1 𝑐𝑖 ∙ 𝑓𝑖
𝐶𝑙𝑎𝑠𝑒𝑠 𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛
𝑥̅ =
∑𝑘𝑖=1 𝑚𝑖 ∙ 𝑓𝑖
{ 𝐶𝑙𝑎𝑠𝑒𝑠 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠
𝑛

Ejemplo: Suponga la siguiente tabla de frecuencia del numero de hijos de 40 familias

Nª de fi Fri Fi Fri
Hijos
0 2 0,05 2 0,05
1 9 0,225 11 0,275
2 9 0,225 20 0,5
3 9 0,225 29 0,725
4 10 0,250 39 0,975
5 1 0,025 40 1

∑𝑘𝑖=1 𝑐𝑖 ∙ 𝑓𝑖 0 ∗ 2 + 1 ∗ 9 + 2 ∗ 9 + ⋯ + 5 ∗ 1 99
𝑥̅ = = = = 2,47
𝑛 40 40

Por lo tanto, el promedio de hijos por familia es de 2,47.hijos

Ejemplo: Suponga la siguiente tabla de frecuencia de las edades de 40 personas

30
Marca de
Clase fi fri Fi Fri
Clase
[18 - 21) 19,5 7 0,175 7 0,175
[21 - 24) 22,5 4 0,100 11 0,275
[24 - 27) 25,5 4 0,100 15 0,375
[27 - 30) 28,5 9 0,225 24 0,600
[30 - 33) 31,5 11 0,225 35 0,875
[33 - 36) 34,5 5 0,125 40 1

∑𝑘𝑖=1 𝑚𝑖 ∙ 𝑓𝑖 19,5 ∗ 7 + 22,5 ∗ 4 + 25,5 ∗ 4 + ⋯ + 34,5 ∗ 5 1104


𝑥̅ = = = = 27,6
𝑛 40 40

La edad promedio de los turistas es de 27,6 años

Las principales Ventajas de esta medida de localización son:

• Toma en cuenta todos los datos.


• Fácil de calcular y de operar algebraicamente.

Desventajas de la media aritmética

• Es sensible a valores extremos o atípicos.


• No ofrece siempre una buena aproximación cuando las distribuciones son asimétricas.

La Mediana: La mediana de un conjunto de datos es el valor del centro de los datos, una vez
que los mismos sean ordenados de menor a mayor. Es decir, la mediana es aquel valor que deja
el mismo número de datos antes y después que el, una vez que son ordenados. Su aplicación se
ve restringida por el hecho de que solo considera el orden jerárquico de los datos y no alguna
propiedad propia de los datos, como en el caso de la media. Igual que en el caso de la media,
existen dos procedimientos para calcular la mediana, dependiendo de si los datos se consideran
tal cual, o si están agrupados en intervalos de clase. Veamos cada uno de ellos.

31
Para datos no ordenados se distinguen dos casos de acuerdo al número de datos n. Si n es impar,
la mediana es el valor central del conjunto ordenado, mientras que si el número de datos es par,
la medina es el promedio de los valores centrales del conjunto ordenado. Esto es, si denotamos
por Md a la mediana, se tiene que:

𝑥𝑛/2 + 𝑥(𝑛)+1
2
𝑠𝑖 𝑛 𝑒𝑠 𝑝𝑎𝑟
𝑀𝑑 = 2

{ 𝑥(𝑛+1)/2 𝑠𝑖 𝑛 𝑒𝑠 𝑖𝑚𝑝𝑎𝑟

Si los datos están ordenados en tablas de frecuencias y las clases son intervalos, suponiendo que
los mismos están igualmente espaciados, la mediana se calcula mediante el siguiente
procedimiento:

• Calcular n/2.
• Ubicar la clase cuya frecuencia acumulada es igual o superior a n/2. A esta clase se le
llama clase medianal.
• Obtener la mediana mediante la fórmula

𝑛
− 𝐹𝑎𝑚
𝑀𝑑 = 𝑙𝑖𝑚 + 2 𝐴𝑚
𝑓𝑚

Donde:

Fam=Frecuencia Acumulada de la clase anterior a la medianal.

Am=Amplitud de la clase medianal.

lim=Limite inferior de la clase medianal.

fm=Frecuencia absoluta de la clase medianal.

Ejemplo: Suponga la siguiente tabla de frecuencia de las edades de 40 turistas

32
Marca de
Clase fi fri Fi Fri
Clase
[18 - 21) 19,5 7 0,175 7 0,175
[21 - 24) 22,5 4 0,100 11 0,275
[24 - 27) 25,5 4 0,100 15 0,375
[27 - 30) 28,5 9 0,225 24 0,600
[30 - 33) 31,5 11 0,225 35 0,875
[33 - 36) 34,5 5 0,125 40 1

𝑛 40
Primero calculamos = = 20, entonces la clase medianal es la clase con la frecuencia
2 2

acumulada inmediatamente superior a 20. Por lo tanto es la clase numero 4. La mediana queda
calculada de la siguiente manera:

20 − 15
𝑀𝑑 = 27 + 3 = 28,66
9

Lo que indica que el 50% de los datos están por debajo de 28,66 y el otro 50% por encima de
28,66 años

La Moda: Se denota por Mo y es el valor más común entre los datos, el valor de la variable que
se presenta mayor número de veces, es decir, el valor de mayor frecuencia. La mayor ventaja es
la sencillez de su cálculo, ya que la mediana es la clase o marca de clase con mayor frecuencia
absoluta simple. En la tabla de las edades de los estudiantes la moda es igual a 31,5. Y en la tabla
de los números de hijos de las familias la moda es igual a 4 hijos.

Medidas de posición

Cuantiles: Son medidas de localización similares a las anteriores. Denotados por 𝑄ℎ , tienen
como objetivo fundamental identificar el valor de la variable por debajo del cual queda la h-esima
parte, en tanto por ciento, de todos los valores de la colección ordenada. Se puede decir que los
cuantiles son unas medidas que dividen a la distribución en Q partes de manera que en cada una
de ellas hay el mismo porcentaje de valores de la variable. Los más importantes son:

33
• Cuartiles. Dividen a la distribución en cuatro partes porcentualmente iguales (3 divisiones).
Se denotan por 𝐶1 , 𝐶2 , 𝐶3 , y corresponden al 25 %, 50 %,75 %.
• Deciles. Dividen a la distribución en 10 partes iguales (9 divisiones). Se denotan por D1,....
D9, y corresponden al 10 %,...,90 %.
• Percentiles. Dividen a la distribución en 100 partes (99 divisiones). P1, ..., P99, y
corresponden al 1 %,...,99 %.

Para datos no ordenados en tabla. Para la obtención del cuantil h, se deben seguir los siguientes

pasos:

• Ordenar los datos de menor a mayor



• Calcular el valor 𝑡 = 𝑛 donde h es el cuantil deseado, q es iguala 4, 10 y 100, para
𝑞

cuartiles (Ch), deciles (Dh) y percentiles (Ph), respectivamente.


• Si t es entero, el cuantil h, Qh, es el promedio de los valores en las posiciones t y t + 1, es
decir

𝑥𝑡 + 𝑥𝑡+1
𝑄ℎ =
2

en caso contrario, t debe ser redondeado y Qh será el valor en la posición asociada con el
entero inmediatamente mayor que t.

Ejemplo: Determinar el cuartil 3, el decil 7 y el percentil 85 para el siguiente conjunto de datos: 33


34 38 31 36 30 35 35 37 29 32 39.

Esta serie ordenada es: 29 30 31 32 33 34 35 35 36 37 38 39. Para el cálculo del cuartil 3, t = 3,


3
𝑡 = 12 = 9, y su valor está dado por el promedio de los valores en las posiciones 9 y 10 de la
4

serie ordenada, es decir,

36 + 37
𝐶3 = = 36,5
2

Esto significa que el 75% de los datos se encuentran por debajo de 36.5. Para hallar el decil 7,
7
𝑡= 12 = 8,4. Como t no es entero, el decil 7 es el valor asociado con la posición 9, es decir, D7
10

= 36. El 70% de los datos está por debajo de 36. Igualmente, para obtener el percentil 85, se

34
85
obtiene t. En este caso, 𝑡 = 12 = 10,2 y su valor es aquel que ocupa la posición 11, P85 = 38.
100

Por lo tanto, el 85% de los datos están por debajo de 38.

Si los datos están agrupados en tablas de frecuencias y las clases son intervalos, suponiendo que
los mismos están igualmente espaciados, el cuantil Q h se calcula mediante el siguiente
procedimiento:

ℎ∗𝑛
• Calcular
𝑞
ℎ∗𝑛
• Ubicar la clase cuya frecuencia acumulada es igual o superior a . A esta clase se le
𝑞

llama clase cuantil.


• Obtener el h-esimo cuantil mediante la fórmula

ℎ∗𝑛
− 𝐹𝑎𝑐
𝑞
𝑄ℎ = 𝑙𝑖𝑐 + 𝐴
𝑓𝑐

donde

Fac=Frecuencia Acumulada de la clase anterior a la clase cuantil.

A=Amplitud de la clase cuantil.

lic=Limite inferior de la clase cuantil.

fc=Frecuencia absoluta de la clase cuantil.

Ejemplo Para la tabla de frecuencia de las edades de los turistas, calcular el cuartil 1, el decil 6 y
el percentil 90.

ℎ∗𝑛
Para cada caso, se debe inicialmente obtener el valor de . Estos valores son:
𝑞

1 ∗ 40
= 10, 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑐𝑢𝑎𝑟𝑡𝑖𝑙 1
4
ℎ∗𝑛 6 ∗ 40
= = 24, 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑑𝑒𝑐𝑖𝑙 6
𝑞 10
90 ∗ 40
{ 100 = 36, 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 90

Luego, las clase 2, 4 y 6 están asociadas con el cuartil 1, decil 6 y percentil 90, respectivamente.
El valor de estos cuantiles son por lo tanto:

35
10 − 7
𝐶1 = 21 + 3 = 23,25
4

24 − 15
𝐷6 = 27 + 3 = 30
9

36 − 35
𝑃90 = 33 + 3 = 33,6
5

El 25% de los turistas tiene edad inferior a 23.25 años, un 60% inferior a 30 años y el 90% tiene
una edad inferior a 33.6 años.

Medidas de Dispersión

Para variables cuantitativas o numéricas, en las que por lo general se observa un gran número de
valores distintos, el análisis debe ser tal que de respuesta al siguiente conjunto de interrogantes:

• ¿Alrededor de qué valor se agrupan los datos?


• ¿Qué valor es el más frecuente?
• Como se agrupan los datos, ¿muy concentrados? ¿muy dispersos?

Como se mostró en la unidad anterior, las medidas de tendencia central dan respuesta a la primera
interrogante. Estas medidas sirven para describir sólo un aspecto de los datos, no dicen nada
acerca de la dispersión de los valores observados. Para esto es necesario el uso de otro conjunto
de medidas, las medidas de dispersión o variabilidad. Si el valor de estas medidas de dispersión
es pequeño, indica que los datos están concentrados. Si es una medida de dispersión referida a
un valor central, por ejemplo, la media, para un valor pequeño de dicha medida se dice que los
datos están concentrados alrededor de la media. En este caso, la media se considera
representativa de los datos, es decir, es un promedio confiable. En caso contrario, la media no es
confiable, no es representativa de los datos.

Las medidas de dispersión permiten medir el grado de agrupación o disgregación en un conjunto


de datos, es decir, permiten determinar qué tan cercanos o separados entre si están los valores.
Esto es, las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los
valores de la distribución. Se pueden clasificar en absolutas y relativas. Las absolutas pueden o
no, estar referidas a un valor central y no son comparables entre diferentes muestras. Las medidas
relativas permiten comparar varias muestras. El siguiente cuadro muestra las distintas medidas
de dispersión.

36
Al igual que en el caso de las medidas de tendencia central, la selección de la medida de
dispersión a utilizar, dependerá, entre otras cosas, del objetivo a cumplir en el estudio. Si se quiere
tener una visión general de la variabilidad de los datos, el rango y el recorrido intercuartílico son
apropiadas. Si el objetivo es medir la variabilidad de los datos respecto de su media, entonces
deben usarse medidas como la varianza, desviación media o desviación estándar. Para comparar
grupos de datos con valores promedios diferentes y unidades de medida diferentes, las mejores
opciones resultan ser el coeficiente de variación y el rango intercuartílico relativo.

Medidas De Dispersión Absolutas

• Rango o Recorrido: Medida de poca utilidad ya que puede llevar a conclusiones erróneas
acerca del verdadero comportamiento de los datos. Viene dada por:

𝑅 = 𝑉𝑚𝑎𝑥 − 𝑉𝑚𝑖𝑛

Es decir, el rango es la diferencia entre el valor máximo y el valor mínimo del conjunto de
datos. Dos aspectos se deben resaltar:

o Cuanto menor es su valor, es más representativo de las medidas de tendencia


central.
o Sólo depende de los valores extremos. Valores muy alejados afectan dicha medida.
o No es aconsejable usarlo para muestras grandes, pues puede conducirnos a
errores. Se le utiliza en muestras pequeñas de 4 a 5 observaciones, básicamente
en el control estadístico de la calidad.

• Recorrido Intercuartílico: Es una medida de la dispersión definida en la zona intermedia


de los datos. Viene dada por la diferencia entre los cuartiles 3 y 1. Esto es,

37
𝑅𝐼𝐶 = 𝐶3 − 𝐶1

Esta medida indica la distancia máxima de los datos que se encuentran en el 50% central
del conjunto de datos. Su principal ventaja es que es una medida resistente a los datos
atípicos. Si su valor es muy pequeño, implica que la mayoría de los datos están en el
centro, existe poca o baja dispersión. En caso contrario, los datos se distribuyen
ampliamente, existe una alta dispersión.

• Desviación Media: Esta dada por el promedio de los valores absolutos de las diferencias
entre cada valor del conjunto de datos y su media. Mide la diferencia que hay en cualquier
sentido, positivo o negativo, entre los valores de una variable y su media. Su fórmula de
cálculo es,

∑𝑛𝑖=1|𝑥𝑖 − 𝑥̅ |
𝐷𝑀 =
𝑛

Si los datos están agrupados en una tabla de frecuencias, entonces su fórmula de cálculo
es:

∑𝑘𝑖=1|𝐶𝑖 − 𝑥̅ |. 𝑓𝑖
𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛
𝐷𝑀 =
∑𝑘𝑖=1|𝑚𝑖 − 𝑥̅ |. 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛

• Varianza: La desviación media presenta el inconveniente de no destacar cuando un valor


está separado significativamente de la media y destaca excesivamente pequeñas
diferencias respecto de la media. Para evitar tal situación se propone en su lugar la
varianza, definida como la media de las diferencias al cuadrado de los datos respecto de
su media, es decir,

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑆2 =
𝑛

Si los datos están agrupados en una tabla de frecuencias, entonces su fórmula de cálculo es:

38
∑𝑘𝑖=1(𝐶𝑖 − 𝑥̅ )2 . 𝑓𝑖
𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛
𝑆2 =
∑𝑘𝑖=1(𝑚𝑖 − 𝑥̅ )2 . 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛

Dado que esta medida viene expresada en unidades de los datos al cuadrado, por ejemplo, si
las observaciones se miden en metros, la varianza lo hace en metros al cuadrado. De esta
forma su interpretación se dificulta, siendo esta su principal desventaja.

• Desviación Estándar: Dada la dificultad presentada con la interpretación de la varianza,


surge una medida de dispersión función de ella y que viene expresada en las mismas
unidades que los datos, desviación estándar o típica. Representa la medida de dispersión
más utilizada en estadística y está dada por,

𝑆 = √𝑆 2

• Propiedades de la Varianza y Desviación Estándar:


o La varianza y la desviación estándar no pueden ser negativas.
o Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación
estándar.
o Si todos los datos son iguales a una constante c, entonces S2 = 0 y S = 0.
o Si a cada dato original se le suma una constante k, la varianza y la desviación
estándar no se ven afectadas.
• Si cada dato original se multiplica por una constante k, la varianza y la desviación estándar
del nuevo conjunto de datos están dadas por k 2S2 y kS respectivamente.

Cuando se desea medir la dispersión o variabilidad de una variable, por lo general, esta se
mide con respecto a un valor central, es decir, se usan medidas absolutas referidas a un valor
central. Son las que tiene mayor sentido cuando los datos son simétricos o tienden a una
distribución simétrica.

Todas las medidas de dispersión consideran que, a mayor valor de la medida de dispersión, mayor
es la variabilidad.

39
Medidas de Dispersión Relativas

Por lo general están dadas por el cociente entre una medida de dispersión y una medida de
tendencia central y sirven para comparar la variabilidad de dos conjuntos de valores.

• Rango Intercuartílico Relativo: Resulta del cociente entre el rango intercuartílico y la


mediana, es decir,

𝑄3 − 𝑄1
𝐼𝑄 =
𝑀𝑑

Indica que tamaño tiene el rango intercuartílico con respecto a la mediana. Es una medida
independiente de las unidades de medida y resulta interesante para comparar la
variabilidad de diferentes variables.

• Coeficiente de Variación: Igual que el rango intercuartílico relativo, su utilidad estriba en


que permite comparar la dispersión o variabilidad de dos o más grupos. Indica el tamaño
relativo de la desviación estándar respecto a la media. Es la medida de dispersión relativa
de mayor uso y su fórmula de cálculo es:

𝑆
𝐶𝑉 = ∙ 100
𝑥̅

El coeficiente de variación se utiliza para comparar la homogeneidad de dos series de


datos, aun cuando estén expresados en distintas unidades de medida. A medida que el
Coeficiente de variación disminuye, se observa una mayor homogeneidad en los datos, es
decir, los datos están más concentrados alrededor del promedio.

Ejemplo: La siguiente tabla de frecuencias ordena 50 observaciones de edades de un grupo de


adolescentes universitarios aspirantes a una beca de estudio. Calcular todas las medidas de
dispersión absolutas y relativas

Edades
fi fri Fi Fri mi
(años)
[21-24) 4 0,08 4 0,08 22,5
[24-27) 8 0,16 12 0,24 25,5
[27-30) 12 0,24 24 0,48 28,5
[30-33) 15 0,30 39 0,78 31,5
[33-36) 6 0,12 45 0,90 34,5

40
[36-39) 5 0,10 50 1,00 37,5

• Rango o Recorrido: Es la diferencia del dato máximo con el dato mínimo. Como los datos
se presentan en tablas de frecuencia, el recorrido o rango se calcula con las marcas de
clase. Especificamnete, la diferencia entre la ultima marca de clase y la primera.

𝑅 = 37,5 − 22,5 = 15 𝑎ñ𝑜𝑠

Esto indica que la distancia máxima entre las distintas edades es de 15 años

• Recorrido Intercuartílico: Para el calculo de esta medida es necesario calcular el primer


y tercer cuartil:

12,5 − 12
𝐶1 = 27 + 3 = 27,125
12

37,5 − 24
𝐶3 = 30 + 3 = 32,7
15

El recorrido Intercuartílico queda: 𝐼𝑄𝑅 = 𝐶3 − 𝐶1 = 32,7 − 27,125 = 5,57 𝑎ñ𝑜𝑠. Eso quiere decir
que la distancia máxima del 50% central de los datos es de 5,57 años

• Desviación media: Para el calculo de la desviación media para datos ordenados en tablas
de frecuencias con intervalos. Debemos crear una nueva columna donde se calcule
|𝑚𝑖 − 𝑥̅ |. Para ello es necesario calcular la media

22,5 ∗ 4 + 25,5 ∗ 8 + 28,5 ∗ 12 + ⋯ + 37,5 ∗ 5 1503


𝑥̅ = = = 30,06 𝑎ñ𝑜𝑠
50 50

41
Edades
fi fri Fi Fri mi |𝑚𝑖 − 𝑥̅ | |𝑚𝑖 − 𝑥̅ | ∙ 𝑓𝑖
(años)
[21-24) 4 0,08 4 0,08 22,5 7,56 30,24
[24-27) 8 0,16 12 0,24 25,5 4,56 36,48
[27-30) 12 0,24 24 0,48 28,5 1,56 18,72
[30-33) 15 0,30 39 0,78 31,5 1,44 21,6
[33-36) 6 0,12 45 0,90 34,5 4,44 26,64
[36-39) 5 0,10 50 1,00 37,5 7,44 37,2

30,24 + 36,48 + 18,72 + ⋯ + 37,2 170,88


𝐷𝑀 = = = 3,41 𝑎ñ𝑜𝑠
50 50

La diferencia absoluta promedio de los datos con respecto a la media es de 3,41 años

• Varianza: para el calculo de la varianza, se debe calcular una columna para (𝑚𝑖 − 𝑥̅ )2 ∙ 𝑓𝑖

Edades
fi fri Fi Fri mi (𝑚𝑖 − 𝑥̅ )2 (𝑚𝑖 − 𝑥̅ )2 ∙ 𝑓𝑖
(años)
[21-24) 4 0,08 4 0,08 22,5 57,1536 228,6144
[24-27) 8 0,16 12 0,24 25,5 20,7936 249,5232
[27-30) 12 0,24 24 0,48 28,5 2,4336 58,4064
[30-33) 15 0,30 39 0,78 31,5 2,0736 80,8704
[33-36) 6 0,12 45 0,90 34,5 19,7136 887,112
[36-39) 5 0,10 50 1,00 37,5 55,3536 2767,68

228,61 + 249,52 + 58,40 + ⋯ + 2767,68 4272,20


𝑆2 = = = 85,44 𝑎ñ𝑜𝑠2
50 50

El promedio de las desviaciones al cuadrado de los datos y la media es 85,44 años cuadrado.
Interpretar esta medida es complicado porque la unidad de medida esta al cuadrado; por eso es
necesario el cálculo de la desviación estándar

𝑆 = √𝑆 2 = √85,44 = 9,24 𝑎ñ𝑜𝑠

El promedio de las desviaciones con respecto a la media es de aproximadamente 9,24 años.

42
• Coeficiente de variación:

𝑆 9,24
𝐶𝑉 = ∙ 100 = ∙ 100 = 30,7 %
𝑥̅ 30,06

Los datos tienen una variación del 30% esta medida relativa sin unidad de medida me permite
comparar.

Medidas de Forma

Hasta ahora, se han analizado y estudiado la tendencia, así como la dispersión de una distribución,
pero, parece evidente que es necesario conocer más sobre el comportamiento de una distribución.
En esta parte, se analizarán las medidas de forma. Las medidas de forma permiten comprobar si
una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de
concentración de datos o nivel de apuntamiento que la clasifiquen en un tipo particular de
distribución. Son medidas necesarias para determinar el comportamiento de los datos y así, poder
adaptar herramientas para el análisis probabilístico. Las medidas de forma de una distribución se
pueden clasificar en dos grandes grupos: medidas de asimetría y medidas de curtosis. Estas
medidas permiten evaluar la situación de los datos desde los ejes vertical (simetría) y horizontal
(curtosis).

Medidas de Asimetría La asimetría resulta conveniente en muchas situaciones. Muchos modelos


asumen una distribución normal, esto es, simétrica alrededor de la media. La distribución normal
tiene una asimetría cero. En el mundo real, los valores no son nunca perfectamente simétricos y
la asimetría de la distribución proporciona una idea sobre si las

desviaciones de la media son positivas o negativas. Una asimetría positiva implica que hay más
valores distintos a la derecha de la media. Las medidas de asimetría, junto a las medidas de
curtosis se utilizan para verificar si se puede aceptar que un conjunto de datos sigue la distribución
normal, lo que es necesario para realizar inferencia estadística.

Cuando el diagrama de líneas o histograma de frecuencias de una variable presenta una forma

acampanada, diremos que los datos tienen una distribución simétrica. En caso contrario, dicha
distribución será asimétrica o diremos que presenta asimetría. Ahora bien, comparando las
medidas de tendencia central, podemos establecer relaciones que permitan determinar la
presencia o no, de asimetría en un conjunto de datos. De esta forma podemos indicar que:

43
• Si x = Md = Mo la Distribución es simétrica.
• Si x < Md < Mo la Distribución es asimétrica negativa.
• Si x > Md > Mo la Distribución es asimétrica positiva.

Otra manera de evaluar la simetría de un conjunto de datos es calculando ciertos coeficientes de


asimetría. Las medidas de asimetría son indicadores que permiten establecer el grado de simetría
(o asimetría) que presenta una distribución de una variable aleatoria sin tener que hacer su
representación gráfica. Como base de simetría consideramos una recta paralela al eje de
ordenadas que pasa por la media de la distribución. Si existe el mismo número de valores a la
derecha que a la izquierda de la media y por lo tanto, el mismo número de desviaciones con signo
positivo que con signo negativo, se tiene una distribución es simétrica. Se dice que hay asimetría
positiva (o a la derecha) si la "cola" a la derecha de la media es más larga que la de la izquierda,
es decir, si hay valores más separados de la media a la derecha. En caso contrario, hay asimetría
negativa (o a la izquierda). En la siguiente figura se observa las diferentes formas de asimetría en
un conjunto de datos

• Coeficiente de Asimetría de Fisher: Para determinar el grado de asimetría de un conjunto


de datos una posibilidad es el coeficiente de Fisher, cuya fórmula de cálculo es:
∑𝑘𝑖=1(𝐶𝑖 − 𝑥̅ )3 . 𝑓𝑖
𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛𝑆 3
𝐴𝐹 =
∑𝑘𝑖=1(𝑚𝑖 − 𝑥̅ )3 . 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛𝑆 3

44
Si AF = 0 la Distribución es simétrica.
Si AF < 0 la Distribución es asimétrica negativa.
Si AF > 0 la Distribución es asimétrica positiva.

• Medidas de Apuntamiento o Curtosis.


Las medidas de apuntamiento o curtosis, miden el grado de apuntamiento o achatamiento de
la distribución en su parte central con respecto a la distribución normal, es decir, miden el
grado de concentración de datos en la región central. La distribución de probabilidad normal
tiene gran importancia al querer estudiar el apuntamiento o curtosis de la distribución de los
datos. Se dice que una distribución tiene un apuntamiento u otro, siempre en función de esta
distribución normal. La distribución normal, corresponde a fenómenos muy corrientes en la
naturaleza y cuya representación gráfica es una campana de Gauss. Esta campana responde
a una función matemática, que es la función de densidad de la distribución. Coeficiente de
Curtosis de Fisher: Permite medir el grado de apuntamiento de la distribución de un conjunto
de datos. Esta dada por:

∑𝑘𝑖=1(𝐶𝑖 − 𝑥̅ )4 . 𝑓𝑖
− 3 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙𝑒𝑠
𝑛𝑆 4
𝐶𝐹 =
∑𝑘𝑖=1(𝑚𝑖 − 𝑥̅ )4 . 𝑓𝑖
{ 𝑃𝑎𝑟𝑎 𝑐𝑙𝑎𝑠𝑒𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜
𝑛𝑆 4

Al comparar con la distribución normal, se tiene la siguiente interpretación:

• Si Cf > 0 la Distribución es leptocúrtica. Más apuntada que la normal


• Si Cf < 0 la Distribución es platicúrtica. Menos apuntada que la normal
• Si Cf = 0 la Distribución es mesocúrtica. Similar a la normal.

La siguiente figura muestra los diferentes tipos de curtosis

45
46

También podría gustarte