Documentos de Académico
Documentos de Profesional
Documentos de Cultura
pág. 2 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
- Variable cuantitativa. Aquella que podemos expresar numéricamente: edad, peso,
número de hijos, precio, duración de un viaje, etc. Ésta a su vez se subdivide en:
Variable discreta: aquella que entre dos valores próximos puede tomar a lo sumo un
número finito de valores, por ejemplo, el número de hijos de una familia, los trabajadores
de una agencia, el número de alumnos del instituto, el número de estrellas del hotel, etc.
Variable continua: la que puede tomar los infinitos valores de un intervalo. En muchas
ocasiones la diferencia es más teórica que práctica. Por ejemplo: peso, edad, distancias,
precios, etc.
La variable cuantitativa se denota por las mayúsculas de letras finales del alfabeto
castellano. A su vez, cada una de estas variables puede tomar distintos valores,
colocando un subíndice que indica el orden:
𝑋 = (𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘−1 , 𝑥𝑘 )
Si la variable es cualitativa se denota por las primeras letras del abecedario y, de nuevo,
las distintas modalidades se representan utilizando las minúsculas correspondientes.
Dato: Cada uno de los individuos, cosas o entes abstractos que integran una población
o universo determinado. Dicho de otra forma, cada valor observado de la variable. El dato
se denota por las minúsculas de las letras finales del alfabeto castellano.
Los datos pueden clasificarse en:
a) Datos de corte transversal: se trata de una o más variables para distintos individuos en
un mismo momento del tiempo. Suelen ser datos acerca de familias, empresas, etc. Con
este tipo de datos trabajaremos en las tres primeras unidades.
b) Datos temporales: Observaciones de una o más variables a intervalos regulares de
tiempo para un solo individuo. Se denominan series temporales. Este tipo de datos serán
tratados en la unidad cuatro.
c) Datos de panel: se trata de la combinación de los dos anteriores. Son diferentes
variables para los distintos individuos durante un cierto número de intervalos regulares
de tiempo.
Tabulación: frecuencias
Una vez tenemos la muestra confeccionada de forma adecuada, el siguiente paso es
organizar y tabular los datos. Para ello es necesario definir los siguientes conceptos:
- Frecuencia absoluta: llamaremos así al número de repeticiones que presenta una
observación. Se representa por 𝑛𝑖 .
- Frecuencia relativa: es la frecuencia absoluta dividida entre el número total de datos y
se suele expresar en tanto por uno, siendo el valor iésimo.
𝑛𝑖
𝑓𝑖 =
𝑛
La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad.
pág. 3 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
- Frecuencia absoluta acumulada: es la suma de los distintos valores de la frecuencia
absoluta tomando como referencia un individuo dado. La última frecuencia absoluta
acumulada es igual al número de casos:
𝑁1 = 𝑛1
𝑁2 = 𝑛1 + 𝑛2
𝑁𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑛−1 + 𝑛𝑛 = 𝑛
- Frecuencia relativa acumulada: es el resultado de dividir cada frecuencia absoluta
acumulada entre el número total de datos, y se suele representar con la notación: 𝐹𝑖
De igual forma, también se puede definir a partir de la frecuencia relativa, como suma de
los distintos valores de la frecuencia relativa, tomando como referencia un individuo dado.
La última frecuencia relativa acumulada es igual a la unidad.
Tabla de frecuencias para una variable discreta. La ordenación en la tabla, será:
xi ni Ni fi Fi
X1 n1 N1 f1 F1
X2 n2 N2 f2 F2
X3 n3 N f3 1
1
En cambio, cuando nos encontramos con un conjunto de datos o distribución con un gran
número de valores, se suelen agrupar las variables en intervalos para facilitar la
comprensión de los datos. Esta práctica tiene un claro inconveniente: se pierde
información sobre la propia distribución. Así tenemos intervalos donde:
[𝐿𝑖−1 , 𝐿𝑖 )
Se entiende por 𝐿𝑖−1 el extremo inferior del intervalo y por 𝐿𝑖 el extremo superior. Por
convenio, cerramos el intervalo a la izquierda y abrimos a la derecha.
Para operar utilizamos la marca de clase, el punto medio del intervalo. Para calcularla,
podemos definirla como el promedio de los valores extremos del intervalo: esto es sumar
los extremos, y dividir por dos.
La amplitud del intervalo, sería la longitud del mismo, y se representa por:
𝑎 = 𝐿𝑖 − 𝐿𝑖−1
Pero, ¿cómo obtener a partir de los datos continuos, una tabla de frecuencias agrupada?
Procederemos siguiendo estos pasos:
Decidiremos el número de intervalos: aproximadamente, entendemos la raíz
cuadrada del número de datos, redondeando, como el número de intervalos.
Recorrido: valor mayor, menos valor menor de los datos. 𝑅𝑒 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛
pág. 4 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
Amplitud del intervalo: división entre el recorrido y el número de intervalos que
hayamos decidido. Se puede redondear:
𝑅𝑒
𝑎𝑖 =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠
Ejemplo 1
En 2017 un nuevo hotel abre sus puertas en cierta ciudad. Antes de decidir el precio de
sus habitaciones, el gerente investiga los precios por habitación y noche de 40 hoteles
de la misma categoría de esa ciudad. Estos datos fueron:
1990 2110 2500 2500 1000 1250 1300 1980 2250 1800
1900 2000 1500 1750 1100 1000 1000 1600 1600 1700
1050 1700 1650 1500 1450 1500 1900 2200 2100 1900
2000 2000 2200 1200 1300 1350 1500 1400 1900 1850
𝑥̅ = ∑ 𝑥𝑖 . 𝑓𝑖
𝑖=1
pág. 5 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
𝑛
∑(𝑥𝑖 − 𝑥̅ )
𝑖=1
Cuando hay un número impar de valores de la variable, la mediana será justo el valor de
𝑛
orden central, aquél cuya frecuencia absoluta acumulada coincida con 2.
El problema surge cuando hay un número par de valores de la variable. En este caso,
para obtener la mediana realizaremos el siguiente cálculo:
𝑥𝑖 + 𝑥𝑖+1
𝑀𝑒 =
2
En distribuciones agrupadas. El primer paso consiste en determinar el intervalo mediano
[𝐿𝑖 , 𝐿𝑖+1 [. La forma de hacerlo será calcular el valor de la mitad de n, y observar qué
𝑛
intervalo tiene una frecuencia absoluta acumulada que cumpla 𝑁𝑖−1 < 2 < 𝑁𝑖
Moda
Será el valor de la variable que más veces se repite, es decir, el valor que tenga mayor
frecuencia absoluta.
Pueden existir distribuciones con más de una moda: bimodales, trimodales, etc.
En las distribuciones sin agrupamiento, la obtención de la moda es inmediata.
En distribuciones cuantitativas continuas se procede del siguiente modo:
1) Se determina el o los mayores valores de la variable. El intervalo que corresponde a
la mayor frecuencia absoluta se denomina intervalo modal.
𝑓𝑖+1
2) Se calcula el modo reemplazando en la fórmula 𝑀𝑜 = 𝐿𝑖−1 + 𝑓 .𝑐
𝑖−1 +𝑓𝑖+1
Donde:
𝐿𝑖−1 : extremo inferior del intervalo modal
𝑓𝑖+1: frecuencia absoluta posterior a la mayor frecuencia absoluta
𝑓𝑖−1: frecuencia absoluta anterior a la mayor frecuencia absoluta
𝑐: amplitud del intervalo modal
pág. 7 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
Cuantiles
Son medidas de localización similares a las anteriores. Se las denomina cuantiles (Q).
Su función es informar del valor de la variable que ocupará la posición (en tanto por
ciento) que nos interese respecto de todo el conjunto de variables. De hecho, la mediana,
como se podrá intuir más adelante, ya era una medida de posición.
Podemos decir que los cuantiles son unas medidas de posición que dividen la distribución
en un cierto número de partes iguales, de manera que en cada una de ellas haya el
mismo porcentaje de valores de la variable.
Las más importantes son:
- Cuartiles: dividen a la distribución en cuatro partes iguales (tres divisiones). 𝐶1 , 𝐶2 , 𝐶3 ,
correspondientes al 25%, 50% y 75% de las observaciones.
- Deciles: dividen la distribución en diez partes iguales (nueve divisiones). 𝐷1 , 𝐷2 , … , 𝐷9 ,
Correspondientes a 10%, 20%, …, 90% de las observaciones.
- Percentiles: cuando dividen a la distribución en cien partes (99 divisiones). 𝑃1 , 𝑃2 , … , 𝑃99
correspondientes al 1%, 2%, …, 99% de las observaciones.
A continuación, mostramos el gráfico de una curva de frecuencias donde se observan los
cuartiles y las correspondientes divisiones (los gráficos correspondientes a los deciles y
percentiles son parecidos pero con otras divisiones):
𝑗.𝑛
𝐷𝑗 º = ,𝑑𝑜𝑛𝑑𝑒 𝑗 = 1,2 … , 9
10
𝑗.𝑛
𝑃𝑗 º = 100 , 𝑑𝑜𝑛𝑑𝑒 𝑗 = 1, 2, … , 99
𝑗. 𝑛
− 𝐹𝐴𝐻
𝐷𝑗 = 𝐿𝑖−1 + 10 .𝑐
𝑛𝑖
𝑗. 𝑛
− 𝐹𝐴𝐻
𝑃𝑗 = 𝐿𝑖−1 + 100 .𝑐
𝑛𝑖
pág. 9 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
EJEMPLO 4
En 2019 un nuevo hotel abre sus puertas en cierta ciudad. Antes de decidir el precio de
sus habitaciones, el gerente investiga los precios por habitación y noche de 40 hoteles
de la misma categoría de esa ciudad. Los datos obtenidos fueron:
3900 4700 3700 5600 4300 4900 5000 6100 5100 4500
5300 3900 4300 5000 6000 4700 5100 4200 4400 5800
3300 4300 4100 5800 4400 4800 6100 4300 5300 4500
4000 5400 3900 4700 3300 4500 4700 4200 4500 4800
pág. 10 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
MÉTODOS DE ORDENAMIENTO Y PRESENTACIÓN DE DATOS
Existen muchas formas de presentar los datos, entre ellas el uso de tablas, diagramas y
gráficas. Los mismos deben ser concisos, informativos, fáciles de leer y comprender:
Las series de tiempo o cronológicas, resultan de la ordenación de una variable
en sucesivos períodos de tiempo. Por ejemplo, como se detalla en el cuadro:
Título: Llegadas de turistas Internacionales a la ciudad de Misiones
pág. 11 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
LLEGADAS DE TURISTAS INTERNACIONALES (en
millones de turistas)
1400
1200
1000
800
600
400
200
0
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Gráfico de barras: Se trazan rectángulos (barras) sobre una misma línea de base. La
base de los rectángulos es la misma para todas y la altura es proporcional a las
observaciones que corresponden a cada modalidad (atributo cualitativo) o a cada
variante (variable). Las barras pueden ser enteras o subdivididas. La base de la barra no
debe ser del mismo ancho que la separación entre barras. No conviene cuando la
información es numerosa. Los valores pueden ser absolutos o porcentuales. En la figura
la gráfica para la serie dada.
Título: Llegadas de turistas Internacionales a la ciudad de Misiones
LLEGADAS DE TURISTAS
INTERNACIONALES (en millones de
turistas)
1400
1200 1.323
1.235
1000 1.088 1.134 1.184
994 1.040
800 911 928 950
892
600
400
200
0
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
pág. 12 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
Diagrama polar: Se utiliza especialmente para destacar la influencia que tienen las
estaciones sobre el fenómeno en estudio. Se dibuja una circunferencia cuyo radio es
proporcional al promedio de las observaciones consideradas.
Ejemplo:
MESES Y(t)
Enero 303.000
Febrero 203.400
Marzo
…
Diciembre
------------
Total
a) Total/12 = Promedio
b) Escala
c) Trazar circunferencia
d) Se divide el ángulo central (360º) en tantos ángulos como modalidades se consideran
e) Trazar sobre cada vector el segmento que corresponda en forma proporcional a la clase
que representa.
pág. 13 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
Turismo receptivo en Argentina - Año 2019
Enero*
350.000
Diciembre* 300.000 Febrero*
250.000
Noviembre* 200.000 Marzo*
150.000
100.000
50.000
Octubre* 0 Abril*
Septiembre* Mayo*
Agosto* Junio*
Julio*
Gráfico circular o de sectores: Se utiliza para datos cualitativos, es una forma sencilla
de resumir y presentar los resultados que se expresan en porcentaje.
Ejemplo:
Turismo receptivo. Distribución de los turistas según residencia habitual. Aeropuerto
Internacional de Córdoba. Cuarto trimestre de 2018
pág. 14 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
TURISMO RECEPTIVO - AEROPUERTO
INTERNACIONAL DE CÓRDOBA - CUARTO
TRIMESTE 2018
14%
pág. 15 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
EDADES DE LOS ALUMNOS DE 1º T
9
8
7
6
5
4
3
2
1
0
17 18 19 20 21 22 23 29 43
Histograma
Igual que el anterior en cuanto al tipo de frecuencias que se pueden utilizar. La diferencia
es que ésta es para variables continuas. Se trazan barras unidas, a altura igual a la
frecuencia correspondiente.
Ejemplo: Las edades de los alumnos de 2º H cuando construimos un cuadro de
distribución de frecuencias con variable continua, presenta el siguiente histograma.
Cuando se marcan los puntos medios de los extremos superiores de cada una de las
barras, un punto sobre el eje de abscisas (eje x) antes de la primer barra y un punto sobre
pág. 16 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
el eje de abscisas después de la última barra y se unen todos los puntos, se obtiene el
polígono de frecuencias.
Sobre el polígono de frecuencias (suavizando las puntas) se obtiene la curva de
frecuencias. Si esta curva de frecuencias es simétrica se obtiene lo que se llama
campana de Gauss o curva de Gauss.
pág. 17 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
Llamaremos dispersión o variabilidad a la mayor o menor separación de los valores de
la muestra respecto de las medidas de centralización (mediana, promedio o modo) que
hayamos calculado.
Al calcular una medida de centralización como la media aritmética, resulta necesario
acompañarla de otra medida que indique el grado de dispersión del resto de los valores
de la distribución, respecto de esta media. A estas cantidades o coeficientes, les
llamamos: medidas de variabilidad y dispersión.
Las medidas de dispersión son un complemento necesario a las medidas de
centralización por cuanto se complementa la información del valor alrededor del cual se
mueven los datos con la información de si éstos oscilan siempre cerca de dicho valor o
suelen estar en posiciones alejadas a este valor, tanto mayores como menores.
Las principales medidas de dispersión son las siguientes:
Recorrido: Se define como la diferencia entre el mayor y menor valor de las
variables de la distribución.
𝑅𝑒 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛
1
Análogamente se puede definir la desviación media respecto de la media aritmética.
pág. 18 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
Desviación típica o desviación standart: La desviación típica o desviación
standart (estándar) es la raíz cuadrada de la varianza. Se representa como S, y
tiene la siguiente expresión:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 . 𝑛𝑖
√ 2
𝑆=+ 𝑆 =+ √
𝑛
Si operamos, podemos obtener la siguiente expresión, que es mucho más sencilla
de operar, y obtenemos menos error de redondeo:
∑𝑛 (𝑥𝑖 − 𝑥̅ )2 . 𝑛𝑖 ∑𝑛 𝑥𝑖 2 . 𝑛𝑖
𝑆 = +√𝑆 2 = +√ 𝑖=1 = √ 𝑖=1 − 𝑥̅ 2
𝑛 𝑛
Propiedades de la varianza
1. Es siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0
solamente cuando 𝑥𝑖 = 𝑥̅ ∀𝑖
2. La varianza es la medida de dispersión cuadrática óptima por ser la menor de
todas.
3. Si a todos los valores de la variable se le suma una constante, la varianza no se
modifica.
4. Si a todos los valores de la variable se multiplican por una constante, la varianza
queda multiplicada por el cuadrado de dicha constante.
Propiedades de la desviación standart
A su vez la desviación típica o desviación standart también tiene una serie de
propiedades que se deducen fácilmente de las de la varianza.
1. La desviación típica es siempre un valor no negativo. S será siempre mayor o igual a
0 por definición. Cuando 𝑆 = 0 ⇒ 𝑋 = 𝑥𝑖 (para todo i).
2. Es la medida de dispersión óptima por ser la más pequeña.
3. Si a todos los valores de la variable se les suma una misma constante, la desviación
típica no varía.
4. Si todos los valores de la variable se multiplican por una misma constante, la
desviación típica queda multiplicada por el valor absoluto de dicha constante.
El problema de las medidas de dispersión absolutas, como son todas las anteriores, es
que normalmente son un indicador que nos da problemas a la hora de comparar
muestras de variables, pues es posible que entre sí no tengan cantidades en las mismas
unidades, de ahí que en ocasiones se recurra a medidas de dispersión relativa. El
coeficiente de variación de Pearson es una de las más significativas y lo podemos definir
como el cociente entre la desviación típica y la media aritmética de la distribución.
Es necesario tener en cuenta que al efectuar el cociente eliminamos las unidades, por
tanto, V es adimensional.
pág. 19 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
𝑆
𝑉𝑥 =
𝑥̅
Cuando 𝑉𝑥 < 𝑉𝑦 significa que X es más representativa que Y, o que la media de X
representa mejor a su distribución que la media de Ya la suya.
Por convención, se considera que la dispersión es óptima si 𝑉𝑥 es igual o menor a 0,3.
pág. 20 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )3 . 𝑛𝑖
𝑔1 =
𝑛𝑆 3
Según sea el valor de 𝑔1 , diremos que la distribución es asimétrica a derechas (o
positiva), a izquierdas (o negativa), o simétrica, es decir:
- Si 𝑔1 > 0 entonces la distribución será asimétrica positiva o a derechas
(desplazada hacia la derecha).
- Si 𝑔1 < 0 entonces la distribución será asimétrica negativa o a izquierdas
(desplazada hacia la izquierda).
- Si 𝑔1 = 0 entonces la distribución será simétrica.
También pueden utilizarse otros coeficientes de sesgo, como los coeficientes de sesgo
de PEARSON, que responde a la siguiente expresión:
𝑥̅ − 𝑀𝑜
𝐴𝑝 =
𝑆
- Si 𝐴𝑝 > 0 entonces la distribución será asimétrica positiva o a derechas
(desplazada hacia la derecha).
- Si 𝐴𝑝 < 0 entonces la distribución será asimétrica negativa o a izquierdas
(desplazada hacia la izquierda).
- Si 𝐴𝑝 = 0 entonces la distribución será simétrica.
La ley normal
Para la teoría que sigue se hace necesario conocer la distribución normal, ya que tiene
gran importancia al querer estudiar el apuntamiento o curtosis. Se dice que una
distribución tiene un apuntamiento u otro, siempre en función de esta distribución normal.
La distribución llamada normal, corresponde a fenómenos muy corrientes en la
naturaleza y cuya representación gráfica es una campana de Gauss. Esta campana
responde a una función matemática, de densidad de la distribución:
pág. 21 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
Medidas de curtosis o apuntamiento
La curtosis es el mayor o menor apuntamiento de la curva de frecuencias respecto de la
curva Normal o de Gauss.
Para calcular la curtosis usaremos la expresión:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )4 . 𝑛𝑖
𝑔2 = −3
𝑛𝑆 4
- Si 𝑔2 > 0, la distribución será leptocúrtica o apuntada.
- Si 𝑔1 < 0, la distribución será platicúrtica o menos apuntada que lo normal.
- Si 𝑔1 = 0, la distribución será mesocúrtica o normal.
pág. 22 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce