Apunte de Estadística

ESTADÍSTICA
Es la ciencia que trata, por una parte, de la recolección, organización, resumen,

presentación, análisis, generalización y contraste de los resultados de las observaciones
de los fenómenos reales y por otra de estudiar las leyes de comportamiento de los
fenómenos que no están sometidos a leyes rígidas (dependen del azar) con el fin de
inferir o inducir leyes generales de comportamiento para una población a partir de una
muestra.
La primera parte de la definición anterior corresponde a la Estadística Descriptiva y la
segunda parte corresponde a la Estadística inductiva o inferencia estadística.
Población y muestra. Tipos de muestreo
Para introducirnos en la estadística descriptiva es necesario conocer un conjunto de
conceptos previos que son necesarios tener presentes en todo momento.
Se entiende por población el conjunto de elementos, individuos o entes sujetos a estudio
y de los cuales queremos obtener un resultado.
Otros conceptos son:
- Muestra: subconjunto de elementos que forman parte de la población. La muestra
representa a esta población.
- Tamaño muestral: número de elementos u observaciones que tomamos. Se denota por
n o N.
Existen diversas técnicas para elegir una muestra significativa. Para evitar la influencia
de factores externos al colectivo, la selección de los elementos de la muestra en todas
ellas se realiza mediante el azar.
La determinación de una muestra puede realizarse según dos procedimientos: muestras
aleatorias o probabilísticas y muestras no aleatorias o empíricas. Dentro de cada tipo de
muestra se pueden distinguir diferentes clases.
Son muestras aleatorias o probabilísticas, las siguientes:
- Muestras aleatorias simples. En cada caso cada elemento tiene la misma probabilidad
de ser elegido como parte de la muestra. Se subdividen en muestras irrestrictamente
aleatorias o muestras con reemplazamiento.
- Muestras estratificadas. Cuando se conocen determinadas características del universo,
se lo divide en estratos y dentro de cada estrato se realiza una selección al azar. Tiene
por objeto mejorar la representatividad de la muestra. La afijación (reparto de la muestra
en cada estrato) se puede realizar de la siguiente manera: a) que cada estrato tenga una
muestra del mismo tamaño (afijación uniforme); que la muestra sea proporcional al
número de elementos de cada estrato (afijación proporcional); o que la muestra de cada
estrato sea proporcional al número de elementos y a la desviación standart (afijación
óptima).
pág. 1 Estadística
Instituto Superior Particular Incorporado Nº 4044 “SOL”
Profesor Miguel Angel Ponce
- Muestras de áreas o de superficie. Es una muestra estratificada en la que las unidades
de muestreo elementales son sustituidas por un conjunto de las mismas ubicadas en un
espacio determinado. No se sortean personas sino áreas determinadas en las que se
recopila la información deseada.
- Muestras por racimos. Este término designa diferentes procedimientos similares. El
principio básico consiste en que en vez de seleccionar cada uno de los elementos de la
muestra se seleccionan grupos de elementos, racimos de elementos.
- Muestras de varios grados. Se procede a recoger racimos, es decir, grupos de
elementos, por muestreo simple. Después se determina dentro de cada racimo las
unidades que deben ser interrogadas, estableciéndose los sub-racimos. En este caso se
trata de una muestra de dos grados. Si una vez sorteados los sub-racimos, se los vuelve
a sortear, se tendrá una muestra de tres grados, y así sucesivamente.
- Muestra a partir de registros o listas. Se parte de anuarios, registros, listas, etc. Y se
escogen los elementos de n en n a partir de uno escogido al azar.
- Muestras de varias fases o etapas. Difieren en cuanto a la técnica de las muestras de
varios grados. Consiste en la combinación de varias muestras que se realizan sobre
fracciones variables del universo de estudio. Primero se obtiene una muestra muy amplia
sobre la que se aplica una encuesta rápida (primera fase). Se obtiene una muestra más
reducida que es objeto de una encuesta más profunda (segunda fase).
Las muestras no aleatorias o empíricas se basan en el juicio del investigador. Entre este
tipo de muestras cabe mencionar a las siguientes:
- Muestra por cuotas o proporcionales. Se establecen cuotas proporcionales al universo
de las diferentes categorías del mismo. Por ejemplo, si se sabe que el 45 % de la
población económicamente activa se desempeña en tareas indirectamente relacionadas
con el turismo, el 30 % está empleado en el sector de turismo y el 25 % no tiene ninguna
relación.
- Muestras razonadas o intencionadas. El investigador selecciona intencionalmente – no
al azar- algunas categorías que considera representativas del fenómeno que estudia. En
este tipo de muestras se producen distorsiones debidas a la subjetividad del investigador.
Variables estadísticas. Tipos

De esa población que estamos conociendo es probable que haya alguna característica
que sea de nuestro interés. Entendemos por variable esta característica que estamos
midiendo.
Existen categorías o tipo de variables:
- Variable cualitativa. Aquella que expresa que un atributo o característica: el color del
cabello, el estado civil, el sexo, la profesión de un individuo, el tipo de transporte que
elige en un viaje, etc.
- Variable cuantitativa. Aquella que podemos expresar numéricamente: edad, peso,
número de hijos, precio, duración de un viaje, etc. Ésta a su vez se subdivide en:
 Variable discreta: aquella que entre dos valores próximos puede tomar a lo sumo un
número finito de valores, por ejemplo, el número de hijos de una familia, los trabajadores
de una agencia, el número de alumnos del instituto, el número de estrellas del hotel, etc.
 Variable continua: la que puede tomar los infinitos valores de un intervalo. En muchas
ocasiones la diferencia es más teórica que práctica. Por ejemplo: peso, edad, distancias,
precios, etc.
La variable cuantitativa se denota por las mayúsculas de letras finales del alfabeto
castellano. A su vez, cada una de estas variables puede tomar distintos valores,
colocando un subíndice que indica el orden:
𝑋 = (𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑘−1 , 𝑥𝑘 )
Si la variable es cualitativa se denota por las primeras letras del abecedario y, de nuevo,
las distintas modalidades se representan utilizando las minúsculas correspondientes.
Dato: Cada uno de los individuos, cosas o entes abstractos que integran una población
o universo determinado. Dicho de otra forma, cada valor observado de la variable. El dato
se denota por las minúsculas de las letras finales del alfabeto castellano.
Los datos pueden clasificarse en:
a) Datos de corte transversal: se trata de una o más variables para distintos individuos en
un mismo momento del tiempo. Suelen ser datos acerca de familias, empresas, etc. Con
este tipo de datos trabajaremos en las tres primeras unidades.
b) Datos temporales: Observaciones de una o más variables a intervalos regulares de
tiempo para un solo individuo. Se denominan series temporales. Este tipo de datos serán
tratados en la unidad cuatro.
c) Datos de panel: se trata de la combinación de los dos anteriores. Son diferentes
variables para los distintos individuos durante un cierto número de intervalos regulares
de tiempo.
Tabulación: frecuencias
Una vez tenemos la muestra confeccionada de forma adecuada, el siguiente paso es
organizar y tabular los datos. Para ello es necesario definir los siguientes conceptos:
- Frecuencia absoluta: llamaremos así al número de repeticiones que presenta una
observación. Se representa por 𝑛𝑖 .
- Frecuencia relativa: es la frecuencia absoluta dividida entre el número total de datos y
se suele expresar en tanto por uno, siendo el valor iésimo.
𝑛𝑖
𝑓𝑖 =
𝑛
La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad.
- Frecuencia absoluta acumulada: es la suma de los distintos valores de la frecuencia
absoluta tomando como referencia un individuo dado. La última frecuencia absoluta
acumulada es igual al número de casos:
𝑁1 = 𝑛1
𝑁2 = 𝑛1 + 𝑛2
𝑁𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑛−1 + 𝑛𝑛 = 𝑛
- Frecuencia relativa acumulada: es el resultado de dividir cada frecuencia absoluta
acumulada entre el número total de datos, y se suele representar con la notación: 𝐹𝑖
De igual forma, también se puede definir a partir de la frecuencia relativa, como suma de
los distintos valores de la frecuencia relativa, tomando como referencia un individuo dado.
La última frecuencia relativa acumulada es igual a la unidad.
Tabla de frecuencias para una variable discreta. La ordenación en la tabla, será:
xi ni Ni fi Fi
X1 n1 N1 f1 F1
X2 n2 N2 f2 F2
X3 n3 N f3 1
1
En cambio, cuando nos encontramos con un conjunto de datos o distribución con un gran
número de valores, se suelen agrupar las variables en intervalos para facilitar la
comprensión de los datos. Esta práctica tiene un claro inconveniente: se pierde
información sobre la propia distribución. Así tenemos intervalos donde:
[𝐿𝑖−1 , 𝐿𝑖 )
Se entiende por 𝐿𝑖−1 el extremo inferior del intervalo y por 𝐿𝑖 el extremo superior. Por
convenio, cerramos el intervalo a la izquierda y abrimos a la derecha.
Para operar utilizamos la marca de clase, el punto medio del intervalo. Para calcularla,
podemos definirla como el promedio de los valores extremos del intervalo: esto es sumar
los extremos, y dividir por dos.
La amplitud del intervalo, sería la longitud del mismo, y se representa por:
𝑎 = 𝐿𝑖 − 𝐿𝑖−1
Pero, ¿cómo obtener a partir de los datos continuos, una tabla de frecuencias agrupada?
Procederemos siguiendo estos pasos:
 Decidiremos el número de intervalos: aproximadamente, entendemos la raíz
cuadrada del número de datos, redondeando, como el número de intervalos.
 Recorrido: valor mayor, menos valor menor de los datos. 𝑅𝑒 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛
 Amplitud del intervalo: división entre el recorrido y el número de intervalos que
hayamos decidido. Se puede redondear:
𝑅𝑒
𝑎𝑖 =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠
Ejemplo 1
En 2017 un nuevo hotel abre sus puertas en cierta ciudad. Antes de decidir el precio de
sus habitaciones, el gerente investiga los precios por habitación y noche de 40 hoteles
de la misma categoría de esa ciudad. Estos datos fueron:
1990 2110 2500 2500 1000 1250 1300 1980 2250 1800
1900 2000 1500 1750 1100 1000 1000 1600 1600 1700
1050 1700 1650 1500 1450 1500 1900 2200 2100 1900
2000 2000 2200 1200 1300 1350 1500 1400 1900 1850
a) ¿Cuál es la población objeto de estudio? ¿Qué variable estamos estudiando? ¿Qué

tipo de variable es?
b) Construir el cuadro de distribución de frecuencias
Medidas de posición y tendencia central
Comenzamos a resumir los datos. Para ello utilizaremos las medidas de posición y
tendencia central, y las más importantes son: media aritmética o promedio, mediana
y moda. Todas estas medidas pretenden ofrecernos una idea de en torno a qué valor se
mueven los datos.
Media aritmética o promedio
La media aritmética es el promedio de los valores de la variable entre el número total de
datos observados.)
𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖
𝑥̅ = =
𝑛 𝑛
𝑛𝑖
Como 𝑓𝑖 = otra posible expresión será:
𝑁
𝑛
𝑥̅ = ∑ 𝑥𝑖 . 𝑓𝑖
𝑖=1
A continuación resaltaremos un conjunto de propiedades de la media aritmética:

Propiedad 1. La suma de las desviaciones de los valores de la variable con respecto a
la media aritmética es 0.
Esta propiedad resulta de operar la siguiente expresión:
𝑛
∑(𝑥𝑖 − 𝑥̅ )
𝑖=1
Propiedad 2. Si a todos los valores de la variable se le suma una misma cantidad, la

media aritmética queda aumentada en dicha cantidad.
Supongamos que tenemos una variable x de la que conocemos su media. Utilizando esta
variable calculamos otra variable a partir de la anterior de la siguiente forma: 𝑦𝑖 = 𝑥𝑖 + 𝑘.
La media aritmética de esta segunda variable será: 𝑦̅ = 𝑥̅ + 𝑘
Propiedad 3. Si a todos los valores de la variable se multiplican por una misma constante
la media aritmética queda multiplicada por dicha constante.
Corolario
La media aritmética se denomina también centro de gravedad de la distribución. Si
una variable es transformación lineal de otra variable (suma de un número y
multiplicación por otro), la media aritmética de la primera variable sigue la misma
transformación lineal con respecto a la media aritmética de la segunda variable, siendo
𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏, donde a y b son números reales.
𝑦̅ = 𝑎𝑥̅ + 𝑏
Mediana
La mediana, o valor mediano, será el valor de la variable que ocupa el lugar central, que
separa en dos partes iguales los valores de las variables, ordenadas de menor a mayor.
Por tanto, es una cantidad que nos indica orden dentro de la ordenación.
𝑛
El lugar que ocupa se determina dividiendo el número total de valores entre 2 2
Cuando hay un número impar de valores de la variable, la mediana será justo el valor de
𝑛
orden central, aquél cuya frecuencia absoluta acumulada coincida con 2.
El problema surge cuando hay un número par de valores de la variable. En este caso,
para obtener la mediana realizaremos el siguiente cálculo:
𝑥𝑖 + 𝑥𝑖+1
𝑀𝑒 =
2
En distribuciones agrupadas. El primer paso consiste en determinar el intervalo mediano
[𝐿𝑖 , 𝐿𝑖+1 [. La forma de hacerlo será calcular el valor de la mitad de n, y observar qué
𝑛
intervalo tiene una frecuencia absoluta acumulada que cumpla 𝑁𝑖−1 < 2 < 𝑁𝑖
Después de saberlo, haremos el siguiente cálculo:

𝑛
− 𝐹𝐴𝐻
𝑀𝑒 = 𝐿𝑖−1 + 2 .𝑐
𝑛𝑖
Como ventajas de la mediana se observa la utilidad en presencia de valores extremos
que influencien a la media y su bondad para variables cuantitativas discretas. En cambio,
se trata de una medida que no utiliza todos los datos para su cálculo (aunque sí su orden)
y que depende del orden y no del valor de los datos.
Pasos para determinar la mediana:
𝑛
1) Se terminar el grado de la mediana calculando 2
𝑛
2) El valor obtenido ( 2) se busca en la columna de las frecuencias absolutas acumuladas
del cuadro de distribución de frecuencias (este valor me sirve como referencia para
determinar todos los valores de la fórmula de la mediana). El intervalo de clase que
que corresponde a este valor recibe el nombre de intervalo mediano.
3) Se reemplazan en la fórmula:
𝑛
− 𝐹𝐴𝐻
𝑀𝑒 = 𝐿𝑖−1 + 2 .𝑐
𝑛𝑖
𝐿𝑖−1 : el extremo inferior del intervalo mediano
𝐹𝐴𝐻 : frecuencia absoluta acumulada anterior a la frecuencia absoluta acumulada que se
toma como referencia
𝑓𝑖 : frecuencia absoluta correspondiente al intervalo mediano
𝑐: amplitud del intervalo mediano
Moda
Será el valor de la variable que más veces se repite, es decir, el valor que tenga mayor
frecuencia absoluta.
Pueden existir distribuciones con más de una moda: bimodales, trimodales, etc.
En las distribuciones sin agrupamiento, la obtención de la moda es inmediata.
En distribuciones cuantitativas continuas se procede del siguiente modo:
1) Se determina el o los mayores valores de la variable. El intervalo que corresponde a
la mayor frecuencia absoluta se denomina intervalo modal.
𝑓𝑖+1
2) Se calcula el modo reemplazando en la fórmula 𝑀𝑜 = 𝐿𝑖−1 + 𝑓 .𝑐
𝑖−1 +𝑓𝑖+1
Donde:
𝐿𝑖−1 : extremo inferior del intervalo modal
𝑓𝑖+1: frecuencia absoluta posterior a la mayor frecuencia absoluta
𝑓𝑖−1: frecuencia absoluta anterior a la mayor frecuencia absoluta
𝑐: amplitud del intervalo modal
Cuantiles
Son medidas de localización similares a las anteriores. Se las denomina cuantiles (Q).
Su función es informar del valor de la variable que ocupará la posición (en tanto por
ciento) que nos interese respecto de todo el conjunto de variables. De hecho, la mediana,
como se podrá intuir más adelante, ya era una medida de posición.
Podemos decir que los cuantiles son unas medidas de posición que dividen la distribución
en un cierto número de partes iguales, de manera que en cada una de ellas haya el
mismo porcentaje de valores de la variable.
Las más importantes son:
- Cuartiles: dividen a la distribución en cuatro partes iguales (tres divisiones). 𝐶1 , 𝐶2 , 𝐶3 ,
correspondientes al 25%, 50% y 75% de las observaciones.
- Deciles: dividen la distribución en diez partes iguales (nueve divisiones). 𝐷1 , 𝐷2 , … , 𝐷9 ,
Correspondientes a 10%, 20%, …, 90% de las observaciones.
- Percentiles: cuando dividen a la distribución en cien partes (99 divisiones). 𝑃1 , 𝑃2 , … , 𝑃99
correspondientes al 1%, 2%, …, 99% de las observaciones.
A continuación, mostramos el gráfico de una curva de frecuencias donde se observan los
cuartiles y las correspondientes divisiones (los gráficos correspondientes a los deciles y
percentiles son parecidos pero con otras divisiones):
¿Cómo se calculan los cuantiles?

Hay que distinguir si la distribución cuantitativa es discreta o si es continua.
Si la distribución cuantitativa es discreta se procede del siguiente modo:
1) Se ordenan de menor a mayor los datos.
2) Se separan los valores observados según el cuantil que se debe calcular. Veamos un
ejemplo. Consideremos las edades de los alumnos de 2º H:
1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2
8 8 8 9 9 9 9 9 0 0 0 1 2 3 4 4 4 4 6 9 9
Calcular e interpretar el cuartil-1
Solución
Para calcular los cuartiles tenemos que dividir la distribución en 4 partes con el mismo
número de observaciones:
1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2
8 8 8 9 9 9 9 9 0 0 0 1 2 3 4 4 4 4 6 9 9
Entonces el Cuartil-1 es el promedio de los valores marcados en celeste, o sea
19+19
𝐶1 = 2 =19
El Cuartil-2 o la Mediana es el que está marcado en amarillo o sea 20
El Cuartil-3 es el que está marcado en rojo o sea 24
Si la distribución cuantitativa es continua se procede del siguiente modo:
1) Se calcula el grado del cuantil:
𝑗.𝑛
𝐶𝑗 º = , donde 𝑗 = 1,2,3
4
𝑗.𝑛
𝐷𝑗 º = ,𝑑𝑜𝑛𝑑𝑒 𝑗 = 1,2 … , 9
10
𝑗.𝑛
𝑃𝑗 º = 100 , 𝑑𝑜𝑛𝑑𝑒 𝑗 = 1, 2, … , 99
2) El valor obtenido en el punto anterior se busca en la columna de las frecuencias

absolutas acumuladas del cuadro de distribución de frecuencias (este valor me sirve
como referencia para determinar todos los valores de la fórmula de la mediana).
3) Se determina el cuantil correspondiente aplicando la fórmula correspondiente:
𝑗. 𝑛
− 𝐹𝐴𝐻
𝐶𝑗 = 𝐿𝑖−1 + 4 .𝑐
𝑛𝑖
𝑗. 𝑛
− 𝐹𝐴𝐻
𝐷𝑗 = 𝐿𝑖−1 + 10 .𝑐
𝑛𝑖
𝑗. 𝑛
− 𝐹𝐴𝐻
𝑃𝑗 = 𝐿𝑖−1 + 100 .𝑐
𝑛𝑖
EJEMPLO 4
En 2019 un nuevo hotel abre sus puertas en cierta ciudad. Antes de decidir el precio de
sus habitaciones, el gerente investiga los precios por habitación y noche de 40 hoteles
de la misma categoría de esa ciudad. Los datos obtenidos fueron:
3900 4700 3700 5600 4300 4900 5000 6100 5100 4500
5300 3900 4300 5000 6000 4700 5100 4200 4400 5800
3300 4300 4100 5800 4400 4800 6100 4300 5300 4500
4000 5400 3900 4700 3300 4500 4700 4200 4500 4800
a) Construir el cuadro de distribución de frecuencias considerando la variable como

cuantitativa continua.
b) Interpretar:
 La frecuencia absoluta del 2º intervalo
 La frecuencia relativa porcentual de 3º intervalo
 La frecuencia absoluta acumulada del 4º intervalo
c) Calcular e interpretar las medidas de posición (mediana, media aritmética y modo).
d) Calcular e interpretar un parámetro que deje el 70% de las observaciones a su
izquierda.
e) Calcular e interpretar un parámetro que deje el 75% de las observaciones a su
derecha.
MÉTODOS DE ORDENAMIENTO Y PRESENTACIÓN DE DATOS
Existen muchas formas de presentar los datos, entre ellas el uso de tablas, diagramas y
gráficas. Los mismos deben ser concisos, informativos, fáciles de leer y comprender:
Las series de tiempo o cronológicas, resultan de la ordenación de una variable
en sucesivos períodos de tiempo. Por ejemplo, como se detalla en el cuadro:
Título: Llegadas de turistas Internacionales a la ciudad de Misiones
AÑO LLEGADAS DE TURISTAS INTERNACIONALES

(en millones de turistas)
2007 911
2008 928
2009 892
2010 950
2011 994
2012 1.040
2013 1.088
2014 1.134
2015 1.184
2016 1.235
2017 1.323
Fuente: Anuario Misiones.tur.ar 2017

Las series cronológicas poseen gráficos característicos. Los más comunes son los
gráficos de líneas y los de barras.
Gráfico de líneas: mediante un punto indicamos el valor de la variable. En la siguiente
figura se realiza la gráfica para la serie dada.
LLEGADAS DE TURISTAS INTERNACIONALES (en
millones de turistas)
1400
1200
1000
800
600
400
200
0
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Gráfico de barras: Se trazan rectángulos (barras) sobre una misma línea de base. La
base de los rectángulos es la misma para todas y la altura es proporcional a las
observaciones que corresponden a cada modalidad (atributo cualitativo) o a cada
variante (variable). Las barras pueden ser enteras o subdivididas. La base de la barra no
debe ser del mismo ancho que la separación entre barras. No conviene cuando la
información es numerosa. Los valores pueden ser absolutos o porcentuales. En la figura
la gráfica para la serie dada.
LLEGADAS DE TURISTAS
INTERNACIONALES (en millones de
turistas)
1400
1200 1.323
1.235
1000 1.088 1.134 1.184
994 1.040
800 911 928 950
892
600
400
200
0
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Diagrama polar: Se utiliza especialmente para destacar la influencia que tienen las
estaciones sobre el fenómeno en estudio. Se dibuja una circunferencia cuyo radio es
proporcional al promedio de las observaciones consideradas.
Ejemplo:
MESES Y(t)
Enero 303.000
Febrero 203.400
Marzo
…
Diciembre
------------
Total
a) Total/12 = Promedio
b) Escala
c) Trazar circunferencia
d) Se divide el ángulo central (360º) en tantos ángulos como modalidades se consideran
e) Trazar sobre cada vector el segmento que corresponda en forma proporcional a la clase
que representa.
Turistas internacionales por condición de receptivo o emisivo.

Aeropuerto Internacional de Ezeiza y Aeroparque Jorge
Newbery. Año 2020
Participación del
Turismo Turismo turismo receptivo
Período Saldo
receptivo emisivo en el total
(%)
Enero 303.000 289.000 14.000 51,2
Febrero 203.400 325.400 -122.000 38,5
Marzo 237.100 309.100 -72.000 43,4
Abril 218.400 261.300 -42.900 45,5
Mayo 205.800 273.300 -67.500 43,0
Junio 194.200 264.200 -70.000 42,4
Julio 224.600 256.500 -31.900 46,7
Agosto 209.800 297.000 -87.200 41,4
Septiembre 205.800 271.300 -65.500 43,1
Octubre 206.100 268.800 -62.700 43,4
Noviembre 236.200 221.100 15.100 51,7
Diciembre 273.500 195.800 77.700 58,3
Turismo receptivo en Argentina - Año 2019
Enero*
350.000
Diciembre* 300.000 Febrero*
250.000
Noviembre* 200.000 Marzo*
150.000
100.000
50.000
Octubre* 0 Abril*
Septiembre* Mayo*
Agosto* Junio*
Julio*
Gráfico circular o de sectores: Se utiliza para datos cualitativos, es una forma sencilla
de resumir y presentar los resultados que se expresan en porcentaje.
Ejemplo:
Turismo receptivo. Distribución de los turistas según residencia habitual. Aeropuerto
Internacional de Córdoba. Cuarto trimestre de 2018
Turismo receptivo. Cuarto trimestre 2018

Brasil 15,80%
Chile 27,10%
Estados Unidos, Canadá y México 14,00%
Resto de América 28,60%
Europa y resto del mundo 14,50%
¿Cómo se construye un gráfico de sectores circulares?

a) Se dibuja una circunferencia de cualquier radio.
b) El total de observaciones corresponde a los 360º
c) En forma proporcional vamos a ir obteniendo los distintos sectores que corresponden a
las diferentes modalidades
TURISMO RECEPTIVO - AEROPUERTO
INTERNACIONAL DE CÓRDOBA - CUARTO
TRIMESTE 2018
Europa y resto Brasil

del mundo 16%
15%
Resto de América Chile

29% 27%
Estados Unidos,
Canadá y México
14%
Gráficos de distribuciones cuantitativas

Las distribuciones cuantitativas tienen distintos tipos de representación gráfica
dependiendo si son discretas o continuas.
Las gráficas de las distribuciones cuantitativas discretas son: diagrama de barras y
gráfico escalonado.
Las gráficas de las distribuciones cuantitativas continuas son: histograma, polígono de
frecuencias, curva de frecuencias, diagrama de tallo y hojas y ojiva.
Diagrama de barras
Se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una variable
discreta. En el eje de abscisas, situaremos los diferentes valores de la variable. En el eje
de ordenadas, la frecuencia. Se trazan barras separadas de altura correspondiente a la
frecuencia correspondiente a ese valor de la variable.
Ejemplo: Teniendo en cuenta las edades de los alumnos de 1º T, a continuación se
presenta el gráfico de barras correspondiente
EDADES DE LOS ALUMNOS DE 1º T
9
8
7
6
5
4
3
2
1
0
17 18 19 20 21 22 23 29 43
Histograma
Igual que el anterior en cuanto al tipo de frecuencias que se pueden utilizar. La diferencia
es que ésta es para variables continuas. Se trazan barras unidas, a altura igual a la
frecuencia correspondiente.
Ejemplo: Las edades de los alumnos de 2º H cuando construimos un cuadro de
distribución de frecuencias con variable continua, presenta el siguiente histograma.
Cuando se marcan los puntos medios de los extremos superiores de cada una de las
barras, un punto sobre el eje de abscisas (eje x) antes de la primer barra y un punto sobre
el eje de abscisas después de la última barra y se unen todos los puntos, se obtiene el
polígono de frecuencias.
Sobre el polígono de frecuencias (suavizando las puntas) se obtiene la curva de
frecuencias. Si esta curva de frecuencias es simétrica se obtiene lo que se llama
campana de Gauss o curva de Gauss.
Diagrama de tallos y hojas

Es un método de tabulación a la vez que un gráfico adecuado para variables continuas.
Se trata de dividir cada uno de los datos en dos partes: el tallo y las hojas. Así, si tenemos
el siguiente conjunto de números que pertenece a la primera fila del ejemplo de edades
de los alumnos de 2º H tendremos:
18 18 18 19 19 19 19 19 20 20 20 21 22 23 24 24 24 24 26 29 29
El gráfico de tallo y hoja de esta distribución es el siguiente
Tallo Hojas
1 888
1 99999
2 000
2 1
2 2
2 3
2 4444
2 6
2 99
Reducción de datos: Medidas de variabilidad y dispersión

Las medidas de variabilidad y dispersión nos sirven para cuantificar la separación de los
valores de una distribución.
Llamaremos dispersión o variabilidad a la mayor o menor separación de los valores de
la muestra respecto de las medidas de centralización (mediana, promedio o modo) que
hayamos calculado.
Al calcular una medida de centralización como la media aritmética, resulta necesario
acompañarla de otra medida que indique el grado de dispersión del resto de los valores
de la distribución, respecto de esta media. A estas cantidades o coeficientes, les
llamamos: medidas de variabilidad y dispersión.
Las medidas de dispersión son un complemento necesario a las medidas de
centralización por cuanto se complementa la información del valor alrededor del cual se
mueven los datos con la información de si éstos oscilan siempre cerca de dicho valor o
suelen estar en posiciones alejadas a este valor, tanto mayores como menores.
Las principales medidas de dispersión son las siguientes:
 Recorrido: Se define como la diferencia entre el mayor y menor valor de las
variables de la distribución.
𝑅𝑒 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛
 Recorrido o rango intercuartílico: Se define como la diferencia entre el tercer y

el primer cuartil.
𝑅𝑖 = 𝐶3 − 𝐶1
Esta medida evita la influencia que tienen en la dispersión los valores más
extremos.
 Desviación media respecto de la mediana1: Es la media aritmética de los

valores absolutos de las desviaciones de los valores de la variable con respecto a
la mediana.
∑𝑛𝑖=1|𝑥𝑖 − 𝑀𝑒|. 𝑛𝑖
𝐷𝑀𝑒 =
𝑛
 Varianza o variancia: Es la media aritmética de los cuadrados de las

desviaciones de los valores de la variable respecto de la media de la distribución.
Responde a la expresión:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 . 𝑛𝑖
𝑆2 =
𝑛
Esta fórmula es equivalente a:
∑𝑛𝑖=1(𝑥𝑖 )2 . 𝑛𝑖
𝑆2 = − 𝑥̅
𝑛
1
Análogamente se puede definir la desviación media respecto de la media aritmética.
 Desviación típica o desviación standart: La desviación típica o desviación
standart (estándar) es la raíz cuadrada de la varianza. Se representa como S, y
tiene la siguiente expresión:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 . 𝑛𝑖
√ 2
𝑆=+ 𝑆 =+ √
𝑛
Si operamos, podemos obtener la siguiente expresión, que es mucho más sencilla
de operar, y obtenemos menos error de redondeo:
∑𝑛 (𝑥𝑖 − 𝑥̅ )2 . 𝑛𝑖 ∑𝑛 𝑥𝑖 2 . 𝑛𝑖
𝑆 = +√𝑆 2 = +√ 𝑖=1 = √ 𝑖=1 − 𝑥̅ 2
𝑛 𝑛
Propiedades de la varianza
1. Es siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0
solamente cuando 𝑥𝑖 = 𝑥̅ ∀𝑖
2. La varianza es la medida de dispersión cuadrática óptima por ser la menor de
todas.
3. Si a todos los valores de la variable se le suma una constante, la varianza no se
modifica.
4. Si a todos los valores de la variable se multiplican por una constante, la varianza
queda multiplicada por el cuadrado de dicha constante.
Propiedades de la desviación standart
A su vez la desviación típica o desviación standart también tiene una serie de
propiedades que se deducen fácilmente de las de la varianza.
1. La desviación típica es siempre un valor no negativo. S será siempre mayor o igual a
0 por definición. Cuando 𝑆 = 0 ⇒ 𝑋 = 𝑥𝑖 (para todo i).
2. Es la medida de dispersión óptima por ser la más pequeña.
3. Si a todos los valores de la variable se les suma una misma constante, la desviación
típica no varía.
4. Si todos los valores de la variable se multiplican por una misma constante, la
desviación típica queda multiplicada por el valor absoluto de dicha constante.
El problema de las medidas de dispersión absolutas, como son todas las anteriores, es
que normalmente son un indicador que nos da problemas a la hora de comparar
muestras de variables, pues es posible que entre sí no tengan cantidades en las mismas
unidades, de ahí que en ocasiones se recurra a medidas de dispersión relativa. El
coeficiente de variación de Pearson es una de las más significativas y lo podemos definir
como el cociente entre la desviación típica y la media aritmética de la distribución.
Es necesario tener en cuenta que al efectuar el cociente eliminamos las unidades, por
tanto, V es adimensional.
𝑆
𝑉𝑥 =
𝑥̅
Cuando 𝑉𝑥 < 𝑉𝑦 significa que X es más representativa que Y, o que la media de X
representa mejor a su distribución que la media de Ya la suya.
Por convención, se considera que la dispersión es óptima si 𝑉𝑥 es igual o menor a 0,3.
Reducción de datos: Medidas de simetría, apuntamiento y concentración

Hasta ahora hemos estado analizando y estudiando la centralización y dispersión de una
distribución, pero parece evidente que necesitamos conocer más sobre el
comportamiento de una distribución. En esta parte, analizaremos las medidas de forma,
en el sentido de histograma o representación de datos, es decir, qué información nos
aporta según la forma que tenga la disposición de datos.
Las medidas de forma de una distribución se pueden clasificar en dos grandes grupos o
bloques: medidas de asimetría y medidas de curtosis. El gráfico siguiente muestra una
distribución simétrica (el primer histograma), asimetría a la derecha (el segundo
histograma) y asimetría a la izquierda (el tercer histograma).
Si trazamos una línea vertical por el valor de la media en el diagrama de barras o

histograma de una variable (según sea esta discreta o continua), esta vertical se
transforma en nuestro eje de simetría. Diremos, pues, que es simétrica, cuando a ambos
lados de la media aritmética haya el mismo número de valores de la variable,
equidistantes de dicha media dos a dos, y tales que cada par de valores equidistantes
tiene la misma frecuencia absoluta. En caso contrario, dicha distribución será asimétrica
o diremos que presenta simetría, ya sea por la derecha o por la izquierda. En particular,
una distribución presenta asimetría por la derecha si la mayoría de sus datos están
concentrados a la izquierda de la media y asimetría por la izquierda si la mayoría de sus
datos están concentrados a la derecha de su media.
Para calcular la asimetría, una posibilidad es utilizar el llamado coeficiente de FISHER
que representaremos como 𝒈1 y responderá a la siguiente expresión matemática:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )3 . 𝑛𝑖
𝑔1 =
𝑛𝑆 3
Según sea el valor de 𝑔1 , diremos que la distribución es asimétrica a derechas (o
positiva), a izquierdas (o negativa), o simétrica, es decir:
- Si 𝑔1 > 0 entonces la distribución será asimétrica positiva o a derechas
(desplazada hacia la derecha).
- Si 𝑔1 < 0 entonces la distribución será asimétrica negativa o a izquierdas
(desplazada hacia la izquierda).
- Si 𝑔1 = 0 entonces la distribución será simétrica.
También pueden utilizarse otros coeficientes de sesgo, como los coeficientes de sesgo
de PEARSON, que responde a la siguiente expresión:
𝑥̅ − 𝑀𝑜
𝐴𝑝 =
𝑆
- Si 𝐴𝑝 > 0 entonces la distribución será asimétrica positiva o a derechas
(desplazada hacia la derecha).
- Si 𝐴𝑝 < 0 entonces la distribución será asimétrica negativa o a izquierdas
(desplazada hacia la izquierda).
- Si 𝐴𝑝 = 0 entonces la distribución será simétrica.
La ley normal
Para la teoría que sigue se hace necesario conocer la distribución normal, ya que tiene
gran importancia al querer estudiar el apuntamiento o curtosis. Se dice que una
distribución tiene un apuntamiento u otro, siempre en función de esta distribución normal.
La distribución llamada normal, corresponde a fenómenos muy corrientes en la
naturaleza y cuya representación gráfica es una campana de Gauss. Esta campana
responde a una función matemática, de densidad de la distribución:
Medidas de curtosis o apuntamiento
La curtosis es el mayor o menor apuntamiento de la curva de frecuencias respecto de la
curva Normal o de Gauss.
Para calcular la curtosis usaremos la expresión:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )4 . 𝑛𝑖
𝑔2 = −3
𝑛𝑆 4
- Si 𝑔2 > 0, la distribución será leptocúrtica o apuntada.
- Si 𝑔1 < 0, la distribución será platicúrtica o menos apuntada que lo normal.
- Si 𝑔1 = 0, la distribución será mesocúrtica o normal.

Apunte de Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte de Estadística

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

Es la ciencia que trata, por una parte, de la recolección, organización, resumen,

Variables estadísticas. Tipos

a) ¿Cuál es la población objeto de estudio? ¿Qué variable estamos estudiando? ¿Qué

A continuación resaltaremos un conjunto de propiedades de la media aritmética:

Propiedad 2. Si a todos los valores de la variable se le suma una misma cantidad, la

Después de saberlo, haremos el siguiente cálculo:

¿Cómo se calculan los cuantiles?

2) El valor obtenido en el punto anterior se busca en la columna de las frecuencias

a) Construir el cuadro de distribución de frecuencias considerando la variable como

AÑO LLEGADAS DE TURISTAS INTERNACIONALES

Fuente: Anuario Misiones.tur.ar 2017

Fuente: Anuario Misiones.tur.ar 2017

Fuente: Anuario Misiones.tur.ar 2017

Turistas internacionales por condición de receptivo o emisivo.

Turismo receptivo. Cuarto trimestre 2018

¿Cómo se construye un gráfico de sectores circulares?

Europa y resto Brasil

Resto de América Chile

Gráficos de distribuciones cuantitativas

Diagrama de tallos y hojas

Reducción de datos: Medidas de variabilidad y dispersión

 Recorrido o rango intercuartílico: Se define como la diferencia entre el tercer y

 Desviación media respecto de la mediana1: Es la media aritmética de los

 Varianza o variancia: Es la media aritmética de los cuadrados de las

Reducción de datos: Medidas de simetría, apuntamiento y concentración

Si trazamos una línea vertical por el valor de la media en el diagrama de barras o

También podría gustarte