Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Se usa para modelar patrones en los datos y extraer inferencias a partir de una muestra
específica de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a
preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación),
pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento
de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen
anova, series de tiempo y minería de datos.
Se sorprenderá al saber cuánto está presente este concepto en su vida diaria; por ejemplo,
si va a un mercado porque necesita comprar aceitunas pero desea saber que tan amargas
están, probablemente el vendedor le ofrecerá una aceituna de “muestra” que debiese ser el
reflejo del resto de las aceitunas y obviamente de las que se llevará a casa.
Un domingo a las 9.00 que tan “probable” es que pueda tomar un colectivo, seguramente le
demorará más tiempo de lo habitual.
Seguramente ha escuchado que una gran parte de la población tiene sobrepeso, y que de ese
total un “porcentaje” importante son niños. O que el “promedio” de edad en que los jóvenes
comienzan a fumar es a los 16 años.
2
De esta manera y a medida que avance en el estudio de este texto, verá que estas prácticas
habituales tienen su sustento en la estadística y sin duda podrá reconocerlas sin problemas.
En su origen, la Estadística estuvo asociada a los Estados, para ser utilizados por el gobierno y
cuerpos administrativos. La colección de datos acerca de estados y localidades continúa
ampliamente a través de los servicios de estadísticas nacionales e internacionales. Por ejemplo,
los censos suministran información regular acerca de la población.
Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las
pirámides en el siglo XI a. C. Los libros bíblicos de Números y Crónicas incluyen en algunas
partes trabajos de estadística.
En China existían registros numéricos similares con anterioridad al año 2000 A.C. Los antiguos
griegos realizaban censos cuya información se utilizaba hacia el 594 A.C. para cobrar impuestos.
Así hoy en día el mundo de los negocios y las ciencias relacionadas a ellos se sustentan en el
uso de las Estadísticas, por ejemplo:
Si consideramos algunos de los pasos básicos que define Douglas A. Lind para tomar una decisión,
usted deberá considerar:
TEMA:
ANÁLISIS ESTADÍSTICOS Y DISTRIBUCIÓN DE FRECUENCIAS
En estadística hablamos de variables aleatorias, pensemos en X, así la v.a. “X” es una función
real definida (valor cualquiera) en un espacio muestral asociado a un experimento aleatorio (al
azar).
Existen dos tipos básicos de datos, aquellos obtenidos a partir de una variable cualitativa y
los obtenidos de una variable cuantitativa. La primera de ellas es también llamada atributo y
que generalmente permite saber cuántas o que proporción entra en cada categoría definida. Por
ejemplo: ¿Cuántos inmigrantes colombianos y cuántos peruanos viven actualmente en el país?
¿Qué proporción de la población tiene obesidad? o el estado civil de los chilenos.
Variable Aleatoria Discreta: una v.a. es discreta si su recorrido es un conjunto discreto (no
continuo o con números finitos enteros).
Por ejemplo la cantidad de hijos de una familia promedio en Chile es de 2-3 o 4, no puede ser
1.82 o 3.47 hijos.
Variable Aleatoria Continua: una v.a. es continua si abarca todo el conjunto de números reales,
incluyendo números no enteros o infinitos conocidos. En términos simples esta variable puede
asumir cualquier valor dentro de un intervalo específico.
Por ejemplo, decir que la estatura promedio del hombre en Chile es 1.76 – 1.64 – 1.81 o bien en
el rango de 1,60 al 1,70.
En el primer caso se trabaja la variable como un dato entero, mientras que en el segundo, dada
la enorme cantidad de datos que pueden generarse, se trabaja con intervalos o rangos definidos.
NIVELES DE MEDICIÓN
Los datos pueden clasificarse de acuerdo a los niveles de medición. El nivel de medición de un
dato marca los cálculos que pueden realizarse para resumir y presentar la información y las
pruebas estadísticas que pueden desarrollarse. Existen cuatro niveles de medición: nominal,
ordinal, de intervalo y de razón.
Datos de nivel nominal: es el nivel más básico de medición, en este nivel las observaciones
solamente pueden clasificarse o contarse y no puede otorgárseles un orden específico a sus
marcas o datos.
Un ejemplo de este nivel, es el estado civil de una población. Podemos clasificar los datos
en distintas categorías, soltero – casado - viudo o divorciado y agrupar los datos que
obtengamos en cada una de ellas. Al ser categorías excluyentes no permite y no tiene
sentido ordenarlas o jerarquizarlas. Nótese también que al ser mutuamente excluyentes,
un dato sólo podrá incluirse en una categoría.
En este nivel de medición, los datos suelen ser también “exhaustivo”, que en estadística
significa que cada dato ya sea de un individuo, objeto o medición debe si o si aparecer en una
categoría. Si lo analiza sucede en el caso de los estados civiles.
Datos de nivel ordinal: en este nivel las observaciones son calificadas, usando escalas de
medición ordinal o categorías con un orden inherente entre sí. La escala de medición ordinal es
cuantitativa porque permite ordenar los eventos en función de la mayor o menor posesión de un
atributo o característica.
Los ejemplos más comunes de las escalas son aquellas que van de totalmente de acuerdo
a totalmente en desacuerdo, o cuando deseamos evaluar el desempeño de un proceso que
se evalúa de muy malo – malo - regular – bien o superior.
Datos de nivel de intervalo: este nivel posee las características de la medición ordinal, pero
estableciendo la diferencia entre los valores en un tamaño constante, es decir, denota la
distancia entre una medida y otra.
Por ejemplo, la temperatura que se registra en una ciudad, puede ser medida fácilmente
(15°C - 20°C - 25°C), pero también puede determinarse la diferencia entre las mismas ya
que un grado Celsius representa una unidad constante y conocida de medición.
Nótese que la escala de intervalo se aplica a variables continuas pero carece de un punto cero
absoluto como es el mismo caso de la temperatura, donde 0° si refleja un dato real de la
medición. Los datos también son mutuamente excluyentes y exhaustivos.
7
Datos de nivel de razón: es el nivel más alto de medición, incluye el hecho de que el punto cero
es importante y más aún la razón (o cociente) entre dos números cuyo análisis se basa
principalmente en ello.
Por ejemplo, si una persona ganó $400.000 al mes como comisión en la venta de seguros y
otra ganó $800.000, diremos que la segunda persona ganó el doble de lo que ganó la
primera o bien la razón o cociente es de 2.
DISTRIBUCIÓN DE FRECUENCIAS
Piense en un conjunto de datos, sean ventas en miles de pesos, kilos, número de contribuyentes,
puntajes de un examen, o cualquier otra variable. Si son pocos datos (aunque poco es una
descripción subjetiva de dependerá de cada individuo en cada situación) sin duda, podrá
trabajarlos y analizarlos sin problemas, pero si hablamos de una gran cantidad de datos, sean
100, 500, 1.000, 10.000 o más, o bien estos no tengan una estructura definida, ya no será
tan fácil su utilización.
A la tabulación de los datos en cada clase con sus respectivas frecuencias se le conoce como
distribución de frecuencias, es decir, ésta corresponde al agrupamiento de datos en categorías
que muestren el número de observaciones en cada categoría mutuamente excluyentes,
permitiendo que los datos se conviertan en información útil y que me permitiría reconocer
resultados específicos y determinantes.
Suponga que a cada uno de los trabajadores que se desempeñan en su área, les pregunta
sobre la cantidad de hijos que tiene, esto con la finalidad de evaluar la posibilidad de
contratar un seguro médico que incluya las cargas familiares.
N° de N° de
1 0 3 5 1
Hijos empleados
2 1 2 3 2 Tabu lación de los
0 4
1 1 4 0 1 datos
1 9
3 1 0 2 3 agrupados en categorías:
2 6
2 1 2 0 1
3 4
4 1
5 1
Total 25
8
A partir de lo anterior podrá identificar la frecuencia (número de hijos) que tienen los
empleados de su área, por ejemplo, y como se refleja fácilmente en la tabla de distribución, la
mayor frecuencia corresponde a 1 hijo (donde 9 de sus 25 trabajadores indican ese dato)
Imagine que usted acaba de ser contratado en una empresa de venta de insumos computacionales.
La gerencia le plantea que desea realizar varios cambios, pero para ello desconoce los niveles de
venta diaria que tiene. Algunas de las interrogantes que usted debe dar respuesta son:
¿Cuál es el nivel de venta típico? , ¿Cuál es la mayor venta que ha tenido?, ¿y la menor?,
¿Alrededor de que valor tienden a acumularse las ventas diarias?.
Los datos que se le entregan corresponden a los niveles de venta de los artículos vendidos
durante los últimos 80 días y que se indican a continuación:
En este caso, al igual que el ejemplo anterior, deberán ser tabulados los datos de manera que
facilite el manejo e interpretación de la información, sin embargo, al tener una gran cantidad
de datos y con brechas claramente menores entre unos y otros, se recomienda agruparlos en
rangos o intervalos. Para ello lo primero será identificar el menor y el mayor valor ($125.460 y
$336.250 respectivamente).
Lo segundo será establecer grupos conocidos como clases, donde para cada uno estableceremos
un límite inferior y uno superior. Por ejemplo, el primero considerará las ventas entre $120.000
y hasta $150.000 (obviamente el primer intervalo debe incluir el menor dato establecido), un
segundo intervalo podría ser desde los $150.000 hasta los $180.000. Cabe destacar que los
límites deben ser claramente definidos, es decir, establecer si el dato exacto de $150.000 será
incluido en el primer o segundo rango (en este caso lo incluiremos en el segundo).
La amplitud que contenga cada clase o categoría será definida de acuerdo a como se
representen mejor los datos, pudiendo ser constante o distinta para cada clase, de todas
maneras se recomienda considerar amplitudes iguales entre uno y otro intervalo.
9
El tercer paso será distribuir los datos en las clases o grupos definidos, en nuestro ejemplo, la
tabla de distribución de frecuencia queda de la siguiente forma:
En ambos casos, al cuantificar o definir la cantidad por cada clase, hemos definido la
frecuencia absoluta, denominada (ni) y que indica el número de veces que se repite ese valor.
Sin embargo, existe otra forma de expresar la frecuencia, de forma porcentual y llamada
relativa.
Frecuencias Relativas: Esta otra forma de representar la frecuencia, será representada por
(fi), y que corresponde al cociente entre la frecuencia absoluta y el número total de
observaciones N. Estas frecuencias se pueden expresar en porcentajes o en tantos por uno
sobre el total de datos
N° de N° de
Hijos empleados
0 4
1 9
2 6
3 4
4 1
5 1
Total 25
Luego:
Por otra parte, para el caso de datos agrupados, considera además de la frecuencia relativa y
dado que se presenta en intervalos, la amplitud de intervalo y la marca de clase.
Amplitud del Intervalo: Es la diferencia entre el extremo superior y el inferior. Sirve para
conocer el tamaño numérico que existe en un intervalo. Así para el intervalo i-ésimo, la amplitud
vendría dada por:
11
Amplitud de Intervalo ai = ( Ls – Li )
Marca de Clase: Es el punto central de cada intervalo. Sirve para reconocer el punto medio
equidistante entre el límite inferior y superior de la clase. Este será el nuevo xi. Para el
intervalo i-ésimo será:
Luego:
En este caso la amplitud de intervalo (ai) para cada uno de ellos es de $30.000.
La marca de clase o punto medio del intervalo, por ejemplo, para el tercer rango es de
$195.000, esto quiere decir, que $195.000 es el nivel de venta más representativo o típico de
esa clase o intervalo.
Como se planteó más arriba, los intervalos pudiesen tener amplitudes desiguales entre unos y
otros, mientras que la definición de cuántas clases serán las óptimas, dependerá básicamente
de la cantidad de datos que se posean y que tan dispersos éstos sean. Sin embargo, se sugieren
que los intervalos sean equivalentes, ya que los desiguales podrían generar problemas de
interpretación y esquematización de su forma gráfica.
Existen dos formulas específicas para calcular un intervalo, la primera de ellas se basa en la
determinación previa del número de clases.
Intervalo de Clase i = valor del dato más alto – valor del dato más bajo
número de clases
En el ejemplo anterior, plantea como condición de entrada que deben ser 8 categorías:
i = valor del dato más alto - valor del dato más bajo
1 + 3.322 (log. del total de frecuencias)
Ref: en este caso cada intervalo deberá tener una “brecha” de $28.790 y a partir de ello, serán
las categorías que se generan.
Finalmente, y como lo hicimos en nuestro ejemplo, existe una tercera modalidad, que
corresponde al criterio de quien desarrolle el ordenamiento de los datos, en el caso anterior, se
definió una amplitud de intervalos aproximando a $30.000.
13
Se puede utilizar el modelo gráfico que se desee, apelando al juicio del experto en relación al que
sea más pertinente según la variable y de acuerdo al número de datos y dispersión o
concentración de ellos.
La forma más común de representar una distribución de frecuencias es a través de un
histograma.
Histograma: es un diagrama basado en el gráfico común de barras, en el que se marcan las clases
(variables) en el eje horizontal y las frecuencias en el eje vertical (absolutas o relativas), así
las frecuencias quedan representadas por las alturas de las barras adyacentes.
El histograma para el ejemplo del número de cargas familiares, se presenta como sigue:
ni (n° de empleados)
9
8
7
6
5
4
3
2
1
xi (n° de hijos)
1 2 3 4 5
Para el ejemplo anterior de las ventas diarias, el histograma tendrá la forma:
ni (días)
30
25
20
15
10
120 150 180 210 240 270 300 330 360 xi (Ventas en miles de $)
14
Polígonos de frecuencias: Consiste en segmentos de rectas que unen los puntos determinados por
la intersección de los puntos medios de clase y las frecuencias de clases.
La gráfica del polígono de frecuencias para el mismo ejemplo de las ventas diarias de
equipos computacionales es:
ni (días)
30
25
20
15
10
5
105 135 165 195 225 255 285 315 345 375 xi (Ventas en miles de $)
Nótese que los puntos 105 y 375 sólo se agregan para anclar el polígono al eje de las abscisas.
Adicionalmente a los dos tipos de gráficos anteriores, pueden ser también utilizadas las
gráficas de barras en sus distintos formatos, las gráficas circulares, escalonadas o cualquier
otra que permita representar en forma visual la distribución de los datos presentados.