Está en la página 1de 14

1

TEMA: INTRODUCCIÓN A LA ESTADÍSTICA

La estadística es una ciencia con base matemática referente a la recolección, organización,


análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo
aleatorio y facilitan la toma de decisiones efectiva. Es transversal a una amplia variedad de
disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el
control de calidad. Se reconoce un gran uso para la toma de decisiones en áreas de negocios o
instituciones gubernamentales.

La estadística se divide en dos elementos:

1. La estadística descriptiva, se dedica a los métodos de recolección, descripción, visualización y


resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser
resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y
la desviación estándar.
Algunos ejemplos gráficos son: histograma, pirámide poblacional o el clúster, entre otros.

2. La estadística inferencial, se dedica a la generación de los modelos, inferencias y


predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las
observaciones.

Se usa para modelar patrones en los datos y extraer inferencias a partir de una muestra
específica de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a
preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación),
pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento
de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen
anova, series de tiempo y minería de datos.

¿USTED UTILIZA LA ESTADÍSTICA?

Se sorprenderá al saber cuánto está presente este concepto en su vida diaria; por ejemplo,
si va a un mercado porque necesita comprar aceitunas pero desea saber que tan amargas
están, probablemente el vendedor le ofrecerá una aceituna de “muestra” que debiese ser el
reflejo del resto de las aceitunas y obviamente de las que se llevará a casa.

Un domingo a las 9.00 que tan “probable” es que pueda tomar un colectivo, seguramente le
demorará más tiempo de lo habitual.

Seguramente ha escuchado que una gran parte de la población tiene sobrepeso, y que de ese
total un “porcentaje” importante son niños. O que el “promedio” de edad en que los jóvenes
comienzan a fumar es a los 16 años.
2

En nuestra ciudad, a diferencia de una gran cantidad de compatriotas, no debemos


preocuparnos del clima y menos de las “posibilidades” de que en la tarde comience a llover.
Y por último, seguramente al postular a créditos o becas de estudio, debió entregar una serie
de documentos que permitieran identificar en que “quintil” se encuentra.

De esta manera y a medida que avance en el estudio de este texto, verá que estas prácticas
habituales tienen su sustento en la estadística y sin duda podrá reconocerlas sin problemas.

¿DESDE CUANDO EXISTE LA ESTADÍSTICA?

En su origen, la Estadística estuvo asociada a los Estados, para ser utilizados por el gobierno y
cuerpos administrativos. La colección de datos acerca de estados y localidades continúa
ampliamente a través de los servicios de estadísticas nacionales e internacionales. Por ejemplo,
los censos suministran información regular acerca de la población.

Ya se utilizaban representaciones gráficas y otras medidas en pieles, rocas, palos de madera y


paredes de cuevas para controlar el número de personas, animales o ciertas mercancías. Hacia el
año 3000 A.C. los babilonios usaban ya pequeños envases moldeados de arcilla para recopilar datos
sobre la producción agrícola y de los géneros vendidos o cambiados.

Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las
pirámides en el siglo XI a. C. Los libros bíblicos de Números y Crónicas incluyen en algunas
partes trabajos de estadística.
En China existían registros numéricos similares con anterioridad al año 2000 A.C. Los antiguos
griegos realizaban censos cuya información se utilizaba hacia el 594 A.C. para cobrar impuestos.

Así hoy en día el mundo de los negocios y las ciencias relacionadas a ellos se sustentan en el
uso de las Estadísticas, por ejemplo:

- en la predicción de las tendencias económicas futuras


- estudios de mercado para el lanzamiento de un nuevo producto
- la evaluación del gasto promedio en educación en un país
- las tendencias de consumo o ahorro de la población
- evaluación de la calidad del aire para determinar la restricción vehicular
- frecuencia de accidentes automovilísticos para establecer el costo de los seguros
3

ESTADÍSTICA Y LA TOMA DE DECISIONES

Como vimos anteriormente, los métodos y enfoques estadísticos ayudan a entender el


comportamiento de ciertos fenómenos y a partir de ello facilitan la toma de decisiones
relacionadas a éstos.

Si consideramos algunos de los pasos básicos que define Douglas A. Lind para tomar una decisión,
usted deberá considerar:

1. Determinar si la información existente es adecuada o si se requiere información


adicional.
2. Reunir la información necesaria de una forma eficiente.
3. Resumir la información de una forma útil e informativa.
4. Analizar la información disponible.
5. Sacar las conclusiones y realizar las deducciones necesarias, al tiempo que se evalúa
el riesgo de llegar a una conclusión incorrecta.

De esta manera los métodos presentados en el siguiente texto se convierten en herramientas


de apoyo a la toma de decisiones.

¿Para que decisiones, le ha


ayudado la estadística?
4

TEMA:
ANÁLISIS ESTADÍSTICOS Y DISTRIBUCIÓN DE FRECUENCIAS

Como lo planteamos en un inicio, la estadística es la disciplina que comprende un conjunto de


teorías, métodos y técnicas para obtener, describir e interpretar datos e informaciones con el
objeto de tomar decisiones y predecir fenómenos que pueden expresarse en forma cuantitativa y
analizarse en forma cualitativa.

Se refiere, en términos simples, al estudio de series estadísticas, definidas como un conjunto de


datos de una variable específica, obtenidos de una población o muestra de ella, con un fin
determinado.

Para introducirnos en esta área específica de la estadística, comenzaremos por conceptualizar


algunos términos que nos acompañarán a partir de ahora.

¿QUÉ ES UNA VARIABLE?

Una variable es un símbolo que representa un elemento no especificado de un conjunto dado.


Una variable es un elemento de una fórmula, proposición o algoritmo que puede adquirir o ser
sustituido por un valor cualquiera.

Variable Aleatoria (v.a.):

En estadística hablamos de variables aleatorias, pensemos en X, así la v.a. “X” es una función
real definida (valor cualquiera) en un espacio muestral asociado a un experimento aleatorio (al
azar).

Existen dos tipos básicos de datos, aquellos obtenidos a partir de una variable cualitativa y
los obtenidos de una variable cuantitativa. La primera de ellas es también llamada atributo y
que generalmente permite saber cuántas o que proporción entra en cada categoría definida. Por
ejemplo: ¿Cuántos inmigrantes colombianos y cuántos peruanos viven actualmente en el país?
¿Qué proporción de la población tiene obesidad? o el estado civil de los chilenos.

Cuando la variable se puede expresar numéricamente, estamos hablando de una variable


cuantitativa. Por ejemplo: el número de hijos de los trabajadores de una organización, el nivel de
renta promedio de las familias de una comuna o el porcentaje destinado a educación de los
países de América Latina.
5

Las variables cualitativas (cualidades, características)

Las variables cuantitativas (números) pueden ser además discretas o continuas.

Variable Aleatoria Discreta: una v.a. es discreta si su recorrido es un conjunto discreto (no
continuo o con números finitos enteros).

Por ejemplo la cantidad de hijos de una familia promedio en Chile es de 2-3 o 4, no puede ser
1.82 o 3.47 hijos.

Variable Aleatoria Continua: una v.a. es continua si abarca todo el conjunto de números reales,
incluyendo números no enteros o infinitos conocidos. En términos simples esta variable puede
asumir cualquier valor dentro de un intervalo específico.

Por ejemplo, decir que la estatura promedio del hombre en Chile es 1.76 – 1.64 – 1.81 o bien en
el rango de 1,60 al 1,70.

En el primer caso se trabaja la variable como un dato entero, mientras que en el segundo, dada
la enorme cantidad de datos que pueden generarse, se trabaja con intervalos o rangos definidos.

 Ejercicio: Dadas las siguientes variables, indique si corresponde a variables cualitativas o


cuantitativas continuas o discretas.

a) Tipo de automóvil que posee (cualitativa)


b) Número de enfermeras por turno en el hospital (cuantitativa discreta)
c) Color favorito (cualitativa)
d) Género de sus hijos (cualitativa)
e) Peso de la carga de los camiones bolivianos (cuantitativa continua)
f) Distancia entre Arica e Iquique (cuantitativa continua)
g) Cantidad de televisores por hogar (cuantitativa discreta)
h) Sueldo legal en Chile (en pesos) (cuantitativa discreta)
i) Ingreso promedio en EEUU (en dólares) (cuantitativa continua)

Otros de los términos que debe manejar son:

Población: Conjunto de todos los posibles individuos, objetos o medidas de interés.

Muestra: Una porción o parte de una población de interés.


6

NIVELES DE MEDICIÓN

Los datos pueden clasificarse de acuerdo a los niveles de medición. El nivel de medición de un
dato marca los cálculos que pueden realizarse para resumir y presentar la información y las
pruebas estadísticas que pueden desarrollarse. Existen cuatro niveles de medición: nominal,
ordinal, de intervalo y de razón.

Datos de nivel nominal: es el nivel más básico de medición, en este nivel las observaciones
solamente pueden clasificarse o contarse y no puede otorgárseles un orden específico a sus
marcas o datos.

 Un ejemplo de este nivel, es el estado civil de una población. Podemos clasificar los datos
en distintas categorías, soltero – casado - viudo o divorciado y agrupar los datos que
obtengamos en cada una de ellas. Al ser categorías excluyentes no permite y no tiene
sentido ordenarlas o jerarquizarlas. Nótese también que al ser mutuamente excluyentes,
un dato sólo podrá incluirse en una categoría.

En este nivel de medición, los datos suelen ser también “exhaustivo”, que en estadística
significa que cada dato ya sea de un individuo, objeto o medición debe si o si aparecer en una
categoría. Si lo analiza sucede en el caso de los estados civiles.

Datos de nivel ordinal: en este nivel las observaciones son calificadas, usando escalas de
medición ordinal o categorías con un orden inherente entre sí. La escala de medición ordinal es
cuantitativa porque permite ordenar los eventos en función de la mayor o menor posesión de un
atributo o característica.

 Los ejemplos más comunes de las escalas son aquellas que van de totalmente de acuerdo
a totalmente en desacuerdo, o cuando deseamos evaluar el desempeño de un proceso que
se evalúa de muy malo – malo - regular – bien o superior.

Este nivel también es mutuamente excluyente y exhaustivo, y además si requiere un orden


lógico de presentación.

Datos de nivel de intervalo: este nivel posee las características de la medición ordinal, pero
estableciendo la diferencia entre los valores en un tamaño constante, es decir, denota la
distancia entre una medida y otra.

 Por ejemplo, la temperatura que se registra en una ciudad, puede ser medida fácilmente
(15°C - 20°C - 25°C), pero también puede determinarse la diferencia entre las mismas ya
que un grado Celsius representa una unidad constante y conocida de medición.

Nótese que la escala de intervalo se aplica a variables continuas pero carece de un punto cero
absoluto como es el mismo caso de la temperatura, donde 0° si refleja un dato real de la
medición. Los datos también son mutuamente excluyentes y exhaustivos.
7

Datos de nivel de razón: es el nivel más alto de medición, incluye el hecho de que el punto cero
es importante y más aún la razón (o cociente) entre dos números cuyo análisis se basa
principalmente en ello.

 Por ejemplo, si una persona ganó $400.000 al mes como comisión en la venta de seguros y
otra ganó $800.000, diremos que la segunda persona ganó el doble de lo que ganó la
primera o bien la razón o cociente es de 2.

DISTRIBUCIÓN DE FRECUENCIAS

Piense en un conjunto de datos, sean ventas en miles de pesos, kilos, número de contribuyentes,
puntajes de un examen, o cualquier otra variable. Si son pocos datos (aunque poco es una
descripción subjetiva de dependerá de cada individuo en cada situación) sin duda, podrá
trabajarlos y analizarlos sin problemas, pero si hablamos de una gran cantidad de datos, sean
100, 500, 1.000, 10.000 o más, o bien estos no tengan una estructura definida, ya no será
tan fácil su utilización.

A la tabulación de los datos en cada clase con sus respectivas frecuencias se le conoce como
distribución de frecuencias, es decir, ésta corresponde al agrupamiento de datos en categorías
que muestren el número de observaciones en cada categoría mutuamente excluyentes,
permitiendo que los datos se conviertan en información útil y que me permitiría reconocer
resultados específicos y determinantes.

Organizar una gran cantidad de datos y distribuirlos en clases o categorías, determinando a


que clase corresponde cada dato es lo que se conoce como frecuencia de clase.

 Suponga que a cada uno de los trabajadores que se desempeñan en su área, les pregunta
sobre la cantidad de hijos que tiene, esto con la finalidad de evaluar la posibilidad de
contratar un seguro médico que incluya las cargas familiares.

Lo primero será tabular los datos, estableciendo claramente la variable

N° de N° de
1 0 3 5 1
Hijos empleados
2 1 2 3 2 Tabu lación de los
0 4
1 1 4 0 1 datos
1 9
3 1 0 2 3 agrupados en categorías:
2 6
2 1 2 0 1
3 4
4 1
5 1
Total 25
8

A partir de lo anterior podrá identificar la frecuencia (número de hijos) que tienen los
empleados de su área, por ejemplo, y como se refleja fácilmente en la tabla de distribución, la
mayor frecuencia corresponde a 1 hijo (donde 9 de sus 25 trabajadores indican ese dato)

 Veamos ahora el siguiente ejemplo:

Imagine que usted acaba de ser contratado en una empresa de venta de insumos computacionales.
La gerencia le plantea que desea realizar varios cambios, pero para ello desconoce los niveles de
venta diaria que tiene. Algunas de las interrogantes que usted debe dar respuesta son:
¿Cuál es el nivel de venta típico? , ¿Cuál es la mayor venta que ha tenido?, ¿y la menor?,
¿Alrededor de que valor tienden a acumularse las ventas diarias?.
Los datos que se le entregan corresponden a los niveles de venta de los artículos vendidos
durante los últimos 80 días y que se indican a continuación:

(Ventas diarias en pesos)


201970 203720 174540 205910 236510 244530 142660 150210 256830 278720
165870 201690 328510 162510 170470 212850 213240 216090 256700 125460
129350 168730 222510 222770 250340 215330 244430 168890 170040 143570
171550 166880 206570 236130 178950 172030 207650 227830 236610 292770
176420 189810 210520 227990 127940 152630 336250 143990 149680 173560
184420 187220 163310 198170 167660 176330 179620 198450 232850 248960
260760 294920 158900 187400 193740 215710 224490 253370 176420 206130
212200 276550 194420 148910 178180 232370 174450 185560 186390 212960

En este caso, al igual que el ejemplo anterior, deberán ser tabulados los datos de manera que
facilite el manejo e interpretación de la información, sin embargo, al tener una gran cantidad
de datos y con brechas claramente menores entre unos y otros, se recomienda agruparlos en
rangos o intervalos. Para ello lo primero será identificar el menor y el mayor valor ($125.460 y
$336.250 respectivamente).

Lo segundo será establecer grupos conocidos como clases, donde para cada uno estableceremos
un límite inferior y uno superior. Por ejemplo, el primero considerará las ventas entre $120.000
y hasta $150.000 (obviamente el primer intervalo debe incluir el menor dato establecido), un
segundo intervalo podría ser desde los $150.000 hasta los $180.000. Cabe destacar que los
límites deben ser claramente definidos, es decir, establecer si el dato exacto de $150.000 será
incluido en el primer o segundo rango (en este caso lo incluiremos en el segundo).

La amplitud que contenga cada clase o categoría será definida de acuerdo a como se
representen mejor los datos, pudiendo ser constante o distinta para cada clase, de todas
maneras se recomienda considerar amplitudes iguales entre uno y otro intervalo.
9

El tercer paso será distribuir los datos en las clases o grupos definidos, en nuestro ejemplo, la
tabla de distribución de frecuencia queda de la siguiente forma:

Nivel de Ventas diarias Frecuencia


(en miles de $) de
clase(días)
120 a 150 8
150 a 180 23
180 a 210 17
210 a 240 18
240 a 270 8
270 a 300 4
300 a 330 1
330 a 360 1
Total 80

Así observaremos que:

- El número de clases o categorías es 8


- La frecuencia de clases o número de observaciones para el primer intervalo es 8, es
decir, durante 8 días se vendieron entre $120.000 y $150.000.
- Los niveles de venta diarios van desde los $120.000 hasta los $360.000
- Las ventas diarias se concentran mayormente entre los $150.000 y $180.000
- Sólo dos días se vendieron más de $300.000

El primero de los ejemplos, suele aplicarse a las ya conceptualizadas variables discretas,


mientras que el segundo, puede aplicarse tanto a variables discretas como continuas, así
hablaremos de distribuciones de frecuencia para datos no agrupados (primer caso) y para datos
agrupados o intervalos (segundo ejemplo).

En ambos casos, al cuantificar o definir la cantidad por cada clase, hemos definido la
frecuencia absoluta, denominada (ni) y que indica el número de veces que se repite ese valor.
Sin embargo, existe otra forma de expresar la frecuencia, de forma porcentual y llamada
relativa.

Frecuencias Relativas: Esta otra forma de representar la frecuencia, será representada por
(fi), y que corresponde al cociente entre la frecuencia absoluta y el número total de
observaciones N. Estas frecuencias se pueden expresar en porcentajes o en tantos por uno
sobre el total de datos

Frecuencia Relativa fi = ni/N

Para un mejor análisis e interpretación posterior, se incorpora en la tabla, el cálculo inmediato de


la frecuencia absoluta acumulada (Ni) y de la frecuencia relativa acumulada (Fi).
10

 En el ejemplo anterior del número de hijos por empleados, la fi se indica en la siguiente


tabla. Se incorpora además la frecuencia absoluta y relativa acumulada.

N° de N° de
Hijos empleados
0 4
1 9
2 6
3 4
4 1
5 1
Total 25

Luego:

N° de Frecuencia Frecuencia Frecuencia Frecuencia


Hijos absoluta relativa absoluta relativa
ni fi acumulada acumulada
Ni Fi (%)
0 4 0,16 4 16
1 9 0,36 13 52
2 6 0,24 19 76
3 4 0,16 23 92
4 1 0,04 24 96
5 1 0,04 25 100
Total 25 1

Esto nos permitirá ampliar las interpretaciones, por ejemplo:

- el 16% de los trabajadores tiene 3 hijos


- Sólo el 4% de los trabajadores tiene 5 hijos
- Sobre el 50% (Fi) de los trabajadores no tiene hijos o sólo tiene uno.

Por otra parte, para el caso de datos agrupados, considera además de la frecuencia relativa y
dado que se presenta en intervalos, la amplitud de intervalo y la marca de clase.

Amplitud del Intervalo: Es la diferencia entre el extremo superior y el inferior. Sirve para
conocer el tamaño numérico que existe en un intervalo. Así para el intervalo i-ésimo, la amplitud
vendría dada por:
11

Amplitud de Intervalo ai = ( Ls – Li )
Marca de Clase: Es el punto central de cada intervalo. Sirve para reconocer el punto medio
equidistante entre el límite inferior y superior de la clase. Este será el nuevo xi. Para el
intervalo i-ésimo será:

Marca de Clase Xi = ( Ls + Li )/2

Para ambas: Ls = Límite superior del intervalo


Li = Límite inferior del intervalo

 Para el caso de las ventas diarias de insumos computacionales, la distribución de


frecuencias relativas se presenta como sigue:

Nivel de Ventas diarias Frecuencia


(en miles de $) de
clase(días)
120 a 150 8
150 a 180 23
180 a 210 17
210 a 240 18
240 a 270 8
270 a 300 4
300 a 330 1
330 a 360 1
Total 80

Luego:

Nivel de Ventas diarias Frecuencia Frecuencia Frecuencia Frecuencia


(en miles de $) absoluta relativa absoluta relativa
(ni) fi acumulada acumulada
Ni Fi (%)
120 a 150 8 0,100 8 10
150 a 180 23 0,287 31 28,7
180 a 210 17 0,212 48 59,9
210 a 240 18 0,225 66 82,4
240 a 270 8 0,100 74 92,4
270 a 300 4 0,050 78 97,4
300 a 330 1 0,013 79 98,7
330 a 360 1 0,013 80 100
Total 80 1
12

En este caso la amplitud de intervalo (ai) para cada uno de ellos es de $30.000.
La marca de clase o punto medio del intervalo, por ejemplo, para el tercer rango es de
$195.000, esto quiere decir, que $195.000 es el nivel de venta más representativo o típico de
esa clase o intervalo.

¿CÓMO DETERMINAR EL INTERVALO DE CLASE O EL NÚMERO DE CLASES?

Como se planteó más arriba, los intervalos pudiesen tener amplitudes desiguales entre unos y
otros, mientras que la definición de cuántas clases serán las óptimas, dependerá básicamente
de la cantidad de datos que se posean y que tan dispersos éstos sean. Sin embargo, se sugieren
que los intervalos sean equivalentes, ya que los desiguales podrían generar problemas de
interpretación y esquematización de su forma gráfica.

Existen dos formulas específicas para calcular un intervalo, la primera de ellas se basa en la
determinación previa del número de clases.

Intervalo de Clase i = valor del dato más alto – valor del dato más bajo
número de clases

 En el ejemplo anterior, plantea como condición de entrada que deben ser 8 categorías:

i = $336.250 - $125.460 = $26.349


8

Ref: el ancho de cada intervalo será de $26.349 considerando ambos límites.

La segunda forma de estimar un intervalo, es de acuerdo al número de observaciones, en este


caso la fórmula utiliza un factor amplificado con logaritmo base 10.

i = valor del dato más alto - valor del dato más bajo
1 + 3.322 (log. del total de frecuencias)

 Para el mismo ejemplo


i = $336.250 - $125.460 = $28.790
1 + 3.322 (log 80)

Ref: en este caso cada intervalo deberá tener una “brecha” de $28.790 y a partir de ello, serán
las categorías que se generan.

Finalmente, y como lo hicimos en nuestro ejemplo, existe una tercera modalidad, que
corresponde al criterio de quien desarrolle el ordenamiento de los datos, en el caso anterior, se
definió una amplitud de intervalos aproximando a $30.000.
13

REPRESENTACIÓN GRÁFICA DE UNA DISTRIBUCIÓN DE FRECUENCIAS

En estadística, el análisis gráfico es tan relevante como el resultado estadístico o la


interpretación, ya que sintetiza y describe de mejor manera la información, sobre todo en el
análisis empresarial y económico (recordemos que “una imagen vale más que mil palabras”)

Se puede utilizar el modelo gráfico que se desee, apelando al juicio del experto en relación al que
sea más pertinente según la variable y de acuerdo al número de datos y dispersión o
concentración de ellos.
La forma más común de representar una distribución de frecuencias es a través de un
histograma.

Histograma: es un diagrama basado en el gráfico común de barras, en el que se marcan las clases
(variables) en el eje horizontal y las frecuencias en el eje vertical (absolutas o relativas), así
las frecuencias quedan representadas por las alturas de las barras adyacentes.

 El histograma para el ejemplo del número de cargas familiares, se presenta como sigue:

ni (n° de empleados)

9
8
7
6
5
4
3
2
1
xi (n° de hijos)
1 2 3 4 5
 Para el ejemplo anterior de las ventas diarias, el histograma tendrá la forma:

ni (días)

30

25

20

15

10

120 150 180 210 240 270 300 330 360 xi (Ventas en miles de $)
14

Polígonos de frecuencias: Consiste en segmentos de rectas que unen los puntos determinados por
la intersección de los puntos medios de clase y las frecuencias de clases.

 La gráfica del polígono de frecuencias para el mismo ejemplo de las ventas diarias de
equipos computacionales es:

ni (días)

30

25

20

15

10

5
105 135 165 195 225 255 285 315 345 375 xi (Ventas en miles de $)

Nótese que los puntos 105 y 375 sólo se agregan para anclar el polígono al eje de las abscisas.

Adicionalmente a los dos tipos de gráficos anteriores, pueden ser también utilizadas las
gráficas de barras en sus distintos formatos, las gráficas circulares, escalonadas o cualquier
otra que permita representar en forma visual la distribución de los datos presentados.

También podría gustarte