Está en la página 1de 9

1.

1 Utilidad de la estadística descriptiva


La estadística descriptiva es una disciplina que se encarga de recoger,
almacenar, ordenar, realizar tablas o gráficos y calcular parámetros básicos
sobre un conjunto de datos.
Es aplicable en casi todas las áreas donde se recopilan datos cuantitativos. Puede
brindar información acerca de productos, procesos o diversos aspectos del sistema
de gestión de la calidad, como también en el ámbito de la dirección y organización
de personas, la logística, etc.
Para poder manejar esta información requerimos de variables de medida, es decir,
necesitamos cuantificarlas, ofrecer un número. Dentro de la estadística descriptiva,
podemos describir los datos de manera cualitativa o cuantitativa, que, a grandes
rasgos, una variable cualitativa hace referencia a las cualidades, (color de ojos) y
las cuantitativas hace referencia a una medida contable (cantidad de goles
anotados)
Con esta idea nace la estadística descriptiva, con la de recoger datos, almacenarlos,
realizar tablas o incluso gráficos que nos ofrezcan información sobre un
determinado asunto. Adicionalmente, nos ofrecen medidas que resumen la
información de una gran cantidad de datos.

1.2 Población y muestra


Cuando se recolectan datos sobre las características de un grupo de individuos o
de objetos, por ejemplo, estatura y peso de los estudiantes de una universidad, en
vez de examinar todo el grupo, al que se le conoce como población o universo, se
examina sólo una pequeña parte del grupo, al que se le llama muestra.
La población estadística, también conocida como universo, es el conjunto o la
totalidad de elementos que se van a estudiar. Los elementos de una población lo
conforman cada uno de los individuos asociados, debido a que comparten alguna
característica en común.
Tipos de poblaciones: La población se puede clasificar de la siguiente manera según
la cantidad de individuos que la conforme:
• Población finita: es aquella que se puede contar y se pueden estudiar con
mayor facilidad a sus integrantes.
• Población infinita: son inmensas poblaciones donde se hace muy difícil
contabilizar a sus integrantes, por lo que suele tomarse en cuenta solo una
porción de ella a la hora de realizar un estudio, seleccionando así una
muestra.
• Población real: son grupos de integrantes tangibles.
• Población hipotética: son poblaciones posibles que pueden ser
estudiadas ante una eventualidad.
La muestra es una parte representativa de una población donde sus elementos
comparten características comunes o similares. Se utiliza para estudiar a la
población de una forma más factible, debido a que se puede contabilizar fácilmente.
Cuando se va a realizar algún estudio sobre el comportamiento, propiedades o
gustos del total de una población específica, se suelen extraer muestras.
Tipos de muestras: Existen diferentes tipos de técnicas para conformar una
muestra.
• Muestreo aleatorio. Es una técnica que ofrece la misma posibilidad a los
elementos de ser seleccionados, por ser tomados al azar. Los tipos de muestreo
aleatorio son:
o Muestreo aleatorio simple: los elementos se eligen de una lista al azar.
Funciona más eficazmente cuando el universo es reducido y homogéneo.
o Muestreo sistemático: el primer elemento se elige al azar y luego se
escogen a intervalos constantes los elementos restantes.
o Muestreo estratificado: se realiza dividiendo a la población en partes o
estratos que respondan a características establecidas y luego se eligen
aleatoriamente los individuos que se van a estudiar.
o Muestreo por conglomerado: la población se divide en grupos
heterogéneos y éstos a su vez se subdividen en grupos homogéneos con
características comunes para ser estudiados de acuerdo con lo requerido
por el investigador.
• Muestreo no aleatorio. Se elige con base en el manejo de información de los
elementos a estudiar, por lo que la representatividad de la muestra puede ser
subjetiva. En este caso, se corre el riesgo de que los resultados sean sesgados.

1.3 Tipos de variables y nivel de medición


Una variable es una característica de una muestra o población de datos que puede
adoptar diferentes valores. Cuando hablamos de variable estadística estamos
hablando de una cualidad que, generalmente adopta forma numérica. Claro que no
todas las variables estadísticas son iguales y, por supuesto, no todas se pueden (en
principio) expresar en forma de número.
Aunque existen diversos tipos de variables estadísticas, por lo general nos
encontraremos con dos tipos de variables: las cuantitativas y las cualitativas.
Si los datos corresponden a cantidades, es decir, a variables cuantitativas, las
variables se pueden distinguirse entre discretas y continuas. Son variables
continuas cuando puede tomar valores entre 2 números consecutivos, es decir,
valores decimales. Se dicen que son discretas cuando la variable únicamente
toma números enteros, pueden tomar un número finito de valores entre un
intervalo de datos.
Para el caso de las variables cualitativas, el primer paso en el análisis de datos es
simplemente entender lo que estos significan. Esto se facilita clasificando cada
variable según su nivel de medición. El nivel de medición de una variable no es
otra cosa que la naturaleza matemática de una variable o cómo se mide una
variable y estos son:
• Nominal: Se refiere a la cualidad más que a la cantidad. Son variables de
naturaleza descriptiva y en términos estadísticos, la escala nominal es la más
fácil de comprender e implementar.
• Ordinal: Cuando los datos, además de tener las características de las
variables nominales, tienen un sentido de orden o jerarquía se les llama
variables ordinales. Se les pueden asignar números a las variables para
ordenarlas, pero no se puede hacer un cálculo aritmético de estas.
• Intervalar: En este caso los datos tienen las propiedades de los datos
ordinales, pero a su vez la separación entre las variables tiene sentido. Este
tipo de datos siempre es numérico, y el valor cero no indica la ausencia de la
propiedad.

1.4 Distribución de frecuencia: clases, intervalos, límites, límites reales y


marca.
Cuando hablamos de distribución o tablas de frecuencias, nos referimos a una
técnica de agrupación usada en estadística cuando se tiene un conjunto muy grande
de datos, de tal forma que el análisis posterior se puede realizar de forma más
rápida. La tabla de distribución de frecuencias puede usarse para datos cuantitativos
y para datos cualitativos ordinales.
Antes de aprender a construir una tabla de frecuencias, debemos conocer los tipos
de frecuencias que existen y cómo se calcula cada una de ellas. Existen frecuencias
absolutas y relativas, así como frecuencias absolutas y relativas acumuladas.
La frecuencia absoluta es el número de veces que un dato se repite dentro de un
conjunto de datos. Se representa como fi, donde la «i» corresponde al número de
dato o intervalo. La forma de obtener la frecuencia absoluta no es otra que contando
las veces que aparece el dato en el conjunto de datos.
La suma de las frecuencias absolutas corresponde al número total de datos,
representado por la letra N:

La frecuencia relativa de un dato es el número que se repite ese dato en relación


con el número total de datos, o, en otras palabras, es la proporción de veces que
aparece ese dato con respecto al total.
Se representa como «ni», siendo «i» el número de dato. y se calcula dividiendo la
frecuencia absoluta de cada dato entre el número total de datos:

El valor de la frecuencia relativa siempre va a estar entre 0 y 1. El valor obtenido


está en tanto por uno, pero lo podemos expresar en tanto por ciento si lo
multiplicamos por 100.
La suma de todas las frecuencias relativas de todos los datos de la muestra es igual
a 1 si lo expresamos en decimales (que es lo más común) o igual a 100% si lo
expresamos en porcentajes:

La frecuencia absoluta acumulada es la suma de las frecuencias absolutas que


se va acumulando hasta ese dato, es decir, la frecuencia absoluta acumulada de un
dato en concreto se obtiene sumando su frecuencia absoluta a las frecuencias
absolutas de los datos que son menores que él.
Se representa como «Fi», donde «i» es el número de dato.
Se calcula sumando la frecuencia absoluta de un dato más la frecuencia absoluta
del dato anterior. Por tanto, la frecuencia absoluta acumulada del primer dato
coincide con su frecuencia absoluta y la frecuencia absoluta acumulada del último
dato coincide con el número total de datos.
La frecuencia relativa acumulada es el mismo concepto que para la frecuencia
absoluta acumulada.
Se representa como «Ni», donde la «i» es el número de dato y se puede
obtener como el cociente entre la frecuencia absoluta acumulada para cada
dato entre el número de datos totales:

O también, como la suma de la frecuencia relativa de un dato más la frecuencia


relativa del dato anterior. Así que, la frecuencia relativa acumulada del primer dato
coincide con su frecuencia relativa y la frecuencia relativa acumulada es igual a 1.
Si tenemos un número muy grande de datos, éstos se agrupan en intervalos, para
no tener que realizar tablas muy largas con muchos datos diferentes. También se
agrupan en intervalos cuando las variables son continuas.
En este caso se realiza una tabla de frecuencias con datos agrupados. Como en el
caso anterior, se utiliza tanto para variables cuantitativas como en variables
cualitativas ordinales.
Los datos se agrupan en intervalos, llamados clases y es a estos intervalos son a
los que se les asignan sus frecuencias correspondientes.
Sobre las clases, debes conocer los siguientes conceptos:
• Límites de clase: Cada intervalo tiene un límite inferior, que pertenece a ese
intervalo (cerrado por la izquierda con un corchete) y un límite superior que
no pertenece (abierto por la derecha).
• Amplitud de clase: La amplitud es la diferencia entre el límite superior e
inferior y debe ser la misma para cada intervalo.
• Marca de clase: Es el punto medio de cada intervalo y es el valor que se
utiliza para calcular otras medidas (realmente para el cálculo de frecuencias
no es necesario este valor).

1.5 Medidas de tendencia central: media, mediana, moda, cuartiles, deciles y


percentiles.
Con el objetivo de resumir la información, se idearon diversas fórmulas que ofrecían
medidas de un determinado tipo. Así, están aquellas que nos ofrecen información
sobre el centro, otras sobre la dispersión o variabilidad y otras sobre la posición de
un valor.
Las medidas de tendencia central son medidas estadísticas que pretenden resumir
en un solo valor a un conjunto de valores. Representan un centro en torno al cual
se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central
más utilizadas son: media, mediana y moda.
La media es el valor promedio de un conjunto de datos numéricos, se calcula
como la suma del conjunto de valores dividida entre el número total de valores.
A continuación, se muestra la fórmula de la media aritmética:

La mediana es un estadístico de posición central que parte la distribución en dos,


es decir, deja la misma cantidad de valores a un lado que a otro.
Para calcular la mediana es importante que los datos estén ordenados de mayor a
menor, o al contrario de menor a mayor.
Una vez definida la mediana vamos a pasar a calcularla. Para ello, necesitaremos
una fórmula.
La fórmula no nos dará el valor de la mediana, lo que nos dará es la posición en la
que está dentro del conjunto de datos. Debemos tener en cuenta, en este sentido,
si el número total de datos u observaciones que tenemos es par o impar. De tal
forma que la fórmula de la mediana es:

La moda es el valor que más se repite en una muestra estadística o población. No


tiene fórmula en sí mismo. Lo que habría que realizar es la suma de las repeticiones
de cada valor. Por ejemplo, ¿cuál es la moda de la siguiente tabla de salarios?
Cuartiles, deciles y percentiles
En un conjunto de datos en el que éstos se hallan ordenados de acuerdo con su
magnitud, el valor que divide al conjunto en dos partes iguales, es la mediana.
Continuando con esta idea se puede pensar en aquellos valores que dividen al
conjunto de datos en cuatro partes iguales. Estos valores, denotados Q1, Q2 y Q3
son el primero, segundo y tercer cuartiles, respectivamente. De igual manera, los
valores que dividen al conjunto en diez partes iguales son los deciles y se denotan
D1, D2, . . . , D9, y los valores que dividen al conjunto en 100 partes iguales son los
percentiles y se les denota P1, P2, . . . , P99.
A los cuartiles, deciles, percentiles y otros valores obtenidos dividiendo al conjunto
de datos en partes iguales se les llama en conjunto cuantiles.
Cálculo de cuartiles, deciles y percentiles para datos no agrupados

Donde k es el número de cuartil, decil o percentil que se desea calcular y n el número


total de datos.
Cálculo de cuartiles, deciles y percentiles para datos agrupados

Donde:
Lk = Límite inferior de la clase del Q, D y P k
n = Número de datos
Fk-1 = Frecuencia acumulada de la clase que antecede a la clase del Q, D y P k.
fk = Frecuencia de la clase del Q, D y P k
c = Longitud del intervalo de clase del Q, D y P k = (LimSup - LimInf)

1.6 MEDIDAS DE DISPERSIÓN


Las medidas de dispersión tratan, a través del cálculo de diferentes fórmulas, de
arrojar un valor numérico que ofrezca información sobre el grado de variabilidad de
una variable.
En otras palabras, las medidas de dispersión son números que indican si una
variable se mueve mucho, poco, más o menos que otra. La razón de ser de este
tipo de medidas es conocer de manera resumida una característica de la variable
estudiada. En este sentido, deben acompañar a las medidas de tendencia
central. Juntas, ofrecen información de un sólo vistazo que luego podremos
utilizar para comparar y, si fuera preciso, tomar decisiones.
El rango es un valor numérico que indica la diferencia entre el valor máximo y el
mínimo de una población o muestra estadística. Su fórmula es:

R → Es el rango.
Máx → Es el valor máximo de la muestra o población.
Mín → Es el valor mínimo de la muestra o población estadística.
x → Es la variable sobre la que se pretende calcular esta medida.

La varianza es una medida de dispersión que representa la variabilidad de una


serie de datos respecto a su media. Formalmente se calcula como la suma de los
residuos al cuadrado divididos entre el total de observaciones. Su fórmula es la
siguiente:

X → Variable sobre la que se pretenden calcular la varianza.


xi → Observación número i de la variable X. i puede tomará valores entre 1 y n.
N → Número de observaciones.
x̄ → Es la media de la variable X.

La desviación típica es otra medida que ofrece información de la dispersión


respecto a la media. Su cálculo es exactamente el mismo que la varianza, pero
realizando la raíz cuadrada de su resultado. Es decir, la desviación típica es la raíz
cuadrada de la varianza.

X → Variable sobre la que se pretenden calcular la varianza.


xi → Observación número i de la variable X.
N → Número de observaciones.
x̄ → Es la media de la variable X.
1.7 Representaciones gráficas
En los análisis estadísticos, es frecuente utilizar representaciones visuales
complementarias de las tablas que resumen los datos de estudio. Con estas
representaciones, adaptadas en cada caso a la finalidad informativa que se
persigue, se transmiten los resultados de los análisis de forma rápida, directa y
comprensible para un conjunto amplio de personas.
Aunque las tablas y los gráficos no son algo exclusivo de la estadística descriptiva,
sí que la caracterizan. Eso sí, dentro de las tablas y gráficos existen una cantidad
de tipos inmenso. A continuación, pondremos algunos ejemplos de gráficos y tablas
frecuentemente utilizados.
Diagramas de barras e histogramas
Los diagramas de barras se usan para representar gráficamente series estadísticas
de valores en un sistema de ejes cartesianos, de manera que en las abscisas se
indica el valor de la variable estadística y en las ordenadas se señala su frecuencia
absoluta. Estos gráficos se usan en representación de caracteres cualitativos y
cuantitativos discretos. En variables cuantitativas continuas, se emplea una variante
de estos llamada histograma.
Polígonos de frecuencias
Para construir polígonos de frecuencias, se trazan las frecuencias absolutas o
relativas de los valores de la variable en un sistema de ejes cartesianos y se unen
los puntos resultantes mediante trazos rectos. Con ello se obtiene una forma de
línea poligonal abierta. Los polígonos de frecuencias se utilizan preferentemente en
la presentación de caracteres cuantitativos, y tienen especial interés cuando se
indican frecuencias acumulativas.
Gráficos circulares
También llamados gráficos de pastel, son recursos estadísticos que se utilizan para
representar porcentajes y proporciones. A diferencia de otros tipos de gráficos, el
circular no tiene ejes x o y.
Se utilizan en aquellos casos donde interesa no sólo mostrar el número de veces
que se da una característica o atributo de manera tabular sino más bien de manera
gráfica, de tal manera que se pueda visualizar mejor la proporción en que aparece
esa característica respecto del total.

También podría gustarte