Está en la página 1de 12

Introducción a la Estadística

1.1 CONCEPTOS PRELIMINARES

Cuando se intenta definir el alcance de la Estadística, surge el concepto de dato que por el
momento pensaremos como la información disponible. De aquí que, un conjunto de datos
constituye un grupo de valores o características registradas para cada uno de los
individuos observados, los cuales pueden ser artículos producidos por una máquina
diariamente, precios de los automóviles, peso de una persona, etc.
Las características principales de los datos estadísticos, es que los valores cambian de un
individuo a otro, es decir presentan variabilidad.
Así, se podría indicar que la Estadística es la disciplina que provee de métodos y
procedimientos para obtener, describir, analizar e interpretar un conjunto de datos, que
permiten, luego, tomar decisiones y predecir fenómenos que puedan expresarse en forma
cuantitativa, de acuerdo a ciertos objetivos.
Los métodos estadísticos que se aplicarán en un determinado estudio dependerán de las
condiciones y características propias de dicho estudio. Por ello, antes de presentar los
métodos de resumen de datos, es necesario definir los conceptos de población, muestra,
unidad de observación, variables y datos.
1.1.1 Población
Una población se define como el conjunto de elementos acotados en un tiempo y en un
espacio determinado, con alguna característica común; observable o medible.
Por ejemplo, si el interés es conocer la producción diaria de una fábrica de tornillos la
población es: "todos los posibles valores de producción diaria en aquella fábrica en un
período dado de tiempo".
Cuando los integrantes de una población pueden ser listados, es decir, se puede
confeccionar una lista de los individuos u objetos que componen la población, aunque ella
sea muy grande, entonces se dice que se tiene una población finita, y lo denotamos con N.
Existen otras situaciones donde los integrantes de la población no pueden ser listados, por
ejemplo, si se trata de comparar dos políticas de ventas de un producto, es claro, que lo que
se pretende es que las políticas de venta se puedan aplicar a futuros productos ("todos los
productos producidos en el presente y en el futuro") y en consecuencia sería imposible al
momento del estudio hacer una lista de ello, en tales casos se dirá que nuestra población es
una población hipotética.
Cuando el objetivo es estudiar las características y/o comportamiento de poblaciones
finitas, ellas deben estar claramente definidas a través de los criterios de inclusión y
exclusión. Pero cuando el estudio intenta sacar conclusiones hacia una población hipotética
lo que se debe describir son las características del grupo sobre las cuales se quiere trabajar.
TEMA 1 Introducción a la Estadística

1.1.2 Muestra
Si la población a estudiar contiene un número de individuos que hace imposible analizarlos
en su totalidad, entonces, en lugar de observar a todos los elementos de esa población, se
podría seleccionar un subconjunto (una parte) de ella y usar la información de este
subconjunto para alguna característica sobre la población.
Luego, se define como muestra a un subconjunto o parte de la población seleccionada.
El tamaño muestral es el número de elementos de la población que conforman la muestra y
se denota con n.
1.1.3 Unidad de observación
La unidad mínima de observación, o individuos que componen la población, se denomina
unidad de observación. Por ejemplo, si el objetivo de la investigación es conocer si una
máquina embotelladora llena adecuadamente las botellas de 2 litros, la unidad de
observación será "la botella de 2 litros", sin embargo si el objetivo del estudio se refiere a
las características de las viviendas, la unidad de observación es "la vivienda".
1.1.4 Variable
Es una característica que puede tomar diferentes valores (no necesariamente numéricos) en
las distintas unidades de observación.
Por ejemplo: Edad, peso, sexo, ingresos mensuales, tipo de viviendas, etc.
1.1.5 Datos
Del concepto de variable, surge la siguiente definición formal de datos:
Se denominan datos a los valores observados o medidos de una variable y constituyen la
información disponible.

1.2 CLASIFICACIÓN DE LAS VARIABLES


Dependiendo de la característica en estudio, distinguimos dos grandes grupos de variables:
variables categóricas o cualitativas y variables cuantitativas.
Las variables cualitativas, tal como indica el nombre, son aquellas variables que expresan
una cualidad del objeto o individuo observado (no susceptible de medición numérica).
Es decir, que las respuestas de una variable cualitativa que se puede obtener en los
diferentes individuos, presentan una cualidad de dicho individuo. Ejemplos clásicos de
variables cualitativas son: sexo, nacionalidad, estado civil, nivel de instrucción, etc.
En adelante se hablará de niveles o categorías de las variables cualitativas como sinónimo
de respuestas, por esto una variable cualitativa es también denominada variable
categórica o de atributo.
Es importante destacar que los niveles o categorías de una variable cualitativa deben
definirse de tal manera que cada individuo de la población pueda pertenecer a una y solo
una de las categorías, esto se expresa diciendo que las categorías son mutuamente
excluyentes.
Así, en la variable "Necesidades Básicas Insatisfechas (NBI)", que indica si la vivienda
cumple o no con ciertas características, una variable que pertenece a la categoría "con NBI"
no puede pertenecer a la categoría "sin NBI"

2
TEMA 1 Introducción a la Estadística

Es posible subdividir las variables cualitativas en dos grupos de acuerdo a la existencia o


no de un orden preestablecido de los niveles de respuestas de la variable.
Si no existe un orden jerárquico en las categorías de una variable cualitativa hablamos de
variables nominales.
Ejemplos de este tipo de variables son: sexo, nacionalidad, localización del cáncer, causa de
la defunción, etc. Si se considera la variable nacionalidad puede observarse que entre las
respuestas no hay un orden preestablecido que permita decir que una categoría es de más
nivel que otra categoría.
Por otra parte, si hay un orden entre los niveles asociados a una variable, se habla de
variables ordinales.
Ejemplos de este tipo de variables son: "calidad de un alimento", "nivel socioeconómico",
etc. Si se considera la variable "nivel socioeconómico" y como categorías: alto, medio y
bajo; se puede ver que existe un orden entre ellas.
Un caso especial de la variable cualitativa es la llamada variable dicotómica y es aquella
que presenta dos categorías, una de las cuales representa éxito o presencia de una
característica y la otra representa fracaso o ausencia de la característica.
Por ejemplo, si el objetivo del estudio es analizar la presencia o no de NBI en las viviendas
de una población, la variable "tiene NBI" es una variable dicotómica. En este tipo de
variables, es común asignar un código numérico a cada categoría asignando el valor "1" a la
presencia de la característica y el valor "0" a la ausencia.
Otro gran grupo de variables corresponde a las variables cuantitativas, las cuales tienen
la siguiente característica:
Los valores posibles son la expresión numérica o la medición cuantitativa del hecho que se
está observando.
Por ejemplo: edad, valor de un inventario, número de habitantes por ciudad, producción
diaria de petróleo, presión atmosférica, etc.
Las variables cuantitativas son también susceptibles de una clasificación, a saber:
 Si entre dos valores posibles de la variable, existe solo un número finito de otros
valores, se dice que es una variable discreta. Por ejemplo, si se considera la variable:
"número de habitantes" y se toman los números 2 y 6, entre 2 y 6 habitantes existe un
número finito de habitantes posibles (3, 4 y 5).
 Si el número de valores posibles entre dos valores cualesquiera de una variable es
infinito se habla de variables continuas. Por ejemplo, la variable "precio de un producto
en el mercado".
Es así entonces que la variable "precio de un producto en el mercado" es continua y
"número de habitantes" es discreta.
Es importante señalar que las variables continuas se pueden “discretizar” (por ejemplo
tomando intervalos) y así ser tratadas como discretas o, cuando una variable discreta
asume una gran variedad de valores, esta puede ser tratada como una variable continua.

3
TEMA 1 Introducción a la Estadística

1.3 DISTRIBUCIÓN DE FRECUENCIAS


Una vez que se dispone de los datos para cada individuo, es necesario resumir la
información.
Paro ello, una forma de describir los datos es mostrar la frecuencia que se presentan o
aparecen cada uno de los valores (en el caso de datos cuantitativos) o categorías (para
datos cualitativos) de la (o las) variables consideradas, es decir, el número de individuos que
pertenecen a cada categoría o el número de veces que un mismo valor se presenta en el
conjunto de datos.
Para presentarlos se construye una tabla de distribución de frecuencia que posee una
columna que contiene los diferentes valores que toma la variable en estudio y otra columna
que indica la frecuencia absoluta o simplemente frecuencia.
1.3.1 Tabla de distribución de frecuencias para variables discretas
Simbolizando con xi (i = 1, 2, 3,…, m) a los distintos valores observados de la variable y por
fi a la frecuencia absoluta del valor xi. Podemos agrupar los datos en una tabla de frecuencia
de la siguiente manera;

xi fi
x1 f1
x2 f2
x3 f3
. .
. .
. .

xm fm
m
Con n  f1  f 2  f 3    f m   f i , representando el número total de observaciones.
i 1

Generalmente en una tabla de distribución de frecuencias no solo se muestran las


frecuencias absolutas, sino que también se incluyen las frecuencias relativas y las
frecuencias acumuladas (absolutas y relativas).
Las frecuencias absolutas acumuladas, denotadas por Fi, se definen como el valor que surge
de la acumulación por fila de las correspondientes frecuencias acumuladas, o sea:
F1  f1 , F2  f1  f 2 , F3  f1  f 2  f 3 , y así sucesivamente
En general, se expresan las frecuencias absolutas acumuladas de la siguiente manera:
k
Fk  f1  f 2    f k   f k , con k  m
i 1

Las frecuencias relativas, denotadas por ri, se definen como el cociente entre cada
frecuencia absoluta y el total de observaciones. Es decir:
fi
ri  , i  1,..., m
n
Una propiedad que cumplen las frecuencias relativas es que su suma es igual a 1.

4
TEMA 1 Introducción a la Estadística

Si multiplicamos a cada una de las frecuencias relativas por 100, obtendremos el


porcentaje de representación de la variable en la muestra. De esta manera, se tiene una
mejor apreciación del peso que tiene cada valor de la variable en su distribución de
frecuencias.
Las frecuencias relativas acumuladas se obtienen sumando las frecuencias relativas, de la
misma manera que se sumaron las frecuencias absolutas acumuladas. Las frecuencias
relativas acumuladas serán denotadas con Ri y se calculan como:
Fi
Ri  , i  1,...,m
n
Donde Ri es la frecuencia relativa acumulada para el i-ésimo valor de la variable.

Ejemplo 1.1: En la Tabla 1.1 se muestra la distribución de frecuencias del total de artículos
producidos en una hora por empresas manufactureras del país.

Tabla 1.1 : Artículos producidos en una hora en 125 empresas de un país


Número de artículos fi Fi ri Ri
x1 = 0 1 1 0.008 0.008
x2 = 1 4 5 0.032 0.040
x3 = 2 3 8 0.024 0.064
x4 = 3 15 23 0.120 0.184
x5 = 4 42 65 0.336 0.520
x6 = 5 60 125 0.480 1
Total 125 1

El conjunto de las frecuencias de todas las categorías se denomina distribución de frecuencias


de la variable.
Cabe mencionar que el tratamiento de las variables categóricas es similar al de las variables
cuantitativas discretas. Una tabla de frecuencias para una variable categórica se construye
de la misma forma que en el caso de las variables discretas.
Ejemplo 1.2: En el análisis de una muestra de fábricas de un país, una de las variables de
interés es el "cargo del personal permanente". Para resumir esos datos, contamos con el
número de personas en cada cargo, los resultados se muestran en la Tabla 1.2

Tabla 1.2: Frecuencia del personal de las fábricas, según su cargo


Cargo del Personal Número de casos
Obrero 474
Jefe 405
Gerente de Planta 277
Gerente Regional 58
Directorio 57
Total 1271

5
TEMA 1 Introducción a la Estadística

Luego, la tabla 1.3 muestra la distribución de frecuencias para el problema planteado.

Tabla 1.3: Distribución de Frecuencia del personal de Fábricas


según su cargo
Cargo del Personal fi ri %
Obrero 474 0.37 37%
Jefe 405 0.32 32%
Gerente de Planta 277 0.22 22%
Gerente Regional 58 0.05 5%
Directorio 57 0.04 4%
Total 1271 1.00 100%

1.3.2 Distribución de Frecuencias por intervalos


Para describir la distribución de frecuencia correspondiente a una variable continua, es
necesario agrupar los valores registrados mediante un conjunto de intervalos.
El primer paso, al construir una distribución de frecuencias, es dividir la escala pertinente
de medidas en un conjunto de intervalos disjuntos, de manera que cada observación del
conjunto de datos se encuentre contenido en uno de estos intervalos. Cada uno de los
intervalos resultantes se llama intervalo de clase, o simplemente una clase.
Una vez seleccionados los intervalos de clase, se ponen en lista a lo largo del margen
izquierdo y se determina el número de observaciones que caen en cada clase; estas son las
frecuencias absolutas simples y se presentan en una columna a la derecha de las clases.

Ejemplo 1.3: La Tabla 1.4, muestra los valores obtenidos para una variable continua,
"puntaje obtenido en un examen de ingreso a la Universidad" en una muestra de
estudiantes de sexo masculino. Como se puede observar, a partir de esta tabla es muy difícil
decir algo sobre el comportamiento de la nota en este grupo.

Tabla 1.4: Puntaje de un examen de ingreso de 57


estudiantes de sexo masculino
4.47 4.47 3.48 5.00 3.42 3.78
3.10 3.57 4.20 4.50 3.60 3.75
4.50 2.85 3.70 4.20 3.20 4.05
4.90 5.10 5.30 4.16 4.56 3.54
3.50 5.20 4.71 3.70 4.78 4.14
4.14 4.80 4.10 3.83 3.60 2.98
4.32 5.10 4.30 3.90 3.96 3.54
4.80 4.30 3.39 4.47 3.19
3.10 4.70 3.69 3.30 2.85
4.68 4.04 4.44 5.43 3.04

Hay diferentes maneras de formar los intervalos de clase, es usual incluir el extremo
inferior en un intervalo y el extremo superior en el siguiente, pero eso debe decidirse en
cada caso, con la condición de que se especifique claramente el criterio que se usó para
evitar ambigüedades.
La frecuencia de cada intervalo de clase depende de la elección del extremo inicial y de la
amplitud del intervalo. Si se toma como punto inicial a 2.5 y un intervalo de amplitud 0.5 se
tiene la distribución que se muestra en la Tabla 1 .5.

6
TEMA 1 Introducción a la Estadística

Tabla 1.5: Distribución de frecuencias de notas obtenidos en el examen de ingreso de


57 estudiantes de sexo masculino.
Nota obtenida Frecuencia absoluta Frecuencia relativa
2.5 – 2.99 3 5.3
3.0 – 3.49 9 15.8
3.5 – 3.99 14 24.6
4.0 – 4.49 15 26.3
4.5 – 4.99 10 17.5
5.0 – 5.49 6 10.5
Total 57 100.0

Sin embargo, si se toma como punto inicial a 2.4 y un intervalo de amplitud 0.2 se tiene una
distribución diferente, como se muestra en la Tabla 1.6.

Tabla 1.6: Distribución de frecuencias de notas obtenidos en el examen de ingreso de


57 estudiantes de sexo masculino. Una versión alternativa.
Nota obtenida Frecuencia absoluta Frecuencia relativa
2.4 – 2.59 0 0.0
2.6 – 2.79 0 0.0
2.8 – 2.99 3 5.3
3.0 – 3.19 4 7.0
3.2 – 3.39 3 3.5
3.4 – 3.59 6 10.5
3.6 – 3.79 7 12.3
3.8 – 3.99 3 5.3
4.0 – 4.19 6 10.5
4.2 – 4.39 5 8.8
4.4 – 4.59 7 12.3
4.6 – 4.79 4 7.0
4.8 – 4.99 2 3.5
5.0 – 5.19 3 5.3
5.2 – 5.39 2 3.5
5.4 – 5.59 1 1.8
Total 57 100.0

Se ve entonces que para una variable continua la distribución de frecuencia depende de la


elección del intervalo de clase.
Para la elección de los intervalos se recomienda pensar en que el objetivo de agrupar los
valores observados en intervalos de clase, responde a conseguir presentar los datos de una
manera resumida sin perder demasiada información.

Reglas empíricas para la construcción de intervalos


1. Las clases deben ser excluyentes.
2. Obtener el rango o amplitud de los datos. Es la diferencia entre el valor máximo
(Xmáx) y el valor mínimo (Xmín).
Ra=Xmáx – Xmín

7
TEMA 1 Introducción a la Estadística

3. Determinar el número de intervalos (m) y la amplitud de los intervalos de clase (c).


m n
Tener presente que m es un número natural. Luego, se busca la amplitud c:
c > Ra/m
4. Es conveniente que la amplitud de los intervalos sea constante, aunque no tiene que
ser necesariamente así.
5. Determinar el límite superior del último intervalo y el límite inferior del primero.
Nota: Todos los datos de una clase quedan representados por la marca de clase, que es el
punto medio del intervalo. De esta manera, todos los cálculos se realizan como si en lugar
de tener n valores distintos en una clase, tuviéramos n veces la marca de clase.

1.4 REPRESENTACIONES GRÁFICAS


Aún con una adecuada presentación de los datos en una tabla, algunas veces el lector tiene
dificultades para la interpretación de la información, especialmente aquel que no está
familiarizado con información cuantitativa. La presentación de la misma información
mediante un gráfico, a menudo, provee de considerable ayuda. Hay muchas clases de
gráficos, pero el conocimiento de algunos tipos generales, será suficiente en una primera
etapa del aprendizaje sobre este tema.
La elección del tipo de gráfico depende fundamentalmente de que es lo que se pretende
mostrar con el mismo y el tipo de variable que se quiere presentar, como así también de las
preferencias personales.
1.4.1 Gráfico Circular
Este tipo de gráfico es adecuado para representar la distribución de frecuencia de una
variable cualitativa, particularmente cuando la variable es dicotómica y cuando se quiere
mostrar gráficamente la frecuencia de presentación de un evento cualquiera.
Sin embargo, no resulta muy claro cuando la variable tiene demasiadas categorías o cuando
la variable es ordinal pues no refleja la información del orden entre las categorías, y no es
recomendable para comparar dos o más distribuciones de frecuencias.
Por ejemplo, si consideramos la distribución de frecuencia del personal de la planta del
Ejemplo 1.2, la representación gráfica es:

Obreros
4%
5%
Jefe
22% 37%

Gerente de Planta

Gerente Regional
32%

Directorio

Figura 1.1: Cargo del personal de las Fábricas

8
TEMA 1 Introducción a la Estadística

1.4.2 Gráfico de Barras


Considerando un sistema de coordenadas cartesianas, sobre el eje horizontal se
representan las distintas categorías de la variable en estudio y sobre el eje vertical se
construye una escala adecuada para representar la información correspondiente a cada
una de las categorías. Sobre cada categoría de la variable se levanta una barra de altura
igual a la frecuencia de la categoría en cuestión.
La representación gráfica del Ejemplo 1.2 es:

40%
35%
30%
25%
20%
15%
10%
5%
0%

l
a

na

io
fe
o

nt
er

or
Je

io
la
br

ct
eg
P

ire
O

de

D
te
te

en
en

er
er

G
G

Figura 1.2: Cargo del personal de las Fábricas

 El orden en que se presentarán las categorías de la variable cualitativa dependerá si ella


es ordinal o nominal. Si la variable es de tipo ordinal se representará el orden natural
de las categorías, pero si la variable es nominal se recomienda ordenar las categorías en
orden de frecuencia.
 El nombre de la categoría no debe escribirse en los extremos de la barra ni dentro de
ella pues esto dificultaría la comparación.
 Sin importar la posición de las barras (vertical u horizontal), el eje de las frecuencias
debe comenzar en cero.

1.4.3 Gráfico de barras agrupadas


Este tipo de gráfico se usa especialmente para mostrar la distribución conjunta de dos
variables cualitativas y en algunos casos cuantitativas discretas o continuas cuando el
número de valores o intervalos de clases considerado es pequeño.
Si en el ejemplo del personal de la planta del Ejemplo 1.2 estamos interesados en
comparar la distribución de frecuencias de la variable “cargo del personal” según el sexo,
tenemos la siguiente tabla de frecuencias (Tabla 1.7)

Tabla 1.7: Cargos del personal de las Fábricas según sexo. (Datos
hipotéticos)
Cargo del personal VARONES MUJERES TOTAL
Obrero 122 352 474
Jefe 103 302 405
Gerente de Planta 135 142 277
Gerente Regional 35 23 58
Directorio 27 30 57
Total 422 849 1271

9
TEMA 1 Introducción a la Estadística

Representando gráficamente a través de un gráfico de barras agrupadas, tenemos:

30%
25%
20%
Varones
15%
10% Mujeres
5%
0%

al
fe

ta
o

io
er

Je

on

or
an
br

ct
gi
Pl
O

re
Re
de

Di
te
te

en
en

er
er

G
G

Figura 1.3: Frecuencia de personal de las Fábricas

Observaciones:
1. La suma de todas las frecuencias absolutas debe ser igual al número total de datos si se
representan las frecuencias absolutas, o al 100% si las frecuencias se presentan en
porcentajes.
2. También se puede usar este gráfico cuando se requiere representar la distribución de
frecuencia de una variable en diferentes grupos.

1.4.4 Gráfico de barras proporcionales


Este tipo de gráfico se usa principalmente para mostrar la relación o asociación entre dos
variables cualitativas y en algunos casos cuantitativas discretas o continuas cuando el
número de valores o intervalos de clases considerado es pequeño.
Por ejemplo, la Tabla 1.8 muestra la distribución conjunta de dos variables: "Nivel de
Instrucción" y "Nivel Económico" en una localidad.

Tabla 1.8: Nivel económico según nivel de instrucción en una localidad


(Valores hipotéticos)
Nivel de instrucción Nivel económico
Alto Medio Total
Universitario 43 12 55
No universitario 15 32 47

Representando gráficamente, tenemos


100%
22%
80%
68%
60% Medio
40% 78% Alto

20% 32%
0%
Universitario No universitario

Figura 1.4: Nivel Económico según nivel de instrucción


en una localidad 1995 (Valores hipotéticos)

10
TEMA 1 Introducción a la Estadística

Se puede observar en el gráfico que la proporción o frecuencia de personas con Nivel de


Ingreso alto es mayor en el grupo con nivel de Instrucción Universitario que en el de nivel
de Instrucción no Universitarios. Esto hace sospechar que el nivel de instrucción tiene
influencia en el nivel de Ingresos.

Observaciones:

1. La variable que debe representarse en el eje horizontal (nivel de instrucción) es aquella


que puede eventualmente producir un efecto sobre la otra (nivel de ingresos).
2. Si el número de categorías de la variable respuesta (nivel de ingresos) es mayor de tres,
es más adecuado usar un gráfico de barras agrupadas.

1.4.5 Histograma
El Histograma es particularmente adecuado para representar una distribución de
frecuencias de una variable cuantitativa continua.
Este es un diagrama donde los intervalos de clase se representan en el eje horizontal y
sobre ellos se levantan rectángulos adyacentes con áreas iguales o proporcionales a las
frecuencias de los intervalos de clase. Así, el área total de los rectángulos resulta igual al
número total de observaciones, en caso de usar las frecuencias absolutas, y resulta igual al
100% cuando se usan las frecuencias relativas expresadas en porcentajes. La altura de cada
rectángulo se logra dividiendo la frecuencia del intervalo de clase por la longitud o
amplitud de dicho intervalo. Cabe destacar que si todos los intervalos de clases tienen la
misma longitud, entonces la altura de los rectángulos son iguales o proporcionales a las
frecuencias observadas.
La Figura 1. 5 muestra un histograma para la distribución de las notas de la Tabla 1.5.

Nota obtenida

Figura 1.5: Histograma de la distribución de frecuencia de la


nota obtenida.

La escala vertical muestra la frecuencia absoluta, es decir el número de observaciones en


cada intervalo. En el eje horizontal se representó el punto medio de cada intervalo de clase.
Al igual que el gráfico de barras también se puede representar la frecuencia en porcentajes
sobre la escala vertical.

11
TEMA 1 Introducción a la Estadística

1.4.6 Polígono de frecuencia


Al igual que el Histograma, se utiliza para representar la distribución de frecuencia de una
variable cuantitativa continua, pero es particularmente útil para comparar la distribución,
de este tipo de variable, para dos o más grupos.
Este gráfico consiste en reemplazar los rectángulos por un polígono que se obtiene
conectando los puntos medios de las partes superiores de los rectángulos del histograma.
f

12

También podría gustarte