Está en la página 1de 68

Glosario bsico

de trminos
estadsticos

Lima,mayode2006

Glosario bsico de trminos estadsticos

CREDITOS

Direccin y Supervisin
Lupe Berrocal de Montestruque
Directora Tcnica del Centro de Investigacin y Desarrollo
Responsable del documento
Herminia Asurza Olaechea
Apoyo en revisin
Santiago Alejandro Billn

Preparado
Impreso
Diagramacin
Tiraje
N de Orden

: Por el Centro de Investigacin y Desarrollo


: Talleres de la Oficina Tcnica de Administracin (OTA) del
Instituto Nacional de Estadstica e Informtica
: Centro de Edicin del INEI
:
ejemplares
: 485-OI-OTA-INEI

Hecho el Depsito Legal en la Biblioteca Nacional del Per N : 2006-6441


2

Glosario bsico de trminos estadsticos

Presentacin
El Instituto Nacional de Estadstica e Informtica (INEI), a travs del Centro de
Investigacin y Desarrollo, continuando con su poltica de difusin y fortalecimiento
de la cultura estadstica, pone a disposicin de los usuarios interesados en conocer
los conceptos bsicos de la ciencia estadstica el documento Glosario bsico de
trminos estadsticos.
La estadstica es la ciencia que se ocupa del estudio de fenmenos de tipo genrico,
en el mbito social y econmico, normalmente complejos y enmarcados en un
universo variable. Emplea modelos de reduccin de la informacin y de anlisis de
validacin de los resultados en trminos de representatividad. La informacin puede
ser numrica o alfabtica.
Una de las ramas de la ciencia estadstica es la estadstica descriptiva, que se
encarga desde la recoleccin, procesamiento, anlisis y hasta la presentacin de
un conjunto de datos, mediante las denominadas medidas de posicin, dispersin,
forma y concentracin, con el fin de describir, apropiadamente, ese conjunto de
datos. La otra rama es la estadstica inferencial que se refiere al mtodo para lograr
generalizaciones acerca de las propiedades del todo.
Usualmente el trmino estadstica se utiliza como sinnimo de dato. Sin embargo
una informacin numrica cualquiera puede no constituir una estadstica. Para
merecer esta denominacin, los datos han de constituir un conjunto coherente,
organizado de forma sistemtica y siguiendo un criterio de ordenacin.
El presente documento comprende los trminos ms usuales de la estadstica.
Los conceptos incluidos son de fcil comprensin y permiten conocer las definiciones
elementales del argot estadstico, ordenadas alfabticamente.
El INEI espera contribuir con esta publicacin al manejo bsico de los trminos
estdsticos includos.
Lima, mayo de 2006

FARID MATUK
Jefe
Instituto Nacional de
Estadstica e Informtica
3

Glosario bsico de trminos estadsticos

Glosario bsico de trminos estadsticos

Glosario bsico de trminos


estadsticos
Este Glosario le permite acceder fcilmente a una definicin sencilla de
los principales trminos utilizados en estadstica ordenados alfabticamente.

A
AFIJACIN DE UNA MUESTRA.- Es un mtodo utilizado para
establecer cmo debe distribuirse la muestra. En un muestreo estratificado,
se refiere generalmente a la determinacin del nmero de unidades en la
muestra de cada estrato. En el muestreo por conglomerados, se refiere a
la decisin sobre el nmero de conglomerados por seleccionar y el tamao
de la muestra en cada conglomerado.
AFIJACIN PTIMA DE UNA MUESTRA.- Es la forma de
seleccionar una muestra de manera tal que produzca un error estndar
mnimo para un tamao de muestra constante. Se utiliza en muestreo
estratificado y en muestreo por conglomerados.
AMPLITUD DE UN INTERVALO.- Conocido tambin como amplitud
de clase, es la diferencia entre los dos extremos de un intervalo.
ANLISIS DE CONTINGENCIA.- Es el estudio que se realiza con las
tablas de contingencia y consiste en analizar el grado de asociacin o
dependencia entre dos variables cualitativas; para medir el grado de
dependencia se utiliza el coeficiente de contingencia. (Ver coeficiente de
contingencia).
ANLISIS DE CORRELACIN.- Es el estudio que se realiza para medir
la intensidad o grado de la asociacin que existe entre variables numricas.
ANLISIS DE REGRESIN.- Es el estudio que se realiza con el propsito
de hacer predicciones. El objetivo es el desarrollo de un modelo estadstico
que pueda ser utilizado para predecir valores de una variable dependiente,
basado en los valores de la variable independiente.
ANLISIS DE VARIANZA.- Es un mtodo para comparar dos o ms
medias (Ver media) de n grupos analizando la varianza de los datos,
tanto entre n grupos como dentro de ellos.
5

Glosario bsico de trminos estadsticos

En el anlisis de varianza se subdivide la variacin total de las mediciones


resultantes (SST Sum of squares of the treatments) en lo que puede atribuir
a diferencias entre los n grupos (SSA Sum of squares between(among))
y lo que se debe al azar o que se puede atribuir a una variacin inherente
dentro de los n grupos (SSW Sum of squares within). La variacin dentro
de grupos se considera error experimental, mientras que la variacin entre
grupos se atribuye a efectos de tratamiento.
Variacin total (SST)

Variacin entre grupos (SSA)


Variacin dentro de grupos (SSW)

ASIMETRA.- Es la falta de simetra entre los datos de una distribucin.


El concepto de asimetra se refiere a si la curva que forman los valores de
la serie presenta la misma forma a la izquierda y derecha de un valor
central (media aritmtica).
AUTOCORRELACIN.- Se denomina as a la correlacin de una variable
consigo misma cuando se desfasa uno o ms periodos de tiempo. Se
determina calculando el coeficiente de autocorrelacin. Se usa para tal
efecto la siguiente frmula:

Donde:
r k Es el coeficiente de autocorrelacin para un desfasamiento de k
periodos.
Y
Es la media de los valores de la serie
Yt Es la observacin en el periodo de tiempo t
Yt+k Es la observacin en k periodos posteriores o en el periodo t+k.
Por lo cual
r 1 es el coeficiente de autocorrelacin en el primer desfasamiento,
r 2 es el coeficiente de autocorrelacin en el segundo desfasamiento y
as sucesivamente hasta un rk desfasamiento.
6

Glosario bsico de trminos estadsticos

B
BASE DEL NDICE.- Es la magnitud utilizada como unidad de referencia,
contra la cual se hacen todas las comparaciones de la variable en estudio.
Esta base puede corresponder a un ao, un trimestre, un mes, etc. Al
seleccionar el perodo base para un ndice (Ver ndice), debe tomarse en
cuenta dos reglas:
1. El perodo base seleccionado, hasta donde sea posible, debe ser de
normalidad o estabilidad econmica.
2. El perodo base debe ser reciente a fin de que las comparaciones no
se afecten por cambios en la tecnologa, en la calidad del producto
o por las actitudes e intereses de los consumidores. El valor del ndice
para el perodo base es 100.
BONDAD DE AJUSTE.- Es un indicador que permite discernir acerca
de qu tan buena es la ecuacin obtenida. Para determinar la bondad de
un ajuste se utilizan diferentes criterios en la regresin lineal. Unos se refieren
a los residuales como son el valor de la sumatoria de residuales al cuadrado,
la varianza, la desviacin estndar del ajuste y el coeficiente de correlacin
al cuadrado. Otro indicador de la bondad de ajuste es el realizado
mediante el test de bondad de ajuste utilizando la prueba Ji-Cuadrada
(X2), Kolgomorov -Smirnov (K-S) entre otras.
BOXPLOT.- (Ver diagrama de caja).

C
CARTOGRAMAS.- Es un tipo de grfico mediante el cual se muestra
datos estadsticos sobre una base geogrfica como mapas.
CENSO.- Es una investigacin estadstica que consiste en el recuento de
la totalidad de los elementos que componen la poblacin por investigar.
Es necesario que se especifique el espacio y el tiempo al que se refiere el
recuento.
CICLO.- (Ver variaciones o fluctuaciones cclicas).
CLASE MEDIANA.- En una tabla de datos agrupados, es la clase o
intervalo al que pertenece el valor de la mediana.
CLASE MODAL.- En una tabla de datos agrupados, es la clase o intervalo
que tiene la mayor frecuencia.
7

Glosario bsico de trminos estadsticos

CLASE O CATEGORA.- Se denomina as a la caracterstica o a los


intervalos construidos convenientemente para agrupar la informacin. Est
conformada por el nmero de particiones que se realiza al conjunto de
informacin.
CODIFICACIN.- Es asignar nmeros o claves a la informacin para
facilitar el procesamiento. Generalmente se realiza sobre las respuestas
de un cuestionario, para poder identificarlas con mayor eficacia al
momento del procesamiento de datos.
COEFICIENTE DE ASIMETRA DE FISHER.- Es un valor que indica
la asimetra. Simblicamente se representa por g1 . Se obtiene mediante
la siguiente frmula:

g 1 =
m 3 =

m 3
s 3
1

(xi - x)

i
=1

Donde:
S es la desviacin estndar
Los resultados pueden ser los siguientes:

g1 = 0
g1 > 0

g1 < 0

La distribucin es simtrica: existe la misma concentracin de


valores a la derecha y a la izquierda de la media.
La distribucin es asimtrica positiva: existe mayor
concentracin de valores a la derecha de la media que a su
izquierda. La cola derecha es ms larga.
La distribucin es asimtrica negativa: existe mayor
concentracin de valores a la izquierda de la media que a su
derecha. La cola izquierda es ms larga.

COEFICIENTE DE ASIMETRA DE PEARSON.- Es un valor que


indica la asimetra. Simblicamente se representa por As, y se obtiene
mediante la siguiente frmula:

As =

3x- Me

As =

x- Mo
S

Glosario bsico de trminos estadsticos

Donde:
onde:

c
Mo
S
Me

Es la media aritmtica
Es la moda
Es la desviacin estndar
Es la mediana

As = 0 Entonces la distribucin es simtrica.


As > 0 Entonces la distribucin es asimtrica hacia la derecha o tiene
sesgo positivo.
As < 0 Entonces la distribucin es asimtrica hacia la izquierda o tiene
sesgo negativo.
COEFICIENTE DE CONFIANZA.- Se representa por (1- a ) y es la
probabilidad de que la hiptesis nula Ho no sea rechazada cuando de
hecho es verdadera y debera ser aceptada.
COEFICIENTE DE CONTINGENCIA Chi-Cuadrado (c2).- Es un
nmero que mide el grado de asociacin o dependencia de las
clasificaciones en una tabla de contingencia (h x k). Se obtiene mediante
la siguiente frmula:
2

c =
i=1 j=1

(n - e )

ij

ij

eij

0 x2 N[min(h,k) - 1]

Donde:
ni n j
eij =
"i, j
N
Cuanto ms se acerque la Chi-Cuadrado a cero menos asociacin hay
(ms independencia) entre los atributos.
Cuanto ms se acerque la Chi-Cuadrado a su cota superior ms
asociacin hay (menos independencia) entre los atributos.
Cuando la Chi-Cuadrado es igual a cero no hay asociacin entre los
atributos. Es decir los atributos son independientes.
9

Glosario bsico de trminos estadsticos

COEFICIENTE DE CORRELACIN LINEAL DE PEARSON.- Es un


nmero que mide la intensidad de la asociacin lineal entre dos variables.
El coeficiente de correlacin se representa simblicamente por "r".
Este coeficiente se aplica cuando la relacin que puede existir entre las
variables es lineal (es decir, si representramos en un grfico los pares de
valores de las dos variables, la nube de puntos se aproximara a una recta).

No obstante, puede que exista una relacin que no sea lineal, sino
exponencial, parablica, etc. En estos casos, el coeficiente de correlacin
lineal medira mal la intensidad de la relacin de las variables, por lo que
convendra utilizar un tipo de coeficiente ms apropiado.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

r=

c[X, Y]
sxsy

Los valores que puede tomar el coeficiente de correlacin "r" son:


-1 < r < 1
Si "r" > 0

10

La correlacin lineal es positiva (si sube el valor de una variable


sube el de la otra). La correlacin es tanto ms fuerte cuanto
ms se aproxime a 1.

Glosario bsico de trminos estadsticos

Si "r" < 0

La correlacin lineal es negativa (si sube el valor de una variable


disminuye el de la otra). La correlacin negativa es tanto ms
fuerte cuanto ms se aproxime a -1.
No existe correlacin lineal entre las variables, aunque podra
existir otro tipo de correlacin (parablica, exponencial, etc.)

Si "r" = 0

De todos modos, aunque el valor de "r" fuera prximo a 1 -1, tampoco


esto quiere decir obligatoriamente que existe una relacin de causa-efecto
entre las dos variables, ya que este resultado podra haberse debido al
puro azar.
COEFICIENTE DE CURTOSIS.- Es una medida de forma (Ver curtosis).
Se conoce como coeficiente de curtosis de Fisher, en honor al matemtico
britnico Ronald Fisher (1890-1962).
El valor se obtiene mediante la siguiente frmula:

g 2 =

m 4
- 3
s 4

Donde:

m4 =

(xi - x)
i=1

S es la desviacin estndar
Los resultados pueden ser los siguientes:
g2 > 0 (distribucin leptocrtica).
g2 = 0 (distribucin mesocrtica).
g 2< 0 (distribucin platicrtica).

DISTRIBUCIONES

11

Glosario bsico de trminos estadsticos

COEFICIENTE DE DETERMINACIN.- Es un valor que se obtiene


elevando al cuadrado el coeficiente de correlacin. Se representa
simblicamente por r2 y puede tomar valores entre 0 y 1.
El coeficiente de determinacin mide la proximidad del ajuste de la ecuacin
de regresin de la muestra a los valores observados de la variable
dependiente.
COEFICIENTE DE GINI.- (Ver ndice de concentracin de Gini). Es
una medida de la desigualdad. Mide la distribucin o nivel de concentracin
del ingreso o renta. Su denominacin es en honor al estadstico italiano
Corrado Gini. El coeficiente de Gini es un nmero entre 0 y 1, en donde 0
se corresponde con la perfecta igualdad o distribucin equitativa ( todos
tienen los mismos ingresos); y 1 se corresponde con la perfecta desigualdad
(una persona tiene todos los ingresos y todos los dems ninguno).
COEFICIENTE DE VARIACIN DE PEARSON.- Es una medida de
dispersin relativa y se calcula dividiendo la desviacin tpica entre la media
aritmtica:

s
CV = ---------- X 100
x
La ventaja de este coeficiente es que no lleva asociado ninguna unidad de
medida. Se Interpreta como porcentaje, por lo que nos permitir decidir
entre dos muestras, cul es la que presenta mayor dispersin.
Simblicamente se denota por CV.
COEFICIENTES DE REGRESIN.- Son los valores constantes de una
ecuacin de regresin lineal. En el modelo de regresin lineal siguiente los
coeficientes son a y b.
y = a + bx
a
b
12

representa el punto de interseccin con el eje


representa la pendiente de la recta

Glosario bsico de trminos estadsticos

b=

XY - n Y X
X - nX
.

a = Y - bX

COMBINACIONES.- Consiste en tomar diferentes agrupaciones de r


elementos de un total de n objetos sin importar el orden, y el nmero de
combinaciones se obtiene mediante la siguiente frmula.

n!

n C r = r!(n- r) !
Donde:
n
Representa el total de objetos
r
Nmero de objetos agrupados
n! Representa Factorial del total de datos, se obtiene 1x2x3x....xn
COMPONENTES DE UNA SERIE TEMPORAL .- Los datos de un
fenmeno se representan ordenados en el tiempo (Ver series temporales)
Segn el enfoque clsico una serie es el resultado de cuatro componentes:
tendencia, variaciones o fluctuaciones estacionales, variaciones o
fluctuaciones cclicas y variacionaes irregulares, accidentales, residuales,
como se aprecia en el grfico siguiente:

CONCENTRACIN.- Cuantifica el grado de equidistribucin de la


distribucin de un fenmeno: salarios, rentas etc. Para medir el nivel de
concentracin de una distribucin de frecuencia se puede utilizar distintos
indicadores entre ellos el ndice de concentracin de Gini.
13

Glosario bsico de trminos estadsticos

CONGLOMERADO.- Es una subpoblacin que rene caractersticas


presentes en la poblacin. Los elementos que la componen poseen cierta
caracterstica que les hace ser propios de cierta cualidad o atributo, tal
como lugar geogrfico, grupo tnico, ideologa, organizacin social, etc.
CONTRASTE DE HIPTESIS.- Conocido tambin como dcima o
prueba de hiptesis, es el proceso estadstico que se sigue para la toma de
decisiones a partir de la informacin de la muestra. Comparando el valor
del estadstico experimental con el valor terico, se rechaza o acepta la
hiptesis nula (H0). Lo contrario a la hiptesis nula se llama hiptesis alterna
(H1).
CORRELOGRAMA.- Es un grfico que permite apreciar las
autocorrelaciones r1, r2,........,rk mediante el cual se identifican si los
datos de una serie de tiempo tienen las siguientes caractersticas:
estacionalidad, aleatoriedad, tendencia y estacionariedad.
COVARIANZA.- Es una medida de la asociacin lineal entre dos
variables.
n

(X - X)(Y - Y) X Y
i

C[X, Y]=

Si

i=1

i i

i=1

- XY

> 0 hay dependencia directa (positiva), es decir a grandes


valores de X corresponden grandes valores de Y.
Si C[X, Y] = 0 las variables estn incorrelacionadas, es decir no hay
relacin lineal.
Si C[X, Y] < 0 hay dependencia inversa o negativa, es decir a grandes
valores de X corresponden pequeos valores de Y.
C[ X, Y]

Una desventaja de la covarianza como medida de asociacin es que su


valor depende de las unidades en que se miden las variables de inters.
Para evitar esta propiedad, se ha ideado una medida de asociacin que
es independiente de las unidades de medicin, la cual recibe el nombre de
correlacin (Ver coeficiente de correlacin lineal de Pearson).
14

Glosario bsico de trminos estadsticos

CUARTIL.- Es una medida de posicin no central o de localizacin. Los


cuartiles son los tres valores que dividen la distribucin en cuatro partes
iguales, es decir, en cuatro intervalos dentro de cada cual estn incluidos
el 25% de los datos de la distribucin:
l

Q1 Representa el primer cuartil y se interpreta como que el 25% de la


distribucin es menor que el Q1 obtenido.
Q2 Representa el segundo cuartil y se interpreta como que el 50% de la
distribucin, es menor que el Q2 obtenido. Este valor es igual a la
mediana.
Q3 Representa el tercer cuartil y se interpreta como que el 75% de la
distribucin, es menor que el Q3 obtenido.
FORMULAPARADATOSAGRUPADOS

(rN/4) Ni1
Qr =Li+

xc

r=1,2,3

ni

Donde:
r
Es el nmero del cuartil que se desea calcular y puede tomar los
valores de: 1, 2 y 3
Li Lmite inferior de la clase cuartlica
N Total de datos
Ni-1 Frecuencia absoluta acumulada menor o igual a rN/4.
ni Frecuencia absoluta de la clase cuartlica
c
Amplitud del intervalo
CUASIVARIANZA.- Es un valor que se obtiene de manera similar a la
varianza pero dividiendo entre n-1 en lugar de n. La cuasivarianza cuantifica
la dispersin o variabilidad de la muestra. La cuasivarianza muestral es
un estimador centrado (no sesgado) de la varianza poblacional.
CUESTIONARIO.- Es el instrumento ms utilizado para recolectar datos.
Consiste en un conjunto de preguntas respecto a una o ms variables a
medir. La esencia de los cuestionarios son las preguntas que permiten
alcanzar los objetivos de la investigacin. Las respuestas a estas preguntas
constituyen los datos estadsticos que sern utilizados para conocer las
caractersticas de la poblacin o muestra bajo estudio.
15

Glosario bsico de trminos estadsticos

CURTOSIS.- Es una medida de forma. Tambin se conoce como medida


de apuntamiento mide si los valores de la distribucin estn ms o menos
concentrados alrededor de los valores medios de la muestra. Se definen 3
tipos de distribuciones segn su grado de curtosis: Distribucin mesocrtica,
distribucin leptocrtica y distribucin platicrtica. (Ver grfico en
coeficiente de curtosis).
CURVA DE LORENZ.- Es una grfica de concentracin acumulada
de la distribucin de la riqueza. Para elaborar una curva de Lorenz, se
anotan los porcentajes acumulados del ingreso contra los porcentajes
acumulados de las familias clasificadas, de las de ingresos ms bajos a
las de ingresos ms altos. Los nmeros requeridos se derivan de la
informacin obtenida en la investigacin. Esos pares de nmeros
determinan la curva de Lorenz. Se dibuja una lnea diagonal perfecta a lo
largo del cuadrante (por ejemplo el 20% del ingreso es recibido por el
20% de las familias). Mientras ms cerca est la curva de Lorenz de la
lnea diagonal, ser ms equitativa la distribucin del ingreso. Por lo tanto,
una medida de igualdad debe medir qu tan cerca se encuentra la curva
de Lorenz de la diagonal. Una medida de este tipo es el coeficiente de
Gini.

CURVA NORMAL.- Tambin denominada curva o campana de Gauss,


en honor al matemtico alemn Karl Friedrich Gauss. La curva normal es
una distribucin simtrica de mediciones, con el mismo nmero de casos
16

Glosario bsico de trminos estadsticos

a distancias especficas tanto por debajo como por encima de la media.


Su media es el punto debajo del cual cae exactamente el 50% de los casos
y sobre el que se encuentra el otro 50%. En estas distribuciones la media,
mediana y la moda son valores idnticos. En una curva normal la mayora
de los casos se concentran alrededor de la media.

Donde:
e es la constante 2,7182(base de los logaritmos neperianos).
p es 3,1415 (relacin entre la longitud de la circunferencia y su
dimetro).
x es la abscisa, cualquier punto del intervalo.
m es la mediana de la variable aleatoria.
s es la desviacin tipo de la variable aleatoria, y
f(x) la ordenada de la curva.

D
DATO.- Conocido tambin como informacin, es el valor de la variable
asociada a un elemento de una poblacin o una muestra.
DATO CUALITATIVO.- Es aquel que representa alguna caracterstica
de los elementos de una muestra o una poblacin que presentan, atributos,
actitudes o son opiniones. Son datos NO NUMRICOS. (Ver variable
cualitativa).

17

Glosario bsico de trminos estadsticos

DATO CUANTITATIVO.- Es aquel dato numrico que representa


aspectos de una muestra o una poblacin que es medible o que se puede
contar. (Ver variable cualitativa).
DATOS DE PANEL.- Son aquellos datos que son una combinacin de
series de tiempo y datos de seccin cruzada o corte transversal que se
obtienen sobre un mismo conjunto de unidades de anlisis (individuos,
familias o empresas) en distintos periodos de tiempo.
DATOS DE SECCIN CRUZADA O DE CORTE TRANSVERSAL.Son aquellos que corresponden a distintas unidades de anlisis ( individuos,
familias o empresas) pero referidos al mismo periodo de tiempo.
DECIL.- Es una medida de localizacin o posicin no central. Los deciles
son los nueve puntos que dividen la distribucin en diez puntos de forma
tal que dentro de cada una, estn incluidos el 10% de los datos. Entonces,
un decil es un valor que representa la dcima parte de un conjunto de
informacin. Se representa simblicamente por Dr .
(rN/10)Ni1
Dr =Li +

xc

r=1,2,3,..........9

ni
Donde:
r
Es el nmero del decil que se desea calcular. Puede tomar valores
de 1,2,.3,....,.9
Li Lmite inferior de la clase declica
N Total de datos
Ni-1 Frecuencia absoluta acumulada anterior a la clase declica
ni Frecuencia absoluta de la clase declica
c
Amplitud o tamao del intervalo
DEFLACTAR.- Es transformar valores expresados en precios corrientes
(valor nominal) a valores en precios constantes (valor real). La deflactacin
se calcula usando la expresin siguiente:

18

Glosario bsico de trminos estadsticos


Valorreal=(valornominal/ndicedeprecios)x100

Lo cual indica el valor expresado en unidades monetarias de igual poder


adquisitivo que el del ao base.
DENSIDAD DE POBLACIN.- Es la medida ms tradicional y usada
con mucha frecuencia para expresar el nmero de habitantes por kilmetro
cuadrado. Se calcula dividiendo el nmero de habitantes de una zona por
la superficie total que tiene esa zona.

DNiZ =

N iZ
Si

Donde:
DNiZ Representa la densidad de poblacin del lugar "i" en el ao "z".
NiZ

Representa la poblacin total del lugar "i" en el ao "z".

Si

Representa la superficie del lugar "i".

DESVIACIN ESTNDAR.- Conocida tambin como desviacin tpica,


es una medida de dispersin que se obtiene como la raz cuadrada de la
varianza. (Ver varianza).
n

S =

S2 =

Xi - X ni

i=1

Datosagrupados

n
n

S =

S2 =

2
(Xi - X )

i=1

Datossimplesosinagrupar

Este estadstico se mide en la misma unidad que la variable por lo que se


puede interpretar mejor que la varianza.
DESVIACIN MEDIA.- Es una medida de dispersin. Es un nmero
que representa la media de los valores absolutos de las desviaciones respecto
a su media aritmtica. Se expresa en la misma unidad en la que se
presentan los datos. Se la denota como DM.
19

Glosario bsico de trminos estadsticos

Xi - X ni

DM =

i =1

Datosagrupados

N
m

Xi - X

DM =

i =1

Datossimplesosinagrupar

DESVO TIPIFICADO (z).- Conocido tambin como estandarizacin


de la distribucin normal. Es la transformacin de cualquier variable
aleatoria normal x con media m y una desviacin estndar s , en una
variable aleatoria estandarizada de distribucin normal, con media 0 y
desviacin tpica 1.
x- m
Z =
s
DIAGRAMA.- Es un dibujo o representacin grfica que sirve para
representar un objeto, indicar la relacin entre elementos o mostrar el
valor de una magnitud.
DIAGRAMA DE BARRAS.- Es un grfico utilizado para representar la
distribucin de frecuencias de una variable cualitativa y cuantitativa
discreta. Puede graficarse en forma horizontal o vertical.

20

Glosario bsico de trminos estadsticos

DIAGRAMA DE BASTONES (ESPECTRO).- Es un grfico utilizado


para representar una distribucin de frecuencias o frecuencias relativas
de una variable numrica (en general discreta) sin agrupar.

DIAGRAMA DE CAJAS.- Conocido tambin como BOXPLOT. Es


un importante grfico del anlisis exploratorio de datos. Al igual que el
histograma, permite tener una idea visual de la distribucin de los datos.
Permite determinar si hay simetra, ver el grado de variabilidad existente y
detectar los "outliers" (datos muy diferentes al conjunto de informacin),
es decir la existencia de posibles datos discordantes. Adems, el Boxplot
es bien til para comparar grupos Es un diagrama que muestra la distancia
en que se encuentran los datos y cmo estn distribuidos equitativamente.

RecorridointercuartlicoRI=Q3 Q1
DIAGRAMA DE DISPERSIN.- Es un grfico utilizado para representar
la relacin entre los valores observados de dos variables numricas.
Tambin se conoce como nube de puntos.
21

Glosario bsico de trminos estadsticos

Estatura

DIAGRAMA DE FLUJO.- Es una representacin grfica de los pasos


en un proceso. til para determinar cmo funciona realmente el proceso
para producir un resultado. El resultado puede ser un producto, un servicio,
informacin o una combinacin de los tres. Los diagramas de flujo se
pueden aplicar a cualquier aspecto del proceso desde el flujo de materiales
hasta los pasos para realizar la venta u ofrecer un producto.
DIAGRAMA DE FLUJO DE LA DIVISIN DE DOS NMEROS
INICIO

LEER
A
1
LEER
B
Si
B=0
No

C=A/B

ESCRIBIR
C

FIN

22

Glosario bsico de trminos estadsticos

DIAGRAMA DE PARETO.- Es una forma especial de grfico de barras


verticales donde se organizan diversas clasificaciones de datos por orden
descendente, de izquierda a derecha, por medio de barras sencillas
despus de haber reunido los datos para calificar las causas. De modo
que se pueda asignar un orden de prioridades, separa los problemas muy
importantes de los menos importantes, estableciendo un orden de
prioridades.
El nombre de Pareto fue dado por Joseph Juran en honor del economista
italiano Vilfredo Pareto (1848-1923) quien realiz un estudio sobre la
distribucin de la riqueza, en el cual descubri que la minora de la poblacin
posea la mayor parte de la riqueza y la mayora de la poblacin posea la
menor parte de la riqueza. Con esto estableci la llamada "Ley de Pareto"
segn la cual la desigualdad econmica es inevitable en cualquier sociedad.
Juran aplic este concepto a la calidad, obtenindose lo que hoy se conoce
como la regla 80/20.
Segn este concepto, si se tiene un problema con muchas causas, podemos
decir que el 20% de las causas resuelven el 80% del problema y el 80% de
las causas slo resuelven el 20% del problema.

Matemticas

Tarjeta
de
Tiempo

Renta
de
Autos

Autorizacin

Otros

23

Glosario bsico de trminos estadsticos

DIAGRAMA DE SECTORES.- Es un grfico utilizado para representar


la distribucin de frecuencias relativas de una variable cualitativa. (Ver
grfico circular).
Hbitos de fumar

DIAGRAMA DE TALLOS Y HOJAS.- Es una forma semigrfica de


representar una distribucin de frecuencias de una variable numrica.
Vamos a construir un diagrama de tallo y hojas para el siguiente conjunto
de 20 puntajes de ingreso a la universidad:
62 68 72 92 86 76 52 76 82 78 82 74 88 66 58 74 78 84 96 76

Siendo los datos nmeros de dos cifras, vemos que hay datos en los grupos
del 50, 60, 70, 80 y 90. El primer dgito de cada dato debe utilizarse
como tallo y el segundo como hoja. Se traza una lnea vertical y se colocan
los tallos a su izquierda, en columna. Luego se coloca cada hoja junto a
su tallo hasta completar la lectura de todos los datos. La presentacin de
tallo y hojas es la siguiente.
Frecuencia
2
3
8
5
2

Tallo

Hojas

5
6
7
8
9

2
2 8
4 8 6 2 6 6 8
8 4 6 2
2

8
6
4
2
6

N = 20
Unidad = 1

Proporciona una idea de la distribucin de la variable en estudio.


24

Glosario bsico de trminos estadsticos

Si los datos tuviesen cifras decimales, al construir el diagrama de tallo y


hojas, el punto decimal se pierde por tal razn se acostumbra indicar las
unidades que los datos del tallo representan. As, si los datos de arriba
fuesen decimales 6.2 6.8 ........7.6, debajo del diagrama se pondra
"Unidad = 0.1".
DIAGRAMA EN ESCALERA.- Es un grfico utilizado para representar
la distribucin de frecuencias acumuladas de una variable discreta
numrica.

DISTRIBUCIN BIDIMENSIONAL.- Es la disposicin de la frecuencia


de dos variables de cada elemento de la poblacin. Por ejemplo: peso y
altura de un grupo de estudiantes, superficie y precio de las viviendas de
una ciudad, potencia y velocidad de una gama de autos deportivos etc.
Sea una poblacin donde se estudia simultneamente dos caractersticas
X e Y, se representa genricamente como (xi , yj , nij), donde xi , yj, son dos
valores cualesquiera y nij es la frecuencia absoluta conjunta del valor
i-simo de X con el j-simo de Y.
Una forma de disponer estos resultados es la conocida como tabla de
doble entrada o tabla de contingencia y se representa como sigue:

25

Glosario bsico de trminos estadsticos

Y
X
x1
x2
.
.
.
xi
.
.
.
xh
n.

y1

y2

..

yj

..

yk

ni .

n11

n12

.
.

.
.

n1 .
n2 .
.
.

ni1

ni2

.
.
.

.
.
.

nh1

nh2

nhj

..
..
.
.
.
..
.
.
.
..

n1k

n22

..
..
.
.
.
..
.
.
.
..

n1j

n21

nhk

ni .
.
.
.
nh .

n.

n.

..

n.

..

n.

n2j

.
.
nij

.
.
.

n2k

.
.
nik

.
.
.

1 n
2
j
k
En jeste caso,
nos
indica el nmero
de veces que
se repite x 1
11
conjuntamente con y1, n12, nos indica la frecuencia conjunta de x1 con y2,
etc.

DISTRIBUCIN CONDICIONAL.- De una tabla de frecuencias


bidimensionales se puede formar varias distribuciones unidimensionales
en las que previamente hace falta definir una condicin. Las distribuciones
surgen al fijar un valor de una de las variables (condicionante) y considerar
la distribucin de los valores de la otra variables (condicionada).
-

Al condicionar reducimos el nmero de elementos de la distribucin


defina por un valor especfico de la otra variables.
El nmero total de distribuciones condicionadas es h+k
h
k

nmero de filas
nmero de columnas

DISTRIBUCIN MARGINAL.- Es la distribucin de frecuencias de


una variable independientemente de cmo se comporta la otra variable
de una distribucin bidimensional. De cada distribucin bidimensional se
pueden deducir dos distribuciones marginales: una correspondiente a la
variable x y otra correspondiente a la variable y.

26

Glosario bsico de trminos estadsticos

Distribucin marginal de X
X

x1
x2

.
n .
n .
ni

.....

...

xn1

nn1

xn

.
n .
n

Distribucin
marginal de Y
Y

y2

.
n.
n.

.....

...

y1

ym1
ym

.
n.

m1

DISTRIBUCIN LEPTOCRTICA.- Es aquella que presenta un elevado


grado de concentracin alrededor de los valores centrales de la variable.
CURVALEPTOCRTICA

DISTRIBUCIN MESOCRTICA.- Es conocida tambin como curva


normal o campana de Gauss. Es aquella que presenta un grado de
27

Glosario bsico de trminos estadsticos

concentracin alrededor de los valores centrales de la variable. (Ver curva


normal).
CURVAMESOCRTICA

DISTRIBUCIN PLATICRTICA.- Es aquella que presenta un reducido


grado de concentracin alrededor de los valores centrales de la variable.
CURVAPLATICRTICA

DISTRIBUCIN UNIDIMENSIONAL.- Es una tabla resumen en la


que se estudia una sola variable. Los datos se disponen segn
agrupamientos o categoras convenientemente establecidas. Puede
construirse con variable cualitativa o cuantitativa.
Categoraso
clases

Frecuencias Frecuencias
Frecuencias Frecuencias
Absolutas
Relativa
Absolutas
Relativas
acumuladas acumuladas
ni
h i
Ni
Hi

1
2

m
m

Total

h1

N1

H1

n2
.
.
ni
.
.
.
nm

h2
.
.
hi
.
.
.
hm

N2
.
.
Ni
.
.
.
Nm

H2
.
.
Hi
.
.
.
Hm

ni = N hi =1
i=1

28

n1

i=1

Glosario bsico de trminos estadsticos

DISTRIBUCIN NORMAL O CURVA NORMAL.- Llamada tambin


como distribucin de Gauss, es la distribucin de probabilidad ms
utilizada en estadstica y teora de probabiliad. Esto se debe a dos razones:
Su funcin de densidad es simtrica y con forma de campana lo que
favorece su aplicacin como modelo a gran nmero de variables.
Es adems lmite de otras distribuciones y aparece relacionada con
resultados ligados a la teora de las probabilidades gracias a sus
propiedades matemticas. La funcin de densidad est dada por:

1
f (x) =
e
s 2p

( x- m )2
2s 2

Donde:
m Media
s 2 Varianza
Desviacin estndar
s
p
Constante = 3,1415.....
e
Constante = 2,7182.....

E
ENCUESTA.- Es un mtodo de recoleccin de datos. Es llevada a cabo
generalmente a travs de algn cuestionario que puede o no ser
diligenciado por el encuestado y/o encuestador.
ENTREVISTA.- Es un mtodo de recoleccin de datos. Consiste en una
serie de preguntas realizadas por el entrevistador, personalmente, a cada
uno de los entrevistados.
ERROR DE MUESTREO.- Conocido tambin como error muestral, es
la diferencia que existe entre el valor real (parmetro) obtenido con los
valores de la poblacin y el valor estimado en base a los valores de una
muestra (estimacin).

29

Glosario bsico de trminos estadsticos

ERROR TIPO I.- En la teora de decisiones, es el error que se comete al


rechazar la hiptesis nula H0, cuando es verdadera.
ERROR TIPO II.- En la teora de decisiones, es el error que se comete al
aceptar la hiptesis nula H0 cuando es falsa.
HIPTESISNUL AHo
VERDADERA

HIPTESISNUL AHoFALSA

SeaceptalaHo

Correctamenteaceptada

ErrordetipoII

SerechazaHo

ErrordetipoI

DECISIONESPOSIB LES

Correctamenterechazada

ESPACIO MUESTRAL.- Es el conjunto de todos los resultados posibles


de un experimento aleatorio. Cada experimento aleatorio tiene definido
su espacio muestral (es decir, un conjunto con todas las soluciones
posibles).
Ejemplo: si tiramos una moneda al aire una sola vez, el espacio
muestral ser cara o sello.
Si el experimento consiste en lanzar una moneda al aire dos veces,
entonces el espacio muestral estara formado por (cara-cara), (carasello), (sello-cara) y (sello-sello).
ESTACIONARIA.- Es la serie de datos cuyas propiedades estadsticas
bsicas como la media y la varianza permanecen constantes en el tiempo,
es decir cuando la serie no presenta crecimiento o declinacin es
estacionaria.

30

Glosario bsico de trminos estadsticos

ESTADSTICA.- Es la ciencia que comprende una serie de mtodos y


procedimientos destinados a la recopilacin, tabulacin, procesamiento,
anlisis e interpretacin de datos cuantitativos y cualitativos. Un objetivo
de la estadstica es describir "la poblacin del estudio" en base a informacin
obtenida de elementos individuales. Se divide en dos ramas: Estadstica
descriptiva y Estadstica inferencial
ESTADSTICA DESCRIPTIVA.- Rama de la ciencia estadstica que se
encarga desde la recopilacin, procesamiento y anlisis de la informacin
siendo sus conclusiones vlidas slo para el grupo analizado.
ESTADSTICA INFERENCIAL.- Rama de la ciencia estadstica que
proporciona mtodos y procedimientos que permiten obtener conclusiones
para una poblacin a partir del estudio de una o ms muestras
representativas.
ESTADSTICO.- Conocido tambin como estadgrafo, es el valor
calculado en base a los datos que se obtienen sobre una muestra y por lo
tanto es una estimacin de los parmetros. Entre los ms usados se tiene
la media muestral y la desviacin estndar muestral.
ESTIMADOR.- Es un estadstico empleado para estimar un parmetro.
ESTIMADOR INSESGADO.- Es un tipo de estimador que posee la
propiedad de que el promedio de las estimaciones efectuadas a partir de
todas las muestras posibles de un determinado tamao es igual al valor
verdadero o valor poblacional.
ESTRATIFICACIN.- Es un procedimiento por medio del cual una
poblacin se divide en grupos llamados estratos, con el propsito de
seleccionar una muestra separada en cada grupo. Cada uno de estos
grupos o estratos debe ser internamente lo ms homogneo posible.
ESTRATO.- Es una subpoblacin o parte de una poblacin que rene
caractersticas comunes que le hacen ser homognea. Los estratos son
mutuamente excluyentes. Ello significa que los elementos que pertenecen
a un estrato no pueden pertenecer a otro.
31

Glosario bsico de trminos estadsticos

EXACTITUD.- Es la cercana de una medicin al verdadero valor que se


pretende medir.
EXPERIMENTO.- Es un mtodo de investigacin mediante el cual se
determina la incidencia de variables independientes sobre la variable
dependiente.
EXPERIMENTO ALEATORIO.- Es cualquier acto que implique la
observacin de los valores de una variable aleatoria. Es aquel que puede
dar lugar a varios resultados, sin que pueda ser previsible enunciar con
certeza cul de stos va a ser observado en la realizacin del experimento.

F
FACTOR DE EXPANSIN.- Es un nmero constante (factor o
multiplicador) por medio del cual el valor de la variable muestral se expande
o eleva a nivel de la poblacin total. El factor de expansin es el recproco
o inverso de la fraccin de muestreo.
FRACTIL O CUANTIL.- Es el valor que se obtiene al fraccionar el
conjunto de datos en partes o fracciones iguales. Los ms conocidos
son: mediana, cuartiles, deciles y percentiles.
FRECUENCIA ABSOLUTA.- Es el nmero de veces que la variable asume
un valor dado o pertenece a una clase dada. Se representa simblicamente
por ni.
FRECUENCIA ABSOLUTA ACUMULADA.- Es el nmero de
observaciones hasta (inclusive) un valor dado de una variable numrica.
Se representa por Ni.

FRECUENCIA CONDICIONAL.- En una distribucin conjunta, son las


frecuencias de una de las variables estando fijo un valor de la (s) otra (s)
variable(s).
32

Glosario bsico de trminos estadsticos

FRECUENCIA CONJUNTA.- Es un nmero nij que representa la


ocurrencia de dos variables (x, y) en los elementos de poblacin o de la
muestra. (Ver distribucin bidimensional)
FRECUENCIA MARGINAL.- En una distribucin conjunta, son las
frecuencias de cada una de las variables sin tener en cuenta el valor de la
(s) otra (s).
FRECUENCIA RELATIVA.- Es un valor que se obtiene como el cociente
de la frecuencia absoluta (ni) sobre el tamao de la muestra (N).
Simblicamente se representa por hi.
ni
hi =
N

FRECUENCIA RELATIVA ACUMULADA.- Es una cantidad que se


obtiene como el cociente de la frecuencia absoluta acumulada (Ni) sobre
el tamao de la muestra (N). Simblicamente se representa por Hi.
Ni
Hi =
N

FUENTES DE DATOS.- Medios de donde procede la informacin. Los


datos pueden reunirse de diferentes fuentes de informacin ya existentes o
pueden obtenerse mediante censos, encuestas y estudios experimentales
para conseguir nuevos datos.
FUENTE PRIMARIA.- Es aquella en la que los datos estadsticos se
obtienen a partir de un relevamiento propio, como por ejemplo a partir de
una encuesta.
FUENTE SECUNDARIA.- Es aquella persona o institucin que
proporciona datos estadsticos, es decir los datos se obtienen a partir de
un relevamiento de otros recopiladores.
33

Glosario bsico de trminos estadsticos

G
GRADO DE URBANIZACIN.- Es el porcentaje de poblacin que
reside en las zonas urbanas (ciudades) de un pas, regin o lugar. Se
define como el cociente de la poblacin urbana entre el total de la
poblacin, multiplicado por 100. Se expresa como porcentaje:
PNU iZ =

NUiZ

NiZ

x 100

donde:
PNUiZ representa el porcentaje de poblacin urbana del lugar "i" en el ao "z".
NU iZ representa la poblacin urbana que reside en el lugar "i" en el ao "z".
representa la poblacin total del lugar "i" en el ao "z".
NiZ

GRADOS DE LIBERTAD.- En estadstica grados de libertad de un


estadstico calculado en base a n datos, se refiere al nmero de cantidades
independientes que se necesitan en su clculo, menos el nmero de
restricciones que ligan a las observaciones y el estadstico. Simblicamente
se representa por gl.
Ejemplo: Sea Xi : 2, 5,7,9,12 su media es X =7 y se ha calculado a partir
de n=5 observaciones independientes, que estn ligadas por la media
aritmtica. Luego el nmero de grados de libertad de la media es n-1=4
GRFICO CIRCULAR.- Conocido tambin como grfico de sectores
circulares. Est formado por un crculo dividido en sectores, de modo que
cada uno de ellos representa una categora distinta de la variable
observada, manteniendo su proporcin relativa respecto del total de la
muestra. (Ver diagrama de sectores).
GRFICO DE REAS.- Grfico que busca mostrar la tendencia de la
informacin generalmente en un perodo de tiempo. Pueden ser para
representar una, dos o ms series en dos, o tres dimensiones.
GRFICO DE BARRAS.- Ver diagrama de barras.
34

Glosario bsico de trminos estadsticos

GRFICO DE CAJAS.- (Ver diagrama de cajas).


GRFICO DE LNEAS.- Diagrama donde se representa con lneas los
valores de los datos en dos ejes cartesianos ortogonales entre s. Se puede
usar para representar una, dos o ms series.
GRFICO SEMILOGARTMICO.- Es un diagrama donde uno de los
ejes est en escala logartmica. Se utiliza cuando hay grandes incrementos
entre s.

H
HIPTESIS ESTADSTICA.- Es una afirmacin respecto a alguna
caracterstica de la poblacin en estudio que se formula para ser sometida
a la denominada prueba de hiptesis, para ser aceptada o rechazada.
HISTOGRAMA.- Grfico utilizado para representar la distribucin de
frecuencias de una variable continua. Describe el comportamiento de un
conjunto de datos en cuanto a su tendencia central, forma y dispersin.
Est formado por un conjunto de rectngulos unidos, cuya base es igual
a la amplitud del intervalo, y la longitud proporcional a la frecuencia.

I
INDEPENDENCIA ESTADSTICA.- Se dice que dos variables X e Y
son independientes, estadsticamente, cuando la frecuencia relativa
conjunta es igual al producto de las frecuencias relativas marginales en
todos los casos, es decir:

nij ni n j

= *
n n n

"i , j 0

Si esta condicin no se cumple para todos los valores, se dice que hay
dependencia estadstica.
NDICE.- Es la relacin expresada en porcentaje entre el precio, cantidad
o valor de un bien y servicio o conjunto de bienes y servicios, en un perodo
35

Glosario bsico de trminos estadsticos

de estudio y el precio, cantidad o valor del mismo bien y servicio o conjunto


de bienes y servicios en el periodo de referencia o perodo base
El nmero ndice es :

I to(i )=

xit
*100
xio

X io Representa el valor de la magnitud en el periodo base


X it Representa el valor de la magnitud en el periodo que se quiere estudiar
El ndice mide la variacin (expresado en porcentaje) que ha sufrido la
magnitud X entre los dos periodos considerados. Puede referirse a precios,
cantidad y valor. (Ver nmero ndice).
NDICE DE CANTIDAD.- Es un nmero que refleja la variacin en las
cantidades de un producto o un conjunto de productos en dos momentos
en el tiempo. Ejemplos: ndice de exportacin del algodn, el ndice de
produccin industrial, variacin de la carga transportada, entre otros.

qt0 =

qit
* 100
qio

NDICE DE PRECIOS.- Es un nmero que refleja el cambio en el precio


de un bien, servicio o conjunto de bienes y servicios en un perodo de
tiempo, en relacin con el precio en un perodo de referencia (perodo
base).
P
Pt0 = it *100

Pio

NDICE DE VALOR.- Es un nmero que expresa la variacin en el valor


de un conjunto de productos en dos momentos en el tiempo o el espacio.
Ejemplo: ndice de ventas comerciales, valor de las exportaciones, deuda
externa, entre otros.
p q
Vt0 = it it * 100
pioqio
NDICE AGREGATIVO.- Es aquel que expresa la variacin de un
conjunto de artculos agregados. Entre ellos tenemos el ndice de Laspeyres,
Paasche y Fisher.
36

Glosario bsico de trminos estadsticos

NDICE DE PRECIOS DE LASPEYRES.- Describe la variacin de


precios de una canasta de bienes y servicios elegidos en un ao base, que
permanece inalterable durante los perodos sucesivos.

IPL =

Q Pt 100
Q P
0

0 0

Donde:
P0
Q0
Pt

Precio del ao base


Cantidad del ao base
Precio del ao dado

NDICE DE PRECIOS DE PAASCHE.- Es un nmero que describe la


relacin exitente entre el precio actual de un grupo de bienes y servicios y
el precio de dichos bienes y servicios en el ao base. A diferencia del
ndice de precios de Laspeyres donde se mantenan fijas las cantidades de
la canasta de bienes y servicios del peroido base, para el ndice de precio
de Paasche estas cantidades van variando y corresponden a las del perodo
corriente (periodo actual).
El ndice de precios de Paasche est definido por:

IPP =

QtPt 100
QtP
0

37

Glosario bsico de trminos estadsticos

NDICE IDEAL DE FISHER.- Es un ndice de precios que se obtiene


como la media geomtrica de los nmeros ndices de Laspeyres y de
Paasche. El ndice ideal de Fisher satisface los criterios de inversin temporal
y de inversin de factores, lo que le confiere una cierta ventaja terica
sobre otros nmeros ndice.
Se obtiene de la combinacin de los ndices de Laspeyres y Paasche:
I Ft/o =

PtQ0 PtQt

PQ P0Qt
0 0

ILxIP

NDICE DE CARLI.- Es un ndice agregado simple. Si los precios de un


conjunto de bienes en el perodo base estn dados por Po1, Po2, Po3, Po4,
etc., y los precios de estos mismos bienes para el perodo dado t son Pt1 ,
Pt2 , Pt3 , Pt4, etc., entonces el ndice de Carli se define como la media
aritmtica de la evolucin de los precios relativos:
It/o =

t x100
n P

Donde n es el nmero de bienes y la suma de (Pt / Po) se extiende a todos


los bienes.
NDICE DE CONCENTRACIN DE GINI.- Es el coeficiente expresado
en porcentaje. Aunque el coeficiente de Gini se utiliza, sobre todo, para
medir la desigualdad en los ingresos tambin puede utilizarse para medir
la desigualdad en la riqueza.
El coeficiente se calcula como el doble del rea encerrada por la Curva de
Lorenz y la diagonal.
Este ndice se calcula aplicando la siguiente frmula:
n

( p - q )
i

IG = i=1

i=1

38

Glosario bsico de trminos estadsticos

En donde pi mide el porcentaje de individuos de la muestra que presentan


un valor igual o inferior al de xi.
pi =

n1 + n2 + .......+ ni
*100
n

Mientras que qi se calcula aplicando la siguiente frmula:


(x*n)+(x2*n)+..........
.+(x*n)

i i
i
n i
qi =(x*n
*100
)+(x*n )+..........
......+(x*n )
1

El ndice Gini (IG) puede tomar valores entre 0 y 1:


IG = 0

IG = 1

Concentracin mnima. Indica que la muestra est


uniformemente repartida a lo largo de todo su rango.
Distribucin perfecta equitativa.
Concentracin mxima. Indica que un solo individuo acumula
el 100% de los resultados. Distribucin perfecta desigual.

NDICE DE MARSHALL-EDGEWORTH.- Indice que se calcula por


el mtodo de agregacin ponderada. Utiliza como ponderacin la media
aritmtica de las cantidades consumidas en el ao base y en el ao de
estudio. (perodo en que se calcula el ndice).
Spn (q0 + qn)
ndice de Marshall-Edgeworth =
Sp0 (q0 + qn)
Donde:
q0 Representa cantidades del ao base.
qn Representa cantidades del ao dado.
NDICE DE MASCULINIDAD.- Es un nmero que relaciona el nmero
de hombres por cada 100 mujeres, expresado como porcentaje.
Es un indicador bsico para el anlisis de la distribucin por sexo de la
poblacin. Se expresa como la relacin por cociente entre el nmero de
varones y el nmero de mujeres en una poblacin dada o en parte de ella.
Se define como:
IM (X) =

NH(X)
x 100
NF(X)
39

Glosario bsico de trminos estadsticos

donde:
IM(X) es el ndice de anlisis correspondiente a la edad X.
NH(X) es el total de varones a la edad X.
NF(X) es el nmero total de mujeres a la edad X
NDICE DE PRECIOS AL CONSUMIDOR (IPC).- Es un indicador
econmico que muestra la variacin en los precios de un conjunto de
bienes y servicios (canasta familiar) que consume habitualmente un grupo
representativo de familias de diversos estratos socio-econmicos de un
pas.
Esto nos indica qu tanto ms cara o ms barata est la canasta (los
bienes y servicios seleccionados) en el periodo actual, en comparacin
con el periodo base, expresndolo como un porcentaje.
La ponderacin de los bienes y servicios (artculos) que componen la
canasta familiar son los pesos relativos medidos en trminos de valores de
gasto, con relacin al gasto total de los hogares. Las ponderaciones
permanecen fijas hasta un nuevo cambio de base del ndice.
NDICE DE ENVEJECIMIENTO.- Es un valor que se obtiene dividiendo
el nmero de personas de 60 y ms aos entre el nmero de los menores
de 15 aos, multiplicado por 100.
El descenso de los niveles de mortalidad y fecundidad a travs del tiempo
produce el envejecimiento de la poblacin; esto es, disminuye la proporcin
de la poblacin menor de 15 aos y a la vez aumenta la proporcin de
adultos mayores, fenmeno que se conoce como envejecimiento de la
poblacin. Se expresa como
IV =

N(60 y+ )
N(014)

x100

donde:
IV
representa el ndice de envejecimiento o vejez.
N(60 y +) representa la poblacin de 60 y ms aos de edad.
N(0 -14) representa la poblacin de menores de 15 aos de edad.
40

Glosario bsico de trminos estadsticos

INFERENCIA ESTADSTICA.- Es una parte de la estadstica cuya


finalidad es obtener conclusiones respecto a la poblacin a partir de datos
observados en muestras. Es el proceso por medio del cual se hacen
aseveraciones o estimaciones de un todo, a partir de sus partes o elementos.
INTERVALO DE CLASE.- Es el conjunto de datos cuantitativos
comprendido entre dos valores. Generalmente se ubican en la primera
columna en una tabla de distribucin de frecuencias.
Se conoce intervalos abiertos, semiabiertos, cerrados y semicerrados, en
funcin a la inclusin de los valores extremos.
INTERVALO DE CONFIANZA.- Conocido tambin como lmites de
confianza. Es un rango de valores en el cual se encontrara el valor del
parmetro, con una probabilidad determinada.
Generalmente se construye intervalos de confianza con 95% de
probabilidad (Ver parmetro).

L
LMITE INFERIOR.- Es el menor valor de un intervalo de clase.
LMITE SUPERIOR.- Es el mayor valor de un intervalo de clase.

M
MARCA DE CLASE.- Es la denominacin que se le da al punto medio
de un intervalo en una tabla de frecuencias de datos agrupados. Hay
tantas marcas de clase como intervalos tenga la variable. Simblicamente
se representa por xi .

41

Glosario bsico de trminos estadsticos

MARCO MUESTRAL.- Es la totalidad de unidades de muestreo de la


que se selecciona una muestra. El marco puede ser una lista de personas,
o unidades de vivienda, hogares, un archivo de registros, un mapa
subdividido, una foto area con detalles, entre muchos otros.
MEDIA ARITMTICA PARA DATOS SIMPLES.- Es una medida de
tendencia central que denota el promedio de un conjunto de datos. Se
calcula dividiendo la suma del conjunto de datos entre el total de ellos.
Simblicamente se representa por: X
n

X =

x
i

i=1

MEDIA ARITMTICA PARA DATOS AGRUPADOS.- Es una medida


de tendencia central. Se calcula multiplicando cada valor de los elementos
por el nmero de veces que se repite. La suma de todos estos elementos se
divide entre el total de datos:
(X1 * n1)+(X2 *n2)+(X3 *n3)+.....+(Xm1 *nm1)+(Xm * nm)

X =

La media aritmtica de una variable se define como la suma ponderada


de los valores de la variable por sus frecuencias relativas. Se denota por X
y se calcula mediante la expresin:
m

X =

xi* ni

i
=1

xi representa el valor de la marca de clase o punto medio del intervalo.


ni representa la frecuencia absoluta
N representa el total de datos.
MEDIA ARMNICA.- Es un valor que se obtiene como la inversa de la
media de las inversas de las observaciones. Se le denota por H.

42

Glosario bsico de trminos estadsticos

Donde:
ci representa el valor de la variable o en su caso la marca de clase.
ni representa la frecuencia absoluta
MEDIA GEOMTRICA.- Es una medida de tendencia central. Dado
dos nmeros y1 e y2 , llamaremos media geomtrica (G) de estos nmeros
a la raz cuadrada del producto de los mismos. Cuando se tiene N
observaciones (ms de dos datos): x1 , x2....xp y cada uno de ellos se
repite n1, n2......np veces entonces, generalizando la primera expresin se
tiene:

Solo se puede calcular si no hay observaciones negativas o valores cero.


Es menos sensible que la media aritmtica a los valores extremos. Su
valor es siempre menor o igual que la media aritmtica. Su uso ms
frecuente es el de promediar porcentajes, tasas, nmeros ndices, entre
otros, es decir en los casos que se supone que la variable presenta
variaciones acumulativas.
MEDIANA.- Es una medida de tendencia central. Es el valor que divide
al conjunto de datos ordenados, en aproximadamente dos partes: 50%
de valores son inferiores y otro 50% son superiores. Por ejemplo, si
decimos que la mediana de los sueldos de los obreros de una empresa es
de 800 soles mensuales, estamos indicando que el 50% gana menos que
800 y el otro 50% gana ms.
Simblicamente se representa por
Clculo de la mediana para datos no agrupados en
intervalos: Tendremos en cuenta el nmero de datos N :
Si tenemos N datos y N es impar, hay un trmino central entonces este
valor central es la mediana.
Si N es par, hay dos trminos centrales, la mediana ser la semisuma
de esos dos valores.
43

Glosario bsico de trminos estadsticos

Clculo de la mediana en datos agrupados en intervalos:


Si la variable se encuentra representada por intervalos, se calcula
mediante la siguiente frmula:
~

(N/2) - Nj-1

X= LI + ------------------ * ci
ni
Donde:
LI
Es el lmite inferior de la clase mediana.
Nj-1
Es la frecuencia absoluta acumulada anterior o igual a la
frecuencia de la clase mediana.
ni
Frecuencia de la clase mediana
N
Total de datos.
ci
Es la amplitud del intervalo de la clase mediana.
MEDIDA DE ASOCIACIN.- Es un valor o medida que indica cunto
varan conjuntamente dos o ms variables. (Ver coeficiente de correlacin).
MEDIDAS DE ASIMETRA.- Son aquellas orientadas a elaborar un
indicador para establecer el grado de simetra (o asimetra) que presenta
la distribucin, sin necesidad de una representacin grfica. Se mide con
el coeficiente de Fisher y el de Pearson. (Ver coefiente de asimetra).
MEDIDAS DE DISPERSIN.- Son aquellas medidas de resumen que,
de acuerdo a algn criterio, reflejan la heterogeneidad de las observaciones.
Dan una idea sobre la representatividad de las medidas de tendencia
central, a mayor dispersin menor representatividad. Entre ellas: desviacin
media, varianza, desviacin tpica, coeficiente de variacin, entre otros.
MEDIDAS DE FORMA.- Permiten conocer que forma tiene la curva
que representa la serie de datos. Entre estas medidas tenemos las de
concentracin, asimetra y curtosis. (Ver ndice de concentracin de Gini,
coeficiente de asimetra y coeficiente de curtosis).
MEDIDAS DE POSICIN.- Resumen caractersticas generales de la
ubicacin de la distribucin de los datos dentro de un conjunto de valores
posibles. Estas pueden ser de tendencia central y no central.
44

Glosario bsico de trminos estadsticos

MEDIDAS DE POSICIN DE TENDENCIA CENTRAL.- Son medidas


de resumen que, de acuerdo a algn criterio, indican un valor alrededor
del cual se distribuyen las observaciones. Se tiene a: la media, mediana y
moda, media geomtrica y media armnica.
MEDIDAS DE POSICIN DE TENDENCIA NO CENTRALES.Conocido tambin como medidas de localizacin. Son aquellos valores
que permiten conocer otros puntos caractersticos de la distribucin que
no son los valores centrales. Son valores de la distribucin que la dividen
en partes iguales, es decir en intervalos que comprenden el mismo nmero
de datos como los cuartiles, deciles y percentiles.
MTODO DE MNIMOS CUADRADOS.- Es un mtodo utilizado para
determinar los parmetros de una ecuacin de regresin que mejor se
ajuste al conjunto de puntos. El mtodo consiste en minimizar la suma de
las diferencias de los valores observados y estimados al cuadrado. Cuando
se utiliza este mtodo en regresin, la funcin ecuacin se llama ecuacin
de regresin mnimo cuadrtica.
MODA.- Es una medida de tendencia central es el valor de la variable
que tiene mayor frecuencia absoluta, la que ms se repite es la nica
medida de centralizacin que tiene sentido estudiar en una variable
cualitativa, pues no precisa la realizacin de ningn clculo. Por su propia
definicin, la moda no es nica, pues puede haber dos o ms valores de
la variable que tengan la misma frecuencia siendo esta mxima. Entonces
tendremos una distribucin bimodal o polimodal segn el caso.
Considerando distribuciones unimodales, el clculo de la moda (Mo) para
datos agrupados en intervalos se obtiene mediante la frmula:
nj - nj-1
Mo = LI + ------------------------ * ci
(nj - nj-1) + (nj - nj+1)
Donde:
LI
Es el lmite inferior de la clase modal.
nj - nj-1
Es la diferencia de la frecuencia absoluta de la clase modal
menos la frecuencia del intervalo anterior.
45

Glosario bsico de trminos estadsticos

nj - nj+1
ci

Es la diferencia de la frecuencia absoluta de la clase modal


menos la frecuencia del intervalo posterior
Es la amplitud del intervalo.

Clase modal es el intervalo que tiene mayor frecuencia o frecuencia


relativa.
MUESTRA.- Es un subconjunto representantivo de la poblacin a partir
del cual se pretende realizar inferencias respecto a la poblacin de donde
procede. Los elementos seleccionados con cierta tcnica rene ciertas
caractersticas que la hacen ser representativa, significativa y confiable y
que en base a ella se pueden hacer inferencias respecto a la poblacin.
La muestra puede ser probabilstica y no probabilstica.
MUESTRA NO PROBABILSTICA.- Es aquella que se obtiene
mediante juicio de la persona que selecciona los elementos de la muestra
que usualmente es un experto en la materia. Este mtodo est basado en
los puntos de vista subjetivos de una persona y la teora de la probabilidad
no puede ser empleada para medir el error de muestreo. Las principales
ventajas de una muestra de juicio son la facilidad de obtenerla y que el
costo usualmente es bajo.
MUESTRA PROBABILSTICA.- Es aquella muestra obtenida por un
mecanismo de probabilidades, en el cual cada elemento de la poblacin
total o universo tiene una probabilidad conocida de seleccin. (Ver
muestreo aleatorio).
MUESTREO.- Es un conjunto de mtodos y procedimientos estadsticos
destinados a la seleccin de una o mas muestras es la tcnica seguida
para elegir muestras. El objetivo principal de un diseo de muestreo es
proporcionar procedimientos para la seleccin de muestras que sean
representativas de la poblacin en estudio.
MUESTREO ALETORIO SIMPLE.- Tambin llamado irrestrictamente
aleatorio. Es un mtodo de muestreo donde una muestra aleatoria simple
es seleccionada de tal manera que cada muestra posible del mismo tamao
tiene igual probabilidad de ser seleccionada de la poblacin. Una muestra
46

Glosario bsico de trminos estadsticos

aleatoria es tambin llamada una muestra probabilstica es aquella


cuyos elementos se seleccionan individualmente de la poblacin en forma
aleatoria, y es preferida por los estadsticos porque la seleccin de las
muestras es objetiva y el error muestral puede ser medido en trminos de
probabilidad bajo la curva normal. Por conveniencia, este mtodo puede
ser reemplazado por una tabla de nmeros aleatorios cuando una
poblacin es infinita. Se aplica cuando los datos son casi homogneos.
Una variante del muestreo aleatorio simple es el muestreo aleatorio
sistemtico. Otros tipos ms comunes de muestreo aleatorio son: muestreo
aleatorio estratificado y muestreo por conglomerados.
MUESTREO SISTEMTICO.- Es una variante del mtodo aleatorio
simple de seleccin de cada elemento de la muestra. Se aplica cuando la
poblacin est listada en algn orden. Consiste en seleccionar un nmero
aleatorio menor que N/n y luego los (n-1) elementos de la muestra se
eligen agregando al primer aleatorio: el entero K obtenido por K=N/n y
as sucesivamente. El primer elemento de la muestra es seleccionado al
azar. Por lo tanto, una muestra sistemtica puede dar la misma precisin
de estimacin acerca de la poblacin que una muestra aleatoria simple
cuando los elementos en la poblacin estn ordenados al azar.
MUESTREO ESTRATIFICADO ALEATORIO.- Es un mtodo de
muestreo que se aplica cuando se divide la poblacin en grupos, llamados
estratos, donde los datos son ms homogneos pero un estrato frente al
otro muy distintos. Para extraer la muestra aleatoria se aplica el muestreo
aleatorio simple a cada estrato y el tamao es la suma de los tamaos de
todos los estratos. Para determinar los tamaos de los estratos se puede
utilizar la asignacin proporcional, ptima y ptima econmica. Si no se
conoce la variabilidad de los datos se aplica la asignacin proporcional.
MUESTREO POR CONGLOMERADOS.- Es un mtodo de muestreo
en el cual la poblacin est en grupos debido a la organizacin
administrativa u otro (conglomerados). Ejemplo: Colegios, Universidades,
manzanas de casas, entre otros. Al interior de los conglomerados no se
puede garantizar homogeneidad. Cada conglomerado es una unidad
donde la muestra se selecciona como en el muestreo aleatorio simple y se
47

Glosario bsico de trminos estadsticos

aplica la encuesta a todos los elementos del conglomerado. Una muestra


de conglomerados, usualmente produce un mayor error muestral (por lo
tanto, se obtiene menor precisin de las estimaciones acerca de la
poblacin) que una muestra aleatoria simple del mismo tamao. Los
elementos individuales dentro de cada "conglomerado" tienden
frecuentemente a ser iguales.
MUESTREO CON REPOSICIN.- Es el mtodo para obtener una
muestra con reposicin. Esta muestra consiste en que al seleccionar un
segundo elemento, el primero debe haber sido devuelto a la poblacin.
De este modo un elemento puede repetirse en la muestra. Es decir, con
este mtodo una unidad en particular puede quedar incluida ms de
una vez en la muestra, pudiendo ser hasta "n veces". El universo o
poblacin se mantiene permanentemente con un tamao N.
MUESTREO SIN REPOSICIN.- Es el procedimiento para seleccionar
cada elemento de la poblacin ste no se repone o considera de nuevo
en la poblacin, por lo que no puede ser seleccionado nuevamente. En
este caso el tamao de la poblacin o universo se ir reduciendo en cada
seleccin N-1, N-2, N-3,...,etc. unidades de muestreo hasta N - n
elementos.

N
NIVEL DE SIGNIFICACIN.- Se define como la probabilidad de
rechazar la hiptesis nula cuando sta es verdadera. Se le conoce tambin
con el nombre de error de tipo 1, simblicamente se denota por a .
NMERO NDICE.- Es aquella medida estadstica que permite estudiar
los cambios que se producen en una magnitud simple o compleja con
respecto al tiempo o al espacio; es decir, se va a comparar dos situaciones,
una de las cuales se considera de referencia, llamado tambin perodo
base. Los nmeros ndices pueden ser simples y complejos. Estos ndices
pueden ser de precios, cantidades y valor (Ver ndice).

48

Glosario bsico de trminos estadsticos

O
OJIVA.- Es un grfico acumulativo de frecuencias o frecuencias relativas.
Existen las ojivas mayor que y menor que.
12 0

Frecuencias acumuladas

10 0
80
60

Ojiva menor que

40
2 0

46

10

1214

P
PARMETRO.- Es cualquier valor caracterstico de la poblacin. Ejemplo:
la media de la poblacin, la desviacin tpica de la poblacin. Sin embargo
estos valores son desconocidos porque no siempre podemos tener todos
los datos de la poblacin para calcularlos.
PERMUTACIONES.- Son las distintas disposiciones de los elementos
en que se pueden ordenar los objetos. El nmero de permutaciones de n
objetos se obtiene como el factorial de n!
Permutaciones de n objetos =n!
Pero generalmente interesa conocer el nmero de subgrupos de r
elementos que se puede tomar del total de n objetos, se obtiene con la
siguiente frmula:

Donde:

Pr =

n!
(n- r) !
49

Glosario bsico de trminos estadsticos

n!
r

Representa el factorial de n.
El nmero de elementos de cada subgrupo.

PERCENTIL.- Es el valor que resulta de dividir el conjunto de datos en


100 partes iguales. Cada parte representa al 1% del total, se pueden
calcular los 99 percentiles mediante la frmula:

(rN/100)- Ni-1 *c

Pr= Li

r=1,2,3,..........99

ni

Donde:
r
Es el nmero del percentil que se desea calcular
Li Lmite inferior de la clase percentlica
N Total de datos
ni Frecuencia absoluta de la clase percentlica
Ni-1 Frecuencia absoluta acumulada anterior o igual a la clase percentlica
c
Amplitud o tamao del intervalo
PERIODO DE REFERENCIA DE UNA ENCUESTA.- Es el lapso o
espacio de tiempo durante el cual se levanta la informacin de la encuesta
y la referencia cronolgica respecto a la cual es vlida la informacin
inherente a ella.
PICTOGRAMAS.- Son grficos vistosos, similares a los grficos de barras,
pero empleando un dibujo alusivo al tema que representa, en una
determinada escala para expresar la unidad de medida de los datos.

Cursos

N de das
50

Glosario bsico de trminos estadsticos

PIRMIDE DE POBLACIN.- Es la representacin grfica de la


estructura por sexo y edad de una poblacin en un instante temporal
determinado. La pirmide de poblacin consta de dos histogramas
horizontales: usualmente el del lado izquierdo representa la distribucin
por edad de los hombres y el derecho el de las mujeres. Cada barra
horizontal representa la proporcin de poblacin de un determinado sexo
y rango de edad. En el eje de abscisas se representa los efectivos de
poblacin, normalmente en porcentajes, y en el eje de ordenadas las
edades.
2003
80yms
7074
6064
5054
4044
3034
2024
1014
04

Miles de Personas

POBLACIN FINITA.- Es aquella en la que es posible enumerar (contar)


fsicamente los elementos que pertenecen a la poblacin.
POBLACIN INFINITA.- Es aquella en la que no es posible enumerar
(contar) fsicamente los elementos que pertenecen a la poblacin. Dicho
de otra manera, cuando los elementos de la poblacin son ilimitados.
POBLACIN O UNIVERSO.- Es cualquier conjunto de unidades o
elementos claramente definido, en el espacio y el tiempo, donde los
elementos pueden ser personas, granjas, hogares, manzanas, condados,
escuelas, hospitales, empresas, y cualquier otro. Las poblaciones pueden
ser finitas e infinitas.
POBLACIN OBJETIVO.- Es el conjunto de elementos de los que nos
interesa obtener informacin o tomar decisiones.
51

Glosario bsico de trminos estadsticos

POLGONO DE FRECUENCIAS ACUMULADAS.- Es un grfico


utilizado para representar una distribucin de frecuencias
acumuladas de una variable numrica. Se conoce tambin como ojiva.
(Ver ojiva).
POLGONO DE FRECUENCIAS.- Es un grfico utilizado para
representar una distribucin de frecuencias de una variable numrica,
teniendo en cuenta su marca de clase.
Histograma
Polgono de frecuencias

PRECISIN.- La precisin de una variable es la inversa de su variabilidad,


es decir: Precisin = 1/variabilidad.
PROBABILIDAD.- Es un nmero que se le asigna a un suceso como
una medida de su incertidumbre. Este nmero puede tomar valores entre
cero y uno inclusive. Cuando los sucesos son equiprobables, es decir
todos tienen la misma probabilidad para calcularla, se utiliza la Regla
de Laplace. Sea un suceso A, entonces:
P(A) = Casos favorables / casos posibles
El experimento aleatorio debe cumplir dos requisitos:
a) El nmero de resultados posibles (sucesos) debe ser finito.
b) Todos los sucesos deben tener la misma probabilidad.
A la regla de Laplace tambin se le denomina "probabilidad a priori",
52

Glosario bsico de trminos estadsticos

ya que para aplicarla hay que conocer antes de realizar el experimento


cules son los posibles resultados y saber que todos tienen las mismas
probabilidades.
PROBABILIDAD DE SELECCIN.- Es la oportunidad que tiene cada
elemento de la poblacin o universo de ser incluida en una muestra.
PROBABILIDAD PROPORCIONAL AL TAMAO.- Es un mtodo
de seleccin de muestreo en el que las unidades se eligen con probabilidad
de seleccin desigual, siendo la probabilidad para cada unidad
proporcional a una medida de tamao. La medida de tamao para cada
unidad es un nmero asignado antes de la seleccin de esa unidad, que
se supone altamente correlacionada con el estadgrafo a estimar.
Usualmente la probabilidad proporcional al tamao se abrevia como PPT.
PROMEDIO.- Es cualquier medida de posicin de tendencia central.
Cuando se obtenie sumando los datos y diviendo entre el nmero de ellos,
se conoce como promedio simple.
PROMEDIO PONDERADO.- Es un nmero conocido tambin como
media aritmtica ponderada. Es el promedio de datos a los que se les
asigna distinta importancia llamada ponderacin.
PRUEBA DE HIPTESIS.- Es una tcnica que permite rechazar o
aceptar la hiptesis en base de la informacin proporcionada por la
muestra. (Ver contraste de hiptesis).
PRUEBA JI-CUADRADO.- Es una prueba que permite contrastar si la
hiptesis H0 es coherente con los datos obtenidos en la muestra. Se le
denota c2 . Puede utilizar para:
1.
2.
3.

Bondad de un ajuste.
Criterio de independencia.
Criterio de homogeneidad.

Una forma de comparar las Ox con las

ex es calculando el valor de c2
53

Glosario bsico de trminos estadsticos

Donde:
Ox Es el valor observado
Es el valor esperado
x

PUNTO MUESTRAL.- El conjunto de todos los resultados posibles de


un experimento aleatorio se le denomina espacio muestral. Un punto de
este conjunto es un punto muestral.

Q
QUINTIL.- Es un fractil se obtienen dividiendo al conjunto de datos en
cinco partes iguales cada parte representa el 20% del total. Se pueden
calcular 4 quintiles.

R
RANGO.- Conocido tambin como recorrido, es un nmero que mide
la amplitud de los valores de un conjunto de datos y se calcula por diferencia
entre el valor mayor y el valor menor. Lo notaremos como R. No constituye
una medida muy significativa en la mayora de los casos, pero es muy fcil
de calcular.

R = Xmayor - Xmenor
RAZN.- Es la relacin entre dos categoras o partes. Seala el tamao
de una parte con respecto a otra que se toma como unidad.
RECORRIDO INTERCUARTLICO.- Es una medida de dispersin.
Su valor se obtiene como la diferencia del tercer cuartil (Q3) menos el
primer cuartil (Q1), definido por la expresin: R1 = Q3 - Q1
REDONDEO.- Es el procedimiento para expresar un nmero de acuerdo
a una precisin establecida.
54

Glosario bsico de trminos estadsticos

REGIN DE ACEPTACIN.- Es la regin formada por el conjunto de


valores con los cuales decidimos aceptar la hiptesis nula.
REGIN DE RECHAZO.- Conocida tambin como regin crtica, est
formada por el conjunto de valores con los cuales se rechaza la hiptesis
nula.
REGRESIN.- Es una tcnia de anlisis para poner de manifiesto la
estructura de dependencia que mejor explique el comportamiento de la
variable dependiente o explicada (y) a travs de un conjunto de variables
independientes o explicativas (x1 ,x 2 ....xp ), con las que se supone est
relacionada.
El mtodo ms utilizado es el de los mnimos cuadrados. La ecuacin a
ajustar puede ser lineal o no lineal. En ambos casos el objetivo es el
mismo: encontrar las mejores estimaciones de los parmetros y cuantificar
la precisin de los mismos.

REGRESIN LINEAL.- La regresin ser lineal cuando la curva obtenida


o seleccionada sea una recta. Es la recta que mejor se ajusta a los datos.
Se obtiene mediante el mtodo de mnimos cuadrados. Para ello se debe
calcular primero el coeficiente de correlacin lineal que permite determinar,
si efectivamente, existe relacin entre las dos variables. Una vez encontada
la relacin, la regresin permite definir la recta que mejor se ajusta a la
nube de puntos (grfico de pares ordenados).
Una recta viene definida por la siguiente frmula:
Y = a + bX
Donde "Y" sera la variable dependiente, es decir, aquella que viene definida
a partir de la otra variable "X" (variable independiente). Para definir la recta
hay que determinar los valores de los parmetros "a" y "b":

55

Glosario bsico de trminos estadsticos

REGRESINLINEAL

El parmetro "b" determina la pendiente de la recta, es decir su grado


de inclinacin.

El parmetro "a" es el valor que toma la variable dependiente "Y", cuando


la variable independiente "X" vale 0, y es el punto donde la recta cruza el
eje vertical.

RELACIN ENTRE LA MEDIA (X ), MEDIANA (X) Y MODA (X)- Al


comparar los valores de la media mediana y moda puede ocurrir:
~
1.- X = X
= X

La curva es simtrica

~
2.- X X
X

La curva es asimtrica

56

~
a) X < X
< X

asimetra hacia la izquierda o negativa

~
< X
b) X
< X

asimetra hacia la derecha o positiva

Glosario bsico de trminos estadsticos

S
SERIES TEMPORALES.- Conocida tambin como serie cronolgica.
Es la sucesin de observaciones cuantitativas ordenadas en el tiempo de
un fenmeno. Los datos tienen un orden que no es posible variar. La
informacin puede ser mensual, trimestral, anual o de cualquier otro
intervalo temporal.
SESGO.- Se denomina as a la asimetra que presenta una distribucin
de frecuencias. Puede ser sesgo negativo o a la izquierda y sesgo positivo
o a la derecha.
SUCESO CIERTO.- Se conoce tambin como suceso seguro. Es aquel
suceso que siempre se realiza. Estar formado por todos los resultados
posibles del experimento; es decir, coincide con el espacio muestral.
SUCESO IMPOSIBLE.- Es aquel suceso que no se realiza nunca. Se
designa por un .
SUCESOS COMPUESTOS.- Se llama sucesos compuestos, a los sucesos
formados por dos o ms puntos muestrales; es decir, por ms de un
resultado del experimento.
SUCESOS CONTRARIOS.- Dado un suceso cualquiera A del espacio
de sucesos S, se llama suceso contrario del suceso A a un suceso que se
realiza cuando no se realiza A, y recprocamente.
57

Glosario bsico de trminos estadsticos

Por tanto los sucesos A y A son contrarios, ya que si se realiza A no se


realiza A y si se realiza A no se realiza A.
SUCESOS ELEMENTALES.- Conocido tambin como sucesos
aleatorios, son los sucesos formados por un solo punto muestral; es decir,
por un solo resultado del experimento aleatorio.

T
TABLA DE CONTINGENCIA.- Es una tabla de doble entrada. Se
representa genricamente como (xi; yj ; nij). (Ver distribucin bidimensional).
TABLA DE DATOS AGRUPADOS.- Es un arreglo matricial que
contiene el nmero de veces (frecuencia) que aparece un dato, de acuerdo
a las clases de inters especificadas (puede ser intervalos). (Ver distribucin
unidimensional)
TASA.- Es la relacin del nmero de casos, frecuencias o eventos de una
categora entre el nmero total de observaciones, multiplicada por un
mltiplo de 10, generalmente 100 1000.
La frmula es:

Tasa =

Nmerodeeventosduranteunperodo t
1000
Nmero totalobservacionesenelperodo t

TASA BRUTA DE MORTALIDAD.- Es un nmero que expresa la


frecuencia de muertes en una poblacin en un perodo de tiempo, por lo
general un ao calendario.
La tasa bruta de mortalidad se calcula dividiendo el nmero de defunciones
ocurridas en un perodo de tiempo determinado entre la poblacin donde
ocurren estas defunciones, generalmente expresadas por 1000 habitantes.
Se define como:

58

Glosario bsico de trminos estadsticos

mZ =
donde:
mZ
DZ
N30-VI-Z

DZ
x 1,000
N30VIZ

representa la tasa bruta de mortalidad para el ao "z".


representa las defunciones ocurridas durante el ao "z".
representa la poblacin al 30 de junio del ao "z", o poblacin
media.

TASA DE ANALFABETISMO.- Es un valor que se obtiene como la


relacin del nmero de analfabetos (personas que no saben leer ni escribir)
de 15 y ms aos de edad en el ao z dividido entre la poblacin total
de 15 y ms aos de edad en el ao "z". Se calcula como sigue:

TAZ =

NA(Z15
y+ )
x100
N(Z15y+ )

Donde:
TAZ
Z

NA(15y+)
N(Z15y+)

representa la tasa de analfabetismo en el ao "z".


representa la poblacin de analfabetos de 15 y ms aos de
edad en el ao "z".
representa la poblacin total de 15 y ms aos de edad en el
ao "z".

TASA DE ESCOLARIZACIN POR EDAD.- Es un nmero que se


obtiene como la relacin del nmero de matriculados de la edad "x" en el
ao "z" entre la poblacin total de la edad "x" en el ao "z" . Se calcula del
modo siguiente:

TE xZ =

MxZ
x100
NxZ

Donde:
TExZ

representa la tasa de escolarizacin por edad "x" en el ao "z".

MxZ

representa el nmero de matriculados de edad "x" en el ao "z".

N xZ

representa la poblacin total de edad "x" en el ao "z".

59

Glosario bsico de trminos estadsticos

TASA DE INFLACIN.- Es un indicador del aumento en los precios de


los bienes y servicios, referidos a un periodo de tiempo. Ms utilizado para
medir la inflacin es el ndice de precios al consumidor
IPC ao actual - IPC ao base
T de I = ---------------------------------------------- x 100
IPC ao base

TASA DE LETALIDAD.- Es un nmero que se define como la proporcin


de personas que mueren por causa de una enfermedad determinada entre
el total de quienes contrajeron la enfermedad.
c

tlZ = c

DZ
x 1000
EZ

Donde:
c

tlZ

representa la tasa de letalidad del perodo "z" debido a la causa


"c".

DZ

EZ

representa las defunciones del perodo "z" debido a la causa "c".


representa las personas que contrajeron la enfermedad "c" en el
perodo "z".

TASA DE MASCULINIDAD.- Es un nmero que expresa la proporcin


de varones en la poblacin total o en una parte de ella. Se usa para
estudiar la distribucin por sexo en la poblacin. Se expresa:

TM( X)=

NH(X)
x k
NH(X)+ NF(X)

Donde:
TM(X) representa la tasa de masculinidad de la poblacin de edad X.
NH(X) representa el nmero total de varones de edad X.
NF(X) representa el nmero total de mujeres de edad X.
k
representa una constante, generalmente 100.
60

Glosario bsico de trminos estadsticos

TASA DE MORTALIDAD INFANTIL.- Es un nmero que expresa la


mortalidad de nios menores de un ao y se obtiene dividiendo las
defunciones infantiles (menores de un ao) ocurridas en un ao calendario
entre el nmero de nacidos vivos ocurridos en el transcurso del mismo
ao, multiplicado por mil.

TMlz =

Dz
100
Bz

Donde:
TMIz representa la tasa de mortalidad infantil en el ao "z"
Dz
representa las defunciones de menores de un ao ocurridas en el
ao "z"
Z
B
representa el nmero de nacidos vivos del ao "z".
TASA DE MORTALIDAD MATERNA.- Es un valor que representa las
defunciones de las mujeres durante el embarazo o dentro de los 42 das
de su trmino (embarazo, parto, puerperio).
La tasa de mortalidad materna se obtiene dividiendo el nmero de muertes
maternas ocurridas en un ao, entre el nmero promedio de mujeres en
edad frtil para ese ao, multiplicado por 100,000.

TMMZ =
Donde:
TMM Z
MM Z
MEF30-VI-Z

MMZ
x100,000
MEF30VIZ

representa la tasa de mortalidad materna del ao "z".


representa las muertes por causa materna ocurridas en el
ao "z".
representa el nmero promedio de mujeres en edad frtil en
el ao "z".

TASA DE MORTALIDAD POR CAUSAS.- Es un nmero que


representa la mortalidad por causas y se calcula dividiendo el nmero de
defunciones debidas a cierta causa o grupo de causas entre la poblacin
total, multiplicado por 100,000.

61

Glosario bsico de trminos estadsticos


c
c

m Z =

DZ

N30-VI- Z

x 100,000

Donde:
c Z
m
representa la tasa de mortalidad por la causa "c" en el ao "z".
c

D Z
30-VI-Z

representa el nmero de muertes debidas a la causa "c" en el ao "z".


representa la poblacin al 30 de junio del ao "z", o poblacin media.

TENDENCIA.- Es un componente del anlisis clsico de series temporales.


Refleja el movimiento de la serie en el largo plazo (crecimiento,
decrecimiento o estancamiento). Es necesario un nmero suficientemente
grande de observaciones para determinar una tendencia.

U
UNIDAD DE MUESTREO.- Es la unidad estadstica que se selecciona
para constituir la muestra. La eleccin de la unidad de muestreo ms
eficiente es una consideracin importante en el diseo de una muestra.
UNIDAD ESTADSTICA.- Conocido tambin como unidad elemental.
Es el elemento o unidad base de la poblacin o de la muestra que permite
obtener informacin o datos referidos a ciertas caractersticas o variables,
que nos interesan para explicar un determinado fenmeno.
62

Glosario bsico de trminos estadsticos

V
VARIABLE.- Es una caracterstica de la poblacin o de la muestra cuya
medida puede cambiar de valor. Se representa simblicamente mediante
las letras del alfabeto. Segn su naturaleza puede ser cualitativa y
cuantitativa.
VARIABLE ALEATORIA.- Conocida tambin como variable estocstica
o probabilstica. Es la caracterstica considerada en un experimento
aleatorio cuyo valor de ocurrencia slo puede saberse con exactitud una
vez observado.
VARIABLE BIDIMENSIONAL.- Es aquella que proporciona
informacin sobre dos caractersticas de la poblacin (por ejemplo: edad
y altura de los alumnos de una clase). (Ver distribucin bidimensional).
VARIABLE CONTINUA.- Es una variable cuantitativa. Es la
caracterstica de la poblacin, cuyos valores estn representados mediante
el conjunto de los nmeros reales. Puede tomar cualquier valor real dentro
de un intervalo. Por ejemplo, la velocidad de un vehculo puede ser 80,3
km/h, 94,57 km/h.
VARIABLE CUALITATIVA.- Es aquella que representa cualidades,
atributos o caractersticas no numricas y estas pueden ser nominales y
ordinales. (Ver dato cualitativo).
VARIABLE CUANTITATIVA.- Es aquella caracterstica de la poblacin
o de la muestra que es posible representar numricamente. stas pueden
ser continua y discreta. (Ver dato cuantitativo).
VARIABLE DETERMINSTICA.- Es aquella cuyo valor puede ser
predicho con exactitud.
VARIABLE DISCRETA.- Es una variable cuantitativa. Es la caracterstica
de la poblacin, cuyos valores estn representados mediante el conjunto de
los nmeros naturales. Por ejemplo, el nmero de alumnos de un aula.

63

Glosario bsico de trminos estadsticos

VARIABLE NOMINAL.- Es una variable cualitativa la cual slo permite


asignar nombres a los datos y no implica ningn orden. Ej. el idioma de
los habitantes de la tierra.
VARIABLE ORDINAL.- Es una variable cualitativa cuyos valores
solamente pueden ser ordenados con algn criterio.
VARIABLE PLURIDIMENSIONAL.- Es aquella que proporciona
informacin sobre tres o ms caractersticas (por ejemplo: edad, altura y
peso de los alumnos de una clase).
VARIABLE UNIDIMENSIONAL.- Es aquella que proporciona
informacin sobre una sola caracterstica (por ejemplo: edad de los
alumnos de una clase). (Ver distribucin unidimensional).
VARIACIONES IRREGULARES.- Conocido como variacin de
aleatoriedad. Es un comportamiento irregular que est compuesto por
fluctuaciones causadas por sucesos impredecibles o no peridicos,
movimientos de muy corto plazo, sin un carcter peridico reconocible,
ocasionados por fenmenos singulares o fortuitos que producen efectos
casuales y no permanentes como el clima poco usual, huelgas, guerras,
rumores, elecciones, cambio de leyes, entre otros.

64

Glosario bsico de trminos estadsticos

VARIACIONES O FLUCTUACIONES CCLICAS.- Se conoce tambin


como ciclos o ciclicidad. Es un conjunto de fluctuaciones en forma de
onda o ciclos, de ms de un ao de duracin, producidas por cambios en
las condiciones econmicas. Refleja movimientos de la serie a medio plazo
producidos con un perodo superior al ao, debido a alternancias de
prosperidad y de depresin en la actividad econmica. Se suelen superponer
distintos ciclos, siendo muy difciles de aislar.

VARIACIONES O FLUCTUACIONES ESTACIONALES.- Son


oscilaciones a corto plazo producidas en un perodo inferior al ao (mes,
trimestre) y que se repiten de forma reconocible dentro de cada periodo
de 12 meses, ao tras ao. Se deben a factores climatolgicos, biolgicos,
institucionales, culturales, de tradicin y otros.

65

Glosario bsico de trminos estadsticos

VARIANZA.- Conocida tambin como variancia, es una medida de


dispersin de la informacin. Se obtiene como el promedio de los cuadrados
de las desviaciones de los valores de la variable respecto de su media
aritmtica.
Frmula para datos simples.

(xi-X)
2

S2 =

Frmula para datos agrupados

(xi-X)*ni
2

S2 =

Mide la distancia existente entre los valores de la serie y la media. La


varianza siempre ser mayor que cero. Mientras ms se aproxima a cero,
ms concentrados estn los valores de la serie alrededor de la media. Por
el contrario, mientras mayor sea la varianza, ms dispersos estn los datos.
Este estadstico tiene el inconveniente de ser poco significativo, pues se
mide en el cuadrado de la unidad de la variable. Por ejemplo, si la variable
viene dada en cm, la varianza vendr en cm2.

66

Glosario bsico de trminos estadsticos

BIBLIOGRAFIA

BERENSON, Mark. ESTADSTICA BASICA EN ADMINISTRACIN. (1992).


New York: Prentice Hall.
MAZA, Domingo. TRATADO MODERNO DE ECONOMA. (1992).
Caracas: Panapo.
MURRAY, Spiguel. PROBABILIDADES Y ESTADSTICA. (1997). Madrid:
Mc Graw Hill.
ROS, Sixto. ANLISIS ESTADSTICO APLICADO. (1972). Madrid:
Paraninfo.
SALINAS O., Jos. ANLISIS ESTADSTICO PARA LA TOMA DE
DECISIONES EN ADMINISTRACIN Y ECONOMA. 1998. Universidad
del Pacfico. Lima-Per. Nmeros ndices . Pg. 361-376.
SERRANO RODRGUEZ, Javier. INTRODUCCIN A LA ESTADSTICA.
Ed universitaria de Amrica LIDA, Bogot, Colombia. Pg. 30-49
SIERRA BRAVO. R. DICCIONARIO PRCTICO DE ESTADSTICA, Ed
Paraninfo S.A. Madrid. Espaa, Pg. 56-57, 177-187, 427-432.
YA-LUN, Chou. ANLISIS ESTADSTICO. (1980). Tokio: Mc Graw Hill.
PAGINAS WEB
http://www.bioestadistica.uma.es/libro/ Universidad de Mlaga
http://www.estadistico.com/dic.html
http://www.fvet.edu.uy/estadis/diagrth
http://www.fvet.edu.uy/estadis/glosario.htm
http://www.uhu.es/89009/ficheros_datos/ Universidad de Huelva de
Andaluca
67

Glosario bsico de trminos estadsticos


Doctor
ALEJANDRO TOLEDO MANRIQUE
Presidente Constitucional de la Repblica
PRESIDENCIA DEL
CONSEJO DE MINISTROS

Doctor
PEDRO PABLO KUCZYNSKI
Presidente

INSTITUTO NACIONAL DE
ESTADISTICA E INFORMATICA

Seor
FARID MATUK
Jefe
Seor
FRANCISCO COSTA APONTE
Sub-Jefe de Estadstica
Seora
LUPE BERROCAL DE MONTESTRUQUE
Directora Tcnica del Centro de Investigacin
y Desarrollo

LEY DE ORGANIZACION Y FUNCIONES DEL INSTITUTO NACIONAL DE


ESTADISTICA E INFORMATICA
DECRETO LEGISLATIVO N 604
Artculo 1

Los Sistemas Nacionales de Estadstica e Informtica tienen por finalidad asegurar,


en los respectivos campos, que sus actividades se desarrollen en forma integrada,
coordinada y racionalizada y bajo una normatividad tcnica comn, contando para
ello con autonoma tcnica y gestin.

Artculo 2

Son objetivos de los Sistemas Nacionales de Estadstica e Informtica:


a. Normar las actividades de estadstica e informtica oficial.
b. Coordinar, integrar y racionalizar las actividades de Estadsticas e Informtica y
c. Promover la capacitacin, investigacin y desarrollo de las actividades de
Estadstica e Informtica.

Artculo 3

Los mbitos de competencia de los Sistemas Nacionales de Estadstica e Informtica


son:
a. Del Sistema Nacional de Estadstica
Los levantamientos censales, estadsticas contnuas, las encuestas por muestreo,
las estadsticas de poblacin, los indicadores e ndices en general, las cuentas
nacionales y regionales, los esquemas macroestadsticos, anlisis e investigacin.
Corresponde a ste las tareas tcnicas y cientficas que se desarrollan con fines
de cuantificar y proyectar los hechos econmicos y sociales para producir las
estadsticas oficiales del pas.

68

También podría gustarte