Está en la página 1de 48

ANÁLISIS BÁSICO CUANTITATIVO

DEL DESARROLLO EN BOLIVIA

Estadística Básica con STATA

Osvaldo Nina
Docente
Economía – UMSA
&
Investigador
Fundación INESAD

Septiembre 2017
La Paz - Bolivia
Contenido
1. Introducción 1
2. Conceptos Básicos 1
2.1. Recopilación de datos 1
2.2. Población 1
2.3. Muestra 2
2.4. Variables estadísticas 2
3. Estadística Descriptiva 3
3.1. Base de datos 3
3.2. Comandos más utilizados 5
3.3. Distribución de frecuencia 11
3.4. Medidas de tendencia central 14
3.5. Medidas de posición 17
3.6. Medidas de dispersión 19
3.7. Coeficiente de variación 22
3.8. Coeficiente de correlación 24
4. Estadística Inferencial 26
4.1. Distribuciones muestrales 26
4.2. La distribución normal 28
4.3. Intervalos de confianza 34
4.4. Prueba de Hipótesis 39
4.5. Pruebas cuando se tienen dos poblaciones 44
4.5.1. Estimación con muestras grandes 44
4.5.2. Estimación con muestras pequeñas 44
1. Introducción
El manual es una introducción básica a la estadística aplicada utilizando el programa STATA. En
ese sentido, desarrollara conceptos básicos para la realización de la descripción e inferencia
estadística.

La Estadística es la parte de las matemáticas que se encarga del estudio de una determinada
característica en una población, recogiendo los datos, organizándolos en tablas, representándolos
gráficamente y analizándolos para conclusiones de la población.

La Estadística se clasifica en:

− Estadística descriptiva: Realiza el estudio sobre la población completa,


observando una característica de la misma y calculando unos parámetros que den
información global de toda la población.
− Estadística inferencial: Realiza el estudio descriptivo sobre un subconjunto de la
población llamado muestra y, posteriormente, extiende los resultados a toda la
población.

2. Conceptos Básicos
2.1. Recopilación de datos

Los datos pueden ser generados por el propio interesado, o bien haber sido recopilados por un
tercero, ya sea un individuo o una organización. En el primer caso, la fuente de datos se
denomina primaria, y en el segundo caso, secundaria.

En ambas situaciones, los datos pueden ser generados básicamente de tres maneras:

1. Realizando un censo;
2. Tomando una muestra;
3. Diseñando un experimento.

Contar con datos censales implica que el interesado logró observar o medir todas las unidades o
sujetos de interés existentes. Sin embargo, en muchas situaciones prácticas, no es posible acceder
a todas las unidades existentes, por ser una tarea costosa, ardua y, en ocasiones, hasta imposible,
o bien porque la medición destruiría a la unidad o sujeto en estudio.

2.2. Población

La población es el conjunto de elementos, individuos o entes sujetos a estudio y de los cuales


queremos obtener un resultado. La población puede clasificarse en:

− Población finita: cuando el número de elementos que la forman es finito, por


ejemplo el número de alumno de un centro, o grupo clase.
1
− Población infinita: cuando el número de elementos que la forman es infinito, o tan
grande que pudiesen considerarse infinitos.

El tamaño de la población a estudiar juega un papel crucial al momento de decidir de qué manera
se han de recopilar datos: si la población es infinita o finita pero de gran tamaño, la muestra será
la manera más razonable y eficiente de recopilar datos.

Un parámetro es toda medida descriptiva de una población. Algunos ejemplos son: la producción
total de todas las empresas manufactureras o el ingreso promedio de todos los asalariados de
Bolivia. El punto clave para recordar es que un parámetro describe una población.

2.3. Muestra

Aunque generalmente los estadísticos se interesan en algún aspecto de toda la población,


generalmente descubren que las poblaciones son demasiado grandes para ser estudiadas en su
totalidad. Por consiguiente, generalmente debe ser suficiente estudiar tan sólo una pequeña
porción de dicha población. A esta porción más pequeña y más manejable se le denomina
muestra.

Una muestra es una parte representativa de la población que se selecciona para ser estudiada ya
que la población es demasiado grande como para analizarla en su totalidad.

Un estadístico es una medida descriptiva de una muestra. El ingreso promedio de esos miles de
trabajadores, calculado por el Ministerio de Trabajo, es un estadístico. El estadístico es a la
muestra lo que el parámetro es a la población. El estadístico sirve como una estimación del
parámetro. Aunque en realidad el interés se fija en el valor del parámetro de la población, con
frecuencia debe haber conformidad con sólo calcularlo con un estadístico de la muestra que se ha
seleccionado.

2.4. Variables estadísticas

Al hacer un estudio de una determinada población, observamos una característica o propiedad de


sus elementos o individuos. Cada una de estas características estudiadas se llama variables
estadísticas: la densidad del municipio, la altura sobre el nivel del mar, la temperatura, etc.

Las variables estadísticas que clasifican en: cualitativas y cuantitativas.

Las variables cualitativas son aquellas características que no podemos expresar con números sino
hay que expresarlas con palabras. Por ejemplo, el lugar de residencia, comida favorita, profesión
que te gusta, etc.

Estas pueden clasificarse en:

− Ordenables: aquellas que sugieren una ordenación. Por ejemplo, nivel de estudios,
etc.

2
− No ordenables: aquellas que sólo admiten una simple ordenación alfabética, pero
no establece orden por su naturaleza. Por ejemplo, el color del cabello, sexo,
estado civil, etc.

Las variables cuantitativas son características que se pueden expresar con números. Por ejemplo,
el número de hermanos, la estatura, número de alumnos.

Dentro de esta variable podemos distinguir dos tipos:

− Discreta: es aquella que puede tomar únicamente un número finito de valores. Por
ejemplo, número de hermanos.
− Continua: es aquella variable que puede tomar cualquier valor dentro de un
intervalo real. Por ejemplo, la estatura.

3. Estadística Descriptiva
La estadística descriptiva tiene la finalidad de describir apropiadamente las características de la
población. Este análisis se lo puede hacer con métodos gráficos y numéricos. Además, es un
estudio calculando una serie de medidas de tendencia central, para ver en qué medida los datos se
agrupan o dispersan en torno a un valor central.

3.1. Base de datos

Los ejemplos del manual están con base a dos fuentes de información:

1. El archivo Poblacion2012.xlsx, que proporciona información básica del Censo Nacional


de Población y Vivienda 2012 de Bolivia a nivel municipal.
2. El archivo Base_ABC_Bolivia.xlsx, que describe la información del libro El ABC del
desarrollo en Bolivia publicado por la Fundación INESAD.

El trabajo de análisis comienza con la creación de la carpeta de trabajo, que debe seguir los
siguientes pasos:

1. Crear una carpeta de trabajo en el lugar donde desee: Carpeta nombrada “abc” (Análisis
Básico Cuantitativo) en el disco “C”
2. Para re-direccionar al STATA a la carpeta de trabajo “abc”. Escribir en la ventana de
Command lo siguiente: cd c:\abc

Después de crear la carpeta de trabajo, se debe construir la base de datos, lo que requiere realizar
la combinación de dos bases de datos. Los pasos a seguir son los siguientes:

1. Crear el archivo ejemplo1.do, que contiene las instrucciones para la construcción de la


nueva base.
2. Crear dos bases de datos en formato STATA con base a los archivos de EXCEL.
3. Realizar la combinación de las bases de datos

3
* Estadística Básica con STATA
* Ejemplo 1
* Comandos para para el archivo DO: ejemplo1.do
clear // borra los datos en memoria
set more off //para correr los comandos sin interrupciones

// Creación de la base de datos poblacion.dta


* Importar la base de datos
import excel Poblacion2012.xlsx, sheet("poblacion") firstrow //leer base de datos
* Renombrar las variables
rename Codigomunicipal codigo
rename Nombredelmunicipio municipio
rename Nombredeldepartamento departamento
rename Areamunicipalkm2 area
rename TemperaturapromedioanualC temp
rename Alturadelgobiernomunicipalm altura
rename PoblacinEmpadronada2012 pobtotal
rename Poblacinempadronadahombres20 pobhombre
rename Poblacinempadronadamujeres20 pobmujer
rename Participacinpoblacionreaurb urbano
rename Participacinpoblacionrearur rural
* Verificar la base de datos
tab // descripción general de la base de datos
save poblacion, replace // guarda base de datos en formato .dta de STATA
clear

// Creación de la base de datos abc.dta


import excel Base_ABC_Bolivia.xlsx, sheet("basestata") firstrow
* Renombrar las variables
rename ConsumopercpitaUSDde2001 consumopc
rename Accesoaguapotable2012 agua
rename Coberturaderecojodebasura20 basura
rename Tasadedependenciatotal2012 dependencia
rename Tasadeasistenciaescolar6a aescolar
rename Transferenciaspercpita2012 transfpc
rename CoberturadeInternet2012 internet
rename Coberturapensiones2012 pensiones
rename Coberturadeenergaelctrica2 energia
rename Tasademigracininternaneta2 migracion
rename Trabajoinfantil2012 tinfantil
rename Tierracultivable2013 tcultivo
rename Coberturadeserviciosdesalud salud
rename Coberturadesaneamiento2012 saneamiento
rename Empleosvulnerables2012 emvulne
rename Densidadvial2011 vias
4
rename Tasasdefertilidadenadolescen fertilidad
tab // descripción general de la base de datos
save abc, replace
clear

// Creación de la base de datos baseabc.dta


* Abrir la primera base de datos
use poblacion
* Combinar con la segunda base de datos
merge 1:1 codigo using abc.dta // variable codigo para la combinación
browse
save baseabc, replace

3.2. Comandos más utilizados

El análisis descriptivo utilizará la información del archivo baseabc.dta. Además, se creará el


archivo ejemplo2.do.

Vamos a generar tres criterios para el análisis estadístico: departamentos, regiones y niveles de
altura.
⋅ depto, que dividirá a los municipios en departamentos en orden de zona geográfica.
⋅ naltura, que dividirá a los municipios en tres categorías: Alta, Media y Baja.
⋅ region, que dividirá a los municipios en dos regiones: Urbana y Rural.

* Estadística Básica con STATA


* Ejemplo 2
* Comandos para para el archivo DO: ejemplo5.do
* Generacion de nuevas variables
* Departamentos
gen depto=.
replace depto=1 if departamento== “La Paz”
replace depto=2 if departamento== “Oruro”
replace depto=3 if departamento== “Potosí”
replace depto=4 if departamento== “Chuquisaca”
replace depto=5 if departamento== “Cochabamba”
replace depto=6 if departamento== “Tarija”
replace depto=7 if departamento== “Santa Cruz”
replace depto=8 if departamento== “Beni”
replace depto=9 if departamento== “Pando”
label var depto “Departamento”
label define depto 1 “La Paz” 2 “Oruro” 3 “Potosí” 4 “Chuquisaca” 5 “Cochabamba”
label define depto 6 “Tarija” 7 “Santa Cruz” 8 “Beni” 9 “Pando”, add
label values depto depto

5
* Regiones
gen region=.
replace region=0 if rural<=50
replace region=1 if rural>50
label var region “Región”
label define region 0 “Urbana” 1 “Rural”
label values region region

* Nivel de altura
gen naltura=.
replace naltura=1 if altura <=1000
replace naltura=2 if altura >1000 & altura <=3000
replace naltura=3 if altura>3000
label var naltura “Nivel de altura”
label define naltura 1 “Baja” 2 “Media” 3 “Alta”
label values naltura naltura

* Densidad
gen densidad=pobtotal/area
label var densidad "Densidad"

Los comandos más utilizados para el análisis descriptivo son: tabulate y table

tabulate

El comando tabulate despliega la tabla de frecuencia de una o dos variables. Tiene distintas
opciones tales como porcentajes por fila, columna y celda.

Para conocer las frecuencias o distribución de las nuevas variables:

tab depto

Departament |
o | Freq. Percent Cum.
------------+-----------------------------------
La Paz | 87 25.66 25.66
Oruro | 35 10.32 35.99
Potosí | 40 11.80 47.79
Chuquisaca | 29 8.55 56.34
Cochabamba | 47 13.86 70.21
Tarija | 11 3.24 73.45
Santa Cruz | 56 16.52 89.97
Beni | 19 5.60 95.58
Pando | 15 4.42 100.00
------------+-----------------------------------
Total | 339 100.00

6
tab region

Región | Freq. Percent Cum.


------------+-----------------------------------
Urbana | 71 20.94 20.94
Rural | 268 79.06 100.00
------------+-----------------------------------
Total | 339 100.00

tab altura

Nivel de |
altura | Freq. Percent Cum.
------------+-----------------------------------
Baja | 88 25.96 25.96
Media | 85 25.07 51.03
Alta | 166 48.97 100.00
------------+-----------------------------------
Total | 339 100.00

Para conocer las frecuencias o distribución de dos variables:

tab depto region

Departamen | Región
to | Urbana Rural | Total
-----------+----------------------+----------
La Paz | 7 80 | 87
Oruro | 3 32 | 35
Potosí | 6 34 | 40
Chuquisaca | 1 28 | 29
Cochabamba | 10 37 | 47
Tarija | 4 7 | 11
Santa Cruz | 28 28 | 56
Beni | 10 9 | 19
Pando | 2 13 | 15
-----------+----------------------+----------
Total | 71 268 | 339

tab depto altura

Departamen | Nivel de altura


to | Baja Media Alta | Total
-----------+---------------------------------+----------
La Paz | 3 19 65 | 87
Oruro | 0 0 35 | 35
Potosí | 0 1 39 | 40
Chuquisaca | 1 23 5 | 29
Cochabamba | 4 23 20 | 47
Tarija | 3 6 2 | 11
Santa Cruz | 43 13 0 | 56
Beni | 19 0 0 | 19
Pando | 15 0 0 | 15
-----------+---------------------------------+----------
Total | 88 85 166 | 339

7
tab region altura
| altura
region | Baja Media Alta | Total
-----------+---------------------------------+----------
Urbana | 29 6 14 | 49
Rural | 49 73 140 | 262
-----------+---------------------------------+----------
Total | 78 79 154 | 311

Para conocer la composición en porcentaje por fila:

tab depto altura, row

+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+

Departamen | Nivel de altura


to | Baja Media Alta | Total
-----------+---------------------------------+----------
La Paz | 3 19 65 | 87
| 3.45 21.84 74.71 | 100.00
-----------+---------------------------------+----------
Oruro | 0 0 35 | 35
| 0.00 0.00 100.00 | 100.00
-----------+---------------------------------+----------
Potosí | 0 1 39 | 40
| 0.00 2.50 97.50 | 100.00
-----------+---------------------------------+----------
Chuquisaca | 1 23 5 | 29
| 3.45 79.31 17.24 | 100.00
-----------+---------------------------------+----------
Cochabamba | 4 23 20 | 47
| 8.51 48.94 42.55 | 100.00
-----------+---------------------------------+----------
Tarija | 3 6 2 | 11
| 27.27 54.55 18.18 | 100.00
-----------+---------------------------------+----------
Santa Cruz | 43 13 0 | 56
| 76.79 23.21 0.00 | 100.00
-----------+---------------------------------+----------
Beni | 19 0 0 | 19
| 100.00 0.00 0.00 | 100.00
-----------+---------------------------------+----------
Pando | 15 0 0 | 15
| 100.00 0.00 0.00 | 100.00
-----------+---------------------------------+----------
Total | 88 85 166 | 339
| 25.96 25.07 48.97 | 100.00

8
Para conocer la composición en porcentaje (excluyendo la frecuencia) por columna:

tab region altura, col nof

Departamen | Nivel de altura


to | Baja Media Alta | Total
-----------+---------------------------------+----------
La Paz | 3.41 22.35 39.16 | 25.66
Oruro | 0.00 0.00 21.08 | 10.32
Potosí | 0.00 1.18 23.49 | 11.80
Chuquisaca | 1.14 27.06 3.01 | 8.55
Cochabamba | 4.55 27.06 12.05 | 13.86
Tarija | 3.41 7.06 1.20 | 3.24
Santa Cruz | 48.86 15.29 0.00 | 16.52
Beni | 21.59 0.00 0.00 | 5.60
Pando | 17.05 0.00 0.00 | 4.42
-----------+---------------------------------+----------
Total | 100.00 100.00 100.00 | 100.00

Para conocer la frecuencia y porcentaje por celda:

tab region naltura, cell

+-----------------+
| Key |
|-----------------|
| frequency |
| cell percentage |
+-----------------+

| Nivel de altura
Región | Baja Media Alta | Total
-----------+---------------------------------+----------
Urbana | 40 10 21 | 71
| 11.80 2.95 6.19 | 20.94
-----------+---------------------------------+----------
Rural | 48 75 145 | 268
| 14.16 22.12 42.77 | 79.06
-----------+---------------------------------+----------
Total | 88 85 166 | 339
| 25.96 25.07 48.97 | 100.00

table

El comando table se puede crear tablas estadísticas controlando el contenido de cada casilla. Por
ejemplo, podemos calcular una tabla de doble entrada y situar en cada celda el estadístico
solicitado.

Los estadísticos pueden ser:

freq frecuencia
mean nombrevar media de la variable
sd nombrevar desviación estándar
sum nombrevar datos estadísticos básicos
9
count nombrevar cuenta las observaciones “nonmissing”
n nombrevar número de observaciones, similar a “count”
max nombrevar máximo
min nombrevar mínimo
median nombrevar mediana
p1 nombrevar 1er percentil
p2 nombrevar 2do percentil
... 3ro-49vo percentil
p50 nombrevar 50vo percentil (mediana)
... 51vo-97vo percentil
p98 nombrevar 98vo percentil
p99 nombrevar 99vo percentil
iqr nombrevar interquartile range

El comando table puede replicar los estadísticos del comando sum: número de observaciones,
media, desviación estándar, mínimo y máximo de la variables temp. Además, los números tienen
un formato (help format).

table depto, contents (n temp mean temp sd temp min temp max temp) format (%8.2f)

-----------------------------------------------------------------------
Departamen |
to | N(temp) mean(temp) sd(temp) min(temp) max(temp)
-----------+-----------------------------------------------------------
La Paz | 87 10.73 5.28 4.67 25.33
Oruro | 35 7.53 1.38 3.83 9.51
Potosí | 40 10.07 2.82 4.35 16.82
Chuquisaca | 29 16.97 2.53 13.25 23.07
Cochabamba | 47 15.15 4.06 7.13 25.18
Tarija | 11 18.10 3.92 10.58 23.30
Santa Cruz | 56 23.08 2.51 16.90 25.79
Beni | 19 25.75 0.51 24.94 26.47
Pando | 15 25.77 0.62 24.67 26.41
-----------------------------------------------------------------------

El análisis descriptivo requiere una tabla de doble entrada, esto puede obtenerse de esta manera:

table depto naltura, contents (mean temp) format ( %8.2f)

--------------------------------
Departamen | Nivel de altura
to | Baja Media Alta
-----------+--------------------
La Paz | 24.44 17.99 7.97
Oruro | 7.53
Potosí | 16.82 9.89
Chuquisaca | 23.07 17.42 13.72
Cochabamba | 24.24 16.56 11.71
Tarija | 22.61 17.81 12.19
Santa Cruz | 24.33 18.97
Beni | 25.75
Pando | 25.77
--------------------------------
10
table depto region, contents (mean temp) format ( %8.2f)

---------------------------
Departamen | Región
to | Urbana Rural
-----------+---------------
La Paz | 8.05 10.96
Oruro | 7.24 7.56
Potosí | 9.39 10.18
Chuquisaca | 16.30 17.00
Cochabamba | 13.33 15.64
Tarija | 21.02 16.42
Santa Cruz | 23.81 22.35
Beni | 25.80 25.70
Pando | 24.97 25.89
---------------------------

table region naltura, contents (mean temp) format ( %8.2f)


-------------------------------
| Nivel de altura
Región | Baja Media Alta
----------+--------------------
Urbana | 24.62 17.10 8.91
Rural | 24.96 17.63 9.02
-------------------------------

table depto region naltura, c(mean temp) format ( %8.2f) // c es equivalente a contents

---------------------------------------------------------------
| Nivel de altura and Región
Departamen | ---- Baja ---- ---- Media --- ---- Alta ----
to | Urbana Rural Urbana Rural Urbana Rural
-----------+---------------------------------------------------
La Paz | 24.44 17.99 8.05 7.96
Oruro | 7.24 7.56
Potosí | 16.82 9.39 9.98
Chuquisaca | 23.07 16.30 17.47 13.72
Cochabamba | 24.24 16.13 16.67 10.52 12.11
Tarija | 22.61 16.27 18.12 12.19
Santa Cruz | 24.36 24.28 19.26 18.88
Beni | 25.80 25.70
Pando | 24.97 25.89
---------------------------------------------------------------

3.3. Distribución de frecuencia

La recolección de datos originales revela muy poco por sí sola, se debe organizar y describir tales
datos de manera concisa y significativa. Para determinar su significancia, los datos se organizan
de manera que, con un simple vistazo, se pueda tener una idea de lo que pueden decirnos.

Entre las herramientas estadísticas que resultan de particular utilidad para organizar los datos se
incluyen:
11
− Tablas de frecuencia que colocan todos los datos en clases específicas;
− Diversos gráficos que pueden proporcionar una representación visual de los datos.

Una serie de datos en bruto es improbable pueda proporcionarnos información útil y significativa,
es preciso agrupar y presentar los datos de manera concisa y reveladora para facilitar el acceso a
la información que contienen.

Una distribución de frecuencia (o tabla de frecuencia) ordenará los datos si estos se dividen en
clases y se registrará el número de observaciones en cada clase.

El comando tabulate despliega la tabla de frecuencia de una o dos variables. Tiene distintas
opciones tales como porcentajes por fila, columna y celda.

Para conocer el número de municipios por departamento, por ejemplo, se debe escribir el
siguiente comando:

tab depto

Departament |
o | Freq. Percent Cum.
------------+-----------------------------------
La Paz | 87 25.66 25.66
Oruro | 35 10.32 35.99
Potosí | 40 11.80 47.79
Chuquisaca | 29 8.55 56.34
Cochabamba | 47 13.86 70.21
Tarija | 11 3.24 73.45
Santa Cruz | 56 16.52 89.97
Beni | 19 5.60 95.58
Pando | 15 4.42 100.00
------------+-----------------------------------
Total | 339 100.00

El comando histogram gráfica la distribución de frecuencia de una variable categórica o


continua. Tiene varias opciones, escribir help histogram. Por ejemplo, podemos graficar el
histograma para la frecuencia o el porcentaje.

Para graficar la frecuencia, por ejemplo, se debe escribir los siguientes comandos:

1. El primer comando está graficando la tabla de frecuencia con una variedad de opciones.
2. El segundo comando está re-nombrando la gráfica para poder observarla con otras
gráficas.
3. El tercer comando está guardando la gráfica en formato .gph de STATA.
4. Nota: los símbolos “/*” y “*/” es para indicar al programa la continuidad del comando.
Es decir, como no existiera separación entre los párrafos.

12
histogram depto, frequency addlabels ytitle("Frecuencia") /*
*/ subtitle("Distribución por Departamentos") /*
*/ xlabel(1 2 3 4 5 6 7 8 9, valuelabel labsize(vsmall)) /*
*/ note("Fuente: Fundación INESAD")
graph rename figura1
graph save figura1, replace
graph export figura1.png, as(png) replace

Para graficar el porcentaje de la tabla de frecuencia, por ejemplo, se debe escribir los siguientes
comandos:

histogram depto, percent addlabels ytitle("En Porcentaje") /*


*/ subtitle("Distribución por Departamentos") /*
*/ xlabel(1 2 3 4 5 6 7 8 9, valuelabel labsize(vsmall)) /*
*/ note("Fuente: Fundación INESAD")
graph rename figura2
graph save figura2, replace
graph export figura2.png, as(png) replace

13
El comando histogram también gráfica la distribución de frecuencia de una variable continua.
Tiene varias opciones para analizar la variable. Por ejemplo, al especificar normal, se superpone
una densidad normal en el histograma; en cambio, al especificar kdensity, se superpone una
estimación adecuada de la densidad en el histograma.

histogram consumopc, density normal kdensity /*


*/ subtitle("Consumo per cápita") /*
*/ ytitle("Densidad") xtitle("Consumo") /*
*/ note("Fuente: Fundación INESAD")
graph rename figura3, replace
graph save figura3, replace
graph export figura3.png, as(png) replace

3.4. Medidas de tendencia central

Los datos de una variable están propensos a reunirse alrededor de un punto central denominado
medida de la tendencia central, que ubica e identifica el punto alrededor del cual se centran los
datos.

Existen tres métodos para identificar el centro de un conjunto de datos:

− La media;
− La mediana;
− La moda.

14
La media o media aritmética es la medida de la tendencia central que usualmente llamada
promedio. La media de una muestra con n observaciones se determina así:

 +  + ⋯ +  ∑  
 = =

La mediana algunas veces es llamada media posicional, porque queda exactamente en la mitad
del conjunto de datos después de que las observaciones se han colocado en serie ordenada. La
mitad de las observaciones estará por encima de la mediana, la otra mitad estará por debajo de
ella.

Si el conjunto de datos tiene un número impar de observaciones, la posición de la mediana es

+1
ó     =
2
Con un conjunto de datos que contiene un número par de observaciones es necesario promediar
los dos valores medios.

La moda es la observación que ocurre con mayor frecuencia.

El comando table puede crear tablas estadísticas controlando el contenido de cada casilla. Por
ejemplo, podemos calcular la media y la mediana de un variable para una variable categórica.

table depto, c (mean temp median temp) format(%8.2f)


-----------------------------------
Departamen |
to | mean(temp) med(temp)
-----------+-----------------------
La Paz | 10.73 8.04
Oruro | 7.53 7.78
Potosí | 10.07 9.82
Chuquisaca | 16.97 16.78
Cochabamba | 15.15 15.68
Tarija | 18.10 18.00
Santa Cruz | 23.08 24.25
Beni | 25.75 25.72
Pando | 25.77 26.00
-----------------------------------

15
El comando graph bar gráfica estadístico de una variable categórica. Los comandos para obtener
una gráfica con los estadísticos son:

graph bar (mean) temp (median) temp, over(depto, label(labsize(vsmall)))/*


*/ title("Temperatura por Departamento") subtitle("En Centigrados")/*
*/ ytitle("Temperatura") /*
*/ blabel(bar, format(%8.1f) size(vsmall)) /*
*/ legend( label(1 "Media") label(2 "Mediana")) /*
*/ note("Fuente: Fuente INESAD")
graph rename figura4, replace
graph save figura4, replace
graph export figura4.png, as(png) replace

Otro ejemplo, podemos calcular la media y la mediana de un variable tomando en cuanta dos
variables categóricas: region y altura.

table region naltura, c(mean temp median temp) format(%8.2f)

-------------------------------
| Nivel de altura
Región | Baja Media Alta
----------+--------------------
Urbana | 24.62 17.10 8.91
| 24.83 16.41 8.24
|
Rural | 24.96 17.63 9.02
| 25.09 17.46 8.13
-------------------------------

16
El comando graph bar también gráfica estadístico de dos variables categóricas. Los comandos
para obtener una gráfica con los estadísticos son:

graph bar (mean) temp (median) temp, over(region, label(labsize(vsmall))) over(naltura,


label(labsize(medsmall))) /*
*/ title("Temperatura por Región y Altura") subtitle("En Centigrados")/*
*/ ytitle("Temperatura") /*
*/ blabel(bar, format(%8.1f) size(vsmall)) /*
*/ legend( label(1 "Media") label(2 "Mediana")) /*
*/ note("Fuente: Fundación INESAD")
graph rename figura5, replace
graph save figura5, replace
graph export figura5.png, as(png) replace

3.5. Medidas de posición

Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de
individuos. Para calcular las medidas de posición es necesario que los datos estén ordenados de
menor a mayor.

La medidas de posición más comunes son: Cuartiles, Quintiles, Deciles y Percentiles.

Cuartiles: Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos
ordenados en cuatro partes iguales. Por ejemplo, Q1, Q2 y Q3 determinan los valores
correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.

17
Quintiles: Los quintiles son los cuatro valores de la variable que dividen a un conjunto de datos
ordenados en cinco partes iguales. Los valores correspondientes al 20%, al 40%, al 60% y al 80%
de los datos.

Deciles: Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. D5 coincide
con la mediana.

Percentiles: Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. P50
coincide con la mediana.

El comando table puede crear tablas estadísticas con las medidas de posición de una variable. Por
ejemplo, podemos calcular los cuartiles de la variable temperatura por departamento.

table depto, c( p25 temp p50 temp p75 temp) format(%8.2f)

-----------------------------------------------
Departamen |
to | p25(temp) med(temp) p75(temp)
-----------+-----------------------------------
La Paz | 7.26 8.10 13.51
Oruro | 6.87 7.77 8.59
Potosí | 8.24 9.82 12.14
Chuquisaca | 15.41 16.83 18.36
Cochabamba | 12.63 15.30 16.74
Tarija | 16.09 18.00 21.88
Santa Cruz | 20.97 23.82 24.61
Beni | 25.42 25.72 26.27
Pando | 24.98 26.00 26.29
-----------------------------------------------

El comando graph bar también gráfica estadístico de posición. Los comandos para obtener una
gráfica con los estadísticos son:

graph bar (p25) temp (p50) temp (p75) temp, over(depto, label(labsize(vsmall)))/*
*/ title("Temperatura por Departamento: Cuartiles") subtitle("En Centigrados")/*
*/ ytitle("Temperatura") /*
*/ blabel(bar, format(%8.1f)size(vsmall)) /*
*/ legend( label(1 "P25") label(2 "P50") labe(3 "P75" )) /*
*/ note("Fuente: PNUD")

18
graph rename figura6, replace
graph save figura6, replace

Temperatura por Departamento: Cuartiles


En Centigrados
26.3 26.026.3
25.425.7 25.0
24.6
25
23.8

21.9
21.0
20

18.4 18.0
Temperatura

16.8 16.7
16.1
15.4 15.3
15

13.5
12.6
12.1

9.8
10

8.6 8.2
8.1 7.8
7.3 6.9
5
0

La Paz Oruro Potosí Chuquisaca Cochabamba Tarija Santa Cruz Beni Pando

P25 P50
P75
Fuente: PNUD

3.6. Medidas de dispersión

La ubicación del centro de un conjunto de datos es de utilidad para descripción de un conjunto de


números. Pero identificar una medida de tendencia central rara vez es suficiente. Una descripción
más completa del conjunto de datos puede obtenerse si se mide qué tan disperso están los datos
alrededor de ducho punto central. Esto es precisamente lo que hacen las medidas de dispersión.
Indican cuánto se desvían las observaciones alrededor de su media.

El rango es la medida de dispersión más simple (y menos útil). El rango es simplemente la


diferencia entre la observación más alta y la más baja. Su ventaja es que es fácil de calcular. Su
desventaja es que considera sólo dos de los cientos de observaciones que hay en un conjunto de
datos. El resto de las observaciones se ignoran.

19
La varianza y la desviación estándar son medidas de dispersión mucho más útiles. Proporcionan
una medida más significativa sobre el punto hasta el cual se dispersan las observaciones
alrededor de su media.

La varianza es el “promedio de las desviaciones respecto a su media elevadas al cuadrado”. ¿Qué


significa esto? Significa que: 1) se encuentra la cantidad por la cual cada observación se desvía
de la media; 2) se elevan al cuadrado tales desviaciones; y 3) se halla la media de tales
desviaciones elevadas al cuadrado.

La desviación estándar es la raíz cuadrada de la varianza. Es una medida importante de la


dispersión de los datos.

La varianza y la desviación estándar para una muestra representan medidas de dispersión


alrededor de la media. Se calculan de la siguiente manera:

∑ ( − )
 (  ) ==
−1

!"ó #á () = % 

El comando table puede crear tablas estadísticas con las medidas de dispersión de una variable.
Por ejemplo, podemos calcular la desviación estándar, el máximo y el mínimo de la variable
índice de desarrollo humano (idh2001) y de toda la muestra.

table depto, c( mean idh2001 sd idh2001 max idh2001 min idh2001) row format(%8.2f)
-----------------------------------------------------------------------

20
Departamen |
to | mean(idh2001) sd(idh2001) max(idh2001) min(idh2001)
-----------+-----------------------------------------------------------
La Paz | 0.55 0.05 0.71 0.42
Oruro | 0.54 0.04 0.69 0.48
Potosí | 0.48 0.09 0.67 0.34
Chuquisaca | 0.49 0.08 0.69 0.35
Cochabamba | 0.53 0.10 0.74 0.31
Tarija | 0.59 0.06 0.69 0.47
Santa Cruz | 0.61 0.05 0.74 0.52
Beni | 0.62 0.03 0.69 0.56
Pando | 0.57 0.04 0.69 0.51
|
Total | 0.55 0.08 0.74 0.31
-----------------------------------------------------------------------

El comando histogram gráfica la distribución de frecuencia de una variable continua, donde se


puede introducir la media y la desviación estándar. Los comandos para obtener una gráfica con
los estadísticos son:

histogram idh2001, freq normal kdensity /*


*/ xaxis(1 2) /*
*/ ylabel(0(10)60, grid) /*
*/ xlabel(0.55 "media" /*
*/ 0.47 "-1 sd" /*
*/ 0.63 "+1 sd" /*
*/ 0.39 "-2 sd" /*
*/ 0.71 "+2 sd", axis(2) grid gmax) /*
*/ title("Indice de Desarrollo Humano") subtitle("Año 2001")/*
*/ xtitle("", axis(2)) /*
*/ ytitle("Frecuencia") /*
*/ note("Fuente: PNUD")

21
Indice de Desarrollo Humano
Año 2001
-2 sd -1 sd media +1 sd +2 sd

60
50 40
Frecuencia
3020
10
0

.3 .4 .5 .6 .7
idh2001
Fuente: PNUD

3.7. Coeficiente de variación

Como se ha enfatizado, un uso importante de la desviación estándar es servir como medida de


dispersión. Sin embargo se aplican ciertas limitaciones. Cuando se consideran dos o más
distribuciones que tiene medias significativamente diferentes, o que están medidas en unidades
distintas, es peligroso sacar conclusiones respecto a la dispersión sólo con base en la desviación
estándar.
Por tanto, con frecuencia debemos considerar el coeficiente de variación (cv), el cual sirve como
medida relativa de dispersión. El coeficiente de variación determina el grado de dispersión de un
conjunto relativo a su media. Se calcula dividiendo la desviación estándar de una distribución por
su medio y multiplicando por 100.


&' #  "ó (") =

Por otro lado, presenta problemas ya que a diferencia de la desviación estándar este coeficiente es
variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su
media dé, por tanto, un valor positivo. A mayor valor del coeficiente de variación mayor
heterogeneidad de los valores de la variable; y a menor cv, mayor homogeneidad en los valores
de la variable.

El coeficiente de variación es típicamente menor que uno. Sin embargo, en ciertas distribuciones
de probabilidad puede ser 1 o mayor que 1.
22
El comando tabstat se utiliza pada construir tablas de estadísticos resumen: la media, el máximo,
el mínimo, el rango, la varianza, la desviación estándar, los percentiles, el coeficiente de
variación, entre otros, ver help tabstat.

Los comandos para obtener una tabla resumen de los estadísticos analizados para una variable, se
debe escribir el siguiente comando:

tabstat temp, by(depto) stat(mean median range variance sd cv) format(%8.2f)


Summary for variables: temp
by categories of: depto (Departamento)
depto | mean p50 range variance sd cv
-----------+------------------------------------------------------------
La Paz | 10.71 8.10 20.66 27.42 5.24 0.49
Oruro | 7.52 7.77 5.69 1.95 1.40 0.19
Potosí | 10.04 9.82 12.48 8.15 2.85 0.28
Chuquisaca | 17.00 16.83 9.82 6.61 2.57 0.15
Cochabamba | 14.87 15.30 18.05 15.47 3.93 0.26
Tarija | 18.10 18.00 12.71 15.34 3.92 0.22
Santa Cruz | 22.76 23.82 8.89 6.78 2.60 0.11
Beni | 25.75 25.72 1.52 0.26 0.51 0.02
Pando | 25.77 26.00 1.74 0.39 0.62 0.02
-----------+------------------------------------------------------------
Total | 15.16 14.69 22.64 48.09 6.93 0.46
------------------------------------------------------------------------

El comando tabstat también calcula estadístico para más de dos variables, se debe escribir el
siguiente comando:

tabstat nbi2001 idh2001 espvida2001, stat(mean median range variance sd cv) format(%8.2f)

stats | nbi2001 idh2001 esp~2001


---------+------------------------------
mean | 84.28 0.55 60.43
p50 | 91.05 0.56 61.09
range | 80.92 0.43 29.90
variance | 321.45 0.01 25.31
sd | 17.93 0.08 5.03
cv | 0.21 0.14 0.08
----------------------------------------

23
3.8. Coeficiente de correlación

En estadística, el coeficiente de correlación de Pearson (()* ) es una medida de la relación lineal


entre dos variables aleatorias cuantitativas (X, Y). A diferencia de la covarianza, la correlación de
Pearson es independiente de la escala de medida de las variables.

De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un


índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando
ambas sean cuantitativas.

Se calcula dividiendo la covarianza entre las dos variables (X,Y) por sus desviaciones estándares:

&"(, ,)
&' #  ó (()* ) =
-) -*

El coeficiente de correlación puede asumir cualquier valor entre -1 y +1 (−1 ≤ ()* ≤ 1). Un
valor de ()* = −1 indica una relación negativa perfecta entre X y Y; en cambio, muestra una
relación positiva perfecta entre X y Y con de ()* = +1.

El comando correlate calcula correlaciones entre variables cuantitativas, se debe escribir el


siguiente comando:

correlate temp rain altitude nbi2001 idh2001 espvida2001

| temp rain altitude nbi2001 idh2001 esp~2001


-------------+------------------------------------------------------
temp | 1.0000
rain | 0.7936 1.0000
altitude | -0.9869 -0.8047 1.0000
nbi2001 | -0.3022 -0.1170 0.2948 1.0000
idh2001 | 0.3726 0.2936 -0.4251 -0.7090 1.0000
espvida2001 | 0.4558 0.2900 -0.4876 -0.5462 0.8230 1.0000

El comando graph twoway scatter puede proporcionarnos una gráfica que muestra los posibles
valores para el coeficiente de correlación. El comando para obtener la gráfica es:

24
graph twoway (scatter rain temp) (lfit rain temp), /*
*/ title("Relación entre Temperatura y Precipitación Pluvial") /*
*/ ytitle("Precipitación Pluvial") xtitle("Temperatura") /*
*/ legend( order(1 "Observación" 2 "Tendencia"))/*
*/ note("Fuente: PNUD")
graph rename figura8, replace
graph save figura8, replace

Relación entre Precipitación Pluvial y Temperatura


400 300
Precipitación Pluvial
100 200
0

5 10 15 20 25
Temperatura

Observación Tendencia
Fuente: PNUD

graph twoway (scatter nbi2001 temp) (lfit nbi2001 temp), /*


*/ title("Relación entre NBI y Temperatura") /*
*/ ytitle("NBI") xtitle("Temperatura") /*
*/ legend( order(1 "Observación" 2 "Tendencia"))/*
*/ note("Fuente: PNUD")
graph rename figura9, replace
graph save figura9, replace

25
Relación entre NBI y Temperatura

100
80
NBI
60
40
20

5 10 15 20 25
Temperatura

Observación Tendencia
Fuente: PNUD

4. Estadística Inferencial
La estadística inferencial involucra la utilización de una muestra para sacar alguna inferencia o
conclusión sobre la población de la cual hace parte la muestra.

La exactitud de toda estimación es de enorme importancia. Esta exactitud depende en gran parte
de la forma como se tomó la muestra y del cuidado que se tenga para garantizar que la muestra
proporcione una imagen confiable de la población. Sin embargo, con mucha frecuencia se
comprueba que la muestra no es del todo representativa de la población y resultará un error de
muestreo. El error de muestreo es la diferencia entre el estadístico de la muestra utilizada para
calcular el parámetro de la población y el valor real pero desconocido del parámetro.

4.1. Distribuciones muestrales

El valor estadístico depende de la muestra tomada. De cualquier población dada de tamaño /, es


posible obtener muchas muestras diferentes de tamaño . Cada muestra puede también tener una
media diferente. De hecho, es posible obtener una distribución completa de medias diferentes de
varias muestras posibles de una variable aleatoria.

Una variable aleatoria es una variable cuyo valor es el resultado de un evento aleatorio. Las
variables aleatorias pueden ser discretas o continuas. Una variable aleatoria discreta puede asumir
sólo ciertos valores, con frecuencia números enteros, y resulta principalmente del conteo. Una
variable aleatoria continua resulta principalmente de la medición y puede tomar cualquier valor,
al menos dentro de un rango dado.
26
Una distribución de probabilidad es un despliegue de todos los posibles resultados de un
experimento junto con las probabilidades de cada resultado, tanto de una variable aleatoria
discreta o continua.

Por ejemplo, suponiendo que se lanza una moneda tres veces y se anota el número de caras que se
obtienen. Los posibles resultados son 0 caras, 1 cara, 2 caras, o 3 caras. La variable aleatoria es el
número de caras que se obtienen, y los posibles resultados son los valores de la variable aleatoria.
Por tanto, se puede determinar que la probabilidad de lanzar una moneda tres veces y obtener:
− ninguna cara es 1/8;
− 1 cara es 3/8;
− 2 caras es 3/8; y
− 3 caras es 1/8.

Esta distribución de probabilidad muestra todos los resultados posibles y sus probabilidades. Vale
la pena destacar que las probabilidades suman 1, como se aprecia en la Figura 2.

Figura 1. Distribución Discreta de probabilidad para el número de caras

Un gran número de decisiones depende de la distribución de probabilidad, que puede estar


expresado por las siguientes:
− Distribución binomial
− Distribución hipergeométrica
− Distribución Poisson
− Distribución exponencial
27
− Distribución uniforme
− Distribución normal

De todas las distribuciones de probabilidad, la distribución normal es la más importante.

4.2. La distribución normal

El concepto de una distribución normal se encuentra usualmente en análisis estadístico y es de


importancia considerable. Por ejemplo, la desviación estándar puede utilizarse para sacar ciertas
conclusiones si el conjunto de datos en cuestión está distribuido normalmente.

Una distribución normal es una distribución de datos continuos (no discretos) que produce una
curva simétrica en forma de campana, mostrando que las observaciones en cada extremo
ocurrirán relativamente de forma poco frecuente, pero las observaciones que están más cerca de
la mitad ocurrirán con una frecuencia alta. En una distribución normal, la media, la mediana y la
moda son todas iguales, como se muestra en la Figura 1.

Figura 2. Distribución Normal

Además, es de importancia que la mitad de las observaciones está por encima de la media y la
mitad está por debajo. La regla empírica dice que si se incluyen todas las observaciones que están
aun desviación estándar de la media (una desviación estándar por encima de la media y una

28
desviación estándar por debajo de la media) estas serán el 68.3% de todas las observaciones;
entonces, las observaciones están distribuidas normalmente.

La forma y posición de una distribución normal están determinadas por dos parámetros: su
media (0) y su desviación estándar (-).

La evidencia muestra que puede existir un número infinito de distribuciones normales posibles,
cada una con su propia media y su desviación estándar. Ya que no se puede analizar un número
tan grande de posibilidades, es necesario convertir todas estas distribuciones normales a una
forma estándar.

Esta conversión a la distribución normal estándar se efectúa con la fórmula de conversión (o


fórmula – Z):

−0
1=
-

En donde Z es la desviación normal y X es algún valor específico de la variable aleatoria.


Después de este proceso de conversión, la media de la distribución es cero y la desviación
estándar es 1.

El programa STATA tiene varias opciones para testear si la distribución de una variable tiene una
distribución normal. En una primera parte, se analizará gráficamente si la distribución se asemeja
a una distribución (métodos gráficos), luego se utilizará algunas estadísticas para determinar si la
distribución es normal (métodos numéricos).

Métodos gráficos

El comando kdensity se utiliza para producir una gráfica de la estimación de la densidad kernel
de la variable de interés. El comando normal solicita que una densidad normal se adjunte a la
gráfica. La comparación puede proporcionarnos una idea de la distribución de la variable
aleatoria. La gráfica puede ser pensada como un histograma con los compartimientos estrechos y
media móvil. Los comandos son:

kdensity idh2001, normal title("Distribución del IDH: Municipios") /*


*/ ytitle("Densidad") xtitle("Indice de Desarrollo Humano") /*
*/ legend(order(1 "Estimación Densidad Kernel" 2 "Densidad Normal"))
graph rename figura10, replace
graph save figura10, replace

29
Distribución del IDH: Municipios

6
4
Densidad
2
0

.3 .4 .5 .6 .7 .8
Indice de Desarrollo Humano

Estimación Densidad Kernel


Densidad Normal
kernel = epanechnikov, bandwidth = 0.0189

También se puede utilizar el comando histogram que gráfica la distribución de frecuencia con
las opciones de kdensity y normal. Los comandos para obtener la gráfica:

Distribución del IDH:


6.353
Municipios
5.845
6

5.083
4.956
4
Densidad

2.795
2.541

2.033
1.906 1.906
2

1.652

.8895 .8895
.7624 .7624 .7624

.2541
.1271
0

.3 .4 .5 .6 .7
Indice de Desarrollo Humano

30
El comando pnorm representa gráficamente entre la probabilidad normal estandarizada de la
variable y la determinada empíricamente. Este comando permite evaluar las diferencias en le
centro de la distribución. El comando qnorm pgráfica los cuantiles de la variable de interés
contra los cuantiles de la distribución normal. Este comando permite evaluar las colas de la
distribución. El comando graph box dibuja diagramas de cajas verticales donde se representa la
media y las observaciones “outliers”. Finalmente, el comando dotplot gráfica un diagrama de
dispersión con los valores agrupados verticalmente y con los puntos representados separados
horizontalmente, donde el objetivo es mostrar todos los datos de varias variables o grupos en un
gráfico compacto.

pnorm idh2001 qnorm idh2001


1.00

.8
.7
0.75
Normal F[(idh2001-m)/s]

.6
idh2001
0.50

.5
0.25

.4
0.00

.3

0.00 0.25 0.50 0.75 1.00 .3 .4 .5 .6 .7 .8


Empirical P[i] = i/(N+1) Inverse Normal

graph box idh2001 dotplot idh2001


.7
.7

.6
.6

idh2001
idh2001

.5
.5

.4
.4

.3

0 10 20 30 40
.3

Frequency

31
Uno puede verificar con las gráficas que la distribución del IDH se casi asemeja a una
distribución normal; sin embargo, para un resultado se debe testear si la variable tiene una
distribución normal mediante métodos numéricos.

Métodos numéricos

Los tests de normalidad se aplican a conjuntos de datos para determinar su similitud con una
distribución normal. La hipótesis nula es, en estos casos, si el conjunto de datos es similar a una
distribución normal, por lo que un P-valor suficientemente pequeño indica datos no normales.

Los comandos son:

swilk Test de Shapiro-Wilk.


sfrancia Test de Shapiro-Francia
sktest Test Skewness/Kurtosis

Para mayor información de los distintos test recurrir al commando help.

swilk temp rain altitude slope pob2001 rural2001 nbi2001 idh2001 espvida2001

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


-------------+--------------------------------------------------
temp | 311 0.91302 19.133 6.940 0.00000
rain | 311 0.88345 25.636 7.628 0.00000
altitude | 311 0.86233 30.283 8.020 0.00000
slope | 311 0.90179 21.603 7.225 0.00000
pob2001 | 311 0.21198 173.334 12.122 0.00000
rural2001 | 311 0.92363 16.798 6.634 0.00000
nbi2001 | 311 0.80543 42.798 8.833 0.00000
idh2001 | 311 0.98091 4.199 3.374 0.00037
espvida2001 | 311 0.97533 5.427 3.977 0.00003

sfrancia temp rain altitude slope pob2001 rural2001 nbi2001 idh2001 espvida2001

Shapiro-Francia W' test for normal data

Variable | Obs W' V' z Prob>z


-------------+--------------------------------------------------
temp | 311 0.91674 19.590 6.162 0.00001
rain | 311 0.88262 27.619 6.829 0.00001
altitude | 311 0.86612 31.501 7.082 0.00001
slope | 311 0.91692 19.549 6.157 0.00001
pob2001 | 311 0.20518 187.014 10.388 0.00001
rural2001 | 311 0.95372 10.890 5.000 0.00001
nbi2001 | 311 0.80920 44.893 7.758 0.00001
idh2001 | 311 0.98165 4.317 3.117 0.00091
espvida2001 | 311 0.97530 5.813 3.730 0.00010
32
sktest temp rain altitude slope pob2001 rural2001 nbi2001 idh2001 espvida2001

Skewness/Kurtosis tests for Normality


------- joint ------
Variable | Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+---------------------------------------------------------------
temp | 311 0.0906 0.0000 . 0.0000
rain | 311 0.0000 0.0000 62.17 0.0000
altitude | 311 0.0010 0.0000 . 0.0000
slope | 311 0.3950 . . .
pob2001 | 311 0.0000 0.0000 . 0.0000
rural2001 | 311 0.0000 0.0212 52.27 0.0000
nbi2001 | 311 0.0000 0.0003 61.90 0.0000
idh2001 | 311 0.0038 0.2970 8.72 0.0128
espvida2001 | 311 0.0000 0.1732 16.43 0.0003

Los tests de normalidad muestran que todas las variables no tienen una distribución normal. Una
explicación las diferencias geográficas de Bolivia. Con la finalidad de contar con distribuciones
apropiadas se analiza con variables categóricas (altura).

sort altura

by altura: swilk temp rain altitude slope pob2001 rural2001 nbi2001 idh2001 espvida2001

---------------------------------------------------------------------------------------
-> altura = Baja

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


-------------+--------------------------------------------------
temp | 78 0.94685 3.574 2.787 0.00266
rain | 78 0.92903 4.771 3.419 0.00031
altitude | 78 0.77373 15.212 5.956 0.00000
slope | 78 0.56086 29.523 7.407 0.00000
pob2001 | 78 0.18385 54.870 8.763 0.00000
rural2001 | 78 0.97511 1.674 1.127 0.12995
nbi2001 | 78 0.89510 7.052 4.274 0.00001
idh2001 | 78 0.98052 1.310 0.590 0.27754
espvida2001 | 78 0.93774 4.186 3.133 0.00087

---------------------------------------------------------------------------------------
-> altura = Media

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


-------------+--------------------------------------------------
temp | 79 0.97197 1.904 1.410 0.07925
rain | 79 0.83795 11.009 5.252 0.00000

33
altitude | 79 0.93234 4.596 3.340 0.00042
slope | 79 0.88650 7.711 4.472 0.00000
pob2001 | 79 0.27632 49.163 8.529 0.00000
rural2001 | 79 0.70237 20.220 6.583 0.00000
nbi2001 | 79 0.83709 11.067 5.264 0.00000
idh2001 | 79 0.98942 0.719 -0.722 0.76493
espvida2001 | 79 0.97491 1.704 1.167 0.12157

---------------------------------------------------------------------------------------
-> altura = Alta

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


-------------+--------------------------------------------------
temp | 154 0.93696 7.503 4.575 0.00000
rain | 154 0.98685 1.565 1.017 0.15464
altitude | 154 0.95670 5.153 3.722 0.00010
slope | 154 0.94453 6.602 4.285 0.00001
pob2001 | 154 0.22431 92.316 10.273 0.00000
rural2001 | 154 0.79045 24.939 7.302 0.00000
nbi2001 | 154 0.68913 36.997 8.197 0.00000
idh2001 | 154 0.96310 4.392 3.359 0.00039
espvida2001 | 154 0.96173 4.554 3.442 0.00029

La variable idh2001 puede estar caracterizado por una distribución normal en los municipios con
altura baja y media; en cambio, no se cumple para los municipios con altura alta.

4.3. Intervalos de confianza

Hay por lo menos dos tipos de estimadores que se utilizan más comúnmente para estimar la
media poblacional con la media de una muestra representativa: un estimador puntual y un
estimador por intervalo.

Un estimador puntual utiliza un estadístico para estimar el parámetro en un solo valor o punto; en
cambio, una estimación por intervalo específica el rango dentro del cual está el parámetro
desconocido. Tal intervalo con frecuencia va acompañado de una afirmación sobre el nivel de
confianza que se da en su exactitud. Por tanto se llama intervalo de confianza (IC).

En realidad hay tres niveles de confianza relacionados comúnmente con los intervalos de
confianza: 99%, 95%, y 90%. No hay nada mágico sobre estos tres valores. Estos tres niveles de
confianza, denominados coeficientes de confianza, son simplemente convencionales.

Las estimaciones por intervalo gozan de ciertas ventajas sobre las estimaciones puntuales. Debido
al error de muestreo, probablemente  no será igual a 0. Sin embargo, no hay manera de sabe qué
tan grande es el error de muestreo. Por tanto, los intervalos se utilizan para explicar esta
discrepancia desconocida.

34
Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite superior de
confianza (LSC). Estos límites se hallan calculando primero la media muestral . Luego se suma
una cierta cantidad a  para obtener el LSC, y la misma cantidad se resta de  para obtener el
LIC.

Para construir un intervalo de confianza del 95%, simplemente se especifica un intervalo de 1.96
errores estándar por encima y por debajo de la media muestral. Este valor del 95% es llamado
coeficiente de confianza, que es el nivel de confianza que se tiene en el que el intervalo contenga
el valor desconocido del parámetro, ver Figura 3.

Figura 3. Intervalo de confianza del 95% para estimar la media poblacional

En el caso de muestran grandes ( 2 30), el intervalo de confianza para la media poblacional es:

5& =  6 1 ∙ -)

Donde Z es el coeficiente de confianza (o valor crítico), donde sus valores son:


− 99% de nivel de confianza, el valor crítico es 2.575
− 95% de nivel de confianza, el valor crítico es 1.96
− 90% de nivel de confianza, el valor crítico es 1.645

El nivel de confianza (p) se designa mediante 1 - α. El nivel de significación se designa mediante


α, que es denominado el valor alfa y representa la probabilidad de error. El valor alfa es la
probabilidad de que cualquier intervalo dado no contenga la media poblacional.

En el caso de muestran pequeñas ( 8 30), el intervalo de confianza para la media poblacional


es:

35

 0
, # 

)
5& =  6 # ∙ ) =  6 # ∙

Cuando se utiliza una muestra pequeña, la distribución normal no puede aplicarse. En ese sentido,
cuando se utiliza una muestra pequeña, se debe utilizar una distribución alternativa: la

cumplen tres condiciones: 1) la muestra es pequeña; 2) - es desconocida; y 3) la población es


distribución t Student (simplemente la distribución t). Esta distribución se utiliza cuando se

normal o casi normal. La Figura 4 detalla los diferentes estadísticos.

Figura 4. Selección del estadístico apropiado para estimar :

36
El comando mean calcula la media aritmética con sus intervalos de confianza correspondientes,
para cada variable especificada o para todas las variables de la base datos si no se especifica la
variable de interés. En las opciones se pueden definir el nivel de confianza y dividir por una
variable categórica

mean temp rain altitude slope pob2001 rural2001 nbi2001 idh2001 espvida2001

Mean estimation Number of obs = 311

--------------------------------------------------------------
| Mean Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
temp | 15.16249 .3932107 14.38879 15.93619
rain | 81.73835 3.054501 75.72817 87.74852
altitude | 2500.825 84.22095 2335.108 2666.542
slope | 40.59374 1.84673 36.96003 44.22745
pob2001 | 26605.55 5263.316 16249.2 36961.89
rural2001 | .8132849 .0160279 .7817476 .8448222
nbi2001 | 84.27705 1.016665 82.27661 86.27749
idh2001 | .5480803 .0045009 .5392241 .5569365
espvida2001 | 60.43313 .2852827 59.8718 60.99447
--------------------------------------------------------------

mean idh2001, level (99) over(altura)

Mean estimation Number of obs = 311

Baja: altura = Baja


Media: altura = Media
Alta: altura = Alta

--------------------------------------------------------------
Over | Mean Std. Err. [99% Conf. Interval]
-------------+------------------------------------------------
idh2001 |
Baja | .609065 .0055276 .5947387 .6233913
Media | .5360594 .0091579 .5123241 .5597948
Alta | .5233585 .0060315 .5077262 .5389909
--------------------------------------------------------------

mean idh2001, level (99) over(altura region)

Mean estimation Number of obs = 311

37
Over: altura region
_subpop_1: Baja Urbana
_subpop_2: Baja Rural
_subpop_3: Media Urbana
_subpop_4: Media Rural
_subpop_5: Alta Urbana
_subpop_6: Alta Rural

--------------------------------------------------------------
Over | Mean Std. Err. [99% Conf. Interval]
-------------+------------------------------------------------
idh2001 |
_subpop_1 | .6525902 .0072956 .6336817 .6714988
_subpop_2 | .5833052 .0047396 .5710211 .5955893
_subpop_3 | .686233 .0125693 .6536562 .7188098
_subpop_4 | .5237164 .0083404 .5020999 .545333
_subpop_5 | .6394221 .0111527 .6105167 .6683275
_subpop_6 | .5117522 .0056766 .4970397 .5264647
--------------------------------------------------------------

El comando histogram gráfica la distribución de frecuencia de una variable continua, donde se


puede introducir el intervalo de confianza. Los comandos para obtener una gráfica con los
estadísticos son:

histogram idh2001 if altura==1, freq kdensity bin(16)/*


*/ xaxis(1 2) /*
*/ ylabel(0(2)14, grid) /*
*/ xlabel(0.5(0.02)0.76, axis(1)) /*
*/ xlabel(0.609065 "Media" /*
*/ 0.59483143 "LIC" /*
*/ 0.62329857 "LSC", axis(2) grid gmax labsize(vsmall) ) /*
*/ title("Municipios con Altura Baja: IDH") subtitle("Intervalo de Confianza (99%)")/*
*/ xtitle("Indice de Desarrollo Humano", axis(1)) /*
*/ xtitle("", axis(2)) /*
*/ ytitle("Frecuencia") /*
*/ note("Fuente: Estimación del autor")
graph rename figura15, replace
graph save figura15, replace

38
Municipios con Altura Baja: IDH
Intervalo de Confianza (99%)
LIC Media LSC

14
12 10
Frecuencia
6 8
4
2
0

.5 .52 .54 .56 .58 .6 .62 .64 .66 .68 .7 .72 .74 .76
Indice de Desarrollo Humano
Fuente: Estimación del autor

4.4. Prueba de Hipótesis

El propósito del análisis estadístico es reducir el nivel de incertidumbre en el proceso de toma de


decisiones. La prueba de hipótesis es una herramienta analítica muy efectiva para obtener esta
valiosa información, bajo una variedad de circunstancias.

Para realizar una prueba de hipótesis, se hacen algunas inferencias o supuestos acerca de la
población. Por ejemplo, un investigador puede asumir o plantear la hipótesis que la temperatura
promedio es de 16°C en Bolivia. Esta hipótesis nula (;< ) se prueba contra la hipótesis alternativa
(;= ) que establece lo contrario. En este caso, la temperatura promedio no es de 16°C (0 ≠ 16).

;< : 0  16
Por tanto, se tendrá que:

;= : 0 ≠ 16

Con base en los datos muestrales, esta hipótesis nula es rechazada o no rechazada. Nunca se
puede “aceptar” la hipótesis nula como verdadera. El no rechazo de la hipótesis nula solamente

Incluso si   16, no prueba que 0  16. Podría ser que 0  15.8 (o cualquier otro número), y
significa que la evidencia muestral no es lo suficientemente fuerte como para llevar a su rechazo.

39
debido al error de muestreo la media muestral acaba de igualar al valor de 16 que se plantea
como hipótesis.

Si la diferencia entre el valor de la media de 16 bajo la hipótesis y el hallado en la muestra de


16.15 es insuficiente para rechazar la hipótesis nula, el asunto entonces se vuelve simplemente
qué tan grande debe ser la diferencia para que sea estadísticamente significativa y conduzca un
rechazo de la hipótesis nula. Por tanto, debemos transformar toda unidad de medida hasta los
valores correspondientes de Z con la fórmula Z:

 0  0
1 -
-) D

Si - es desconocida, se utiliza la desviación estándar muestral s.

La distribución normal resultante de los valores de Z tiene una media de cero y una desviación
estándar de uno. La regla empírica dice que el 95% de las medias en la distribución de muestra
están a 1.96 errores estándar de la media poblacional desconocida, tal como se muestra en la
Figura 5.

Los valores críticos de Z de ±1.96 permiten establecer una regla de decisión que diga si se

valores Z están entre ±1.96. Se rechaza si el valor es menor que de 1.96 o mayor que de
rechaza la hipótesis nula o no. La regla de decisión es: “No se rechaza la hipótesis nula si lo

+1.96”.

Figura 5. Valores críticos de Z y zonas de rechazo

40
Al probar una hipótesis se pueden cometer dos tipos de errores.

Un error tipo I es rechazar una hipótesis nula que es verdadera. El valor alfa (F) representa la
probabilidad de un error tipo I.

Un error tipo II es no rechazar una hipótesis nula que es falsa. Mientras que la probabilidad de

G, no se determina fácilmente. No se puede asumir que F + G  1.


error tipo I es un valor seleccionado, la probabilidad de un error tipo II, representado con la letra

Los niveles de significancia, o valores F, comúnmente seleccionados para pruebas de hipótesis

especial o mágico sobre estos valores F. Se podría probar una hipótesis con un nivel de
son del 10%, 5% y 1%. Sin embargo, al igual que con los intervalos de confianza no hay nada

significancia del 4% si así se decide. La selección de un valor F depende del tipo de error, tipo I o
tipo II, que más se desea evitar.

En general, hay cuatro pasos involucrados en una prueba de hipótesis:


1. Plantear la hipótesis;
2. Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z;
3. Determinar la regla de decisión con base en los valores críticos de Z;
4. Interpretación y conclusiones.

41
El comando ttest realiza pruebas “t” para la igualdad de medias en tres formas. La primera forma
prueba que la variable de interés tiene una media determinada (un número propuesto por el
investigador). En la segunda forma, la prueba si dos variables tienen la misma media, suponiendo
datos no apareados. En la tercera forma realiza la prueba si dos variables tienen la misma
suponiendo datos apareados. Finalmente, la cuarta forma realiza la prueba si una variable
determinada tiene la misma media en dos grupos definidos.

Prueba de hipótesis de la primera forma:

;< : 0  0.609
Primer caso:

;= : 0 ≠ 0.609

ttest idh2001=0.609 if altura==1

One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
idh2001 | 78 .609065 .0055276 .0488183 .5980582 .6200718
------------------------------------------------------------------------------
mean = mean(idh2001) t = 0.0118
Ho: mean = 0.609 degrees of freedom = 77

Ha: mean < 0.609 Ha: mean != 0.609 Ha: mean > 0.609
Pr(T < t) = 0.5047 Pr(|T| > |t|) = 0.9906 Pr(T > t) = 0.4953

El valor estimado de t está dentro de los valores críticos, en ese sentido, en todos los casos se
acepta la hipótesis nula.

;< : 0  0.7
Segundo caso:

;= : 0 ≠ 0.7

ttest idh2001=0.7 if altura==1

One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
idh2001 | 78 .609065 .0055276 .0488183 .5980582 .6200718
------------------------------------------------------------------------------
mean = mean(idh2001) t = -16.4511
Ho: mean = 0.7 degrees of freedom = 77

Ha: mean < 0.7 Ha: mean != 0.7 Ha: mean > 0.7
Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 1.0000

42
El valor estimado de t está por debajo de valor crítico, en ese sentido, en todos los casos se

;= : 0 ≠ 0.7
rechaza la hipótesis nula en los casos:

;= : 0 < 0.7

En cambio, se acepta la hipótesis nula en el caso de:

;= : 0 > 0.7

;< : 0  0.5
Tercer caso:

;= : 0 ≠ 0.5

ttest idh2001=0.5 if altura==1

One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
idh2001 | 78 .609065 .0055276 .0488183 .5980582 .6200718
------------------------------------------------------------------------------
mean = mean(idh2001) t = 19.7311
Ho: mean = 0.5 degrees of freedom = 77

Ha: mean < 0.5 Ha: mean != 0.5 Ha: mean > 0.5
Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 0.0000

El valor estimado de t está por debajo de valor crítico, en ese sentido, en todos los casos se

;= : 0 ≠ 0.5
rechaza la hipótesis nula en los casos:

;= : 0 > 0.5

En cambio, se acepta la hipótesis nula en el caso de:

;= : 0 < 0.5

43
4.5. Pruebas cuando se tienen dos poblaciones

Muchos problemas requieren la comparación de dos poblaciones; sin embargo, para hacer dicha
comparación se debe cumplir ciertas circunstancias en las cuales es esencial comparar dos
poblaciones y la forma apropiada como deben hacerse tales comparaciones.

Aquí el interés está en estimar la diferencia entre dos medias poblacionales (0 0 ). El método
apropiado depende de los tamaños de las muestras  y  . Si tanto  como  son grandes (por
lo menos 30), la técnica difiere en algo de aquella que se utiliza cuando alguno o ambos tamaños
muestrales son de menor de 30.

4.5.1. Estimación con muestras grandes

La estimación puntual de la diferencia entre (0 0 ) está dada por la diferencia entre las dos
medias muestrales (  ). Ya que muchas muestras diferentes pueden tomarse de cada
población, resulta toda una distribución de diferencias de estas medias muestrales. Si tanto 
como  son grandes, la distribución de las diferencias entre las medias muestrales (  ) es
una distribución normal centrada en (0 0 ).

El intervalo de confianza para la diferencia entre dos medias poblacionales (muestras grandes) es:

5& J (0 0 )  (  ) ± 1 ∙ -)K L)M

En donde -)K L)M es el error estándar de las diferencias entre las medias muestrales, que está dado
por:

- -
-)K L)M  N
 

4.5.2. Estimación con muestras pequeñas

diferencias en las medias muestrales (  ) se ajusta a una distribución normal. Debemos
Si cualquier muestra es pequeña (menor que 30), no se puede asumir que la distribución de las

utilizar la distribución t si: 1) las poblaciones están distribuidas normalmente o distribuidas casi
no normalmente; y 2) las varianzas poblacionales son desconocidas.

44
El comando ttest realiza la prueba si una variable determinada tiene la misma media en dos
grupos definidos.

ttest idh2001, by(region)

Two-sample t test with equal variances


------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
Urbana | 49 .6529474 .0058251 .040776 .6412352 .6646597
Rural | 262 .5284678 .0042474 .0687504 .5201042 .5368313
---------+--------------------------------------------------------------------
combined | 311 .5480803 .0045009 .0793745 .5392241 .5569365
---------+--------------------------------------------------------------------
diff | .1244797 .0101475 .1045127 .1444467
------------------------------------------------------------------------------
diff = mean(Urbana) - mean(Rural) t = 12.2670
Ho: diff = 0 degrees of freedom = 309
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 0.0000

ttest idh2001, by(altura) // La variable altura tiene tres categorias


more than 2 groups found, only 2 allowed

r(420);

ttest idh2001 if altura==1, by(region)

Two-sample t test with equal variances


------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
Urbana | 29 .6525902 .0072956 .0392879 .6376459 .6675345
Rural | 49 .5833052 .0047396 .0331774 .5737756 .5928349
---------+--------------------------------------------------------------------
combined | 78 .609065 .0055276 .0488183 .5980582 .6200718
---------+--------------------------------------------------------------------
diff | .069285 .0083292 .052696 .085874
------------------------------------------------------------------------------
diff = mean(Urbana) - mean(Rural) t = 8.3184
Ho: diff = 0 degrees of freedom = 76
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0

45
Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 0.0000

46